JP4065346B2 - Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method - Google Patents
Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method Download PDFInfo
- Publication number
- JP4065346B2 JP4065346B2 JP20203597A JP20203597A JP4065346B2 JP 4065346 B2 JP4065346 B2 JP 4065346B2 JP 20203597 A JP20203597 A JP 20203597A JP 20203597 A JP20203597 A JP 20203597A JP 4065346 B2 JP4065346 B2 JP 4065346B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- occurrence
- search
- synonym
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合に発生する過剰検索を回避可能な単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】
コンピュータの発達に伴って、紙を媒体として記録・保存されていた文書についても、電子化された情報として取り扱うことが一般的となり、大量の電子化された文書がデータベースに蓄積されることとなっている。
【0003】
ところで、大量の電子化された文書が蓄積されていくに従って、大量の文書の中から所望の文書を容易に探し出すことができる検索技術が重要となってくる。特に、誰もがコンピュータを用いて作業を行う今日にあっては、特殊な手法を用いることなく、コンピュータの初心者であっても簡単に所望の文書を検索できるような検索システムを構築することが重要なポイントとなる。
【0004】
また、簡単な操作で精度の高い検索を行えることも重要なポイントである。例えば、検索精度の向上を図るための方法として、検索式、検索文または検索用キーワード群で表現された検索条件から、該検索条件を構成するキーワードを抽出し、抽出したキーワードの類義語を用いてキーワードの拡張を行い、拡張したキーワードを用いて検索処理を行う検索方法が知られている。
【0005】
【発明が解決しようとする課題】
しかしながら、上記従来の技術によれば、類義語を用いてキーワードを拡張することにより、検索精度の向上を図っているものの、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合には、利用者の意図しない検索処理が行われたり、キーワードの拡張過剰によって過剰検索が発生するという問題点があった。
【0006】
換言すれば、検索処理を行うシステム側から見た場合には、検索精度の向上を図っているものの、利用者側から見た場合には、必ずしも検索精度の向上に繋がらないという問題点があった。特に、利用者の意図しない検索処理が行われると、検索結果から目的とする情報を捜し出す(検索する)必要があり、作業性が悪い、使い勝手が悪いという不具合や、検索精度に対する信頼性が損なわれるという不具合が発生する。また、過剰検索が行われると、処理時間が長くなるという不具合が発生する。
【0007】
本発明は上記に鑑みてなされたものであって、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合でも、利用者の意図する検索処理を効率的に行い、かつ、過剰検索を回避できるようにすることを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するため、この単語間の共起性を用いたキーワードの拡張方法は、検索式、検索文または検索用キーワード群で表現された検索条件を入力し、前記検索条件を構成するキーワードを抽出する第1の工程と、前記第1の工程で抽出したキーワードの類義語を求める第2の工程と、前記第1の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて前記第2の工程で求めた類義語から共起性の低い類義語を除外する第3の工程と、前記第2の工程で求めた類義語または第3の工程で前記共起性の低い類義語を除外した後の類義語を用いて、前記第1の工程で抽出したキーワードを拡張する第4の工程と、を含むものである。
【0009】
また、この単語間の共起性を用いたキーワードの拡張方法は、検索式、検索文または検索用キーワード群で表現された検索条件を入力し、前記検索条件を構成するキーワードを抽出する第1の工程と、前記第1の工程で抽出したキーワードの類義語を求める第2の工程と、前記第1の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて前記第2の工程で求めた類義語から共起性の低い類義語を除外する第3の工程と、前記第2の工程で求めた類義語または第3の工程で前記共起性の低い類義語を除外した後の類義語から、キーワードの拡張に使用する類義語を選択する第4の工程と、前記第4の工程で選択された類義語を用いて、前記第1の工程で抽出したキーワードを拡張する第5の工程と、を含むものである。
【0010】
また、この単語間の共起性を用いたキーワードの拡張方法は、上記の単語間の共起性を用いたキーワードの拡張方法において、前記第4の工程が、さらに任意の単語を類義語として追加可能であるものである。
【0011】
さらに、このコンピュータ読み取り可能な記録媒体は、上記の単語間の共起性を用いたキーワードの拡張方法の各工程をコンピュータに実行させるためのプログラムを記録したものである。
【0012】
【発明の実施の形態】
以下、単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体の一実施の形態について、添付の図面を参照しつつ詳細に説明する。
【0013】
図1は、本実施の形態の単語間の共起性を用いたキーワードの拡張方法を実現するためのコンピュータのハードウエア構成を示すブロック構成図である。図1において、100はCPUを、101はROMを、102はRAMを、103はベクトル空間法を用いた検索処理を行う検索ソフト104を格納したハードディスク装置を、105はキーボードやマウス等の入力装置を、106はCRT等のディスプレイを、107は検索対象文書を格納した文書DBを、108は上記各部を接続するためのバスを示している。
【0014】
なお、図示は省略するが、バス108には、さらに、フロッピーディスクドライブ装置や、CD−ROMドライブ装置、ネットワークを介して情報の送受信を行うための通信装置等を接続することができる。
【0015】
次に、本実施の形態の単語間の共起性を用いたキーワードの拡張方法による具体的な処理について、(1)ベクトル空間法を用いた検索処理(2)単語間の共起性を用いたキーワードの拡張処理の順で詳細に説明していくことにする。
【0016】
(1)ベクトル空間法を用いた検索処理
図2は、図1に示した検索ソフト104の処理を示す概略ブロック図である。この図2を用いて検索ソフト104によるベクトル空間法を用いた検索処理を説明することにより、後に説明する単語間の共起性を用いたキーワードの拡張処理の前提となる技術を説明する。
【0017】
検索ソフト104は、ベクトル空間法による検索処理を可能とするために、文書DB107に格納された検索対象文書を転置ファイル205に登録する処理およびベクトル空間法による検索処理を行うものである。
【0018】
a.検索対象文書を転置ファイルに登録する処理
検索対象文書を転置ファイル205に登録する処理は、図2に示す自然言語処理モジュール200およびデータベース・ビルド・コンポーネント204によって行われる。
【0019】
自然言語処理モジュール200は、文書DB107から検索対象文書を入力し、入力した検索対象文書について、フォーマットの認識処理や、品詞情報を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析等の解析処理を行う。そして、解析結果に基づいて、検索対象文書を複数のセンテンスからなるサブドキュメントに区切り、サブドキュメントから名詞句を抽出した後,サブドキュメント毎の名詞句リストからなるドキュメント・セット203を生成する。
【0020】
データベース・ビルド・コンポーネント204は、自然言語処理モジュール200で生成した検索対象文書のドキュメント・セット203を入力し、入力したドキュメント・セット203の各名詞句について、サブドキュメント中の出現頻度,文書DB107全体における分布等の統計情報を求め、求めた名詞句毎の統計情報を用いてサブドキュメントをベクター表現に変換する。この処理をドキュメント・セット203中の全てのサブドキュメントについて行い、変換したサブドキュメントのベクター表現に基づいて、検索対象文書のベクター表現を生成し、転置ファイル205に登録する。
【0021】
このようにして、文書DB107中の各検索対象文書がベクター表現に変換されて転置ファイル205に登録される。これにより、ベクトル空間法による検索処理を行うことができるようになる。
【0022】
b.ベクトル空間法による検索処理
ベクトル空間法による検索処理は、図2に示す自然言語処理モジュール200,クエリー・ビルド・コンポーネント207および検索エンジン209によって行われる。
【0023】
自然言語処理モジュール200は、入力装置105から検索条件206を入力し、入力した検索条件206について、品詞情報を格納した辞書201および各単語の係り受け等を解析するための文法辞書202を用いて形態素解析,構文解析等の解析処理を行い、検索条件206を構成するキーワードを抽出する。そして、抽出したキーワードの類義語や関連語をシソーラス辞書210から抽出し、抽出した類義語を用いてキーワードを拡張した後、キーワードからなるドキュメント・セット203を生成する。
【0024】
クエリー・ビルド・コンポーネント207は、自然言語処理モジュール200から検索条件206のドキュメント・セット203を入力し、入力したドキュメント・セット203中の各キーワードについて、ドキュメント・セット203中の出現頻度,転置ファイル205全体における分布等の統計情報を求め、求めた統計情報を用いて各キーワードをベクター表現に変換したクエリー・ドキュメント208をそれぞれ生成する。
【0025】
検索エンジン(例えば、CLARITECH社のCLARIT)209は、クエリー・ビルド・コンポーネント207で生成したクエリー・ドキュメント208毎に、転置ファイル205中の検索対象文書のベクター表現との類似度を求めた後、検索対象文書にクエリー・ドキュメント208との類似度に応じたスコアリングを行い、判定閾値を超えるスコアの検索対象文書を検索結果として出力する。
【0026】
(2)単語間の共起性を用いたキーワードの拡張処理
続いて、単語間の共起性を用いたキーワードの拡張処理について説明する。この単語間の共起性を用いたキーワードの拡張処理は、上述したベクトル空間法による検索処理を行う際に、自然言語処理モジュール200において行われるものである。すなわち、自然言語処理モジュール200において、検索条件206から抽出したキーワードの類義語や関連語をシソーラス辞書210から抽出し、抽出した類義語を用いてキーワードを拡張する際に実行される。
【0027】
図3は、単語間の共起性を用いたキーワードの拡張処理を示すフローチャートである。検索ソフト104は、入力装置105から検索条件206を入力すると(S301)、自然言語処理モジュール200において、入力した検索条件206を解析して、検索条件206を構成するキーワードを抽出する処理を行う(S302)。ここで、検索条件206は、検索式、検索文または検索用キーワード群のいずれで表現されたものであっても良い。
【0028】
ステップS302で検索条件206を構成するキーワードを抽出した後、抽出したキーワードが複数存在するか否かを判定する(S303)。
【0029】
抽出したキーワードが複数存在する場合には、抽出したキーワード毎に該当する類義語や関連語をシソーラス辞書210から抽出する処理を行う(S304)。
【0030】
そして、シソーラス辞書210から類義語や関連語を抽出すると、単語間の共起性に基づいて、抽出した類義語や関連語から共起性の低い類義語や関連語を除外する処理を行う(S305)。
【0031】
ここで、ステップS305における処理を詳細に説明する。入力した検索条件206が、例えば「乗用車の新モデル」という検索文である場合、ステップS302において、「乗用車」および「モデル」が検索条件206のキーワードとして抽出される。そして、ステップS303において、キーワードである「乗用車」および「モデル」のそれぞれについて類義語や関連語が抽出される。
【0032】
図4は、キーワードである「モデル」の類義語や関連語を抽出した結果の一例を示す説明図である。図4から明らかなように、キーワード「モデル」について多数の類義語や関連語が抽出されている。そこで、ステップS305において、もう一つのキーワードである「乗用車」との共起性が低い類義語や関連語を除外する処理が行われる。
【0033】
図5は、図4に示した「モデル」の類義語や関連語から「乗用車」との共起性が低いものを除外した結果の一例を示す説明図である。図4および図5から明らかなように、「乗用車」との共起性が低い「美人」,「モード」等の類義語や関連語が除外されていることがわかる。もし、検索条件206が「水着のモデル」であったならば、図5で除外されている類義語や関連語は異なるものとなる。
【0034】
上述したようにして、共起性の低い類義語や関連語を除外した後、図3のステップS306に進み、共起性の低い類義語や関連語を除外した後の類義語や関連語を用いてキーワードを拡張する処理を行う。
【0035】
一方、ステップS303において検索条件206から抽出したキーワードが複数存在しない場合は、ステップS307に進み、抽出したキーワードに該当する類義語や関連語をシソーラス辞書210から抽出する処理を行った後、抽出した類義語や関連語でキーワードを拡張する処理を行う(S306)。
【0036】
そして、ステップS306で拡張されたキーワードは、図2を用いて説明したように、ドキュメント・セット203としてクエリー・ビルド・コンポーネント207に出力される。
【0037】
なお、上記説明においては、ステップS307で抽出した類義語や関連語またはステップS305で共起性の低い類義語や関連語を除外した後の類義語や関連語でそのままキーワードの拡張を行うことにしているが、キーワードの拡張を行う前に、キーワードの拡張に使用する類義語や関連語を選択することができるようにすることもできる。
【0038】
図6は、キーワードの拡張前に類義語や関連語を選択するための選択画面の一例を示す説明図である。図6において、600は検索条件入力ウィンドウを、601は検索条件入力欄を、602は類義語・関連語選択ウィンドウをそれぞれ示している。
【0039】
検索条件入力欄601に検索条件206を入力すると、図3のステップS305までの処理が行われ、キーワードの拡張のために抽出された類義語や関連語が類義語・関連語選択ウィンドウ602に表示される。図6では、図5と同様に、キーワード「モデル」について共起性の低い類義語や関連語を除外した後の類義語や関連語が類義語・関連語選択ウィンドウ602に表示されている。
【0040】
ユーザは、表示された類義語・関連語選択ウィンドウ602中の類義語や関連語から、ある類義語や関連語をキーワードの拡張に使用するという指定または使用しないという指定を行うことにより、キーワードの拡張に用いる類義語や関連語を選択することができる。また、類義語・関連語選択ウィンドウ602中に所望の類義語や関連語が存在しない場合には、ユーザの好みに応じた任意の単語を類義語や関連語として追加することができる。
【0041】
このように、本実施の形態の単語間の共起性を用いたキーワードの拡張方法によれば、検索条件206から抽出したキーワードが複数存在する場合に、単語間の共起性に基づいてシソーラス辞書210から抽出した類義語や関連語から共起性の低い類義語や関連語を除外するため、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合でも、利用者の意図する検索処理を効率的に行うことができ、かつ、過剰検索を回避することができる。
【0042】
なお、本実施の形態において、図1に示したコンピュータをネットワークに接続することにより、検索サーバとして用いることができる。したがって、この場合は、ネットワークに接続されたクライアントから検索条件206を入力することになる。
【0043】
また、本実施の形態においては、図2を用いて説明したように、ベクトル空間法による検索処理を前提にして説明したが、ベクトル空間法による検索処理に代えて、ブーリアン検索による検索処理を行うことができることは明らかである。
【0044】
さらに、本実施の形態で説明した単語間の共起性を用いたキーワードの拡張方法は、予め用意されたプログラム(検索ソフト104)を図1に示したパーソナルコンピュータやワークステーション等のコンピュータで実行することによって実現される。このプログラムは、ハードディスク,フロッピーディスク,CD−ROM,MO,DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、このプログラムは、上記記録媒体を介して、またはネットワークを介して配布することができる。
【0045】
【発明の効果】
以上説明したように、本発明の単語間の共起性を用いたキーワードの拡張方法によれば、検索式、検索文または検索用キーワード群で表現された検索条件を入力し、検索条件を構成するキーワードを抽出する第1の工程と、第1の工程で抽出したキーワードの類義語を求める第2の工程と、第1の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて第2の工程で求めた類義語から共起性の低い類義語を除外する第3の工程と、第2の工程で求めた類義語または第3の工程で共起性の低い類義語を除外した後の類義語を用いて、第1の工程で抽出したキーワードを拡張する第4の工程と、を含むため、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合でも、利用者の意図する検索処理を効率的に行うことができ、かつ、過剰検索を回避することができる。
【0046】
また、本発明の単語間の共起性を用いたキーワードの拡張方法によれば、検索式、検索文または検索用キーワード群で表現された検索条件を入力し、検索条件を構成するキーワードを抽出する第1の工程と、第1の工程で抽出したキーワードの類義語を求める第2の工程と、第1の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて第2の工程で求めた類義語から共起性の低い類義語を除外する第3の工程と、第2の工程で求めた類義語または第3の工程で共起性の低い類義語を除外した後の類義語から、キーワードの拡張に使用する類義語を選択する第4の工程と、第4の工程で選択された類義語を用いて、第1の工程で抽出したキーワードを拡張する第5の工程と、を含むため、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合でも、利用者の意図する検索処理を効率的に行うことができ、かつ、過剰検索を回避することができる。
【0047】
また、本発明の単語間の共起性を用いたキーワードの拡張方法によれば、上記の単語間の共起性を用いたキーワードの拡張方法において、第4の工程は、さらに任意の単語を類義語として追加可能であるため、さらに利用者の意図する検索処理を効率的に行うことができる。
【0048】
また、本発明のコンピュータ読み取り可能な記録媒体によれば、上記の単語間の共起性を用いたキーワードの拡張方法の各工程をコンピュータに実行させるためのプログラムを記録したため、このプログラムをコンピュータに実行させることにより、多義性を有する単語がキーワードである場合や、多数の類義語を有する単語がキーワードである場合でも、利用者の意図する検索処理を効率的に行うことができ、かつ、過剰検索を回避することができる。
【図面の簡単な説明】
【図1】本実施の形態の単語間の共起性を用いたキーワードの拡張方法を実現するためのコンピュータのハードウエア構成を示すブロック構成図である。
【図2】本実施の形態の単語間の共起性を用いたキーワードの拡張方法において、検索ソフトの処理を示す概略ブロック図である。
【図3】本実施の形態の単語間の共起性を用いたキーワードの拡張方法において、単語間の共起性を用いたキーワードの拡張処理を示すフローチャートである。
【図4】本実施の形態の単語間の共起性を用いたキーワードの拡張方法において、キーワードである「モデル」の類義語や関連語を抽出した結果の一例を示す説明図である。
【図5】図4に示した「モデル」の類義語や関連語から「乗用車」との共起性が低いものを除外した結果の一例を示す説明図である。
【図6】本実施の形態の単語間の共起性を用いたキーワードの拡張方法において、キーワードの拡張前に類義語や関連語を選択するための選択画面の一例を示す説明図である。
【符号の説明】
100 CPU
101 ROM
102 RAM
103 ハードディスク装置
104 検索ソフト
105 入力装置
106 ディスプレイ
107 文書DB
108 バス
200 自然言語処理モジュール
201 辞書
202 文法辞書
203 ドキュメント・セット
204 データベース・ビルド・コンポーネント
205 転置ファイル
206 検索条件
207 クエリー・ビルド・コンポーネント
208 クエリー・ドキュメント
209 検索エンジン
210 シソーラス辞書
600 検索条件入力ウィンドウ
601 検索条件入力欄
602 類義語・関連語選択ウィンドウ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a keyword expansion method using co-occurrence between words that can avoid excessive search that occurs when a word having ambiguity is a keyword or a word having many synonyms is a keyword, and The present invention relates to a computer-readable recording medium on which a program for causing a computer to execute each step of the method is recorded.
[0002]
[Prior art]
With the development of computers, documents that have been recorded and stored on paper as a medium are generally handled as digitized information, and a large amount of digitized documents will be accumulated in the database. ing.
[0003]
By the way, as a large amount of electronic documents are accumulated, a search technique that can easily find a desired document from a large amount of documents becomes important. In particular, today, when everyone works using a computer, it is possible to construct a search system that allows a beginner of a computer to easily search for a desired document without using a special technique. It becomes an important point.
[0004]
It is also important to be able to perform highly accurate searches with simple operations. For example, as a method for improving the search accuracy, a keyword constituting the search condition is extracted from a search condition expressed by a search expression, a search sentence, or a search keyword group, and a synonym of the extracted keyword is used. A search method is known in which keywords are expanded and search processing is performed using the expanded keywords.
[0005]
[Problems to be solved by the invention]
However, according to the above conventional technique, the search accuracy is improved by expanding the keyword using the synonym. However, when the word having ambiguity is a keyword or when the word having a large number of synonyms is used. In the case of keywords, there are problems that search processing unintended by the user is performed and excessive search occurs due to excessive expansion of keywords.
[0006]
In other words, the search accuracy is improved when viewed from the system side that performs the search processing, but the search accuracy is not necessarily improved when viewed from the user side. It was. In particular, when a search process that is not intended by the user is performed, it is necessary to search for (search for) the target information from the search results, resulting in problems such as poor workability and poor usability, and loss of reliability in search accuracy. A malfunction occurs. In addition, when excessive search is performed, a problem that processing time becomes long occurs.
[0007]
The present invention has been made in view of the above, and even when a word having ambiguity is a keyword or when a word having many synonyms is a keyword, the search process intended by the user is efficiently performed. The purpose of this is to make it possible to avoid excessive searches.
[0008]
[Means for Solving the Problems]
To achieve the above object, expansion of keywords using the co-occurrence between words this is to enter the search expression, the search condition expressed by retrieval text or search keyword group, constitute the search condition A first step of extracting a keyword; a second step of obtaining a synonym of the keyword extracted in the first step; and a co-occurrence between words when a plurality of keywords extracted in the first step exist. A synonym obtained in the second step based on sex and a synonym obtained in the second step, and a synonym obtained in the second step or the low co-occurrence in the third step. And a fourth step of expanding the keyword extracted in the first step using the synonym after the synonym is excluded.
[0009]
Further, expansion of keywords using the co-occurrence between words this is the extracts keywords search expression, enter search criteria expressed in the search text or search keyword group, constitute the search condition 1 step, a second step for obtaining a synonym of the keyword extracted in the first step, and a plurality of keywords extracted in the first step, based on the co-occurrence between words After excluding a synonym having a low co-occurrence from the synonym obtained in the second step, a synonym obtained in the second step, or a synonym obtained in the second step or a synonym having a low co-occurrence in the third step A fourth step of selecting a synonym to be used for keyword expansion from the synonyms of No. 5 and a fifth step of expanding the keyword extracted in the first step by using the synonym selected in the fourth step And.
[0010]
Also, the keyword method extended using co-occurrence between words this is the keyword expansion method using co-occurrence between said word, said fourth step further arbitrary word as synonyms It can be added.
[0011]
Further, the computer-readable recording medium of this is obtained by recording a program for executing the steps of the keyword expansion method using co-occurrence between said word to the computer.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of a keyword expansion method using co-occurrence between words and a computer-readable recording medium storing a program for causing a computer to execute each step of the method will be described with reference to the accompanying drawings. However, this will be described in detail.
[0013]
FIG. 1 is a block configuration diagram showing a hardware configuration of a computer for realizing a keyword expansion method using co-occurrence between words according to the present embodiment. In FIG. 1, 100 is a CPU, 101 is a ROM, 102 is a RAM, 103 is a hard disk device storing
[0014]
Although not shown, the
[0015]
Next, regarding specific processing by the keyword expansion method using co-occurrence between words according to the present embodiment, (1) search processing using vector space method (2) co-occurrence between words is used. The details will be described in the order of the keyword expansion processing.
[0016]
(1) Search Processing Using Vector Space Method FIG. 2 is a schematic block diagram showing processing of the
[0017]
The
[0018]
a. Processing for Registering Search Target Document in Transposed File Processing for registering a search target document in transposed
[0019]
The natural
[0020]
The
[0021]
In this way, each search target document in the
[0022]
b. Search Processing by Vector Space Method Search processing by the vector space method is performed by the natural
[0023]
The natural
[0024]
The
[0025]
A search engine (for example, CLARTECH's CLARIT) 209 searches each
[0026]
(2) Keyword Expansion Processing Using Word Co-occurrence Next, keyword expansion processing using word co-occurrence will be described. The keyword expansion process using the co-occurrence between words is performed in the natural
[0027]
FIG. 3 is a flowchart showing keyword expansion processing using co-occurrence between words. When the
[0028]
After extracting keywords constituting the
[0029]
If there are a plurality of extracted keywords, a process is performed for extracting corresponding synonyms and related words from the
[0030]
When synonyms and related words are extracted from the
[0031]
Here, the process in step S305 will be described in detail. If the
[0032]
FIG. 4 is an explanatory diagram illustrating an example of a result of extracting synonyms and related words of the “model” that is a keyword. As is clear from FIG. 4, a number of synonyms and related terms are extracted for the keyword “model”. Therefore, in step S305, processing for excluding synonyms and related words having low co-occurrence with another keyword "passenger car" is performed.
[0033]
FIG. 5 is an explanatory diagram illustrating an example of a result of excluding those having low co-occurrence with “passenger car” from the synonyms and related words of “model” illustrated in FIG. 4. As is clear from FIGS. 4 and 5, synonyms and related terms such as “beauty” and “mode” having low co-occurrence with “passenger car” are excluded. If the
[0034]
As described above, after synonyms and related words having low co-occurrence are excluded, the process proceeds to step S306 in FIG. 3, and keywords are used by using synonyms and related words after removing synonyms and related words having low co-occurrence. Process to extend.
[0035]
On the other hand, if a plurality of keywords extracted from the
[0036]
Then, the keyword expanded in step S306 is output to the
[0037]
In the above description, the keyword is expanded as it is with the synonym or related word extracted in step S307 or the synonym or related word after excluding the low-co-occurrence synonym or related word in step S305. It is also possible to select synonyms and related words used for keyword expansion before keyword expansion.
[0038]
FIG. 6 is an explanatory diagram illustrating an example of a selection screen for selecting synonyms and related words before keyword expansion. In FIG. 6,
[0039]
When the
[0040]
The user uses the synonym / related word in the displayed synonym / related
[0041]
As described above, according to the keyword expansion method using the co-occurrence between words according to the present embodiment, when there are a plurality of keywords extracted from the
[0042]
In this embodiment, the computer shown in FIG. 1 can be used as a search server by connecting to a network. Therefore, in this case, the
[0043]
In the present embodiment, as described with reference to FIG. 2, the description has been made on the assumption that the search processing by the vector space method is performed, but instead of the search processing by the vector space method, the search processing by Boolean search is performed. Obviously it can be done.
[0044]
Furthermore, the keyword expansion method using the co-occurrence between words described in this embodiment is executed by executing a prepared program (search software 104) on a computer such as a personal computer or a workstation shown in FIG. It is realized by doing. This program is recorded on a computer-readable recording medium such as a hard disk, floppy disk, CD-ROM, MO, or DVD, and is executed by being read from the recording medium by the computer. The program can be distributed via the recording medium or via a network.
[0045]
【The invention's effect】
As described above, according to the extended how keywords using co-occurrence between words of the present invention, by entering the search expression, the search condition expressed by retrieval text or search keyword group, the search condition Co-occurrence between words when there are a plurality of keywords extracted in the first step, a second step for obtaining synonyms of the keywords extracted in the first step, and a keyword extracted in the first step The third step of excluding synonyms with low co-occurrence from the synonyms determined in the second step based on gender, and the synonyms determined in the second step or synonyms with low co-occurrence in the third step are excluded And the fourth step of expanding the keyword extracted in the first step using the synonyms after being performed. Therefore, when a word having ambiguity is a keyword, or a word having a number of synonyms is a keyword. Even if there is, The search process of FIG efficiently can be performed, and it is possible to avoid excessive search.
[0046]
Further, according to the extended how keywords using co-occurrence between words of the present invention, queries, enter search criteria expressed in the search text or search keyword group, keywords that constitute the search condition Based on the co-occurrence between words when there are a plurality of first keywords extracted in the first step, a second step for obtaining synonyms of the keywords extracted in the first step, and keywords extracted in the first step The third step of excluding synonyms with low co-occurrence from the synonyms obtained in the second step, and the synonyms after excluding synonyms obtained in the second step or synonyms with low co-occurrence in the third step And a fourth step of selecting a synonym used for keyword expansion, and a fifth step of expanding the keyword extracted in the first step using the synonym selected in the fourth step. Therefore, the word with ambiguity is the keyword And if it is, even if the word has a number of synonyms is a keyword, it is possible to perform a search processing intended by the user effectively, and it is possible to avoid excessive search.
[0047]
Further, according to the extended how keywords using co-occurrence between words of the present invention, the keyword expansion method using co-occurrence between said word, the fourth step further any word Can be added as a synonym, so that the search process intended by the user can be performed more efficiently.
[0048]
Further, according to the computer-readable recording medium of the present invention, since the recorded program for executing the steps of the keyword expansion method using co-occurrence between said word in a computer, the program computer By executing the above, even if the word having ambiguity is a keyword or the word having a large number of synonyms is a keyword, the search process intended by the user can be performed efficiently and excessively. Search can be avoided.
[Brief description of the drawings]
FIG. 1 is a block configuration diagram showing a hardware configuration of a computer for realizing a keyword expansion method using co-occurrence between words according to the present embodiment.
FIG. 2 is a schematic block diagram showing processing of search software in the keyword expansion method using co-occurrence between words according to the present embodiment.
FIG. 3 is a flowchart showing keyword expansion processing using co-occurrence between words in the keyword expansion method using co-occurrence between words according to the present embodiment;
FIG. 4 is an explanatory diagram illustrating an example of a result of extracting synonyms and related words of a “model” that is a keyword in the keyword expansion method using co-occurrence between words according to the present embodiment;
5 is an explanatory diagram showing an example of a result obtained by excluding those having low co-occurrence with “passenger car” from the synonyms and related words of “model” shown in FIG. 4;
FIG. 6 is an explanatory diagram illustrating an example of a selection screen for selecting synonyms and related words before keyword expansion in the keyword expansion method using co-occurrence between words according to the present embodiment;
[Explanation of symbols]
100 CPU
101 ROM
102 RAM
103
108
Claims (4)
前記自然言語処理手段が、検索式、検索文または検索用キーワード群で表現された検索条件の入力を取得する第1の工程と、
前記第1の工程によって入力された前記検索条件を構成するキーワードを抽出する第2の工程と、
前記自然言語処理手段が、前記第2の工程で抽出したキーワードが一つであるか複数存在するかを判断する第3の工程と、
前記自然言語処理手段が、前記第2の工程で抽出したキーワードの類義語を求める第4の工程と、
前記自然言語処理手段が、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて前記第4の工程で求めた任意のキーワードの類義語のうち、当該任意のキーワードとは別のキーワードとの共起性の低い類義語を除外する第5の工程と、
前記自然言語処理手段が、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが一つの場合に、前記第4の工程で求めた類義語を用いるとともに、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが複数存在する場合に、前記第5の工程で前記共起性の低い類義語を除外した後の類義語を用いて、前記第2の工程で抽出したキーワードを拡張する第6の工程と、
を前記コンピュータに実行させることを特徴とする単語間の共起性を用いたキーワードの拡張方法。A keyword expansion method for expanding keywords using a computer equipped with a natural language processing means for performing analysis processing using a grammar dictionary,
A first step in which the natural language processing means acquires an input of a search condition expressed by a search expression, a search sentence, or a search keyword group;
A second step of extracting a keyword constituting the search condition input in the first step;
A third step in which the natural language processing means determines whether the keyword extracted in the second step is one or plural;
A fourth step in which the natural language processing means obtains a synonym of the keyword extracted in the second step;
The natural language processing means obtains in the fourth step based on the co-occurrence between words when there are a plurality of keywords extracted in the second step as a result of the determination in the third step. A fifth step of excluding synonyms having a low co-occurrence with a keyword different from the arbitrary keyword among synonyms of the arbitrary keyword;
The natural language processing means uses the synonym obtained in the fourth step when the keyword extracted in the second step is one as a result of the determination in the third step, and the third step If there are a plurality of keywords extracted in the second step as a result of the determination, the synonyms after excluding the low-co-occurrence synonyms in the fifth step are used in the second step. A sixth step of expanding the extracted keywords;
A keyword expansion method using co-occurrence between words, wherein the computer is executed.
前記自然言語処理手段が、検索式、検索文または検索用キーワード群で表現された検索条件の入力を取得する第1の工程と、
前記第1の工程によって入力された前記検索条件を構成するキーワードを抽出する第2の工程と、
前記自然言語処理手段が、前記第2の工程で抽出したキーワードが一つであるか複数存在するかを判断する第3の工程と、
前記自然言語処理手段が、前記第2の工程で抽出したキーワードの類義語を求める第4の工程と、
前記自然言語処理手段が、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが複数存在する場合に、単語間の共起性に基づいて前記第4の工程で求めた任意のキーワードの類義語のうち、当該任意のキーワードとは別のキーワードとの共起性の低い類義語を除外する第5の工程と、
前記自然言語処理手段が、前記第4の工程で求めた類義語または第5の工程で前記共起性の低い類義語を除外した後の類義語から、キーワードの拡張に使用する、ユーザが選択した類義語を取得する第6の工程と、
前記自然言語処理手段が、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが一つの場合に、前記第4の工程で求めた類義語を用いるとともに、前記第3の工程による判断の結果、前記第2の工程で抽出したキーワードが複数存在する場合に、前記第5の工程で前記共起性の低い類義語を除外した後の類義語または前記第6の工程によって選択された類義語を用いて、前記第2の工程で抽出したキーワードを拡張する第7の工程と、
を前記コンピュータに実行させることを特徴とする単語間の共起性を用いたキーワードの拡張方法。A keyword expansion method for expanding keywords using a computer equipped with a natural language processing means for performing analysis processing using a grammar dictionary,
A first step in which the natural language processing means acquires an input of a search condition expressed by a search expression, a search sentence, or a search keyword group;
A second step of extracting a keyword constituting the search condition input in the first step;
A third step in which the natural language processing means determines whether the keyword extracted in the second step is one or plural;
A fourth step in which the natural language processing means obtains a synonym of the keyword extracted in the second step;
The natural language processing means obtains in the fourth step based on the co-occurrence between words when there are a plurality of keywords extracted in the second step as a result of the determination in the third step. A fifth step of excluding synonyms having a low co-occurrence with a keyword different from the arbitrary keyword among synonyms of the arbitrary keyword;
A synonym selected by the user for use in keyword expansion from the synonym obtained by the natural language processing means after the synonym obtained in the fourth step or the synonym having the low co-occurrence in the fifth step is excluded. A sixth step of acquiring;
The natural language processing means uses the synonym obtained in the fourth step when the keyword extracted in the second step is one as a result of the determination in the third step, and the third step As a result of the determination by the above, when there are a plurality of keywords extracted in the second step, the synonym after the synonym having the low co-occurrence in the fifth step is excluded or selected by the sixth step A seventh step of expanding the keyword extracted in the second step by using a synonym;
A keyword expansion method using co-occurrence between words, wherein the computer is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20203597A JP4065346B2 (en) | 1997-07-28 | 1997-07-28 | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20203597A JP4065346B2 (en) | 1997-07-28 | 1997-07-28 | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1145274A JPH1145274A (en) | 1999-02-16 |
JP4065346B2 true JP4065346B2 (en) | 2008-03-26 |
Family
ID=16450861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20203597A Expired - Fee Related JP4065346B2 (en) | 1997-07-28 | 1997-07-28 | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4065346B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004280259A (en) * | 2003-03-13 | 2004-10-07 | National Institute Of Information & Communication Technology | Search device |
GB0423879D0 (en) * | 2004-10-28 | 2004-12-01 | Koninkl Philips Electronics Nv | Data processing system and method |
JP4857448B2 (en) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | Information retrieval apparatus and program using multiple meanings |
CN101281522B (en) | 2007-04-06 | 2010-11-03 | 阿里巴巴集团控股有限公司 | Method and system for processing related key words |
JP2009093429A (en) * | 2007-10-09 | 2009-04-30 | Kodansha Ltd | Retrieval system and retrieval method |
JP5116593B2 (en) | 2008-07-25 | 2013-01-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM USING PUBLIC SEARCH ENGINE |
KR101818717B1 (en) | 2011-09-27 | 2018-01-15 | 네이버 주식회사 | Method, apparatus and computer readable recording medium for search with exetension data-set of concept keywords |
JP6429382B2 (en) * | 2015-01-05 | 2018-11-28 | 日本放送協会 | Content recommendation device and program |
JP6531025B2 (en) * | 2015-10-19 | 2019-06-12 | 日本電信電話株式会社 | Word expansion device, classification device, machine learning device, method, and program |
JP6406335B2 (en) * | 2016-11-14 | 2018-10-17 | オムロン株式会社 | MATCHING DEVICE, MATCHING METHOD, AND PROGRAM |
CN110795615B (en) * | 2019-10-28 | 2022-08-09 | 百度在线网络技术(北京)有限公司 | Search method, device, equipment and storage medium |
-
1997
- 1997-07-28 JP JP20203597A patent/JP4065346B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1145274A (en) | 1999-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296584B2 (en) | Semantic textual analysis | |
JP3691844B2 (en) | Document processing method | |
JP3755134B2 (en) | Computer-based matched text search system and method | |
JPH11110416A (en) | Method and device for retrieving document from data base | |
JPH1145241A (en) | Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded | |
KR20020058639A (en) | A XML Document Retrieval System and Method of it | |
KR100396826B1 (en) | Term-based cluster management system and method for query processing in information retrieval | |
JP3173411B2 (en) | Related document search device and recording medium storing related document search program | |
JP2011118689A (en) | Retrieval method and system | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
JP4091146B2 (en) | Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus | |
JP3596210B2 (en) | Related word dictionary creation device | |
JP4499179B1 (en) | Terminal device | |
JP4401269B2 (en) | Parallel translation judgment device and program | |
JPH1145268A (en) | Document retrieval device and computer-readable recording medium where eprogram making computer funtion as same device is recorded | |
JPH1145252A (en) | Information retrieval device and computer readable recording medium for recording program for having computer function as the same device | |
JP3652086B2 (en) | Speed reading support device | |
JP2004086307A (en) | Information retrieving device, information registering device, information retrieving method, and computer readable program | |
JPH11259524A (en) | Information retrieval system, information processing method in information retrieval system and record medium | |
JP3851712B2 (en) | Document management system and computer-readable recording medium storing a program for causing a computer to function as the system | |
JP2002132789A (en) | Document retrieving method | |
JPH1145254A (en) | Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device | |
KR100885527B1 (en) | Apparatus for making index-data based by context and for searching based by context and method thereof | |
JP4138048B2 (en) | Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device | |
JPH1145255A (en) | Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070911 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080104 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140111 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |