JP2006146355A - 類似文書検索方法および装置 - Google Patents

類似文書検索方法および装置 Download PDF

Info

Publication number
JP2006146355A
JP2006146355A JP2004332255A JP2004332255A JP2006146355A JP 2006146355 A JP2006146355 A JP 2006146355A JP 2004332255 A JP2004332255 A JP 2004332255A JP 2004332255 A JP2004332255 A JP 2004332255A JP 2006146355 A JP2006146355 A JP 2006146355A
Authority
JP
Japan
Prior art keywords
document
relevance
word
importance
word pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004332255A
Other languages
English (en)
Inventor
Junji Tomita
準二 富田
Megumi Ishii
恵 石井
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004332255A priority Critical patent/JP2006146355A/ja
Publication of JP2006146355A publication Critical patent/JP2006146355A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語ペアの関連度を用いた類似度計算に基づく精度の高い類似文書検索を高速に実行することができる類似文書検索方法および装置を提供する。
【解決手段】類似度計算部125で類似度が計算される検索対象文書の総数は、「検索キーに含まれる単語を1つでも含む検索対象文書の総数、または、このような検索対象文書の総数が規定数以上の場合は、検索キーに含まれる単語ペアを1つでも含む検索対象文書の総数」に等しくなる。また、文書ID・関連度取得部123により関連度転置インデクス113から取得される(単語ペアの関連度)の総数は、「検索キー解析部121からの各単語ペアに対応する(単語ペアの関連度)の総数」に等しくなる。
【選択図】図1

Description

本発明は、大量の文書集合の中から検索キーとして指定された文や文書と類似する文書を高速に精度良く検索する類似文書検索方法および装置に関するものである。
類似文書検索とは、あらかじめ記憶された多数の検索対象文書の中から、検索キーとして入力された文や文書に類似するものを、検索キーとの類似度の高い順に予め定めた個数だけ検索することをいう(特許文献1参照のこと)。
特開2000−123041号公報 富田、竹野、菊井、林、池田:「グラフモデルの提案とテキスト検索システムへの適用による評価」、情報処理学会論文誌データベース、Vol.43,No.SIG2(TOD13)
図8は、従来の類似文書検索装置100の構成を示す図である。
類似文書検索装置100は、インデクス生成部110と検索処理部120とを備える。インデクス生成部110は、文書解析部111と重要度転置インデクス生成部112と関連度順引きインデクス生成部113Aとを備える。検索処理部120は、検索キー解析部121と文書ID・重要度取得部122と関連度取得部123Aと文書IDマージ部124Aと類似度計算部125と結果生成部126とを備える。
以下の説明では、’(x、y)’は、xとyとを含む組を表すものとする。また、'x+'は、xを1以上有するもの、いわゆる集合やリストやテーブルの類を表すものとする。
文書解析部111は、複数の検索対象文書のそれぞれについて、(その検索対象文書の文書ID、(その検索対象文書のいずれかに含まれる単語、その単語の重要度)+)を生成し、重要度転置インデクス生成部112へ送信し、重要度転置インデクス生成部112は、これらより、図9(a)のような要素をもつ重要度転置インデクス1001を生成する。
文書解析部111は、具体的には、各検索対象文書から単語を抽出し、単語の頻度等を用いて各単語に重要度を計算する。
また、文書解析部111は、複数の検索対象文書のそれぞれについて、(その文書ID、(その検索対象文書のいずれかに含まれる単語ペア、その単語ペアの関連度)+)を生成し、関連度順引きインデクス生成部113Aへ送信し、関連度順引きインデクス生成部113Aは、これらより、図9(b)のような要素をもつ関連度順引きインデクス1002Aを生成する。
文書解析部111は、具体的には、単語の共起頻度等を用いて、検索対象文書内で共起する全ての単語ペアの関連度を計算する。ここで共起とは、ある特定の区間(文、文節、決められた単語数等)内で単語ペアが出現することをいう。
検索キー解析部121は、単語を含む文や文書である検索キーが入力されると、検索キー主題グラフ、つまり、((検索キーに含まれる単語、その単語の重要度)+、(検索キーに含まれる単語ペア、その単語ペアの関連度)+)」を生成し、類似度計算部125へ送信する。
また、検索キー解析部121は、検索キー主題グラフ、つまり検索キーに含まれる単語+を文書ID・重要度取得部122へ送信する。
文書ID・重要度取得部122は、この単語+の各単語に対し、重要度転置インデクス1001で対応する(単語の重要度)を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、重要度ベクトル、つまり、(検索対象文書の文書ID、(この検索対象文書に含まれる単語、この単語の重要度)+)からなる重要度ベクトルリストを生成し、文書IDマージ部124Aへ送信する。
また、文書ID・重要度取得部122は、重要度転置インデクス1001に含まれる文書ID+を取得し関連度取得部123Aへ送信する。
関連度取得部123Aは、この文書ID+の各検索対象文書IDに対し、関連度順引きインデクス1002Aで対応する(単語ペアの関連度)を取得し、関連度ベクトル、つまり、(検索対象文書の文書ID、(この検索対象文書に含まれる単語ペア、この単語ペアの関連度)+)からなる関連度ベクトルリストを生成し、文書IDマージ部124Aへ送信する。
文書IDマージ部124Aは、単語の重要度をノードの重みとし、単語ペアの関連度をリンクの重みとした検索対象文書主題グラフを生成し類似度計算部125に送信する。
具体的には、(この重要度ベクトルリストの重要度ベクトルに含まれる単語、その単語の重要度)+、(この重要度ベクトルに含まれる文書ID)、(この文書IDを含みかつ関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペア、その単語ペアの関連度)+)からなる検索対象文書主題グラフをそれぞれ生成し、こうして生成された検索対象文書主題グラフ+を類似度計算部125に送信する。
類似度計算部125は、検索キー主題グラフと各検索対象文書主題グラフ+との類似度を計算し、(その類似度を計算した検索対象文書主題グラフに含まれた文書ID、その類似度)+を結果生成部126へ送信する。
類似度計算部125は、具体的には、例えば、重要度の高い同じ単語を多く含み、関連度の高い同じ単語ペアを多く含む検索対象文書に高い類似度を与える。このように単語ペアの関連度を用いることで精度の高い類似度計算を行う。
結果生成部126は、類似度計算部125からの(文書ID、類似度)+を類似度でソートし、類似度の高い方から、予め定められた整数nに等しい数の(文書ID、類似度)+を選択し、これらに文書のタイトルや原文書へのポインタ等を付与した検索結果を生成し出力する。
このように、類似文書検索装置100は、重要度転置インデクス1001を用いて、検索対象文書を絞り込み、関連度順引きインデクス1002Aを用いて、その各検索対象文書の検索対象文書主題グラフを生成し、検索キー主題グラフと検索対象文書主題グラフとの類似度を計算する。
しかしながら、類似文書検索装置100は、以下の2つが原因で検索速度が遅いという問題があった。
原因1:処理対象の検索対象文書が多い
文書ID・重要度取得部122は、重要度転置インデクス1001に含まれる文書ID+を取得し関連度取得部123Aへ送信するので、検索結果に含まれない、類似度の低い検索対象文書の文書IDまでを取得することが多い。よって、関連度取得部123Aと類似度計算部125はこの文書IDの文書を処理することとなる。つまり、処理対象の検索対象文書が多くなることにより処理負荷が増す。
原因2:処理対象の単語ペアが多い
関連度取得部123Aは、文書ID・重要度取得部122からの文書ID+の各文書IDに対し、関連度順引きインデクス1002Aで対応する(単語ペアの関連度)を取得する。
そのため、各検索対象文書のサイズが大きくなると、取得される(単語ペアの関連度)の数は莫大な数になる。そのため、類似度計算部125では、この莫大な数の(単語ペアの関連度)を用いた類似度計算を行う必要がある。つまり、処理対象の単語ペアが多くなることにより処理負荷が増す。
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、単語ペアの関連度を用いた類似度計算に基づく精度の高い類似文書検索を高速に実行することができる類似文書検索方法および装置を提供することにある。
上記従来の課題を解決するために、請求項1の本発明は、1以上の検索対象文書のいずれかに含まれる単語の重要度ならびに当該検索対象文書のいずれかに含まれる単語ペアの関連度を計算する文書解析手段が当該計算を行い、この文書解析手段で単語の重要度が計算された単語を含む検索対象文書の文書IDと、この単語の重要度との組を1以上有するものと、この単語との組を1以上有する重要度転置インデクスを生成する重要度転置インデクス生成手段が当該重要度転置インデクスを生成し、前記文書解析手段で単語ペアの関連度が計算された単語ペアを含む検索対象文書の文書IDと、この単語ペアの関連度との組を1以上有するものと、この単語ペアとの組を1以上有する関連度転置インデクスを生成する関連度転置インデクス生成手段が当該関連度転置インデクスを生成し、検索キーに含まれる単語とその重要度との組を1以上有するものならびに当該検索キーに含まれる単語ペアとその関連度との組を1以上有するものからなる検索キー主題グラフを生成する検索キー解析手段が当該検索キー主題グラフを生成し、前記検索キーに含まれる各単語に対し、前記重要度転置インデクスで対応する単語の重要度を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、文書に含まれる単語とその重要度との組を1以上有するものと、当該文書の文書IDとからなる重要度ベクトルを1以上有する重要度ベクトルリストを生成する文書ID・重要度取得手段が当該重要度ベクトルリストを生成し、前記検索キーに含まれる各単語ペアに対し、前記関連度転置インデクスで対応する単語ペアの関連度を取得し、この単語ペアの関連度を、対応する文書IDごとにグループ化し、文書に含まれる単語ペアとその関連度との組を1以上有するものと、当該文書の文書IDとからなる関連度ベクトルを1以上有する関連度ベクトルリストを生成する文書ID・関連度取得手段が当該関連度ベクトルリストを生成し、前記重要度ベクトルリストの重要度ベクトルに含まれる単語とその重要度との組を1以上有するものと、当該重要度ベクトルに含まれる文書IDと、該文書IDを含みかつ前記関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペアとその関連度と組を1以上有するものと、からなる検索対象文書主題グラフを文書IDごとに生成する文書IDマージ手段が当該各検索対象文書手段グラフを生成し、前記検索キー主題グラフと前記各検索対象主題グラフとの類似度を計算する類似度計算手段が当該各類似度を計算し、前記計算された類似度の高い検索対象文書についての検索結果を生成する結果生成手段が当該検索結果を生成することを特徴とする類似文書検索方法をもって解決手段とする。
請求項2の本発明は、前記関連度転置インデクス生成手段は、前記関連度転置インデクスを生成する際に、前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、該単語ペア連結文字列と文書IDと単語ペアの関連度との組をメモリに格納し、この組数が予め定めた数に達するごとに各組を単語ペア連結文字列でソートし新たな一時ファイルに書き出し、全ての一時ファイルをマージし単語ペア連結文字列でソートすることを特徴とする請求項1記載の類似文書検索方法をもって解決手段とする。
請求項3の本発明は、前記文書ID・関連度取得手段は、前記関連度ベクトルリストを生成する際に、前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、この単語ペア連結文字列に対し、前記関連度転置インデクスで対応する、文書IDと単語ペアの関連度とを1以上含むものを取得し、文書IDと、対応する単語ペアとその単語ペアの関連度との組を1以上有するものとをメモリに格納することを特徴とする請求項2記載の類似文書検索方法をもって解決手段とする。
請求項4の本発明は、前記文書IDマージ手段は、前記重要度ベクトルリストと前記関連度ベクトルリストとを取得し、当該重要度ベクトルリストの要素数が予め定めた数より少ない、または、当該関連度ベクトルリストの要素数が予め定めた数より少ない、か否かを判定し、肯定的な判定結果を得たときは、重要度ベクトルリストの重要度ベクトルに含まれる文書IDを含む関連度ベクトルを関連度ベクトルから取得し、否定的な判定結果を得た場合は、関連度ベクトルリストの関連度ベクトルに含まれる文書IDを含む重要度ベクトルを重要度ベクトルから取得することを特徴とする請求項1ないし3のいずれかに記載の類似文書検索方法をもって解決手段とする。
請求項5の本発明は、1以上の検索対象文書のいずれかに含まれる単語の重要度ならびに当該検索対象文書のいずれかに含まれる単語ペアの関連度を計算する文書解析手段と、この文書解析手段で単語の重要度が計算された単語を含む検索対象文書の文書IDと、この単語の重要度との組を1以上有するものと、この単語との組を1以上有する重要度転置インデクスを生成する重要度転置インデクス生成手段と、前記文書解析手段で単語ペアの関連度が計算された単語ペアを含む検索対象文書の文書IDと、この単語ペアの関連度との組を1以上有するものと、この単語ペアとの組を1以上有する関連度転置インデクスを生成する関連度転置インデクス生成手段と、検索キーに含まれる単語とその重要度との組を1以上有するものならびに当該検索キーに含まれる単語ペアとその関連度との組を1以上有するものからなる検索キー主題グラフを生成する検索キー解析手段と、前記検索キーに含まれる各単語に対し、前記重要度転置インデクスで対応する単語の重要度を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、文書に含まれる単語とその重要度との組を1以上有するものと、当該文書の文書IDとからなる重要度ベクトルを1以上有する重要度ベクトルリストを生成する文書ID・重要度取得手段と、前記検索キーに含まれる各単語ペアに対し、前記関連度転置インデクスで対応する単語ペアの関連度を取得し、この単語ペアの関連度を、対応する文書IDごとにグループ化し、文書に含まれる単語ペアとその関連度との組を1以上有するものと、当該文書の文書IDとからなる関連度ベクトルを1以上有する関連度ベクトルリストを生成する文書ID・関連度取得手段と、前記重要度ベクトルリストの重要度ベクトルに含まれる単語とその重要度との組を1以上有するものと、当該重要度ベクトルに含まれる文書IDと、該文書IDを含みかつ前記関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペアとその関連度と組を1以上有するものと、からなる検索対象文書主題グラフを文書IDごとに生成する文書IDマージ手段と、前記検索キー主題グラフと前記各検索対象主題グラフとの類似度を計算する類似度計算手段と、前記計算された類似度の高い検索対象文書についての検索結果を生成する結果生成手段とを有することを特徴とする類似文書検索装置をもって解決手段とする。
請求項6の本発明は、前記関連度転置インデクス生成手段は、前記関連度転置インデクスを生成する際に、前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、該単語ペア連結文字列と文書IDと単語ペアの関連度との組をメモリに格納し、この組数が予め定めた数に達するごとに各組を単語ペア連結文字列でソートし新たな一時ファイルに書き出し、全ての一時ファイルをマージし単語ペア連結文字列でソートすることを特徴とする請求項5記載の類似文書検索装置をもって解決手段とする。
請求項7の本発明は、前記文書ID・関連度取得手段は、前記関連度ベクトルリストを生成する際に、前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、この単語ペア連結文字列に対し、前記関連度転置インデクスで対応する、文書IDと単語ペアの関連度とを1以上含むものを取得し、文書IDと、対応する単語ペアとその単語ペアの関連度との組を1以上有するものとをメモリに格納することを特徴とする請求項6記載の類似文書検索装置をもって解決手段とする。
請求項8の本発明は、前記文書IDマージ手段は、前記重要度ベクトルリストと前記関連度ベクトルリストとを取得し、当該重要度ベクトルリストの要素数が予め定めた数より少ない、または、当該関連度ベクトルリストの要素数が予め定めた数より少ない、か否かを判定し、肯定的な判定結果を得たときは、重要度ベクトルリストの重要度ベクトルに含まれる文書IDを含む関連度ベクトルを関連度ベクトルから取得し、否定的な判定結果を得た場合は、関連度ベクトルリストの関連度ベクトルに含まれる文書IDを含む重要度ベクトルを重要度ベクトルから取得することを特徴とする請求項5ないし7のいずれかに記載の類似文書検索装置をもって解決手段とする。
請求項9の本発明は、請求項5ないし8のいずれかに記載の類似文書検索装置としてコンピュータを機能させるコンピュータプログラムをもって解決手段とする。
請求項10の本発明は、請求項9に記載のコンピュータプログラムを格納した記録媒体をもって解決手段とする。
本発明によれば、1以上の検索対象文書のいずれかに含まれる単語の重要度ならびに当該検索対象文書のいずれかに含まれる単語ペアの関連度を計算する文書解析手段が当該計算を行い、この文書解析手段で単語の重要度が計算された単語を含む検索対象文書の文書IDと、この単語の重要度との組を1以上有するものと、この単語との組を1以上有する重要度転置インデクスを生成する重要度転置インデクス生成手段が当該重要度転置インデクスを生成し、前記文書解析手段で単語ペアの関連度が計算された単語ペアを含む検索対象文書の文書IDと、この単語ペアの関連度との組を1以上有するものと、この単語ペアとの組を1以上有する関連度転置インデクスを生成する関連度転置インデクス生成手段が当該関連度転置インデクスを生成し、検索キーに含まれる単語とその重要度との組を1以上有するものならびに当該検索キーに含まれる単語ペアとその関連度との組を1以上有するものからなる検索キー主題グラフを生成する検索キー解析手段が当該検索キー主題グラフを生成し、前記検索キーに含まれる各単語に対し、前記重要度転置インデクスで対応する単語の重要度を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、文書に含まれる単語とその重要度との組を1以上有するものと、当該文書の文書IDとからなる重要度ベクトルを1以上有する重要度ベクトルリストを生成する文書ID・重要度取得手段が当該重要度ベクトルリストを生成し、前記検索キーに含まれる各単語ペアに対し、前記関連度転置インデクスで対応する単語ペアの関連度を取得し、この単語ペアの関連度を、対応する文書IDごとにグループ化し、文書に含まれる単語ペアとその関連度との組を1以上有するものと、当該文書の文書IDとからなる関連度ベクトルを1以上有する関連度ベクトルリストを生成する文書ID・関連度取得手段が当該関連度ベクトルリストを生成し、前記重要度ベクトルリストの重要度ベクトルに含まれる単語とその重要度との組を1以上有するものと、当該重要度ベクトルに含まれる文書IDと、該文書IDを含みかつ前記関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペアとその関連度と組を1以上有するものと、からなる検索対象文書主題グラフを文書IDごとに生成する文書IDマージ手段が当該各検索対象文書手段グラフを生成し、前記検索キー主題グラフと前記各検索対象主題グラフとの類似度を計算する類似度計算手段が当該各類似度を計算し、前記計算された類似度の高い検索対象文書についての検索結果を生成する結果生成手段が当該検索結果を生成するので、単語ペアの関連度を用いた類似度計算に基づく精度の高い類似文書検索を高速に実行することができる
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本実施の形態に係る類似文書検索装置1の構成を示す図である。ここでは、図100に示した類似文書検索装置100の構成要素と同一のものには同一符号を付して説明の重複を避け、類似文書検索装置100との差異を説明する
類似文書検索装置1は、インデクス生成部11と検索処理部12とを備える。インデクス生成部11は、文書解析部111と重要度転置インデクス生成部112と関連度転置インデクス生成部113とを備える。検索処理部12は、検索キー解析部121と文書ID・重要度取得部122と文書ID・関連度取得部123と文書IDマージ部124と類似度計算部125と結果生成部126とを備える。
次に、類似文書検索装置1の動作を説明する。
図2は、関連度転置インデクス生成部113のフローチャートである。
図3は、関連度転置インデクス生成部113により生成される関連度転置インデクス1002の要素を示す図である。
図3に示すように、関連度転置インデクス1002の要素は、(単語ペア連結文字列、(文書ID、単語ペアの関連度)+)である。
図2では、まず、メモリ上に空の単語ペア格納リストを生成する(S101)。単語ペア格納リストは、(単語ペア連結文字列、文書ID、単語ペアの関連度)+である。
続いて、文書解析部111が生成した(文書ID、(単語ペア、単語ペアの関連度)+)+の中で未処理のものが存在する否かを判定する(S102)。
Yesと判定された場合は、未処理である1つの(文書ID、(単語ペア、単語ペアの関連度)+)を選択し(S103)、変数iに1を代入し(S104)、変数iが、当該(文書ID、(単語ペア、単語ペアの関連度)+)に含まれる単語ペアの個数以下か否かを判定する(S105)。Noと判定された場合は、S102へ戻る。一方、Yesと判定された場合は、当該(文書ID、(単語ペア、単語ペアの関連度)+)のi番目の単語ペアから、単語ペア連結文字列を生成する(S106)。
単語ペア連結文字列は、単語ペアの2つの単語を順序づけし、セパレータで連結したものである。セパレータは、検索対象文書や検索キーのいかなる単語にも出現しない文字(列)であり、便宜上'+'と書く。
例えば、単語ペアが、(単語a、単語b)や(単語b、単語a)の場合、単語ペア連結文字列は、「単語a+単語b」となる。ここで、単語a<単語bと順序づけされるものとする。
続いて、「単語ペア連結文字列、当該(文書ID、(単語ペア、単語ペアの関連度)+)の文書ID、当該(文書ID、(単語ペア、単語ペアの関連度)+)のi番目の(単語ペアの関連度)」を単語ペア格納リストへ追加する(S107)。
続いて、単語ペア格納リストの要素、つまり(単語ペア連結文字列、文書ID、単語ペアの関連度)、の数が予め定めた整数mより少ないか否かを判定する(S108)。
Noと判定された場合は、単語ペア格納リストを、単語ペア連結文字列の降順(または昇順)にソートする(S109)。
次に、一時ファイル(501)を新規に生成し、S109でソートした単語ペア格納リストをそのファイルに書き出す(S110)。
次に、単語ペア格納リストを空にする(S111)。
S111を終えたとき、あるいはS108でYesと判定された場合は、変数iに1を加算し(S112)、S105へ戻る。
さて、S102でNoと判定されたときは、単語ペア格納リストが空か否かを判定する(S113)。Noと判定された場合は、単語ペア格納リストを、単語ペア連結文字列の降順(または昇順)にソートする(S114)。
そして、一時ファイル(501)を新規に生成し、S114でソートした単語ペア格納リストをそのファイルに書き出す(S115)。
S115を終えたとき、あるいはS113でYesと判定された場合は、S110とS115で生成された、全ての一時ファイル(501)を単語ペア連結文字列の降順(または昇順)にマージおよびソートする(S116)。
続いて、マージおよびソートした単語ペア格納リストを、単語ペア連結文字列でグループ化したものを関連度転置インデクス1002として出力する(S117)。
図4は、検索対象文書と重要度転置インデクス1001と関連度転置インデクス1002の例を示す図である。
図4(a)に示す検索対象文書からは、図4(b)に示す重要度転置インデクス1001と、図4(c)に示す関連度転置インデクス1002とが生成される。
図5は、文書ID・関連度取得部123のフローチャートである。
まず、メモリ上に空の関連度テーブルを生成する(S201)。関連度テーブルは、(文書ID、(単語ペア、単語ペアの関連度)+)+であり、(文書ID、(単語ペア、単語ペアの関連度)+)は関連度ベクトルという。
続いて、検索キー解析部121から、検索キーに含まれる単語ペア+を受信し(S202)、変数iに1を代入する(S203)。
続いて、変数iが、受信した単語ペア+の要素数以下か否かを判定する(S204)。Yesと判定された場合は、単語ペア+のi番目の単語ペアから、単語ペア連結文字列を生成する(S205)。
続いて、この単語ペア連結文字列に対し、関連度転置インデクス1002で対応する(文書ID、単語ペアの関連度)+を取得する(S206)。
続いて、変数jに1を代入し(S207)、変数jが、S206で取得した(文書ID、単語ペアの関連度)+に含まれる文書IDの個数以下か否かを判定する(S208)。Noと判定された場合は、変数iに1を加算し(S213)、S204へ戻る。
Yesと判定された場合は、S206で取得した(文書ID、単語ペアの関連度)+のj番目の文書IDが、関連度テーブルに存在するかを判定する(S209)。
Noと判定された場合は、(j番目の文書ID、空の単語ペア、空の単語ペアの関連度)を関連度テーブルに追加する(S210)。
S210を終えたとき、あるいはS209でYesと判定された場合は、関連度テーブルのj番目の文書IDに対し、S202で受信した単語ペア+のi番目の単語ペアと、S206で取得した(文書ID、単語ペアの関連度)+のj番目の(単語ペアの関連度)とを対応づける(S211)。
続いて、変数jに1を加算し(S212)、S208へ戻る。
一方、S204でNoと判定された場合は、関連度テーブルを関連度ベクトルリストとして文書IDマージ部124へ送信する(S214)。
図6は、文書IDマージ部124のフローチャートである。
まず、重要度ベクトルリストと関連度ベクトルリストを受信する(S301,S302)。
続いて、空の検索対象文書主題グラフ+を生成する(S303)。
検索対象文書主題グラフ+は、(文書ID、(単語、単語の重要度)+、(単語ペア、単語ペアの関連度)+)+である。
続いて、受信した重要度ベクトルリストの要素数が予め定めた整数pより少ない、または、受信した関連度ベクトルリストの要素数が予め定めた整数qより少ない、か否かを判定する(S304)。
Yesと判定された場合は、変数iに1を代入する(S305)。
続いて、変数iが、重要度ベクトルリストの要素数よりも少ないか否かを判定する(S306)。
Yesと判定された場合は、重要度ベクトルリストにおけるi番目の重要度ベクトルの文書IDを含む関連度ベクトルを、受信した関連度ベクトルリストから取得する(S307)。
続いて、(この文書ID、この重要度ベクトルの(単語、単語の重要度)+、この関連度ベクトルの(単語ペア、単語ペアの関連度)+)を、検索対象文書主題グラフ+に追加する(308)。
続いて、変数iに1を加算し(S309)、S306へ戻る。
一方、S304でNoと判定された場合は、変数iに1を代入する(S310)。
続いて、変数iが、関連度ベクトルリストの要素数よりも少ないか否かを判定する(S311)。
Yesと判定された場合は、関連度ベクトルリストにおけるi番目の関連度ベクトルの文書IDを含む重要度ベクトルを、受信した重要度ベクトルリストから取得する(S312)。
続いて、(この文書ID、この重要度ベクトルの(単語、単語の重要度)+、この関連度ベクトルの(単語ペア、単語ペアの関連度)+)を、検索対象文書主題グラフ+に追加する(S313)。
続いて、変数iに1を加算し(S314)、S306へ戻る。
S306またはS311でNoと判定された場合は、検索対象文書主題グラフ+を類似度計算部125へ送信する(S315)。
図7は、検索キーと検索キー主題グラフ+と重要度ベクトルリストと関連度ベクトルリストと検索対象文書主題グラフ+の例を示す図である。
図7(a)の検索キーからは、図7(b)の検索キー主題グラフが得られる。
また、図7(a)の検索キーから得られた単語+と図4(b)の重要度転置インデクス1001からは、図7(c)の重要度ベクトルリストが得られる。
また、図7(a)の検索キーから得られた単語ペア+と図4(c)の関連度転置インデクス1002からは、図7(d)の関連度ベクトルリストが得られる。
また、S304のpとqを1とすると、これらの重要度ベクトルリストと関連度ベクトルリストからは、図7(e)の検索対象文書主題グラフを含む検索対象文書主題グラフ+が得られる。
類似度計算部125は、例えば、図7(b)の検索キー主題グラフと、図7(e)の検索対象文書主題グラフの類似度を計算し、(文書ID、類似度)+を結果生成部126へ送信する。
結果生成部126は、(文書ID、類似度)+を類似度でソートし、類似度の高い方から、予め定められた整数nに等しい数の(文書ID、類似度)+を選択し、これらに文書のタイトルや原文書へのポインタ等を付与した検索結果を生成し出力する。
次に、各課題がどのように解決されるのかを説明する。
(1)処理対象の検索対象文書が多いという課題の解決
類似度計算部125で類似度が計算される検索対象文書の総数は、類似文書検索装置100では、「検索キーに含まれる単語を1つでも含む検索対象文書の総数」に等しいの対して、類似文書検索装置1では、「検索キーに含まれる単語を1つでも含む検索対象文書の総数、または、このような検索対象文書の総数が規定数以上の場合は、検索キーに含まれる単語ペアを1つでも含む検索対象文書の総数」に等しくなる。
後者の数は、多くの場合、前者の数よりも少なく、また、後者の検索対象文書と検索キーとの類似度は、前者の検索対象文書と検索キーとの類似度よりも高くなる傾向にある。したがって、前者の検索対象文書と検索キーとの類似度を全て計算しなくてもこれを行ったときと同様の検索結果が得られる。つまり、処理対象の検索対象文書を少なくでき、これにより、処理負荷が減り、その分だけ検索速度を向上させることができる。
(2)処理対象の単語が多いという課題の解決
類似文書検索装置100の関連度取得部123Aにより関連度順引きインデクス生成部113Aから取得される(単語ペアの関連度)の総数は、「文書ID・重要度取得部122からの各文書IDに対応する(単語ペアの関連度)の総数」に等しいのに対し、類似文書検索装置1の文書ID・関連度取得部123により関連度転置インデクス113から取得される(単語ペアの関連度)の総数は、「検索キー解析部121からの各単語ペアに対応する(単語ペアの関連度)の総数」に等しくなる。
後者の数は、多くの場合、前者の数よりも少なく、また、後者の(単語ペアの関連度)を用いて計算された類似度は、前者の(単語ペアの関連度)を用いて計算された類似度よりも高くなる傾向にある。したがって、前者の(単語ペアの関連度)を用いて類似度を全て計算しなくてもこれを行ったときと同様の検索結果が得られる。つまり、処理対象の単語ペアを少なくでき、これにより、例えば、検索対象文書主題グラフに含まれる単語ペアの総数が少なくなるというように、処理負荷が減り、その分だけ検索速度を向上させることができる。
なお、一般的なコンピュータを上記実施の形態の類似文書検索装置またはその一部として機能させるコンピュータプログラムは、単独でまたは組み合わせて、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に格納したり、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
本実施の形態に係る類似文書検索装置1の構成を示す図である。 関連度転置インデクス生成部113のフローチャートである。 関連度転置インデクス1002の要素を示す図である。 検索対象文書と重要度転置インデクス1001と関連度転置インデクス1002の例を示す図である。 文書ID・関連度取得部123のフローチャートである。 文書IDマージ部124のフローチャートである。 検索キーと検索キー主題グラフ+と重要度ベクトルリストと関連度ベクトルリストと検索対象文書主題グラフ+の例を示す図である。 類似文書検索装置100の構成を示す図である。 重要度転置インデクス1001の要素と関連度順引きインデクス1002Aの要素を示す図である。
符号の説明
1…類似文書検索装置
11…インデクス生成部
12…検索処理部
111…文書解析部
112…重要度転置インデクス生成部
113…関連度転置インデクス
113…関連度転置インデクス生成部
121…検索キー解析部
122…文書ID・重要度取得部
123…文書ID・関連度取得部
124…文書IDマージ部
125…類似度計算部
126…結果生成部
1001…重要度転置インデクス
1002…関連度転置インデクス

Claims (10)

  1. 1以上の検索対象文書のいずれかに含まれる単語の重要度ならびに当該検索対象文書のいずれかに含まれる単語ペアの関連度を計算する文書解析手段が当該計算を行い、
    この文書解析手段で単語の重要度が計算された単語を含む検索対象文書の文書IDと、この単語の重要度との組を1以上有するものと、この単語との組を1以上有する重要度転置インデクスを生成する重要度転置インデクス生成手段が当該重要度転置インデクスを生成し、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアを含む検索対象文書の文書IDと、この単語ペアの関連度との組を1以上有するものと、この単語ペアとの組を1以上有する関連度転置インデクスを生成する関連度転置インデクス生成手段が当該関連度転置インデクスを生成し、
    検索キーに含まれる単語とその重要度との組を1以上有するものならびに当該検索キーに含まれる単語ペアとその関連度との組を1以上有するものからなる検索キー主題グラフを生成する検索キー解析手段が当該検索キー主題グラフを生成し、
    前記検索キーに含まれる各単語に対し、前記重要度転置インデクスで対応する単語の重要度を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、文書に含まれる単語とその重要度との組を1以上有するものと、当該文書の文書IDとからなる重要度ベクトルを1以上有する重要度ベクトルリストを生成する文書ID・重要度取得手段が当該重要度ベクトルリストを生成し、
    前記検索キーに含まれる各単語ペアに対し、前記関連度転置インデクスで対応する単語ペアの関連度を取得し、この単語ペアの関連度を、対応する文書IDごとにグループ化し、文書に含まれる単語ペアとその関連度との組を1以上有するものと、当該文書の文書IDとからなる関連度ベクトルを1以上有する関連度ベクトルリストを生成する文書ID・関連度取得手段が当該関連度ベクトルリストを生成し、
    前記重要度ベクトルリストの重要度ベクトルに含まれる単語とその重要度との組を1以上有するものと、当該重要度ベクトルに含まれる文書IDと、該文書IDを含みかつ前記関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペアとその関連度と組を1以上有するものと、からなる検索対象文書主題グラフを文書IDごとに生成する文書IDマージ手段が当該各検索対象文書手段グラフを生成し、
    前記検索キー主題グラフと前記各検索対象主題グラフとの類似度を計算する類似度計算手段が当該各類似度を計算し、
    前記計算された類似度の高い検索対象文書についての検索結果を生成する結果生成手段が当該検索結果を生成することを特徴とする類似文書検索方法。
  2. 前記関連度転置インデクス生成手段は、前記関連度転置インデクスを生成する際に、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、
    該単語ペア連結文字列と文書IDと単語ペアの関連度との組をメモリに格納し、この組数が予め定めた数に達するごとに各組を単語ペア連結文字列でソートし新たな一時ファイルに書き出し、全ての一時ファイルをマージし単語ペア連結文字列でソートする
    ことを特徴とする請求項1記載の類似文書検索方法。
  3. 前記文書ID・関連度取得手段は、前記関連度ベクトルリストを生成する際に、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、
    この単語ペア連結文字列に対し、前記関連度転置インデクスで対応する、文書IDと単語ペアの関連度とを1以上含むものを取得し、
    文書IDと、対応する単語ペアとその単語ペアの関連度との組を1以上有するものとをメモリに格納すること
    を特徴とする請求項2記載の類似文書検索方法。
  4. 前記文書IDマージ手段は、
    前記重要度ベクトルリストと前記関連度ベクトルリストとを取得し、
    当該重要度ベクトルリストの要素数が予め定めた数より少ない、または、当該関連度ベクトルリストの要素数が予め定めた数より少ない、か否かを判定し、
    肯定的な判定結果を得たときは、重要度ベクトルリストの重要度ベクトルに含まれる文書IDを含む関連度ベクトルを関連度ベクトルから取得し、
    否定的な判定結果を得た場合は、関連度ベクトルリストの関連度ベクトルに含まれる文書IDを含む重要度ベクトルを重要度ベクトルから取得する
    ことを特徴とする請求項1ないし3のいずれかに記載の類似文書検索方法。
  5. 1以上の検索対象文書のいずれかに含まれる単語の重要度ならびに当該検索対象文書のいずれかに含まれる単語ペアの関連度を計算する文書解析手段と、
    この文書解析手段で単語の重要度が計算された単語を含む検索対象文書の文書IDと、この単語の重要度との組を1以上有するものと、この単語との組を1以上有する重要度転置インデクスを生成する重要度転置インデクス生成手段と、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアを含む検索対象文書の文書IDと、この単語ペアの関連度との組を1以上有するものと、この単語ペアとの組を1以上有する関連度転置インデクスを生成する関連度転置インデクス生成手段と、
    検索キーに含まれる単語とその重要度との組を1以上有するものならびに当該検索キーに含まれる単語ペアとその関連度との組を1以上有するものからなる検索キー主題グラフを生成する検索キー解析手段と、
    前記検索キーに含まれる各単語に対し、前記重要度転置インデクスで対応する単語の重要度を取得し、この単語の重要度を、対応する文書IDごとにグループ化し、文書に含まれる単語とその重要度との組を1以上有するものと、当該文書の文書IDとからなる重要度ベクトルを1以上有する重要度ベクトルリストを生成する文書ID・重要度取得手段と、
    前記検索キーに含まれる各単語ペアに対し、前記関連度転置インデクスで対応する単語ペアの関連度を取得し、この単語ペアの関連度を、対応する文書IDごとにグループ化し、文書に含まれる単語ペアとその関連度との組を1以上有するものと、当該文書の文書IDとからなる関連度ベクトルを1以上有する関連度ベクトルリストを生成する文書ID・関連度取得手段と、
    前記重要度ベクトルリストの重要度ベクトルに含まれる単語とその重要度との組を1以上有するものと、当該重要度ベクトルに含まれる文書IDと、該文書IDを含みかつ前記関連度ベクトルリストに含まれる関連度ベクトルに含まれる単語ペアとその関連度と組を1以上有するものと、からなる検索対象文書主題グラフを文書IDごとに生成する文書IDマージ手段と、
    前記検索キー主題グラフと前記各検索対象主題グラフとの類似度を計算する類似度計算手段と、
    前記計算された類似度の高い検索対象文書についての検索結果を生成する結果生成手段 とを有することを特徴とする類似文書検索装置。
  6. 前記関連度転置インデクス生成手段は、前記関連度転置インデクスを生成する際に、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、
    該単語ペア連結文字列と文書IDと単語ペアの関連度との組をメモリに格納し、この組数が予め定めた数に達するごとに各組を単語ペア連結文字列でソートし新たな一時ファイルに書き出し、全ての一時ファイルをマージし単語ペア連結文字列でソートする
    ことを特徴とする請求項5記載の類似文書検索装置。
  7. 前記文書ID・関連度取得手段は、前記関連度ベクトルリストを生成する際に、
    前記文書解析手段で単語ペアの関連度が計算された単語ペアの単語を連結した単語ペア連結文字列を生成し、
    この単語ペア連結文字列に対し、前記関連度転置インデクスで対応する、文書IDと単語ペアの関連度とを1以上含むものを取得し、
    文書IDと、対応する単語ペアとその単語ペアの関連度との組を1以上有するものとをメモリに格納すること
    を特徴とする請求項6記載の類似文書検索装置。
  8. 前記文書IDマージ手段は、
    前記重要度ベクトルリストと前記関連度ベクトルリストとを取得し、
    当該重要度ベクトルリストの要素数が予め定めた数より少ない、または、当該関連度ベクトルリストの要素数が予め定めた数より少ない、か否かを判定し、
    肯定的な判定結果を得たときは、重要度ベクトルリストの重要度ベクトルに含まれる文書IDを含む関連度ベクトルを関連度ベクトルから取得し、
    否定的な判定結果を得た場合は、関連度ベクトルリストの関連度ベクトルに含まれる文書IDを含む重要度ベクトルを重要度ベクトルから取得する
    ことを特徴とする請求項5ないし7のいずれかに記載の類似文書検索装置。
  9. 請求項5ないし8のいずれかに記載の類似文書検索装置としてコンピュータを機能させるコンピュータプログラム。
  10. 請求項9に記載のコンピュータプログラムを格納した記録媒体。

























JP2004332255A 2004-11-16 2004-11-16 類似文書検索方法および装置 Pending JP2006146355A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004332255A JP2006146355A (ja) 2004-11-16 2004-11-16 類似文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004332255A JP2006146355A (ja) 2004-11-16 2004-11-16 類似文書検索方法および装置

Publications (1)

Publication Number Publication Date
JP2006146355A true JP2006146355A (ja) 2006-06-08

Family

ID=36625989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004332255A Pending JP2006146355A (ja) 2004-11-16 2004-11-16 類似文書検索方法および装置

Country Status (1)

Country Link
JP (1) JP2006146355A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
WO2020213158A1 (ja) 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置
CN112307738A (zh) * 2020-11-11 2021-02-02 北京沃东天骏信息技术有限公司 用于处理文本的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN108572953B (zh) * 2017-03-07 2023-06-20 上海颐为网络科技有限公司 一种词条结构的合并方法
WO2020213158A1 (ja) 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置
EP4191434A1 (en) 2019-04-19 2023-06-07 Fujitsu Limited Identification method, generation method, dimensional compression method, display method, and information processing device
CN112307738A (zh) * 2020-11-11 2021-02-02 北京沃东天骏信息技术有限公司 用于处理文本的方法和装置

Similar Documents

Publication Publication Date Title
US9355171B2 (en) Clustering of near-duplicate documents
US9454599B2 (en) Automatic definition of entity collections
Cohen et al. Learning to match and cluster large high-dimensional data sets for data integration
US8171029B2 (en) Automatic generation of ontologies using word affinities
US7792833B2 (en) Ranking search results using language types
US8244767B2 (en) Composite locality sensitive hash based processing of documents
US20170242855A1 (en) Fast, scalable dictionary construction and maintenance
KR20010071841A (ko) 데이터의 검색을 위한 서치 시스템 및 방법
JP2006018829A (ja) 自動分類生成
US20140082021A1 (en) Hierarchical ordering of strings
US20150100605A1 (en) Determining collection membership in a data graph
US20120078907A1 (en) Keyword presentation apparatus and method
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
US8140546B2 (en) Computer system for performing aggregation of tree-structured data, and method and computer program product therefor
US8484221B2 (en) Adaptive routing of documents to searchable indexes
JP2006227823A (ja) 情報処理装置及びその制御方法
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2006146355A (ja) 類似文書検索方法および装置
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
CN111209378B (zh) 一种基于业务字典权重的有序分级排序方法
TW202232363A (zh) 文書檢索裝置、文書檢索方法、及文書檢索程式產品
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
JP2008129943A (ja) 構造化文書生成方法及び装置及びプログラム
US20100031210A1 (en) Apparatus, method and program for processing data
JP2004054847A (ja) テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体