JP2008282111A

JP2008282111A - 類似文書検索方法、プログラムおよび装置

Info

Publication number: JP2008282111A
Application number: JP2007124084A
Authority: JP
Inventors: Hisao Mase; 間瀬久雄
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-05-09
Filing date: 2007-05-09
Publication date: 2008-11-20
Anticipated expiration: 2027-05-09
Also published as: JP4479745B2

Abstract

【課題】
分類を用いた従来の類似文書検索結果フィルタリング方式では所望の文書まで除去されてしまうことがあるというリスクを回避することによって、全体としての検索精度を向上させる。
【解決手段】
利用者によって入力された文章に対応する分類と、文書データベース中の各文書に対応する分類を照合し、検索スコア補正部１５が、分類の共通性に応じて、類似度の補正方法を定義した補正定義テーブルを参照して類似度の値を補正する。
【選択図】図１

Description

本発明は、大量のテキスト文書を格納した文書データベース（ＤＢ）から、入力された自然言語文章の内容に類似する文書を高精度に検索する類似文書検索方法、類似文書検索プログラムおよび類似文書検索装置に関する。

大量のテキスト文書群から所望の文書を検索する手法として、自然言語文章またはテキスト文書そのものを検索条件として入力指定し、その内容に類似する文書を検索する類似文書検索がある。すなわち、利用者が入力指定した文章から抽出される一つ以上の重み付きタームで構成されるタームベクトルと、検索対象となる文書ＤＢを構成する各文書から予め抽出された一つ以上の重み付きタームで構成されるタームベクトルとの間の類似性を、内積や余弦などの尺度で算出することにより、入力文章と文書ＤＢ中の文書との間の内容の類似度を定量化し、類似度の高い文書を検索結果として出力する手法である。

さて、文書属性の一つとして「分類」がある。一般に分類は木構造をなしており、文書の内容に応じて適切な分類が人手でまたは機械的に付与されている。類似文書検索において、この分類を加味した検索を実現しているシステムは多いが、その処理方式は、類似文書として検索された文書群の中で、特定の分類を持つ文書のみを検索結果として出力する検索結果フィルタリングであるものがほとんどである。

分類を用いた上記検索結果フィルタリング方式は、所望の文書がどんな分類を持っているかを利用者が把握している場合には有効な手法である。しかし、所望の文書がどんな分類を持っているかを利用者が把握していない場合や、そもそも分類がどのような体系になっているかを利用者が把握していない場合は、分類を用いた上記検索結果フィルタリング方式は、適切でない分類によるフィルタリングによって、所望の文書が除去されてしまう恐れがあるため、有効な手法とはなりえない。したがって、所望の文書を除去することなく検索結果のより上位に出力させることによって、全体の検索精度を向上させる方式の実現が課題となる。

また、上記分類によるフィルタリングを行うか否かを利用者が選択指示できるようにする、という手法も考えられる。しかし、利用者が分類体系を把握していない場合、分類によるフィルタリングを行うべきか否かを利用者が判断することは困難である。

本発明の目的は、関連度の高い分類に基づいて文書の類似度を補正して、類似文書の検索精度を向上した方法、プログラムおよび装置を提供することである。

本発明は、上記課題を解決すべく、分類の共通性に基づいて文書を「フィルタリング」するのではなく、分類の共通性を類似度の算出に反映させる。すなわち、類似度を算出する際に、入力文章に対応する分類を特定し、文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。また、類似度を算出する際に、入力文章に対応する分類を特定し、文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。また、文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納しておき、関連分類テーブルを参照して前記入力文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、入力文章に対応する分類に関連の深い分類を文書データベース中の文書が持つか否かをチェックし、持つ場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。

本発明によれば、共通の分類または関連度の高い分類を持つ文書の類似度が高くなって検索結果の上位に上がりやすくなることで検索精度が向上する一方で、分類が異なるという理由で所望の文書が検索結果から除外されることもなくなるため、全体としての類似文書検索精度を向上させることができる。

本発明の実施の形態を、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。

本実施形態では、利用者から入力指定された文章の内容に関連の深い文書を検索する類似文書検索システムについて述べる。本システムは、利用者から入力指定される文章および文書データベース（ＤＢ）中の文書群に出現するタームに着目し、その出現頻度をもとにタームの重要度を定量化する方式である「ＴＦ・ＩＤＦ法」を用いて入力文章の内容に類似する文書を検索する。なお、本実施形態では日本語文章を対象としているが、英語等の外国語文章でも適用可能である。

図１は本実施形態におけるブロック図の一例を示す図である。

利用者は入出力部１を介して、検索の入力となる文章およびその文章に関連の深い分類を入力する。分類は必ずしも利用者から入力されなくてもよい。入力されたデータが文章データである場合には、その文章データは入力文章５に格納する。入力されたデータが文章データでなく、文書を一意に特定するための識別子（文書ＩＤ）である場合には、その識別子データは入力文書ＩＤ２に格納する。また、利用者から分類が明示的に入力された場合には、その分類データは入力分類３に格納する。利用者から分類が指定されない場合で、かつ、入力された文章が文書ＤＢ１８に格納された文書ではない場合、入力された文章を解析して、その文章内容がどの分類に最も近いかを推定し、その推定結果として得られた分類を入力分類３に格納しても良い。すなわち例えば、類似文書を実行し、検索結果の上位文書の多くに付与されている分類を入力文章の分類とみなしても良い。

入力文書ＩＤ２に文書識別子データが格納された場合、入力文章抽出部４において、文書ＤＢ１８から当該識別子に対応する文章データを抽出して入力文章５に格納する。また、検索インデクス１６を検索することにより当該文書に対応する分類データを抽出し、入力分類３に格納する。

入力文章５に格納された文章に対して、ターム抽出・重み付け部６において、文章中のタームを抽出してタームの重要度を定量化した重みを付与する。形態素解析７では、単語の見出しや品詞などの情報を定義した単語辞書１０と、単語の連接条件などを規定した文法辞書１１を参照して、入力文章５を単語に分割し、各単語に対応する品詞情報を取得する。ターム抽出８では、特定の品詞を持つターム、特定の文章エリアに出現するタームなどを抽出する。ターム重み付け９では、前述のＴＦ・ＩＤＦ法を用いて、タームの重要度に相当する重みを付与する。すなわち、入力文章５において何度も繰り返し出現するタームの重みを大きくし、また、文書ＤＢ１８に出現する文書数が少ないタームの重みを大きくする。ターム抽出・重み付け部６で抽出された重み付きターム集合は、検索に使うタームデータとして、検索ターム１２に格納する。

検索実行部２３では、入力文章５の内容に関連の深い文書を文書ＤＢ１８から検索する。類似文書検索１３では、検索ターム１２と、文書ＤＢ１８の各文書に出現するタームおよびその重みに関するデータを格納した検索インデクス１６を照合することにより、入力文章５と文書ＤＢ１８内の各文書との類似度（スコア）を算出し、その結果を検索文書群１４に格納する。スコアの算出では、各文書のタームおよびその重みからタームベクトルを生成し、タームベクトル間の類似度として内積あるいはベクトルのなす角（余弦）を求め、その値の大小を比較する。検索インデクス１６は、検索インデクス生成部１７において文書ＤＢ１８内の文書を解析することによって生成されるデータであり、どの文書にどのタームがどのくらいの重みで出現しているかを記述している。また、どの文書がどの分類を持つかに関するデータも保持している。

検索スコア補正１５は本発明の核となる処理である。検索文書群１４に出力された検索文書群の各々に付与された分類を検索インデクス１６から取得し、入力分類３に格納された入力文章５の分類と照合する。共通する分類が存在するか否かによって、その文書の類似度を補正する。補正は補正定義テーブル２２に記述定義された算出方法に基づいて行われる。補正後の類似度の大きい文書から順に並べ替え、補正後検索文書群１９に格納する。

検索結果表示部２０では、文書ＤＢ１８を参照して、補正後検索文書群１９に格納された検索結果を表示のためのデータに加工・整形し、検索結果２１に格納し、入出力部１を介して利用者に報知する。

図２は、本実施例のハードウェア構成の一例を示す図である。本装置は大きく、計算処理を実行する処理装置５０、利用者がデータを入力するためのキーボード５１およびマウス５２、計算処理結果を利用者に出力するための出力モニタ５３、処理装置５０における処理に関するプログラムおよびデータを格納する記憶装置６０から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク５４を介して送受信する。入力文章ＩＤ２、入力分類３、入力文章５、単語辞書１０、文法辞書１１、検索ターム１２、検索文書群１４、検索インデクス１６、文書ＤＢ１８、補正後検索文書群１９、検索結果２１、補正定義テーブル２２は、メモリやハードディスクなど記憶装置に記憶される。入力文章抽出部４、ターム抽出・重み付け部６、形態素解析７、ターム抽出８、ターム重み付け９、類似文書検索１３、検索スコア補正１５、検索インデクス生成部１７、検索実行部２３は、ＣＰＵなどの処理装置がプログラムに従って動作することによって実現される。

記憶装置６０はさらに、処理装置５０における処理データを一時的に格納するワーキングエリア６１と、処理装置５０で行うプログラムを格納する入力文章抽出部格納エリア６２、ターム抽出・重み付け部格納エリア６３、検索実行部格納エリア６４、検索結果表示部格納エリア６５、検索インデクス生成部格納エリア６６と、処理装置５０で行う処理に必要なデータを格納する入力文書ＩＤ格納エリア６７、入力分類格納エリア６８、入力文章格納エリア６９、単語辞書格納エリア７０、文法辞書格納エリア７１、検索ターム格納エリア７２、検索文書群格納エリア７３、補正後検索文書群格納エリア７４、検索インデクス格納エリア７５、文書ＤＢ格納エリア７６、検索結果格納エリア７７、補正定義テーブル格納エリア７８からなる。処理装置５０では、記憶装置６０から必要なプログラムおよびデータをロードし、実行した結果を記憶装置６０に格納することを繰り返すことにより処理が行われる。

図３は、利用者からの入力データの構成の例を示す図である。図３では４つの例について示している。

図３（ａ）は、文書ＩＤ（識別子）のみが指定されている場合である。この場合は、入力文章抽出部４において文書ＤＢ１８から文書ＩＤに対応する文章データおよび分類データを抽出し、入力文章５および入力分類３にそれぞれ格納する。

図３（ｂ）は、文書ＩＤのほかに分類も明示的に指定されている場合である。この場合は、入力文章抽出部４において文書ＩＤに対応する文章データを抽出して入力文章５に格納するとともに、利用者から指定された分類データを入力分類３に格納する。

図３（ｃ）は、文書ＤＢ１８に格納されていない文章のみが入力されている場合である。この場合は入力された文章に対応する分類が既知ではないが、前述したように文章を解析して分類を推定したり、類似文書検索１３の検索結果の上位文書に多く付与される分類を入力文章の分類と推定したりすることで代用することが可能である。

図３（ｄ）は、文書ＤＢ１８に格納されていない文章と分類が明示的に指定されている場合である。この場合は、文章および分類データを入力文章５および入力分類３にそれぞれそのまま格納する。

図４は、スコアを補正する前の類似文書検索結果データ、すなわち検索文書群１４の構成の一例を示す図である。検索文書群１４は、検索順位２０１、入力文章との間の類似度を示すスコア２０２、検索文書ＩＤ２０３、検索文書に付与されている分類２０４から構成される。図４では、スコア２０２の大きい順にソートされている。また、分類２０４は一文書につき一つ以上が付与されている。

図５は、検索スコア補正１５で参照される補正定義テーブル２２の構成の例を示す図である。補正定義テーブル２２は、入力文章の分類と検索文書群１４中の各文書の分類との共通性に基づいて、スコアをどのように補正するかを定義したテーブルである。図５では、入力文章の分類と、検索文書群１４中の各文書の分類で、少なくとも一つ以上の共通する分類が存在する場合に、スコアをどのように補正するかを３種類定義している（実際に適用する際には、このうちのどれか一つが採用される）。

図５（ａ）は、「スコアに対してある絶対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子３０１「ADD_VALUE」と、その加算絶対値３０２「１０」が記述されている。すなわち（ａ）は、「共通の分類を持つ検索文書群中の文書のスコアに絶対値１０をそれぞれ加算する」ということを示している。

図５（ｂ）は、「スコアに対してそのスコアの相対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子３０３「ADD_VALUE_%」と、その加算相対値３０４「２０％」が記述されている。すなわち（ｂ）は、「共通の分類を持つ検索文書群中の文書のスコアにそのスコア値の２０％をそれぞれ加算する」ということを示している。仮に、ある検索文書の補正前のスコアが５０であった場合、その２０％に相当する１０が加算され、補正後のスコアは６０となる。

図５（ｃ）は、「スコアに対して、検索結果がトップの文書が持つスコアの相対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子３０５「ADD_TOP_VALUE_%」と、その加算相対値３０６「２０％」が記述されている。すなわち（ｃ）は、「共通の分類を持つ検索文書群中の文書のスコアに、検索文書群１４における検索結果１位の文書の持つスコア値の２０％をそれぞれ加算する」ということを示している。仮に、ある検索文書の補正前のスコアが５０であり、検索結果１位の文書の持つスコアが２００の場合、２００の２０％に相当する４０が加算され、補正後のスコアは９０となる。このように、共通の分類を持つ文書のスコアを補正する際に、補正定義テーブル２２において最も適切な補正方法を定義することができるため、類似文書検索アルゴリズムや検索対象文書の特性に合わせた補正方法を適用することが可能となる。

図６は、検索スコア補正１５の処理フローの一例を示した図である。

まず、入力文章の分類を取得する（ステップ４０１）。ここでは、入力分類３に格納されている分類を取得する。次に、スコア補正対象となる検索文書群１４中の文書があるか否かをチェックする（ステップ４０２）。本実施例では、処理時間短縮のため、検索文書群１４における上位Ｎ件の文書を補正対象としているが、全件を補正対象としても構わない。ステップ４０２で、補正対象文書がまだ残っている場合、その文書が持つ分類および検索スコアを検索文書群１４から抽出する（ステップ４０３）。次に、ステップ４０１で取得した入力文章の分類と、ステップ４０３で取得した検索文書の分類を比較し（ステップ４０４）、共通する分類が一つ以上存在するか否かを判別し（ステップ４０５）、存在する場合は、補正定義テーブル２２で定義されたスコア補正方法に基づいて、当該検索文書の持つスコアを補正し（ステップ４０６）、ステップ４０２に戻り、次の検索結果文書に対して同様の処理を行う。ステップ４０５で共通の分類が存在しない場合は、何もせずにステップ４０２に戻る。ステップ４０２で、補正対象となる検索結果文書がなくなった場合、補正されたスコアで検索結果を降順にソートし（ステップ４０７）、ソート結果を補正後検索文書群１９に格納し（ステップ４０８）、処理を終了する。

図７は、補正後の類似文書検索結果データ、すなわち補正後検索文書群１９の構成の一例を示す図である。データの構成は図４と同一である。図７に示すデータは、図４に示した補正前の検索結果の中で、入力文章の持つ分類Ｃ１、Ｃ２（図３（ｂ））と共通の分類を持つ文書のスコアに絶対値１０を加算し、ソートした結果の一例を示している。図４と図７の結果を比べると、共通の分類を持つ一部の文書の順位が上がっているとともに、共通の分類を持たない一部の文書の順位が下がっている。

このように、従来技術における検索結果フィルタリング方式のように、分類の共通性によって文書を残すか除外するかを２択で判定するのではなく、スコアを補正する基準として分類の共通性を使用することによって、分類が共通である文書の順位を上げる一方で、分類が共通していない文書も除外しないで残すことにより、全体としての類似文書検索精度を向上させることができる。

次に、本実施例の変形例について述べる。

図８は、図５に示した補正定義テーブル２２の構成の他の一例を示す図である。図８では、図５と同様に、スコアをどのように補正するかを３種類定義している（実際に適用する際には、このうちのどれか一つが採用される）。スコア補正方法を特定する識別子３１１、３１４、３１７があるのは図５と変わりないが、図５との違いはその値の記述方法である。図８では、入力文章の持つ分類と、検索結果文書の持つ分類との間に共通する分類がいくつ存在するかによって、スコアの補正方法を変えている点が図５とは異なる。すなわち、図８（ａ）は、共通する分類が一つである場合は補正前のスコアに絶対値１０を加算し、二つである場合は補正前のスコアに絶対値２０を加算し、三つ以上ある場合は補正前のスコアに絶対値２５を加算することを定義している。図８（ｂ）、（ｃ）についても同様である。このように、共通する分類の多さによって、類似度（スコア）の補正方法を変えることにより、検索精度をより向上させることができる。なお、図８では、共通する分類の数で補正方法を定義しているが、入力文章が持つ分類の数に占める、共通する分類の数の割合によって補正方法を定義しても良い。

本変形例を適用した場合に、図６で示した検索スコア補正１５の処理手順が若干変わる。すなわち、図６のステップ４０５では、「入力文章の分類と検索結果文書の分類との間に共通する分類が一つ以上存在するか否かをチェックする」という処理を行うが、本変形例では、「入力文章の分類と検索結果文書の分類との間に共通する分類がいくつ存在するかをチェックする」という処理に置き換えることにより、実現可能である。また、図６のステップ４０６では、「補正定義テーブル２２で定義された補正方法に従って、スコアを補正する」という処理を行うが、本変形例では、「補正定義テーブル２２で定義された、共通する分類の数に応じた補正方法に従って、スコアを補正する」という処理に置き換えることにより、実現可能である。

次に、本実施例の拡張例について述べる。

本拡張例では、過去の検索等によって、文書ＤＢ１８中の文書に類似する文書（以下、「正解文書」と呼ぶ）が既知であるものが一定量存在する場合を仮定している。たとえば特許を対象文書とした場合、特許庁における特許審査によって拒絶された出願特許については、拒絶に引用された特許が正解特許となる。

本拡張例では、文章（特許の例では出願特許）とその正解文書（特許の例では拒絶に引用された特許）の持つ分類の対応関係を解析することによって、分類と分類の間の関連度を定量化して関連分類テーブルに格納保持し、検索スコア補正１５において、検索文書群１４のスコアを補正すべきか否かを判定する際に、この関連テーブルを参照する。このとき、入力文章の持つ分類と関連度の高い分類を持つ検索文書のスコアは比較的高く補正され、関連度の低い分類を持つ検索文書のスコアは比較的低く補正される。このように、分類間の関連の度合に応じてスコアを補正することにより、分類の字面のみを用いて照合する場合に比べて、より高精度なスコア補正を行うことが可能となる。

図９は、関連分類テーブルの構成の一例を示す図である。関連分類テーブルは、文書ＤＢ１８に格納された文書が持つ分類Ａ６０１、分類Ａを持つ文書ＤＢ１８中の文書件数６０２、分類Ａを持つ文書ＤＢ１８中の文書に対応する正解文書の延べ件数６０３、当該正解文書に付与されている分類Ｂ６０４、正解文書延べ件数６０３に占める分類Ｂを持つ文書件数６０５、分類Ａからみた分類Ｂの関連度６０６から構成される。関連度６０６は、「正解文書延べ件数６０３に占める分類Ｂを持つ文書件数６０５」を「分類Ａを持つ文書ＤＢ１８中の文書に対応する正解文書の延べ件数６０３」で割ることによって算出する。

図１０は、図９に示した関連分類テーブルを生成するための元データとなる分類対応テーブルの構成の一例を示した図である。分類対応テーブルは、文書ＤＢ１８中の文書ＩＤ７０１、文書ＩＤ７０１に対応する正解文書ＩＤ７０２、文書ＩＤ７０１が持つ分類７０３、文書ＩＤ７０１に対応する正解文書ＩＤ７０２が持つ分類７０４から構成される。ここで、文書ＩＤ７０１が持つ分類７０３と、文書ＩＤ７０１に対応する正解文書ＩＤ７０２が持つ分類７０４は、1レコードに１分類が対応するように記述する。

図９に示した関連分類テーブルの各値は、分類対応テーブルを解析することによって求めることができる。すなわち、「分類Ａを持つ文書ＤＢ１８中の文書件数６０２」は、文書ＩＤ７０１が持つ分類７０３が分類Ａである文書ＩＤ７０１の異なり数をカウントすることによって算出できる。また、「分類Ａを持つ文書ＤＢ１８中の文書に対応する正解文書の延べ件数６０３」は、文書ＩＤ７０１が持つ分類７０３が分類Ａであるレコード数をカウントすることによって算出できる。さらに、「正解文書延べ件数６０３に占める分類Ｂを持つ文書件数６０５」は、文書ＩＤ７０１が持つ分類７０３が分類Ａで、かつ、文書ＩＤ７０１に対応する正解文書ＩＤ７０２が持つ分類７０４が分類Ｂであるレコードをカウントすることによって算出できる。

本拡張例を適用した場合に、図６で示した検索スコア補正１５の処理手順が若干変わる。すなわち、図６のステップ４０５では、「入力文章の分類と検索結果文書の分類との間に共通する分類が一つ以上存在するか否かをチェックする」という処理を行うが、本拡張例では、「関連分類テーブルを参照して、検索結果文書の分類が、入力文章の分類からみた関連度が閾値以上である分類であるか否かをチェックする」という処理に置き換えることにより、実現可能である。また、図６のステップ４０６では、「補正定義テーブル２２で定義された補正方法に従って、スコアを補正する」という処理を行うが、本拡張例では、「補正定義テーブル２２で定義された、関連度の大きさに応じた補正方法に従って、スコアを補正する」という処理に置き換えることにより、実現可能である。本拡張例における補正定義テーブル２２は、例えば「関連度が０．７以上の場合、スコアに２０を加算する」、「関連度が０．７以上の場合、スコアの２０％を加算する」といった記述となるが、この記述は図８に示した補正定義テーブル２２の構成で記述可能である。または、本拡張例におけるスコア補正の代替方法として、関連分類テーブル２２に記載された関連度そのものをスコアに乗算することによってスコアを補正しても良い。

本発明は、類似文書を検索するサーバやパーソナルコンピュータに利用可能である。

本発明の実施形態におけるブロック図の一例を示す図本発明の実施形態におけるハードウェア構成の一例を示す図本発明の実施形態における入力データの例を示す図本発明の実施形態における検索結果（補正前）の一例を示す図本発明の実施形態における補正定義テーブルの構成の例を示す図本発明の実施形態における検索スコア補正部の処理フローの一例を示す図本発明の実施形態における検索結果（補正後）の一例を示す図本発明の実施形態における補正定義テーブルの構成の他の例を示す図本発明の実施形態における関連分類テーブルの構成の一例を示す図本発明の実施形態における分類対応テーブルの構成の一例を示す図

符号の説明

１…入出力部、２…入力文章ＩＤ、３…入力分類、４…入力文章抽出部、５…入力文章、６…ターム抽出・重み付け部、７…形態素解析、８…ターム抽出、９…ターム重み付け、１０…単語辞書、１１…文法辞書、１２…検索ターム、１３…類似文書検索、１４…検索文書群、１５…検索スコア補正、１６…検索インデクス、１７…検索インデクス生成部、１８…文書ＤＢ、１９…補正後検索文書群、２０…検索結果表示部、２１…検索結果、２２…補正定義テーブル、２３…検索実行部

Claims

文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記類似文書検索装置の有する関連度算出部が、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納しておき、
前記検索実行部が、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
請求項３記載の類似文書検索方法において、
前記分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出するステップは、分類Ａを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Ｂを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Ａと分類Ｂの関連度とすることを特徴とする類似文書検索方法。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する手段によって前記算出された分類間の関連度を関連分類テーブルに格納する関連度算出部を備え、
前記検索実行部は、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
請求項７記載の類似文書検索装置において、
前記関連度算出部は、分類Ａを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Ｂを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Ａと分類Ｂの関連度とすることを特徴とする類似文書検索装置。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記類似文書検索装置の有する関連度算出部に、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納する手順を実行させ
前記検索実行部に、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
請求項１１記載の類似文書検索プログラムにおいて、
分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する場合に、前記関連度算出部に、分類Ａを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Ｂを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Ａと分類Ｂの関連度とする手順を実行させることを特徴とする類似文書検索プログラム。