JP2008282111A - 類似文書検索方法、プログラムおよび装置 - Google Patents

類似文書検索方法、プログラムおよび装置 Download PDF

Info

Publication number
JP2008282111A
JP2008282111A JP2007124084A JP2007124084A JP2008282111A JP 2008282111 A JP2008282111 A JP 2008282111A JP 2007124084 A JP2007124084 A JP 2007124084A JP 2007124084 A JP2007124084 A JP 2007124084A JP 2008282111 A JP2008282111 A JP 2008282111A
Authority
JP
Japan
Prior art keywords
document
search
classification
similarity
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007124084A
Other languages
English (en)
Other versions
JP2008282111A5 (ja
JP4479745B2 (ja
Inventor
Hisao Mase
間瀬久雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007124084A priority Critical patent/JP4479745B2/ja
Publication of JP2008282111A publication Critical patent/JP2008282111A/ja
Publication of JP2008282111A5 publication Critical patent/JP2008282111A5/ja
Application granted granted Critical
Publication of JP4479745B2 publication Critical patent/JP4479745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】
分類を用いた従来の類似文書検索結果フィルタリング方式では所望の文書まで除去されてしまうことがあるというリスクを回避することによって、全体としての検索精度を向上させる。
【解決手段】
利用者によって入力された文章に対応する分類と、文書データベース中の各文書に対応する分類を照合し、検索スコア補正部15が、分類の共通性に応じて、類似度の補正方法を定義した補正定義テーブルを参照して類似度の値を補正する。
【選択図】図1

Description

本発明は、大量のテキスト文書を格納した文書データベース(DB)から、入力された自然言語文章の内容に類似する文書を高精度に検索する類似文書検索方法、類似文書検索プログラムおよび類似文書検索装置に関する。
大量のテキスト文書群から所望の文書を検索する手法として、自然言語文章またはテキスト文書そのものを検索条件として入力指定し、その内容に類似する文書を検索する類似文書検索がある。すなわち、利用者が入力指定した文章から抽出される一つ以上の重み付きタームで構成されるタームベクトルと、検索対象となる文書DBを構成する各文書から予め抽出された一つ以上の重み付きタームで構成されるタームベクトルとの間の類似性を、内積や余弦などの尺度で算出することにより、入力文章と文書DB中の文書との間の内容の類似度を定量化し、類似度の高い文書を検索結果として出力する手法である。
さて、文書属性の一つとして「分類」がある。一般に分類は木構造をなしており、文書の内容に応じて適切な分類が人手でまたは機械的に付与されている。類似文書検索において、この分類を加味した検索を実現しているシステムは多いが、その処理方式は、類似文書として検索された文書群の中で、特定の分類を持つ文書のみを検索結果として出力する検索結果フィルタリングであるものがほとんどである。
分類を用いた上記検索結果フィルタリング方式は、所望の文書がどんな分類を持っているかを利用者が把握している場合には有効な手法である。しかし、所望の文書がどんな分類を持っているかを利用者が把握していない場合や、そもそも分類がどのような体系になっているかを利用者が把握していない場合は、分類を用いた上記検索結果フィルタリング方式は、適切でない分類によるフィルタリングによって、所望の文書が除去されてしまう恐れがあるため、有効な手法とはなりえない。したがって、所望の文書を除去することなく検索結果のより上位に出力させることによって、全体の検索精度を向上させる方式の実現が課題となる。
また、上記分類によるフィルタリングを行うか否かを利用者が選択指示できるようにする、という手法も考えられる。しかし、利用者が分類体系を把握していない場合、分類によるフィルタリングを行うべきか否かを利用者が判断することは困難である。
本発明の目的は、関連度の高い分類に基づいて文書の類似度を補正して、類似文書の検索精度を向上した方法、プログラムおよび装置を提供することである。
本発明は、上記課題を解決すべく、分類の共通性に基づいて文書を「フィルタリング」するのではなく、分類の共通性を類似度の算出に反映させる。すなわち、類似度を算出する際に、入力文章に対応する分類を特定し、文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。また、類似度を算出する際に、入力文章に対応する分類を特定し、文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。また、文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納しておき、関連分類テーブルを参照して前記入力文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、入力文章に対応する分類に関連の深い分類を文書データベース中の文書が持つか否かをチェックし、持つ場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する。
本発明によれば、共通の分類または関連度の高い分類を持つ文書の類似度が高くなって検索結果の上位に上がりやすくなることで検索精度が向上する一方で、分類が異なるという理由で所望の文書が検索結果から除外されることもなくなるため、全体としての類似文書検索精度を向上させることができる。
本発明の実施の形態を、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
本実施形態では、利用者から入力指定された文章の内容に関連の深い文書を検索する類似文書検索システムについて述べる。本システムは、利用者から入力指定される文章および文書データベース(DB)中の文書群に出現するタームに着目し、その出現頻度をもとにタームの重要度を定量化する方式である「TF・IDF法」を用いて入力文章の内容に類似する文書を検索する。なお、本実施形態では日本語文章を対象としているが、英語等の外国語文章でも適用可能である。
図1は本実施形態におけるブロック図の一例を示す図である。
利用者は入出力部1を介して、検索の入力となる文章およびその文章に関連の深い分類を入力する。分類は必ずしも利用者から入力されなくてもよい。入力されたデータが文章データである場合には、その文章データは入力文章5に格納する。入力されたデータが文章データでなく、文書を一意に特定するための識別子(文書ID)である場合には、その識別子データは入力文書ID2に格納する。また、利用者から分類が明示的に入力された場合には、その分類データは入力分類3に格納する。利用者から分類が指定されない場合で、かつ、入力された文章が文書DB18に格納された文書ではない場合、入力された文章を解析して、その文章内容がどの分類に最も近いかを推定し、その推定結果として得られた分類を入力分類3に格納しても良い。すなわち例えば、類似文書を実行し、検索結果の上位文書の多くに付与されている分類を入力文章の分類とみなしても良い。
入力文書ID2に文書識別子データが格納された場合、入力文章抽出部4において、文書DB18から当該識別子に対応する文章データを抽出して入力文章5に格納する。また、検索インデクス16を検索することにより当該文書に対応する分類データを抽出し、入力分類3に格納する。
入力文章5に格納された文章に対して、ターム抽出・重み付け部6において、文章中のタームを抽出してタームの重要度を定量化した重みを付与する。形態素解析7では、単語の見出しや品詞などの情報を定義した単語辞書10と、単語の連接条件などを規定した文法辞書11を参照して、入力文章5を単語に分割し、各単語に対応する品詞情報を取得する。ターム抽出8では、特定の品詞を持つターム、特定の文章エリアに出現するタームなどを抽出する。ターム重み付け9では、前述のTF・IDF法を用いて、タームの重要度に相当する重みを付与する。すなわち、入力文章5において何度も繰り返し出現するタームの重みを大きくし、また、文書DB18に出現する文書数が少ないタームの重みを大きくする。ターム抽出・重み付け部6で抽出された重み付きターム集合は、検索に使うタームデータとして、検索ターム12に格納する。
検索実行部23では、入力文章5の内容に関連の深い文書を文書DB18から検索する。類似文書検索13では、検索ターム12と、文書DB18の各文書に出現するタームおよびその重みに関するデータを格納した検索インデクス16を照合することにより、入力文章5と文書DB18内の各文書との類似度(スコア)を算出し、その結果を検索文書群14に格納する。スコアの算出では、各文書のタームおよびその重みからタームベクトルを生成し、タームベクトル間の類似度として内積あるいはベクトルのなす角(余弦)を求め、その値の大小を比較する。検索インデクス16は、検索インデクス生成部17において文書DB18内の文書を解析することによって生成されるデータであり、どの文書にどのタームがどのくらいの重みで出現しているかを記述している。また、どの文書がどの分類を持つかに関するデータも保持している。
検索スコア補正15は本発明の核となる処理である。検索文書群14に出力された検索文書群の各々に付与された分類を検索インデクス16から取得し、入力分類3に格納された入力文章5の分類と照合する。共通する分類が存在するか否かによって、その文書の類似度を補正する。補正は補正定義テーブル22に記述定義された算出方法に基づいて行われる。補正後の類似度の大きい文書から順に並べ替え、補正後検索文書群19に格納する。
検索結果表示部20では、文書DB18を参照して、補正後検索文書群19に格納された検索結果を表示のためのデータに加工・整形し、検索結果21に格納し、入出力部1を介して利用者に報知する。
図2は、本実施例のハードウェア構成の一例を示す図である。本装置は大きく、計算処理を実行する処理装置50、利用者がデータを入力するためのキーボード51およびマウス52、計算処理結果を利用者に出力するための出力モニタ53、処理装置50における処理に関するプログラムおよびデータを格納する記憶装置60から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク54を介して送受信する。入力文章ID2、入力分類3、入力文章5、単語辞書10、文法辞書11、検索ターム12、検索文書群14、検索インデクス16、文書DB18、補正後検索文書群19、検索結果21、補正定義テーブル22は、メモリやハードディスクなど記憶装置に記憶される。入力文章抽出部4、ターム抽出・重み付け部6、形態素解析7、ターム抽出8、ターム重み付け9、類似文書検索13、検索スコア補正15、検索インデクス生成部17、検索実行部23は、CPUなどの処理装置がプログラムに従って動作することによって実現される。
記憶装置60はさらに、処理装置50における処理データを一時的に格納するワーキングエリア61と、処理装置50で行うプログラムを格納する入力文章抽出部格納エリア62、ターム抽出・重み付け部格納エリア63、検索実行部格納エリア64、検索結果表示部格納エリア65、検索インデクス生成部格納エリア66と、処理装置50で行う処理に必要なデータを格納する入力文書ID格納エリア67、入力分類格納エリア68、入力文章格納エリア69、単語辞書格納エリア70、文法辞書格納エリア71、検索ターム格納エリア72、検索文書群格納エリア73、補正後検索文書群格納エリア74、検索インデクス格納エリア75、文書DB格納エリア76、検索結果格納エリア77、補正定義テーブル格納エリア78からなる。処理装置50では、記憶装置60から必要なプログラムおよびデータをロードし、実行した結果を記憶装置60に格納することを繰り返すことにより処理が行われる。
図3は、利用者からの入力データの構成の例を示す図である。図3では4つの例について示している。
図3(a)は、文書ID(識別子)のみが指定されている場合である。この場合は、入力文章抽出部4において文書DB18から文書IDに対応する文章データおよび分類データを抽出し、入力文章5および入力分類3にそれぞれ格納する。
図3(b)は、文書IDのほかに分類も明示的に指定されている場合である。この場合は、入力文章抽出部4において文書IDに対応する文章データを抽出して入力文章5に格納するとともに、利用者から指定された分類データを入力分類3に格納する。
図3(c)は、文書DB18に格納されていない文章のみが入力されている場合である。この場合は入力された文章に対応する分類が既知ではないが、前述したように文章を解析して分類を推定したり、類似文書検索13の検索結果の上位文書に多く付与される分類を入力文章の分類と推定したりすることで代用することが可能である。
図3(d)は、文書DB18に格納されていない文章と分類が明示的に指定されている場合である。この場合は、文章および分類データを入力文章5および入力分類3にそれぞれそのまま格納する。
図4は、スコアを補正する前の類似文書検索結果データ、すなわち検索文書群14の構成の一例を示す図である。検索文書群14は、検索順位201、入力文章との間の類似度を示すスコア202、検索文書ID203、検索文書に付与されている分類204から構成される。図4では、スコア202の大きい順にソートされている。また、分類204は一文書につき一つ以上が付与されている。
図5は、検索スコア補正15で参照される補正定義テーブル22の構成の例を示す図である。補正定義テーブル22は、入力文章の分類と検索文書群14中の各文書の分類との共通性に基づいて、スコアをどのように補正するかを定義したテーブルである。図5では、入力文章の分類と、検索文書群14中の各文書の分類で、少なくとも一つ以上の共通する分類が存在する場合に、スコアをどのように補正するかを3種類定義している(実際に適用する際には、このうちのどれか一つが採用される)。
図5(a)は、「スコアに対してある絶対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子301「ADD_VALUE」と、その加算絶対値302「10」が記述されている。すなわち(a)は、「共通の分類を持つ検索文書群中の文書のスコアに絶対値10をそれぞれ加算する」ということを示している。
図5(b)は、「スコアに対してそのスコアの相対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子303「ADD_VALUE_%」と、その加算相対値304「20%」が記述されている。すなわち(b)は、「共通の分類を持つ検索文書群中の文書のスコアにそのスコア値の20%をそれぞれ加算する」ということを示している。仮に、ある検索文書の補正前のスコアが50であった場合、その20%に相当する10が加算され、補正後のスコアは60となる。
図5(c)は、「スコアに対して、検索結果がトップの文書が持つスコアの相対値を加算する」ことを示している。ここでは、スコア補正方法を特定する識別子305「ADD_TOP_VALUE_%」と、その加算相対値306「20%」が記述されている。すなわち(c)は、「共通の分類を持つ検索文書群中の文書のスコアに、検索文書群14における検索結果1位の文書の持つスコア値の20%をそれぞれ加算する」ということを示している。仮に、ある検索文書の補正前のスコアが50であり、検索結果1位の文書の持つスコアが200の場合、200の20%に相当する40が加算され、補正後のスコアは90となる。このように、共通の分類を持つ文書のスコアを補正する際に、補正定義テーブル22において最も適切な補正方法を定義することができるため、類似文書検索アルゴリズムや検索対象文書の特性に合わせた補正方法を適用することが可能となる。
図6は、検索スコア補正15の処理フローの一例を示した図である。
まず、入力文章の分類を取得する(ステップ401)。ここでは、入力分類3に格納されている分類を取得する。次に、スコア補正対象となる検索文書群14中の文書があるか否かをチェックする(ステップ402)。本実施例では、処理時間短縮のため、検索文書群14における上位N件の文書を補正対象としているが、全件を補正対象としても構わない。ステップ402で、補正対象文書がまだ残っている場合、その文書が持つ分類および検索スコアを検索文書群14から抽出する(ステップ403)。次に、ステップ401で取得した入力文章の分類と、ステップ403で取得した検索文書の分類を比較し(ステップ404)、共通する分類が一つ以上存在するか否かを判別し(ステップ405)、存在する場合は、補正定義テーブル22で定義されたスコア補正方法に基づいて、当該検索文書の持つスコアを補正し(ステップ406)、ステップ402に戻り、次の検索結果文書に対して同様の処理を行う。ステップ405で共通の分類が存在しない場合は、何もせずにステップ402に戻る。ステップ402で、補正対象となる検索結果文書がなくなった場合、補正されたスコアで検索結果を降順にソートし(ステップ407)、ソート結果を補正後検索文書群19に格納し(ステップ408)、処理を終了する。
図7は、補正後の類似文書検索結果データ、すなわち補正後検索文書群19の構成の一例を示す図である。データの構成は図4と同一である。図7に示すデータは、図4に示した補正前の検索結果の中で、入力文章の持つ分類C1、C2(図3(b))と共通の分類を持つ文書のスコアに絶対値10を加算し、ソートした結果の一例を示している。図4と図7の結果を比べると、共通の分類を持つ一部の文書の順位が上がっているとともに、共通の分類を持たない一部の文書の順位が下がっている。
このように、従来技術における検索結果フィルタリング方式のように、分類の共通性によって文書を残すか除外するかを2択で判定するのではなく、スコアを補正する基準として分類の共通性を使用することによって、分類が共通である文書の順位を上げる一方で、分類が共通していない文書も除外しないで残すことにより、全体としての類似文書検索精度を向上させることができる。
次に、本実施例の変形例について述べる。
図8は、図5に示した補正定義テーブル22の構成の他の一例を示す図である。図8では、図5と同様に、スコアをどのように補正するかを3種類定義している(実際に適用する際には、このうちのどれか一つが採用される)。スコア補正方法を特定する識別子311、314、317があるのは図5と変わりないが、図5との違いはその値の記述方法である。図8では、入力文章の持つ分類と、検索結果文書の持つ分類との間に共通する分類がいくつ存在するかによって、スコアの補正方法を変えている点が図5とは異なる。すなわち、図8(a)は、共通する分類が一つである場合は補正前のスコアに絶対値10を加算し、二つである場合は補正前のスコアに絶対値20を加算し、三つ以上ある場合は補正前のスコアに絶対値25を加算することを定義している。図8(b)、(c)についても同様である。このように、共通する分類の多さによって、類似度(スコア)の補正方法を変えることにより、検索精度をより向上させることができる。なお、図8では、共通する分類の数で補正方法を定義しているが、入力文章が持つ分類の数に占める、共通する分類の数の割合によって補正方法を定義しても良い。
本変形例を適用した場合に、図6で示した検索スコア補正15の処理手順が若干変わる。すなわち、図6のステップ405では、「入力文章の分類と検索結果文書の分類との間に共通する分類が一つ以上存在するか否かをチェックする」という処理を行うが、本変形例では、「入力文章の分類と検索結果文書の分類との間に共通する分類がいくつ存在するかをチェックする」という処理に置き換えることにより、実現可能である。また、図6のステップ406では、「補正定義テーブル22で定義された補正方法に従って、スコアを補正する」という処理を行うが、本変形例では、「補正定義テーブル22で定義された、共通する分類の数に応じた補正方法に従って、スコアを補正する」という処理に置き換えることにより、実現可能である。
次に、本実施例の拡張例について述べる。
本拡張例では、過去の検索等によって、文書DB18中の文書に類似する文書(以下、「正解文書」と呼ぶ)が既知であるものが一定量存在する場合を仮定している。たとえば特許を対象文書とした場合、特許庁における特許審査によって拒絶された出願特許については、拒絶に引用された特許が正解特許となる。
本拡張例では、文章(特許の例では出願特許)とその正解文書(特許の例では拒絶に引用された特許)の持つ分類の対応関係を解析することによって、分類と分類の間の関連度を定量化して関連分類テーブルに格納保持し、検索スコア補正15において、検索文書群14のスコアを補正すべきか否かを判定する際に、この関連テーブルを参照する。このとき、入力文章の持つ分類と関連度の高い分類を持つ検索文書のスコアは比較的高く補正され、関連度の低い分類を持つ検索文書のスコアは比較的低く補正される。このように、分類間の関連の度合に応じてスコアを補正することにより、分類の字面のみを用いて照合する場合に比べて、より高精度なスコア補正を行うことが可能となる。
図9は、関連分類テーブルの構成の一例を示す図である。関連分類テーブルは、文書DB18に格納された文書が持つ分類A601、分類Aを持つ文書DB18中の文書件数602、分類Aを持つ文書DB18中の文書に対応する正解文書の延べ件数603、当該正解文書に付与されている分類B604、正解文書延べ件数603に占める分類Bを持つ文書件数605、分類Aからみた分類Bの関連度606から構成される。関連度606は、「正解文書延べ件数603に占める分類Bを持つ文書件数605」を「分類Aを持つ文書DB18中の文書に対応する正解文書の延べ件数603」で割ることによって算出する。
図10は、図9に示した関連分類テーブルを生成するための元データとなる分類対応テーブルの構成の一例を示した図である。分類対応テーブルは、文書DB18中の文書ID701、文書ID701に対応する正解文書ID702、文書ID701が持つ分類703、文書ID701に対応する正解文書ID702が持つ分類704から構成される。ここで、文書ID701が持つ分類703と、文書ID701に対応する正解文書ID702が持つ分類704は、1レコードに1分類が対応するように記述する。
図9に示した関連分類テーブルの各値は、分類対応テーブルを解析することによって求めることができる。すなわち、「分類Aを持つ文書DB18中の文書件数602」は、文書ID701が持つ分類703が分類Aである文書ID701の異なり数をカウントすることによって算出できる。また、「分類Aを持つ文書DB18中の文書に対応する正解文書の延べ件数603」は、文書ID701が持つ分類703が分類Aであるレコード数をカウントすることによって算出できる。さらに、「正解文書延べ件数603に占める分類Bを持つ文書件数605」は、文書ID701が持つ分類703が分類Aで、かつ、文書ID701に対応する正解文書ID702が持つ分類704が分類Bであるレコードをカウントすることによって算出できる。
本拡張例を適用した場合に、図6で示した検索スコア補正15の処理手順が若干変わる。すなわち、図6のステップ405では、「入力文章の分類と検索結果文書の分類との間に共通する分類が一つ以上存在するか否かをチェックする」という処理を行うが、本拡張例では、「関連分類テーブルを参照して、検索結果文書の分類が、入力文章の分類からみた関連度が閾値以上である分類であるか否かをチェックする」という処理に置き換えることにより、実現可能である。また、図6のステップ406では、「補正定義テーブル22で定義された補正方法に従って、スコアを補正する」という処理を行うが、本拡張例では、「補正定義テーブル22で定義された、関連度の大きさに応じた補正方法に従って、スコアを補正する」という処理に置き換えることにより、実現可能である。本拡張例における補正定義テーブル22は、例えば「関連度が0.7以上の場合、スコアに20を加算する」、「関連度が0.7以上の場合、スコアの20%を加算する」といった記述となるが、この記述は図8に示した補正定義テーブル22の構成で記述可能である。または、本拡張例におけるスコア補正の代替方法として、関連分類テーブル22に記載された関連度そのものをスコアに乗算することによってスコアを補正しても良い。
本発明は、類似文書を検索するサーバやパーソナルコンピュータに利用可能である。
本発明の実施形態におけるブロック図の一例を示す図 本発明の実施形態におけるハードウェア構成の一例を示す図 本発明の実施形態における入力データの例を示す図 本発明の実施形態における検索結果(補正前)の一例を示す図 本発明の実施形態における補正定義テーブルの構成の例を示す図 本発明の実施形態における検索スコア補正部の処理フローの一例を示す図 本発明の実施形態における検索結果(補正後)の一例を示す図 本発明の実施形態における補正定義テーブルの構成の他の例を示す図 本発明の実施形態における関連分類テーブルの構成の一例を示す図 本発明の実施形態における分類対応テーブルの構成の一例を示す図
符号の説明
1…入出力部、2…入力文章ID、3…入力分類、4…入力文章抽出部、5…入力文章、6…ターム抽出・重み付け部、7…形態素解析、8…ターム抽出、9…ターム重み付け、10…単語辞書、11…文法辞書、12…検索ターム、13…類似文書検索、14…検索文書群、15…検索スコア補正、16…検索インデクス、17…検索インデクス生成部、18…文書DB、19…補正後検索文書群、20…検索結果表示部、21…検索結果、22…補正定義テーブル、23…検索実行部

Claims (12)

  1. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
    前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
  2. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
    前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
  3. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
    前記類似文書検索装置の有する関連度算出部が、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納しておき、
    前記検索実行部が、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。
  4. 請求項3記載の類似文書検索方法において、
    前記分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出するステップは、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とすることを特徴とする類似文書検索方法。
  5. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
    前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
  6. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
    前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
  7. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
    前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する手段によって前記算出された分類間の関連度を関連分類テーブルに格納する関連度算出部を備え、
    前記検索実行部は、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。
  8. 請求項7記載の類似文書検索装置において、
    前記関連度算出部は、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とすることを特徴とする類似文書検索装置。
  9. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
    前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
  10. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
    前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
  11. 文書を格納する文書データベースを記憶する記憶装置と、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
    前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
    前記類似文書検索装置の有する関連度算出部に、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納する手順を実行させ
    前記検索実行部に、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。
  12. 請求項11記載の類似文書検索プログラムにおいて、
    分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する場合に、前記関連度算出部に、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とする手順を実行させることを特徴とする類似文書検索プログラム。
JP2007124084A 2007-05-09 2007-05-09 文書の類似度補正方法、プログラムおよびコンピュータ Active JP4479745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007124084A JP4479745B2 (ja) 2007-05-09 2007-05-09 文書の類似度補正方法、プログラムおよびコンピュータ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007124084A JP4479745B2 (ja) 2007-05-09 2007-05-09 文書の類似度補正方法、プログラムおよびコンピュータ

Publications (3)

Publication Number Publication Date
JP2008282111A true JP2008282111A (ja) 2008-11-20
JP2008282111A5 JP2008282111A5 (ja) 2009-05-07
JP4479745B2 JP4479745B2 (ja) 2010-06-09

Family

ID=40142894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007124084A Active JP4479745B2 (ja) 2007-05-09 2007-05-09 文書の類似度補正方法、プログラムおよびコンピュータ

Country Status (1)

Country Link
JP (1) JP4479745B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP2013174988A (ja) * 2012-02-24 2013-09-05 Hitachi Ltd 類似文書検索支援装置及び類似文書検索支援プログラム
WO2016103409A1 (ja) * 2014-12-25 2016-06-30 株式会社日立製作所 検索システム
EP3093807A1 (en) 2015-05-12 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and information processing program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) * 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP4521459B2 (ja) * 2008-12-18 2010-08-11 株式会社日立製作所 文書分類装置、文書分類方法およびプログラム
JP2013174988A (ja) * 2012-02-24 2013-09-05 Hitachi Ltd 類似文書検索支援装置及び類似文書検索支援プログラム
CN103294741A (zh) * 2012-02-24 2013-09-11 株式会社日立制作所 类似文件检索辅助装置以及类似文件检索辅助方法
CN103294741B (zh) * 2012-02-24 2016-12-21 株式会社日立制作所 类似文件检索辅助装置以及类似文件检索辅助方法
WO2016103409A1 (ja) * 2014-12-25 2016-06-30 株式会社日立製作所 検索システム
EP3093807A1 (en) 2015-05-12 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and information processing program

Also Published As

Publication number Publication date
JP4479745B2 (ja) 2010-06-09

Similar Documents

Publication Publication Date Title
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
CN108073568B (zh) 关键词提取方法和装置
KR102026304B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US20050086045A1 (en) Question answering system and question answering processing method
US20100205198A1 (en) Search query disambiguation
US20040249808A1 (en) Query expansion using query logs
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111738589B (zh) 基于内容推荐的大数据项目工作量评估方法、装置及设备
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US20160170993A1 (en) System and method for ranking news feeds
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN110866102A (zh) 检索处理方法
CN110688593A (zh) 一种社交媒体账号识别方法及系统
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN110413985B (zh) 一种相关文本片段搜索方法及装置
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
JP2017027106A (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090318

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20090318

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4479745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3