JP2001155020A - 類似文書検索装置、類似文書検索方法及び記録媒体 - Google Patents
類似文書検索装置、類似文書検索方法及び記録媒体Info
- Publication number
- JP2001155020A JP2001155020A JP33459799A JP33459799A JP2001155020A JP 2001155020 A JP2001155020 A JP 2001155020A JP 33459799 A JP33459799 A JP 33459799A JP 33459799 A JP33459799 A JP 33459799A JP 2001155020 A JP2001155020 A JP 2001155020A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- word
- similar
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
書を高精度に検索する。 【解決手段】複数の検索対象文書の中から検索キーとし
て与えられた文書と類似する文書を検索する類似文書検
索装置において、文書の内容を特徴付ける単語の時間的
な変化に着目し、各文書毎の単語の出現頻度に各文書の
時間的な要素に応じた重み付けを行うことで、時間別の
単語の重要度を得て、その単語の重要度を加味した類似
度計算を行う。さらに、特徴単語の時間的な変化は文書
が属する分野によっても異なるため、各文書を分野別に
分類し、その分野別の時間的な要素に応じた重み付けを
行うことで、分野別かつ時間別の単語の重要度を得て、
その単語の重要度を加味した類似度計算を行う。これに
より、類似度計算に単語の重要度を的確に反映させて、
高精度に類似文書を検索することができる。
Description
録された複数の検索対象文書の中から類似文書と類似す
る文書を検索する類似文書検索装置であって、特に各文
書に含まれる単語の重要度を考慮して類似文書の検索を
行う類似文書検索装置と、この装置に用いられる類似文
書検索方法及び記録媒体に関する。
る各種文書をデータベース化しておき、その中から指定
された文書(以下、検索キー文書と称す)に類似する文
書を自動検索するシステムがある。このようなシステム
では、検索キー文書に含まれている単語と検索対象とな
る文書に含まれている単語とを比較し、共通する単語の
種類、出現場所、出現回数などからベクトル空間法など
により類似度を算出して、類似度の高い文書を検索結果
として出力している。
書や検索対象となる文書から、その文書の内容を特徴付
ける単語を抽出することが重要となる。通常、各文書に
含まれる単語の出現頻度を単語種毎に求め、出現頻度の
低い単語をその文書の内容を特徴付ける単語として判断
している。
来、単語の出現頻度によって特徴単語を判断していた。
しかしながら、検索対象となる文書が膨大にあり、しか
も、長い年月に亘って蓄積された場合には、単語の出現
頻度からだけでは特徴単語を的確に判断することはでき
ない。これは、各文書が属する分野によって、その文書
を特徴付ける単語の種類が異なり、また、同じ分野の中
でも文書の作成時期(発行時期)によって特徴単語が異
なるからである。
ので、文書が属する分野や作成時期を考慮して類似文書
を高精度に検索することのできる類似文書検索装置、類
似文書検索方法及び記録媒体を提供することを目的とす
る。
置は、文書を特徴付ける単語の時間的な変化に着目し、
各文書に含まれる単語の出現頻度に各文書の時間的な要
素に応じた重み付けを行うようにしたものである。
ー文書のそれぞれに含まれる単語の出現頻度を求める出
現頻度算出手段と、この出現頻度算出手段によって得ら
れた上記各検索対象文書および上記検索対象文書に対応
した単語の出現頻度に、それぞれの文書の時間的な要素
に応じた重み付けを行う単語重み付け手段とを備え、こ
の単語重み付け手段による重み付け後の単語出現頻度に
基づいて上記各検索対象文書と上記検索キー文書との類
似度を算出し、その類似度に基づいて上記各検索対象文
書の中から上記検索対象文書と類似する文書を検索結果
として出力するようにしたものである。
の出現頻度にそれぞれの文書の時間的な要素に応じた重
み付けを行うことで、時間別の単語の重要度を得ること
ができ、その単語の重要度を加味した類似度計算によ
り、検索キー文書と類似する文書を的確に検索すること
ができる。
間的な変化は分野によっても異なることに着目し、各検
索対象文書および検索対象文書に対応した単語の出現頻
度に、それぞれの文書が属する分野毎の時間的な要素に
応じて重み付けを行うことを特徴とする。
た重み付けを行うことで、分野別かつ時間別の単語の重
要度を得ることができ、その単語の重要度を加味した類
似度計算により、検索キー文書と類似する文書をさらに
的確に検索することができる。
る前に理解を容易にするため、本発明の類似文書検索装
置の概要について説明する。
して与えられた文書と類似する文書を複数の検索対象文
書の中から検索するものである。このような類似文書の
検索では、文書の内容を特徴付ける単語を抽出すること
が重要となる。
特徴付ける単語は時代の流れによって異なる。例えば、
「表示装置」といった分野(大分類)では、「液晶」と
いった単語は1970年代では重要度の高い単語として
扱われていた。しかし、技術の発展に伴い、「液晶」と
いった単語は一般化し、1990年代ではその重要度は
低く、代わって別の単語(TFT等)の重要度が高くな
る。このように、文書を特徴付ける単語は時間的に変化
する。したがって、従来のように単に単語の出現頻度だ
けから検索キー文書との類似度を求めていた方法では、
単語の重要度を正確に反映させることはできない。
の時間的な変化に着目し、各文書毎の単語の出現頻度に
各文書の時間的な要素に応じた重み付けを行うことで、
時間別の単語の重要度を得て、その単語の重要度を加味
した類似度計算を行うようにしたものである。
は、文書が属する分野によっても異なる。例えば、コン
ピュータ分野などでは、他の分野よりも時間的な変化が
速い。そこで、各文書を分野別に分類し、その分野別の
時間的な要素に応じた重み付けを行うことで、分野別か
つ時間別の単語の重要度を得て、その単語の重要度を加
味した類似度計算を行うようにしたものである。
するための実施形態について説明する。
示すブロック図である。なお、本装置は、例えば磁気デ
ィスク等の記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されるコンピュ
ータによって実現される。
入力装置2、表示装置3、外部記憶装置4から構成され
る。制御装置1は、制御部1a(CPU)とメモリ部1
bからなり、所定のプログラムに従って本装置全体の制
御を行う。入力装置2は、例えばキーボードやマウスな
どからなり、データの入力や指示を行う場合に用いられ
る。表示装置3は、例えばCRT(Cathode-ray tube)
やLCD(Liquid Crystal Display)などからなり、類
似検索結果などを表示する。外部記憶装置4は、例えば
磁気ディスク装置や光ディスク装置などからなり、本装
置で扱われる各種データを保持する。
各文書のデータ(テキスト情報)、類似検索に必要とな
る各文書の単語情報の他、各種データファイルF1〜F
6が設けられている。F1は検索文書大分類識別子デー
タファイル、F2は検索文書大分類データファイル、F
3は検索文書時間区分識別子データファイル、F4は検
索文書時間区分データファイルである。また、F5は全
検索文書大分類情報データファイル、F6は全検索文書
時間区分データファイルである。
ある。
らなっている。制御部1aは、後述するデータベース作
成処理や類似文書検索処理を実行するための処理部10
1〜126から構成される。また、メモリ部1bはこれ
らの処理部101〜126に必要なデータを格納するた
めのバッファ201〜219から構成される。
〜219の初期化を行う。
は、外部記憶装置4に格納されている検索文書大分類識
別子データファイルF1の内容を検索文書大分類識別子
格納バッファ201に格納する。この検索文書大分類識
別子データファイルF1は、図10に示すように、大分
類別(分野別)の識別子を示したファイルである。
は、外部記憶装置4に格納されている検索文書大分類デ
ータファイルF2の内容を検索文書大分類格納バッファ
202に格納する。この検索文書大分類データファイル
F2は、図11に示すように、大分類IDと大分類デー
タとを対応付けたファイルである。
04は、外部記憶装置4に格納されている検索文書時間
区分識別子データファイルF3の内容を検索文書時間区
分識別子格納バッファ203に格納する。この検索文書
時間区分識別子データファイルF3は、図12に示すよ
うに、時間区分別の識別子を示したファイルである。
は、外部記憶装置4に格納されている検索文書時間区分
データファイルF4の内容を検索文書時間区分格納バッ
ファ204に格納する。この検索文書時間区分データフ
ァイルF4は、図13に示すように、時間区分IDと時
間区分とを対応付けたファイルである。
置4に格納されている検索文書(検索対象となる文書)
に関する情報をデータベース化するために、各文書のテ
キスト情報を外部記憶装置4から順に読み込み、検索文
書格納バッファ205に格納する。
格納バッファ205に格納された検索文書を大分類(分
野)毎に分類するためにものであり、当該検索文書の内
容から検索文書大分類識別子および大分類データを抽出
し、検索文書大分類格納バッファ202を参照して、当
該検索文書の大分類データとその大分データに対応する
大分類IDを検索文書大分類情報格納バッファ206に
格納する。さらに、当該検索文書に対する検索文書ID
と検索文書大分類情報格納バッファ206に格納されて
いる大分類IDを全検索文書大分類情報格納バッファ2
08に格納する。
は、全検索文書大分類情報格納バッファ208に格納さ
れている全検索文書の大分類情報を外部記憶装置4に格
納する。
検索文書格納バッファ205に格納されている検索文書
を時間区別別に分類するためのものであり、当該検索文
書から検索文書時間区分識別子および時間区分を抽出
し、検索文書時間区分データ格納バッファ204を参照
して、当該検索文書の時間区分とその時間区分に対応す
る時間区分IDを検索文書時間区分格納バッファ207
に格納する。さらに、当該検索文書に対する検索文書I
Dと検索文書時間区分格納バッファ207に格納されて
いる時間区分IDを全検索文書時間区分格納バッファ2
09に格納する。
全検索文書時間区分対応格納バッファ209に格納され
ている全検索文書の時間区分を外部記憶装置4に格納す
る。
納バッファ205に格納されている検索文書から単語の
切り出しを行う。そして、切り出した各単語の中からそ
の文書の内容を表す上でキーとなる単語を抽出し、その
単語種毎に検索文書単語情報格納バッファ210に格納
する。単語の切り出しは、形態素解析などにより行い、
その文書の内容を表す上でキーとなる単語の単語種は品
詞情報(例えば「名詞」や「サ変名詞」)を使って表現
する。
索文書単語抽出部110により抽出された個々のキー単
語について、検索文書中での出現頻度を算出し、これを
検索文書の単語情報として検索文書単語情報格納バッフ
ァ210に格納する。
索文書単語情報格納バッファ210に格納されている検
索文書の単語情報を外部記憶装置4に格納する。
は、外部記憶装置4に格納されている検索文書毎の大分
類情報(全検索文書大分類情報データファイルF5)を
全検索文書大分類情報対応格納バッファ208に格納す
る。
外部記憶装置4に格納されている検索文書毎の時間区分
(全検索文書時間区分データファイルF6)を全検索文
書時間区分対応格納バッファ209に格納する。
部記憶装置4に格納されている検索文書単語情報(単語
の出現頻度情報)を検索文書毎に呼び出し、検索文書単
語情報格納バッファ210に格納する。
分類別および時間区分別に各単語の出現頻度を算出し、
検索文書単語頻度格納バッファ211に格納する。詳し
くは、検索文書単語情報格納バッファ210に読み込ま
れた検索文書単語情報に対して、検索文書大分類格納バ
ッファ202と全検索文書大分類情報格納バッファ20
8を参照して、検索文書大分類格納バッファ202に格
納された大分類ID別に各単語の出現頻度を集計する。
また、検索文書時間区分データ格納バッファ204と検
索文書時間区分対応格納バッファ209を参照し、検索
文書情報区分データ格納バッファ204に格納された時
間区分ID別に各単語の出現頻度を集計する。
は、検索文書単語頻度格納バッファ211に格納されて
いる大分類別時間区分別の単語出現頻度情報を外部記憶
装置4に格納する。
置2から入力された検索キー文書のテキスト情報を検索
キー文書格納バッファ212に格納する。
書格納バッファ212に格納されている検索キー文書か
ら単語の切り出しを行う。そして、切り出した各単語の
中からその文書の内容を表す上でキーとなる単語を抽出
し、その単語種を検索キー文書単語情報格納バッファ2
13に格納する。上記検索文書単語抽出部111と同様
に、単語の切り出しは形態素解析などにより行い、その
文書の内容を表す上でキーとなる単語の単語種は品詞情
報(例えば「名詞」や「サ変名詞」)を使って表現す
る。
索キー単語抽出部119により抽出された個々のキー単
語について、検索キー文書中での出現頻度を算出し、こ
れを検索キー文書の単語情報として検索キー文書単語情
報格納バッファ213に格納する。
部記憶装置4に格納されている検索文書単語出現頻度情
報を大分類別時間区分別の検索文書単語頻度格納バッフ
ァ211に格納する。
情報あるいは検索キー文書単語情報に格納された単語I
D毎の単語出現頻度を要素とする1次元ベクトルのノル
ムを計算する。なお、ノルムとは、ベクトルの大きさを
表わすものである。その際、検索文書単語頻度格納バッ
ファ211に格納されている大分類別時間区分別の単語
頻度情報を参照し、該当する単語に対する頻度情報を加
重してノルム計算を行い、その結果を検索文書ノルム情
報格納バッファ214あるいは検索キー文書ノルム情報
格納バッファ215に格納する。
語情報格納バッファ213に格納されている検索キー文
書の単語情報と検索文書単語情報格納バッファ210に
格納されている検索文書の単語情報とを比較して、両者
で共通する単語の種類とその出現頻度情報を共通単語情
報格納バッファ216に格納する。
バッファ216に格納されている共通単語に関する情報
に基づき検索キーと検索文書との類似度を算出し、その
類似度値を類似度格納バッファ217に格納する。
ファ217に格納されている各検索文書に対する類似度
値を高い順に並べ替えて、検索結果出力バッファ218
に格納し、さらに、検索結果出力バッファ218の内容
を表示装置3に出力する。
処理と、(b)類似文書作成処理に分けて、それぞれの
処理動作について説明する。
いて説明する。
フローチャートである。
て、検索対象となる各文書を1件ずつ処理して、各文書
の単語情報を作成し(ステップA11)、全ての文書の
処理が終了したら、上記単語情報を使って単語頻度に関
する情報を作成する(ステップA12)。ステップA1
1における検索文書登録処理の詳細を図5、ステップA
12における検索文書単語出現頻度作成処理の詳細を図
6に示す。
検索文書登録処理の動作を示すフローチャートである。
部101を起動し、メモリ部1bの全バッファ部の初期
化を行う(ステップB11)。また、各データ読み込み
部102〜105を起動して、外部記憶装置4の検索文
書大分類識別子データファイルF1、検索文書大分類デ
ータファイルF2、検索文書時間区分識別子データファ
イルF3、検索文書時間区分データファイルF4の情報
を読み込み、それぞれ検索文書大分類識別子格納バッフ
ァ201、検索文書大分類格納バッファ202、検索文
書時間区分識別子データ格納バッファ203、検索文書
時間区分データ格納バッファ204に格納する(ステッ
プB12)。
ァ201のデータ格納例、図16に索文書大分類格納バ
ッファ202のデータ格納例、図17に検索文書時間区
分識別子データ格納バッファ203のデータ格納例、図
18に検索文書時間区分データ格納バッファ204のデ
ータ格納例を示す。
登録する文書がある場合には(ステップB13のYe
s)、検索文書読み込み部106が外部記憶装置4から
その文書のテキスト文書を読み込み、これを検索対象と
して検索文書格納バッファ205に格納する(ステップ
B14)。具体例として、例えば図14に示すような内
容を有するテキスト文書を検索文書の1つとして検索文
書格納バッファ205に格納したとする。
文書格納バッファ205に格納された検索文書を先頭か
ら順に走査していく(ステップB15)。その際、当該
検索文書から大分類情報を抽出できたか否かチェックす
る(ステップB16)、まだならば(ステップB16の
No)、検索文書大分類分け部107を起動し、検索文
書大分類情報識別子格納バッファ201に格納されてい
る識別子情報を参照して当該文書から大分類情報を抽出
する(ステップB17)。
ようなテキスト文書であれば、検索文書大分類情報識別
子格納バッファ201に格納されている識別子情報
(「[大分類]???」)を参照し、1行目の「[大分
類]A01」から識別子情報の「???」に相当する
「A01」を大分類情報として抽出し、この大分類情報
「A01」に対応する大分類ID「1」と共に検索文書
大分類情報格納バッファ206に格納する。図19にこ
のときのデータ格納例を示す。その際、当該検索文書の
ID「1」と検索文書大分類情報格納バッファ206に
格納されている大分類ID「1」とを対にして全検索文
書大分類情報格納バッファ208に格納する。図20に
このときのデータ格納例を示す。
ァ205を参照し、文書終端でなければ(ステップB1
5のNo)、時間区分を抽出できたか否かをかチェック
する(ステップB18)。まだならば(ステップB18
のNo)、検索文書時間区分識別子抽出部109を起動
し、検索文書時間区分識別子データ格納バッファ203
に格納されている識別子情報を参照して当該検索文書か
ら時間区分を抽出する(ステップB19)。
ようなテキスト文書であれば、検索文書時間区分識別子
データ格納バッファ203に格納されている識別子情報
(「[出願日]????年」)を参照し、1行目の
「[出願日]1999年(平成5年)9月27日」から
識別子情報の「????」に相当する「1999」を時
間区分として抽出し、この時間区分「1999」に対応
する時間区分ID「1」とと共に検索文書時間区分格納
バッファ207に格納する。図21にこのときのデータ
格納例を示す。その際、当該検索文書に対する検索文書
ID「1」と検索文書時間区分格納バッファ207に格
納されている時間区分ID「1」とを対にして全検索文
書時間区分格納バッファ209に格納する。図22にこ
のときのデータ格納例を示す。
プB16のYes)、かつ、時間区分抽出済みでならば
(ステップB18のYes)、制御装置1は検索対象単
語抽出部111を起動し、検索文書格納バッファ205
に格納された検索文書のテキスト情報を形態素解析して
単語の切り出しを行い、その切り出した各単語の中から
文書内容を表すキー単語を抽出し、そのキー単語の単語
種(例えば品詞情報)を検索文書単語情報格納バッファ
210に格納する(ステップB20)。
2を起動し、当該検索文書全体での単語の出現頻度を算
出し、その結果を検索文書単語情報格納バッファ210
に格納する(ステップB21)。図23にこのときのデ
ータ格納例を示す。この場合、単語と頻度が対について
格納される。例えば、キー単語「文書」が当該検索文書
の中で2回出現している場合は、頻度として「2」が格
納される。
のYes)、検索文書単語情報書き込み部113を起動
し、検索文書単語情報格納バッファ210に格納された
情報を検索文書の単語情報として外部記憶装置4に格
納、蓄積する(ステップB22)。また、全検索文書大
分類情報書き込み部108を起動し、全検索文書大分類
情報格納バッファ208に格納された全検索文書の大分
類情報を外部記憶装置4に格納し、全検索文書時間区分
書き込み部110を起動し、全検索文書時間区分対応格
納バッファ209に格納された全検索文書の時間区分を
外部記憶装置4に格納する。
書のすべてについて、繰り返し実行する。
いて説明する。
書単語出現頻度作成処理の動作を示すフローチャートで
ある。
読み込み部114を起動し、外部記憶装置4から文書対
大分類の情報(全検索文書大分類情報データファイルF
5)を読み込んで全検索文書大分類情報格納バッファ2
08に格納すると共に、全検索文書時間区分読み込み部
115を起動し、外部記憶装置4から文書対時間区分の
情報(全検索文書時間区分データファイルF6)を読み
込んで全検索文書時間区分格納バッファ209に格納す
る(ステップC11)。
格納バッファ209に格納された検索文書IDと時間区
分IDを参照して、全文書に対し、以下のような集計処
理を行う(ステップC12)。
16によって、該当する検索文書IDに対応する検索文
書単語情報を外部記憶装置4から読み込み、これを検索
文書単語情報格納バッファ210に読み込む(ステップ
C13)。
7によって、検索文書単語情報格納バッファ210に読
み込まれた当該検索文書の検索文書単語情報に関し、そ
の文書が属する大分類別、かつ、時間区分別に全ての単
語について、出現の有無を累積し、大分類別時間区分別
の検索文書単語頻度格納バッファ211に格納する(ス
テップC14)。上記出現の有無を累積するとは、ある
文書にある単語が複数出現していても、それを1回と数
えるということである。
ついて上記ステップC14の処理を行うと、検索文書単
語頻度格納バッファ211の内容は図25のようにな
る。例えば、「大分類ID:1」の「時間区分ID:
1」において「表示」という単語は120回出現し、
「区分」という単語は9回出現しているという情報が格
納されている。したがって、この「時間区分ID:1」
に属する文書数がnとした場合、「表示」という単語は
文書数nの中で120文書に出現しているということに
なる。
ファ209に格納されている検索文書IDの全てに関し
て行う。処理後、検索文書単語頻度格納バッファ211
に格納された情報は、全検索文書の単語情報として外部
記憶装置4に格納、蓄積される(ステップC15)。
検索対象となる各文書が分野別かつ時間別に分類され、
その分類毎の単語出現頻度情報が外部記憶装置4に作成
される。分野別の分類とは、内容的な要素による分類で
あり、図14に示す[大分類](具体的には特許文献に
おけるIPCクラス)に当たる。時間別の分類とは、文
書の作成期間あるは発行期間などを示す時間的な要素に
よる分類であり、図14に示す[出願日]に当たる。
情報を用いた類似文書検索処理の動作について説明す
る。
ある。
部101を起動し、メモリ部1bの全バッファ部の初期
化を行う(ステップD11)。
03および検索文書時間区分データ読み込み部105を
起動し、外部記憶装置4から検索文書大分類データファ
イルF2、検索文書時間区分データファイルF4を読み
込んで検索文書大分類格納バッファ202、検索文書時
間区分格納バッファ204にそれぞれ格納する。また、
全検索文書大分類情報読み込み部114および全検索文
書時間区分読み込み部115を起動し、外部記憶装置4
から全検索文書大分類情報データファイルF5、全検索
文書時間区分データファイルF6を読み込んで、全検索
文書大分類情報格納バッファ208、全検索文書時間区
分格納バッファ209にそれぞれ格納する(ステップD
12)。
み部119を起動し、入力装置2を通じてユーザが指定
した検索キー文書の入力を受け付け、入力された検索キ
ー文書のテキスト情報を検索キー文書格納バッファ21
2に格納する(ステップD13)。具体例として、例え
ば図26に示すような内容のテキスト文書が検索キー文
書の1つとして検索キー文書格納バッファ212に格納
されたとする。
検索キー文書格納バッファ212に格納された検索キー
文書を先頭から順に走査していく(ステップD14)。
その間、検索キー単語抽出部120を起動し、当該検索
キー文書2に格納されたテキスト情報を形態素解析して
単語の切り出しを行い、その切り出した各単語の中から
文書内容を表すキー単語を抽出し、そのキー単語の単語
種(例えば品詞情報)を検索キー文書単語情報格納バッ
ファ213に格納する(ステップD15)。
121を起動し、当該検索キー文書全体での単語の出現
頻度を算出し、その結果を検索キー文書単語情報格納バ
ッファ213に格納する(ステップD16)。図27に
このときのデータ格納例を示す。この場合、単語と頻度
が対について格納される。例えば、キー単語「写像」が
当該検索キー文書の中で6回出現している場合は、頻度
として「2」が格納される。
が得られると、制御装置1は、大分類毎かつ時間区分毎
に検索文書と検索キーとの類似算出処理を行う。
読み込み部122を起動して、上記(a)のデータ作成
処理によってデータベース外部記憶装置4上に作成され
た大分類かつ時間区分の検索文書単語出現頻度情報を1
件ずつ読み込み(ステップD17,D18)、これを検
索文書単語頻度格納バッファ211に順次格納していく
(ステップD19)。
検索キー文書単語情報格納バッファ213に格納された
検索キー文書の単語頻度情報と、検索文書単語頻度格納
バッファ211に格納された大分類別時間区分別検索文
書の単語頻度情報に基づいて、検索キー文書に対する1
次元ベクトルのノルム情報を算出し、その値を検索キー
文書ノルム情報格納バッファ215に格納する(ステッ
プD20)。図28にこのときのデータ格納例を示す。
1,a2,…an)としたとき、 |A|=√(各ベクトル要素の二乗和) で表される値のことである。このノルム値は、後述する
検索キー文書とデータベース内の検索文書との類似度計
算で使用される。
ルム算出処理の具体的な説明を行う。ここでは、検索キ
ー文書を対象とした場合でのノルム算出処理について説
明する。
ー文書単語情報格納バッファ213に格納された検索キ
ー文書の単語頻度値を“f”として、図32に示すよう
に作業用変数バッファ219の単語頻度格納領域にセッ
トする(ステップE12)。次に、検索文書単語頻度格
納バッファ211に格納された検索文書の単語頻度値を
“wg”として、作業用変数バッファ219の単語重み
格納領域にセットする(ステップE13)。
乗を求め、その値を“nr”として、作業用変数バッフ
ァ219の作業用ノルム値格納領域に格納する(ステッ
プE14)。この計算による処理は、検索キー文書の単
語頻度に重みを付ける処理として実施する。つまり、検
索キー文書の単語頻度は、大分類かつ時間区分における
重要度として考えられ、頻度が多ければ、その単語の重
要度は低く、頻度が少なければ、その単語の重要度は高
くなる。したがって、“f”を“wg”で割った商と
は、その単語の頻度に重みを付けた結果と言える。ここ
までの処理を実施したら、次の単語に対する処理を行い
(ステップE15)。
(ステップE11のYes)、作業用変数バッファ21
9の作業用ノルム値格納領域に蓄積された“nr”の平
方根を求め、その値を当該検索キー文書のノルム値とし
て検索キー文書ノルム情報格納バッファ215に格納す
る(ステップE16)。
ルム値が得られる。
込み部116を起動し、外部記憶装置4に格納されてい
る各検索文書の単語情報を大分類別に1つずつ読み込
み、検索文書単語情報格納バッファ210に格納する
(ステップD22)。
書単語情報格納バッファ210に格納された検索文書の
単語情報と検索文書単語頻度格納バッファ211に格納
された検索文書の大分類別時間区分別単語頻度の情報を
参照し、検索文書に対するノルム情報を算出し、その結
果を検索文書ノルム情報格納バッファ214に格納する
(ステップD23)。図24にこのときのデータ格納例
を示す。
具体的な算出処理については、参照する単語情報が検索
文書単語情報という違いだけで、それ以外は上述した検
索キー文書のノルム算出処理(図8)と同様であるた
め、ここではその説明を省略するものとする。
を起動して、検索キー文書単語情報格納バッファ213
と検索文書単語情報格納バッファ210とで共通に格納
されているキー単語を検出し、その共通単語を共通単語
情報格納バッファ216に格納する(ステップD2
4)。
ァ213と図23の検索文書単語情報格納バッファ21
0の例では、両者に共通する単語として「文書」,「検
索」が検出され、図29に示すように共通単語情報格納
バッファ216に格納される。
起動し、共通単語情報格納バッファ216に格納されて
いる共通単語に基づき、検索キー文書と検索対象大分類
の単語情報との類似度を所定の方法により算出し、その
類似度を検索文書IDと対応付けて類似度格納バッファ
217に格納する(ステップD25)。
との類似度をベクトル空間法により算出するものとす
る。
ル、例えば、A=(a1,a2,…an)、B=(b
1,b2,…bn)の類似度Sを次のように算出する。
分母の|A||B|は、それぞれの一次元ベクトルのノ
ルム(ベクトルの大きさ)の積である。この類似度S
は、0≦S≦1の範囲にあり、類似度が1に近いほど、
2つの一次元ベクトルが類似していることになる。
え、上記の例にあてはめると、検索キー文書の全ての単
語の出現頻度がベクトルA、検索文書の全ての単語の出
現頻度がベクトルBとなり、検索キー文書と検索文書と
の類似度はSという値で得られる。
て詳しく説明する。
算出処理の動作を示すフローチャートである。
書のノルム値を検索キー文書ノルム情報格納バッファ2
15から取得し、これを“na”として、図32に示す
作業用変数バッファ219の検索キー文書ノルム格納領
域にセットすると共に、検索文書のノルム値を検索文書
ノルム情報格納バッファ214から取得し、これを“n
b”として作業用変数バッファ219の検索文書ノルム
格納領域にセットする(ステップF11)。
報格納バッファ216に格納されている共通単語を参照
し、その共通単語の数分だけ、以下のような処理を行
う。
ファ213から検索キー文書における共通単語の頻度情
報を取得し、その頻度値を“a”として作業用変数バッ
ファ219の検索キー単語頻度格納領域にセットすると
共に、検索文書単語情報格納バッファ210から検索文
書における共通単語の頻度情報を取得し、その頻度値を
“b”として作業用変数バッファ219の検索対象単語
頻度格納領域にそれぞれセットする(ステップF1
3)。
語頻度格納バッファ211から上記共通単語の頻度情報
を取得し、その頻度値を“w”として作業用変数バッフ
ァ219の作業用頻度格納領域にセットする(ステップ
F14)。
にして算出し、その値Rを作業用変数バッファ219の
内積格納領域に累積する(ステップF15)。
納されている共通単語の数分だけ行うと(ステップF1
2のYes)、類似度算出部125は、作業用変数バッ
ファ219の各領域に格納された“R”、“na”、
“nb”を用いて、以下のような演算を行って検索キー
文書と検索文書との類似度Sを求める(ステップF1
6)。
との類似度を大分類の時間区分の全ての検索文書につい
て求める(ステップD21)。
いて行うと(ステップD18のYes)、次の大分類に
対する処理を行うべく、ステップD17に戻る。
と(ステップD17のYes)、算出類似度格納バッフ
ァ217には検索キー文書と全ての検索文書との類似度
が格納されることになる。図30(a)にこのときのデ
ータ格納例を示す。
217に格納されている各検索文書に対する類似度値を
高い順にソートして、検索結果出力バッファ218に格
納する(ステップD26)。ソート後のデータ格納例を
図30(b)に示す。そして、制御装置1は検索結果出
力部126を起動し、検索結果出力バッファ218に格
納された検索結果(ソート後のデータ)の内容を表示装
置3に出力する(ステップD27)。検索結果は、例え
ば図31に示すような形態で出力するものとする。この
例では、文書番号(ID)「2」,「1」,「3」…と
いった順で検索結果が出力されている。なお、検索結果
の出力に際し、予め設定された閾値以上の類似度値を有
する文書のみを対象として出力することで、検索結果と
して提示する文書数を制限するようにしても良い。
(ステップD28のNo)、ステップD13に戻って上
記同様の処理を行うことになる。
別に分類すると共に、さらに、年別など時間的な区分で
分類し、その分野別かつ時間区分別の単語出現頻度情報
を作成することで、分野別の時間的要素に応じた各単語
の重要度を得ることができる。これにより、検索キー文
書と各検索文書との類似度計算を行う際に、検索キー文
書と検索文書のそれぞれの単語頻度情報の中の単語毎の
出現頻度を要素とする一次元ベクトルにおいて、各単語
の出現頻度に対し、分野別の時間的要素に応じた各単語
の重要度を加味して、精度の高い類似検索を実現するこ
とができる。
与えられた文書の分野、時間区分を全分野全時間区分の
検索文書とのマッチングにより判断したが、検索キー文
書の分野あるいは時間区分が明らかである場合には、そ
の分野、時間区分に限定したマッチングを行うといった
方法を採っても良い。
度に分野毎の時間的な要素に応じた重み付けを行うよう
にしたが、少なくとも時間的な要素に応じた単語の重み
付けを行うことでも良い。ただし、上記図1で説明した
ように、特徴単語の時間的な変化は分野によって異なる
ため、多種の分野に亘って文書が存在する場合には、上
記実施形態のように分野と時間の両方の要素を加味して
単語の重み付けを行うことが望ましい。
ば特許分野における引用文献の検索の他、一般的なパー
ソナルコンピュータ等におけるファイル管理など、検索
を必要とする技術一般に広く適用できるものである。
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フロッピーディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリなどの記録媒体に書き込んで
各種装置に適用したり、通信媒体により伝送して各種装
置に適用することも可能である。本装置を実現するコン
ピュータは、記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されることによ
り、上述した処理を実行する。
文書毎の単語の出現頻度に各文書の時間的な要素に応じ
た重み付けを行うようにしたため、時間別の単語の重要
度を得ることができ、各検索対象文書と検索キー文書と
の類似度を求める際にその単語重要度を加味すること
で、高精度の類似検索を実現することができる。
別の時間的な要素に応じた重み付けを行うことで、分野
によって異なる特徴単語の時間的な変化を反映させた単
語の重要度を得ることができる。このような分野別かつ
時間別の単語の重要度を各検索対象文書と検索キー文書
との類似度計算に加味することで、さらに高精度の類似
検索を実現することができる。
めの図。
構成を示すブロック図。
図。
ート。
録処理の具体的な動作を示すフローチャート。
語出現頻度作成処理の具体的な動作を示すフローチャー
ト。
ト。
処理の具体的な動作を示すフローチャート。
処理の具体的な動作を示すフローチャート。
1)の一例を示す図。
例を示す図。
3)の一例を示す図。
一例を示す図。
内容を示す図。
図。
の内容を示す図。
を示す図。
す図。
示す図。
図。
す図。
図。
す図。
図。
示す図。
を示す図。
ト後)を示す図。
Claims (8)
- 【請求項1】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索装置において、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求める出現頻度算出手段
と、 この出現頻度算出手段によって得られた上記各検索対象
文書および上記検索対象文書に対応した単語の出現頻度
に、それぞれの文書の時間的な要素に応じた重み付けを
行う単語重み付け手段と、 この単語重み付け手段によって重み付けされた単語出現
頻度に基づいて上記各検索対象文書と上記検索キー文書
との類似度を算出する類似度算出手段と、 この類似度算出手段によって得られた類似度に基づいて
上記各検索対象文書の中から上記検索対象文書と類似す
る文書を検索結果として出力する出力手段とを具備した
ことを特徴とする類似文書検索装置。 - 【請求項2】 上記単語重み付け手段は、上記出現頻度
算出手段によって得られた上記各検索対象文書および上
記検索対象文書に対応した単語の出現頻度に、それぞれ
の文書が属する分野毎の時間的な要素に応じて重み付け
を行うことを特徴とする請求項1記載の類似文書検索装
置。 - 【請求項3】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索装置において、 上記各検索対象文書を時間的要素に基づいて分類する分
類手段と、 この分類手段による分類別に上記各検索対象文書に含ま
れる単語の出現頻度を求める第1の出現頻度算出手段
と、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求める第2の出現頻度頻度
算出手段と、 上記第1の出現頻度算出手段によって得られた分類別の
単語出現頻度に基づいて、上記第2の出現頻度算出手段
によって得られた上記各検索対象文書および上記検索キ
ー文書のそれぞれの単語の出現頻度に重み付けを行う単
語重み付け手段と、 この単語重み付け手段によって重み付けされた単語出現
頻度に基づいて上記各検索対象文書と上記検索キー文書
との類似度を算出する類似度算出手段と、 この類似度算出手段によって得られた類似度に基づいて
上記各検索対象文書の中から上記検索対象文書と類似す
る文書を検索結果として出力する出力手段とを具備した
ことを特徴とする類似文書検索装置。 - 【請求項4】 上記分類手段は、上記各検索対象文書を
それぞれが属する分野毎の時間的要素に基づいて分類す
ることを特徴とする請求項3記載の類似文書検索装置。 - 【請求項5】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索方法において、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求め、 上記各検索対象文書および上記検索対象文書に対応した
単語の出現頻度に、それぞれの文書の時間的要素に応じ
た重み付けを行い、 この重み付け後の単語出現頻度に基づいて上記各検索対
象文書と上記検索キー文書との類似度を算出し、 この算出された類似度に基づいて上記各検索対象文書の
中から上記検索対象文書と類似する文書を検索結果とし
て出力することを特徴とする類似文書検索方法。 - 【請求項6】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索方法において、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求め、 上記各検索対象文書および上記検索対象文書に対応した
単語の出現頻度に、それぞれの文書が属する分野毎の時
間的要素に応じた重み付けを行い、 この重み付け後の単語出現頻度に基づいて上記各検索対
象文書と上記検索キー文書との類似度を算出し、 この算出された類似度に基づいて上記各検索対象文書の
中から上記検索対象文書と類似する文書を検索結果とし
て出力することを特徴とする類似文書検索方法。 - 【請求項7】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索機能を備えたコンピュータに、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求める機能と、 上記各検索対象文書および上記検索対象文書に対応した
単語の出現頻度に、それぞれの文書の時間的要素に応じ
た重み付けを行う機能と、 この重み付け後の単語出現頻度に基づいて上記各検索対
象文書と上記検索キー文書との類似度を算出する機能
と、 この算出された類似度に基づいて上記各検索対象文書の
中から上記検索対象文書と類似する文書を検索結果とし
て出力する機能とを実行させるプログラムを記録したコ
ンピュータ読取り可能な記録媒体。 - 【請求項8】 複数の検索対象文書の中から検索キーと
して与えられた文書と類似する文書を検索する類似文書
検索機能を備えたコンピュータに、 上記各検索対象文書および上記検索キー文書のそれぞれ
に含まれる単語の出現頻度を求める機能と、 上記各検索対象文書および上記検索対象文書に対応した
単語の出現頻度に、それぞれの文書が属する分野毎の時
間的要素に応じた重み付けを行う機能と、 この重み付け後の単語出現頻度に基づいて上記各検索対
象文書と上記検索キー文書との類似度を算出する機能
と、 この算出された類似度に基づいて上記各検索対象文書の
中から上記検索対象文書と類似する文書を検索結果とし
て出力する機能とを実行させるプログラムを記録したコ
ンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33459799A JP2001155020A (ja) | 1999-11-25 | 1999-11-25 | 類似文書検索装置、類似文書検索方法及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP33459799A JP2001155020A (ja) | 1999-11-25 | 1999-11-25 | 類似文書検索装置、類似文書検索方法及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001155020A true JP2001155020A (ja) | 2001-06-08 |
Family
ID=18279182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33459799A Pending JP2001155020A (ja) | 1999-11-25 | 1999-11-25 | 類似文書検索装置、類似文書検索方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001155020A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312513A (ja) * | 2000-02-21 | 2001-11-09 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
JP2003177786A (ja) * | 2001-12-11 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 言語モデル作成装置及びそれを利用した音声認識装置 |
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2007102501A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度算出方法及び装置 |
US7289982B2 (en) | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
JP2009048394A (ja) * | 2007-08-20 | 2009-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書間距離演算装置、文書間距離演算方法、プログラムおよび記録媒体 |
CN112132705A (zh) * | 2020-09-30 | 2020-12-25 | 国网智能科技股份有限公司 | 一种变电站全景数据存储与再现方法及系统 |
US11455389B2 (en) | 2017-05-19 | 2022-09-27 | Fujitsu Limited | Evaluation method, information processing apparatus, and storage medium |
-
1999
- 1999-11-25 JP JP33459799A patent/JP2001155020A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312513A (ja) * | 2000-02-21 | 2001-11-09 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
JP4605415B2 (ja) * | 2000-02-21 | 2011-01-05 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
JP2003177786A (ja) * | 2001-12-11 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 言語モデル作成装置及びそれを利用した音声認識装置 |
US7289982B2 (en) | 2001-12-13 | 2007-10-30 | Sony Corporation | System and method for classifying and searching existing document information to identify related information |
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2007102501A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度算出方法及び装置 |
JP2009048394A (ja) * | 2007-08-20 | 2009-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 文書間距離演算装置、文書間距離演算方法、プログラムおよび記録媒体 |
US11455389B2 (en) | 2017-05-19 | 2022-09-27 | Fujitsu Limited | Evaluation method, information processing apparatus, and storage medium |
CN112132705A (zh) * | 2020-09-30 | 2020-12-25 | 国网智能科技股份有限公司 | 一种变电站全景数据存储与再现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7200587B2 (en) | Method of searching similar document, system for performing the same and program for processing the same | |
JP2742115B2 (ja) | 類似文書検索装置 | |
US20040083224A1 (en) | Document automatic classification system, unnecessary word determination method and document automatic classification method | |
JPH09134363A (ja) | データベース検索方法及び装置 | |
CN111738589B (zh) | 基于内容推荐的大数据项目工作量评估方法、装置及设备 | |
JP2003281186A (ja) | 類似性判断のための例題ベース検索方法及び検索システム | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP2001155020A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
JP2002007433A (ja) | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム | |
JP2000163437A (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
JP4234841B2 (ja) | データ分析装置 | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 | |
JP3894428B2 (ja) | 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP3602084B2 (ja) | データベース管理装置 | |
JPH10269235A (ja) | 類似文書検索装置及び類似文書検索方法 | |
US20090327276A1 (en) | Organising and storing documents | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
Desai et al. | Analysis of Health Care Data Using Natural Language Processing | |
JP2002099573A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040409 |
|
A131 | Notification of reasons for refusal |
Effective date: 20060410 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
A521 | Written amendment |
Effective date: 20060524 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060713 |
|
A61 | First payment of annual fees (during grant procedure) |
Effective date: 20060718 Free format text: JAPANESE INTERMEDIATE CODE: A61 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 3 Free format text: PAYMENT UNTIL: 20090728 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20100728 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 5 Free format text: PAYMENT UNTIL: 20110728 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110728 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 6 Free format text: PAYMENT UNTIL: 20120728 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 7 Free format text: PAYMENT UNTIL: 20130728 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |