JP2001155020A - 類似文書検索装置、類似文書検索方法及び記録媒体 - Google Patents

類似文書検索装置、類似文書検索方法及び記録媒体

Info

Publication number
JP2001155020A
JP2001155020A JP33459799A JP33459799A JP2001155020A JP 2001155020 A JP2001155020 A JP 2001155020A JP 33459799 A JP33459799 A JP 33459799A JP 33459799 A JP33459799 A JP 33459799A JP 2001155020 A JP2001155020 A JP 2001155020A
Authority
JP
Japan
Prior art keywords
document
search
word
similar
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33459799A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Hiromi Saito
裕美 齋藤
Takuya Nishina
卓哉 仁科
Yukio Nakamoto
幸夫 中本
Hiroshi Yamazaki
弘 山崎
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP33459799A priority Critical patent/JP2001155020A/ja
Publication of JP2001155020A publication Critical patent/JP2001155020A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書が属する分野や作成時期を考慮して類似文
書を高精度に検索する。 【解決手段】複数の検索対象文書の中から検索キーとし
て与えられた文書と類似する文書を検索する類似文書検
索装置において、文書の内容を特徴付ける単語の時間的
な変化に着目し、各文書毎の単語の出現頻度に各文書の
時間的な要素に応じた重み付けを行うことで、時間別の
単語の重要度を得て、その単語の重要度を加味した類似
度計算を行う。さらに、特徴単語の時間的な変化は文書
が属する分野によっても異なるため、各文書を分野別に
分類し、その分野別の時間的な要素に応じた重み付けを
行うことで、分野別かつ時間別の単語の重要度を得て、
その単語の重要度を加味した類似度計算を行う。これに
より、類似度計算に単語の重要度を的確に反映させて、
高精度に類似文書を検索することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースに登
録された複数の検索対象文書の中から類似文書と類似す
る文書を検索する類似文書検索装置であって、特に各文
書に含まれる単語の重要度を考慮して類似文書の検索を
行う類似文書検索装置と、この装置に用いられる類似文
書検索方法及び記録媒体に関する。
【0002】
【従来の技術】従来、例えば引用文献等として用いられ
る各種文書をデータベース化しておき、その中から指定
された文書(以下、検索キー文書と称す)に類似する文
書を自動検索するシステムがある。このようなシステム
では、検索キー文書に含まれている単語と検索対象とな
る文書に含まれている単語とを比較し、共通する単語の
種類、出現場所、出現回数などからベクトル空間法など
により類似度を算出して、類似度の高い文書を検索結果
として出力している。
【0003】このような類似文書検索では、検索キー文
書や検索対象となる文書から、その文書の内容を特徴付
ける単語を抽出することが重要となる。通常、各文書に
含まれる単語の出現頻度を単語種毎に求め、出現頻度の
低い単語をその文書の内容を特徴付ける単語として判断
している。
【0004】
【発明が解決しようとする課題】上述したように、従
来、単語の出現頻度によって特徴単語を判断していた。
しかしながら、検索対象となる文書が膨大にあり、しか
も、長い年月に亘って蓄積された場合には、単語の出現
頻度からだけでは特徴単語を的確に判断することはでき
ない。これは、各文書が属する分野によって、その文書
を特徴付ける単語の種類が異なり、また、同じ分野の中
でも文書の作成時期(発行時期)によって特徴単語が異
なるからである。
【0005】本発明は上記のような点に鑑みなされたも
ので、文書が属する分野や作成時期を考慮して類似文書
を高精度に検索することのできる類似文書検索装置、類
似文書検索方法及び記録媒体を提供することを目的とす
る。
【0006】
【課題を解決するための手段】本発明の類似文書検索装
置は、文書を特徴付ける単語の時間的な変化に着目し、
各文書に含まれる単語の出現頻度に各文書の時間的な要
素に応じた重み付けを行うようにしたものである。
【0007】具体的には、各検索対象文書および検索キ
ー文書のそれぞれに含まれる単語の出現頻度を求める出
現頻度算出手段と、この出現頻度算出手段によって得ら
れた上記各検索対象文書および上記検索対象文書に対応
した単語の出現頻度に、それぞれの文書の時間的な要素
に応じた重み付けを行う単語重み付け手段とを備え、こ
の単語重み付け手段による重み付け後の単語出現頻度に
基づいて上記各検索対象文書と上記検索キー文書との類
似度を算出し、その類似度に基づいて上記各検索対象文
書の中から上記検索対象文書と類似する文書を検索結果
として出力するようにしたものである。
【0008】このような構成によれば、各文書毎の単語
の出現頻度にそれぞれの文書の時間的な要素に応じた重
み付けを行うことで、時間別の単語の重要度を得ること
ができ、その単語の重要度を加味した類似度計算によ
り、検索キー文書と類似する文書を的確に検索すること
ができる。
【0009】さらに、本発明は、上述した特徴単語の時
間的な変化は分野によっても異なることに着目し、各検
索対象文書および検索対象文書に対応した単語の出現頻
度に、それぞれの文書が属する分野毎の時間的な要素に
応じて重み付けを行うことを特徴とする。
【0010】このように、分野毎の時間的な要素に応じ
た重み付けを行うことで、分野別かつ時間別の単語の重
要度を得ることができ、その単語の重要度を加味した類
似度計算により、検索キー文書と類似する文書をさらに
的確に検索することができる。
【0011】
【発明の実施の形態】まず、本発明の実施形態を説明す
る前に理解を容易にするため、本発明の類似文書検索装
置の概要について説明する。
【0012】本発明の類似文書検索装置は、検索キーと
して与えられた文書と類似する文書を複数の検索対象文
書の中から検索するものである。このような類似文書の
検索では、文書の内容を特徴付ける単語を抽出すること
が重要となる。
【0013】ここで、図1に示すように、文書の内容を
特徴付ける単語は時代の流れによって異なる。例えば、
「表示装置」といった分野(大分類)では、「液晶」と
いった単語は1970年代では重要度の高い単語として
扱われていた。しかし、技術の発展に伴い、「液晶」と
いった単語は一般化し、1990年代ではその重要度は
低く、代わって別の単語(TFT等)の重要度が高くな
る。このように、文書を特徴付ける単語は時間的に変化
する。したがって、従来のように単に単語の出現頻度だ
けから検索キー文書との類似度を求めていた方法では、
単語の重要度を正確に反映させることはできない。
【0014】そこで、本発明では、このような特徴単語
の時間的な変化に着目し、各文書毎の単語の出現頻度に
各文書の時間的な要素に応じた重み付けを行うことで、
時間別の単語の重要度を得て、その単語の重要度を加味
した類似度計算を行うようにしたものである。
【0015】また、このような特徴単語の時間的な変化
は、文書が属する分野によっても異なる。例えば、コン
ピュータ分野などでは、他の分野よりも時間的な変化が
速い。そこで、各文書を分野別に分類し、その分野別の
時間的な要素に応じた重み付けを行うことで、分野別か
つ時間別の単語の重要度を得て、その単語の重要度を加
味した類似度計算を行うようにしたものである。
【0016】以下に、このような類似文書の検索を実現
するための実施形態について説明する。
【0017】図2は本発明の類似文書検索装置の構成を
示すブロック図である。なお、本装置は、例えば磁気デ
ィスク等の記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されるコンピュ
ータによって実現される。
【0018】図2に示すように、本装置は制御装置1、
入力装置2、表示装置3、外部記憶装置4から構成され
る。制御装置1は、制御部1a(CPU)とメモリ部1
bからなり、所定のプログラムに従って本装置全体の制
御を行う。入力装置2は、例えばキーボードやマウスな
どからなり、データの入力や指示を行う場合に用いられ
る。表示装置3は、例えばCRT(Cathode-ray tube)
やLCD(Liquid Crystal Display)などからなり、類
似検索結果などを表示する。外部記憶装置4は、例えば
磁気ディスク装置や光ディスク装置などからなり、本装
置で扱われる各種データを保持する。
【0019】この外部記憶装置4には、検索対象となる
各文書のデータ(テキスト情報)、類似検索に必要とな
る各文書の単語情報の他、各種データファイルF1〜F
6が設けられている。F1は検索文書大分類識別子デー
タファイル、F2は検索文書大分類データファイル、F
3は検索文書時間区分識別子データファイル、F4は検
索文書時間区分データファイルである。また、F5は全
検索文書大分類情報データファイル、F6は全検索文書
時間区分データファイルである。
【0020】図3は制御装置1の内部構成を示した図で
ある。
【0021】制御装置1は制御部1aとメモリ部1bか
らなっている。制御部1aは、後述するデータベース作
成処理や類似文書検索処理を実行するための処理部10
1〜126から構成される。また、メモリ部1bはこれ
らの処理部101〜126に必要なデータを格納するた
めのバッファ201〜219から構成される。
【0022】初期化部101は、上記各バッファ201
〜219の初期化を行う。
【0023】検索文書大分類別データ読み込み部102
は、外部記憶装置4に格納されている検索文書大分類識
別子データファイルF1の内容を検索文書大分類識別子
格納バッファ201に格納する。この検索文書大分類識
別子データファイルF1は、図10に示すように、大分
類別(分野別)の識別子を示したファイルである。
【0024】検索文書大分類データ読み込み部103
は、外部記憶装置4に格納されている検索文書大分類デ
ータファイルF2の内容を検索文書大分類格納バッファ
202に格納する。この検索文書大分類データファイル
F2は、図11に示すように、大分類IDと大分類デー
タとを対応付けたファイルである。
【0025】検索文書時間区分識別データ読み込み部1
04は、外部記憶装置4に格納されている検索文書時間
区分識別子データファイルF3の内容を検索文書時間区
分識別子格納バッファ203に格納する。この検索文書
時間区分識別子データファイルF3は、図12に示すよ
うに、時間区分別の識別子を示したファイルである。
【0026】検索文書時間区分データ読み込み部105
は、外部記憶装置4に格納されている検索文書時間区分
データファイルF4の内容を検索文書時間区分格納バッ
ファ204に格納する。この検索文書時間区分データフ
ァイルF4は、図13に示すように、時間区分IDと時
間区分とを対応付けたファイルである。
【0027】検索文書読み込み部106は、外部記憶装
置4に格納されている検索文書(検索対象となる文書)
に関する情報をデータベース化するために、各文書のテ
キスト情報を外部記憶装置4から順に読み込み、検索文
書格納バッファ205に格納する。
【0028】検索文書大分類分け部107は、検索文書
格納バッファ205に格納された検索文書を大分類(分
野)毎に分類するためにものであり、当該検索文書の内
容から検索文書大分類識別子および大分類データを抽出
し、検索文書大分類格納バッファ202を参照して、当
該検索文書の大分類データとその大分データに対応する
大分類IDを検索文書大分類情報格納バッファ206に
格納する。さらに、当該検索文書に対する検索文書ID
と検索文書大分類情報格納バッファ206に格納されて
いる大分類IDを全検索文書大分類情報格納バッファ2
08に格納する。
【0029】全検索文書大分類情報書き込み部108
は、全検索文書大分類情報格納バッファ208に格納さ
れている全検索文書の大分類情報を外部記憶装置4に格
納する。
【0030】検索文書時間区分識別子抽出部109は、
検索文書格納バッファ205に格納されている検索文書
を時間区別別に分類するためのものであり、当該検索文
書から検索文書時間区分識別子および時間区分を抽出
し、検索文書時間区分データ格納バッファ204を参照
して、当該検索文書の時間区分とその時間区分に対応す
る時間区分IDを検索文書時間区分格納バッファ207
に格納する。さらに、当該検索文書に対する検索文書I
Dと検索文書時間区分格納バッファ207に格納されて
いる時間区分IDを全検索文書時間区分格納バッファ2
09に格納する。
【0031】全検索文書時間区分書き込み部110は、
全検索文書時間区分対応格納バッファ209に格納され
ている全検索文書の時間区分を外部記憶装置4に格納す
る。
【0032】検索文書単語抽出部111は、検索文書格
納バッファ205に格納されている検索文書から単語の
切り出しを行う。そして、切り出した各単語の中からそ
の文書の内容を表す上でキーとなる単語を抽出し、その
単語種毎に検索文書単語情報格納バッファ210に格納
する。単語の切り出しは、形態素解析などにより行い、
その文書の内容を表す上でキーとなる単語の単語種は品
詞情報(例えば「名詞」や「サ変名詞」)を使って表現
する。
【0033】検索文書単語出現頻度算出部112は、検
索文書単語抽出部110により抽出された個々のキー単
語について、検索文書中での出現頻度を算出し、これを
検索文書の単語情報として検索文書単語情報格納バッフ
ァ210に格納する。
【0034】検索文書単語情報書き込み部113は、検
索文書単語情報格納バッファ210に格納されている検
索文書の単語情報を外部記憶装置4に格納する。
【0035】全検索文書大分類情報読み込み部114
は、外部記憶装置4に格納されている検索文書毎の大分
類情報(全検索文書大分類情報データファイルF5)を
全検索文書大分類情報対応格納バッファ208に格納す
る。
【0036】全検索文書時間区分読み込み部115は、
外部記憶装置4に格納されている検索文書毎の時間区分
(全検索文書時間区分データファイルF6)を全検索文
書時間区分対応格納バッファ209に格納する。
【0037】検索文書単語情報読み込み部116は、外
部記憶装置4に格納されている検索文書単語情報(単語
の出現頻度情報)を検索文書毎に呼び出し、検索文書単
語情報格納バッファ210に格納する。
【0038】検索文書単語出現頻度集計部117は、大
分類別および時間区分別に各単語の出現頻度を算出し、
検索文書単語頻度格納バッファ211に格納する。詳し
くは、検索文書単語情報格納バッファ210に読み込ま
れた検索文書単語情報に対して、検索文書大分類格納バ
ッファ202と全検索文書大分類情報格納バッファ20
8を参照して、検索文書大分類格納バッファ202に格
納された大分類ID別に各単語の出現頻度を集計する。
また、検索文書時間区分データ格納バッファ204と検
索文書時間区分対応格納バッファ209を参照し、検索
文書情報区分データ格納バッファ204に格納された時
間区分ID別に各単語の出現頻度を集計する。
【0039】検索文書単語出現頻度書き込み部118
は、検索文書単語頻度格納バッファ211に格納されて
いる大分類別時間区分別の単語出現頻度情報を外部記憶
装置4に格納する。
【0040】検索キー文書読み込み部119は、入力装
置2から入力された検索キー文書のテキスト情報を検索
キー文書格納バッファ212に格納する。
【0041】検索キー単語抽出部120は、検索キー文
書格納バッファ212に格納されている検索キー文書か
ら単語の切り出しを行う。そして、切り出した各単語の
中からその文書の内容を表す上でキーとなる単語を抽出
し、その単語種を検索キー文書単語情報格納バッファ2
13に格納する。上記検索文書単語抽出部111と同様
に、単語の切り出しは形態素解析などにより行い、その
文書の内容を表す上でキーとなる単語の単語種は品詞情
報(例えば「名詞」や「サ変名詞」)を使って表現す
る。
【0042】検索キー単語出現頻度算出部121は、検
索キー単語抽出部119により抽出された個々のキー単
語について、検索キー文書中での出現頻度を算出し、こ
れを検索キー文書の単語情報として検索キー文書単語情
報格納バッファ213に格納する。
【0043】検索文書単語頻度読み込み部122は、外
部記憶装置4に格納されている検索文書単語出現頻度情
報を大分類別時間区分別の検索文書単語頻度格納バッフ
ァ211に格納する。
【0044】ノルム情報算出部123は、検索文書単語
情報あるいは検索キー文書単語情報に格納された単語I
D毎の単語出現頻度を要素とする1次元ベクトルのノル
ムを計算する。なお、ノルムとは、ベクトルの大きさを
表わすものである。その際、検索文書単語頻度格納バッ
ファ211に格納されている大分類別時間区分別の単語
頻度情報を参照し、該当する単語に対する頻度情報を加
重してノルム計算を行い、その結果を検索文書ノルム情
報格納バッファ214あるいは検索キー文書ノルム情報
格納バッファ215に格納する。
【0045】共通単語抽出部124は、検索キー文書単
語情報格納バッファ213に格納されている検索キー文
書の単語情報と検索文書単語情報格納バッファ210に
格納されている検索文書の単語情報とを比較して、両者
で共通する単語の種類とその出現頻度情報を共通単語情
報格納バッファ216に格納する。
【0046】類似度算出部125は、共通単語情報格納
バッファ216に格納されている共通単語に関する情報
に基づき検索キーと検索文書との類似度を算出し、その
類似度値を類似度格納バッファ217に格納する。
【0047】検索結果出力部126は、類似度格納バッ
ファ217に格納されている各検索文書に対する類似度
値を高い順に並べ替えて、検索結果出力バッファ218
に格納し、さらに、検索結果出力バッファ218の内容
を表示装置3に出力する。
【0048】次に、本装置の動作について説明する。
【0049】なお、ここでは、(a)データベース作成
処理と、(b)類似文書作成処理に分けて、それぞれの
処理動作について説明する。
【0050】(a)データベース作成処理 まず、本装置にて実行されるデータベース作成処理につ
いて説明する。
【0051】図4はデータベース作成処理の動作を示す
フローチャートである。
【0052】検索文書データベースを作成する手順とし
て、検索対象となる各文書を1件ずつ処理して、各文書
の単語情報を作成し(ステップA11)、全ての文書の
処理が終了したら、上記単語情報を使って単語頻度に関
する情報を作成する(ステップA12)。ステップA1
1における検索文書登録処理の詳細を図5、ステップA
12における検索文書単語出現頻度作成処理の詳細を図
6に示す。
【0053】図5は上記図4のステップA11における
検索文書登録処理の動作を示すフローチャートである。
【0054】制御装置1は、まず、制御部1aの初期化
部101を起動し、メモリ部1bの全バッファ部の初期
化を行う(ステップB11)。また、各データ読み込み
部102〜105を起動して、外部記憶装置4の検索文
書大分類識別子データファイルF1、検索文書大分類デ
ータファイルF2、検索文書時間区分識別子データファ
イルF3、検索文書時間区分データファイルF4の情報
を読み込み、それぞれ検索文書大分類識別子格納バッフ
ァ201、検索文書大分類格納バッファ202、検索文
書時間区分識別子データ格納バッファ203、検索文書
時間区分データ格納バッファ204に格納する(ステッ
プB12)。
【0055】図15に検索文書大分類識別子格納バッフ
ァ201のデータ格納例、図16に索文書大分類格納バ
ッファ202のデータ格納例、図17に検索文書時間区
分識別子データ格納バッファ203のデータ格納例、図
18に検索文書時間区分データ格納バッファ204のデ
ータ格納例を示す。
【0056】ここで、外部記憶装置4にデータベースに
登録する文書がある場合には(ステップB13のYe
s)、検索文書読み込み部106が外部記憶装置4から
その文書のテキスト文書を読み込み、これを検索対象と
して検索文書格納バッファ205に格納する(ステップ
B14)。具体例として、例えば図14に示すような内
容を有するテキスト文書を検索文書の1つとして検索文
書格納バッファ205に格納したとする。
【0057】検索文書の読み込み後、制御装置1は検索
文書格納バッファ205に格納された検索文書を先頭か
ら順に走査していく(ステップB15)。その際、当該
検索文書から大分類情報を抽出できたか否かチェックす
る(ステップB16)、まだならば(ステップB16の
No)、検索文書大分類分け部107を起動し、検索文
書大分類情報識別子格納バッファ201に格納されてい
る識別子情報を参照して当該文書から大分類情報を抽出
する(ステップB17)。
【0058】具体的に説明すると、例えば図14に示す
ようなテキスト文書であれば、検索文書大分類情報識別
子格納バッファ201に格納されている識別子情報
(「[大分類]???」)を参照し、1行目の「[大分
類]A01」から識別子情報の「???」に相当する
「A01」を大分類情報として抽出し、この大分類情報
「A01」に対応する大分類ID「1」と共に検索文書
大分類情報格納バッファ206に格納する。図19にこ
のときのデータ格納例を示す。その際、当該検索文書の
ID「1」と検索文書大分類情報格納バッファ206に
格納されている大分類ID「1」とを対にして全検索文
書大分類情報格納バッファ208に格納する。図20に
このときのデータ格納例を示す。
【0059】続いて、制御装置1は検索文書格納バッフ
ァ205を参照し、文書終端でなければ(ステップB1
5のNo)、時間区分を抽出できたか否かをかチェック
する(ステップB18)。まだならば(ステップB18
のNo)、検索文書時間区分識別子抽出部109を起動
し、検索文書時間区分識別子データ格納バッファ203
に格納されている識別子情報を参照して当該検索文書か
ら時間区分を抽出する(ステップB19)。
【0060】具体的に説明すると、例えば図14に示す
ようなテキスト文書であれば、検索文書時間区分識別子
データ格納バッファ203に格納されている識別子情報
(「[出願日]????年」)を参照し、1行目の
「[出願日]1999年(平成5年)9月27日」から
識別子情報の「????」に相当する「1999」を時
間区分として抽出し、この時間区分「1999」に対応
する時間区分ID「1」とと共に検索文書時間区分格納
バッファ207に格納する。図21にこのときのデータ
格納例を示す。その際、当該検索文書に対する検索文書
ID「1」と検索文書時間区分格納バッファ207に格
納されている時間区分ID「1」とを対にして全検索文
書時間区分格納バッファ209に格納する。図22にこ
のときのデータ格納例を示す。
【0061】また、大分類情報抽出済みであり(ステッ
プB16のYes)、かつ、時間区分抽出済みでならば
(ステップB18のYes)、制御装置1は検索対象単
語抽出部111を起動し、検索文書格納バッファ205
に格納された検索文書のテキスト情報を形態素解析して
単語の切り出しを行い、その切り出した各単語の中から
文書内容を表すキー単語を抽出し、そのキー単語の単語
種(例えば品詞情報)を検索文書単語情報格納バッファ
210に格納する(ステップB20)。
【0062】続いて、検索文書単語出現頻度算出部11
2を起動し、当該検索文書全体での単語の出現頻度を算
出し、その結果を検索文書単語情報格納バッファ210
に格納する(ステップB21)。図23にこのときのデ
ータ格納例を示す。この場合、単語と頻度が対について
格納される。例えば、キー単語「文書」が当該検索文書
の中で2回出現している場合は、頻度として「2」が格
納される。
【0063】文書の終端まで達したら(ステップB15
のYes)、検索文書単語情報書き込み部113を起動
し、検索文書単語情報格納バッファ210に格納された
情報を検索文書の単語情報として外部記憶装置4に格
納、蓄積する(ステップB22)。また、全検索文書大
分類情報書き込み部108を起動し、全検索文書大分類
情報格納バッファ208に格納された全検索文書の大分
類情報を外部記憶装置4に格納し、全検索文書時間区分
書き込み部110を起動し、全検索文書時間区分対応格
納バッファ209に格納された全検索文書の時間区分を
外部記憶装置4に格納する。
【0064】以上のような処理を登録対象となる検索文
書のすべてについて、繰り返し実行する。
【0065】次に、検索文書単語出現頻度作成処理につ
いて説明する。
【0066】図6は上記ステップA12における検索文
書単語出現頻度作成処理の動作を示すフローチャートで
ある。
【0067】まず、制御装置1は全検索文書大分類情報
読み込み部114を起動し、外部記憶装置4から文書対
大分類の情報(全検索文書大分類情報データファイルF
5)を読み込んで全検索文書大分類情報格納バッファ2
08に格納すると共に、全検索文書時間区分読み込み部
115を起動し、外部記憶装置4から文書対時間区分の
情報(全検索文書時間区分データファイルF6)を読み
込んで全検索文書時間区分格納バッファ209に格納す
る(ステップC11)。
【0068】そして、制御装置1は全検索文書時間区分
格納バッファ209に格納された検索文書IDと時間区
分IDを参照して、全文書に対し、以下のような集計処
理を行う(ステップC12)。
【0069】すなわち、検索文書単語情報読み込み部1
16によって、該当する検索文書IDに対応する検索文
書単語情報を外部記憶装置4から読み込み、これを検索
文書単語情報格納バッファ210に読み込む(ステップ
C13)。
【0070】続いて、検索文書単語出現頻度算出部11
7によって、検索文書単語情報格納バッファ210に読
み込まれた当該検索文書の検索文書単語情報に関し、そ
の文書が属する大分類別、かつ、時間区分別に全ての単
語について、出現の有無を累積し、大分類別時間区分別
の検索文書単語頻度格納バッファ211に格納する(ス
テップC14)。上記出現の有無を累積するとは、ある
文書にある単語が複数出現していても、それを1回と数
えるということである。
【0071】大分類別かつ時間区分別に、全ての文書に
ついて上記ステップC14の処理を行うと、検索文書単
語頻度格納バッファ211の内容は図25のようにな
る。例えば、「大分類ID:1」の「時間区分ID:
1」において「表示」という単語は120回出現し、
「区分」という単語は9回出現しているという情報が格
納されている。したがって、この「時間区分ID:1」
に属する文書数がnとした場合、「表示」という単語は
文書数nの中で120文書に出現しているということに
なる。
【0072】以上の処理を全検索文書時間区分格納バッ
ファ209に格納されている検索文書IDの全てに関し
て行う。処理後、検索文書単語頻度格納バッファ211
に格納された情報は、全検索文書の単語情報として外部
記憶装置4に格納、蓄積される(ステップC15)。
【0073】このようなデータベース作成処理により、
検索対象となる各文書が分野別かつ時間別に分類され、
その分類毎の単語出現頻度情報が外部記憶装置4に作成
される。分野別の分類とは、内容的な要素による分類で
あり、図14に示す[大分類](具体的には特許文献に
おけるIPCクラス)に当たる。時間別の分類とは、文
書の作成期間あるは発行期間などを示す時間的な要素に
よる分類であり、図14に示す[出願日]に当たる。
【0074】以下に、このような分類毎の単語出現頻度
情報を用いた類似文書検索処理の動作について説明す
る。
【0075】(b)類似文書検索処理 図7は類似文書検索処理の動作を示すフローチャートで
ある。
【0076】制御装置1は、まず、制御部1aの初期化
部101を起動し、メモリ部1bの全バッファ部の初期
化を行う(ステップD11)。
【0077】次に、検索文書大分類データ読み込み部1
03および検索文書時間区分データ読み込み部105を
起動し、外部記憶装置4から検索文書大分類データファ
イルF2、検索文書時間区分データファイルF4を読み
込んで検索文書大分類格納バッファ202、検索文書時
間区分格納バッファ204にそれぞれ格納する。また、
全検索文書大分類情報読み込み部114および全検索文
書時間区分読み込み部115を起動し、外部記憶装置4
から全検索文書大分類情報データファイルF5、全検索
文書時間区分データファイルF6を読み込んで、全検索
文書大分類情報格納バッファ208、全検索文書時間区
分格納バッファ209にそれぞれ格納する(ステップD
12)。
【0078】ここで、制御装置1は検索キー文書読み込
み部119を起動し、入力装置2を通じてユーザが指定
した検索キー文書の入力を受け付け、入力された検索キ
ー文書のテキスト情報を検索キー文書格納バッファ21
2に格納する(ステップD13)。具体例として、例え
ば図26に示すような内容のテキスト文書が検索キー文
書の1つとして検索キー文書格納バッファ212に格納
されたとする。
【0079】検索キー文書の読み込み後、制御装置1は
検索キー文書格納バッファ212に格納された検索キー
文書を先頭から順に走査していく(ステップD14)。
その間、検索キー単語抽出部120を起動し、当該検索
キー文書2に格納されたテキスト情報を形態素解析して
単語の切り出しを行い、その切り出した各単語の中から
文書内容を表すキー単語を抽出し、そのキー単語の単語
種(例えば品詞情報)を検索キー文書単語情報格納バッ
ファ213に格納する(ステップD15)。
【0080】続いて、検索キー文書単語出現頻度算出部
121を起動し、当該検索キー文書全体での単語の出現
頻度を算出し、その結果を検索キー文書単語情報格納バ
ッファ213に格納する(ステップD16)。図27に
このときのデータ格納例を示す。この場合、単語と頻度
が対について格納される。例えば、キー単語「写像」が
当該検索キー文書の中で6回出現している場合は、頻度
として「2」が格納される。
【0081】このようにして、検索キー文書の単語情報
が得られると、制御装置1は、大分類毎かつ時間区分毎
に検索文書と検索キーとの類似算出処理を行う。
【0082】すなわち、制御装置1は検索文書単語頻度
読み込み部122を起動して、上記(a)のデータ作成
処理によってデータベース外部記憶装置4上に作成され
た大分類かつ時間区分の検索文書単語出現頻度情報を1
件ずつ読み込み(ステップD17,D18)、これを検
索文書単語頻度格納バッファ211に順次格納していく
(ステップD19)。
【0083】次に、ノルム情報算出部123を起動して
検索キー文書単語情報格納バッファ213に格納された
検索キー文書の単語頻度情報と、検索文書単語頻度格納
バッファ211に格納された大分類別時間区分別検索文
書の単語頻度情報に基づいて、検索キー文書に対する1
次元ベクトルのノルム情報を算出し、その値を検索キー
文書ノルム情報格納バッファ215に格納する(ステッ
プD20)。図28にこのときのデータ格納例を示す。
【0084】ここで、ノルム情報について説明する。
【0085】ノルムとは、1次元のベクトルをA=(a
1,a2,…an)としたとき、 |A|=√(各ベクトル要素の二乗和) で表される値のことである。このノルム値は、後述する
検索キー文書とデータベース内の検索文書との類似度計
算で使用される。
【0086】図8のフローチャートを参照して、このノ
ルム算出処理の具体的な説明を行う。ここでは、検索キ
ー文書を対象とした場合でのノルム算出処理について説
明する。
【0087】ノルム情報算出部123は、まず、検索キ
ー文書単語情報格納バッファ213に格納された検索キ
ー文書の単語頻度値を“f”として、図32に示すよう
に作業用変数バッファ219の単語頻度格納領域にセッ
トする(ステップE12)。次に、検索文書単語頻度格
納バッファ211に格納された検索文書の単語頻度値を
“wg”として、作業用変数バッファ219の単語重み
格納領域にセットする(ステップE13)。
【0088】ここで、“f”を“wg”で割った商の二
乗を求め、その値を“nr”として、作業用変数バッフ
ァ219の作業用ノルム値格納領域に格納する(ステッ
プE14)。この計算による処理は、検索キー文書の単
語頻度に重みを付ける処理として実施する。つまり、検
索キー文書の単語頻度は、大分類かつ時間区分における
重要度として考えられ、頻度が多ければ、その単語の重
要度は低く、頻度が少なければ、その単語の重要度は高
くなる。したがって、“f”を“wg”で割った商と
は、その単語の頻度に重みを付けた結果と言える。ここ
までの処理を実施したら、次の単語に対する処理を行い
(ステップE15)。
【0089】全ての単語について処理が終了した時点で
(ステップE11のYes)、作業用変数バッファ21
9の作業用ノルム値格納領域に蓄積された“nr”の平
方根を求め、その値を当該検索キー文書のノルム値とし
て検索キー文書ノルム情報格納バッファ215に格納す
る(ステップE16)。
【0090】このような処理により、検索キー文書のノ
ルム値が得られる。
【0091】次に、制御装置1は検索文書単語情報読み
込み部116を起動し、外部記憶装置4に格納されてい
る各検索文書の単語情報を大分類別に1つずつ読み込
み、検索文書単語情報格納バッファ210に格納する
(ステップD22)。
【0092】ここで、ノルム情報算出部123が検索文
書単語情報格納バッファ210に格納された検索文書の
単語情報と検索文書単語頻度格納バッファ211に格納
された検索文書の大分類別時間区分別単語頻度の情報を
参照し、検索文書に対するノルム情報を算出し、その結
果を検索文書ノルム情報格納バッファ214に格納する
(ステップD23)。図24にこのときのデータ格納例
を示す。
【0093】なお、この検索文書に対するノルム情報の
具体的な算出処理については、参照する単語情報が検索
文書単語情報という違いだけで、それ以外は上述した検
索キー文書のノルム算出処理(図8)と同様であるた
め、ここではその説明を省略するものとする。
【0094】次に、制御装置1は共通単語抽出部124
を起動して、検索キー文書単語情報格納バッファ213
と検索文書単語情報格納バッファ210とで共通に格納
されているキー単語を検出し、その共通単語を共通単語
情報格納バッファ216に格納する(ステップD2
4)。
【0095】図27の検索キー文書単語情報格納バッフ
ァ213と図23の検索文書単語情報格納バッファ21
0の例では、両者に共通する単語として「文書」,「検
索」が検出され、図29に示すように共通単語情報格納
バッファ216に格納される。
【0096】次に、制御装置1は類似度算出部125を
起動し、共通単語情報格納バッファ216に格納されて
いる共通単語に基づき、検索キー文書と検索対象大分類
の単語情報との類似度を所定の方法により算出し、その
類似度を検索文書IDと対応付けて類似度格納バッファ
217に格納する(ステップD25)。
【0097】本実施形態では、検索キー文書と検索対象
との類似度をベクトル空間法により算出するものとす
る。
【0098】ベクトル空間法では、2つの一次元ベクト
ル、例えば、A=(a1,a2,…an)、B=(b
1,b2,…bn)の類似度Sを次のように算出する。
【0099】S=A・B/(|A||B|) 分子のA・Bは、2つの一次元ベクトルの内積であり、
分母の|A||B|は、それぞれの一次元ベクトルのノ
ルム(ベクトルの大きさ)の積である。この類似度S
は、0≦S≦1の範囲にあり、類似度が1に近いほど、
2つの一次元ベクトルが類似していることになる。
【0100】ここで、単語情報を一次元ベクトルと考
え、上記の例にあてはめると、検索キー文書の全ての単
語の出現頻度がベクトルA、検索文書の全ての単語の出
現頻度がベクトルBとなり、検索キー文書と検索文書と
の類似度はSという値で得られる。
【0101】この類度度算出処理について、図9を用い
て詳しく説明する。
【0102】図9は上記ステップD25における類度度
算出処理の動作を示すフローチャートである。
【0103】まず、類似度算出部125は、検索キー文
書のノルム値を検索キー文書ノルム情報格納バッファ2
15から取得し、これを“na”として、図32に示す
作業用変数バッファ219の検索キー文書ノルム格納領
域にセットすると共に、検索文書のノルム値を検索文書
ノルム情報格納バッファ214から取得し、これを“n
b”として作業用変数バッファ219の検索文書ノルム
格納領域にセットする(ステップF11)。
【0104】次に、類似度算出部125は、共通単語情
報格納バッファ216に格納されている共通単語を参照
し、その共通単語の数分だけ、以下のような処理を行
う。
【0105】すなわち、検索キー文書単語情報格納バッ
ファ213から検索キー文書における共通単語の頻度情
報を取得し、その頻度値を“a”として作業用変数バッ
ファ219の検索キー単語頻度格納領域にセットすると
共に、検索文書単語情報格納バッファ210から検索文
書における共通単語の頻度情報を取得し、その頻度値を
“b”として作業用変数バッファ219の検索対象単語
頻度格納領域にそれぞれセットする(ステップF1
3)。
【0106】さらに、大分類別時間区分別の検索文書単
語頻度格納バッファ211から上記共通単語の頻度情報
を取得し、その頻度値を“w”として作業用変数バッフ
ァ219の作業用頻度格納領域にセットする(ステップ
F14)。
【0107】ここで、上記共通単語の内積を以下のよう
にして算出し、その値Rを作業用変数バッファ219の
内積格納領域に累積する(ステップF15)。
【0108】R=(a/w)*(b/w) ここまでの処理を共通単語情報格納バッファ216に格
納されている共通単語の数分だけ行うと(ステップF1
2のYes)、類似度算出部125は、作業用変数バッ
ファ219の各領域に格納された“R”、“na”、
“nb”を用いて、以下のような演算を行って検索キー
文書と検索文書との類似度Sを求める(ステップF1
6)。
【0109】S=R/(na*nb) 以上が類似度の算出処理である。
【0110】このようにして、検索キー文書と検索文書
との類似度を大分類の時間区分の全ての検索文書につい
て求める(ステップD21)。
【0111】この一連の処理を全ての時間区分数分につ
いて行うと(ステップD18のYes)、次の大分類に
対する処理を行うべく、ステップD17に戻る。
【0112】全て大分類について上記同様の処理を行う
と(ステップD17のYes)、算出類似度格納バッフ
ァ217には検索キー文書と全ての検索文書との類似度
が格納されることになる。図30(a)にこのときのデ
ータ格納例を示す。
【0113】ここで、制御装置1は類似度格納バッファ
217に格納されている各検索文書に対する類似度値を
高い順にソートして、検索結果出力バッファ218に格
納する(ステップD26)。ソート後のデータ格納例を
図30(b)に示す。そして、制御装置1は検索結果出
力部126を起動し、検索結果出力バッファ218に格
納された検索結果(ソート後のデータ)の内容を表示装
置3に出力する(ステップD27)。検索結果は、例え
ば図31に示すような形態で出力するものとする。この
例では、文書番号(ID)「2」,「1」,「3」…と
いった順で検索結果が出力されている。なお、検索結果
の出力に際し、予め設定された閾値以上の類似度値を有
する文書のみを対象として出力することで、検索結果と
して提示する文書数を制限するようにしても良い。
【0114】また、さらに別の検索キー文書があれば
(ステップD28のNo)、ステップD13に戻って上
記同様の処理を行うことになる。
【0115】このように、検索対象となる各文書を分野
別に分類すると共に、さらに、年別など時間的な区分で
分類し、その分野別かつ時間区分別の単語出現頻度情報
を作成することで、分野別の時間的要素に応じた各単語
の重要度を得ることができる。これにより、検索キー文
書と各検索文書との類似度計算を行う際に、検索キー文
書と検索文書のそれぞれの単語頻度情報の中の単語毎の
出現頻度を要素とする一次元ベクトルにおいて、各単語
の出現頻度に対し、分野別の時間的要素に応じた各単語
の重要度を加味して、精度の高い類似検索を実現するこ
とができる。
【0116】なお、上記実施形態では、検索キーとして
与えられた文書の分野、時間区分を全分野全時間区分の
検索文書とのマッチングにより判断したが、検索キー文
書の分野あるいは時間区分が明らかである場合には、そ
の分野、時間区分に限定したマッチングを行うといった
方法を採っても良い。
【0117】また、上記実施形態では、各単語の出現頻
度に分野毎の時間的な要素に応じた重み付けを行うよう
にしたが、少なくとも時間的な要素に応じた単語の重み
付けを行うことでも良い。ただし、上記図1で説明した
ように、特徴単語の時間的な変化は分野によって異なる
ため、多種の分野に亘って文書が存在する場合には、上
記実施形態のように分野と時間の両方の要素を加味して
単語の重み付けを行うことが望ましい。
【0118】また、本発明の類似文書検索装置は、例え
ば特許分野における引用文献の検索の他、一般的なパー
ソナルコンピュータ等におけるファイル管理など、検索
を必要とする技術一般に広く適用できるものである。
【0119】また、上述した実施形態において記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フロッピーディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリなどの記録媒体に書き込んで
各種装置に適用したり、通信媒体により伝送して各種装
置に適用することも可能である。本装置を実現するコン
ピュータは、記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されることによ
り、上述した処理を実行する。
【0120】
【発明の効果】以上詳記したように本発明によれば、各
文書毎の単語の出現頻度に各文書の時間的な要素に応じ
た重み付けを行うようにしたため、時間別の単語の重要
度を得ることができ、各検索対象文書と検索キー文書と
の類似度を求める際にその単語重要度を加味すること
で、高精度の類似検索を実現することができる。
【0121】また、各文書を分野別に分類し、その分野
別の時間的な要素に応じた重み付けを行うことで、分野
によって異なる特徴単語の時間的な変化を反映させた単
語の重要度を得ることができる。このような分野別かつ
時間別の単語の重要度を各検索対象文書と検索キー文書
との類似度計算に加味することで、さらに高精度の類似
検索を実現することができる。
【図面の簡単な説明】
【図1】本発明の類似文書検索装置の概要を説明するた
めの図。
【図2】本発明の一実施形態に係る類似文書検索装置の
構成を示すブロック図。
【図3】図1に示す制御装置の内部構成を示すブロック
図。
【図4】データベース作成処理の動作を示すフローチャ
ート。
【図5】上記図4のステップA11における検索文書登
録処理の具体的な動作を示すフローチャート。
【図6】上記図4のステップA12における検索文書単
語出現頻度作成処理の具体的な動作を示すフローチャー
ト。
【図7】類似文書検索処理の動作を示すフローチャー
ト。
【図8】上記図7のステップD20におけるノルム算出
処理の具体的な動作を示すフローチャート。
【図9】上記図7のステップD25における類似度算出
処理の具体的な動作を示すフローチャート。
【図10】検索文書大分類識別子データファイル(F
1)の一例を示す図。
【図11】検索文書大分類データファイル(F2)の一
例を示す図。
【図12】検索文書時間区分識別子データファイル(F
3)の一例を示す図。
【図13】検索文書時間区分データファイル(F4)の
一例を示す図。
【図14】検索文書格納バッファの内容を示す図。
【図15】検索文書大分類識別子データ格納バッファの
内容を示す図。
【図16】検索文書大分類格納バッファの内容を示す
図。
【図17】検索文書時間区分識別子データ格納バッファ
の内容を示す図。
【図18】検索文書時間区分データ格納バッファの内容
を示す図。
【図19】検索文書大分類情報格納バッファの内容を示
す図。
【図20】全検索文書大分類情報格納バッファの内容を
示す図。
【図21】検索文書時間区分格納バッファの内容を示す
図。
【図22】全検索文書時間区分格納バッファの内容を示
す図。
【図23】検索文書単語情報格納バッファの内容を示す
図。
【図24】検索文書ノルム情報格納バッファの内容を示
す図。
【図25】検索文書単語頻度格納バッファの内容を示す
図。
【図26】検索キー文書格納バッファの内容を示す図。
【図27】検索キー文書単語情報格納バッファの内容を
示す図。
【図28】検索キー文書ノルム情報格納バッファの内容
を示す図。
【図29】共通単語情報格納バッファの内容を示す図。
【図30】類似度格納バッファの内容(ソート前とソー
ト後)を示す図。
【図31】検索結果出力バッファの内容を示す図。
【図32】作業用変数バッファの内容を示す図。
【符号の説明】
1…制御装置 1a…制御部 1b…メモリ部 2…入力装置 3…表示装置 4…外部記憶装置 F1…検索文書大分類識別子データファイル F2…検索文書大分類データファイル F3…検索文書時間区分識別子データファイル F4…検索文書時間区分データファイル F5…全検索文書大分類情報データファイル F6…全検索文書時間区分データファイル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中里 茂美 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 齋藤 裕美 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 仁科 卓哉 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 Fターム(参考) 5B075 ND03 NK02 NK10 NR05 NR12 PR04 PR06 PR10 UU05

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索装置において、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求める出現頻度算出手段
    と、 この出現頻度算出手段によって得られた上記各検索対象
    文書および上記検索対象文書に対応した単語の出現頻度
    に、それぞれの文書の時間的な要素に応じた重み付けを
    行う単語重み付け手段と、 この単語重み付け手段によって重み付けされた単語出現
    頻度に基づいて上記各検索対象文書と上記検索キー文書
    との類似度を算出する類似度算出手段と、 この類似度算出手段によって得られた類似度に基づいて
    上記各検索対象文書の中から上記検索対象文書と類似す
    る文書を検索結果として出力する出力手段とを具備した
    ことを特徴とする類似文書検索装置。
  2. 【請求項2】 上記単語重み付け手段は、上記出現頻度
    算出手段によって得られた上記各検索対象文書および上
    記検索対象文書に対応した単語の出現頻度に、それぞれ
    の文書が属する分野毎の時間的な要素に応じて重み付け
    を行うことを特徴とする請求項1記載の類似文書検索装
    置。
  3. 【請求項3】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索装置において、 上記各検索対象文書を時間的要素に基づいて分類する分
    類手段と、 この分類手段による分類別に上記各検索対象文書に含ま
    れる単語の出現頻度を求める第1の出現頻度算出手段
    と、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求める第2の出現頻度頻度
    算出手段と、 上記第1の出現頻度算出手段によって得られた分類別の
    単語出現頻度に基づいて、上記第2の出現頻度算出手段
    によって得られた上記各検索対象文書および上記検索キ
    ー文書のそれぞれの単語の出現頻度に重み付けを行う単
    語重み付け手段と、 この単語重み付け手段によって重み付けされた単語出現
    頻度に基づいて上記各検索対象文書と上記検索キー文書
    との類似度を算出する類似度算出手段と、 この類似度算出手段によって得られた類似度に基づいて
    上記各検索対象文書の中から上記検索対象文書と類似す
    る文書を検索結果として出力する出力手段とを具備した
    ことを特徴とする類似文書検索装置。
  4. 【請求項4】 上記分類手段は、上記各検索対象文書を
    それぞれが属する分野毎の時間的要素に基づいて分類す
    ることを特徴とする請求項3記載の類似文書検索装置。
  5. 【請求項5】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索方法において、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求め、 上記各検索対象文書および上記検索対象文書に対応した
    単語の出現頻度に、それぞれの文書の時間的要素に応じ
    た重み付けを行い、 この重み付け後の単語出現頻度に基づいて上記各検索対
    象文書と上記検索キー文書との類似度を算出し、 この算出された類似度に基づいて上記各検索対象文書の
    中から上記検索対象文書と類似する文書を検索結果とし
    て出力することを特徴とする類似文書検索方法。
  6. 【請求項6】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索方法において、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求め、 上記各検索対象文書および上記検索対象文書に対応した
    単語の出現頻度に、それぞれの文書が属する分野毎の時
    間的要素に応じた重み付けを行い、 この重み付け後の単語出現頻度に基づいて上記各検索対
    象文書と上記検索キー文書との類似度を算出し、 この算出された類似度に基づいて上記各検索対象文書の
    中から上記検索対象文書と類似する文書を検索結果とし
    て出力することを特徴とする類似文書検索方法。
  7. 【請求項7】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索機能を備えたコンピュータに、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求める機能と、 上記各検索対象文書および上記検索対象文書に対応した
    単語の出現頻度に、それぞれの文書の時間的要素に応じ
    た重み付けを行う機能と、 この重み付け後の単語出現頻度に基づいて上記各検索対
    象文書と上記検索キー文書との類似度を算出する機能
    と、 この算出された類似度に基づいて上記各検索対象文書の
    中から上記検索対象文書と類似する文書を検索結果とし
    て出力する機能とを実行させるプログラムを記録したコ
    ンピュータ読取り可能な記録媒体。
  8. 【請求項8】 複数の検索対象文書の中から検索キーと
    して与えられた文書と類似する文書を検索する類似文書
    検索機能を備えたコンピュータに、 上記各検索対象文書および上記検索キー文書のそれぞれ
    に含まれる単語の出現頻度を求める機能と、 上記各検索対象文書および上記検索対象文書に対応した
    単語の出現頻度に、それぞれの文書が属する分野毎の時
    間的要素に応じた重み付けを行う機能と、 この重み付け後の単語出現頻度に基づいて上記各検索対
    象文書と上記検索キー文書との類似度を算出する機能
    と、 この算出された類似度に基づいて上記各検索対象文書の
    中から上記検索対象文書と類似する文書を検索結果とし
    て出力する機能とを実行させるプログラムを記録したコ
    ンピュータ読取り可能な記録媒体。
JP33459799A 1999-11-25 1999-11-25 類似文書検索装置、類似文書検索方法及び記録媒体 Pending JP2001155020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33459799A JP2001155020A (ja) 1999-11-25 1999-11-25 類似文書検索装置、類似文書検索方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33459799A JP2001155020A (ja) 1999-11-25 1999-11-25 類似文書検索装置、類似文書検索方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001155020A true JP2001155020A (ja) 2001-06-08

Family

ID=18279182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33459799A Pending JP2001155020A (ja) 1999-11-25 1999-11-25 類似文書検索装置、類似文書検索方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001155020A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312513A (ja) * 2000-02-21 2001-11-09 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2007102501A (ja) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度算出方法及び装置
US7289982B2 (en) 2001-12-13 2007-10-30 Sony Corporation System and method for classifying and searching existing document information to identify related information
JP2009048394A (ja) * 2007-08-20 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> 文書間距離演算装置、文書間距離演算方法、プログラムおよび記録媒体
CN112132705A (zh) * 2020-09-30 2020-12-25 国网智能科技股份有限公司 一种变电站全景数据存储与再现方法及系统
US11455389B2 (en) 2017-05-19 2022-09-27 Fujitsu Limited Evaluation method, information processing apparatus, and storage medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312513A (ja) * 2000-02-21 2001-11-09 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP4605415B2 (ja) * 2000-02-21 2011-01-05 ソニー株式会社 情報処理装置および方法、並びに記録媒体
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
US7289982B2 (en) 2001-12-13 2007-10-30 Sony Corporation System and method for classifying and searching existing document information to identify related information
JP2006099478A (ja) * 2004-09-29 2006-04-13 Toshiba Corp 文書分類装置および文書分類方法
JP2007102501A (ja) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度算出方法及び装置
JP2009048394A (ja) * 2007-08-20 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> 文書間距離演算装置、文書間距離演算方法、プログラムおよび記録媒体
US11455389B2 (en) 2017-05-19 2022-09-27 Fujitsu Limited Evaluation method, information processing apparatus, and storage medium
CN112132705A (zh) * 2020-09-30 2020-12-25 国网智能科技股份有限公司 一种变电站全景数据存储与再现方法及系统

Similar Documents

Publication Publication Date Title
US7200587B2 (en) Method of searching similar document, system for performing the same and program for processing the same
JP2742115B2 (ja) 類似文書検索装置
US20040083224A1 (en) Document automatic classification system, unnecessary word determination method and document automatic classification method
JPH09134363A (ja) データベース検索方法及び装置
CN111738589B (zh) 基于内容推荐的大数据项目工作量评估方法、装置及设备
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2001155020A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP4234841B2 (ja) データ分析装置
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
JP3894428B2 (ja) 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3602084B2 (ja) データベース管理装置
JPH10269235A (ja) 類似文書検索装置及び類似文書検索方法
US20090327276A1 (en) Organising and storing documents
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
Desai et al. Analysis of Health Care Data Using Natural Language Processing
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040409

A131 Notification of reasons for refusal

Effective date: 20060410

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20060524

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060713

A61 First payment of annual fees (during grant procedure)

Effective date: 20060718

Free format text: JAPANESE INTERMEDIATE CODE: A61

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 3

Free format text: PAYMENT UNTIL: 20090728

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 4

Free format text: PAYMENT UNTIL: 20100728

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20110728

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 5

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 6

Free format text: PAYMENT UNTIL: 20120728

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 6

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20130728

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250