JP2003022276A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2003022276A
JP2003022276A JP2001205568A JP2001205568A JP2003022276A JP 2003022276 A JP2003022276 A JP 2003022276A JP 2001205568 A JP2001205568 A JP 2001205568A JP 2001205568 A JP2001205568 A JP 2001205568A JP 2003022276 A JP2003022276 A JP 2003022276A
Authority
JP
Japan
Prior art keywords
document
word
search
key
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001205568A
Other languages
English (en)
Inventor
Shigemi Nakazato
茂美 中里
Tsutomu Kobayashi
勉 小林
Hiroshi Yamazaki
弘 山崎
Takeshi Matsukuma
剛 松隈
Yukio Nakamoto
幸夫 中本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001205568A priority Critical patent/JP2003022276A/ja
Publication of JP2003022276A publication Critical patent/JP2003022276A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】文書の特徴を表す単語を適切に検索に利用する
ことができる文書検索装置及び文書検索方法を提供す
る。 【解決手段】 検索キー文書から分野特定単語を抽出
し、検索対象文書から検索対象単語を切り出す。これら
の間でマッチング処理と類似度算出を行い、検索対象文
書を絞り込む。絞り込んだ後の検索対象文書と検索キー
文書との類似度算出には、検索キー文書の中から分野特
定単語とは別に検索単語を抽出し、これを用いて類似文
書の検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書検索技術に
係わり、特に、類似文書検索技術に関する。
【0002】
【従来の技術】情報処理技術の進歩と共に、文書データ
の取り扱いを電子化し、効率の良い文書処理を行いたい
という要望が高まっている。特に、文書の内容に応じた
文書分類技術、文書検索技術は、機械的に実行すること
ができれば労力を大幅に削減することができる。
【0003】文書をキーとして、その文書と類似した文
書を、複数の検索対象文書から抽出する装置として、文
書検索装置がある。文書検索装置は、検索キーである文
書から抽出された単語と、検索対象文書から抽出された
単語を比較し、検索キー文書と検索対象文書の類似度を
算出し、類似度の高いものを類似文書として、検索対象
文書より抽出している。ここで、類似度の算出方法に
は、検索キー文書と検索対象文書から抽出された単語
の、抽出数や抽出場所等を元にベクトル空間法を用いて
算出する方法等がある。
【0004】二次検索またはそれ以降の検索に際して、
検索の効率化を図るために検索対象文書の絞り込みを行
なう。一次検索、二次検索ともに、同じ単語を検索キー
として使用している。従来、類似文書検索装置は、検索
キーである文書と、検索対象である文書との、単語の一
致数などによる類似度算出で類似文書の算出を行なって
いた。ここで、文書数を絞り込みながらの段階検索にお
いても、類似度の算出処理は同じである。
【0005】
【発明が解決しようとする課題】上記した従来技術にお
いては、検索対象文書を検索キー文書の分野に属する文
書へ絞り込む際であっても、絞り込みを行なった後の類
似度の算出処理であっても、検索のキーとなる単語は同
じものを使用していた。このため、それぞれの類似度算
出処理における特徴を表す単語の存在が薄れてしまい、
各段階に即した類似度算出の結果が得られないという問
題が有った。
【0006】そこで、本発明は上記の問題を解決するた
めになされたものであり、文書の特徴を表す単語を適切
に検索に利用することができる文書検索装置および文書
検索方法を提供することを目的とする。
【0007】
【課題を解決するための手段】この発明は、文書を検索
キーとして、文書データベース中から文書を検索する文
書検索装置であって、文書データベース中の各文書の内
容を表すキー単語を抽出する検索対象単語抽出手段と、
検索キー文書より検索キーとなる単語を抽出する検索キ
ー単語抽出手段と、この検索キー単語抽出手段により得
られた検索キー単語のうち検索キー文書の分野を示す分
野特定単語を抽出する分野特定単語抽出手段と、この分
野特定単語抽出手段により得られた分野特定単語と、前
記検索対象単語抽出手段により得られたキー単語を元に
類似文書を求める分野類似文書抽出手段と、この分野類
似文書抽出手段により得られた類似文書のうち前記検索
キー文書の分野に属した文書を絞り込む検索対象文書絞
込み手段と、前記検索単語抽出手段により得られた検索
キー単語のうち前記検索キー文書の主眼や構成を表す構
成単語を抽出する構成単語抽出手段と、この構成単語抽
出手段により得られた構成単語と前記検索対象文書絞込
み手段により得られた検索対象文書を元に類似文書を求
める類似文書抽出手段と、この類似文書抽出手段により
得られた抽出結果を表示する表示手段とを具備すること
を特徴とする。
【0008】このような構成によれば、文書の特徴を表
す単語を適切に検索に利用することができる。
【0009】また、この発明は、文書を検索キーとし
て、文書データベース中から文書を検索する文書検索装
置であって、文書データベース中の各文書の内容を表す
キー単語を抽出する検索対象単語抽出手段と、検索キー
文書より検索キーとなる単語を抽出する検索キー単語抽
出手段と、この検索キー単語抽出手段により得られた検
索キー単語のうち検索キー文書の分野を示す分野特定単
語を抽出する分野特定単語抽出手段と、この分野特定単
語抽出手段により得られた分野特定単語と、前記検索対
象単語抽出手段により得られたキー単語を元に類似文書
を求める分野類似文書抽出手段と、この分野類似文書抽
出手段により得られた類似文書のうち前記検索キー文書
の分野に属した文書を絞り込む検索対象文書絞込み手段
と、前記検索単語抽出手段により得られた検索キー単語
のうち前記検索キー文書の主眼や構成を表す構成単語を
抽出する際に分野特定手段により得られた分野によって
使用する形態素解析辞書を切り替える構成単語抽出手段
と、この構成単語抽出手段により得られた構成単語と前
記検索対象文書絞込み手段により得られた検索対象文書
を元に類似文書を求める類似文書抽出手段と、この類似
文書抽出手段により得られた抽出結果を表示する表示手
段とを具備することを特徴とする。
【0010】このような構成によれば、文書の特徴を表
す単語を適切に検索に利用することができる。
【0011】また、この発明は、任意の文書を検索キー
文書として、複数の文書から所定の文書を検索する文書
検索装置であって、前記検索キー文書より検索キーとな
る単語を抽出する検索キー単語抽出手段と、この検索キ
ー単語抽出手段により得られた検索キー単語のうち前記
検索キー文書の分野を示す分野特定単語を抽出する分野
特定単語抽出手段と、前記複数の文書に対して、前記分
野特定単語を元に検索を行い、検索結果となる第一文書
群の抽出を行う第一検索手段と、前記検索キー単語抽出
手段により得られた検索キー単語のうち前記検索キー文
書の主眼や構成を表す構成単語を抽出する構成単語抽出
手段と、前記第一文書群に対して前記構成単語を元に検
索を行い、検索結果となる第二文書群の抽出を行う第二
検索手段と、この第二検索手段により得られた検索結果
を表示する表示手段とを具備することを特徴とする。
【0012】このような構成によれば、文書の特徴を表
す単語を適切に検索に利用することができる。
【0013】また、この発明は、任意の文書を検索キー
文書として、複数の文書から所定の文書を検索する文書
検索装置であって、前記検索キー文書から所定の第一の
条件を満たす単語を第一キー単語として自動的に抽出す
る第一抽出手段と、前記第一キー単語を元に前記複数の
文書に対して検索を行う第一検索手段と、前記検索キー
文書から前記第一の条件と異なる所定の第二の条件を満
たす単語を第二キー単語として自動的に抽出する第二抽
出手段と、前記前記第二キー単語を元に前記第一検索手
段による検索結果に対して更に検索を行う第二検索手段
とを具備することを特徴とするを特徴とする。
【0014】このような構成によれば、文書の特徴を表
す単語を適切に検索に利用することができる。
【0015】また、この発明は、文書を検索キーとし
て、文書データベース中から文書を検索する文書検索方
法であって、文書データベース中の各文書の内容を表す
キー単語を抽出する検索対象単語抽出ステップと、検索
キー文書より検索キーとなる単語を抽出する検索キー単
語抽出ステップと、この検索キー単語抽出ステップによ
り得られた検索キー単語のうち検索キー文書の分野を示
す分野特定単語を抽出する分野特定単語抽出ステップ
と、この分野特定単語抽出ステップにより得られた分野
特定単語と、前記検索対象単語抽出ステップにより得ら
れたキー単語を元に類似文書を求める分野類似文書抽出
ステップと、この分野類似文書抽出ステップにより得ら
れた類似文書のうち前記検索キー文書の分野に属した文
書を絞り込む検索対象文書絞込みステップと、前記検索
単語抽出ステップにより得られた検索キー単語のうち前
記検索キー文書の主眼や構成を表す構成単語を抽出する
構成単語抽出ステップと、この構成単語抽出ステップに
より得られた構成単語と前記検索対象文書絞込みステッ
プにより得られた検索対象文書を元に類似文書を求める
類似文書抽出ステップと、この類似文書抽出ステップに
より得られた抽出結果を表示する表示ステップとを具備
することを特徴とする。
【0016】このような構成によれば、文書の特徴を表
す単語を適切に検索に利用することができる。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の各
実施形態について説明する。本発明の第一の実施形態
を、図面を参照しながら以下の通り説明する。図1は、
本装置のブロック構成図である。CPU、メモリから構
成される制御装置1、キーボードなどの入力装置2、類
似検索結果などを表示する表示装置3、検索データなど
を格納する外部記憶装置4、単語の情報が格納される形
態素解析辞書5から構成される。
【0018】図2は、図1における制御装置1の詳細構
成を示す図である。制御装置1は制御部とメモリ部から
なっている。制御部は各種制御や処理を実行する部分
で、メイン処理部200、初期化部201、入力部20
2、出力部203、検索対象文書読み出し部204、検
索対象文書単語抽出部205、検索対象単語出現頻度算
出部206、検索キー文書入力部207、検索キー単語
抽出部208、検索キー単語出現頻度算出部209、分
野特定情報抽出部210、分野特定単語抽出部211、
検索条件設定部212、検索対象文書絞り込み部21
3、検索単語抽出部214、共通単語抽出部215、類
似度算出部216、検索結果出力部217等から構成さ
れる。
【0019】また、メモリ部は、検索条件設定バッファ
部230、検索対象文書格納バッファ部231、検索対
象単語情報格納バッファ部232、検索キー文書格納バ
ッファ部233、検索キー単語情報格納バッファ部23
4、分野特定情報格納バッファ部235、分野特定結果
格納バッファ部236、文書絞り込み結果格納バッファ
部237、検索単語特定情報格納バッファ部238、検
索単語格納バッファ部239、共通単語情報格納バッフ
ァ部240、類似度格納バッファ部241、検索結果出
力バッファ部242、作業バッファ部243などから構
成される。
【0020】各構成要素について以下の通り説明する。
初期化部201は、各バッファ部の初期化を行う。入力
部202は、入力装置2からユーザによって、検索キー
文書の設定や、各種設定、表示装置3への出力結果に対
する回答の入力を行う。出力部203は、入力部202
により行った検索キー文書や各種設定の内容を表示装置
3に出力する。
【0021】検索対象文書読み出し部204は、外部記
憶装置に格納されている文書に関する情報を文書データ
ベース化するために、対象の文書を外部記憶装置4から
読み込み、そのテキスト文書情報を検索対象文書格納バ
ッファ部231に格納する。
【0022】検索対象文書単語抽出部205は、検索対
象文書格納バッファ部231に格納されているテキスト
文書情報の単語切りを行う。この単語切りは、形態素解
析を用いて行う。なお、形態素解析により取得される情
報は、各単語の見出し、品詞情報(例えば「名詞」や
「サ変名詞」など)、代表語、上位概念語、下位概念語
などが含まれる。なお、これらの単語情報は形態素解析
辞書5に格納されている。検索対象文書単語抽出部20
5は単語切りを行った後、その文書あるいは項目の内容
を表す上でキーとなる単語を後述する方法で抽出し、抽
出された単語種を検索対象単語情報格納バッファ部23
2に格納する。
【0023】検索対象単語出現頻度算出部206は、検
索対象文書単語抽出部205により抽出されたキー単語
について、その単語が検索対象文書格納バッファ部23
1に格納されているテキスト文書中における出現頻度を
単語種単位に算出し、検索対象単語情報格納バッファ部
232に格納する。
【0024】検索キー文書入力部207は、入力装置か
ら入力された検索キー文書のテキスト情報を検索キー文
書格納バッファ部233に格納する。
【0025】検索キー単語抽出部208は、検索キー文
書格納バッファ部233に格納されているテキスト文書
情報の単語切りを行う。この単語切りは、形態素解析を
用いて行う。なお、形態素解析により取得される情報
は、各単語の見出し、品詞情報(例えば「名詞」や「サ
変名詞」など)、代表語、上位概念語、下位概念語など
が含まれる。なお、これらの単語情報は形態素解析辞書
5に格納されている。検索キー単語抽出部208は単語
切りを行った後、その文書の内容を表す上でキーとなる
単語を抽出し、抽出された単語種を検索キー単語情報格
納バッファ部234に格納する。
【0026】検索キー単語出現頻度算出部209は、検
索キー単語抽出部208により抽出されたキー単語につ
いて、その単語が検索キー文書格納バッファ部233に
格納されているテキスト文書中における出現頻度を単語
種単位に算出し、検索キー単語情報格納バッファ部23
4に格納する。
【0027】分野特定情報抽出部210は、分野特定情
報格納バッファ部235より分野特定情報を取得する。
分野特定単語抽出部211は、分野特定情報抽出部21
0で取得された情報を元に、検索キー文書から、その検
索キー文書の分野を示す情報が記載されている部分を判
別し、また、分野を示す情報の記載されている部分よ
り、単語を取得し、分野特定結果格納バッファ部236
に格納する。
【0028】検索条件設定部212は、入力部202に
より、文書を絞り込む際の閾値の指定を行い、検索条件
の設定内容を検索条件設定バッファ部230に格納す
る。
【0029】検索対象文書絞り込み部213は、分野特
定結果格納バッファ部236と検索対象単語情報格納バ
ッファ部232とから、検索対象文書の分野への類似度
を計り、検索対象文書が検索キー文書の分野に近似と判
断されれば、検索対象文書の文書情報(例えば、文書I
D)を文書絞り込み結果格納バッファ部237に格納す
る。
【0030】検索単語抽出部214は、分野特定情報抽
出部210で取得された情報または、検索単語特定情報
格納バッファ部238を元に、検索キー文書から、その
検索キー文書の主眼や構成となる情報が記載されている
部分を判別し、単語を取得し、検索単語格納バッファ部
239に格納する。
【0031】共通単語抽出部215は、検索キー単語情
報格納バッファ部234に格納されている検索キー文書
の単語情報のうち、検索単語格納バッファ部239に格
納されている単語の単語情報と、検索対象単語情報格納
バッファ部232に格納されている検索対象文書の単語
情報及び文書絞り込み結果格納バッファ部237に登録
されている文書情報から、絞り込み後の文書に対して、
両バッファに格納されている単語と、その頻度に関する
情報を共通単語情報格納バッファ部240に格納する。
【0032】類似度算出部216は、検索対象単語情報
格納バッファ部232と共通単語情報格納バッファ部2
40から、単語の出現割合を求め、検索キー文書と一検
索対象文書との類似度を算出し、その類似度値を類似度
格納バッファ部241に格納する。
【0033】検索結果出力部217は、類似度格納バッ
ファ部241に格納されている検索対象文書毎の類似度
から検索キーとする文書情報(例えば、文書ID)を検索
結果出力バッファ部242に格納する。そして、検索結
果出力バッファ部242の内容を表示装置3に出力す
る。
【0034】次に本実施形態における、文書検索装置の
動作について図3のフローチャート図を参照して以下の
通り説明する。以下、本発明の用途として好適と考えら
れる、特許公報を検索対象として取り扱う場合を想定す
る。
【0035】まず、初期化部201が起動しメモリ部の
クリアなどを行う(ステップ300)。検索条件設定部
212が起動し、類似文書を算出する際の検索モードを
入力装置より設定する。設定には、分野の特定処理を行
なった際、検索対象となる文書を絞り込むための条件を
検索条件設定バッファ部229に格納する(ステップ3
01)。本実施形態では、検索キー文書の分野特定情報
と検索対象文書の類似度を求め、その類似度を文書の絞
込条件に使用することとする。例えば、図4に示すよう
に、「分野特定結果の絞り込み閾値(類似度)= 0.
5」と設定されているとする。分野特定を行なうための
類似度計算で、類似度が0.5に満たないものは絞り込
みの対象として、切り捨てられることを意味する。
【0036】続いて、検索キー文書入力部207が起動
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納さ
れる(ステップ302)。
【0037】続いて、検索キー単語抽出部208が起動
し、検索キー文書格納バッファ部233へ格納された文
書より、文章を切り出す。文書が特許公報の場合、「特
許請求の範囲」に記載されている文章を切り出す。「特
許請求の範囲」の記載から充分な単語数が切り出せなか
った場合は、適宜、要約書の文章や、発明の名称、実施
例の部分から文章を切り出す。
【0038】切り出された文章は形態素解析などにより
単語毎に分割され、抽出された単語情報は検索キー単語
情報格納バッファ部234へと格納する(ステップ30
3)。また、その際、抽出された単語数も検索対象単語
出現頻度算出部206にて算出され、同様に検索キー単
語情報格納バッファ部234へと格納される(ステップ
304)。例えば、図5に示すような文書であった場
合、ステップ303及びステップ304実行後の検索キ
ー単語情報格納バッファ部234の内容は、図6のよう
になる。
【0039】続いて、分野特定情報抽出部210が起動
し、分野特定情報格納バッファ235より、分野特定情
報を取得する(ステップ305)。分野特定情報は、検索
キー文書の分野を特定するための情報である。それは、
分野を特定する情報が記載されている範囲(単語単位、
文節単位、段落単位など)を示すものであったり、単語
そのものであったりする。本実施形態では、分野特定情
報は、検索キー文書の分野を特定する情報が記載されて
いる文章中の範囲を示すものとする。図7に例を示す。
本実施形態において特許公報を対象とする場合、この特
許公報の分野を特定するためには、特許請求の範囲に記
載されることが多く、分野の特定に寄与すると考えられ
る文章中の範囲を選択すれば良い。すなわち、「におい
て」というフレーズの前、「であって」というフレーズ
の前、「を特徴とする」というフレーズの後、「を具備
した」というフレーズの後を選択するのが好ましい。
【0040】続いて、分野特定単語抽出部211が起動
し、ステップ305にて取得した、分野特定情報を元に
検索キー文書より分野特定に有効な単語の抽出を行なう
(ステップ306)。図7の「分野特定基準単語」を検索
キー文書より捜査し、「分野特定情報記載位置」に記載
された位置情報を元に、単語の抽出を行ない、分野特定
格納バッファ部236へ格納する。図5に示した文書に
ついて、図7の分野特定情報を使用して取得された単語
の一覧を図8に示す。この例では、「において」以前に
記載された単語と、「を特徴とする」以後に記載された
単語が抽出される。
【0041】以下に述べるステップ308〜ステップ3
13は、外部記憶装置4に保存されている文書の件数
分、繰り返し実行される(ステップ307)。
【0042】検索対象文書読み出し部204が起動し、
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ30
8)。
【0043】続いて、検索対象文書単語抽出部205が
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・抽出された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ309)。また、その際、抽出された
単語数も検索対象単語出現頻度算出部206にて算出さ
れ、同様に検索対象単語情報格納バッファ部232へと
格納される(ステップ310)。ここで、文書が特許公報
の場合、「特許請求の範囲」に記載されている文章を切
り出すのが好ましい。例えば、図9に示すような文書で
あった場合、ステップ309及びステップ310実行後
の検索対象単語情報格納バッファ部232の内容は、図
10に示すようになる。
【0044】続いて、検索対象文書絞り込み部213が
起動し、特定分野の文書への絞り込みを行なう。絞り込
みは、分野特定格納バッファ部236と検索対象単語情
報格納バッファ部232とを用いて、類似度計算を行う
(ステップ311)。この類似度計算は「分野特定単語数
/検索対象単語数」の割り算で行う。この際、頻度が高
い単語に付いては重み付けを行う。分野特定単語と検索
対象単語が完全に一致すると、類似度は「1」となる。
【0045】類似度計算を行った後、検索条件設定バッ
ファ230に格納されている、文書の切り捨て対象とな
る類似度の閾値を用いて、閾値に満たない文書は切り捨
てを行ない(ステップ312)、閾値以上である文書の情
報を文書絞り込み結果格納バッファ237へ格納する
(ステップ313)。本実施形態では、文書絞り込み結果
格納バッファ237へ格納する情報を文書のIDとする。
文書絞り込み結果の格納例を図11に示す。
【0046】続いて、検索単語抽出部214が起動し、
分野の絞り込み後の検索で使用する、検索対象となる単
語を抽出する。検索の対象となる単語は、検索キー文書
の主眼や構成となる単語である。検索で使用する単語の
判別には、検索単語特定情報格納バッファ部238より
抽出した情報を使用する。この際、ステップ306にて
抽出された単語を除外することで、文書の主眼や構成と
なる単語が、より鮮明になる。検索単語特定情報格納バ
ッファ部238は、検索で使用する単語の出現位置を示
す情報であり、情報は検索で使用する単語が記載されて
いる範囲(単語単位、文節単位、段落単位など)を示すも
のであったり、単語そのものであったりする。図13に
検索単語特定情報の格納例を示す。特許公報の例では、
分野を絞り込んだ後の文書の特徴部分を示す範囲をこの
情報として格納し、情報の例として、「において」とい
うフレーズの後、「であって」というフレーズの後、
「を特徴とする」というフレーズの前、「を具備した」
というフレーズの前、といった情報を用意するのが好ま
しい。
【0047】まず、検索単語特定情報格納バッファ部2
38より、検索で使用する単語の判別に用いる情報、好
ましくは上述のフレーズとの位置関係による範囲の情報
を取得する(ステップ314)。続いて、その情報を元に
検索キー文書より検索で使用する単語の抽出を行ない、
検索単語格納バッファ部239に格納する(ステップ3
15)。検索キー文書が図5に示す文書であった場合の
検索単語格納バッファ部239の内容を図14に示す。
【0048】続いて、ステップ313にて取得された、
文書の情報を文書絞り込み結果格納バッファ237より
取得する(ステップ316)。取得する情報は文書のIDで
ある。
【0049】以下、ステップ318〜ステップ322
は、ステップ316にて取得された文書のID分、繰り返
し実行される(ステップ317)。
【0050】検索対象文書読み出し部204が起動し、
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ31
8)。
【0051】続いて、検索対象文書単語抽出部205が
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・抽出された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ319)。また、その際、抽出された
単語数も検索対象単語出現頻度算出部206にて算出さ
れ、同様に検索対象単語情報格納バッファ部232へと
格納される(ステップ320)。例えば、図9に示すよう
な文書であった場合、ステップ319及びステップ32
0実行後の検索対象単語情報格納バッファ部232の内
容は、図10のようになる。
【0052】共通単語抽出部215にて、検索キー文書
と検索対象文書とで、共通して出現する単語を抽出し、
共通単語情報格納バッファ部240へと格納する(ステ
ップ321)。検索キー文書の単語としては、検索単語
格納バッファ部239に格納された単語を用いるのが好
ましいが、単語数が少ない場合等は、先述の検索キー単
語情報格納バッファ部234に格納された単語を流用す
ることができる。この場合、検索単語格納バッファ部2
39に格納された単語の方がより適切に文書の特徴部分
を表していると考えられるので、検索単語格納バッファ
部239に格納された単語に対して、検索キー単語情報
格納バッファ部234に格納された単語の5倍、といっ
た重み付けを行うようにするのが好ましい。
【0053】検索単語格納バッファ部239と検索対象
単語情報格納バッファ部232がそれぞれ図13、図1
0のようであった場合、共通単語情報格納バッファ部2
40は図14のようになる。
【0054】次に、類似度算出部216が起動し、検索
対象単語情報格納バッファ部232と共通単語情報格納
バッファ部240の単語の出現割合から類似度を算出
し、その類似度値を類似度格納バッファ部241に格納
する(ステップ322)。ここでの類似度の算出は先述
の類似度算出と同様に、「共通単語数/検索対象単語
数」という式で算出する。検索対象単語が全て共通単語
に含まれていた場合、類似度は「1」となる。
【0055】全ての類似文書が取得されたら、ステップ
323にて類似度格納バッファ部241の内容を類似度
上位から下位へと降順にソートを行なう(ステップ32
3)。
【0056】続いて、検索結果出力部217が起動さ
れ、類似度格納バッファ部241に格納されている検索
対象文書毎の類似度から検索キーとする文書情報(例え
ば、文書ID)を検索結果出力バッファ部242に格納す
る。そして、検索結果出力バッファ部242の内容を表
示装置3に出力する(ステップ324)。図15に出力結
果を示す。以上で一連の処理を終了する。
【0057】なお、本実施形態において、ステップ30
8〜ステップ313を一度だけ行なっているが、分野特
定情報の条件を切り替えながら、数回、ステップ308
〜ステップ313を実行することで、更なる、文書の絞
り込みが可能である。
【0058】図16に本実施形態における検索の一連の
流れについて模式的に示す。
【0059】従来の類似文書検索手段では、図17に示
したような分野の異なる文書であっても、単語の一致度
から、類似文書として検索結果に含まれていた。しか
し、本実施形態によれば、あらかじめ、類似度の算出を
行なう前に、分野の特定を行ない、図17に示すような
文書を検索対象から外すことによって、検索結果の質を
上げることが可能となる。
【0060】本発明の第二の実施形態について、図面を
参照しながら以下の通り説明する。図18は、本発明の
第二の実施形態に係わる本装置のブロック構成図であ
る。CPU、メモリから構成される制御装置21、キー
ボードなどの入力装置22、類似検索結果などを表示す
る表示装置23、検索データなどを格納する外部記憶装
置24、単語の情報が格納される形態素解析辞書25、
特定の分野に特化した単語の情報が格納される分野特定
形態素解析辞書26から構成される。
【0061】図19は、制御装置の詳細構成例を示した
図である。制御装置は制御部とメモリ部からなってい
る。制御部は各種制御や処理を実行する部分で、メイン
処理部2200、初期化部2201、入力部2202、
出力部2203、検索対象文書読み出し部2204、検
索対象文書単語抽出部2205、検索対象単語出現頻度
算出部2206、検索キー文書入力部2207、検索キ
ー単語抽出部2208、検索キー単語出現頻度算出部2
209、分野特定情報抽出部2210、分野特定単語抽
出部2211、検索条件設定部2212、検索対象文書
絞り込み部2213、共通単語抽出部2214、類似度
算出部2215、検索結果出力部2216等から構成さ
れる。
【0062】また、メモリ部は、検索条件設定バッファ
部2230、検索対象文書格納バッファ部2231、検
索対象単語情報格納バッファ部2232、検索キー文書
格納バッファ部2233、検索キー単語情報格納バッフ
ァ部2234、分野特定情報格納バッファ部2235、
分野特定結果格納バッファ部2236、文書絞り込み結
果格納バッファ部2237、共通単語情報格納バッファ
部2238、類似度格納バッファ部2239、検索結果
出力バッファ部2240、作業バッファ部2241など
から構成される。
【0063】各構成要素について以下の通り説明する。
初期化部2201は、各バッファ部の初期化を行う。入
力部2202は、入力装置22からユーザによって、検
索キー文書の設定や、各種設定、表示装置23への出力
結果に対する回答の入力を行う。出力部2203は、入
力部2202により行った検索キー文書や各種設定の内
容を表示装置23に出力する。
【0064】検索対象文書読み出し部2204は、外部
記憶装置に格納されている文書に関する情報を文書デー
タベース化するために、対象の文書を外部記憶装置24
から読み込み、そのテキスト文書情報を検索対象文書格
納バッファ部2231に格納する。
【0065】検索対象文書単語抽出部2205は、検索
対象文書格納バッファ部2231に格納されているテキ
スト文書情報の単語切りを行う。この単語切りは、形態
素解析を用いて行う。なお、形態素解析により取得され
る情報は、各単語の見出し、品詞情報(例えば「名詞」
や「サ変名詞」など)、代表語、上位概念語、下位概念
語などが含まれる。なお、これらの単語情報は形態素解
析辞書25に格納されている。検索対象文書単語抽出部
2205は単語切りの後、その文書あるいは項目の内容
を表す上でキーとなる単語を抽出し、抽出された単語種
を検索対象単語情報格納バッファ部2232に格納す
る。
【0066】検索対象単語出現頻度算出部2206は、
検索対象文書単語抽出部2205により抽出されたキー
単語について、その単語が検索対象文書格納バッファ部
2231に格納されているテキスト文書中における出現
頻度を単語種単位に算出し、検索対象単語情報格納バッ
ファ部2232に格納する。
【0067】検索キー文書入力部2207、入力装置か
ら入力された検索キー文書のテキスト情報を検索キー文
書格納バッファ部2234に格納する。
【0068】検索キー単語抽出部2208は、検索キー
文書格納バッファ部2233に格納されているテキスト
文書情報の単語切りを行う。この単語切りは、形態素解
析を用いて行う。なお、形態素解析により取得される情
報は、各単語の見出し、品詞情報(例えば「名詞」や
「サ変名詞」など)、代表語、上位概念語、下位概念語
などが含まれる。なお、これらの単語情報は検索対象文
書の絞り込み前であれば形態素解析辞書25に、検索対
象文書の絞り込み後であれば分野特定形態素解析辞書2
6に格納されている。検索キー単語抽出部2208は単
語切りの後、その文書の内容を表す上でキーとなる単語
を抽出し、抽出された単語種を検索キー単語情報格納バ
ッファ部2234に格納する。
【0069】検索キー単語出現頻度算出部2209は、
検索キー単語抽出部2208により抽出されたキー単語
について、その単語が検索キー文書格納バッファ部22
33に格納されているテキスト文書中における出現頻度
を単語種単位に算出し、検索キー単語情報格納バッファ
部2234に格納する。
【0070】分野特定情報抽出部2210は、分野特定
情報格納バッファ部2235より分野特定情報を取得す
る。
【0071】分野特定単語抽出部2211は、分野特定
情報抽出部2210で取得された情報を元に、検索キー
文書から、その検索キー文書の分野を示す情報が記載さ
れている部分を判別し、また、分野を示す情報の記載さ
れている部分より、単語を取得し、分野特定結果格納バ
ッファ部2236に格納する。
【0072】検索条件設定部2212は、入力部220
2により、文書を絞り込む際の閾値の指定を行ない、検
索条件の設定内容を検索条件設定バッファ部2230に
格納する。
【0073】検索対象文書絞り込み部2213は、分野
特定結果格納バッファ部2236と検索対象単語情報格
納バッファ部2232とから、検索対象文書の分野への
類似度を計り、検索対象文書が検索キー文書の分野に近
似と判断されれば、検索対象文書の文書情報(例えば、
文書ID)を文書絞り込み結果格納バッファ部2237
に格納する。
【0074】共通単語抽出部2214は、検索キー単語
情報格納バッファ部2234に格納されている検索キー
文書の単語情報と、検索対象単語情報格納バッファ部2
232に格納されている検索対象文書の単語情報と文書
絞り込み結果格納バッファ部2237に登録されている
文書情報から、絞り込み後の文書に対して、両バッファ
に格納されている単語とその頻度に関する情報を共通単
語情報格納バッファ部2238に格納する。
【0075】類似度算出部2215は、検索対象単語情
報格納バッファ部2232と共通単語情報格納バッファ
部2238から、単語の出現割合を求め、検索キー文書
と検索対象文書との類似度を算出し、その類似度値を類
似度格納バッファ部2239に格納する。
【0076】検索結果出力部2216は、類似度格納バ
ッファ部2239に格納されている検索対象文書毎の類
似度から検索キーとする文書情報(例えば、文書ID)
を検索結果出力バッファ部2240に格納する。そし
て、検索結果出力バッファ部2240の内容を表示装置
3に出力する。
【0077】次に本実施形態の動作について図20等を
参照して以下の通り説明する。第一の実施形態と共通の
図面についてはこれを流用して説明する。以下、本発明
の用途として好適と考えられる、特許公報を検索対象と
して取り扱う場合を想定する。
【0078】まず、初期化部2201が起動しメモリ部
のクリアなどを行う(ステップ2300)。検索条件設
定部2212が起動し、類似文書を算出する際の検索モ
ードを入力装置より設定する。設定には、分野の特定処
理を行なった際、検索対象となる文書を絞り込むための
条件を検索条件設定バッファ部2229に格納する(ス
テップ2301)。本実施形態では、検索キー文書の分
野特定情報と検索対象文書の類似度を求め、その類似度
を文書の絞込条件に使用することとする。例えば、図4
に示すように、「分野特定結果の絞り込み閾値(類似度)
= 0.5」と設定されているとする。分野特定を行な
うための類似度計算で、類似度が0.5に満たないもの
は絞り込みの対象として、切り捨てられることを意味す
る。
【0079】続いて、検索キー文書入力部2207が起
動し、入力装置2より類似文書検索のキーとなる文書を
読み込み、検索キー文書格納バッファ部2233へと格
納される(ステップ2302)。
【0080】続いて、検索キー単語抽出部2208が起
動し、検索キー文書格納バッファ部2233へ格納され
た文書より、文章を切り出す。文書が特許公報の場合、
「特許請求の範囲」に記載されている文章を切り出す。
「特許請求の範囲」の記載から充分な単語数が切り出せ
なかった場合は、適宜、要約書の文章や、発明の名称、
実施例の部分から文章を切り出す。
【0081】切り出された文章は形態素解析などにより
単語毎に分割され、抽出された単語情報は検索キー単語
情報格納バッファ部2234へと格納する(ステップ2
303)。この時の形態素解析など文章の解析では、形
態素解析辞書25に確保されている情報を使用する。ま
た、その際、抽出された単語数も検索対象単語出現頻度
算出部2206にて算出され、同様に検索キー単語情報
格納バッファ部2234へと格納される(ステップ23
04)。例えば、図5に示したような文書であった場
合、ステップ2303及びステップ2304実行後の検
索キー単語情報格納バッファ部2234の内容は、図6
のようになる。
【0082】続いて、分野特定情報抽出部2210が起
動し、分野特定情報格納バッファ2235より、分野特
定情報を取得する(ステップ2305)。分野特定情報
は、検索キー文書の分野を特定するための情報である。
それは、分野を特定する情報が記載されている範囲(単
語単位、文節単位、段落単位など)を示すものであった
り、単語そのものであったりする。本実施形態では、分
野特定情報は、検索キー文書の分野を特定する情報が記
載されている文章中の範囲を示すものとする。例を、図
7に示す。本実施形態において特許公報を対象とする場
合、この特許公報の分野を特定するためには、特許請求
の範囲に記載されることが多く、分野の特定に寄与する
と考えられる文章中の範囲を選択すれば良い。すなわ
ち、「において」というフレーズの前、「であって」と
いうフレーズの前、「を特徴とする」というフレーズの
後、「を具備した」というフレーズの後を選択するのが
好ましい。
【0083】続いて、分野特定単語抽出部2211が起
動し、ステップ2305にて取得した、分野特定情報を
元に検索キー文書より分野特定に有効な単語の抽出を行
なう(ステップ2306)。図7の「分野特定基準単語」
を検索キー文書より捜査し、「分野特定情報記載位置」
に記載された位置情報を元に、単語の抽出を行ない、分
野特定格納バッファ部2236へ格納する。図5に示し
た文書について、図7の分野特定情報を使用して取得さ
れた単語の一覧を図8に示す。例では、「において」以
前に記載された単語と、「を特徴とする」以後に記載さ
れた単語が抽出される。
【0084】以下、ステップ2308〜ステップ231
3は、外部記憶装置4に保存されている、文書の件数
分、繰り返し実行される(ステップ2307)。
【0085】検索対象文書読み出し部2204が起動
し、外部記憶装置4より検索対象文書を読み出し、検索
対象文書格納バッファ部2231へ格納する(ステップ
2308)。
【0086】続いて、検索対象文書単語抽出部2205
が起動し、検索対象文書格納バッファ部2231へ格納
された文書より、形態素解析などにて切り出し・抽出さ
れた単語情報を検索対象単語情報格納バッファ部223
2へと格納する(ステップ2309)。また、その際、抽
出された単語数も検索対象単語出現頻度算出部2206
にて算出され、同様に検索対象単語情報格納バッファ部
2232へと格納される(ステップ2310)。ここで、
文書が特許公報の場合、「特許請求の範囲」に記載され
ている文章を切り出すのが好ましい。例えば、図9のよ
うな文書であった場合、ステップ2309及びステップ
2310実行後の検索対象単語情報格納バッファ部22
32の内容は、図10のようになる。
【0087】続いて、検索対象文書絞り込み部2213
が起動し、特定分野の文書への絞り込みを行なう。絞り
込みは、分野特定格納バッファ部2236と検索対象単
語情報格納バッファ部2232とを用いて、類似度計算
を行う(ステップ2311)。この類似度計算は「分野特
定単語数/検索対象単語数」の割り算で行う。この際、
頻度が高い単語に付いては重み付けを行う。分野特定単
語と検索対象単語が完全に一致すると、類似度は「1」
となる。
【0088】類似度計算を行った後、検索条件設定バッ
ファ2230に格納されている、文書の切り捨て対象と
なる類似度の閾値を用いて、閾値に満たない文書は切り
捨てを行ない(ステップ2312)、閾値以上である文書
の情報を文書絞り込み結果格納バッファ2237へ格納
する(ステップ2313)。本実施形態では、文書絞り込
み結果格納バッファ2237へ格納する情報を文書のI
Dとし、図11に文書絞り込み結果の格納例を示す。
【0089】以上、分野の確定が行われ、検索対象文書
の絞り込みと、検索キー文書の分野の確定がなされた所
で、再度、検索キー文書の解析を行なう。
【0090】再度、検索キー文書入力部2207が起動
し、入力装置22より類似文書検索のキーとなる文書を
読み込み、検索キー文書格納バッファ部2233へと格
納される(ステップ2314)。
【0091】続いて、再度、検索キー単語抽出部220
8が起動し、検索キー文書格納バッファ部2233へ格
納された文書より、文章を切り出す。ここで文書が特許
公報の場合、「特許請求の範囲」に記載されている文章
を切り出すのが好ましい。切り出す文章は切り出された
文章は形態素解析などにより単語毎に分割され、抽出さ
れた単語情報は検索キー単語情報格納バッファ部223
4へと格納する(ステップ2315)。この時の形態素解
析など文章の解析では、分野特定形態素解析辞書26に
確保されている情報を使用する。
【0092】分野特定形態素解析辞書26は、分野毎に
特化した辞書構成となっており、単語に対する同義語な
どの情報が、予め最適に作成されている。分野特定形態
素解析辞書26は、分野毎に用意されているため、検索
対象文書絞り込み部2213にて確定された分野情報を
元に、辞書引き対象の分野を確定する。単語抽出を行な
った際、抽出された単語数も検索対象単語出現頻度算出
部2206にて算出され、同様に検索キー単語情報格納
バッファ部2234へと格納される(ステップ231
6)。例えば、図5に示すような文書であった場合、ス
テップ2315及びステップ2316実行後の検索キー
単語情報格納バッファ部2234の内容は、図21のよ
うになる。形態素辞書が、分野に特化したものなので、
適切な同義語が抽出されている。
【0093】続いて、ステップ2313にて取得され
た、文書の情報を文書絞り込み結果格納バッファ223
7より取得する(ステップ2317)。取得する情報は文
書のIDである。
【0094】以下、ステップ2319〜ステップ232
3は、ステップ2317にて取得された文書のID分、繰
り返し実行される(ステップ2318)。
【0095】検索対象文書読み出し部2204が起動
し、外部記憶装置4より検索対象文書を読み出し、検索
対象文書格納バッファ部2231へ格納する(ステップ
2319)。
【0096】続いて、検索対象文書単語抽出部2205
が起動し、検索対象文書格納バッファ部2231へ格納
された文書より、形態素解析などにて切り出し・抽出さ
れた単語情報を検索対象単語情報格納バッファ部223
2へと格納する(ステップ2320)。また、その際、抽
出された単語数も検索対象単語出現頻度算出部2206
にて算出され、同様に検索対象単語情報格納バッファ部
2232へと格納される(ステップ2321)。例えば、
図9に示すような文書であった場合、ステップ2320
及びステップ2321実行後の検索対象単語情報格納バ
ッファ部2232の内容は、図10のようになる。
【0097】共通単語抽出部2215にて、検索キー文
書と検索対象文書とで、共通して出現する単語を抽出
し、共通単語情報格納バッファ部2236へと格納する
(ステップ2322)。第一の実施形態と同様に、単語数
が少ない場合は、予め切り出しておいたキー単語を利用
して、重み付けの処理を行うようにして単語を流用する
ことができる。
【0098】検索単語格納バッファ部2239と検索対
象単語情報格納バッファ部2232がそれぞれ図13、
図10のようであった場合、共通単語情報格納バッファ
部2238は図14のようになる。
【0099】次に、類似度算出部2216が起動し、検
索対象単語情報格納バッファ部2232と検索キー単語
情報格納バッファ部2234、共通単語情報格納バッフ
ァ部2240の単語の出現割合から類似度を算出し、そ
の類似度値を類似度格納バッファ部2241に格納する
(ステップ2323)。ここでの類似度の算出は先述の
類似度計算と同様に、「共通単語/検索対象単語数」と
いう式で算出する。検索対象単語が全て共通単語に含ま
れていた場合、類似度は「1」となる。
【0100】全ての類似文書が取得されたら、ステップ
2324にて類似度格納バッファ部2241の内容を類
似度上位から下位へと降順にソートを行なう(ステップ
2324)。
【0101】続いて、検索結果出力部2217が起動さ
れ、類似度格納バッファ部2241に格納されている検
索対象文書毎の類似度から検索キーとする文書情報(例
えば、文書ID)を検索結果出力バッファ部2242に
格納する。そして、検索結果出力バッファ部2242の
内容を表示装置3に出力する(ステップ2325)。図1
5に出力結果を示す。以上で一連の処理を終了する。
【0102】なお、本実施形態において、ステップ23
08〜ステップ2313を一度だけ行なっているが、分
野特定情報の条件を切り替えながら、数回、ステップ2
308〜ステップ2313を実行することで、更なる、
文書の絞り込みが可能である。
【0103】図22に本実施形態における検索の一連の
流れについて模式的に示す。
【0104】従来の類似文書検索手段では、図17に示
したような分野の異なる文書であっても、単語の一致度
から、類似文書として検索結果に含まれていた。しか
し、本発明によれば、あらかじめ、類似度の算出を行な
う前に、分野の特定を行ない、図17に示すような文書
を検索対象から外すことによって、検索結果の質を上げ
ることが可能となる。
【0105】また、形態素解析など文書を解析する際に
参照する辞書を、特定の分野に特化したものにすること
で検索キーとなる単語の質を上げることができる。
【0106】以下、本発明の第三の実施形態を、図面を
参照しながら説明する。第三の実施形態のブロック構成
は図1に示すように第一の実施形態と同様である。CP
U、メモリーから構成される制御装置1、キーボードな
どの入力装置2、類似検索結果などを表示する表示装置
3、検索データなどを格納する外部記憶装置4、単語の
情報が格納される形態素解析辞書5から構成される。
【0107】図23は、制御装置の詳細構成例を示した
図である。制御装置は制御部とメモリ部からなってい
る。制御部は各種制御や処理を実行する部分で、メイン
処理部3200、初期化部3201、入力部3202、
出力部3203、検索対象文書読み出し部3204、検
索対象文書単語抽出部3205、検索対象単語出現頻度
算出部3206、検索キー文書入力部3207、検索キ
ー単語抽出部3208、検索キー単語出現頻度算出部3
209、分野特定情報抽出部3210、分野特定単語抽
出部3211、情報不足時代替領域抽出部3212、検
索条件設定部3213、検索対象文書絞り込み部321
4、検索単語抽出部3215、共通単語抽出部321
6、類似度算出部3217、検索結果出力部3218等
から構成される。
【0108】また、メモリ部は、検索条件設定バッファ
部3230、検索対象文書格納バッファ部3231、検
索対象単語情報格納バッファ部3232、検索キー文書
格納バッファ部3233、検索キー単語情報格納バッフ
ァ部3234、分野特定情報格納バッファ部3235、
分野特定結果格納バッファ部3236、大体領域情報格
納バッファ部3237、文書絞り込み結果格納バッファ
部3238、検索単語特定情報格納バッファ部323
9、検索単語格納バッファ部3240、共通単語情報格
納バッファ部3241、類似度格納バッファ部324
2、検索結果出力バッファ部3243、作業バッファ部
3244などから構成される。
【0109】各構成要素について以下の通り説明する。
初期化部3201は、各バッファ部の初期化を行う。入
力部3202は、入力装置2からユーザによって、検索
キー文書の設定や、各種設定、表示装置3への出力結果
に対する回答の入力を行う。出力部3203は、入力部
3202により行った検索キー文書や各種設定の内容を
表示装置3に出力する。
【0110】検索対象文書読み出し部3204は、外部
記憶装置に格納されている文書に関する情報を文書デー
タベース化するために、対象の文書を外部記憶装置4か
ら読み込み、そのテキスト文書情報を検索対象文書格納
バッファ部3231に格納する。
【0111】検索対象文書単語抽出部3205は、検索
対象文書格納バッファ部3231に格納されているテキ
スト文書情報の単語切りを行う。この単語切りは、形態
素解析を用いて行う。なお、形態素解析により取得され
る情報は、各単語の見出し、品詞情報(例えば「名詞」
や「サ変名詞」など)、代表語、上位概念語、下位概念
語などが含まれる。なお、これらの単語情報は形態素解
析辞書5に格納されている。検索対象文書単語抽出部3
205は単語切りの後、その文書あるいは項目の内容を
表す上でキーとなる単語を抽出し、抽出された単語種を
検索対象単語情報格納バッファ部3232に格納する。
【0112】検索対象単語出現頻度算出部3206は、
検索対象文書単語抽出部3205により抽出されたキー
単語について、その単語が検索対象文書格納バッファ部
3231に格納されているテキスト文書中における出現
頻度を単語種単位に算出し、検索対象単語情報格納バッ
ファ部3232に格納する。
【0113】検索キー文書入力部3207、入力装置か
ら入力された検索キー文書のテキスト情報を検索キー文
書格納バッファ部3234に格納する。
【0114】検索キー単語抽出部3208は、検索キー
文書格納バッファ部3233に格納されているテキスト
文書情報の単語切りを行う。そして、その文書の内容を
表す上でキーとなる単語を抽出し、抽出された単語種を
検索キー単語情報格納バッファ部3234に格納する。
単語切りは、形態素解析を用いて行う。なお、形態素解
析により取得される情報は、各単語の見出し、品詞情報
(例えば「名詞」や「サ変名詞」など)、代表語、上位
概念語、下位概念語などが含まれる。なお、これらの単
語情報は形態素解析辞書5に格納されている。
【0115】検索キー単語出現頻度算出部3209は、
検索キー単語抽出部3208により抽出されたキー単語
について、その単語が検索キー文書格納バッファ部32
33に格納されているテキスト文書中における出現頻度
を単語種単位に算出し、検索キー単語情報格納バッファ
部3234に格納する。
【0116】分野特定情報抽出部3210は、分野特定
情報格納バッファ部3235より分野特定情報を取得す
る。分野特定単語抽出部3211は、分野特定情報抽出
部3210で取得された情報を元に、検索キー文書か
ら、その検索キー文書の分野を示す情報が記載されてい
る部分を判別し、また、分野を示す情報の記載されてい
る部分より、単語を取得し、分野特定結果格納バッファ
部3236に格納する。
【0117】情報不足時代替領域抽出部3212は、分
野特定単語抽出部3211にて分野の特定に必要な情報
が不足している場合に起動され、代替領域情報格納バッ
ファ部3237の情報を元に、分野特定の情報の代替と
なる情報を取得し、分野特定結果格納バッファ部323
6に格納する。
【0118】検索条件設定部3213は、入力部320
2により、文書を絞り込む際の閾値の指定を行ない、検
索条件の設定内容を検索条件設定バッファ部3230に
格納する。
【0119】検索対象文書絞り込み部3214は、分野
特定結果格納バッファ部3236と検索対象単語情報格
納バッファ部3232とから、検索対象文書の分野への
類似度を計り、検索対象文書が検索キー文書の分野に近
似と判断されれば、検索対象文書の文書情報(例えば、
文書ID)を文書絞り込み結果格納バッファ部3238
に格納する。
【0120】検索単語抽出部3215は、分野特定情報
抽出部3210で取得された情報または、検索単語特定
情報格納バッファ部3239を元に、検索キー文書か
ら、その検索キー文書の主眼や構成となる情報が記載さ
れている部分を判別し、単語を取得し、検索単語格納バ
ッファ部3240に格納する。
【0121】共通単語抽出部3216は、検索キー単語
情報格納バッファ部3234に格納されている検索キー
文書の単語情報のうち、検索単語格納バッファ部324
0に格納されている単語の単語情報と、検索対象単語情
報格納バッファ部3232に格納されている検索対象文
書の単語情報と文書絞り込み結果格納バッファ部323
8に登録されている文書情報から、絞り込み後の文書に
対して、両バッファに格納されいてる単語とその頻度に
関する情報を共通単語情報格納バッファ部3241に格
納する。
【0122】類似度算出部3217は、検索対象単語情
報格納バッファ部3233と共通単語情報格納バッファ
部3241から、単語の出現割合を求め、検索キー文書
と一検索対象文書との類似度を算出し、その類似度値を
類似度格納バッファ部3242に格納する。
【0123】検索結果出力部3218は、類似度格納バ
ッファ部3242に格納されている検索対象文書毎の類
似度から検索キーとする文書情報(例えば、文書ID)
を検索結果出力バッファ部3242に格納する。そし
て、検索結果出力バッファ部3243の内容を表示装置
3に出力する。
【0124】次に本実施形態の動作について図24を参
照して以下の通り説明する。本実施形態においても、本
発明の用途として好適と考えられる、特許公報を検索対
象として取り扱う場合を想定する。
【0125】まず、初期化部3201が起動しメモリ部
のクリアなどを行う(ステップ3300)。検索条件設
定部3212が起動し、類似文書を算出する際の検索モ
ードを入力装置より設定する。設定には、分野の特定処
理を行なった際、検索対象となる文書を絞り込むための
条件を検索条件設定バッファ部3229に格納する(ス
テップ3301)。本実施形態では、検索キー文書の分
野特定情報と検索対象文書の類似度を求め、その類似度
を文書の絞込条件に使用することとする。例えば、図4
のように、「分野特定結果の絞り込み閾値(類似度)=
0.5」と設定されているとする。分野特定を行なうた
めの類似度計算で、類似度が0.5に満たないものは絞
り込みの対象として、切り捨てられることを意味する。
【0126】続いて、検索キー文書入力部3207が起
動し、入力装置2より類似文書検索のキーとなる文書を
読み込み、検索キー文書格納バッファ部3233へと格
納される(ステップ3302)。
【0127】続いて、検索キー単語抽出部3208が起
動し、検索キー文書格納バッファ部3233へ格納され
た文書より、文章を切り出す。文書が特許公報の場合、
「特許請求の範囲」に記載されている文章を切り出す。
「特許請求の範囲」の記載から充分な単語数が切り出せ
なかった場合は、適宜、要約書の文章や、発明の名称、
実施例の部分から文章を切り出す。
【0128】切り出された文章は形態素解析などにより
単語毎に分割され、抽出された単語情報は検索キー単語
情報格納バッファ部3234へと格納する(ステップ3
303)。また、その際、抽出された単語数も検索対象
単語出現頻度算出部3206にて算出され、同様に検索
キー単語情報格納バッファ部3234へと格納される
(ステップ3304)。例えば、図5のような文書であっ
た場合、ステップ3303及びステップ3304実行後
の検索キー単語情報格納バッファ部3234の内容は、
図6のようになる。
【0129】続いて、分野特定情報抽出部3210が起
動し、分野特定情報格納バッファ3235より、分野特
定情報を取得する(ステップ3305)。分野特定情報
は、検索キー文書の分野を特定するための情報である。
それは、分野を特定する情報が記載されている範囲(単
語単位、文節単位、段落単位など)を示すものであった
り、単語そのものであったりする。本実施形態では、分
野特定情報は、検索キー文書の分野を特定する情報が記
載されている文章中の範囲を示すものとする。例を、図
7に示す。本実施形態において特許公報を対象とする場
合、この特許公報の分野を特定するためには、特許請求
の範囲に記載されることが多く、分野の特定に寄与する
と考えられる文章中の範囲を選択すれば良い。すなわ
ち、「において」というフレーズの前、「であって」と
いうフレーズの前、「を特徴とする」というフレーズの
後、「を具備した」というフレーズの後を選択するのが
好ましい。
【0130】なお、分野を特定するための情報が不足し
ている場合(ステップ3306:分野特定情報格納バッ
ファ3235にて示される領域が存在しない、もしく
は、抽出される情報が少ないなど)、情報不足時代替領
域抽出部3212が起動され、情報の補填を行なう(ス
テップ3307)。具体的には、「特許請求の範囲」の
記載に、「において」、「であって」、「を特徴とす
る」、「を具備した」といったフレーズが含まれていな
い場合の対応である。
【0131】情報不足時代替領域抽出部3212は、指
定された情報が存在しない場合や、不足している場合、
代替領域情報格納バッファ部3237より、指定された
情報の代わりとなる情報が記載された位置を示す情報を
取得する。代替領域情報格納バッファ部3237より取
得した情報を元に、検索キー文書より単語もしくは文章
の取得を行ない、分野特定単語抽出部3211にて使用
する情報へ、付加する。検索キー文書が図25であり、
分野特定情報格納バッファ3235が図7であり、代替
領域情報格納バッファ部3237が図26である場合、
情報不足時代替領域抽出部3212の実行結果は、図2
7のようになる。
【0132】続いて、分野特定単語抽出部3211が起
動し、ステップ3305もしくはステップ3307にて
取得した、分野特定情報を元に検索キー文書より分野特
定に有効な単語の抽出を行なう(ステップ3308)。図
7の「分野特定基準単語」を検索キー文書より捜査し、
「分野特定情報記載位置」に記載された位置情報を元
に、単語の抽出を行ない、分野特定格納バッファ部32
36へ格納する。
【0133】図5に示した文書について、図7の分野特
定情報を使用して取得された単語の一覧を図8に示す。
この例では、「において」以前に記載された単語と、
「を特徴とする」以後に記載された単語が抽出される。
図5に示した文書のように所定のフレーズが含まれてい
ない場合は、先述の補填した情報をもとに単語を抽出す
る。
【0134】以下、ステップ3310〜ステップ331
5は、外部記憶装置4に保存されている、文書の件数
分、繰り返し実行される(ステップ3309)。
【0135】検索対象文書読み出し部3204が起動
し、外部記憶装置4より検索対象文書を読み出し、検索
対象文書格納バッファ部3231へ格納する(ステップ
3310)。
【0136】続いて、検索対象文書単語抽出部3205
が起動し、検索対象文書格納バッファ部3231へ格納
された文書より、形態素解析などにて切り出し・抽出さ
れた単語情報を検索対象単語情報格納バッファ部323
2へと格納する(ステップ3111)。また、その際、抽
出された単語数も検索対象単語出現頻度算出部3206
にて算出され、同様に検索対象単語情報格納バッファ部
3232へと格納される(ステップ3312)。ここで、
文書が特許公報の場合、「特許請求の範囲」に記載され
た文章を切り出すのが好ましい。例えば、図9のような
文書であった場合、ステップ3311及びステップ33
12実行後の検索対象単語情報格納バッファ部3232
の内容は、図10のようになる。
【0137】続いて、検索対象文書絞り込み部3214
が起動し、特定分野の文書への絞り込みを行なう。絞り
込みは、分野特定格納バッファ部3236と検索対象単
語情報格納バッファ部3232とを用いて、類似度計算
を行う(ステップ3313)。この類似度計算は「分野特
定単語数/検索対象単語数」の割り算で行う。この際、
頻度が高い単語に付いては重み付けを行う。分野特定単
語と検索対象単語が完全に一致すると、類似度は「1」
となる。
【0138】類似度計算を行った後、検索条件設定バッ
ファ3230に格納されている、文書の切り捨て対象と
なる類似度の閾値を用いて、閾値に満たない文書は切り
捨てを行ない(ステップ3314)、閾値以上である文書
の情報を文書絞り込み結果格納バッファ3238へ格納
する(ステップ3315)。本実施形態では、文書絞り込
み結果格納バッファ3238へ格納する情報を文書のI
Dとし、図11に文書絞り込み結果の格納例を示す。
【0139】続いて、検索単語抽出部3215が起動
し、分野の絞り込み後の検索で使用する、検索対象とな
る単語を抽出する。検索で使用する単語の判別には、ス
テップ3308で抽出した分野を特定する単語以外を使
用するか、または、検索単語特定情報格納バッファ部3
239より情報を抽出した情報を使用する。本実施形態
では、検索単語特定情報格納バッファ部3239を使用
した場合を例に説明する。検索単語特定情報格納バッフ
ァ部3239は、検索で使用する単語の出現位置を示す
情報であり、情報は検索で使用する単語が記載されてい
る範囲(単語単位、文節単位、段落単位など)を示すもの
であったり、単語そのものであったりする。図13に検
索単語特定情報の格納例を示す。まず、検索単語特定情
報格納バッファ部3239より、検索で使用する単語の
判別に用いる情報を取得する(ステップ3316)。第一
の実施形態と同様、特許公報の例では、分野を絞り込ん
だ後の文書の特徴部分を示す範囲をこの情報として格納
し、情報の例として、「において」というフレーズの
後、「であって」というフレーズの後、「を特徴とす
る」というフレーズの前、「を具備した」というフレー
ズの前、といった情報を用意するのが好ましい。
【0140】なお、検索のキーとなる単語の取得を行な
う領域が不足している場合は(ステップ3317)、ステ
ップ3307と同様に、情報不足時代替領域抽出部32
12が起動され、検索のキーとなる単語の抽出を行なう
領域の代替となる情報を取得する(ステップ3318)。
代替領域の設定はステップ3307と同様である。
【0141】続いて、その情報を元に検索キー文書より
検索で使用する単語の抽出を行ない、検索単語格納バッ
ファ部3240に格納する(ステップ3319)。検索キ
ー文書が図5であった場合の検索単語格納バッファ部3
240の内容を図14に示す。
【0142】続いて、ステップ3315にて取得され
た、文書の情報を文書絞り込み結果格納バッファ323
8より取得する(ステップ3320)。取得する情報は文
書のIDである。
【0143】以下、ステップ3322〜ステップ332
6は、ステップ3320にて取得された文書のID分、繰
り返し実行される(ステップ3321)。
【0144】検索対象文書読み出し部3204が起動
し、外部記憶装置4より検索対象文書を読み出し、検索
対象文書格納バッファ部3231へ格納する(ステップ
3322)。
【0145】続いて、検索対象文書単語抽出部3205
が起動し、検索対象文書格納バッファ部3231へ格納
された文書より、形態素解析などにて切り出し・抽出さ
れた単語情報を検索対象単語情報格納バッファ部323
2へと格納する(ステップ3323)。また、その際、抽
出された単語数も検索対象単語出現頻度算出部3206
にて算出され、同様に検索対象単語情報格納バッファ部
3232へと格納される(ステップ3324)。例えば、
図9のような文書であった場合、ステップ3323及び
ステップ3324実行後の検索対象単語情報格納バッフ
ァ部3232の内容は、図10のようになる。
【0146】共通単語抽出部3216にて、検索キー文
書と検索対象文書とで、共通して出現する単語を抽出
し、共通単語情報格納バッファ部3241へと格納する
(ステップ3325)。検索単語格納バッファ部3240
と検索対象単語情報格納バッファ部3232がそれぞれ
図13、図10のようであった場合、共通単語情報格納
バッファ部3241は図14のようになる。
【0147】次に、類似度算出部3217が起動し、検
索対象単語情報格納バッファ部3232と検索キー単語
情報格納バッファ部3234、共通単語情報格納バッフ
ァ部3241の単語の出現割合から類似度を算出し、そ
の類似度値を類似度格納バッファ部3242に格納する
(ステップ3326)。この類似度算出は上述の各実施
形態と同様である。
【0148】全ての類似文書が取得されたら、ステップ
3327にて類似度格納バッファ部3242の内容を類
似度上位から下位へと降順にソートを行なう(ステップ
3327)。
【0149】続いて、検索結果出力部3218が起動さ
れ、類似度格納バッファ部3242に格納されている検
索対象文書毎の類似度から検索キーとする文書情報(例
えば、文書ID)を検索結果出力バッファ部3243に格
納する。そして、検索結果出力バッファ部3243の内
容を表示装置3に出力する(ステップ3328)。図15
は出力結果である。以上で一連の処理を終了する。
【0150】図28に本実施形態における検索の一連の
流れについて模式的に示す。
【0151】本実施形態では、ステップ3310〜ステ
ップ3315を一度だけ行なっているが、分野特定情報
の条件を切り替えながら、数回、ステップ3310〜ス
テップ3315を実行することで、更なる、文書の絞り
込みが可能である。
【0152】従来の類似文書検索手段では、図17に示
したような分野の異なる文書であっても、単語の一致度
から、類似文書として検索結果に含まれてしまった。し
かし、本実施形態のように、あらかじめ、類似度の算出
を行なう前に、分野の特定を行ない、図17に示すよう
な文書を検索対象から外すことによって、検索結果の質
を上げることが可能となる。
【0153】また、分野の特定、検索キーとなる単語の
取得を行なう際、情報が不足(無い、足りない)してい
ても、同様の情報が記載されている場所の情報があらか
じめ設定されていれば、情報の不足による検索が不可能
な検索キー文書を減らすことが可能である。
【0154】
【発明の効果】以上説明したように、この発明によれ
ば、文書の特徴を表す単語を適切に検索に利用すること
が可能となる。
【図面の簡単な説明】
【図1】本発明の第一の実施形態及び第三の実施形態に
係わる文書検索装置の構成を示すブロック図。
【図2】制御装置1の詳細構成を示すブロック図。
【図3】本発明の第一の実施形態における文書検索処理
を示すフローチャート図。
【図4】文書検索の条件入力画面例を示す図。
【図5】検索キー文書の例を示す図。
【図6】検索キー単語情報格納バッファ部のデータ構造
を示す図。
【図7】分野特定情報格納バッファ部のデータ構造を示
す図。
【図8】分野特定結果格納バッファ部のデータ構造を示
す図。
【図9】検索対象文書の例を示す図。
【図10】検索対象単語情報格納バッファ部のデータ構
造を示す図。
【図11】文書絞り込み結果格納バッファ部のデータ構
造を示す図。
【図12】検索単語特定情報格納バッファ部のデータ構
造を示す図。
【図13】検索単語格納バッファ部のデータ構造を示す
図。
【図14】共通単語情報格納バッファ部のデータ構造を
示す図。
【図15】本発明の第一の実施形態における検索結果画
面の例を示す図。
【図16】本発明の第一の実施形態における文書検索処
理の流れを示す図。
【図17】検索キー文書と分野の異なる検索対象文書の
例を示す図。
【図18】本発明の第二の実施形態に係わる文書検索装
置の構成を示すブロック図。
【図19】本発明の第二の実施形態における制御装置2
1の構成を示す図。
【図20】本発明の第二の実施形態における文書検索処
理を示すフローチャート図。
【図21】本発明の第二の実施形態における検索キー単
語情報格納バッファ部のデータ構造を示す図。
【図22】本発明の第二の実施形態における文書検索処
理の流れを示す図。
【図23】本発明の第三の実施形態における制御装置1
の構成を示す図。
【図24】本発明の第三の実施形態における文書検索処
理を示すフローチャート図。
【図25】分野特定を行うための情報が不足している検
索キー文書の例。
【図26】代替領域情報格納バッファ部のデータ構造。
【図27】代替領域を使用した際の分野特定結果格納バ
ッファ部のデータ構造を示す図。
【図28】本発明の第三の実施形態における文書検索処
理の流れを示す図。
【符号の説明】
1、21…制御装置 2、22…入力装置 3、23…表示装置 4、24…外部記憶装置 5、25…形態素解析辞書 26…分野特定形態素解析辞書 200、2200、3200…メイン処理部 201、2201、3201…初期化部 202、2202、3202…入力部 203、2203、3203…出力部 204、2204、3204…検索対象文書読み出し部 205、2205、3205…検索対象文書単語抽出部 206、2206、3206…検索対象単語出現頻度算
出部 207、2207、3207…検索キー文書入力部 208、2208、3208…検索キー単語抽出部 209、2209、3209…検索キー単語出現頻度算
出部 210、2210、3210…分野特定情報抽出部 211、2211、3211…分野特定単語抽出部 3212…情報不足時代替領域抽出部 212、2212、3213…検索条件設定部 213、2213、3214…検索対象文書絞り込み部 214、3215…検索単語抽出部 215、2214、3216…共通単語抽出部 216、2215、3217…類似度算出部 217、2216、3218…検索結果出力部 230、2230、3230…検索条件設定バッファ部 231、2231、3231…検索対象文書格納バッフ
ァ部 232、2232、3232…検索対象単語情報格納バ
ッファ部 233、2233、3233…検索キー文書格納バッフ
ァ部 234、2234、3234…検索キー単語情報格納バ
ッファ部 235、2235、3235…分野特定情報格納バッフ
ァ部 236、2236、3236…分野特定結果格納バッフ
ァ部 3237…文書絞り込み結果格納バッファ部 237、2237、3238…文書絞り込み結果格納バ
ッファ部 238、3239…検索単語特定情報格納バッファ部 239、3240…検索単語格納バッファ部 240、2238、3241…共通単語情報格納バッフ
ァ部 241、2239、3242…類似度格納バッファ部 242、2240、3243…検索結果出力バッファ部 243、2241、3244…作業バッファ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 NK32 PP24 PR06 QM08

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】文書を検索キーとして、文書データベース
    中から文書を検索する文書検索装置において、 文書データベース中の各文書の内容を表すキー単語を抽
    出する検索対象単語抽出手段と、 検索キー文書より検索キーとなる単語を抽出する検索キ
    ー単語抽出手段と、 この検索キー単語抽出手段により得られた検索キー単語
    のうち検索キー文書の分野を示す分野特定単語を抽出す
    る分野特定単語抽出手段と、 この分野特定単語抽出手段により得られた分野特定単語
    と、前記検索対象単語抽出手段により得られたキー単語
    を元に類似文書を求める分野類似文書抽出手段と、 この分野類似文書抽出手段により得られた類似文書のう
    ち前記検索キー文書の分野に属した文書を絞り込む検索
    対象文書絞込み手段と、 前記検索単語抽出手段により得られた検索キー単語のう
    ち前記検索キー文書の主眼や構成を表す構成単語を抽出
    する構成単語抽出手段と、 この構成単語抽出手段により得られた構成単語と前記検
    索対象文書絞込み手段により得られた検索対象文書を元
    に類似文書を求める類似文書抽出手段と、 この類似文書抽出手段により得られた抽出結果を表示す
    る表示手段とを具備することを特徴とする文書検索装
    置。
  2. 【請求項2】文書を検索キーとして、文書データベース
    中から文書を検索する文書検索装置において、 文書データベース中の各文書の内容を表すキー単語を抽
    出する検索対象単語抽出手段と、 検索キー文書より検索キーとなる単語を抽出する検索キ
    ー単語抽出手段と、 この検索キー単語抽出手段により得られた検索キー単語
    のうち検索キー文書の分野を示す分野特定単語を抽出す
    る分野特定単語抽出手段と、 この分野特定単語抽出手段により得られた分野特定単語
    と、前記検索対象単語抽出手段により得られたキー単語
    を元に類似文書を求める分野類似文書抽出手段と、 この分野類似文書抽出手段により得られた類似文書のう
    ち前記検索キー文書の分野に属した文書を絞り込む検索
    対象文書絞込み手段と、 前記検索単語抽出手段により得られた検索キー単語のう
    ち前記検索キー文書の主眼や構成を表す構成単語を抽出
    する際に分野特定手段により得られた分野によって使用
    する形態素解析辞書を切り替える構成単語抽出手段と、 この構成単語抽出手段により得られた構成単語と前記検
    索対象文書絞込み手段により得られた検索対象文書を元
    に類似文書を求める類似文書抽出手段と、 この類似文書抽出手段により得られた抽出結果を表示す
    る表示手段とを具備することを特徴とする文書検索装
    置。
  3. 【請求項3】前記文書検索装置は更に、前記分野特定単
    語抽出手段が分野特定単語を抽出するための情報が不足
    している際に、前記キー文書中の所定の代替領域から情
    報を取得し、分野特定のための情報を補填する特定情報
    不足時代替領域取得手段を具備することを特徴とする請
    求項1又は2記載の文書検索装置。
  4. 【請求項4】任意の文書を検索キー文書として、複数の
    文書から所定の文書を検索する文書検索装置において、 前記検索キー文書より検索キーとなる単語を抽出する検
    索キー単語抽出手段と、 この検索キー単語抽出手段により得られた検索キー単語
    のうち前記検索キー文書の分野を示す分野特定単語を抽
    出する分野特定単語抽出手段と、 前記複数の文書に対して、前記分野特定単語を元に検索
    を行い、検索結果となる第一文書群の抽出を行う第一検
    索手段と、 前記検索キー単語抽出手段により得られた検索キー単語
    のうち前記検索キー文書の主眼や構成を表す構成単語を
    抽出する構成単語抽出手段と、 前記第一文書群に対して前記構成単語を元に検索を行
    い、検索結果となる第二文書群の抽出を行う第二検索手
    段と、 この第二検索手段により得られた検索結果を表示する表
    示手段とを具備することを特徴とする文書検索装置。
  5. 【請求項5】 前記構成単語抽出手段は更に、前記構成
    単語を抽出する際に前記分野特定手段により得られた分
    野によって使用する形態素解析辞書を切り替えることを
    特徴とする、請求項4記載の文書検索装置。
  6. 【請求項6】 前記文書検索装置は更に、前記分野特定
    単語抽出手段が分野特定単語を抽出するための情報が不
    足している際に、前記キー文書中の所定の代替領域から
    情報を取得し、分野特定のための情報を補填する特定情
    報不足時代替領域取得手段を具備することを特徴とする
    請求項4または5記載の文書検索装置。
  7. 【請求項7】任意の文書を検索キー文書として、複数の
    文書から所定の文書を検索する文書検索装置において、 前記検索キー文書から所定の第一の条件を満たす単語を
    第一キー単語として自動的に抽出する第一抽出手段と、 前記第一キー単語を元に前記複数の文書に対して検索を
    行う第一検索手段と、 前記検索キー文書から前記第一の条件と異なる所定の第
    二の条件を満たす単語を第二キー単語として自動的に抽
    出する第二抽出手段と、 前記前記第二キー単語を元に前記第一検索手段による検
    索結果に対して更に検索を行う第二検索手段とを具備す
    ることを特徴とする文書検索装置。
  8. 【請求項8】 前記第一の条件は、前記検索キー文書中
    の所定の文字列に対する位置関係であることを特徴とす
    る請求項7記載の文書検索装置。
  9. 【請求項9】 前記所定の文字列は、少なくとも「にお
    いて」、「であって」、「を特徴とする」、「を具備」
    のいずれか1つを含むことを特徴とする請求項8記載の
    文書検索装置。
  10. 【請求項10】 前記第二の条件は、前記検索キー文書
    中の所定の単語に対する位置関係であることを特徴とす
    る請求項7記載の文書検索装置。
  11. 【請求項11】 前記所定の文字列は、少なくとも「に
    おいて」、「であって」、「を特徴とする」、「を具
    備」のいずれか1つを含むことを特徴とする請求項10
    記載の文書検索装置。
  12. 【請求項12】 前記第二抽出手段は更に、前記第一キ
    ー単語に応じて、前記第二キー単語を抽出する際に使用
    する形態素解析辞書を切り替えることを特徴とする、請
    求項7記載の文書検索装置。
  13. 【請求項13】 前記文書検索装置は更に、前記第一抽
    出手段が第一キー単語を抽出するための情報が不足して
    いる際に、前記キー文書中の所定の代替領域から情報を
    取得し、第一キー単語を抽出するための情報を補填する
    第一抽出補助手段を具備することを特徴とする請求項7
    または12記載の文書検索装置。
  14. 【請求項14】前記第一抽出補助手段は、所定の代替領
    域として、少なくとも前記キー文書の題名部分又は概要
    説明部分を使用することを特徴とする請求項13記載の
    文書検索装置。
  15. 【請求項15】文書を検索キーとして、文書データベー
    ス中から文書を検索する文書検索方法において、 文書データベース中の各文書の内容を表すキー単語を抽
    出する検索対象単語抽出ステップと、 検索キー文書より検索キーとなる単語を抽出する検索キ
    ー単語抽出ステップと、 この検索キー単語抽出ステップにより得られた検索キー
    単語のうち検索キー文書の分野を示す分野特定単語を抽
    出する分野特定単語抽出ステップと、 この分野特定単語抽出ステップにより得られた分野特定
    単語と、前記検索対象単語抽出ステップにより得られた
    キー単語を元に類似文書を求める分野類似文書抽出ステ
    ップと、 この分野類似文書抽出ステップにより得られた類似文書
    のうち前記検索キー文書の分野に属した文書を絞り込む
    検索対象文書絞込みステップと、 前記検索単語抽出ステップにより得られた検索キー単語
    のうち前記検索キー文書の主眼や構成を表す構成単語を
    抽出する構成単語抽出ステップと、 この構成単語抽出ステップにより得られた構成単語と前
    記検索対象文書絞込みステップにより得られた検索対象
    文書を元に類似文書を求める類似文書抽出ステップと、 この類似文書抽出ステップにより得られた抽出結果を表
    示する表示ステップとを具備することを特徴とする文書
    検索方法。
  16. 【請求項16】前記構成単語抽出ステップは、前記分野
    特定ステップにより得られた分野情報によって、使用す
    る形態素解析辞書を切り替えることを特徴とする、請求
    項15記載の文書検索方法。
  17. 【請求項17】前記文書検索方法は更に、前記分野特定
    単語抽出ステップにおいて分野特定単語を抽出するため
    の情報が不足している際に、前記キー文書中の所定の代
    替領域から情報を取得し、分野特定のための情報を補填
    する特定情報不足時代替領域取得ステップを具備するこ
    とを特徴とする請求項15又は16記載の文書検索方
    法。
JP2001205568A 2001-07-06 2001-07-06 文書検索装置及び文書検索方法 Pending JP2003022276A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001205568A JP2003022276A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001205568A JP2003022276A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2003022276A true JP2003022276A (ja) 2003-01-24

Family

ID=19041855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001205568A Pending JP2003022276A (ja) 2001-07-06 2001-07-06 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2003022276A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085474A (ja) * 2004-09-16 2006-03-30 Nobuhide Yamazaki アイテム検索装置、アイテム検索方法およびアイテム検索プログラム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085474A (ja) * 2004-09-16 2006-03-30 Nobuhide Yamazaki アイテム検索装置、アイテム検索方法およびアイテム検索プログラム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム

Similar Documents

Publication Publication Date Title
US6243713B1 (en) Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US5523945A (en) Related information presentation method in document processing system
JP2001318948A (ja) 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2937520B2 (ja) 文書検索装置
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JP2005107931A (ja) 画像検索装置
JPH0785080A (ja) 全文書検索システム
JP2003022276A (ja) 文書検索装置及び文書検索方法
JP2002132789A (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2005115457A (ja) 文書ファイル検索方法
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JP2004062806A (ja) 類似文書検索装置及び類似文書検索方法
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JP2004005103A (ja) 類似文書検索装置および類似文書検索方法
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JPH08305695A (ja) 文書処理装置
JP3264252B2 (ja) 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JPH09305626A (ja) 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JPH022458A (ja) 類似文書検索装置
JP3314720B2 (ja) 文字列検索装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606