JP2003108579A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2003108579A
JP2003108579A JP2001299137A JP2001299137A JP2003108579A JP 2003108579 A JP2003108579 A JP 2003108579A JP 2001299137 A JP2001299137 A JP 2001299137A JP 2001299137 A JP2001299137 A JP 2001299137A JP 2003108579 A JP2003108579 A JP 2003108579A
Authority
JP
Japan
Prior art keywords
word
document
search
extracting
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001299137A
Other languages
English (en)
Inventor
Tsutomu Kobayashi
勉 小林
Shigemi Nakazato
茂美 中里
Hiroshi Yamazaki
弘 山崎
Yukio Nakamoto
幸夫 中本
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001299137A priority Critical patent/JP2003108579A/ja
Publication of JP2003108579A publication Critical patent/JP2003108579A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 効率的に検索精度を高めることができる類似
文書検索装置及び類似文書検索方法を提供すること。 【解決手段】 検索キー文書及び検索対象文書に含まれ
る単語について、上位語をシソーラス辞書6から採用
し、この単語と上位語を用いて一度目の検索を行う。こ
の検索により絞り込まれた検索対象文書と検索キー文書
に含まれる単語について、下位語をシソーラス辞書6か
ら採用し、この単語と下位語を用いて二度目の検索を実
行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書検索技術に係わ
り、特に類似文書検索技術に関する。
【0002】
【従来の技術】情報処理技術の進歩とともに、情報処理
機器やユーザが取り扱う情報量は飛躍的に増大してい
る。特に文書をテキストデータとして取り扱う場合、記
憶媒体の高容量化により、多くのデータを保存すること
が可能となっている。このような多くの情報の中から、
所望のデータを検索・抽出するための技術についての要
望が高まっている。
【0003】文書をキーとして、その文書と類似した文
書を、複数の検索対象文書から抽出する技術として、類
似文書検索装置がある。類似文書検索装置は、検索キー
である文書から抽出された単語と、検索対象文書から抽
出された単語を比較し、検索キー文書と検索対象文書の
類似度を算出し、類似度の高いものを類似文書として、
検索対象文書より抽出している。
【0004】類似度の算出方法には、検索キー文書と検
索対象文書から抽出された単語の、抽出数や抽出場所等
を元にベクトル空間法を用いて算出する方法等がある。
検索対象文書を、検索キー文書の同分野に絞り込み、絞
り込んだ結果に対して類似文献の抽出処理を行なってい
る。
【0005】この際、検索キー文書に含まれる単語をシ
ソーラス辞書を用いて検索する範囲を広げるような技術
も存在する。このような技術の例として、特開平9−1
98393号公報に開示された発明がある。
【0006】
【発明が解決しようとする課題】従来、類似文書検索装
置は、検索キーである文書と、検索対象である文書と
の、単語の一致数などによる類似度算出で類似文書の算
出を行なっていた。文書数を絞り込みながら何段階かに
わたって行う段階検索においても、検索キー分書中に含
まれている単語により類似度の算出処理を行なってい
る。
【0007】このように検索対象文書を検索キー文書の
分野に属する文書へ絞り込む際、同じ分野の文書であり
ながら、文書に記載されている単語の表記が異なるた
め、分野が異なると判断されてしまう場合がある。この
場合、目的とする類似文書が検索対象から排除されてし
まうという問題が有った。また、シソーラス辞書を用い
た検索においても、効率・精度の面で問題があった。
【0008】
【課題を解決するための手段】この発明は、文書を検索
キーとして検索対象文書から類似文書を検索する文書検
索装置であって、前記検索対象文書の中から検索対象単
語を抽出する検索対象単語抽出手段と、前記検索キーと
なる文書から検索キーとなる単語を抽出する検索キー単
語抽出手段と、前記検索対象単語抽出手段及び前記検索
キー単語抽出手段により抽出された単語の上位語を抽出
する上位語抽出手段と、前記検索対象単語抽出手段及び
前記検索キー単語抽出手段により得られた単語と前期上
位語抽出手段により得られた上位語を元に、前記検索キ
ー文書と前記検索対象文書の第一の類似度を求める第一
類似度算出手段と、前記第一類似度算出手段により求め
られた第一の類似度に基づき前記検索対象文書を絞り込
む絞り込み手段と、前記絞り込み手段により絞り込まれ
た検索対象文書について検索対象単語抽出手段により抽
出された単語の下位語と、前記検索キー単語抽出手段に
より抽出された単語の下位語を抽出する下位語抽出手段
と、前記絞り込み手段により絞り込まれた検索対象文書
について前記検索対象単語抽出手段により得られた単語
と、前記キー単語抽出手段により得られた単語と、前記
下位語抽出手段により得られた下位語をもとに、前記検
索キー文書と前記絞り込まれた検索対象文書の第二の類
似度を求める第二類似度算出手段と、前記第二類似度算
出手段により算出された類似度に基づき検索結果を出力
する出力手段とを具備することを特徴とする。
【0009】このような構成によれば、効率的に検索精
度を高めることができる類似文書検索装置及び類似文書
検索方法を提供することが可能となる。
【0010】
【発明の実施の形態】以下、本発明の第一の実施形態に
ついて、図面を参照しながら説明する。図1は、本装置
のブロック構成図である。CPU、メモリーから構成さ
れる制御装置1、キーボードなどの入力装置2、類似検
索結果などを表示する表示装置3、検索データなどを格
納する外部記憶装置4、単語の情報が格納される形態素
解析辞書5、シソーラスの情報が格納されるシソーラス
辞書6から構成される。
【0011】図2は、制御装置の詳細構成例を示した図
である。制御装置は制御部とメモリ部からなっている。
制御部は各種制御や処理を実行する部分で、メイン処理
部200、初期化部201、入力部202、出力部20
3、検索対象文書読み出し部204、検索対象文書単語
抽出部205、検索キー文書入力部206、検索キー単
語抽出部207、検索条件設定部208、上位語抽出部
209、下位語抽出部210、検索対象文書絞り込み部
211、類似度算出部212、ソート部213、検索結
果出力部214等から構成される。また、メモリ部は、
検索条件設定バッファ部230、検索対象文書格納バッ
ファ部231、検索対象単語情報格納バッファ部23
2、検索キー文書格納バッファ部233、検索キー単語
情報格納バッファ部234、上位語情報格納バッファ部
235、下位語情報格納バッファ部236、文書絞り込
み結果格納バッファ部237、類似度格納バッファ部2
38、ソート結果格納バッファ部239、検索結果出力
バッファ部240、作業バッファ部241などから構成
される。
【0012】各部の動作を以下の通り説明する。初期化
部201は、各バッファ部の初期化を行う。入力部20
2は、入力装置2からユーザによって、検索キー文書の
設定や、各種設定、表示装置3への出力結果に対する回
答の入力を行う。出力部203は、入力部202により
行った検索キー文書や各種設定の内容を表示装置3に出
力する。
【0013】検索対象文書読み出し部204は、外部記
憶装置に格納されている文書に関する情報を文書データ
ベース化するために、対象の文書を外部記憶装置4から
読み込み、そのテキスト文書情報を検索対象文書格納バ
ッファ部231に格納する。
【0014】検索対象文書単語抽出部205は、検索対
象文書格納バッファ部231に格納されているテキスト
文書情報の単語切りを行う。そして、その文書あるいは
項目の内容を表す上でキーとなる単語を抽出し、抽出さ
れた単語種を検索対象単語情報格納バッファ部232に
格納する。単語切りは、形態素解析を用いて行う。な
お、形態素解析により取得される情報は、各単語の見出
し、品詞情報(例えば「名詞」や「サ変名詞」など)、
代表語などが含まれる。なお、これらの単語情報は形態
素解析辞書5に格納されている。
【0015】検索キー文書入力部206、入力装置から
入力された検索キー文書のテキスト情報を検索キー文書
格納バッファ部234に格納する。
【0016】検索キー単語抽出部207は、検索キー文
書格納バッファ部233に格納されているテキスト文書
情報の単語切りを行う。そして、その文書の内容を表す
上でキーとなる単語を抽出し、抽出された単語種を検索
キー単語情報格納バッファ部234に格納する。単語切
りは、形態素解析を用いて行う。なお、形態素解析によ
り取得される情報は、各単語の見出し、品詞情報(例え
ば「名詞」や「サ変名詞」など)、代表語などが含まれ
る。なお、これらの単語情報は形態素解析辞書5に格納
されている。
【0017】検索条件設定部208は、入力部202に
より、文書を絞り込む際の閾値の指定を行ない、検索条
件の設定内容を検索条件設定バッファ部230に格納す
る。
【0018】上位語抽出部209は、検索キー単語格納
バッファ部234と検索対象単語情報格納バッファ部2
32に格納された単語情報の上位語をシソーラス辞書6
から抽出し、上位語情報格納バッファ部235に格納す
る。
【0019】下位語抽出部210は、検索キー単語格納
バッファ部234と検索対象単語情報格納バッファ部2
32に格納された単語情報の下位語をシソーラス辞書6
から抽出し、下位語情報格納バッファ部236に格納す
る。
【0020】検索対象文書絞り込み部211は、検索キ
ー単語格納バッファ部234と検索対象単語情報格納バ
ッファ部232と上位語情報格納バッファ235から、
検索キー文書と検索対象文書の類似度を計り、検索対象
文書と検索キー文書の類似度が検索条件設定バッファ2
30に指定された条件に合致する検索対象文書の文書情
報(例えば、文書ID)を文書絞り込み結果格納バッファ
部237に格納する。
【0021】類似度算出部212は、検索キー単語情報
格納バッファ部234と検索対象単語情報格納バッファ
部232と下位語情報格納バッファ部236から、検索
キー文書と文書絞り込み結果格納バッファ部237に格
納された検索対象文書の類似度を計り、その類似度値を
類似度格納バッファ部238に格納する。
【0022】ソート部213は、類似度格納バッファ部
238に格納された類似度を元に、降順にソートを行な
い、ソートを行なった結果の文書情報(例えば、文書I
D)をソート結果格納バッファ部239に格納する。
【0023】検索結果出力部214は、ソート結果格納
バッファ部239に格納されている類似度によりソート
済みの検索対象文書の情報(例えば、文書IDや類似度)
を検索結果出力バッファ部240に格納する。そして、
検索結果出力バッファ部240の内容を表示装置3に出
力する。
【0024】次に本実施形態における類似文書検索装置
の動作について図3のフローチャート図を参照して以下
の通り説明する。
【0025】まず、初期化部201が起動しメモリ部の
クリアなどを行う(ステップ300)。検索条件設定部
208が起動し、第一の検索処理に於いて検索対象文書
を絞り込むための条件(類似度による閾値など)を入力
装置より設定する。設定した内容は検索条件設定バッフ
ァ部229に格納される(ステップ301)。本実施例
では、検索キー文書と検索対象文書の類似度を求め、そ
の類似度を文書の絞込条件に使用することとする。例え
ば、図4のように、「絞り込み閾値(類似度)=0.2」
と設定されているとする。第一の検索処理で実行された
類似度計算で、類似度が0.2に満たないものは絞り込
みの対象として、切り捨てられることを意味する。
【0026】続いて、検索キー文書入力部206が起動
し、入力装置2より類似文書検索のキーとなる文書を読
み込み、検索キー文書格納バッファ部233へと格納さ
れる(ステップ302)。ここでユーザが読み込ませる文
書については、ユーザが適宜選択することが可能であ
る。一つの文に限らず、複数の文からなる文章を入力す
ることも可能である。
【0027】続いて、検索キー単語抽出部207が起動
し、検索キー文書格納バッファ部233へ格納された文
書より、文章を切り出す。切り出された文章は形態素解
析などにより単語毎に分割され、抽出された単語情報は
検索キー単語情報格納バッファ部234へと格納する
(ステップ303)。
【0028】続いて、上位語抽出部209が起動し、検
索キー単語情報格納バッファ部234に格納されている
単語の上位語の取得を行なう。上位語の取得にはシソー
ラス辞書6を用いる。取得された上位語は上位語情報格
納バッファ部235へと格納される(ステップ304)。
ここで用いるシソーラス辞書6は前もって作成されてお
り、システムに提供されている。容量が大きくなる可能
性がある場合は、検索を行う対象となる分野に特化した
シソーラス辞書を用いることができる。
【0029】例えば、図5のような「肉料理で使う鍋」
という文書を検索キー文書とし、シソーラス辞書として
及び図6のようなシソーラス辞書を用いた場合を考え
る。
【0030】シソーラス辞書の例として、図6におい
て、料理グループについては、「料理」が上位語として
記憶され、その下位語として「魚料理」、「肉料理」が
記憶されている。さらに、「魚料理」の下位語として
「ムニエル」、「刺し身」が記憶され、「肉料理」の下
位語として「ステーキ」、「すき焼き」が記憶されてい
る。同様に、調理器グループについては、「調理器」が
上位語として記憶され、その下位語として「加熱調理
具」、「鍋」が記憶されている。さらに、「加熱調理
具」の下位語として「電子レンジ」、「オーブン」が記
憶され、「鍋」の下位語として「フライパン」、「すき
焼き鍋」が記憶されている。
【0031】ステップ303及びステップ304実行後
の検索キー単語情報格納バッファ部234及び上位語情
報格納バッファ部235の内容は、図7のようになる。
すなわち、まず検索キー文書から単語切りにより「肉料
理」、「使う」、「鍋」といった単語が得られる。続い
て、単語「肉料理」の上位語としてシソーラス辞書6か
ら「料理」という単語が得られ、単語「鍋」の上位語と
して「調理器」という単語が得られる。
【0032】ここで、シソーラス辞書6の例として階層
が3段階のものを例としているが、もちろんこれよりも
階層数が多い辞書を用いることも可能である。その場
合、検索キー単語からどの程度(何階層)上位の単語ま
でを上位語として使用するかはユーザが適宜設定するこ
とができる。最上位の単語のみを使用するような設定も
可能である。
【0033】以下、ステップ306からステップ311
は、外部記憶装置4に保存されている、文書の件数分、
繰り返し実行される(ステップ305)。
【0034】検索対象文書読み出し部204が起動し、
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ30
6)。
【0035】続いて、検索対象文書単語抽出部205が
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・抽出された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ307)。
【0036】続いて、上位語抽出部209が起動し、検
索対象単語情報格納バッファ部232に格納されている
単語の上位語の取得を行なう。上位語の取得にはシソー
ラス辞書6を用いる。取得された上位語は上位語情報格
納バッファ部235へと格納される(ステップ308)。
【0037】この上位語の取得は、上述の検索キー文書
における上位語の取得と同様に行う。例えば、図8のよ
うな「ムニエルで使い易いフライパン」という文書Aと
「魚料理のための加熱調理具」という文書Bについて、
図6のようなシソーラス辞書を用いて上位語の取得を行
った場合、ステップ307及びステップ308実行後の
検索対象単語情報格納バッファ部232及び上位語情報
格納バッファ部235の内容は、図9のようになる。
【0038】文書Aについては、単語「ムニエル」が含
まれる料理グループの最上位語である「料理」と、単語
「フライパン」が含まれる調理器グループの最上位語で
ある「調理器」を上位語として採用している。なおここ
で、ユーザの設定によって中間階層に存在する「魚料
理」や「鍋」を追加するようにしても構わない。文書B
については、単語「魚料理」が含まれる料理グループの
最上位語である「料理」と、単語「加熱調理具」が含ま
れる調理器グループの最上位語である「調理器」を上位
語として採用している。文書Bの例では、各グループで
の最上位語と、直近の上位語とが一致している。
【0039】続いて、検索対象文書絞り込み部211が
起動し、検索対象文書の絞り込みを行なう。絞り込み
は、検索キー単語情報格納バッファ部234と検索対象
単語情報格納バッファ部232と上位語情報格納バッフ
ァ部235とを用いて、類似度計算を行ない(ステップ
309)、検索条件設定バッファ230に格納されてい
る、文書の切り捨て対象となる類似度の閾値を用いて、
閾値に満たない文書は切り捨てを行ない(ステップ31
0)、閾値以上である文書の情報を文書絞り込み結果格
納バッファ237へ格納する(ステップ311)。本実施
例では、文書絞り込み結果格納バッファ237へ格納す
る情報を文書のIDとする。
【0040】類似度計算の例について図10を参照して
以下の通り説明する。本実施形態の類似度算出式とし
て、類似度を、「検索対象文書と検索キー文書の一致し
た単語数」を「検索キー文書の単語数」で除した値とし
て定義する。この定義によれば、検索対象文書の単語と
検索キー文書の単語が全て一致した場合に最大の1とな
り、検索対象文書の単語と検索キー文書の単語が全く一
致しなかった場合に最小の0となる。図7に示した検索
キー文書と図8に示した検索対象文書A及びBについて
それぞれ計算を行った場合を図10に示す。検索対象文
書Aについては、検索キー文書の単語及び上位語の5つ
の単語に対して、検索対照文書と検索キー文書の一致し
た単語が2つ(「料理」、「調理器」)存在するので、
類似度は0.4となる。ここで、仮に本発明の特徴であ
る上位語の取得が無かった場合は、類似度が0となって
しまうところであった。検索対象文書Bについても同様
に類似度は0.4となる。このようにして各検索対象文
書について類似度の計算を行い、類似度の高い順にソー
トした文書絞り込み結果の格納例を図11に示す。
【0041】続いて、下位語抽出部210が起動し、検
索キー単語情報格納バッファ部234に格納されている
単語の下位語の取得を行なう。下位語の取得にはシソー
ラス辞書6を用いる。取得された下位語は下位語情報格
納バッファ部236へと格納される(ステップ312)。
例えば、上述した図5のような文書及び図6のようなシ
ソーラス辞書であった場合、ステップ312実行後の検
索キー単語情報格納バッファ部234及び下位語情報格
納バッファ部235の内容は、図12のようになる。す
なわち、検索キー単語の「肉料理」については、その下
位語である「ステーキ」及び「すき焼き」を、同じく検
索キー単語の「鍋」についてはその下位語である「フラ
イパン」及び「すき焼き鍋」を採用する。
【0042】続いて、ステップ311にて取得された、
文書の情報を文書絞り込み結果格納バッファ237より
取得する(ステップ313)。取得する情報は文書のID
である。
【0043】以下、ステップ315〜ステップ318
は、ステップ313にて取得された文書のID分、繰り
返し実行される(ステップ314)。
【0044】検索対象文書読み出し部204が起動し、
外部記憶装置4より検索対象文書を読み出し、検索対象
文書格納バッファ部231へ格納する(ステップ31
5)。
【0045】続いて、検索対象文書単語抽出部205が
起動し、検索対象文書格納バッファ部231へ格納され
た文書より、形態素解析などにて切り出し・抽出された
単語情報を検索対象単語情報格納バッファ部232へと
格納する(ステップ316)。
【0046】続いて、下位語抽出部210が起動し、検
索対象単語情報格納バッファ部232に格納されている
単語の下位語の取得を行なう。下位語の取得にはシソー
ラス辞書6を用いる。取得された下位語は下位語情報格
納バッファ部236へと格納される(ステップ317)。
例えば、上述の図8のような文書及び図6のようなシソ
ーラス辞書であった場合、ステップ316及びステップ
317実行後の検索対象単語情報格納バッファ部232
及び下位語情報格納バッファ部236の内容は、図13
のようになる。
【0047】すなわち、文書Aについて、単語「ムニエ
ル」、「フライパン」については下位語が無いので、そ
のまま流用する。文書Bについて、単語「魚料理」につ
いては下位語として「ムニエル」と「刺し身」を採用す
る。単語「加熱調理具」については下位語として「電子
レンジ」と「オーブン」を採用する。
【0048】なお、ここでシソーラス辞書6の例として
階層が3段階のものを例としているが、上位語の採用の
時と同様に、階層数が多い辞書を用いることも可能であ
る。その場合、検索キー単語からどの程度(何階層)下
位の単語までを下位語として使用するかはユーザが適宜
設定することができる。最下位の単語のみを使用する設
定も可能であるが、類似度の算出の観点からは好ましく
ない。
【0049】次に、類似度算出部216が起動し、検索
対象単語情報格納バッファ部232と検索キー単語情報
格納バッファ部234と下位語情報格納バッファ部23
6とを用いて、共通して出現する単語の数により類似度
を算出し、その類似度値を類似度格納バッファ部238
に格納する(ステップ318)。図14に類似度計算式
の例を示す。この類似度計算式は図10にて説明したも
のと同じものである。検索対象文書Aについては、検索
キー文書の単語及び下位語7つに対して、検索対象文書
Aの単語「フライパン」の一つが一致しているので、類
似度としては0.14となる。一方、検索対象文書Bに
ついては、一致する単語が存在しないので、類似度は0
となる。
【0050】全ての検索対象文書について類似度が取得
されたら、ソート部213が起動し、ステップ318で
取得された類似度格納バッファ部238の内容を類似度
上位から下位へと降順にソートを行なう。ソートを行な
った結果はソート結果格納バッファ部239へ格納され
る(ステップ323)。
【0051】続いて、検索結果出力部214が起動さ
れ、類似度格納バッファ部241に格納されている検索
対象文書毎の類似度から検索キーとする文書情報(例え
ば、文書ID)を、ソート結果格納バッファ部239に
格納されたソート結果順に検索結果出力バッファ部24
0に格納する。そして、検索結果出力バッファ部240
の内容を表示装置3に出力する(ステップ320)。図1
5に出力結果の例を示す。これらの一連の流れにより、
処理が行われる。
【0052】以上説明したとおり、絞り込み処理で、上
位語を用いる事により、通常使用される単語ではなく広
義の単語を使用する事が可能となり、下位語に比べて広
い意味、つまり分野による検索処理を行なう事が出来
る。そうする事により、同分野でありながら、単語の表
記上の違いで排除されてしまうような検索対象文書を救
う事が可能となる。また、逆に、類似度算出によって順
位付けを行なう際は、下位語を用いる事で、狭義の単語
で一致している文書の類似度を上げる事が可能となり、
より内容の類似した文書を類似度の上位とする事が可能
となる。
【0053】従来の類似文書検索手段では、図8に示し
たような、文書の指し示す目的や分野が似通っていて
も、共通となる単語が存在しないため絞り込みによる除
外の対象となる文書が存在した。本発明によれば、この
ような文書に対しても、上位語を用いる事で文書の類似
度を上げる事が可能となり、絞り込みによる除外の対象
から外す事が可能である。
【0054】これだけでは上位語という広義の単語によ
り、単語の一致する文書が増大、ノイズとなる文書も含
まれる可能性がある。しかし本発明によれば更に、これ
らのノイズとなる文書を類似度順位の下位に追いやるた
めに、より狭義な単語である下位語を用いて、類似度を
算出する。そうする事で、狭義な意味で類似度の高い文
書を類似度上位に持ってくる事が可能である。
【0055】
【発明の効果】以上説明したように、この発明によれ
ば、効率的に検索精度を高めることができる類似文書検
索装置及び類似文書検索方法を提供することが可能とな
る。
【図面の簡単な説明】
【図1】本発明における類似文書検索装置の構成を示す
ブロック図。
【図2】制御装置のブロック図。
【図3】本発明の動作を示すフローチャート図。
【図4】類似文書検索の条件入力画面の例を示す図。
【図5】検索キー文書の例を示す図。
【図6】シソーラス辞書のシソーラス情報の例を示す
図。
【図7】検索キー単語情報格納バッファ部及び上位語情
報バッファ部のデータ構造を示す図。
【図8】検索対象文書の例を示す図。
【図9】検索対象単語情報格納バッファ部及び上位語情
報バッファ部のデータ構造を示す図。
【図10】類似度の算出式について示す図。
【図11】文書絞り込み結果格納バッファ部のデータ構
造について示す図。
【図12】検索キー単語情報格納バッファ部及び下位語
情報バッファ部のデータ構造を示す図。
【図13】検索対象単語情報格納バッファ部及び下位語
情報バッファ部のデータ構造を示す図。
【図14】類似度の算出式について示す図。
【図15】類似文書検索の結果画面について示す図。
【符号の説明】
1…制御装置、2…入力装置、3…表示装置、4…外部
記憶装置、5…形態素解析辞書、6…シソーラス辞書、
200…メイン処理部、201…初期化部、202…入
力部、203…出力部、204…検索対象文書読み出し
部、205…検索対象文書単語抽出部、206…検索キ
ー文書入力部、207…検索キー単語抽出部、208…
検索条件設定部、209…上位語抽出部、210…下位
語抽出部、211…検索対象文書絞り込み部、212…
類似度算出部、213…ソート部、214…検索結果出
力部、230…検索条件設定バッファ部、231…検索
対象文書格納バッファ部、232…検索対象単語情報格
納バッファ部、233…検索キー文書格納バッファ部、
234…検索キー単語情報格納バッファ部、235…上
位語情報格納バッファ部、236…下位語情報格納バッ
ファ部、237…文書絞り込み結果格納バッファ部、2
38…類似度格納バッファ部、239…ソート結果格納
バッファ部、240…検索結果出力バッファ部、241
…作業バッファ部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 デジタルメディアエンジニアリング株式会 社内 Fターム(参考) 5B075 ND03 NK32 PP28 PR06 QM08 QP03 UU06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書を検索キーとして検索対象文書から
    類似文書を検索する文書検索装置であって、 前記検索対象文書の中から検索対象単語を抽出する検索
    対象単語抽出手段と、 前記検索キーとなる文書から検索キーとなる単語を抽出
    する検索キー単語抽出手段と、 前記検索対象単語抽出手段及び前記検索キー単語抽出手
    段により抽出された単語の上位語を抽出する上位語抽出
    手段と、 前記検索対象単語抽出手段及び前記検索キー単語抽出手
    段により得られた単語と前期上位語抽出手段により得ら
    れた上位語を元に、前記検索キー文書と前記検索対象文
    書の第一の類似度を求める第一類似度算出手段と、 前記第一類似度算出手段により求められた第一の類似度
    に基づき前記検索対象文書を絞り込む絞り込み手段と、 前記絞り込み手段により絞り込まれた検索対象文書につ
    いて検索対象単語抽出手段により抽出された単語の下位
    語と、前記検索キー単語抽出手段により抽出された単語
    の下位語を抽出する下位語抽出手段と、 前記絞り込み手段により絞り込まれた検索対象文書につ
    いて前記検索対象単語抽出手段により得られた単語と、
    前記キー単語抽出手段により得られた単語と、前記下位
    語抽出手段により得られた下位語をもとに、前記検索キ
    ー文書と前記絞り込まれた検索対象文書の第二の類似度
    を求める第二類似度算出手段と、 前記第二類似度算出手段により算出された類似度に基づ
    き検索結果を出力する出力手段とを具備することを特徴
    とする文書検索装置。
  2. 【請求項2】前記文書検索装置は更に、所定の単語の上
    位単語や下位語を格納したシソーラス辞書を具備し、前
    記上位単語抽出手段はこのシソーラス辞書に基づき、前
    記上位単語を抽出し、前記下位語抽出手段はこのシソー
    ラス辞書に基づき、前記下位語を抽出することを特徴と
    する請求項1記載の文書検索装置。
  3. 【請求項3】前記出力装置は更に、前記第二類似度算出
    手段により求められた類似度に基づき前記絞り込まれた
    検索対象文書をソートするソート手段を具備し、ソート
    結果を出力することを特徴とする請求項1または2記載
    の文書検索装置。
  4. 【請求項4】文書を検索キーとして検索対象文書から類
    似文書を検索する文書検索方法であって、 前記検索対象文書の中から検索対象単語を抽出する検索
    対象単語抽出ステップと、 前記検索キーとなる文書から検索キーとなる単語を抽出
    する検索キー単語抽出ステップと、 前記検索対象単語抽出ステップ及び前記検索キー単語抽
    出ステップにより抽出された単語の上位語を抽出する上
    位語抽出ステップと、 前記検索対象単語抽出ステップ及び前記検索キー単語抽
    出ステップにより得られた単語と前期上位語抽出ステッ
    プにより得られた上位語を元に、前記検索キー文書と前
    記検索対象文書の第一の類似度を求める第一類似度算出
    ステップと、 前記第一類似度算出ステップにより求められた第一の類
    似度に基づき前記検索対象文書を絞り込む絞り込みステ
    ップと、 前記絞り込みステップにより絞り込まれた検索対象文書
    について検索対象単語抽出ステップにより抽出された単
    語の下位語と、前記検索キー単語抽出ステップにより抽
    出された単語の下位語を抽出する下位語抽出ステップ
    と、 前記絞り込みステップにより絞り込まれた検索対象文書
    について前記検索対象単語抽出ステップにより得られた
    単語と、前記キー単語抽出ステップにより得られた単語
    と、前記下位語抽出ステップにより得られた下位語をも
    とに、前記検索キー文書と前記絞り込まれた検索対象文
    書の第二の類似度を求める第二類似度算出ステップと、 前記第二類似度算出ステップにより算出された類似度に
    基づき検索結果を出力する出力ステップとを具備するこ
    とを特徴とする文書検索方法。
JP2001299137A 2001-09-28 2001-09-28 文書検索装置及び文書検索方法 Pending JP2003108579A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001299137A JP2003108579A (ja) 2001-09-28 2001-09-28 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001299137A JP2003108579A (ja) 2001-09-28 2001-09-28 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2003108579A true JP2003108579A (ja) 2003-04-11

Family

ID=19119936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001299137A Pending JP2003108579A (ja) 2001-09-28 2001-09-28 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2003108579A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1524610A3 (en) * 2003-10-15 2006-05-24 Xerox Corporation Systems and methods for performing electronic information retrieval
JP2010009238A (ja) * 2008-06-25 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2011227893A (ja) * 2010-04-14 2011-11-10 Nhn Japan Corp 画像を用いたクエリ提供方法及びシステム
JP2013239132A (ja) * 2012-05-17 2013-11-28 Nippon Hoso Kyokai <Nhk> 類似度算出装置、類似番組検索装置、およびそのプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1524610A3 (en) * 2003-10-15 2006-05-24 Xerox Corporation Systems and methods for performing electronic information retrieval
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7493322B2 (en) 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
JP2010009238A (ja) * 2008-06-25 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2011227893A (ja) * 2010-04-14 2011-11-10 Nhn Japan Corp 画像を用いたクエリ提供方法及びシステム
US9672282B2 (en) 2010-04-14 2017-06-06 Naver Corporation Method and system for providing query using an image
JP2013239132A (ja) * 2012-05-17 2013-11-28 Nippon Hoso Kyokai <Nhk> 類似度算出装置、類似番組検索装置、およびそのプログラム

Similar Documents

Publication Publication Date Title
USRE36727E (en) Method of indexing and retrieval of electronically-stored documents
US6772170B2 (en) System and method for interpreting document contents
US7587420B2 (en) System and method for question answering document retrieval
US8332439B2 (en) Automatically generating a hierarchy of terms
US20040230570A1 (en) Search processing method and apparatus
EP2045735A2 (en) Refining a search space inresponse to user Input
EP2045733A2 (en) Determining a document specificity
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
EP2045732A2 (en) Determining the depths of words and documents
JP2008077163A (ja) 検索システム、検索方法及び検索プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4017354B2 (ja) 情報分類装置および情報分類プログラム
JP2001084255A (ja) 文書検索装置および方法
JP4426041B2 (ja) カテゴリ因子による情報検索方法
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
JP2003108579A (ja) 文書検索装置及び文書検索方法
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
JP3881638B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JPH09153051A (ja) 類似文書検索方法
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP5326945B2 (ja) 文字入力支援装置、プログラム及び文字入力支援方法
JP3595184B2 (ja) 文書検索方法及び文書検索装置
US20020065794A1 (en) Phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606