JPH10222540A - 文書検索方法、装置及び記録媒体 - Google Patents

文書検索方法、装置及び記録媒体

Info

Publication number
JPH10222540A
JPH10222540A JP9330453A JP33045397A JPH10222540A JP H10222540 A JPH10222540 A JP H10222540A JP 9330453 A JP9330453 A JP 9330453A JP 33045397 A JP33045397 A JP 33045397A JP H10222540 A JPH10222540 A JP H10222540A
Authority
JP
Japan
Prior art keywords
keyword
document
search
weight
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9330453A
Other languages
English (en)
Inventor
Hiroyuki Nakajima
浩之 中島
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP9330453A priority Critical patent/JPH10222540A/ja
Publication of JPH10222540A publication Critical patent/JPH10222540A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書検索の処理速度を向上させる文書検索装
置を提供する。 【解決手段】 拡張文書エントリ辞書13に、キーワー
ド毎に関連する文書の文書番号と文書の重みとを格納し
ておく。キーワードと文書番号との対応は、予めシソー
ラス展開されたものである。文書関連度決定部11が検
索用キーワードと重みの組を入力すると、文書エントリ
検索部12は、拡張文書エントリ辞書13から入力され
た検索用キーワードに対応する文書番号と文書の重み読
み出す。文書関連度決定部11は、読み出された文書番
号毎に、検索用キーワードと文書との関連度を算出し、
関連度の高い順に文書番号を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば大量の文書
や文を蓄積した文書データベース、蓄積された文字等の
情報を文書作成や発想展開の支援に用いる各種支援シス
テム等に適用される文書検索技術に係り、特に、入力さ
れた検索用キーワードの他に、その検索用キーワードに
関連する他のキーワードをも検索語に加えて該当する文
書等を検索する文書検索技術に関する。
【0002】
【従来の技術】検索対象となる文書や文(以下、文書と
する)を格納した文書データベース等から所要の文書を
検索するコンピュータ(以下、文書検索装置)におい
て、例えば文書に含まれる検索単語から成るキーワード
のみならず、検索目的に応じて付与された重みも入力す
ることで、検索精度を高めることが試みられている。
【0003】図8は、この種の従来の文書検索装置の構
成図である。この文書検索装置8は、個々の文書に含ま
れるキーワードと当該キーワードに関連する1以上の他
のキーワードとをその関連度とともに格納したシソーラ
ス辞書81と、文書識別情報の一例である文書番号とそ
の重みとをキーワード毎に文書エントリとして格納した
文書エントリ辞書82とを備えている。
【0004】また、上記シソーラス辞書81と文書エン
トリ辞書82とを参照して検索を行うために、シソーラ
ス展開部83、文書関連度決定部84、及び文書エント
リ検索部85を備えている。データ量が大きな文書エン
トリ辞書82については、ハードディスク等の大容量の
補助記憶媒体に記録される。
【0005】シソーラス展開部83は、外部から検索用
キーワードとその重み(例えば重要度に応じて付加され
る数値)の入力を受け付けるとともに、シソーラス辞書
81を参照して、検索用キーワードに対応するキーワー
ドを検索し、検索用キーワードと関連キーワードとの関
連度に当該検索用キーワードの重みを掛け合わせた関連
キーワードの重みを算出する。そして、文書関連度決定
部84に検索用キーワードとその重み、及び関連キーワ
ードとその重みを送る。以後、検索用キーワードとそれ
に対応する関連キーワードとの組をシソーラス展開され
たキーワードと称する。
【0006】文書関連度決定部84は、このシソーラス
展開されたキーワードを文書エントリ検索部85に与え
る。文書エントリ検索部85は、キーワードと文書エン
トリ辞書82内のメモリ領域のアドレスとの対応関係を
記述したアドレステーブル86を保持しており、このア
ドレステーブル86を参照して、シソーラス展開された
キーワードに対応するアドレスをキーワード毎に取得す
る。そして、キーワード毎に取得した文書エントリ辞書
82のアドレスに存する文書エントリを索出するととも
に、それを文書関連決定部84に返信する。文書関連度
決定部84は、文書エントリ検索部85から受け取った
文書エントリ(ここでは文書番号)毎に、文書と検索用
キーワードとの関連度を算出し、これを検索結果として
出力する。
【0007】ここで、文書と検索用キーワードとの関連
度について説明する。前述のように、文書関連度決定部
84は、文書エントリ検索部85からシソーラス展開さ
れたキーワード毎に、対応する文書エントリを取得す
る。これは逆にみれば、文書番号毎に対応する複数のキ
ーワード(シソーラス展開されたキーワード)を取得し
たことを意味する。そして、文書と検索用キーワードと
の関連度は、当該文書番号に対応する一つ以上のキーワ
ードの重みに当該文書番号で表された文書の重みを掛け
合わせて得られる数の総和で与えられる。
【0008】なお、上記関連度の計算、キーワードの重
み、文書中のキーワードの重みは、TF/IDF法等の
アルゴリズムに基づいて決定される。このTF/IDF
法についての詳細については、「Intorduction to Mode
rn Information Retrieval」(Gerald Salton他著、MacG
raw-Hill Publishing Company)の記載を参考にするこ
とができる。
【0009】
【発明が解決しようとする課題】上記従来の文書検索装
置8には、シソーラス辞書81に、個々のキーワードに
ついて多くの関連キーワードが格納されている場合、シ
ソーラス展開部83によって検索されるキーワード数が
多くなり、これに伴って、文書エントリ検索部85が文
書エントリ辞書82において検索するキーワード数が多
くなる傾向があった。また、文書エントリ辞書82が大
容量の補助記憶媒体に記録されている場合、文書エント
リ検索部85が文書エントリ辞書82から文書エントリ
を検索する際に、適当なシーク時間(アクセスを要求し
てからアクセス可能になるまでの時間)が必要となる。
しかし、一般に大容量の補助記憶媒体のシーク動作は非
常に低速であるため、検索速度は、文書エントリ検索部
85に渡されるキーワード数の増加に伴って著しく低下
する問題があった。
【0010】そこで、本発明の課題は、キーワードに関
連する他のキーワードの数が増大した場合であっても検
索速度の低下を防止することができる文書検索方法を提
供することにある。本発明の他の課題は、上記文書検索
方法の実施に適した文書検索装置、及びこの文書検索方
法を汎用のコンピュータを用いて実現するための記録媒
体を提供することにある。
【0011】
【課題を解決するための手段】上記課題を解決する本発
明の文書検索方法は、検索対象となる文書の識別情報、
当該文書に含まれるキーワードと検索目的に応じて当該
キーワードに付与される重み、及び、前記キーワードが
関連する他のキーワードとその関連度を取得して各キー
ワードに対する文書の重みを算出し、算出された重みを
当該文書の識別情報と共にキーワード毎に設定されたメ
モリ領域へ蓄積する段階と、検索用キーワードとその重
みの入力時に前記検索用キーワードに対応するメモリ領
域を参照して当該メモリ領域に存する文書の識別情報と
その重みとを抽出し、該抽出結果に基づいて前記検索用
キーワードに関連する文書の識別情報を関連度順に出力
する段階と、を含むことを特徴としている。
【0012】上記方法において、好ましくは、検索対象
となる文書に含まれるキーワードと該キーワードが関連
する1以上の他のキーワードの関連度とを、前記他のキ
ーワードをもとに逆引きできるように予め編集してお
き、一のキーワードとその重みが入力されたときに、該
入力キーワードが関連するキーワードとその関連度を当
該入力キーワードから逆引きして取得し、取得したキー
ワードとその関連度、及び前記入力キーワードとその重
みから、前記各キーワードに対する文書の重みを算出す
るようにする。
【0013】上記他の課題を解決するため、本発明は、
検索用キーワードと検索目的に応じて当該検索用キーワ
ードに付与された重み、及び、前記検索用キーワードに
関連する1以上の他の関連キーワードとその関連度から
前記検索用キーワードに対する検索対象となる文書の関
連度を決定する文書関連度決定部を有する文書検索装置
において、予め前記文書の識別情報、該文書に含まれる
キーワードと検索目的に応じて当該キーワードに付与さ
れた重み、及び、前記キーワードが関連する他の関連キ
ーワードとその関連度に基づいて算出された当該文書の
重みを当該文書の識別情報と共にキーワード毎に格納し
た拡張文書エントリ辞書を設け、前記文書関連度決定部
が、前記文書の関連度を決定する際に、前記拡張文書エ
ントリ辞書から前記検索用キーワードについて格納され
ている文書の識別情報と当該文書の重みとを抽出し、必
要に応じて前記検索用キーワードとの関連度の高い順に
文書の識別情報を出力する文書検索装置を提供する。
【0014】本発明は、また、検索対象となる文書に含
まれるキーワードと該キーワードが関連する1以上の他
のキーワードの関連度とを前記他のキーワードをもとに
逆引きできるように予め編集されたシソーラス辞書と、
一のキーワードと検索目的に応じて前記一のキーワード
に付与された重みが入力されたときに、該入力キーワー
ドが関連するキーワードとその関連度を前記シソーラス
辞書から逆引きして取得し、取得したキーワードとその
関連度、及び前記入力キーワードとその重みから、前記
各キーワードに対する文書の重みを算出するとともに、
算出された文書の重みと当該文書の識別情報とをキーワ
ード毎に対応付けた拡張文書エントリ辞書を生成する辞
書生成手段と、を備え、検索用キーワードとその重みの
入力時に、前記生成された拡張文書エントリ辞書から前
記検索用キーワードに対応付けられた文書の識別情報と
その重みが抽出されるように構成された文書検索装置を
も提供する。
【0015】後者の文書検索装置において、前記辞書生
成手段は、例えば、キーワードとその重み、及び、前記
キーワードが関連する他のキーワードとその関連度を取
得する度に、各キーワードに対する文書の重みを算出
し、算出された重みを当該文書の識別情報と共に前記拡
張文書エントリ辞書の同一キーワードの設定領域へ連続
的に蓄積するように構成される。
【0016】上記他の課題を解決する本発明の記録媒体
は、下記の処理をコンピュータに実行させるためのプロ
グラムがコンピュータ読取可能な形態で記録された記録
媒体である。 (1)検索対象となる文書の識別情報、当該文書に含ま
れるキーワードと検索目的に応じて当該キーワードに付
与される重み、及び、前記キーワードが関連する他のキ
ーワードとその関連度を取得して各キーワードに対する
文書の重みを算出する処理、 (2)算出された重みを当該文書の識別情報と共にキー
ワード毎に設定された所定のメモリ領域へ蓄積する処
理、 (3)検索用キーワードとその重みの入力時に前記検索
用キーワードに対応する前記メモリ領域を参照して当該
メモリ領域に存する文書の識別情報とその重みとを抽出
し、該抽出結果に基づいて前記検索用キーワードに関連
する文書の識別情報を関連度順に出力する処理。
【0017】好ましくは、さらに、下記の処理もコンピ
ュータに実行させるようにする。 (4)前記検索対象となる文書に含まれるキーワードと
該キーワードが関連する1以上の他のキーワードの関連
度とを、前記他のキーワードをもとに逆引きできるよう
に編集する処理、 (5)一のキーワードとその重みが入力されたときに、
該入力キーワードが関連するキーワードとその関連度を
当該入力キーワードから逆引きして取得し、取得したキ
ーワードとその関連度、及び前記入力キーワードとその
重みから、前記各キーワードに対する文書の重みを算出
する処理。
【0018】
【発明の実施の形態】以下、図面を参照して、本発明の
実施形態を詳細に説明する。図1は、本発明の一実施形
態に係る文書検索装置のブロック構成図である。この文
書検索装置1は、コンピュータによって実現されるもの
で、コンピュータの内部あるいは外部記憶装置内に設け
られる拡張文書エントリ辞書13、シソーラス辞書1
4、逆引きシソーラス辞書15、及び、そのコンピュー
タが所定のプログラムを読み込んで実行することにより
形成される、文書関連度決定部11、文書エントリ検索
部12、逆引きシソーラス辞書作成部16、文書エント
リ登録部17の機能ブロックを備えて構成される。逆引
きシソーラス辞書作成部16は、さらに読み出し処理部
161、キーワード等登録処理部162の機能要素を含
み、文書エントリ登録部17は、検索処理部171、文
書エントリ登録処理部172の機能要素を含んでいる。
符号173,18はアドレステーブルである。また、図
示しないが、装置、検索結果を利用者等に提示するため
の出力装置をも備えている。
【0019】上記プログラムは、通常、上記内部記憶装
置あるいは外部記憶装置に格納され、随時読み取られて
実行されるようになっているが、コンピュータとは分離
可能な記録媒体、例えばCD−ROMやFD等の可搬性
記録媒体、あるいは当該コンピュータ装置と構内ネット
ワークを通じて接続されたプログラムサーバ等に格納さ
れ、使用時に上記内部記憶装置または外部記憶装置にイ
ンストールされて随時実行に供されるものであってもよ
い。
【0020】拡張文書エントリ辞書13には、検索対象
となる文書の文書番号と重みとが文書エントリとして格
納されており、シソーラス辞書14には、キーワードと
それに関連する1以上の他のキーワード(関連キーワー
ド)がその関連度と共に格納されている。逆引きシソー
ラス辞書15は、上記シソーラス辞書14の逆引き情報
を格納するためのものである。
【0021】文書関連度決定部11は、外部から検索用
キーワードとその重みの入力を受け付け、受け付けた検
索用キーワードを文書エントリ検索部12に送る。文書
エントリ検索部12は、予めキーワードと拡張文書エン
トリ辞書13の格納領域のアドレスとの対応関係を記述
したアドレステーブル18を保持しており、文書関連度
決定部11から検索用キーワードを受け取ったとき、こ
のアドレステーブル18を参照して、検索用キーワード
に対応する拡張文書エントリ辞書13から該当の文書エ
ントリを読み出し、これを文書関連度決定部11に返信
する。文書関連度決定部11は、文書エントリ検索部1
2から返信された文書エントリ(ここでは文書番号)毎
に、文書と検索用キーワードとの関連度を算出し、これ
を検索結果として出力する。
【0022】ところで、文書検索装置1において上記文
書検索を行う場合は、拡張文書エントリ辞書13への文
書エントリの登録が完了していることが必要となる。そ
のため、文書検索装置1では、シソーラス辞書14を参
照して逆引きシソーラス辞書作成部16で逆引きシソー
ラス辞書15を作成しておく。そして、文書エントリ登
録部17で、入力されたキーワード及びその重みを上記
逆引きシソラーラス辞書15を用いて拡張文書エントリ
辞書13へ登録する。
【0023】まず、逆引きシソーラス辞書作成部16に
おける処理を図2及び図3を参照して具体的に説明す
る。逆引きシソーラス辞書作成部16は、図2に示すよ
うに、読み出し処理部161においてシソーラス辞書1
4の内容を読み出す。図3(a)は、ここで読み出され
るシソーラス辞書14の内容例を示す図表A1であり、
キーワード「kwd1」に関連する関連キーワードが
「kwd4」と「kwd7」で、「kwd1」との関連
度がそれぞれ“0.8”と“0.4”であることを示し
ている。なお、図3(a)において、キーワード項目は
ハッシュキーであり、関連キーワード項目はハッシュ結
果を示すものである。他の関連キーワードについても同
様な対応関係が与えられる。
【0024】読み出し処理部161は、シソーラス辞書
14から読み出した上記内容に基づいて、関連キーワー
ドからキーワードへの逆の対応関係(逆引きの関係)を
与える。図3(b)は、このような対応関係の一例を示
す図表A2である。つまり、図3(a)によれば、シソ
ーラス辞書14において、キーワード「kwd1」には
関連度が“0.8”の関連キーワード「kwd4」と、
関連度が“0.4”の関連キーワード「kwd7」とが
対応していた。これを逆にみると、関連キーワード「k
wd4」は関連度“0.8”のキーワード「kwd1」
が対応し、関連キーワード「kwd7」は関連度“0.
4”のキーワード「kwd1」に対応したものとなって
いる。図3(b)は、こうした逆の対応関係を示してい
る。
【0025】なお、図3(b)では、一つの関連キーワ
ードに一つのキーワードを対応させている。しかし、一
つの関連キーワード「kwd4」に上記キーワード「k
wd1」のほかに他のキーワード「kwd10」も対応
する場合がある。そこで、キーワード等登録処理部16
2は、このような対応関係を整理して、一の関連キーワ
ードに複数のキーワードが対応する場合は、キーワード
項目に複数のキーワードとその関連度とを格納する。こ
の図表A3から、関連キーワード「kwd4」は、“関
連度”0.8”でキーワード「kwd1」と対応し、関
連度“0.2”でキーワード「kwd10」に対応して
いることがわかる。
【0026】次に、逆引きシソーラス辞書15が作成さ
れた後の文書エントリ登録部17による登録処理を図4
及び図5を参照して説明する。文書エントリ登録部17
は、図4に示すように、登録対象となる文書の文書番号
と、当該文書についてTF/IDF法等により、あるい
は他の手法によって求めたキーワード及び重みとの組を
検索処理部171に入力する。図5(a)は、入力され
たキーワード及びその重みの例を示す図表B11、文書
番号の例を示す図表B12である。図示の例では、文書
番号として“120”、この文書番号“120”の文書
に含まれるキーワード「kwd4」,「kwd5」の重
みが、それぞれ“3”,“2”となっている。
【0027】検索処理部171は、この入力キーワード
「kwd4」,「kwd5」に対応するキーワードを逆
引きシソーラス辞書15から索出し、各キーワード毎の
重みを算出する。このとき、各キーワードの重みは、入
力キーワードについてはその重み、索出されたキーワー
ドについてはキーワード間の関連度に入力キーワードの
重みを掛け合わせたものである。
【0028】例えば、逆引きシソーラス辞書15の内容
が図3(c)で示されたものであるときの検索処理部1
71の検索処理の結果は、図5(b)の図表B2のよう
になる。つまり、図3(c)によれば、入力キーワード
「kwd4」に対応するキーワードは「kwd1」,
「kwd10」である。そして、各キーワード「kwd
1」,「kwd10」の関連度がそれぞれ“0.8”,
“0.2”であるので、これらに入力キーワード「kw
d4」の重み“3”を掛け合わせて、“2.4”,
“0.6”となる。同様にして、他の入力キーワード
「kwd5」についても、キーワード「kwd5」の重
み“2”と、これに関連するキーワード「kwd2」,
「kwd1」の重み“0.8”,“0.2”を算出す
る。
【0029】文書エントリ登録部172は、キーワード
と拡張文書エントリ辞書13の格納領域のアドレスの対
応を示したアドレステーブル173を参照して、キーワ
ード毎に、文書番号と上記重みを登録する。図5(c)
はアドレステーブル173の内容例を示す図表B3であ
る。
【0030】このテーブル173では、キーワード「k
wd1」,「kwd2」,…に、それぞれ拡張文書エン
トリ辞書13の先頭アドレス“1”、“4000”、…
が対応付けられている。つまり、アドレス“1”〜”3
999”がキーワード「kwd1」の領域、“400
0”〜“”がキーワード「kwd2」の領域、…であ
る。文書エントリ登録部172は、図5(d)の図表B
4に示されるように、キーワード「kwd1」の領域に
文書番号“120”と重み“2.4”を文書エントリと
して登録し、キーワード「kwd2」の領域に文書番号
“120”と重み“0.8”を文書エントリとして登録
する。他のキーワード「kwd3」,…についても同様
にして登録を済ませる。
【0031】なお、ここでは関連キーワードからキーワ
ードの検索が可能な逆引きシソーラス辞書15を使用し
たが、既存のシソーラス辞書14を、さらに関連キーワ
ードからキーワード検索が可能になるように作成すれ
ば、逆引きシソーラス辞書15の代わりに両方向からの
検索が可能に作成されたシソーラス辞書14を用いるこ
とができる。
【0032】次に、図6及び図7を参照して、上記文書
検索装置1を用いた文書検索方法について説明する。文
書検索装置1は、文書関連度決定部11において検索用
キーワードとその重みの入力を受け付け(ステップS1
01)、検索用キーワードについては、それを文書エン
トリ検索部12に送る。図7(a)は入力された検索用
キーワードと重みの一例を示す図表C1である。ここに
は、3つの検索用キーワード「kwd1」,「kwd
2」,「kwd5」と、各検索用キーワードの重み
“1”,“2”,“5”が与えられている。この場合、
検索されるのは、これらの3つの検索用キーワードとの
関連度が総合的に高い文書(その識別情報)である。
【0033】文書エントリ検索部12は、アドレステー
ブル18を参照して、検索用キーワードに対応する拡張
文書エントリ辞書13のアドレスからすでに登録された
文書エントリを読み出す(ステップS102)。そし
て、読み出した文書エントリを文書関連度決定部11に
返信する。ここで、アドレステーブル18の内容は、す
でに図5(c)で紹介したアドレステーブル173の内
容を示す図表B3と同一とし、拡張文書エントリ辞書1
3の内容は、図5(d)に示した図表B4と同一とす
る。このとき、図7(a)に示された検索用キーワード
が文書エントリ検索部12に送られると、文書エントリ
検索部12は、アドレステーブル18を参照して、拡張
文書エントリ辞書15におけるキーワード「kwd1」
の領域から、そこに登録された文書エントリ、すなわ
ち、文書番号“24”、“120”、“12”、…とそ
れぞれ文書に与えられた重み“3.4”、“2.4”、
“1.2”を読み出す。
【0034】キーワード「kwd2」についても同様
に、拡張文書エントリ辞書15におけるキーワード「k
wd2」の領域から、そこに登録された文書番号“10
02”、“64”、“120”、…とそれぞれ文書に与
えられた重み“2.4”,“1.2”,“0.8”を読
み出す。キーワード「kwd3」についても同様の処理
を行う。図7(b)は、このようにして文書関連度決定
部11が文書エントリ検索部12を介して取得したキー
ワードとその重み、そして、検索された文書の文書番
号、文書の重みとの対応関係を示した図表C2である。
【0035】文書関連度決定部11は、文書エントリ検
索部12からキーワード毎の文書エントリを受け取った
後、その文書エントリで表された文書番号毎に、文書と
検索用キーワードとの関連度を算出し(ステップS10
3)、関連度の大きなものから順に文書番号を関連度と
ともに検索結果として出力する(ステップS104)。
ステップS104での処理を図7(b)の内容を例に挙
げて説明する。
【0036】いま、文書番号“24”の文書に注目した
とき、重みが“1”のキーワード「kwd1」における
文書番号“24”の文書の重みは“3.4”、重みが
“2”のキーワード「kwd2」における文書番号“2
4”の文書の重みは“1.3”、そして重みが“5”の
キーワード「kwd3」における文書番号“24”の文
書の重みは“0.8”である。こうしてキーワード「k
wd1」からの寄与“3.4”、キーワード「kwd
2」からの寄与“2.6”、キーワード「kwd1」か
らの寄与“4.0”を合算すると全体で“10.0”と
なる。これが文書番号“24”の文書の検索用キーワー
ドに対する関連度である。他の文書についても同様にし
て、文書と検索用キーワードとの関連度が算出される。
【0037】図7(c)は、文書関連度決定部11の検
索結果例を示す図表C3である。ここでは、文書番号
“24”の文書が最も大きな関連度“10.0”をも
ち、文書番号“12”の文書が次に大きな関連度“8.
9”をもつことを示している。以上が文書検索装置1の
検索処理についての説明である。
【0038】拡張文書エントリ辞書13がハードディス
ク等の補助記憶媒体に格納された場合、文書エントリ検
索部12がこの補助記憶媒体にアクセスする際に、適当
なシーク時間を必要とする。そして、検索所要時間は、
おおよそこのシーク時間の合計で決まる。この事実に注
目し、本実施形態による文書検索装置1の方が従来技術
による文書検索装置8より検索速度において向上してい
ることを説明する。
【0039】なお、説明を簡単にするため、シソーラス
辞書81,14には、それぞれキーワードとして唯一の
キーワード「kwd」と、それに関連する他のキーワー
ドとしてn個のキーワード「kwd1」〜「kwdn」
があるものとする。また、文書エントリ辞書81にはキ
ーワード「kwd」、「kwd1」〜「kwdn」のそ
れぞれについて文書エントリがm個登録され、拡張文書
エントリ辞書13にはキーワード「kwd」に対して文
書エントリが(n+1)・m個登録されているものとす
る。さらに文書エントリ辞書81と拡張文書エントリ辞
書13に対する文書エントリ検索部85,12のシーク
時間をいずれもt1とし、文書エントリ辞書81と拡張
文書エントリ辞書13から一つの文書エントリを読み出
すのに必要な時間をいずれもt2とする。
【0040】このとき、キーワード「kwd」を検索用
キーワードとしたとき、従来の文書検索装置8において
検索に要する時間を算出する。この場合、シソーラス展
開部83から文書関連度決定部84に渡されるキーワー
ド数(=キーワード「kwd」についてシソーラス展開
したときのキーワードの数)は、n+1個である。この
n+1個のそれぞれについて、文書エントリ辞書81か
らm個の文書番号を読み出すことになるが、一つのキー
ワードについて必要なシーク時間はt1+mt2なの
で、シーク時間の合計は、(n+1)・(t1+mt
2)(=T1)となる。これが文書検索装置7の検索所
要時間である。
【0041】一方、本実施形態の文書検索装置1におけ
る検索所要時間を算出する。この場合、文書関連度決定
部11から文書エントリ検索部12に渡されるキーワー
ド「kwd」は一個である。従って、このキーワード
「kwd」について、シーク時間の合計はt1+(n+
1)・mt2(=T2)となる。こうしてT1−T2=
nt1>0が導かれる。
【0042】なお、本実施形態では、シソーラス辞書8
1とシソーラス辞書14にキーワードとして唯一のキー
ワード「kwd」、それに関連する関連キーワードとし
て「kwd1」〜「kwdn」があるような簡単な場合
を説明したが、より複雑な場合にも同様な計算を行うこ
とで、本実施形態による文書検索装置1が文書検索装置
8より検索速度において向上していることを確認するこ
とができる。
【0043】また、拡張文書エントリ辞書13は、文書
エントリ辞書81と比べて登録された文書エントリが増
大するが、各文書エントリをキーワード毎の領域に連続
して蓄積(登録)しているので、文書エントリの取得時
に補助記憶媒体から連続的にこれを読み出すことがで
き、実質的な速度の低下は防止されている。また、拡張
文書エントリ辞書13から一つの文書エントリを取得す
る際のシーク動作は、文書エントリ辞書81に対するシ
ーク時間と等しいから、シーク動作が少ない分だけ、処
理速度を短縮させることができる。
【0044】また、本実施形態では、文書エントリ検索
部12及び文書エントリ登録処理部172に、それぞれ
図5(c)の図表B3に示した内容のアドレステーブル
18,173を備えた例を示したが、このアドレステー
ブル18,173は、文書エントリ検索部12や文書エ
ントリ処理部172ではなく、拡張文書エントリ辞書1
3に共通に備えておくこともできる。あるいはアドレス
テーブル18,173自体を省略することもできる。
【0045】さらに、本発明は、文の検索にも応用する
ことができる。このときには、拡張文書エントリ辞書1
5に格納する際に、文書番号の代わりに文を識別するた
めの番号を使用すればよい。
【0046】
【発明の効果】以上の説明から明らかなように、本発明
によれば、シソーラス展開したキーワード数が増大した
場合にも、従来のように改めてシソーラス展開する必要
がないので、文書の検索所要速度を向上させることがで
きる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態による文書検索装置のブロ
ック構成図。
【図2】逆引きシソーラス辞書作成部の詳細構成図。
【図3】(a)〜(c)は逆引きシソーラス辞書の作成
過程での具体例を示す図表。
【図4】文書エントリ登録部の詳細構成図。
【図5】(a)〜(d)は文書エントリ登録処理過程で
の具体例を示す図表。
【図6】文書検索装置を用いた文書検索方法の手順説明
図。
【図7】(a)〜(c)は本実施形態による文書検索の
際の具体例を示す図表。
【図8】従来の文書検索装置のブロック構成図。
【符号の説明】
1、8 文書検索装置 11、84 文書関連度決定部 12 文書エントリ検索部 13 拡張文書エントリ辞書 14、81 シソーラス辞書 15 逆引きシソーラス辞書 16 逆引きシソーラス辞書作成部 17 文書エントリ登録部 82 文書エントリ辞書 83 シソーラス展開部 85 文書エントリ検索部 161 読み出し処理部 162 キーワード等登録処理部 171 検索処理部 172 文書エントリ登録処理部 18、173 アドレステーブル

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータを用いた文書検索方法であ
    って、検索対象となる文書の識別情報、当該文書に含ま
    れるキーワードと検索目的に応じて当該キーワードに付
    与される重み、及び、前記キーワードが関連する他のキ
    ーワードとその関連度を取得して各キーワードに対する
    文書の重みを算出し、算出された重みを当該文書の識別
    情報と共にキーワード毎に設定されたメモリ領域へ蓄積
    する段階と、 検索用キーワードとその重みの入力時に前記検索用キー
    ワードに対応するメモリ領域を参照して当該メモリ領域
    に存する文書の識別情報とその重みとを抽出し、該抽出
    結果に基づいて前記検索用キーワードに関連する文書の
    識別情報を関連度順に出力する段階と、を含むことを特
    徴とする文書検索方法。
  2. 【請求項2】 前記検索対象となる文書に含まれるキー
    ワードと該キーワードが関連する1以上の他のキーワー
    ドの関連度とを、前記他のキーワードをもとに逆引きで
    きるように予め編集しておき、一のキーワードとその重
    みが入力されたときに、該入力キーワードが関連するキ
    ーワードとその関連度を当該入力キーワードから逆引き
    して取得し、取得したキーワードとその関連度、及び前
    記入力キーワードとその重みから、前記各キーワードに
    対する文書の重みを算出することを特徴とする請求項1
    記載の文書検索方法。
  3. 【請求項3】 検索用キーワードと検索目的に応じて当
    該検索用キーワードに付与された重み、及び、前記検索
    用キーワードに関連する1以上の他のキーワードとその
    関連度から前記検索用キーワードに対する検索対象とな
    る文書の関連度を決定する文書関連度決定部を有する文
    書検索装置において、 予め前記文書の識別情報、該文書に含まれるキーワード
    と検索目的に応じて当該キーワードに付与された重み、
    及び、前記キーワードが関連する他のキーワードとその
    関連度に基づいて算出された当該文書の重みを当該文書
    の識別情報と共にキーワード毎に格納した拡張文書エン
    トリ辞書を備え、 前記文書関連度決定部が、前記文書の関連度を決定する
    際に、前記拡張文書エントリ辞書から前記検索用キーワ
    ードについて格納されている文書の識別情報と当該文書
    の重みとを抽出することを特徴とする文書検索装置。
  4. 【請求項4】 前記文書関連度決定部は、前記検索用キ
    ーワードとの関連度の高い順に文書の識別情報を出力す
    ることを特徴とする請求項3記載の文書検索装置。
  5. 【請求項5】 検索対象となる文書に含まれるキーワー
    ドと該キーワードが関連する1以上の他のキーワードの
    関連度とを前記他のキーワードをもとに逆引きできるよ
    うに予め編集されたシソーラス辞書と、 一のキーワードと検索目的に応じて前記一のキーワード
    に付与された重みが入力されたときに、該入力キーワー
    ドが関連するキーワードとその関連度を前記シソーラス
    辞書から逆引きして取得し、取得したキーワードとその
    関連度、及び前記入力キーワードとその重みから、前記
    各キーワードに対する文書の重みを算出するとともに、
    算出された文書の重みと当該文書の識別情報とをキーワ
    ード毎に対応付けた拡張文書エントリ辞書を生成する辞
    書生成手段と、を備え、 検索用キーワードとその重みの入力時に、前記生成され
    た拡張文書エントリ辞書から前記検索用キーワードに対
    応付けられた文書の識別情報とその重みが抽出されるよ
    うに構成された文書検索装置。
  6. 【請求項6】 前記辞書生成手段は、キーワードとその
    重み、及び、前記キーワードが関連する他のキーワード
    とその関連度を取得する度に、各キーワードに対する文
    書の重みを算出し、算出された重みを当該文書の識別情
    報と共に前記拡張文書エントリ辞書の同一キーワードの
    設定領域へ連続的に蓄積することを特徴とする請求項4
    記載の文書検索装置。
  7. 【請求項7】 検索対象となる文書の識別情報、当該文
    書に含まれるキーワードと検索目的に応じて当該キーワ
    ードに付与される重み、及び、前記キーワードが関連す
    る他のキーワードとその関連度を取得して各キーワード
    に対する文書の重みを算出する処理、 算出された重みを当該文書の識別情報と共にキーワード
    毎に設定された所定のメモリ領域へ蓄積する処理、 検索用キーワードとその重みの入力時に前記検索用キー
    ワードに対応する前記メモリ領域を参照して当該メモリ
    領域に存する文書の識別情報とその重みとを抽出し、該
    抽出結果に基づいて前記検索用キーワードに関連する文
    書の識別情報を関連度順に出力する処理、をコンピュー
    タに実行させるためのプログラムを当該コンピュータが
    読取可能な形態で記録してなる記録媒体。
  8. 【請求項8】 前記プログラムが、さらに、前記検索対
    象となる文書に含まれるキーワードと該キーワードが関
    連する1以上の他のキーワードの関連度とを、前記他の
    キーワードをもとに逆引きできるように編集する処理、 一のキーワードとその重みが入力されたときに、該入力
    キーワードが関連するキーワードとその関連度を当該入
    力キーワードから逆引きして取得し、取得したキーワー
    ドとその関連度、及び前記入力キーワードとその重みか
    ら、前記各キーワードに対する文書の重みを算出する処
    理を、コンピュータに実行させることを特徴とする請求
    項7記載の記録媒体。
JP9330453A 1996-12-04 1997-12-01 文書検索方法、装置及び記録媒体 Pending JPH10222540A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9330453A JPH10222540A (ja) 1996-12-04 1997-12-01 文書検索方法、装置及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-323731 1996-12-04
JP32373196 1996-12-04
JP9330453A JPH10222540A (ja) 1996-12-04 1997-12-01 文書検索方法、装置及び記録媒体

Publications (1)

Publication Number Publication Date
JPH10222540A true JPH10222540A (ja) 1998-08-21

Family

ID=26571284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9330453A Pending JPH10222540A (ja) 1996-12-04 1997-12-01 文書検索方法、装置及び記録媒体

Country Status (1)

Country Link
JP (1) JPH10222540A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005310094A (ja) * 2003-10-06 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム
US7240051B2 (en) 2003-03-13 2007-07-03 Hitachi, Ltd. Document search system using a meaning relation network
JP2011513819A (ja) * 2008-02-25 2011-04-28 アティジオ エルエルシー 電子プロファイルの開発、格納、使用、およびそれらに基づいてアクション行うためのシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240051B2 (en) 2003-03-13 2007-07-03 Hitachi, Ltd. Document search system using a meaning relation network
JP2005310094A (ja) * 2003-10-06 2005-11-04 Nippon Telegr & Teleph Corp <Ntt> キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム
JP2011513819A (ja) * 2008-02-25 2011-04-28 アティジオ エルエルシー 電子プロファイルの開発、格納、使用、およびそれらに基づいてアクション行うためのシステム

Similar Documents

Publication Publication Date Title
KR100572797B1 (ko) 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체
US5745745A (en) Text search method and apparatus for structured documents
US5995962A (en) Sort system for merging database entries
US20070136243A1 (en) System and method for data indexing and retrieval
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP3883622B2 (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
JP2002207760A (ja) 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2850952B2 (ja) 文書検索方法および装置
JPH06274541A (ja) 文献検索システム
JPH10222540A (ja) 文書検索方法、装置及び記録媒体
JPH0944523A (ja) 関連語提示装置
JPH05324719A (ja) 文書検索システム
JPH06251076A (ja) データ・ベース検索装置および方法
JP2002132789A (ja) 文書検索方法
JP3816680B2 (ja) 文書検索装置、文書検索方法及び該方法を実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JPH02253474A (ja) テキストベース検索方法
JP2001243230A (ja) 類似性判別方法
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JPH0635971A (ja) 文書検索装置
JPH09212523A (ja) 全文検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH05165889A (ja) 文書検索装置
JPH07262198A (ja) 文書検索装置
Wouda Similarity between Index Expressions