JPH1145268A - 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1145268A
JPH1145268A JP9201985A JP20198597A JPH1145268A JP H1145268 A JPH1145268 A JP H1145268A JP 9201985 A JP9201985 A JP 9201985A JP 20198597 A JP20198597 A JP 20198597A JP H1145268 A JPH1145268 A JP H1145268A
Authority
JP
Japan
Prior art keywords
document
word
search
index
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9201985A
Other languages
English (en)
Inventor
Sumio Fujita
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP9201985A priority Critical patent/JPH1145268A/ja
Publication of JPH1145268A publication Critical patent/JPH1145268A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索によって得た文書から検索用のシソーラ
ス辞書の索引語の関連語または類義語を自動的に抽出し
て登録できるようにすること。 【解決手段】 検索サーバ103は、意味体系に従って
分類項目となる索引語を分類すると共に、関連語や類義
語を該当する索引語にそれぞれ関連づけして記憶したシ
ソーラス辞書105と、クライアント100で索引語が
選択されると、選択された索引語およびその関連語や類
義語を検索条件として検索処理を行うと共に、検索結果
の文書から名詞句を抽出し、抽出した名詞句に対し、選
択された文書および検索対象の文書群における出現頻度
および分布等の統計情報に応じたスコアを付与し、予め
設定された選択条件に該当するスコアの名詞句を選択す
る検索ソフト107と、選択した名詞句を該当する索引
語の関連語または類義語としてシソーラス辞書105に
登録する辞書管理ソフト106と、を備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索によって得た
文書から検索用のシソーラス辞書の索引語の関連語また
は類義語を自動的に抽出して登録できるようにした文書
検索装置およびその装置としてコンピュータを機能させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体に関する。
【0002】
【従来の技術】複数の文書を格納した文書DB(データ
ベース)から特定の文書を検索する文書検索装置は、一
般に、検索式や検索文等の検索条件を入力し、入力した
検索条件に該当する文書を文書DBから検索するもので
ある。
【0003】ところで、上記文書検索装置では、入力し
た検索条件に基づいて検索を行うため、検索条件の語彙
そのものではなく、検索条件中の語彙に関連する語彙を
用いて記述された文書については、入力した検索条件に
該当せず、検索結果に漏れが生じることがあった。
【0004】そこで、検索用のシソーラス辞書を予め用
意しておき、入力した検索条件を索引語として、該当す
る関連語や類義語をシソーラス辞書から抽出し、入力し
た検索条件にシソーラス辞書から抽出した関連語や類義
語を加えて検索を行うことにより、検索結果に漏れが生
じることを防止した文書検索装置が提案されている。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の技術においては、検索用のシソーラス辞書を人手で
生成しているため、常に最新の類義語が登録されている
状態でシソーラス辞書を管理することは困難であるとい
う問題点があった。特に、先端技術に関しては、常に新
しい用語が次々と生まれてくるため、新たな用語を収集
し、シソーラス辞書に登録する作業を継続的に行うこと
は困難であった。そして、シソーラス辞書への登録を怠
れば、いくらシソーラス辞書を用いて検索を行ったとし
ても、常に高い精度の検索結果を得ることは不可能であ
るという問題点があった。
【0006】本発明は上記に鑑みてなされたものであっ
て、検索によって得た文書から検索用のシソーラス辞書
の索引語の関連語または類義語を自動的に抽出して登録
できるようにすることにより、シソーラス辞書を管理す
るための労力の軽減を図ることを目的とする。
【0007】また、本発明は上記に鑑みてなされたもの
であって、シソーラス辞書を常に最新の関連語および類
義語が登録された状態に保つことができるようにするこ
とにより、精度の高い検索結果を得ることができるよう
にすることを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の文書検索装置は、検索条件に基づいて、
検索対象の文書群から該当する文書を検索する文書検索
装置において、意味体系に従って分類項目となる索引語
を分類すると共に、前記索引語の関連語および/または
類義語を前記分類した索引語にそれぞれ関連づけして記
憶した関連語・類義語辞書と、前記関連語・類義語辞書
の少なくとも索引語を画面表示する索引語表示手段と、
前記索引語表示手段で画面表示された索引語を選択する
ための索引語選択手段と、前記索引語選択手段を介して
索引語が選択されると、選択された索引語および前記索
引語に関連づけられた関連語および/または類義語を前
記検索条件として、該当する文書を検索する検索手段
と、前記検索手段で検索した文書の一覧を表示する一覧
表示手段と、前記一覧表示手段で表示された文書を選択
するための文書選択手段と、前記文書選択手段を介して
選択された文書から名詞句を抽出する名詞句抽出手段
と、前記名詞句抽出手段で抽出した名詞句に対し、前記
選択手段で選択した文書および検索対象の文書群におけ
る出現頻度および分布等の統計情報に応じたスコアを付
与し、予め設定された選択条件に該当するスコアの名詞
句を選択する名詞句選択手段と、前記名詞句選択手段で
選択した名詞句を該当する索引語の関連語または類義語
として前記関連語・類義語辞書に登録する辞書登録手段
と、を備えたものである。
【0009】また、請求項2の文書検索装置は、請求項
1に記載の文書検索装置において、前記辞書登録手段
が、登録しようとする名詞句が既に該当する索引語の関
連語または類義語として前記関連語・類義語辞書中に存
在する場合、前記存在する関連語または類義語に正の重
みを付与し、前記検索手段が、前記関連語または類義語
に付与された重みを用いて、該当する文書の検索を行う
ものである。
【0010】また、請求項3の文書検索装置は、請求項
1または2に記載の文書検索装置において、前記文書選
択手段が、前記一覧表示手段で一覧表示された文書を選
択する際に、前記索引語に適合する文書に対して正の重
み付けを指定を行うことが可能であると共に、前記索引
語に適合しない文書に対して負の重み付けの指定を行う
ことが可能であり、前記辞書登録手段が、前記正の重み
付けが指定された文書から得た名詞句に正の重みを付与
すると共に、前記負の重み付けが指定された文書から得
た名詞句に負の重みを付与して該当する索引語の関連語
または類義語として前記関連語・類義語辞書に登録し、
前記検索手段が、前記関連語または類義語に付与された
重みを用いて、該当する文書の検索を行うものである。
【0011】さらに、請求項4のコンピュータ読み取り
可能な記録媒体は、前記請求項1〜3のいずれか1つに
記載の文書検索装置の各手段としてコンピュータを機能
させるためのプログラムを記録したものである。
【0012】
【発明の実施の形態】以下、本発明の文書検索装置およ
びその装置としてコンピュータを機能させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
の一実施の形態について、添付の図面を参照しつつ詳細
に説明する。
【0013】図1は、本実施の形態の文書検索装置のシ
ステム構成図である。図1に示す文書検索装置は、後に
詳細に説明するシソーラス辞書105中の索引語を選択
することにより、文書の検索処理の実行を指定する機能
を有する複数のクライアント100と、シソーラス辞書
105,シソーラス辞書105を管理する辞書管理ソフ
ト106,および文書DB(データベース)101中の
文書を用いて転置ファイル102を生成すると共に、ベ
クトル空間法を利用した検索エンジン(例えば、CLA
RITECH社のCLARIT等)を用いることによ
り、クライアント100で選択されたシソーラス辞書1
05中の索引語に基づいて、転置ファイル102から該
当する文書を検索し、さらに、検索結果の文書からシソ
ーラス辞書105の索引語の関連語または類義語を抽出
する検索ソフト107を備えた検索サーバ103と、上
記クライアント100や検索サーバ103等を接続する
ネットワーク104と、から構成されている。
【0014】図1において、文書DB101は、クライ
アント100等で作成された複数の文書を格納したもの
であり、格納される文書は、ワープロ文書や、SGM
L,HTML等の構造化文書等、いかなる種類の文書で
あっても良い。本実施の形態においては、文書DB10
1に格納された文書を検索対象とするが、検索対象を文
書DB101中の文書に限定するものではない。
【0015】転置ファイル102は、文書DB101中
の複数の文書と、これら複数の文書それぞれから後述す
る方法で抽出した複数の索引語との関係を規定すること
により、ある索引語が各文書それぞれにおいてどの程度
重要な語彙であるかをベクター表現を用いて示したもの
であって、この索引語を用いて該当する文書を検索する
ことができるようにしたものである。
【0016】具体的には、1つの文書を複数のセンテン
スからなるサブドキュメント単位に区切り、サブドキュ
メントから上記索引語となる名詞句を抽出して、抽出し
た名詞句それぞれについて、サブドキュメント中の出現
頻度,文書DB101全体における分布等の統計情報を
求め、求めた名詞句毎の統計情報を用いて各サブドキュ
メントをベクター表現に変換する。そして、変換したサ
ブドキュメントのベクター表現に基づいて、文書のベク
ター表現を生成する。転置ファイル102は、このよう
にしてベクター表現された文書DB101中の文書を格
納するものである。
【0017】なお、各索引語には、対応する文書中の重
要度に応じた重み付けを行うことができる。また、文書
のベクター表現については、実際の検索を行う際に、サ
ブドキュメントのベクター表現に基づいて生成すること
にしても良い。
【0018】クライアント100および検索サーバ10
3は、パーソナルコンピュータやワークステーション等
によって構成される。
【0019】図2は、検索サーバ103におけるシソー
ラス辞書105の内容を画面表示した様子の一例を示す
説明図である。シソーラス辞書105は、意味体系に従
って分類項目となる索引語を分類すると共に、索引語の
関連語および/または類義語を分類した索引語にそれぞ
れ関連づけして記憶したものである。図2に示したシソ
ーラス辞書105は、例として、新聞記事の記事分類に
従い、階層構造となるように索引語を分類したものであ
り、フォルダ(またはディレクトリ)名のようにして表
示されているものが索引語に該当する。また、ある索引
語とその下位にある索引語とは、下位の索引語が上位の
索引語の関連語または類義語となる。
【0020】図2において、索引語「交通事故」につい
て考えると、索引語「交通事故」は、索引語「社会面記
事」の関連語となり(図2の左側の部分を参照)、下位
の索引語「人身事故」,「物損事故」,「保険」は、そ
れぞれ索引語「交通事故」の関連語または類義語となっ
ている(図2の右側の部分を参照)。さらに、索引語
「交通事故」には、図2の右側の部分に示すように、
「衝突」,「死傷者」,「追突」,「脇見」,「飲
酒」,「業務上過失致死」等が関連語または類義語とし
て関連づけられている。なお、関連語および類義語に
は、索引語に対する関連性や類似性に応じて、それぞれ
重みが付されており、付された重みを文書の検索の際に
用いることができるようになっている。
【0021】このシソーラス辞書105は、辞書管理ソ
フト106を介してクライアント100からアクセスで
きるようになっており、図2は、クライアント100で
シソーラス辞書105の内容を画面表示した様子であ
る。クライアント100においては、検索したい文書が
該当する索引語を探し、その索引語を図示しないマウス
等で選択することにより、選択した索引語に関連づけら
れた関連語および/または類義語を用いた検索の実行を
指定することができる。
【0022】また、図3は、検索サーバ103におい
て、検索ソフト107の処理を示す概略ブロック図であ
る。検索ソフト107は、文書DB101中の文書を転
置ファイル102に登録する処理と、ベクトル空間法を
利用した検索処理と、検索結果の文書からシソーラス辞
書105中の索引語の関連語または類義語を抽出する処
理を行うものである。
【0023】検索ソフト107において、転置ファイル
102に登録する処理は、自然言語処理モジュール30
0と、データベース・ビルド・コンポーネント304と
によって行われる。
【0024】具体的に、自然言語処理モジュール300
は、文書DB101から文書を入力し、文書のフォーマ
ットの認識処理や、品詞情報等を格納した辞書301お
よび各単語の係り受け等を解析するための文法辞書30
2を用いて形態素解析,構文解析,名詞句抽出等の解析
処理を行い、上述したサブドキュメント毎の名詞句リス
トを含むドキュメント・セット303を生成する。
【0025】データベース・ビルドコンポーネント30
4は、自然言語処理モジュール300で生成したドキュ
メント・セット303を入力し、入力したドキュメント
・セット303中の各サブドキュメントを上述したよう
にしてベクター表現に変換すると共に、サブドキュメン
トのベクター表現に基づいて、文書のベクター表現を生
成して転置ファイル102に登録する。
【0026】また、検索ソフト107において、文書の
検索処理は、自然言語処理モジュール300と、クエリ
ー・ビルド・コンポーネント305と、検索エンジン3
07とによって行われる。
【0027】具体的に、自然言語処理モジュール300
は、辞書管理ソフト106を介して、クライアント10
0で選択されたシソーラス辞書105中の索引語とその
索引語に関連づけられた関連語および/または類義語を
検索条件として入力し、入力した検索条件の索引語・関
連語または類義語毎にドキュメント・セット303を生
成する。
【0028】クエリー・ビルド・コンポーネント305
は、ドキュメント・セット303を入力し、索引語,関
連語または類義語について、文書DB101(転置ファ
イル102)全体における分布等の統計情報を求め、求
めた統計情報と上記重みを用いてドキュメント・セット
303をベクター表現に変換したクエリー・ドキュメン
ト306を生成する。
【0029】検索エンジン307は、クエリー・ビルド
・コンポーネント305で生成したクエリー・ドキュメ
ント306を入力し、転置ファイル102中の各文書の
ベクター表現とクエリー・ドキュメント306(索引
語,関連語または類義語のベクター表現)とを比較し
て、クエリー・ドキュメント306との類似度に応じた
スコアを各文書に付与し、所定の閾値を超えるスコアが
付与された文書リスト308を検索結果として出力す
る。
【0030】さらに、検索ソフト107において、シソ
ーラス辞書105に登録する関連語または類義語の抽出
処理は、自然言語処理モジュール300と、シソーラス
抽出エンジン309とによって行われる。
【0031】具体的に、自然言語処理モジュール300
は、上述した検索処理の結果に基づいて、クライアント
100で選択された文書を文書DB101から入力し、
入力した文書について、フォーマットの認識処理や、品
詞情報等を格納した辞書301および各単語の係り受け
等を解析するための文法辞書302を用いて形態素解
析,構文解析,名詞句抽出等の解析処理を行い、上述し
たサブドキュメント毎の名詞句リストを含むドキュメン
ト・セット303を生成する。
【0032】シソーラス抽出エンジン310は、自然言
語処理モジュール300で生成したドキュメント・セッ
ト303を入力し、入力したドキュメント・セット30
3中の各名詞句それぞれについて、各文書(ドキュメン
ト・セット303)中の出現頻度や文書DB101(転
置ファイル102)中の分布等の統計データを演算し、
演算した統計データに基づいて、各名詞句にスコアを付
与する。そして、予め設定した閾値を超えるスコアの名
詞句を選択してシソーラスリスト310を生成し、辞書
管理ソフト106に出力する。
【0033】そして、辞書管理ソフト106は、検索ソ
フト103からシソーラスリスト310を入力し、シソ
ーラスリスト310中の名詞句を、検索を開始する際に
クライアント100で選択された索引語の関連語または
類義語としてシソーラス辞書105に登録する。
【0034】なお、図1においては、文書DB101お
よび転置ファイル102をネットワーク104に単独に
接続した構成を示したが、これらを検索サーバ103に
直接接続する構成としても良い。また、図1において
は、本実施の形態の文書検索装置をネットワーク104
を介したシステムで構成するように示したが、クライア
ント100と検索サーバ103の処理を1つのコンピュ
ータで行うようにすることもできる。
【0035】次に、上述した構成を備えた文書検索装置
の動作について、(1)転置ファイルの生成処理,
(2)文書の検索処理,(3)シソーラス辞書への登録
処理の順で詳細に説明する。
【0036】(1)転置ファイルの生成処理 図4は、転置ファイルの生成処理を示すフローチャート
である。検索サーバ103は、新たな文書が文書DB1
01に登録された場合(S401)、この文書を入力し
て転置ファイル102に登録するための処理を開始する
(S402)。
【0037】検索サーバ103において、自然言語処理
モジュール300は、ステップS402で入力した文書
を解析する処理を行う(S403)。具体的には、入力
した文書がワープロ文書,HTML等の構造化文書等、
いかなるフォーマットの文書であるかを判定する処理を
行う。その後、辞書301および文法辞書302を用い
て形態素解析,係り受け等の構文解析を行い、文書を複
数のサブドキュメントに区分すると共に、区分したサブ
ドキュメントから名詞句を抽出する等の処理を行う。
【0038】そして、自然言語処理モジュール300
は、ステップS403における処理の結果に基づいて、
サブドキュメント毎に名詞句リストを生成し、生成した
名詞句リストを含むドキュメント・セット303を生成
する(S404)。
【0039】その後、データベース・ビルド・コンポー
ネント304は、自然言語処理モジュール300で生成
したドキュメント・セット303を入力し、文書のベク
ター表現を生成して転置ファイル102に登録する処理
を行う(S405)。
【0040】具体的には、ドキュメント・セット303
中のサブドキュメントの各名詞句を転置ファイル102
の索引語として、サブドキュメント中の出現頻度,文書
DB101全体における分布等の統計情報を求め、求め
た名詞句毎の統計情報を用いてサブドキュメントをベク
ター表現に変換する。この処理をドキュメント・セット
303中の全てのサブドキュメントについて行い、変換
したサブドキュメントのベクター表現に基づいて、文書
のベクター表現を生成して転置ファイル102に登録す
る。その結果、文書DB101に新たに登録された文書
が転置ファイル102に登録されることになる。
【0041】(2)文書の検索処理 続いて、上述したようにして生成した転置ファイル10
2に基づいて、文書DB101中から特定の文書を検索
するための処理について説明する。図5は、文書の検索
処理を示すフローチャートである。
【0042】ユーザは、クライアント100を操作し
て、検索サーバ103の辞書管理ソフト107にシソー
ラス辞書105の内容の表示を要求する。その結果、ク
ライアント100に図2に示したシソーラス辞書105
の内容が画面表示される。
【0043】そこで、ユーザは、シソーラス辞書105
中の索引語を参照し、検索によって得たい文書が該当す
る索引語を選択する。すなわち、この索引語は、検索条
件の役割を果たすことになる。辞書管理ソフト107
は、クライアント100で索引語が選択されると(S5
01)、該当する関連語および/または類義語を検索条
件として検索ソフト107に出力する(S502)。
【0044】例えば、図2に示した「交通事故」という
索引語がクライアント100によって選択されたとする
と、辞書管理ソフト106は、索引語「交通事故」と、
索引語「交通事後」の関連語および/類義語を検索条件
として検索ソフト107に出力することになる。
【0045】検索ソフト107は、辞書管理ソフト10
6から検索条件を入力し、自然言語処理モジュール30
0において、検索条件を構成する上記索引語,関連語お
よび/または類義語毎にドキュメント・セット303を
生成する(S503)。
【0046】続いて、クエリー・ビルド・コンポーネン
ト305は、自然言語処理モジュール300からドキュ
メント・セット303を入力し、索引語,関連語または
類義語について、文書DB101(転置ファイル10
2)全体における分布等の統計情報を求め、求めた統計
情報とそれらに付与された重みを用いてドキュメント・
セット303をベクター表現に変換したクエリー・ドキ
ュメント306を生成する(S504)。
【0047】検索エンジン307は、クエリー・ビルド
・コンポーネント305で生成したクエリー・ドキュメ
ント306を入力し、転置ファイル102中の各文書の
ベクター表現とクエリー・ドキュメント306(索引
語,関連語または類義語のベクター表現)とを比較し
て、クエリー・ドキュメント306との類似度に応じた
スコアを各文書に付与する(S505)。すなわち、ベ
クトル空間法を用いた検索処理が行われる。
【0048】なお、類似度に応じたスコアは、各文書と
クエリー・ドキュメント306との類似度を余弦距離に
基づいて表現したものであり、スコアが大きい文書がよ
りクエリー・ドキュメント306と類似していることを
表している。
【0049】そして、検索エンジン307は、予め設定
されたスコアの閾値に基づいて、閾値を超えるスコアが
付与された文書を選択し、選択した文書に基づいて、文
書リスト308を生成し、クライアント100に出力す
る(S506)。
【0050】クライアント100は、検索サーバ103
から文書リスト308を入力し、入力した文書リスト3
08に基づいて、上位のランキングの文書から順に、該
当する索引語に関連づけて文書一覧を表示する(S50
7)。クライアント100のユーザは、一覧表示された
文書から所望の文書を選択することにより、その文書を
画面表示することができる。
【0051】(3)シソーラス辞書への登録処理 さらに、検索結果の文書から名詞句を抽出してシソーラ
ス辞書へ登録する処理について説明する。図6は、シソ
ーラス辞書への登録処理を示すフローチャートである。
【0052】クライアント100のユーザは、画面表示
された文書一覧から検索結果としてふさわしい文書(選
択したシソーラス辞書105中の索引語に適合する文
書)を選択し、選択した文書を検索結果として検索サー
バ103に出力する。検索サーバ103の検索ソフト1
05は、クライアント100から検索結果を入力すると
(S601)、検索結果に該当する文書を文書DB10
1から入力する(S602)。
【0053】文書DB101から文書を入力すると、自
然言語処理モジュール200は、入力した文書毎に、フ
ォーマットの認識処理や、品詞情報等を格納した辞書2
01および各単語の係り受け等を解析するための文法辞
書202を用いて形態素解析,構文解析,名詞句抽出等
の解析処理を行う(S603)。
【0054】その後、ステップS603における解析処
理の結果に基づいて、サブドキュメント毎の名詞句リス
トを含むドキュメント・セット204を1文書を単位と
して生成する(S604)。
【0055】シソーラス抽出エンジン309は、自然言
語処理モジュール200で生成したドキュメント・セッ
ト204を入力し、入力したドキュメント・セット20
4中の各名詞句それぞれについて、各文書(ドキュメン
ト・セット204)中の出現頻度や文書DB101(転
置ファイル102)中の分布等の統計データを演算する
(S605)。
【0056】ステップS605で統計データを演算した
後、シソーラス抽出エンジン309は、求めた統計デー
タに基づいて、各名詞句に対してスコア付けを行う(S
606)。このスコアは、文書における各名詞句の重要
性および検索を行う際に選択された索引語に対する関連
性または類似性を表すもので、スコアが大きいもの程、
重要性および関連性または類似性が高いことを表してい
る。
【0057】シソーラス抽出エンジン309は、ステッ
プS606で行ったスコア付けの結果に基づいて、予め
設定された閾値を超えるスコアの名詞句を、クライアン
ト100で選択された索引語(図5のステップS501
参照)の関連語または類義語として抽出する(S60
7)。なお、ここでは、名詞句を抽出する条件として閾
値を用いることにしたが、閾値に代えて、例えば、上位
5番までのスコアの名詞句を抽出することにしても良
い。
【0058】その後、シソーラス抽出エンジン309
は、ステップS607で抽出した名詞句のリストである
シソーラスリスト310を生成して、辞書管理ソフト1
06に出力する(S608)。
【0059】辞書管理ソフト106は、検索ソフト10
7からシソーラスリスト310を入力し、入力したシソ
ーラスリスト310中の名詞句を該当する索引語の関連
語または類義語として、シソーラス辞書105に登録す
る(S609)。
【0060】なお、辞書管理ソフト106は、登録しよ
うとする名詞句が該当する索引語の関連語または類義語
として既にシソーラス辞書105中に存在する場合に
は、存在する関連語または類義語に正の重みを付与す
る。したがって、検索を行う際に、これらの関連語また
は類義語を含む文書がヒットする率が高められる。
【0061】また、検索された文書が一覧表示され、ク
ライアント100で一覧表示された文書から索引語に適
合する文書を選択する際には、索引語に適合する文書に
対して正の重み付けを指定を行うことができると共に、
索引語に適合しない文書に対して負の重み付けの指定を
行うことができる。そして、辞書管理ソフト106は、
シソーラスリスト310の名詞句をシソーラス辞書10
5に登録する際に、正の重み付けが指定された文書から
得た名詞句には正の重みを付与して関連語または類義語
として登録すると共に、負の重み付けが指定された文書
から得た名詞句には負の重みを付与して関連語または類
義語として登録する。その結果、正の重みが付与された
関連語または類義語を含む文書が検索でヒットする確率
が高まり、一方、負の重みが付与された関連語または類
義語を含む文書が検索でヒットする確率は低められるこ
とになる。なお、検索結果の文書から得た名詞句のう
ち、正の重みの指定がなされた文書と負の重みの指定が
なされた文書の両方に存在する名詞句については、シソ
ーラス辞書105に登録しないようにすることもでき
る。
【0062】さらに、図6のステップS609におい
て、生成したシソーラスリスト310中の名詞句をその
ままシソーラス辞書105に登録することにしたが、こ
れらの名詞句を一度クライアント100に画面表示し、
ユーザが選択した名詞句のみをシソーラス辞書105に
登録することにしても良い。
【0063】このように、本実施の形態の文書検索装置
によれば、検索によって得た文書からシソーラス辞書1
05中の索引語の関連語または類義語を自動的に抽出し
てシソーラス辞書105に登録できるようにすることに
したため、シソーラス辞書105を管理するための労力
の軽減を図ることができると共に、シソーラス辞書10
5を常に最新の関連語や類義語が登録された状態に保つ
ことができる。したがって、精度の高い検索処理を行う
ことができる。
【0064】なお、本実施の形態においては、ベクトル
空間法による検索を例にとって説明したが、ブーリアン
検索により検索処理を行うことにしても良い。
【0065】また、本実施の形態で説明した文書検索装
置は、予め用意されたプログラムをコンピュータやワー
クステーションで実行することによって実現される。こ
のプログラムは、ハードディスク,フロッピーディス
ク,CD−ROM,MO,DVD等のコンピュータで読
み取り可能な記録媒体に記録され、コンピュータによっ
て記録媒体から読み出されることによって実行される。
また、このプログラムは、上記記録媒体を介して、また
はネットワークを介して配布することができる。
【0066】
【発明の効果】以上説明したように、本発明の文書検索
装置(請求項1)によれば、意味体系に従って分類項目
となる索引語を分類すると共に、索引語の関連語および
/または類義語を分類した索引語にそれぞれ関連づけし
て記憶した関連語・類義語辞書と、関連語・類義語辞書
の少なくとも索引語を画面表示する索引語表示手段と、
索引語表示手段で画面表示された索引語を選択するため
の索引語選択手段と、索引語選択手段を介して索引語が
選択されると、選択された索引語および索引語に関連づ
けられた関連語および/または類義語を検索条件とし
て、該当する文書を検索する検索手段と、検索手段で検
索した文書の一覧を表示する一覧表示手段と、一覧表示
手段で表示された文書を選択するための文書選択手段
と、文書選択手段を介して選択された文書から名詞句を
抽出する名詞句抽出手段と、名詞句抽出手段で抽出した
名詞句に対し、選択手段で選択した文書および検索対象
の文書群における出現頻度および分布等の統計情報に応
じたスコアを付与し、予め設定された選択条件に該当す
るスコアの名詞句を選択する名詞句選択手段と、名詞句
選択手段で選択した名詞句を該当する索引語の関連語ま
たは類義語として関連語・類義語辞書に登録する辞書登
録手段と、を備えたため、関連語・類義語辞書を管理す
るための労力の軽減を図ることができると共に、関連語
・類義語辞書を常に最新の関連語や類義語が登録された
状態に保つことができる。したがって、精度の高い検索
処理を行うことができる。
【0067】また、本発明の文書検索装置(請求項2)
によれば、請求項1に記載の文書検索装置において、辞
書登録手段は、登録しようとする名詞句が既に該当する
索引語の関連語または類義語として関連語・類義語辞書
中に存在する場合、存在する関連語または類義語に正の
重みを付与し、検索手段は、関連語または類義語に付与
された重みを用いて、該当する文書の検索を行うため、
検索結果に応じて関連語・類義語辞書を学習させること
ができ、検索を重ねる毎に検索精度の向上を図ることが
できる。
【0068】また、本発明の文書検索装置(請求項3)
によれば、請求項1または2に記載の文書検索装置にお
いて、文書選択手段は、一覧表示手段で一覧表示された
文書を選択する際に、索引語に適合する文書に対して正
の重み付けを指定を行うことが可能であると共に、索引
語に適合しない文書に対して負の重み付けの指定を行う
ことが可能であり、辞書登録手段は、正の重み付けが指
定された文書から得た名詞句に正の重みを付与すると共
に、負の重み付けが指定された文書から得た名詞句に負
の重みを付与して該当する索引語の関連語または類義語
として関連語・類義語辞書に登録し、検索手段は、関連
語または類義語に付与された重みを用いて、該当する文
書の検索を行うため、検索結果に応じて関連語・類義語
辞書を学習させることができ、検索を重ねる毎に検索精
度の向上を図ることができる。
【0069】さらに、本発明のコンピュータ読み取り可
能な記録媒体(請求項4)によれば、請求項1〜3のい
ずれか1つに記載の文書検索装置の各手段としてコンピ
ュータを機能させるためのプログラムを記録したため、
このプログラムをコンピュータに実行させることによ
り、関連語・類義語辞書を管理するための労力の軽減を
図ることができると共に、関連語・類義語辞書を常に最
新の関連語や類義語が登録された状態に保つことがで
き、精度の高い検索処理を行うことができる文書検索装
置を提供することができる。
【図面の簡単な説明】
【図1】本実施の形態の文書検索装置のシステム構成図
である。
【図2】本実施の形態の文書検索装置において、検索サ
ーバにおけるシソーラス辞書の内容を画面表示した様子
の一例を示す説明図である。
【図3】本実施の形態の文書検索装置において、検索サ
ーバにおける検索ソフトの処理を示す概略ブロック図で
ある。
【図4】本実施の形態の文書検索装置において、転置フ
ァイルの生成処理を示すフローチャートである。
【図5】本実施の形態の文書検索装置において、文書の
検索処理を示すフローチャートである。
【図6】本実施の形態の文書検索装置において、シソー
ラス辞書への登録処理を示すフローチャートである。
【符号の説明】
100 クライアント 101 文書DB 102 転置ファイル 103 検索サーバ 104 ネットワーク 105 シソーラス辞書 106 辞書管理ソフト 107 検索ソフト 300 自然言語処理モジュール 301 辞書 302 文法辞書 303 ドキュメント・セット 304 データベース・ビルド・コンポーネント 305 クエリー・ビルド・コンポーネント 306 クエリー・ドキュメント 307 検索エンジン 308 文書リスト 309 シソーラス抽出エンジン 310 シソーラスリスト
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/403 320D

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 検索条件に基づいて、検索対象の文書群
    から該当する文書を検索する文書検索装置において、 意味体系に従って分類項目となる索引語を分類すると共
    に、前記索引語の関連語および/または類義語を前記分
    類した索引語にそれぞれ関連づけして記憶した関連語・
    類義語辞書と、 前記関連語・類義語辞書の少なくとも索引語を画面表示
    する索引語表示手段と、 前記索引語表示手段で画面表示された索引語を選択する
    ための索引語選択手段と、 前記索引語選択手段を介して索引語が選択されると、選
    択された索引語および前記索引語に関連づけられた関連
    語および/または類義語を前記検索条件として、該当す
    る文書を検索する検索手段と、 前記検索手段で検索した文書の一覧を表示する一覧表示
    手段と、 前記一覧表示手段で表示された文書を選択するための文
    書選択手段と、 前記文書選択手段を介して選択された文書から名詞句を
    抽出する名詞句抽出手段と、 前記名詞句抽出手段で抽出した名詞句に対し、前記選択
    手段で選択した文書および検索対象の文書群における出
    現頻度および分布等の統計情報に応じたスコアを付与
    し、予め設定された選択条件に該当するスコアの名詞句
    を選択する名詞句選択手段と、 前記名詞句選択手段で選択した名詞句を該当する索引語
    の関連語または類義語として前記関連語・類義語辞書に
    登録する辞書登録手段と、 を備えたことを特徴とする文書検索装置。
  2. 【請求項2】 前記辞書登録手段は、登録しようとする
    名詞句が既に該当する索引語の関連語または類義語とし
    て前記関連語・類義語辞書中に存在する場合、前記存在
    する関連語または類義語に正の重みを付与し、 前記検索手段は、前記関連語または類義語に付与された
    重みを用いて、該当する文書の検索を行うことを特徴と
    する請求項1に記載の文書検索装置。
  3. 【請求項3】 前記文書選択手段は、前記一覧表示手段
    で一覧表示された文書を選択する際に、前記索引語に適
    合する文書に対して正の重み付けを指定を行うことが可
    能であると共に、前記索引語に適合しない文書に対して
    負の重み付けの指定を行うことが可能であり、 前記辞書登録手段は、前記正の重み付けが指定された文
    書から得た名詞句に正の重みを付与すると共に、前記負
    の重み付けが指定された文書から得た名詞句に負の重み
    を付与して該当する索引語の関連語または類義語として
    前記関連語・類義語辞書に登録し、 前記検索手段は、前記関連語または類義語に付与された
    重みを用いて、該当する文書の検索を行うことを特徴と
    する請求項1または2に記載の文書検索装置。
  4. 【請求項4】 前記請求項1〜3のいずれか1つに記載
    の文書検索装置の各手段としてコンピュータを機能させ
    るためのプログラムを記録したことを特徴とするコンピ
    ュータ読み取り可能な記録媒体。
JP9201985A 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JPH1145268A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9201985A JPH1145268A (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9201985A JPH1145268A (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH1145268A true JPH1145268A (ja) 1999-02-16

Family

ID=16450036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9201985A Pending JPH1145268A (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH1145268A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140338A (ja) * 2000-10-31 2002-05-17 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
JP2003303205A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 辞書編集システムおよび辞書編集方法
JP2003303206A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 辞書編集システムおよび辞書編集方法
JP2004185306A (ja) * 2002-12-03 2004-07-02 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
JP2007011651A (ja) * 2005-06-30 2007-01-18 Nomura Research Institute Ltd 文書処理装置
US7240051B2 (en) 2003-03-13 2007-07-03 Hitachi, Ltd. Document search system using a meaning relation network
JP2008269099A (ja) * 2007-04-17 2008-11-06 Toshiba Tec Corp 用語関連性辞書編集装置
JP2010039989A (ja) * 2008-08-08 2010-02-18 Hitachi Systems & Services Ltd コンテンツ管理システム及びコンテンツ管理方法
JP2011215723A (ja) * 2010-03-31 2011-10-27 Zenrin Datacom Co Ltd シソーラス構築システム、シソーラス構築方法およびシソーラス構築プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140338A (ja) * 2000-10-31 2002-05-17 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
JP2003303205A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 辞書編集システムおよび辞書編集方法
JP2003303206A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 辞書編集システムおよび辞書編集方法
JP2004185306A (ja) * 2002-12-03 2004-07-02 Toshiba Corp 辞書構築支援装置および辞書構築支援方法
US7240051B2 (en) 2003-03-13 2007-07-03 Hitachi, Ltd. Document search system using a meaning relation network
JP2007011651A (ja) * 2005-06-30 2007-01-18 Nomura Research Institute Ltd 文書処理装置
JP2008269099A (ja) * 2007-04-17 2008-11-06 Toshiba Tec Corp 用語関連性辞書編集装置
JP2010039989A (ja) * 2008-08-08 2010-02-18 Hitachi Systems & Services Ltd コンテンツ管理システム及びコンテンツ管理方法
JP2011215723A (ja) * 2010-03-31 2011-10-27 Zenrin Datacom Co Ltd シソーラス構築システム、シソーラス構築方法およびシソーラス構築プログラム

Similar Documents

Publication Publication Date Title
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
JPH11219368A (ja) 情報検索装置及び情報検索方法
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005251115A (ja) 連想検索システムおよび連想検索方法
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
Capstick et al. A system for supporting cross-lingual information retrieval
JPH03172966A (ja) 類似文書検索装置
US20050065920A1 (en) System and method for similarity searching based on synonym groups
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3198932B2 (ja) 文書検索装置
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
EP1099171A2 (en) An index to a semi-structured database
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
KR20020072092A (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JPH1145261A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080129