JPH0410062A

JPH0410062A - 語彙拡張機能を有する文書検索方法

Info

Publication number: JPH0410062A
Application number: JP2110010A
Authority: JP
Inventors: Atsushi Hatakeyama; 敦畠山; Hiromichi Fujisawa; 藤沢　浩道; Kanji Kato; 加藤　寛次
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1990-04-27
Filing date: 1990-04-27
Publication date: 1992-01-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は１文書デーベースを文字列を指定して検索する
方式に係わり、指定すべき文字列として単語を限定する
ことなく、あいまいな表現でも検索を可能とする方法に
関する。

〔従来の技術〕

従来の文書検索システムでは、登録する文書の内容を表
す単語（キーワードと呼ぶ）をインデックスとする方式
がとられている。この方式では、登録時に付与したキー
ワードと、検索時に指定したキーワードが異ると検索で
きないという問題がある。

例えば、″コンピュータ″というキーワードで登録した
文書は、″電算機″、あるいは″電子計算機″では検索
できない。このように、登録時のキーワードと検索時の
キーワードが同じ意味を表す言葉でも、表現形態が異な
ると検索できなくなるという問題がある。

従って、この問題を避けるために統制語辞書（キーワー
ド辞書）を用意し、キーワードとして使用可能な言葉を
あらかじめ規定しておくという方式がとられている。こ
のような方式では、文書の登録時のみならず検索時にも
、ユーザは統制語辞書に熟知している必要があるととも
に、文書内容を統制語辞書のキーワードを用いて的確に
表現する専門的な能力が求められることになる。通常、
この文書の登録及び検索の作業は、データベースの分野
毎にインデクサ−と呼ばれる専門家によって行われてき
ている。すなわち、一般のユーザには簡単に扱うことが
難しいという問題があった。

このような問題を解決するため、特開昭６２−１１９３
２のように、ユーザが入力した検索語の同義語や異表記
を検索時に自動的に展開して検索する方式を提案した。

すなわち、検索者の入力した検索語から、その言葉と同
じ意味を表す言葉を検索システムの内部で自動的に展開
して、これらもキーワードに加えて検索する方式である
。この技術を用いることにより、検索者は、統制語辞書
に関する知識がなくても、思い付いた自由な言葉で検索
することができるようになった。

〔発明が解決しようとする課題〕しかし、上記引例では″計算機″に関する文書を検索す
る際、″電子計算機Ｉ＋　　１１電算機・・　ｔＩ：ｌ
。

ピユータ″等の同義語関係にある言葉で登録された文書
は検索できるものの、これよりさらに具体的な言葉がキ
ーワードになっているものは検索できないという問題が
ある。このような例としては、“スーパーコンピュータ
パ″マイクロコンピュータｌ１％ｌワークステーション
”等のように″計算機″の下位概念を表す言葉があげら
れる。

また、「具体的な名称は忘れたが、何かパ大学″が関係
している文書であった」というあいまいな情報をもとに
して検索したい場合もある。すなわち、″大学′″とい
うキーワードから、その具体的な概念であるパ東京大学
″″東大ＩＩ　、　、　ＩＩ大阪大学ｔｒ、ｕ阪−大″
等という言葉に展開して検索したい場合もある。

この二つの場合とも、上記引例では対応できないという
問題がある。

本発明の解決しようとする課題は、より具体的な言葉に
絞りきれない時でも、あいまいな言葉そのもので具体的
な言葉を含む文書を検索できるようにすることである。

〔課題を解決するための手段〕

上記課題を解決するために、文書データベースに付与さ
れたキーワードに関する語彙情報を格納した語彙辞書と
、これらの語彙情報間の関係を記述した関係リストを持
ち、キーボードから入力した検索語から、語彙辞書及び
関係リストを参照してより具体的な言葉を抽出する語常
展開手段を持ち、この語彙展開手段によって抽出された
全ての言葉を検索語として文書データベースを検索する
検索手段により検索システムを構成する。

〔作用〕

以上の手段によって、検索者が入力した検索語の語彙概
念を検索時に解析し、あらかじめ定義しておいた語彙辞
書と関係リストから、より具体的な語彙を示す言葉を自
動的に展開し、展開した全ての語を検索語として検索す
るために、あいまいな検索語を指定しても、すなわち探
したい語の上位概念にある言葉を指定しても、目的とす
る文書の検索が可能となる。

〔実施例〕

本実施例は、一般的な電子計算機を用いて実施する場合
を想定したものである。１１０はユーザが検索語を入力
するキーボードであり、ここから入力された検索語は、
語彙展開部１３０に送られる。語彙展開部１３０では、
後で記述する語彙辞書１５０と関係リスト１６０を参照
して入力検索語１８０に対して、より具体的な概念を表
す語彙１９０を導出する。

語彙展開部１３０で求められた検索文字列すなわち展開
文字列１９０は検索部１４０に送られる。

ここでは文書データベース１７０が読み込まれ、該展開
文字列１９０を含む文書があるか検索される。

語彙辞書１５０は、第２図に示すような内容を持つ。す
なわち５語彙辞書１５０は、語彙番号、語彙文字列及び
文字列種別の３つのフィールドからなるレコードの集ま
りである。ここで、語彙文字列は語彙の書き方を表した
文字列コードを格納したものである。語彙番号は、語彙
辞書に記述された語常の中で同一の語彙すなわち同じ意
味を持つ文字列群に付与した識別番号である。例えば、
本図では″東京大学″と″東大″には同じ語彙番号５８
が、″大阪大学″と″阪大″には同じ語彙番号１０７が
付与されている。文字列種別は、該当する文字列が同一
の語彙を示す文字列群の代表文字列か否かを表す識別子
である。例えば本図では、″東京大学″は正式名称であ
り、代表文字列とみなせるものなので識別子ｐ（ρｒｉ
ｍａｒｙ）が。

″東大″は″東京大学″の略称で代表文字列ではないの
で、識別子ｓ　　（ｓｅｃｏｎｄａｒｙ）が付与されて
いる。

次に関係リスト１６０の内容を第３図に示す。

関係リスト１６０は、語彙番号と上位語彙番号の２つの
フィールドからなるレコードの集まりによって構成され
る。これらの語彙番号は、前述の語彙辞書に記述されて
いる語彙番号を示している。

例えば、語彙番号５８と上位語彙６４からなるレコード
は、第２図における語彙番号５８の″東京大学″の上位
概念にあたる語彙として、語彙番号６４の″大学″が相
当することを示している。同様にして、語彙番号１０７
”大阪大学″の上位語も語彙番号６４の″大学″である
ことを示してぃる。

文献データベース１７０には、第４図のように文書番号
、題名、著者、日付、文書内容すなわち本文等が蓄えら
れている。例えば、文書番号１０の文書は、題名が［電
子メール通信システムの標準化ｊ、著者が「東大」、日
付「８９年１月９日」で、本文が「電子メール通信シス
テムは、・・・」という内容を持っていることを示して
いる。

上述した語彙辞書１５０及び関係リスト１６０を参照し
て語彙展開部１３０における具体的な展開の処理内容に
ついて以下説明する。

語彙展開処理の流れを第５図にＰＡＤ　（プログラム　
アナライジス　ダイアグラム：　ＰｒｏｇｒａｍＡｎａ
ｌｙｓｉｓ　Ｄｉａｇｒａｍ）で示す。

まずキーボードより入力された検索語と、語彙辞書１５
０に蓄えられた語彙文字列をもとに該当する語彙番号を
探索する（５１０）。ここでは、第２図に示す語彙文字
列と検索語との文字列探索で該当する語彙番号を得る。

例えば、゛大学′″という検索語が与えられた場合、語
彙検索５１０の結果は語り番号６４となる。

第２のステップでは、関係リスト１６０を用いて関係情
報を探索し、より具体的な語彙番号を抽出する（５２０
）、ここでは、前ステップ（５１０）で探索した語彙番
号をもとに、関係リストの上位語彙番号を持つ下位の語
常番号を全て探索し、語彙番号のリストを出力する。例
えば、関係リストとして第３図に示したデータが格納さ
れている場合、語彙番号６４から、出力として語彙番号
５８及び１０７が出力される。

第３のステップでは、語彙番号のリストをもとにして、
これを語彙辞書１５０を用いて該当する文字列のリスト
へ変換する（５３０）。この時、該当する語彙番号を持
つ文字列を全て抽出する。

すなわち、語彙番号５８では、代表文字列の″東京大学
″のみならず、それと同位の意味を示すパ東大”も同時
に抽出する。こうすることにより、該語彙が示す同位の
語を全て取り出すことができる。複数個の語彙番号が前
ステップ（５２０）で出力され、かつ各語彙には複数個
の文字列が対応している場合が多いので、出力も複数個
の文字列がでてくる。例えば、５８，１０７という語彙
番号リストから、第２図に示す語彙辞書を参照して″東
京大学ＪＴ％東大ＩＩ　、　　ｉｔ大阪大学Ｔ１．ｌＬ
阪大″という４個の文字列を出力する。

以上が語彙展開部１３０の処理内容である。

以上の語彙展開部の展開文字列１９０を受けて。

検索部１４０では文書データベース１７０の検索を行な
う（５４０）。例えば、文書データベース１７０の著者
のフィールドを上記の展開文字列″東京大学Ｉ＋、１１
東大″、″′大阪大学ＩＩ、ＩＩ阪大″で検索した場合
、文書番号１０及び１２のデータが結果として得られる
。

この検索部１４０で実行する複数文字列の検索には、例
えばニー・ブイ・エイホー　アンド　エム　ジェー　コ
ラジック：エフィシェント　ストリング　マツチング　
コム　ニーシーエム（Ａ、Ｖ。

Ａｈｏ　ａｎｄ　Ｍ、Ｊ、Ｃｏｒａｓｉｃｋ：　”Ｅｆ
ｆｉｃｉｅｎｔ　ＳｔｒｉｎｇＭａｔｃｈｉｎｇ”、Ｃ
ｏｍｍ、ＡＣＭ）Ｖｏ　１．１８．Ｎｏ。

６．１９７５に記述された方法を用い、文字列照合処理
の高速化を図ることもできる。

次に、本発明の第二の実施例について説明する。

本実施例は、入力した語から一旦上位の語彙を抽出し、
抽出した上位の語彙からもう一度下位の概念を示す語彙
へ展開して検索する語彙展開方法を用いるものである。

この方法は、指定した検索語と関係の深い情報を得るの
に有効である。例えば、″東大″から゛′大学″を一旦
抽出し、″大学″の下位の概念である″東大ｒ１．ＬＬ
東京大学ＩＩ％Ｌ阪大ＩＩ、Ｉｔ大大阪大学へ展開して
検索する。こうして、″東大″という一つの検索語から
関連の深い情報、ここではパ大学″に関する情報を得る
ことができる。

この展開処理について、第６図のＰＡＤ図を用いて説明
する。まず、語彙辞書１５０の語彙文字列を参照して、
検索語が示す語彙の番号を抽出する（６１０）。例えば
、検索語が゛東大″の場合、抽出結果は語彙番号５８と
なる。

次に、関係リストを参照し、抽出した語彙番号の上位語
彙番号を探索する（６２０）。検索語が″東大″の場合
だと結果は″大学″を示す語彙番号６４となる。そして
、もう−度関係リストを参照して、今抽出した語彙番号
の下位の概念を示す語彙番号を全て抽出する（６３０）
。これにより、第一の実施例と同じく″大学″の下位概
念である語彙番号５８と１０７が得られる。

最後にこうして得られた語彙番号のリストを語彙辞書１
５０を参照して、該当する文字列のリストへ変換する（
６４０）。この結果、検索語がパ東大″の場合、最終結
果としてパ東京大学″゛′東大Ｔ１．ＬＬ大阪大学ｎ、
ｕ阪大″という４個の文字列が得られることになる。こ
の後、第一の実施例と同様に展開した文字列でデータベ
ースを検索する（６５０）。

このように、入力した検索語から一旦上位の語彙を抽出
し、更に再び下位の語彙へ展開することで、検索語のみ
ならず、検索語と非常に近い関係を持った文書をも検索
することができるようになる。

以上第二の実施例について説明した。

以下、第三の実施例の説明をする。第−及び第二の実施
例では、−階層分下位の語彙を持つ文字列への展開処理
について説明してきた。第三の実施例では、これを拡張
し詳細に分類して語彙を登録した辞書を用いて、検索語
が示す語彙の下位の語彙をすべて抽出し、これをすべて
検索語として文書を検索することにより、関連のある文
書をすべて検索できるようにしたものである。以下、本
方法の処理について説明する。

語彙を細かに上下関係を分類すると第７図のように、多
階層の分類木構造で管理できることになる。本図におい
て、楕円は一つの語彙を示し、楕円の右肩の数字は語彙
番号を示し、また矢印は上位の語彙を指している。例え
ば、″東大″の上位の語彙は″国立大学″で″国立大学
″の上位の語彙は″公立大学″′、さらに″公立大学″
の上位の語彙は″大学″である。すなわち、゛′大学″
がパ公立大学ｎ、ｕ国立大学″と細く上下関係が分類さ
れている。

本図に示すような語彙分類木を構成する語彙辞書と関係
リストを第８図及び第９図に示す。これは、第一の実施
例及び第二の実施例の語彙辞書及び関係リストに対応す
る。

以下、検索語から対応する語彙の下位の語彙すべてを展
開する処理を第１０図を用いて説明する。

本実施例では例えば１、第８図及び第９図に示す語彙辞
書１５０及び関係リスト１９０が用いられる。

まず第一の実施例と同様に入力した検索語から、対応す
る語彙番号と、その語彙が持つ下位の語彙番号のリスト
を作成する（５１０，５２０）。例えば、″大学″とい
う検索語が指定された場合、語彙番号リストとして、語
彙番号７２と７３が得られる。

次に、語彙番号リストとは別に新語彙番号リストを設け
、初期値として該語彙番号リス１−と同じ内容を設定す
る（１０１０）。本実施例では前ステップで得られた語
彙番号リストと同じ語彙番号７２と７３が蓄えられる。

次に、新語彙番号リストの内容が無くなるまで、すなわ
ち下位の語彙が現われなくなるまで何度も下位の語彙を
探索しては新しく探索した語彙を新語彙リストとして置
き換え（１０２０）、さらに語彙番号リストに新しく探
索した語彙を付は加えてい＜　（１０２１）。この処理
については後に具体例を用いて説明する。

最後に、第一の実施例と同様に得られた語彙リストから
対応する文字列へ変換し、これらの文字列で文書データ
ベースを検索する（５３０　、５４０）。

以上が第三の実施例の語彙展開処理の流れであるが、本
実施例での特徴的な処理（１０２０゜１０２１）につい
て、具体例を用いて説明する。

例えば、新語彙番号リストが７２と７３であれば、それ
ぞれの下位の語彙番号を関係リスト１６０を参照して１
語彙番号７４，７５，７６．７７を得て、これを新語彙
リストとして置き換える（１０２０）。語彙リストはこ
れらの新しい語彙番号を今までのリストにつけ加えて、
語彙番号７２．７３，７４，７５，７６．７７とする（
１０２１）。

新語彙番号リストが空にならないため、もう−度新語彙
番号リストア４，７５，７６．７７のそれぞれの語彙番
号の下位の語彙番号を関係リスト１６０を参照して求め
る。この時、語彙番号７５゜７６．７７については、下
位の語彙番号がないため、結局新語彙番号リストは語彙
番号７４の下位の語彙番号である５８，９０，１０７と
なる（１０２０）。また、語彙番号リストは、新しく得
られた語常をさらにつけ加えて、語彙番号７２゜７３．
７４，７５，７６．７７．５８，９０゜１０７となる（
１０２１）。

新語彙番号リストが空でないため、すなわち下位語彙が
まだ求まるため、もう−度１０２０の処理をするが、今
度はどの語彙も下位の語彙を持たない。したがって、新
語彙番号は空となり、処理１０２１では語彙番号リスト
には何もつけ加えられない。

こうして、最終的には“大学″の下位の語常として、語
彙番号リストア２，７３，７４，７５゜７６．７７．５
８，９０，１０７が得られ、対応する文字列へ変換する
ことにより、″公立大学″″私立大学１１．＃国立大学
′″、゛′市立大学″″早大ＩＩ　、　　ＩＩ早稲田大
学１１．ｌｌ慶応大ＩＺ１１慶応大学′″　　″東京大
学ｎ、ｒｒ東大ＪＩ％Ｌ北太″パ北海道大学ｕ　、　　
ｒｒ阪大ＩＩ、Ｎ大阪大学″が得られる。

このように階層化された語彙辞書、語彙関係リストを用
いて、検索語として指定された下位の語常すべてを網羅
的に抽出して展開処理することができるため、より抽象
的な語常の指定からでも、非常に具体的な語常を持つ文
書をも検索することができるようになる。

最後に、第四の実施例を示す。本実施例は、語常の展開
処理をさらに拡張して、ｎ段目の下位レベルにある語常
のみ、あるいはｎ段目までの全ての下位語彙を展開抽出
する処理を行い、これらをすべて検索語として文書を検
索することによっである広さを持つ概念の言葉だけで検
索できるようにしたものである。以下、この内容につい
て説明する。ここで、ｎ段目の下位語彙とは、例えば第
７図の″大学″の１段目の下位語彙が″公立大学″。

゛′私立大学″、２段目の下位語彙が″国立大学″″市
立大学＋ｌ、ＩＩ慶応大ｎ、ｕ事大″というように、階
層の深さを示すものである。数値ｎは、ユーザが自由に
設定できるものとする。

ｎ段目までの下位語彙を抽出するには、第三の実施例で
の展開処理アルゴリズムを少し変更すれば良い。すなわ
ち、１ｏ２０及び１ｏ２１の処理を新語彙番号リストが
空になるまででなく、ｎ回処理を行うように変更すれば
良い。このように変更すれば、ｎ回目のループの後、新
語彙番号リストにｎ段目の下位語彙の番号が得られ、語
彙番号リストには、ｎ段目までの下位の語彙番号すべて
が得られる。

このようにｎ段目までの下位語彙に限定して展開処理す
ることにより、階層的にきれいに整備された語彙辞書、
関係リストを有効に活用することができる。例えば、語
彙階層本で１階層目は製品の大分類、２階層目は細分類
、３階層目は製品のシリーズ名称、４階層目は製品名、
というようによく管理された階層木をなす語彙辞書と関
係リストを用い、４階層目を指定して検索すれば、具体
的な各製品名での検索が可能となる。あるいは、２階層
目までの全下位語彙を指定して、抽象的概念で記述され
ているような文書を網羅的に検索することが可能となる
。

〔発明の効果〕

本発明によれば、検索者の入力する検索語があいまいな
場合でも、また漠然とした大きな概念を表す場合にでも
、より具体的な方法で検索を行なうことが可能となり、
検索漏れの少ない、使い勝手のよい検索システムが実現
できることになる。

また、入力された検索語と同じ概念レベルにある言葉を
含む文書、すなわち関連性の強い文書もすべて検索する
ことが可能となる。

【図面の簡単な説明】

第１図は本発明の特徴となる検索方式の処理概要図、第
２図は語彙辞書の格納形態を示す概念図、第３図は関係
リストの格納形態を示す概念図、第４図は文献データベ
ースの格納形態を示す概念図、第５図は本発明の第一の
実施例の処理を示す流れ図、第６図は本発明の第二の実
施例の処理を示す流口、第７図は第三の実施例で用いる
語彙辞書及び語彙関係リストが持つ語彙間の階層関係を
示す概念図、第８図は第三の実施例で用いる語彙辞書の
具体例を示す概念図、第９図は第三の実施例で用いる関
係リストの具体例を示す概念図、第１０χ 図貞話澹祐尼木築舅？捷ます名／Ｇｌ禎ｑ喝間係りスト／デρ ／θ 図

Claims

【特許請求の範囲】１、文字列を入力し、入力した文字列をもとに該文字列
が記述された文書を検索する検索方法において、語彙と
語彙の上位及び下位関係を記憶した辞書データを持ち、
入力文字列からその文字列が示す語彙の下位の語彙を表
す文字列を、前記語彙辞書を参照して抽出し、それら全
ての文字列を検索語として文書を検索し、いずれかの文
字列を持つ文書を抽出するようにしたことを特徴とする
文書検索方法。２、文字列を入力し、入力した文字列をもとに該文字列
が記述された文書を検索する検索方法において、語彙と
語彙の上位及び下位関係を記憶した辞書データを持ち、
入力文字列からその文字列が示す語彙の上位の語彙を表
す文字列を、前記語彙辞書を参照して抽出し、それら全
ての文字列を検索語として文書を検索し、いずれかの文
字列を持つ文書を抽出するようにしたことを特徴とする
文書検索方法。３、文字列を入力し、入力した文字列をもとに該文字列
が記述された文書を検索する検索方法において、語彙と
語彙の上位及び下位関係を記憶した辞書データを持ち、
入力文字列からその言葉が示す語彙の上位の語彙を、前
記語彙辞書を参照して一旦抽出し、さらに抽出した上位
の語彙の下位の語彙を表す文字列を抽出し、それら全て
の文字列を検索語として文書を検索し、いずれかの文字
列を持つ文書を抽出するようにしたことを特徴とする文
書検索方法。４、請求項１記載の文書検索方法において、同一の語彙
を示す文字列にはユニークな語彙番号を定めた語彙辞書
と、語彙の上位下位関係を該語彙番号で記述した関係リ
ストを持ち、入力文字列から語彙辞書を参照してその文
字列が示す語彙番号を一旦抽出し、抽出した語彙番号か
ら関係リストを参照して該語彙の下位の語彙番号を抽出
して、さらにもう一度語彙辞書を参照して抽出した語彙
番号を持つすべての語彙文字列を抽出し、それら全ての
文字列を検索語として文書を検索し、いずれかの文字列
を持つ文書を抽出するようにしたことを特徴とする文書
検索方法。５、請求項１記載の文書検索方法において、語彙辞書を
参照して入力文字列から下位の語彙を表す文字列を抽出
する際、上位下位関係を再帰的に参照して、抽出した下
位語彙のさらに下位の語彙を抽出して行き、これ以上下
位の語彙がないところまで下位の語彙を抽出して、それ
ら全ての語彙と対応する文字列を検索語として文書を検
索し、いずれかの文字列を持つ文書を抽出するようにし
たことを特徴とする文書検索方法。６、請求項１記載の文書検索方法において、語彙辞書を
参照して入力文字列から下位の語彙を表す文字列を抽出
する際、上位下位関係を再帰的に参照して、抽出した下
位語彙のさらに下位の語彙を抽出する処理を指定段数繰
り返して下位の語彙を抽出して、それら全ての語彙と対
応する文字列を検索語として文書を検索し、いずれかの
文字列を持つ文書を抽出するようにしたことを特徴とす
る文書検索方法。７、請求項１記載の文書検索方法において、語彙辞書を
参照して入力文字列から下位の語彙を表す文字列を抽出
する際、上位下位関係を再帰的に参照して、抽出した下
位語彙のさらに下位の語彙を抽出して行き、これ以上下
位の語彙がないところまで下位の語彙を抽出して、これ
らの下位の語彙のうち、最下位のこれ以上下位の語彙を
持たないという語彙に対応する文字列すべてを検索語と
して文書を検索し、いずれかの文字列を持つ文書を抽出
するようにしたことを特徴とする文書検索方法。