JPH03229366A

JPH03229366A - テキストベースの多段検索方式

Info

Publication number: JPH03229366A
Application number: JP2025560A
Authority: JP
Inventors: Sueji Miyahara; 末治宮原; Hidefumi Kano; 加納　英文
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-02-05
Filing date: 1990-02-05
Publication date: 1991-10-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、自然言語の文章データを文字コード列として
蓄積したデータベース（以下、「テキストベース」とい
う）に対して、該テキストベースを形成する文字や文字
列の中で出現頻度の低い漢字等の文字種から検索用の索
引を作成し、ひらがな等の高出現頻度の文字列から成る
単語とは区別して用いることにより、自然言語による入
力文や類似文書の提示等による検索間合せに対して、高
速で高精度な検索を可能としたテキストベースの多段検
索方式に関する。

〔従来の技術〕

従来、この種の技術としては、例えば、杉山健司他の「
自然言語理解に基づく情報検索システムＩＲＩＳＪ情報
処理学会自然言語処理研究会資料Ｎ　Ｌ−５８−８（１
９８６，１１，２２）に記載されている如く、データと
しての各テキストに対して、その内容に適したキーワー
ド、すなわち、そのテキストの内容に合致する分野糸ま
たは言語を付与することにより、各テキストの内容ない
し特徴を表現し、検索時には利用者が求めるテキストの
内容に関連したキーワードの論理的結合関係、つまり、
ＡＮＤまたはＯＲ等を指定して、その検索条件を満足す
るテキストを抽出する方法が用いられている。

上記文献に記載されている如く、従来は、自然言語によ
る質問文を受付けるインタフェースを有する場合にも、
質問文を解析することにより、ユーザの検索要求を対応
するキーワードに展開し、それらのキーワードの間の論
理的結合関係を決めて検索を行っている。すなわち、自
然言語によるインタフェースを有するか否かにかかわら
ず、テキストベースの検索は、いずれもキーワード検索
によっていた。

しかしながら、上述の如く、テキスト中に含まれている
キーワードを手掛りにして検索を行う方法では、検索の
精度が高くならないという問題があった。これは、通常
、再現率、つまり、ユーザの検索要求に関連するテキス
ト全体の中での検索された関連テキストの占める割合と
、適合率、つまり、検索されたテキスト全体の中での検
索された関連テキストの占める割合とで評価される。

実際には、テキストの内容にふされしいキーワードを付
与するということは、そのテキストの主題、要旨を表現
する言葉、あるいは、関連する主要な分野を表わす言葉
をそのテキストを代表する言葉として付与することであ
る。しかし、実際には、ユーザが検索要求時に思い浮か
べる言い方をすべてキーワードとして付与することは、
検索時に不要なテキストを多数出力することにもなり、
高い検索精度を確保しながら種々の表現に対応すること
は難かしいことである。また、補足的な記述中の情報を
検索したい場合でも、補足的な部分にキーワードを付与
することは一般的にはないので、キーワード検索により
検索することは不可能である。

なお、検索の精度を向上させるためには、例えば、絹用
博之他の［日本語文構造解析による自動インデクシング
方式」情報処理学会論文誌Ｖｏ１．２１、ｍ３（１９８
０，５）に記載されている如き方式も提案されている。

ここでは、各キーワードに意味的役割、すなわち、テキ
スト中での主体２客体等を付与する方法が用いられてい
るが、検索時の手掛りとしてキーワードを用いることに
間しては、前述の文献と同様である。

上記問題を解決するものとして、本発明者等が先に提案
した「テキストデータ検索方法」（特願平１−７６０１
２号明細書および図面参照）では、テキストを検索する
ための検索要求（問合せ）を自然言語の文章によって入
力するようにしており、また、同「類似文書検索装置」
（特願平１−３１０５６２号明細書および図面参照）で
は、上記問合せを、自然言語で記載した類似文書（適合
文書）によって入力するようにしている。

〔発明が解決しようとする課題〕

これらの提案では、まず、品詞や文法情報を付与された
単語辞書を用いて、入力文である自然言語の文字列を形
態素解析して、単語に分解する。

この分割と同時に、入力文の文法的構造の解析を行い、
検索の標本となるべき単語間の構造を抽出する。次に、
類義語辞書を用いて、検索用の標本単語を同義ないし類
義な意味を有する単語に展開し、その展開結果を用いて
テキストベースを検索し、標本の検索構造と一致するも
のを含むテキスト、あるいは、構造が一致する単語を多
く含む文字列に優先付け（重み付け）したテキスト、検
索単語を多く含むテキストを、検索結果として出力する
ものである。

しかし、上述のテキストベース検索方式において、大容
量のテキストベースを直接検索するには膨大な処理を要
することになる。本発明は、この場合に問題となる計算
機処理の時間を低減することを目的とするものである。

すなわち、本発明の目的は、テキストベースの検索にお
いて、言語解析技術と文字列索引技術とを用い、更は、
文字列索引を低出現頻度の文字列と高出現頻度の文字列
とに分けて多段階で検索することにより、高速で、高精
度な検索結果を得ることが可能なテキストベースの多段
検索方式を提供することにある。

〔課題を解決するための手段］本発明の上記目的は、見出し単語と、該単語の品詞情報
９文法情報を記憶した単語辞書と、自然言語で書かれた
文書を蓄積したテキストベースと、自然言語を用いて文
章等を入力する入力部と、入力された文章等を単語に分
割（形態素解析）し、分割した単語の品詞情報９文法情
報から、入力された文章等の文法的構造の解析（構文解
析）を行う文解析部と、該文解析部の解析結果に基づい
て前記テキストベースを検索する処理部とを有するテキ
ストベース検索システムにおいて、見出し単語と同義あ
るいは類義な意味を有する単語を記憶した類義語辞書と
、テキストベースを単語に分割した結果を用いて、出現
頻度の少ない文字列および該文字列を含む前記テキスト
ベース中のテキストを組にした情報を持つ低頻度文字列
索引とを備え、入力文中から検索時に対象となる単語を
選別し、検索の標本となるべき構造（検索構造）を生成
するステップと、該構造生成ステップで作成した検索構
造中の単語を類義な意味の単語へ展開して検索構造を補
強する類義語展開ステップと、該類義語展開ステップで
作成した検索構造中の類義語に展開された単語群と前記
低頻度文字列索引とから、検索対象をテキストベース中
の全テキストから選定する粗検索対象選定ステップと、
前記類義語展開ステップで作成した検索単語と単語間の
構造とを標本として、前記粗検索対象選定ステップで選
出したテキスト群を対象に、高出現頻度の文字列で構成
される単語も含めて走査・検出して、標本の検索構造と
一致するものを含むテキストに重み付けをして評価した
検索結果を出力することを特徴とするテキストベースの
多段検索方式によって達成される。

〔作用〕

本発明に係るテキストベースの多段検索方式においては
、テキストベース検索のための検索要求、例えば、日本
語の自然言語による質問文を解析して、テキストベース
中のすべての文章の中から、検索要求の内容に合致する
ものを抽出すること、および、検索処理を高速に行うこ
とが主要な特徴である。

すなわち、検索要求としての入力文の内容に合致するテ
キストとして入力文の語およびその類義語とその結合関
係（格関係）が同様の語、および、その結合関係を有す
るものを優先して抽出することで検索精度を確保すると
ともに、文字列とその文字列を含むテキストを段階的に
選定することにより、文字列索引情報を格納するのに必
要なメモリ容量を少なくし、処理の高速化を図り、実用
的な応答速度を実現するものである。

より詳細には、テキストベースを形成する文字列から文
字列索引を抽出する際に、テキスト中で出現頻度が高い
文字（例えば、ひらがな等）を除いて索引を作成し、こ
の索引（低頻度文字列索引）を用いてテキストベースを
検索する粗検索対象選定ステップと、上記低頻度文字列
索引を用いてテキストベースを選定して得られた粗検索
結果の候補テキストに対して、高出現頻度の文字、すな
わち、索引外文字によって構成される検索構造中の単語
や、それらを類義語展開して得られた単語をも用いてテ
キストベースを検索することにより、高速な応答を実現
するものである。

〔実施例〕

以下、本発明の実施例を図面に基づいて詳細に説明する
。

第２図は、本発明の一実施例を示すテキストベース多段
検索システムの機能ブロック図である。

図において、１は検索のための質問文を自然言語の文章
により入力するための入力部、２は文章の文法的構造を
決定する文解析部であり、その実体はサブルーチンプロ
グラムである。３は単語辞書であって、メモリファイル
に格納されている。

４は単語相互間の関係から、検索に用いるための構造を
生成する構造生成部であレバこれもサブルーチンプログ
ラムである。

５は検索構造中の単語について辞書を参照してその単語
と類似の意味を表わす単語を選択する類義語展開部、６
は類義な意味を表わす単語が格納される類義語辞書であ
り、メモリファイルに格納されている。７は粗検索対象
選定部であり、検索の対象を選択するサブルーチンプロ
グラム、８は後述する低頻度文字列索引、９はテキスト
検索部であり、これもサブルーチンプログラムである。

また、１０はテキストベースであり、検索対象となる文
章の集まりが格納されているメモリファイルである。

システムのハードウェアは、計算機等の情報処理装置と
、各辞書を格納する外部記憶装置および各辞書を格納す
る外部記憶装置と質問文を入力するためのキーボードや
スキャナ等の入力装置から構成されている。

上記入力部１は、テキストを検索するための検索要求（
質問）を自然言語の文章等により入力するものであり、
キー操作入力あるいは音声認識２文字パターン認識等の
文字符号化処理を介して、自然言語の文章や記事が、装
置に取込まれる。文解析部２は、入力部１を介して入力
された文章等を解析して、入力文の文法的構造を決定す
る。これには、文章を構成する各単語の識別・分解を行
う形態素解析と、それの単語の結び付き方から、文の構
造を決定する構文解析とがある。文解析部２で行われる
構文解析は、該文章中の各用言に対応した格構造を抽出
する。後述の単語辞書３には、文解析部２における形態
素解析および構文解析に用いる情報が記憶されている。

第３図は、単語辞書３の内容の一部を示す図である。単
語辞書３には第３図に示す如く、その内容として、単語
の見出しとその単語の品詞および構文解析に必要な文法
情報か格納されている。第３図に示す例で、文法情報は
付属語についてその付属語が接続できる語の種類（格助
詞の場合は「体言」）を示しており、図の「・」より右
にはその付属語が接続する語の格情報（主格、対象路等
）を示している。但し、ここでは、表層的な格情報で示
しである。

構造構成部４は、前述の文解析＠２の解析結果を受けて
、検索に用いる単語を取出し、それらの単語相互間の関
係から、検索に用いるための標準となるべき構造（以下
、「検索構造Ｊという）を生成する。この際、同一内容
を表わす複数の自然言語表現が考えられる場合、その代
表たるべき表現の構造へ変換を行う。

次に、類義語展開部５は、上述の構造生成部４で生成さ
れた検索構造中の単語について、その単語の意味と類似
の意味を表わす単語を選抜し、検索構造を補強する。類
義語辞書６には、類義の意味を表わす単語が格納されて
おり、類義語展開部５で参照される。

第４図は、類義語辞書６の内容の一部を示す図である。

類義語辞書６には、第４図に示す如く、その内容として
、単語の見出しとその単語と類義の意味を持つ単語（類
義語）の集まりか格納されている。

粗検索対象選定部７は、類義語展開部で補強された検索
構造を受けて、テキストベース中の全テキストの中から
、検索の対象となるテキストを選定する。低頻度文字列
索引８には、文字列とその文字列を含むテキストの組が
記憶されており、粗検索対象選定部７で参照される。

低頻度文字列索引８は、第５図に示す如くテキストベー
ス中に出現した各文字列（ここでは、「２文字連接Ｊの
場合を示している）と、その文字列が記載されているテ
キストの識別番号の集まりから構成されている。この文
字列索引８は、事前に、テキストベース１０を処理し、
新たに出てきた文字列を索引に追加するとともに、索引
の文字列とテキスト番号との対応をとって、それをテー
ブルの形で保持することによって作成される。

テキスト検索部９は、上記類義語展開部５までで抽出お
よび生成された検索構造を標本として、粗検索対象選定
部７か選択した各テキスト候補について、テキストベー
スｌＯを走査して、標本である検索単語や検索構造に合
致したものを検索結果とじて出力する。この際、テキス
トベース１０は予め文解析を行ったものを使用するか、
あるいは、文解析部２と′同様に、単語辞書３を用いて
検索の処理毎に形態素解析と構文解析を行うかする。

テキストベース１０は、検索対象となるべき文章の集ま
りであり、計算機が直接取扱えるような状態、例えば、
磁気ディスクや磁気テープ等の中に格納されたものであ
る。

第１図は、本実施例に示すテキストベース多段検索シス
テムの動作フローチャー１・である。

以下、本実施例のテキストベース多段検索システムの動
作を、入力部１が入力文「テキストをすばやく検索する
」を、後の処理に送った場合について説明する。

入力が検知される（ステップ１０１）と、文解析部２は
、入力文に対し形態素解析および構文解析を付い（ステ
ップ１０２）、入力文を「テキスト／名詞」「を／格助
詞」「すばやく／形容詞Ｊおよび「検索する／動詞」に
分解し、更に、入力文の動作は「検索」であり、［検索
Ｊの対象は［テキスト」、「検索」の状態は「すなやく
」であることを決定する。

構造生成部４は、これから検索対象となる単語と、それ
ら単語間の関係を示す検索構造を生成する（ステ・ツブ
１０３）。すなわち、Ｌ丁ＳＰ言語型の表現で示すなら
ば、（検索（状態すばやい）（対象テキスト））のようにな
る。このとき、同一内容な表わす複数の表現、例えば、
能働態と受動態による表現等がある場合には、その代表
たるべき構造Δ変換を行う、つまり、　［テキストをす
ばやく検索する」「テキストがすばやく検索される」の
両文章からは、ともに（検索（状態すばやい）（対象テキスト））の構造が生
成される。

類義語展開ｍ５は、類義語辞書６を参照して、検索構造
に含まれる単語を類義語に展開する。類義語辞書６中に
、「検索」の類義語として「探すノ、「すばやい」の類
義語として「早い」、「テキスト」の類義語として「文
書」、「文章」があった場合、上述の検索構造は、（（検索探す）（状態（すばやい早い））（対象（テキ
スト文書文章）））のように補強される（ステップ１０４）。

粗検索対象選定部７は、ここでは、漢字表現の低頻度文
字列索引８を用いて、テキストベース中の全テキストの
中から、検索対象となり得るテキストを選択する（ステ
ップ１０５）。−例を挙げれば、「テキスト」という単
語がなければ検索結果とならないという場合には、「テ
キ」という文字列を含むテキストであレバかつ、「キス
」と「ヌト」という文字列を含む記事のみ（つまり、積
集合）が検索候補となる。

テキストベース１０の中で、ひらがな表記の単語の出現
頻度が多い場合、ひらがな表記の文字列は低頻度文字列
索引８の中には含めずに、テキスト検索部９における候
補テキストの走査・検索で、単語の確認と単語間の関係
を検出する際に、同時に検出して評価を行う。この例で
は、「すばやく」の語幹「すばや」が検索単語となり、
テキスト検索部９で検出され、評価に用いられる。

また、例えば、「検索」の代替として、「探す」という
単語があれば検索結果となり得るという場合には、「検
索」という単語の必須性の要請から、選定された検索候
補と「探す」という単語の必須性の要請から選定された
検索候補のいずれかにある候補（つまり、和集合）が、
検索候補となる。上述の如く、検索構造に従って、テキ
スト集合に対する集合演算を行うことで、検索候補の選
定が可能である。これは、文字列とそれを含むテキスト
を言己憶している低頻度文字列索引８を用いることによ
り、高速に処理することが可能となる。

テキスト検索部９は、粗検索選定部７で選択された候補
テキスト群について、テキストベースｌＯ中を走査して
、単語が類義語展開部５から引き渡された検索構造と同
様な関係で出現したものを。

一致した文書として出力する（ステップ１０６）。

従って、前述の例の場合では、「文書をすばやく探す」
と［文書がすばやく検索される」とは星語間の検索構造
が一致したと判定するが、「文書ですばやく検索する」
は、非一致と判定され、単語のみか一致したと判定され
る。

なお、上記実施例の粗検索対象選定部７において、文字
列索引の作成に、テキストベース１０のテキストを文解
析によって解析し、解析した結果の単語に対して検索に
利用することのない助詞や接続詞等の付属語や単語を除
き、残りの単語を利用するようにすれば、更に索引の容
量が小さくて、かつ、検索対象を高速に選定することが
可能な、粗検索対象選定部７を実現できる。

上記実施例によれば、（イ）自然言語の文書から成るテキストベースを検索の
対象とすること、（ロ）自然言語で、検索するテキストを指定すること、（ハ）入力された検索を指定する自然言語文中の各単語
の関係をテキストの検索時に利用すること、（ニ）入力文中で使用された単語を、その単語と類義な
意味を表わす単語に展開したもので検索を行うこと、（ホ）検索の対象を、テキストベースの全テキストから
高速に選択する機構を備えていることにより、テキスト
ベースに対する事前の処理が不要であり、それによる情
報の欠落等を回避することができ、かつ、入力文で使用
した単語と検索結果が緩衝され、多様な入力文に対して
柔軟に対応でき、また、検索時間の短縮が可能なテキス
トベースの多段検索方式を実現できる。

なお、上述の実施例は、本発明の一例を示すものであり
、本発明はこれに限定されるべきものではないことは、
言うまでもない。

［発明の効果］以上、詳細に説明した如く、本発明によれば、テキスト
ベースの検索において、言語解析技術と文字列索引技術
を用い、更に、文字列索引を低出現頻度の文字列と高出
現頻度の文字列とに分けて多段階で検索することにより
、高速で、高精度な検索結果を得ることが可能なテキス
トベースの多段検索方式を実現できるという顕著な効果
を奏するものである。

【図面の簡単な説明】

第１図は本発明の一実施例を示すテキストベース検索シ
ステムの動作フローチャート、第２図は本実施例のテキ
ストベース検索システムの機能ブロック図、第３図は単
語辞書の内容の一部を例示する図、第４図は類義語辞書
の内容の一部を例示する図、第Ｓ図は文字列索引の内容
の一部を例示する図である。ｌ：入力部、２１文解析部、３　単語辞書、４：ｌｌ造
生成部、５：類義語展開部、６．類義語辞書、７：粗検
索対象選定部、８：低頻度文字列索引、：テキスト検索部、０テキストベース。第１図第図第図第図

Claims

【特許請求の範囲】

（１）見出し単語と、該単語の品詞情報、文法情報を記
憶した単語辞書と、自然言語で書かれた文書を蓄積した
テキストベースと、自然言語を用いて文章等を入力する
入力部と、入力された文章等を単語に分割（形態素解析
）し、分割した単語の品詞情報、文法情報から、入力さ
れた文章等の文法的構造の解析（構文解析）を行う文解
析部と、該文解析部の解析結果に基づいて前記テキスト
ベースを検索する処理部とを有するテキストベース検索
システムにおいて、見出し単語と同義あるいは類義な意
味を有する単語を記憶した類義語辞書と、テキストベー
スを単語に分割した結果を用いて、出現頻度の少ない文
字列および該文字列を含む前記テキストベース中のテキ
ストを組にした情報を持つ低頻度文字列索引とを備え、
入力文中から検索時に対象となる単語を選別し、検索の
標本となるべき構造（検索構造）を生成するステップと
、該構造生成ステップで作成した検索構造中の単語を類
義な意味の単語へ展開して検索構造を補強する類義語展
開ステップと、該類義語展開ステップで作成した検索構
造中の類義語に展開された単語群と前記低頻度文字列索
引とから、検索対象をテキストベース中の全テキストか
ら選定する粗検索対象選定ステップと、前記類義語展開
ステップで作成した検索単語と単語間の構造とを標本と
して、前記粗検索対象選定ステップで選出したテキスト
群を対象に、高出現頻度の文字列で構成される単語も含
めて走査・検出して、標本の検索構造と一致するものを
含むテキストに重み付けをして評価した検索結果を出力
することを特徴とするテキストベースの多段検索方式。