JPH03229367A

JPH03229367A - テキストベース検索方式

Info

Publication number: JPH03229367A
Application number: JP2025559A
Authority: JP
Inventors: Sueji Miyahara; 末治宮原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-02-05
Filing date: 1990-02-05
Publication date: 1991-10-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、自然言語の文章データを文字コード列として
蓄積したデータベースＣ以下、「テキストベース」とい
う）に対して、該テキストベースを形成する文字や文字
列から検索用の索引を作成し、この索引を用いることに
より、自然言語による入力文や類似文書の提示等による
間合せに対して、品速て高精度な検索を可能としたテキ
ストベース検索方式に関する。

〔従来の技術１従来、この種の技術としては、例入ば、杉山健司也の「
自然言語理解に基づく情報検索システムＩ　ＲＩ　ＳＪ
情報処理学会自然言語処理研究会資料Ｎ　Ｌ−５８−８
（１９８６，１１，２２）に記載されている如く、デー
タとしての各テキストに対して、その内容に適したキー
ワード、すなわち、そのテキストの内容に合致する分野
名または言語を付与することにより、各テキストの内容
ないし特徴を表現し、検索時には利用者が求めるテキス
トの内容に関連したキーワードの論理的結合関係、つま
り、ＡＮＤまたはＯＲ等を指定して、その検索条件を満
足するテキストを抽出する方法が用いられている。

上記文献に記載されている如く、従来は、自然言語によ
る質問文を受付けるインタフェースを有する場合にも、
質問文を解析することにより、ユーザの検索要求を対応
するキーワードに展開し、それらのキーワードの間の論
理的結合関係を決めて検索を行っている。すなわち、自
然言語によるインタフェースを有するか否かにかかわら
ず、テキストベースの検索は、いずれもキーワード検索
によっていた。

しかしながら、上述の如く、テキスト中に含まれている
キーワードな手掛りにして検索を行う方法では、検索の
精度が高くならないという問題があった。これは、通常
、再現率、つまり、ユーザの検索要求に関連するテキス
ト全体の中での検索された関連テキストの占める割合と
、適合率　つまり、検索されたテキスト全体の中での検
索された関連テキストの占める割合とで評価される。

実際には、テキストの内容にふされしいキーワードを付
与するということは、そのテキストの主題、要旨を表現
する言葉、あるいは、関連する主要な分野を表わす言葉
をそのテキストを代表する言葉として付与することであ
る。しかし、実際には、ユーザが検索要求時に思い浮か
べる言い方をすべてキーワードとして付与することは、
検索時に不要なテキストを多数出力することにもなり、
高い検索精度を確保しながら種々の表現に対応すること
は難かしいことである。また、補足的な記述中の情報を
検索したい場合でも、補足的な部分にキーワードを付与
することは一般的にはないので、キーワード検索により
検索することは不可能である。

なお、検索の精度を向上させるためには、例えば、絹用
博之他の「日本語文構造解析による自動インデクシング
方式」情報処理学会論文誌Ｖｏ１．２＋、　Ｎｎ３（１
９８０，５）に記載されている如き方式も提案されてい
る。ここでは、各キーワードに意味的役割、すなわち、
テキスト中での主体９客体等を付与する方法が用いられ
ているか、検索時の手掛りとしてキーワードを用いるこ
とに関しては、前述の文献と同様である。

上記問題を解決するものとして、本発明者等が先に提案
したｒテキストデータ検索方法」（特願平１−７６０１
２号明細書お↓び図面参照）では、テキストを検索する
ための検索要求（問合せ）を自然言語の文章によって入
力するようにしており、また、同「類似文書検索装置Ｊ
（特願平１−３１０５６２号明細書および図面参照）で
は、上記間合仕を、自然言語で記載した類似文書（適合
文書）によって入力するようにしている。

［発明が解決しようとする課題］これらの提案では、まず、品詞や文法情報を付与された
単語辞書を用いて、入力文である自然言語の文字列を形
態素解析して、単語に分解する。

この分割と同時に、入力文の文法的構造の解析を行い、
検索の標本となるべき星語間の構造を抽出する。次に、
類義語辞書を用いて、検索用の標本単語を同義ないし類
義な意味を有する単語に展開し、その展開結果を用いて
テキストベースを検索し、標本の検索構造と一致するも
のを含むテキスト、あるいは、構造が一致する単語を多
く含むテキストを、検索結果として出力するものである
。

しかし、上述のテキストベース検索方式において、大容
量のテキストベースを直接検索するには膨大な処理を要
することになる。本発明は、この場合に問題となる計算
機処理の時間を低減することを目的とするものである。

すなわち、本発明の目的は、テキストベースの検索にお
いて、言語解析技術と文字列索引技術とを用いることに
より、高い検索精度を保持するとともに、補足的に記述
されている事柄についても漏れなくテキストを検索する
ことが可能な、高精度でかつ高速な検索結果を得ること
が可能なテキストベース検索方式を提供することにある
。

［課題を解決するための手段］本発明の上述の目的は、見出し単語と、該単語の品詞情
報１文法情報を記憶した単語辞書と、自然言語で書かれ
た文書を蓄積したテキストベースと、自然言語を用いて
文章等を入力する入力部と、入力された文章等を単語に
分割（形態素解析）し、分割した単語の品詞情報９文法
情報から、入力された文章等の文法的構造の解析（構文
解析）を行う文解析部と、該文解析部の解析結果に基づ
いて前記テキストベースを検索する処理部とを有するテ
キストベース検索システムにおいて、見出し単語と同義
あるいは類義な意味を有する単語を記憶した類義語辞書
と、文字列および該文字列を含む前記テキストベース中
のテキストを組にした情報を持つ文字列索引とを備え、
入力文中から検索時に対象となる単語を選別し、検索の
標本となるべき構造（検索構造〕を生成するステップと
、該構造生成ステップで作成した検索構造中の単語を類
義な意味の単語へ展開して検索構造を補強する類義語展
開ステップと、該類義語展開ステップで作成した検索構
造中の類義語に展開された単語群と前記文字列索引とか
ら、検索対象をテキストベース中の全テキストから選定
する検索対象選定ステップと、前記類義語展開ステップ
で作成した検索構造を標本として、前記検索対象選定ス
テップで選出したテキスト群を走査して、標本の検索構
造と一致するものを含むテキストを検索結果として出力
することを特徴とするテキストベース検索方式によって
達成される。

［作用］本発明に係るテキストベース検索方式においては、テキ
ストベース検索のための検索要求、例えば、日本語の自
然言語による質問文を解析して、テキストベース中のす
べての文章の中から、検索要求の内容に合致するものを
抽出すること、および、検索処理を高速に行うことが特
徴である。

すなわち、検索要求としての入力文の内容に合致するテ
キストとして入力文の語およびその類義語とその結合関
係（格関係）が同様の語、および、その結合関係を有す
るものを抽出することにより処理の高速化を図り、実用
的な応答速度を実現するものである。

より詳細には、文字列とその文字列を含むテキストに関
する情報を持つ文字列索引を用いて、検索対象となるテ
キストを選定することで、高速な応答を実現するもので
ある。

［実施例］以下、本発明の実施例を図面に基づいて詳細に説明する
。

第２図は、本発明の一実施例を示すテキストベース検索
システムの機能ブロック図である。

図において、ｌは検索のための質問文を自然言語の文章
により入力するための入力部、２は文章の文法的構造を
決定する文解析部であり、その実体はサブルーチンプロ
グラムである。３は単語辞書であって、メモリファイル
に格納されている。

４は単語相互間の関係から、検索に用いるための構造を
生成する構造生成部であり、これもサブルーチンプログ
ラムである。

５は検索構造中の単語について辞書を参照してその単語
と類似の意味を表わす単語を選択する類義語展開部、６
は類義な意味を表わす単語が格納される類義語辞書であ
り、メモリファイルに格納されている。７は検索対象選
定部であり、検索の対象を選択するサブルーチンプログ
ラム、８は後述する文字列索引、９はテキスト検索部で
あり、これもサブルーチンプログラムである。１０はテ
キストベースてあり、検索対象となる文章の集まりか格
納されているメモリファイルである。

システムのハードウェアは、計算機等の情報処理装置と
、各辞ａを格納する外部記憶装置および各辞書を格納す
る外部記憶装置と質問文を入力するためのキーボードや
スキャナ等の入力装置から構成されている。

上記入力部ｌは、テキストを検索するための検索要求（
質問）を自然言語の文章等により入ツノするものであり
、キー操作入力あるいは音声認識１文字パターン認識等
の文字符号化処理を介して、自然言語の文章や記事が、
装置に取込まれる。文解析部２は、入力部１を介して入
力された文章等を解析して、入力文の文法的構造を決定
する。これには、文章を構成する各単語の識別・分解を
行う形態素解析と、それの単語の結び付き方から、文の
構造を決定する構文解析とがある。文解析部２て行われ
る構文解析は、該文章中の各用言に対応した格構造を抽
出する。後述の単語辞書３には、文解析部２における形
態素解析および構文解析に用いる情報が記憶されている
。

第３図は、単語辞書３の内容の一部を示す図である。単
語辞書３には第３図に示す如く、その内容として、単語
の見出しとその単語の品詞および構文解析に必要な文法
情報が格納されている。第３図に示す例で、文法情報は
付属語についてその付属語か接続できる語の種類（格助
詞の場合は「体言Ｊ）を示しており、図の「：」より右
にはその付属語が接続する語の格情報（主格、対象格等
）を示している。但し、ここでは、表層的な格情報で示
しである。

構造構成部４は、前述の文解析部２の解析結果を受けて
、検索に用いる単語を取出し、それらの単語相互間の関
係から、検索に用いるための標準となるべき構造（以下
、「検索構造」という）を生成する。この際、同−内容
を表わす複数の自然言語表現が考えられる場合、その代
表たるべき表現の構造へ変換を行う。

次に、類義語展開部５は、上述の構造生成部４で生成さ
れた検索構造中の単語について、その単語の意味と類似
の意味を表わす１１語を選抜し１、検索構造を補強する
。類義語辞書６には、類義の意味を表わす単語が格納さ
れており、類義語展開部５で参照される。

第４図は、類義語辞書６の内容の一部を示す図である。

類義語辞書６には、第４図に示す如く、その内容として
、単語の見出しとその単語と類義の意味を持つ単語（類
義語）の集まりが格納されている。

検索対象選定部７は、類義語展開部で補強された検索構
造を受けて、テキストベース中の全テキストの中から、
検索の対象となる記事テキストを選定する。文字列索引
８には、文字列とその文字列を含むテキストの組が記憶
されており、検索対象選定部７で参照される。

文字列索引８は、第５図に示す如く、テキストベース中
に出現した各文字列（ここでは、「２文字連接」の場合
を示している〕と、その文字列が記載されているテキス
トの識別番号の集まりから構成されている。この文字列
索引８は、事前に、テキストベース］０を処理し、新た
に出てきた文字列を索引に追加するとともに、索引の文
字列とテキスト番号との対応をとって、それをテーブル
の形で保持することによって作成されるものである。

テキスト検索部９は、上述の類義語展開部５までで生成
された検索構造を標本として、検索対象選定部７が選択
した各テキスト候補について、テキストベース１０を走
査して、標本である検索構造に合致したものを検索結果
として出力する。この際、文解析部２と同様に、単語辞
書３を用い、形態素解析と構文解析を行う。

テキストベース１０は、検索対象となるべき文章の集ま
りであり、計算機が直接取扱えるような状態、例えば、
磁気ディスクや磁気テープ等の中に格納されたものであ
る。

第１図は、本実施例に示すテキストベース検索システム
の動作フローチャートである。以下、本実施例のテキス
トベース検索システムの動作を、入力部１が入力文「テ
キストを検索するＪを、後の処理に送った場合（ステッ
プ＋０＋）について説明する。

文解析部２は、入力文に対し、形態素解析および構文解
析を行い（ステップ１０２）　、入力文を「テキスト／
名詞」［を／格助詞Ｊ［検索するｌ′動詞Ｊに分解し、
更に、入力文の動作は「検索」てあり、「検索Ｊの対象
は「テキスト」であることを決定する。

構造生成部４は、これから検索対象となる単語と、それ
ら単語間の関係を示す検索構造を生成する（ステップ１
０３）。すなわち、ＬＪＳＰ言語型の表現で示すならば
、（検索（対象テキスト））のようになる。このとき、同一内容を表わす複数の表現
、例えば、能働態と受動態による表現等がある場合には
、その代表たるべき構造へ変換を行う。つまＦハ　「テ
キストを検索する」　「テキストが検索される」の両文
章からは、ともに（検索（対象テキスト〕）の構造が生成される。

類Ｒ語展開部５は、類義語辞書６を参照して、検索構造
に含まれる単語を類義語に展開する。類義語辞書６中に
、「検索Ｊの類義語として「探す」、ｒテキスト」の類
義語として「文書」、［文章Ｊがあった場合、上述の検
索構造は、（（検索探す）（対象でテキスト文書文章戸〕のように
補強されろくステップ１０４）。

検索対象選定部７は、文字列索引８を用いて、テキスト
ベース中の全テキストの中から検索対象となり得るテキ
ストを選択する（ステップｌ０５）。

例えば、「テキスト」という咽語かなければ検索結果と
ならないという場合には、「テキＪという文字列を含む
テキストであり、かつ、「キス」と［ストＪという文字
列を含む記事のみ（つまり、積集合〕が検索候補となる
。

また、例えば、「検索」の代替として、［探すＪという
単語があれば検索結果となり得るという場合には、「検
索Ｊという単語の必須性の要請から１選定された検索候
補と「探す」という単語の必須性の要請から選定された
検索候補のいずれかにある候補（つまり、和集合）が、
検索候補となる。上述の如く、検索構造に従って、テキ
スト集合に対する集合演算を行う、：とで、検索候補の
選定が可能である。これは、文字列とそれを含むテキス
トを記憶している文字列索引８を用いることにより、高
速に処理する二とが可能となるものである。

テキスト検索部９は、検索選定部７で選択さねたテキス
ト群に一ついて、テキストベース１０中を走査して、単
語が類義語展開部５から引き渡された検索構造と同様な
関係で出現したものを、一致した文書として出力する（
ステップｌ０６）。

従って、前述の例の場合では、［文書を探すＪと「文書
が検索される」とは一致したと判定するが、［テキスト
で検索するＪは、非一致と判定する。何故ならば、「テ
キストで」は「テキスト」が検索の対象ではなく、手段
であって、入力した文章の意味が文法的に異なるためで
ある。

上記実施例によれば。

（イ）自然言語の文書から成るテキストベースを検索の
対象とすること、（ロ）自然言語で、検索するテキストを指定すること。

（ハ）人力された検索を指定する自然言語文中の各単語
の関係をテキストの検索時に利用する−と、（ニ）入力文中で使用された単語を、その単語と類義な
意味を表わす単語に展開したもので検索を行うこと、（ホ）検索の対象を、テキストベースの全テキストから
高速に選択する機構を備えている二とにより、テキスト
ベースに対する事前の処理が不要であり、それによる情
報の欠落等を回避することができ、かつ、入力文で使用
した単語と検索結果が緩衝され、多様な入力文に対して
柔軟に対応でき、また、検索時間の短縮が可能なテキス
トペース検索方式を実現できる。

次に、上記実施例に示した検索対象選定部７において用
いる文字列索引８の也の構成方式について説明する。以
下に説明する実施例においては、文字索引や文字列索引
を、テキストベース中のテキストに存在する名詞や動詞
等の有意な単語、あるいは、未知語によって作成するも
のである。

このような索引を作成するには、単語辞書３を用いてテ
キストベース１０のテキストを文解析部２によって解析
し、解析した結果から検索に利用することのない助詞や
接続詞等の単語、または、複合語における単語間のねた
りの語句を除いた残りの単語を用いて文字列索引を作成
すれば良い。

例えば、「文字列索引を作成するＪというテキストに対
して、２文字連接の文字列索引を作成する場合、前述の
方法では、第６図中の文字列（ａ）に示す如き９個の索
引が抽出される。一方、本実施例の方法では、文解析に
よって、「文字列／名詞」「索引／名詞Ｊｒを／格助詞
Ｊ「作成する／動詞Ｊを抽出し、この中から助詞や動詞
の語尾等の不要な語句を除くことにより、第６図中の文
字列（ｂ）に示す如く、索引として、Ｆ文字」「字列」
「索引」「作成Ｊの４個の文字列が抽出される。

このような文字列索引８を用意することによって、索引
の容量が小さくて、かつ、検索対象を高速に選定するこ
とが可能な検索対象選定＠７を実現することができる。

次に、文字列索引８の更に他の構成方式について説明す
る。以下に説明する実施例においては、文字索引や文字
列索引を、テキストベース中のテキストに存在する名詞
や動詞等の有意な単語、あるいは、未知語に限定し、更
に、低出視頻度の文字列（漢字等〕と高出現頻度の文字
列（平板名や片仮名等）等とで文字列索引の長さを変え
て、１個の索引に対する組となるテキスト数を平準化さ
せて作成するものである。

このような索引を作成するには、単語辞書３を用いてテ
キストベースＩＯのテキストを文解析部２によって解析
し、解析した結果から検索に利用することのない助詞や
接続詞等の単語、または、複合語における単語間のわた
りの語句を除いた残りの単語を用いて文字列索引を作成
し、更に、この文字列索引において組となるテキスト数
が多いものに対して文字列数を増した索引を用いて文字
列索引を作成すれば良い。この典型的な例として、高出
現頻度の文字列、例えば、平板名を単語単位で用意する
ことが考えられる。

例えば、「ひらがなの使用頻度を調べる」というテキス
トに対して、文字列索引を作成する場合、上述の方法で
は、ＦひらがなＪＴ使用Ｊ「頻度ＪＴ調べるＪ等の単語
が切出され、第７図（ａ）に示す如き６個の索引が抽出
される。しかし、テキストベースを調べた結果、「ひら
おり」や［ひらめかす」等、「ひら」という文字が多数
出現する場合、文字列索引は、第７図（ｂ）の文字列索
引で示される如く、索引「ひら」の項目のテキスト識別
番号の数が多くなり、後続のテキスト検索部図９で、多
数のテキストを走査、検索することが必要になる。

そのため、ここでは、出現頻度の高い文字列については
、連接の長さを長くとることによって、一つの文字列索
引に対するテキスト識別番号の数が均一化するようにす
る。例えば、上の例の場合の「ひらがなの使用頻度を調
べるＪというテキストに対しては、「ひらがなＪという
文字列を索引にすれば、文字列索引は第７図（ｃ）に示
す如く、４個の文字列索引になるとともに、テキスト識
別番号の数も減少する。

このような文字列索引８を用意することによって、索引
の容量が小さくて、かつ、検索対象を高速に選定するこ
とが可能な検索対象選定部７を実現することができる。

なお、上述の各実施例は、本発明の一例を示すものであ
り、本発明はこれらに限定されるべきものではないこと
は、言うまでもない。

［発明の効果］以上、詳細に説明した如く、本発明によれば、テキスト
ベースの検索において、言語解析技術と文字列索引技術
とを用いることにより、高い検索精度を保持するととも
に、補足的に記述されている事柄についても漏れなくテ
キストを検索することが可能な、高精度でかつ高速な検
索結果を得ることが可能なテキストベース検索方式を実
現できるという顕著な効果を奏する。

【図面の簡単な説明】

第１図は本発明の一実施例を示すテキストベース検索シ
ステムの動作フローチャート、第２図は本実施例のテキ
ストベース検索システムの機能ブロック図、第３図は単
語辞書の内容の一部を例示する図、第４図は類義語辞書
の内容の一部を例示する図、第５図は文字列索引の内容
の一部を例示する図、第６図および第７図は文字列索引
の内容の他の例の一部を示す図である。に入力部、２１文解析部、３：単語辞書、４：構造生成
部、５：類義語展開部、６．類義語辞書、７：検索対象
選定部、８１文字列索引、９：テキスト検索部、１０：
テキストベース。第 ■ 図第図第４図第図第図

Claims

【特許請求の範囲】

（１）見出し単語と、該単語の品詞情報、文法情報を記
憶した単語辞書と、自然言語で書かれた文書を蓄積した
テキストベースと、自然言語を用いて文章等を入力する
入力部と、入力された文章等を単語に分割（形態素解析
）し、分割した単語の品詞情報、文法情報から、入力さ
れた文章等の文法的構造の解析（構文解析）を行う文解
析部と、該文解析部の解析結果に基づいて前記テキスト
ベースを検索する処理部とを有するテキストベース検索
システムにおいて、見出し単語と同義あるいは類義な意
味を有する単語を記憶した類義語辞書と、文字列および
該文字列を含む前記テキストベース中のテキストを組に
した情報を持つ文字列索引とを備え、入力文中から検索
時に対象となる単語を選別し、検索の標本となるべき構
造（検索構造）を生成するステップと、該構造生成ステ
ップで作成した検索構造中の単語を類義な意味の単語へ
展開して検索構造を補強する類義語展開ステップと、該
類義語展開ステップで作成した検索構造中の類義語に展
開された単語群と前記文字列索引とから、検索対象をテ
キストベース中の全テキストから選定する検索対象選定
ステップと、前記類義語展開ステップで作成した検索構
造を標本として、前記検索対象選定ステップで選出した
テキスト群を走査して、標本の検索構造と一致するもの
を含むテキストを検索結果として出力することを特徴と
するテキストベース検索方式。
（２）前記文字列索引は、テキストベースを単語に分割
し、分割した結果から検索で意味をなさない単語を除い
て作成されるものであることを特徴とする請求項１記載
のテキストベース検索方式。
（３）前記文字列索引は、テキストベースを単語に分割
し、分割した結果から検索で意味をなさない単語を除き
、かつ、低出現頻度の文字列と高出現頻度の文字列とで
文字列の長さを変えて作成されるものであることを特徴
とする請求項１記載のテキストベース検索方式。