JPH03229366A - テキストベースの多段検索方式 - Google Patents

テキストベースの多段検索方式

Info

Publication number
JPH03229366A
JPH03229366A JP2025560A JP2556090A JPH03229366A JP H03229366 A JPH03229366 A JP H03229366A JP 2025560 A JP2025560 A JP 2025560A JP 2556090 A JP2556090 A JP 2556090A JP H03229366 A JPH03229366 A JP H03229366A
Authority
JP
Japan
Prior art keywords
search
words
text
sentence
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2025560A
Other languages
English (en)
Inventor
Sueji Miyahara
末治 宮原
Hidefumi Kano
加納 英文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2025560A priority Critical patent/JPH03229366A/ja
Publication of JPH03229366A publication Critical patent/JPH03229366A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、自然言語の文章データを文字コード列として
蓄積したデータベース(以下、「テキストベース」とい
う)に対して、該テキストベースを形成する文字や文字
列の中で出現頻度の低い漢字等の文字種から検索用の索
引を作成し、ひらがな等の高出現頻度の文字列から成る
単語とは区別して用いることにより、自然言語による入
力文や類似文書の提示等による検索間合せに対して、高
速で高精度な検索を可能としたテキストベースの多段検
索方式に関する。
〔従来の技術〕
従来、この種の技術としては、例えば、杉山健司他の「
自然言語理解に基づく情報検索システムIRISJ情報
処理学会自然言語処理研究会資料N L−58−8(1
986,11,22)に記載されている如く、データと
しての各テキストに対して、その内容に適したキーワー
ド、すなわち、そのテキストの内容に合致する分野糸ま
たは言語を付与することにより、各テキストの内容ない
し特徴を表現し、検索時には利用者が求めるテキストの
内容に関連したキーワードの論理的結合関係、つまり、
ANDまたはOR等を指定して、その検索条件を満足す
るテキストを抽出する方法が用いられている。
上記文献に記載されている如く、従来は、自然言語によ
る質問文を受付けるインタフェースを有する場合にも、
質問文を解析することにより、ユーザの検索要求を対応
するキーワードに展開し、それらのキーワードの間の論
理的結合関係を決めて検索を行っている。すなわち、自
然言語によるインタフェースを有するか否かにかかわら
ず、テキストベースの検索は、いずれもキーワード検索
によっていた。
しかしながら、上述の如く、テキスト中に含まれている
キーワードを手掛りにして検索を行う方法では、検索の
精度が高くならないという問題があった。これは、通常
、再現率、つまり、ユーザの検索要求に関連するテキス
ト全体の中での検索された関連テキストの占める割合と
、適合率、つまり、検索されたテキスト全体の中での検
索された関連テキストの占める割合とで評価される。
実際には、テキストの内容にふされしいキーワードを付
与するということは、そのテキストの主題、要旨を表現
する言葉、あるいは、関連する主要な分野を表わす言葉
をそのテキストを代表する言葉として付与することであ
る。しかし、実際には、ユーザが検索要求時に思い浮か
べる言い方をすべてキーワードとして付与することは、
検索時に不要なテキストを多数出力することにもなり、
高い検索精度を確保しながら種々の表現に対応すること
は難かしいことである。また、補足的な記述中の情報を
検索したい場合でも、補足的な部分にキーワードを付与
することは一般的にはないので、キーワード検索により
検索することは不可能である。
なお、検索の精度を向上させるためには、例えば、絹用
博之他の[日本語文構造解析による自動インデクシング
方式」情報処理学会論文誌Vo1.21、m3(198
0,5)に記載されている如き方式も提案されている。
ここでは、各キーワードに意味的役割、すなわち、テキ
スト中での主体2客体等を付与する方法が用いられてい
るが、検索時の手掛りとしてキーワードを用いることに
間しては、前述の文献と同様である。
上記問題を解決するものとして、本発明者等が先に提案
した「テキストデータ検索方法」(特願平1−7601
2号明細書および図面参照)では、テキストを検索する
ための検索要求(問合せ)を自然言語の文章によって入
力するようにしており、また、同「類似文書検索装置」
(特願平1−310562号明細書および図面参照)で
は、上記問合せを、自然言語で記載した類似文書(適合
文書)によって入力するようにしている。
〔発明が解決しようとする課題〕
これらの提案では、まず、品詞や文法情報を付与された
単語辞書を用いて、入力文である自然言語の文字列を形
態素解析して、単語に分解する。
この分割と同時に、入力文の文法的構造の解析を行い、
検索の標本となるべき単語間の構造を抽出する。次に、
類義語辞書を用いて、検索用の標本単語を同義ないし類
義な意味を有する単語に展開し、その展開結果を用いて
テキストベースを検索し、標本の検索構造と一致するも
のを含むテキスト、あるいは、構造が一致する単語を多
く含む文字列に優先付け(重み付け)したテキスト、検
索単語を多く含むテキストを、検索結果として出力する
ものである。
しかし、上述のテキストベース検索方式において、大容
量のテキストベースを直接検索するには膨大な処理を要
することになる。本発明は、この場合に問題となる計算
機処理の時間を低減することを目的とするものである。
すなわち、本発明の目的は、テキストベースの検索にお
いて、言語解析技術と文字列索引技術とを用い、更は、
文字列索引を低出現頻度の文字列と高出現頻度の文字列
とに分けて多段階で検索することにより、高速で、高精
度な検索結果を得ることが可能なテキストベースの多段
検索方式を提供することにある。
〔課題を解決するための手段] 本発明の上記目的は、見出し単語と、該単語の品詞情報
9文法情報を記憶した単語辞書と、自然言語で書かれた
文書を蓄積したテキストベースと、自然言語を用いて文
章等を入力する入力部と、入力された文章等を単語に分
割(形態素解析)し、分割した単語の品詞情報9文法情
報から、入力された文章等の文法的構造の解析(構文解
析)を行う文解析部と、該文解析部の解析結果に基づい
て前記テキストベースを検索する処理部とを有するテキ
ストベース検索システムにおいて、見出し単語と同義あ
るいは類義な意味を有する単語を記憶した類義語辞書と
、テキストベースを単語に分割した結果を用いて、出現
頻度の少ない文字列および該文字列を含む前記テキスト
ベース中のテキストを組にした情報を持つ低頻度文字列
索引とを備え、入力文中から検索時に対象となる単語を
選別し、検索の標本となるべき構造(検索構造)を生成
するステップと、該構造生成ステップで作成した検索構
造中の単語を類義な意味の単語へ展開して検索構造を補
強する類義語展開ステップと、該類義語展開ステップで
作成した検索構造中の類義語に展開された単語群と前記
低頻度文字列索引とから、検索対象をテキストベース中
の全テキストから選定する粗検索対象選定ステップと、
前記類義語展開ステップで作成した検索単語と単語間の
構造とを標本として、前記粗検索対象選定ステップで選
出したテキスト群を対象に、高出現頻度の文字列で構成
される単語も含めて走査・検出して、標本の検索構造と
一致するものを含むテキストに重み付けをして評価した
検索結果を出力することを特徴とするテキストベースの
多段検索方式によって達成される。
〔作用〕
本発明に係るテキストベースの多段検索方式においては
、テキストベース検索のための検索要求、例えば、日本
語の自然言語による質問文を解析して、テキストベース
中のすべての文章の中から、検索要求の内容に合致する
ものを抽出すること、および、検索処理を高速に行うこ
とが主要な特徴である。
すなわち、検索要求としての入力文の内容に合致するテ
キストとして入力文の語およびその類義語とその結合関
係(格関係)が同様の語、および、その結合関係を有す
るものを優先して抽出することで検索精度を確保すると
ともに、文字列とその文字列を含むテキストを段階的に
選定することにより、文字列索引情報を格納するのに必
要なメモリ容量を少なくし、処理の高速化を図り、実用
的な応答速度を実現するものである。
より詳細には、テキストベースを形成する文字列から文
字列索引を抽出する際に、テキスト中で出現頻度が高い
文字(例えば、ひらがな等)を除いて索引を作成し、こ
の索引(低頻度文字列索引)を用いてテキストベースを
検索する粗検索対象選定ステップと、上記低頻度文字列
索引を用いてテキストベースを選定して得られた粗検索
結果の候補テキストに対して、高出現頻度の文字、すな
わち、索引外文字によって構成される検索構造中の単語
や、それらを類義語展開して得られた単語をも用いてテ
キストベースを検索することにより、高速な応答を実現
するものである。
〔実施例〕
以下、本発明の実施例を図面に基づいて詳細に説明する
第2図は、本発明の一実施例を示すテキストベース多段
検索システムの機能ブロック図である。
図において、1は検索のための質問文を自然言語の文章
により入力するための入力部、2は文章の文法的構造を
決定する文解析部であり、その実体はサブルーチンプロ
グラムである。3は単語辞書であって、メモリファイル
に格納されている。
4は単語相互間の関係から、検索に用いるための構造を
生成する構造生成部であレバこれもサブルーチンプログ
ラムである。
5は検索構造中の単語について辞書を参照してその単語
と類似の意味を表わす単語を選択する類義語展開部、6
は類義な意味を表わす単語が格納される類義語辞書であ
り、メモリファイルに格納されている。7は粗検索対象
選定部であり、検索の対象を選択するサブルーチンプロ
グラム、8は後述する低頻度文字列索引、9はテキスト
検索部であり、これもサブルーチンプログラムである。
また、10はテキストベースであり、検索対象となる文
章の集まりが格納されているメモリファイルである。
システムのハードウェアは、計算機等の情報処理装置と
、各辞書を格納する外部記憶装置および各辞書を格納す
る外部記憶装置と質問文を入力するためのキーボードや
スキャナ等の入力装置から構成されている。
上記入力部1は、テキストを検索するための検索要求(
質問)を自然言語の文章等により入力するものであり、
キー操作入力あるいは音声認識2文字パターン認識等の
文字符号化処理を介して、自然言語の文章や記事が、装
置に取込まれる。文解析部2は、入力部1を介して入力
された文章等を解析して、入力文の文法的構造を決定す
る。これには、文章を構成する各単語の識別・分解を行
う形態素解析と、それの単語の結び付き方から、文の構
造を決定する構文解析とがある。文解析部2で行われる
構文解析は、該文章中の各用言に対応した格構造を抽出
する。後述の単語辞書3には、文解析部2における形態
素解析および構文解析に用いる情報が記憶されている。
第3図は、単語辞書3の内容の一部を示す図である。単
語辞書3には第3図に示す如く、その内容として、単語
の見出しとその単語の品詞および構文解析に必要な文法
情報か格納されている。第3図に示す例で、文法情報は
付属語についてその付属語が接続できる語の種類(格助
詞の場合は「体言」)を示しており、図の「・」より右
にはその付属語が接続する語の格情報(主格、対象路等
)を示している。但し、ここでは、表層的な格情報で示
しである。
構造構成部4は、前述の文解析@2の解析結果を受けて
、検索に用いる単語を取出し、それらの単語相互間の関
係から、検索に用いるための標準となるべき構造(以下
、「検索構造Jという)を生成する。この際、同一内容
を表わす複数の自然言語表現が考えられる場合、その代
表たるべき表現の構造へ変換を行う。
次に、類義語展開部5は、上述の構造生成部4で生成さ
れた検索構造中の単語について、その単語の意味と類似
の意味を表わす単語を選抜し、検索構造を補強する。類
義語辞書6には、類義の意味を表わす単語が格納されて
おり、類義語展開部5で参照される。
第4図は、類義語辞書6の内容の一部を示す図である。
類義語辞書6には、第4図に示す如く、その内容として
、単語の見出しとその単語と類義の意味を持つ単語(類
義語)の集まりか格納されている。
粗検索対象選定部7は、類義語展開部で補強された検索
構造を受けて、テキストベース中の全テキストの中から
、検索の対象となるテキストを選定する。低頻度文字列
索引8には、文字列とその文字列を含むテキストの組が
記憶されており、粗検索対象選定部7で参照される。
低頻度文字列索引8は、第5図に示す如くテキストベー
ス中に出現した各文字列(ここでは、「2文字連接Jの
場合を示している)と、その文字列が記載されているテ
キストの識別番号の集まりから構成されている。この文
字列索引8は、事前に、テキストベース10を処理し、
新たに出てきた文字列を索引に追加するとともに、索引
の文字列とテキスト番号との対応をとって、それをテー
ブルの形で保持することによって作成される。
テキスト検索部9は、上記類義語展開部5までで抽出お
よび生成された検索構造を標本として、粗検索対象選定
部7か選択した各テキスト候補について、テキストベー
スlOを走査して、標本である検索単語や検索構造に合
致したものを検索結果とじて出力する。この際、テキス
トベース10は予め文解析を行ったものを使用するか、
あるいは、文解析部2と′同様に、単語辞書3を用いて
検索の処理毎に形態素解析と構文解析を行うかする。
テキストベース10は、検索対象となるべき文章の集ま
りであり、計算機が直接取扱えるような状態、例えば、
磁気ディスクや磁気テープ等の中に格納されたものであ
る。
第1図は、本実施例に示すテキストベース多段検索シス
テムの動作フローチャー1・である。
以下、本実施例のテキストベース多段検索システムの動
作を、入力部1が入力文「テキストをすばやく検索する
」を、後の処理に送った場合について説明する。
入力が検知される(ステップ101)と、文解析部2は
、入力文に対し形態素解析および構文解析を付い(ステ
ップ102)、入力文を「テキスト/名詞」「を/格助
詞」「すばやく/形容詞Jおよび「検索する/動詞」に
分解し、更に、入力文の動作は「検索」であり、[検索
Jの対象は[テキスト」、「検索」の状態は「すなやく
」であることを決定する。
構造生成部4は、これから検索対象となる単語と、それ
ら単語間の関係を示す検索構造を生成する(ステ・ツブ
103)。すなわち、L丁SP言語型の表現で示すなら
ば、 (検索(状態すばやい)(対象テキスト))のようにな
る。このとき、同一内容な表わす複数の表現、例えば、
能働態と受動態による表現等がある場合には、その代表
たるべき構造Δ変換を行う、つまり、 [テキストをす
ばやく検索する」「テキストがすばやく検索される」の
両文章からは、ともに (検索(状態すばやい)(対象テキスト))の構造が生
成される。
類義語展開m5は、類義語辞書6を参照して、検索構造
に含まれる単語を類義語に展開する。類義語辞書6中に
、「検索」の類義語として「探すノ、「すばやい」の類
義語として「早い」、「テキスト」の類義語として「文
書」、「文章」があった場合、上述の検索構造は、 ((検索探す)(状態(すばやい早い))(対象(テキ
スト文書文章))) のように補強される(ステップ104)。
粗検索対象選定部7は、ここでは、漢字表現の低頻度文
字列索引8を用いて、テキストベース中の全テキストの
中から、検索対象となり得るテキストを選択する(ステ
ップ105)。−例を挙げれば、「テキスト」という単
語がなければ検索結果とならないという場合には、「テ
キ」という文字列を含むテキストであレバかつ、「キス
」と「ヌト」という文字列を含む記事のみ(つまり、積
集合)が検索候補となる。
テキストベース10の中で、ひらがな表記の単語の出現
頻度が多い場合、ひらがな表記の文字列は低頻度文字列
索引8の中には含めずに、テキスト検索部9における候
補テキストの走査・検索で、単語の確認と単語間の関係
を検出する際に、同時に検出して評価を行う。この例で
は、「すばやく」の語幹「すばや」が検索単語となり、
テキスト検索部9で検出され、評価に用いられる。
また、例えば、「検索」の代替として、「探す」という
単語があれば検索結果となり得るという場合には、「検
索」という単語の必須性の要請から、選定された検索候
補と「探す」という単語の必須性の要請から選定された
検索候補のいずれかにある候補(つまり、和集合)が、
検索候補となる。上述の如く、検索構造に従って、テキ
スト集合に対する集合演算を行うことで、検索候補の選
定が可能である。これは、文字列とそれを含むテキスト
を言己憶している低頻度文字列索引8を用いることによ
り、高速に処理することが可能となる。
テキスト検索部9は、粗検索選定部7で選択された候補
テキスト群について、テキストベースlO中を走査して
、単語が類義語展開部5から引き渡された検索構造と同
様な関係で出現したものを。
一致した文書として出力する(ステップ106)。
従って、前述の例の場合では、「文書をすばやく探す」
と[文書がすばやく検索される」とは星語間の検索構造
が一致したと判定するが、「文書ですばやく検索する」
は、非一致と判定され、単語のみか一致したと判定され
る。
なお、上記実施例の粗検索対象選定部7において、文字
列索引の作成に、テキストベース10のテキストを文解
析によって解析し、解析した結果の単語に対して検索に
利用することのない助詞や接続詞等の付属語や単語を除
き、残りの単語を利用するようにすれば、更に索引の容
量が小さくて、かつ、検索対象を高速に選定することが
可能な、粗検索対象選定部7を実現できる。
上記実施例によれば、 (イ)自然言語の文書から成るテキストベースを検索の
対象とすること、 (ロ)自然言語で、検索するテキストを指定すること、 (ハ)入力された検索を指定する自然言語文中の各単語
の関係をテキストの検索時に利用すること、 (ニ)入力文中で使用された単語を、その単語と類義な
意味を表わす単語に展開したもので検索を行うこと、 (ホ)検索の対象を、テキストベースの全テキストから
高速に選択する機構を備えていることにより、テキスト
ベースに対する事前の処理が不要であり、それによる情
報の欠落等を回避することができ、かつ、入力文で使用
した単語と検索結果が緩衝され、多様な入力文に対して
柔軟に対応でき、また、検索時間の短縮が可能なテキス
トベースの多段検索方式を実現できる。
なお、上述の実施例は、本発明の一例を示すものであり
、本発明はこれに限定されるべきものではないことは、
言うまでもない。
[発明の効果] 以上、詳細に説明した如く、本発明によれば、テキスト
ベースの検索において、言語解析技術と文字列索引技術
を用い、更に、文字列索引を低出現頻度の文字列と高出
現頻度の文字列とに分けて多段階で検索することにより
、高速で、高精度な検索結果を得ることが可能なテキス
トベースの多段検索方式を実現できるという顕著な効果
を奏するものである。
【図面の簡単な説明】
第1図は本発明の一実施例を示すテキストベース検索シ
ステムの動作フローチャート、第2図は本実施例のテキ
ストベース検索システムの機能ブロック図、第3図は単
語辞書の内容の一部を例示する図、第4図は類義語辞書
の内容の一部を例示する図、第S図は文字列索引の内容
の一部を例示する図である。 l:入力部、21文解析部、3 単語辞書、4:ll造
生成部、5:類義語展開部、6.類義語辞書、7:粗検
索対象選定部、8:低頻度文字列索引、 :テキスト検索部、 0 テキストベース。 第 1 図 第 図 第 図 第 図

Claims (1)

    【特許請求の範囲】
  1. (1)見出し単語と、該単語の品詞情報、文法情報を記
    憶した単語辞書と、自然言語で書かれた文書を蓄積した
    テキストベースと、自然言語を用いて文章等を入力する
    入力部と、入力された文章等を単語に分割(形態素解析
    )し、分割した単語の品詞情報、文法情報から、入力さ
    れた文章等の文法的構造の解析(構文解析)を行う文解
    析部と、該文解析部の解析結果に基づいて前記テキスト
    ベースを検索する処理部とを有するテキストベース検索
    システムにおいて、見出し単語と同義あるいは類義な意
    味を有する単語を記憶した類義語辞書と、テキストベー
    スを単語に分割した結果を用いて、出現頻度の少ない文
    字列および該文字列を含む前記テキストベース中のテキ
    ストを組にした情報を持つ低頻度文字列索引とを備え、
    入力文中から検索時に対象となる単語を選別し、検索の
    標本となるべき構造(検索構造)を生成するステップと
    、該構造生成ステップで作成した検索構造中の単語を類
    義な意味の単語へ展開して検索構造を補強する類義語展
    開ステップと、該類義語展開ステップで作成した検索構
    造中の類義語に展開された単語群と前記低頻度文字列索
    引とから、検索対象をテキストベース中の全テキストか
    ら選定する粗検索対象選定ステップと、前記類義語展開
    ステップで作成した検索単語と単語間の構造とを標本と
    して、前記粗検索対象選定ステップで選出したテキスト
    群を対象に、高出現頻度の文字列で構成される単語も含
    めて走査・検出して、標本の検索構造と一致するものを
    含むテキストに重み付けをして評価した検索結果を出力
    することを特徴とするテキストベースの多段検索方式。
JP2025560A 1990-02-05 1990-02-05 テキストベースの多段検索方式 Pending JPH03229366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2025560A JPH03229366A (ja) 1990-02-05 1990-02-05 テキストベースの多段検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2025560A JPH03229366A (ja) 1990-02-05 1990-02-05 テキストベースの多段検索方式

Publications (1)

Publication Number Publication Date
JPH03229366A true JPH03229366A (ja) 1991-10-11

Family

ID=12169321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2025560A Pending JPH03229366A (ja) 1990-02-05 1990-02-05 テキストベースの多段検索方式

Country Status (1)

Country Link
JP (1) JPH03229366A (ja)

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5062074A (en) Information retrieval system and method
US4972349A (en) Information retrieval system and method
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2742115B2 (ja) 類似文書検索装置
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US20040054530A1 (en) Generating speech recognition grammars from a large corpus of data
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2000315216A (ja) 自然言語検索方法および装置
Merkel et al. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds.
JPH0844771A (ja) 情報検索装置
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH06231178A (ja) 文書検索装置
AU607963B2 (en) Information retrieval system and method
JPH02253474A (ja) テキストベース検索方法
JPH03229367A (ja) テキストベース検索方式
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPH03229366A (ja) テキストベースの多段検索方式
JPH0561902A (ja) 機械翻訳システム
JPH08161354A (ja) 文書検索装置
JPH03241464A (ja) テキストベース検索方式