JPH0827803B2 - テキストベース検索方法 - Google Patents

テキストベース検索方法

Info

Publication number
JPH0827803B2
JPH0827803B2 JP1076012A JP7601289A JPH0827803B2 JP H0827803 B2 JPH0827803 B2 JP H0827803B2 JP 1076012 A JP1076012 A JP 1076012A JP 7601289 A JP7601289 A JP 7601289A JP H0827803 B2 JPH0827803 B2 JP H0827803B2
Authority
JP
Japan
Prior art keywords
search
text
words
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1076012A
Other languages
English (en)
Other versions
JPH02253474A (ja
Inventor
博信 福永
末治 宮原
珠喜 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1076012A priority Critical patent/JPH0827803B2/ja
Publication of JPH02253474A publication Critical patent/JPH02253474A/ja
Publication of JPH0827803B2 publication Critical patent/JPH0827803B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、自然言語の文章データを文字コード列とし
て蓄積したデータベース(以下、テキストベースと記
す)に対して、種々の類似表現の言葉(自然言語)を検
索キーとして解析することにより、自然言語による問い
合わせ文から高精度な検索を可能にしたテキストベース
検索方法に関する。
〔従来の技術〕
従来、この種の技術としては、例えば、杉山健司他の
『自然言語理解に基づく情報検索システムIRIS』情報処
理学会自然言語処理研究会資料NL−58−8(1986.11.2
2)に記載されているように、データとしての各テキス
トに対してその内容に適したキーワード(そのテキスト
の内容に合致する分野名または言葉)を付与することに
より、各テキストの内容ないし特徴を表現し、検索時に
は利用者が求めるテキストの内容に関連したキーワード
の論理的結合関係(つまり、ANDまたはOR等)を指定し
て、その検索条件を満足するテキストを抽出する方法を
用いている。上記文献に記載されているように、自然言
語による質問文を受け付けるインタフェースを有する場
合にも、質問文を解析することにより、ユーザの検索要
求を対応するキーワードに展開し、それらのキーワード
の間の論理的結合関係を決めて検索を行っている。すな
わち、自然言語によるインタフェースを有するか否かに
かかわらず、テキストベースの検索はいずれもキーワー
ド検索によっていた。
また、検索の精度を向上させるために、例えば、絹川
博之他の『日本語文構造解析による自動インデクシング
方式』情報処理学会論文誌Vol.21,No.3(1980.5)に記
載されているような方式も提案されている。これによれ
ば、各キーワードに意味的役割(テキスト中での主体、
客体等)を付与する方法を用いている。しかし、検索時
の手掛りとして、キーワードを用いることに関しては、
前述の文献とそれほどの変わりはない。
また、本発明者等が本願より先に提案した発明(平成
元年3月7日付け出願の『テキスト検索方式』の明細書
および図面参照)では、キーワード検索を用いずに、日
本語による質問文を解析し、テキストベース中の全ての
文章の中から検索要求の内容に合致するものを抽出する
方法を用いている。すなわち、テキストベース中の全て
の文章を対象として、検索要求に合致するか否かをチェ
ックすることにより、質問文の語およびその類義語とそ
の結合関係(格関係)と同じように、語または類義語の
うちの一つおよびその結合関係を持つものを抽出してい
る。
〔発明が解決しようとする課題〕
このように、テキスト中に含まれているキーワードを
手掛りにして検索を行う方法では、検索の精度が高くな
らないという問題があった。検索の精度は、ユーザの求
めるテキストがどれだけ正しく検索できたか、という点
であり、これは通常、再現率(ユーザの検索要求に関連
するテキストの全体の中で、検索された関連テキストの
占める割合)と適合率(検索されたテキストの全体の中
で検索された関連テキストの占める割合)とで評価され
る。
ところで、テキストの内容にふさわしいキーワードを
付与するということは、そのテキストの主題、要旨等を
表現する言葉、あるいは関連する主要な分野を表わす言
葉をそのテキストを代表する言葉として付与することで
ある。しかし、ユーザが検索要求時に思い浮かべるよう
な云い方を全てキーワードとして付与することは、検索
時に不要なテキストを多数出力する結果となり、高い検
索精度を確保しながら種々の表現に対応することは難か
しい。また、補足的な記述中の情報を検索したい場合で
も、補足的な部分にキーワードを付与することは一般的
には無いので、キーワード検索により検索することは不
可能である。
一方、キーワードによらない方法では、大量のテキス
トを直接走査する必要があり、この場合には膨大な処理
を必要とする。従って、対象となるテキストの量が増大
すると、計算機の処理にも多くの時間を要し、応答速度
に対する利用者の満足度や経済性等にも問題が生じる。
本発明の目的は、このような従来の課題を解決し、キ
ーワード検索による低い検索精度を改善することがで
き、かつ補足的に記述されている事柄も全て漏れなく検
索することが可能な高精度のテキストベース検索方法を
提供することにある。
〔課題を解決するための手段〕
上記目的を達成するため、本発明のテキストベース検
索方法は、見出し単語と該単語の品詞情報、文法情報を
記憶した単語辞書と、自然言語で書かれた文書を蓄積し
たテキストベースと、自然言語を用いて文章を入力する
入力部と、入力された文章を単語に分割(形態素解析)
し、分割した単語の品詞情報、文法情報から入力された
文章の文法的構造の解析(構文解析)を行う文解析部
と、該文解析部の解析結果に基づいて上記テキストベー
スを検索する処理部とを有するテキストベース検索シス
テムにおいて、見出しの単語と同義ないし類義の意味を
有する単語を記憶した類義語辞書と、単一文字および該
単一文字を含む上記テキストベース中の記事の識別番号
を組にした情報を持つ文字索引とを備え、入力文中から
検索時に対象となる単語を選択し、検索の標本となるべ
き構造を生成するステップと、該構造生成ステップで生
成した検索構造中の単語を類義な意味の単語に展開し、
その和集合により検索構造を補強する類義語展開ステッ
プと、該類義語展開ステップで作成した検索構造中の各
類義語のうち、単一文字で構成されている場合は該単一
文字単位で上記文字索引を検索して該単一文字を含む上
記テキストベース中の記事の識別番号を選定するととも
に、該類義語が複数の単位文字で構成されている場合は
該複数の単位文字それぞれに対応する前記記事の識別番
号の積集合を選定する検索対象選定ステップと、上記類
義語展開ステップで作成した検索構造を標本として、上
記検索対象選定ステップで選定した識別番号に対応する
テキストベース中の記事群を走査して、標本の検索構造
と一致するものを含むテキストを検索結果として出力す
るテキスト検索ステップを有することを特徴としてい
る。
〔作用〕
本発明においては、テキストベース検索のための検索
要求(例えば、日本語の自然言語による質問文)を解析
して、テキストベース中の全ての文章中から、検索要求
の内容に合致するものを抽出する。すなわち、本発明で
は、キーワードにより検索するのではなく、種々の類似
表現の言葉(自然言語)を検索のキーとして理解(解
析)し、より高速な検索を可能にする。その場合、テキ
ストからの意味の抽出は目的とせずに、検索要求として
の質問文の内容に合致するテキストとして、質問文の語
(およびそれの類似語)とその結合関係(格関係)とと
もに、語(または類義語のうちの1つ)およびその結合
関係を有するものを抽出することによって処理の高速化
を図り、実用的な応答速度を得ることができる。さら
に、文字とその文字を含む記事に関する情報を持つ文字
索引を用いて、検索対象となるテキストを選定すること
により、より高速な応答を実現している。
〔実施例〕
以下、本発明の実施例を、図面により詳細に説明す
る。
第1図は、本発明の一実施例を示すテキストベース検
索システムの機能ブロック図である。
第1図において、1は検索のための質問文を自然言語
の文章により入力する入力部、2は文章の文法的構造を
決定する文解析部であってその実体はサブルーチンプロ
グラム、3は単語辞書であってメモリファイルに格納さ
れている。4は単語相互間の関係から、検索に用いる構
造を生成するための構造生成部であって、これもサブル
ーチンプログラム、5は検索構造中の単語について、辞
書を参照してその単語と類似の意味を表わす単語を選択
する類義語展開部、6は類義な意味を表わす単語が格納
される類義語辞書であって、メモリファイルに格納され
る。7は検索対象選定部であって、検索の対象を選択す
るサブルーチンプログラム、8は文字索引、9はテキス
ト検索部であって、サブルーチンプログラム、10はテキ
ストベースであって、検索対象となる文章の集まりが格
納されているメモリファイルである。システムのハード
ウェアは、計算機等の情報処理装置と各辞書を格納する
外部記憶装置と質問文を入力するためのキーボードやス
キャナ等の入力装置から構成されている。
入力部1は、テキストを検索するための検索要求(質
問)を自然言語の文章により入力するものであって、キ
ー操作入力あるいは音声認識、文字パターン認識等の文
字符号化処理を介して自然言語の文章が装置に取り込ま
れる。文解析部2は、入力部1を介して入力された文章
を解析して、文章の文法的構造を決定する。文法的構造
には、文章を構成する各単語の識別と分解を行う形態素
解析と、それらの単語の結び付き方から文の構造を決定
する構文解析とがある。文解析部2で行われる構文解析
は、その文章中の各用言に対応した格構造を抽出する。
なお、構文解析は、例えば、Fillmore等によって行わ
れ、格文法に対応する格構造(格フレーム)を用意して
その文章の内容を抽出するもので、処理の概要について
は、例えば、長尾真著『言語工学』昭晃堂、昭和58年初
版1版に記載されている。
単語辞書3には、分解析部2における形態素解析およ
び構文解析に用いる情報が記憶されている。
第2図は、第1図の単語辞書の内容を示す図である。
単語辞書3は、第2図に示すように、その内容とし
て、単語の見出しとその単語の品詞と構文解析に必要な
文法情報とが格納されている。第2図の例では、文法情
報は付属語について、その付属語が接続できる語の種類
(格助詞の場合には『体言』と示してあり、『:』の右
側にその付属語が接続する語の格情報を示している。た
だし、ここでは表層的な格情報で示してある。
次に、構造生成部4は、文解析部2の結果を受けて検
索に用いる単語を取り出し、それらの単語相互間の関係
から、検索に用いるための標準となるべき構造(以下、
検索構造)を生成する。この場合、同一内容を表わす複
数の自然言語表現が考えられるときには、その代表とな
るべき表現の構造に変換を行う。
次に、類義語展開部5は、構造生成部4で生成された
検索構造中の単語について、その単語と類似な意味を持
つ単語を選択し、検索構造を補強する。類義語辞書6に
は、類義な意味を表わす単語が格納されており、類義語
展開部5でこれらが参照される。
第3図は、第1図の類義語辞書の内容を示す図であ
る。
第3図に示すように、類義語辞書6の内容は、単語見
出しと、その単語と類義な意味を持つ単語の集りとから
なる。
検索対象選択部7は、類義語展開部5で補強された検
索構造を受けて、テキストベース中の全記事の中から検
索の対象となる記事候補を設定する。
文字索引8には、文字とその文字を含む記事の組が記
憶されており、検索対象選定部7で参照される。
第4図は、第1図における文字索引の例を示す図であ
る。
文字索引8は、第4図に示すように、テキストベース
中に出現した各文字と、その文字が記載されている記事
の識別番号の集りとからなる。この文字索引8は、事前
にテキストベース10を処理することにより作成される。
次のテキスト検索部9は、類義語展開部5までで生成
された検索構造を標本として、検索対象選定部7が選択
した各記事候補についてテキストベース10を走査して、
標本である検索構造に合致したものを検索結果として出
力する。この際に、文解析部2と同じように、単語辞書
3を用いて形態素解析と構文解析を行う。
テキストベース10は、検索対象となるべき文章の集り
であって、計算機が直接扱えるような状態になってお
り、例えば磁気ディスクまたは磁気テープ等の中に格納
されている。
第5図は、第1図のテキストベース検索システムの動
作フローチャートである。
例えば、入力部1が入力文『テキストを検索する』を
後の処理に送った場合について(ステップ101)、説明
する。
文解析部2は、入力文に対して形態素解析および構文
解析を行い(ステップ102)、入力文を《テキスト/名
詞》《を/格助詞》《検索する/動詞》に分解し、さら
に入力文の動作は《検索》であり、《検索》の対象は
《テキスト》であることを決定する。次の構造生成部4
では、これより検索対象となる単語とそれら単語間の関
係を示す検索構造を生成する(ステップ103)。すなわ
ち、LISP言語型の表現で示すならば、(検索(対象テキ
スト))のようになる。この処理には、同一内容を表わ
す複数の表現、例えば能動態と受動態による表現等があ
る場合に、その代表となるべき構造へ変換を行う処理も
含まれる。つまり、『テキストを検索する』『テキスト
が検索される』の両文章からはともに(検索(対象 テ
キスト))の構造が生成される。
類義語展開部5は、類義語辞書6を参照することによ
り、検索構造に含まれる単語を類義語に展開する。類義
語辞書6の中に、『検索』の類義語として『探す』、
『テキスト』の類義語として『文書』『文章』があった
場合、前述の検索構造は、((検索 探す)(対象(テ
キスト 文書 文章)))のように補強される(ステッ
プ104)。検索対象選定部7は、文字索引8を用いて、
テキストベース中の全記事の中から検索対象となり得る
記事を選択する(ステップ105)。すなわち、『検索』
という単語がなければ検索結果とならないという場合に
は、『検』という文字を含む記事であり、かつ『索』と
いう文字を含む記事のみ(積集合)が検索候補となる。
上述の条件において、『検索』の代替として『探す』と
いう単語があれば検索結果となり得るという場合には、
『検索』という単語の必須性の要請から選定された検索
候補と『探す』という単語の必須性の要請から選定され
た検索候補のいずれかにある候補(和集合)が検索候補
となる。
このような検索構造に従って、記事集合に対する集合
演算を行うことにより、検索候補の選定が可能となる。
これは、文字とそれを含む記事を記憶している文字索引
8を用いることにより高速に処理される。テキスト検索
部9は、検索対象選定部7で選択された記事群について
テキストベース10の中を走査して、単語が類義語展開部
5から引き渡された検索構造と同じ関係で出現したもの
を一致した文書として出力する(ステップ106)。
従って、前述の例においては、『文書を探す』『文章
が検索される』は一致したものと判定するが、『テキス
トで検索する』は非一致と判定する。何故ならば、『テ
キストで』はテキストが検索の対象ではなく、手段であ
って、入力した文章の意味が文法的に異なるためであ
る。
このように本実施例においては、(イ)自然言語の文
書からなるテキストベースを検索の対象とする。(ロ)
自然言語で検索するテキストを指定する。(ハ)入力さ
れた検索を指定する自然言語文(入力文)中の各単語の
関係をテキストの検索時に利用する。(ニ)入力文中で
使用された単語をその単語と類義な意味を表わす単語に
展開したもので検索を行う。(ホ)検索の対象をテキス
トベースの全記事から高速に選択する機構を備えてい
る。
〔発明の効果〕
以上説明したように、本発明によれば、テキストベー
スに対する事前の処理が不要であり、それによる情報の
欠落等を回避することができ、かつ誰でも利用し易く、
意味的に近いものを検索でき、しかも入力文で使用した
単語と検索結果が緩衝され、多様な入力文に対して柔軟
に対応でき、また検索時間の短縮が可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示すテキストベース検索シ
ステムの機能ブロック図、第2図は第1図における単語
辞書の内容を示す図、第3図は第1図における類義語辞
書の内容を示す図、第4図は第1図における文字索引の
内容を示す図、第5図は第1図のシステムの動作フロー
チャートである。 1:入力部、2:文解析部、3:単語辞書、4:構造生成部、5:
類義語展開部、6:類義語辞書、7:検索対象選定部、8:文
字索引、9:テキスト検索部、10:テキストベース。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】見出し単語と該単語の品詞情報、文法情報
    を記憶した単語辞書と、自然言語で書かれた文書を蓄積
    したテキストベースと、自然言語を用いて文章を入力す
    る入力部と、入力された文章を単語に分割(形態素解
    析)し、分割した単語の品詞情報、文法情報から入力さ
    れた文章の文法的構造の解析(構文解析)を行う文解析
    部と、該文解析部の解析結果に基づいて上記テキストベ
    ースを検索する処理部とを有するテキストベース検索シ
    ステムにおいて、見出しの単語と同義ないし類義の意味
    を有する単語を記憶した類義語辞書と、 単一文字および該単一文字を含む上記テキストベース中
    の記事の識別番号を組にした情報を持つ文字索引とを備
    え、 入力文中から検索時に対象となる単語を選別し、検索の
    標本となるべき構造を生成するステップと、 該構造生成ステップで作成した検索構造中の単語を類義
    な意味の単語に展開し、その和集合により検索構造を補
    強する類義語展開ステップと、 該類義語展開ステップで作成した検索構造中の各類義語
    のうち、単一文字で構成されている場合は該単一文字単
    位で上記文字索引を検索して該単一文字を含む上記テキ
    ストベース中の記事の識別番号を選定するとともに、該
    類義語が複数の単位文字で構成されている場合は該複数
    の単位文字それぞれに対応する前記記事の識別番号の積
    集合を選定する検索対象選定ステップと、 上記類義語展開ステップで作成した検索構造を標本とし
    て、上記検索対象選定ステップで選定した識別番号に対
    応するテキストベース中の記事群を走査して、標本の検
    索構造と一致するものを含むテキストを検索結果として
    出力するテキスト検索ステップを有することを特徴とす
    るテキストベース検索方法。
JP1076012A 1989-03-28 1989-03-28 テキストベース検索方法 Expired - Lifetime JPH0827803B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1076012A JPH0827803B2 (ja) 1989-03-28 1989-03-28 テキストベース検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1076012A JPH0827803B2 (ja) 1989-03-28 1989-03-28 テキストベース検索方法

Publications (2)

Publication Number Publication Date
JPH02253474A JPH02253474A (ja) 1990-10-12
JPH0827803B2 true JPH0827803B2 (ja) 1996-03-21

Family

ID=13592908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1076012A Expired - Lifetime JPH0827803B2 (ja) 1989-03-28 1989-03-28 テキストベース検索方法

Country Status (1)

Country Link
JP (1) JPH0827803B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3220865B2 (ja) * 1991-02-28 2001-10-22 株式会社日立製作所 フルテキストサーチ方法
JP2792287B2 (ja) * 1991-10-31 1998-09-03 日本電気株式会社 情報検索装置
JPH10307846A (ja) * 1997-03-03 1998-11-17 Toshiba Corp ドキュメント情報管理システム、ドキュメント情報管理方法、及びドキュメント検索方法
KR20240080712A (ko) * 2022-11-30 2024-06-07 (주)아이브릭스 검색엔진의 동의어 확장 장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159223A (ja) * 1986-01-08 1987-07-15 Hitachi Ltd 文書情報検索方式
JPS6340938A (ja) * 1986-08-05 1988-02-22 Nec Corp 情報検索における同意語検索方式
JPS63156229A (ja) * 1986-12-19 1988-06-29 Fujitsu Ltd デ−タ・ベ−ス検索装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system
JPS6464032A (en) * 1987-09-04 1989-03-09 Hitachi Ltd Information retrieving system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159223A (ja) * 1986-01-08 1987-07-15 Hitachi Ltd 文書情報検索方式
JPS6340938A (ja) * 1986-08-05 1988-02-22 Nec Corp 情報検索における同意語検索方式
JPS63156229A (ja) * 1986-12-19 1988-06-29 Fujitsu Ltd デ−タ・ベ−ス検索装置

Also Published As

Publication number Publication date
JPH02253474A (ja) 1990-10-12

Similar Documents

Publication Publication Date Title
CN100511215C (zh) 多语种翻译存储器和翻译方法
US6055528A (en) Method for cross-linguistic document retrieval
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
US6473729B1 (en) Word phrase translation using a phrase index
JP2742115B2 (ja) 類似文書検索装置
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US20050203900A1 (en) Associative retrieval system and associative retrieval method
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH05189487A (ja) 対話式データベース探索方法および装置
JP2011118689A (ja) 検索方法及びシステム
Merkel et al. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds.
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JPS6175957A (ja) 機械翻訳処理装置
JP2004070636A (ja) 概念検索装置
JPH0827803B2 (ja) テキストベース検索方法
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JPH03229367A (ja) テキストベース検索方式
JPH0320866A (ja) テキストベース検索方式
JPH06259423A (ja) 要約自動作成方式
JPH0561902A (ja) 機械翻訳システム
JP2001034630A (ja) 文書ベース検索システム、およびその方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090321

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090321

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100321

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100321

Year of fee payment: 14