JPH02253474A - テキストベース検索方法 - Google Patents
テキストベース検索方法Info
- Publication number
- JPH02253474A JPH02253474A JP1076012A JP7601289A JPH02253474A JP H02253474 A JPH02253474 A JP H02253474A JP 1076012 A JP1076012 A JP 1076012A JP 7601289 A JP7601289 A JP 7601289A JP H02253474 A JPH02253474 A JP H02253474A
- Authority
- JP
- Japan
- Prior art keywords
- search
- text
- words
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 15
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000002910 structure generation Methods 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 abstract description 10
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 229930091051 Arenine Natural products 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、自然言語の文章データを文字コード列として
蓄積したデータベース(以下、テキストベースと記す)
に対して、種々の類似表現の言葉(自然言語)を検索キ
ーとして解析することにより、自然言語による問い合わ
せ文から高精度な検索を可能にしたテキストベース検索
方法に関する。
蓄積したデータベース(以下、テキストベースと記す)
に対して、種々の類似表現の言葉(自然言語)を検索キ
ーとして解析することにより、自然言語による問い合わ
せ文から高精度な検索を可能にしたテキストベース検索
方法に関する。
従来、この種の技術としては1例えば、杉山健司他のr
自然言語理解に基づく情報検索システムIRISJ情報
処理学会自然言語処理研究会資料N L−58−8(1
986,11,22)に記載されているように、データ
としての各テキストに対してその内容に適したキーワー
ド(そのテキストの内容に合致する分野名または言葉)
を付与することにより、各テキストの内容ないし特徴を
表現し、検索時には利用者が求めるテキストの内容に関
連したキーワードの論理的結合関係(つまり、ANDま
たはOR等)を指定して、その検索条件を満足するテキ
ストを抽出する方法を用いている。上記文献に記載され
ているように、自然言語による質問文を受は付けるイン
タフェースを有する場合にも、質問文を解析することに
より、ユーザの検索要求を対応するキーワードに展開し
、それらのキーワードの間の論理的結合関係を決めて検
索を行っている。すなわち、自然言語によるインタフェ
ースを有するか否かにかかわらず、テキストベースの検
索はいずれもキーワード検索によっていた。
自然言語理解に基づく情報検索システムIRISJ情報
処理学会自然言語処理研究会資料N L−58−8(1
986,11,22)に記載されているように、データ
としての各テキストに対してその内容に適したキーワー
ド(そのテキストの内容に合致する分野名または言葉)
を付与することにより、各テキストの内容ないし特徴を
表現し、検索時には利用者が求めるテキストの内容に関
連したキーワードの論理的結合関係(つまり、ANDま
たはOR等)を指定して、その検索条件を満足するテキ
ストを抽出する方法を用いている。上記文献に記載され
ているように、自然言語による質問文を受は付けるイン
タフェースを有する場合にも、質問文を解析することに
より、ユーザの検索要求を対応するキーワードに展開し
、それらのキーワードの間の論理的結合関係を決めて検
索を行っている。すなわち、自然言語によるインタフェ
ースを有するか否かにかかわらず、テキストベースの検
索はいずれもキーワード検索によっていた。
また、検索の精度を向上させるために、例えば。
絹用博之他の「日本語文構造解析による自動インデクシ
ング方式1情報処理学会論文誌Vo1.21゜No、3
(1980,5)に記載されているような方式も提案さ
れている。これによれば、各キーワードに意味的役割(
テキスト中での主体、容体等)を付与する方法を用いて
いる。しかし、検索時の手掛りとして、キーワードを用
いることに関しては、前述の文献とそれほどの変わりは
ない。
ング方式1情報処理学会論文誌Vo1.21゜No、3
(1980,5)に記載されているような方式も提案さ
れている。これによれば、各キーワードに意味的役割(
テキスト中での主体、容体等)を付与する方法を用いて
いる。しかし、検索時の手掛りとして、キーワードを用
いることに関しては、前述の文献とそれほどの変わりは
ない。
また、本発明者等が本願より先に提案した発明(平成元
年3月7日付は出願の rテキスト検索方式jの明細書
および図面参照)では、キーワード検索を用いずに、日
本語による質問文を解析し、テキストベース中の全ての
文章の中から検索要求の内容に合致するものを抽出する
方法を用いている。すなわち、テキストベース中の全て
の文章を対象として、検索要求に合致するか否かをチエ
ツクすることにより、質問文の語およびその類義語とそ
の結合関係(格関係)と同じように1語または類義語の
うちの一つおよびその結合関係を持つものを抽出してい
る。
年3月7日付は出願の rテキスト検索方式jの明細書
および図面参照)では、キーワード検索を用いずに、日
本語による質問文を解析し、テキストベース中の全ての
文章の中から検索要求の内容に合致するものを抽出する
方法を用いている。すなわち、テキストベース中の全て
の文章を対象として、検索要求に合致するか否かをチエ
ツクすることにより、質問文の語およびその類義語とそ
の結合関係(格関係)と同じように1語または類義語の
うちの一つおよびその結合関係を持つものを抽出してい
る。
このように、テキスト中に含まれているキーワードを手
掛りにして検索を行う方法では、検索の精度が高くなら
ないという問題があった。検索の精度は、ユーザの求め
るテキストがどれだけ正しく検索できたか、という点で
あり、これは通常、再現率(ユーザの検索要求に関連す
るテキストの全体の中で、検索された関連テキストの占
める割合)と適合率(検索されたテキストの全体の中で
検索された関連テキストの占める割合)とで評価される
。
掛りにして検索を行う方法では、検索の精度が高くなら
ないという問題があった。検索の精度は、ユーザの求め
るテキストがどれだけ正しく検索できたか、という点で
あり、これは通常、再現率(ユーザの検索要求に関連す
るテキストの全体の中で、検索された関連テキストの占
める割合)と適合率(検索されたテキストの全体の中で
検索された関連テキストの占める割合)とで評価される
。
ところで、テキストの内容にふされしいキーワードを付
与するということは、そのテキストの主題、要旨等を表
現する言葉、あるいは関連する主要な分野を表わす言葉
をそのテキストを代表する言葉として付与することであ
る。しかし、ユーザが検索要求時に思い浮かべるような
言い方を全てキーワードとして付与することは、検索時
に不要なテキストを多数出力する結果となり、高い検索
精度を確保しながら種々の表現に対応することは難かし
い、また、補足的な記述中の情報を検索したい場合でも
、補足的な部分にキーワードを付与することは一般的に
は無いので、キーワード検索により検索することは不可
能である。
与するということは、そのテキストの主題、要旨等を表
現する言葉、あるいは関連する主要な分野を表わす言葉
をそのテキストを代表する言葉として付与することであ
る。しかし、ユーザが検索要求時に思い浮かべるような
言い方を全てキーワードとして付与することは、検索時
に不要なテキストを多数出力する結果となり、高い検索
精度を確保しながら種々の表現に対応することは難かし
い、また、補足的な記述中の情報を検索したい場合でも
、補足的な部分にキーワードを付与することは一般的に
は無いので、キーワード検索により検索することは不可
能である。
一方、キーワードによらない方法では、大量のテキスト
を直接走査する必要があり、この場合には膨大な処理を
必要とする。従って、対象となるテキストの量が増大す
ると、計算機の処理にも多くの時間を要し、応答速度に
対する利用者の満足度や経済性等にも問題が生じる。
を直接走査する必要があり、この場合には膨大な処理を
必要とする。従って、対象となるテキストの量が増大す
ると、計算機の処理にも多くの時間を要し、応答速度に
対する利用者の満足度や経済性等にも問題が生じる。
本発明の目的は、このような従来の課題を解決し、キー
ワード検索による低い検索精度を改善することができ、
かつ補足的に記述されている事柄も全て漏れなく検索す
ることが可能な高精度のテキストベース検索方法を提供
することにある。
ワード検索による低い検索精度を改善することができ、
かつ補足的に記述されている事柄も全て漏れなく検索す
ることが可能な高精度のテキストベース検索方法を提供
することにある。
上記目的を達成するため、本発明のテキストベース検索
方法は、見出し単語と該単語の品詞情報文法情報を記憶
した単語辞書と、自然言語で書かれた文書を蓄積したテ
キストベースと、自然言語を用いて文章を入力する入力
部と、入力された文章を単語に分割(形態素解析)し、
分割した単語の品詞情報1文法情報から入力された文章
の文法的構造の解析(構文解析)を行う文解析部と、該
文解析部の解析結果に基づいて上記テキストベースを検
索する処理部とを有するテキストベース検索システムに
おいて、見出しの単語と同義ないし類義の意味を有する
単語を記憶した類義語辞書と、文字および該文字を含む
上記テキストベース中の記事を組にした情報を持つ文字
索引とを備え、入力文中から検索時に対象となる単語を
選別し、検索の標本となるべき構造を生成するステップ
と、該構造生成ステップで作成した検索構造中の単語を
類義な意味の単語に展開し、検索構造を補強する類義語
展開ステップと、該類義語展開ステップで作成した検索
構造中の類義語に展開された単語群と上記文字索引とか
ら検索対象をテキストベース中の全記事から選定する検
索対象選定ステップと、上記類義語展開ステップで作成
した検索構造を標本として、上記検索対象選定ステップ
で選出した記事群を走査して、標本の検索構造と一致す
るものを含むテキストを検索結果として出力するテキス
ト検索ステップとを有することに特徴がある。
方法は、見出し単語と該単語の品詞情報文法情報を記憶
した単語辞書と、自然言語で書かれた文書を蓄積したテ
キストベースと、自然言語を用いて文章を入力する入力
部と、入力された文章を単語に分割(形態素解析)し、
分割した単語の品詞情報1文法情報から入力された文章
の文法的構造の解析(構文解析)を行う文解析部と、該
文解析部の解析結果に基づいて上記テキストベースを検
索する処理部とを有するテキストベース検索システムに
おいて、見出しの単語と同義ないし類義の意味を有する
単語を記憶した類義語辞書と、文字および該文字を含む
上記テキストベース中の記事を組にした情報を持つ文字
索引とを備え、入力文中から検索時に対象となる単語を
選別し、検索の標本となるべき構造を生成するステップ
と、該構造生成ステップで作成した検索構造中の単語を
類義な意味の単語に展開し、検索構造を補強する類義語
展開ステップと、該類義語展開ステップで作成した検索
構造中の類義語に展開された単語群と上記文字索引とか
ら検索対象をテキストベース中の全記事から選定する検
索対象選定ステップと、上記類義語展開ステップで作成
した検索構造を標本として、上記検索対象選定ステップ
で選出した記事群を走査して、標本の検索構造と一致す
るものを含むテキストを検索結果として出力するテキス
ト検索ステップとを有することに特徴がある。
本発明においては、テキストベース検索のための検索要
求(例えば、日本語の自然言語による質問文)を解析し
て、テキストベース中の全ての文章中から、検索要求の
内容に合致するものを抽出する。すなわち、本発明では
、キーワードにより検索するのではなく1種々の類似表
現の言葉(自然言語)を検索のキーとして理解(解析)
し、より高速な検索を可能にする。その場合、テキスト
からの意味の抽出は目的とせずに、検索要求としての質
問文の内容に合致するテキストとして、質問文の語(お
よびそれの類似語)とその結合関係(格関係)とともに
、語(または類似語のうちの1つ)およびその結合関係
を有するものを抽出することによって処理の高速化を図
り、実用的な応答速度を得ることができる。さらに、文
字とその文字を含む記事に関する情報を持つ文字索引を
用いて、検索対象となるテキストを4定することにより
、より高速な応答を実現している。
求(例えば、日本語の自然言語による質問文)を解析し
て、テキストベース中の全ての文章中から、検索要求の
内容に合致するものを抽出する。すなわち、本発明では
、キーワードにより検索するのではなく1種々の類似表
現の言葉(自然言語)を検索のキーとして理解(解析)
し、より高速な検索を可能にする。その場合、テキスト
からの意味の抽出は目的とせずに、検索要求としての質
問文の内容に合致するテキストとして、質問文の語(お
よびそれの類似語)とその結合関係(格関係)とともに
、語(または類似語のうちの1つ)およびその結合関係
を有するものを抽出することによって処理の高速化を図
り、実用的な応答速度を得ることができる。さらに、文
字とその文字を含む記事に関する情報を持つ文字索引を
用いて、検索対象となるテキストを4定することにより
、より高速な応答を実現している。
以下1本発明の実施例を、図面により詳細に説明する。
第1図は1本発明の一実施例を示すテキストベース検索
システムの機能ブロック図である。
システムの機能ブロック図である。
第1図において、1は検索のための質問文を自然言語の
文章により入力する入力部、2は文章の文法的構造を決
定する文解析部であってその実体はサブルーチンプログ
ラム、3は単語辞書であってメモリファイルに格納さ九
ている。4は単語相互間の関係から、検索に用いる構造
を生成するための構造生成部であって、これもサブルー
チンプログラム、5は検索構造中の単語について、辞書
を参照してその単語と類似の意味を表わす単語を選択す
る類義語展開部、6は類義な意味を表わす単語が格納さ
れる類義語辞書であって、メモリフフィルに格納される
。7は検索対象選定部であって、検索の対象を選択する
サブルーチンプログラム、8は文字索引、9はテキスト
検索部であって、サブルーチンプログラム、10はテキ
ストベースであって、検索対象となる文章の集まりが格
納されているメモリファイルである。システムのハード
ウェアは、計算機等の情報処理装置と各辞書を格納する
外部記憶装置と質問文を入力するためのキーボードやス
キャナ等の入力装置から構成されている。
文章により入力する入力部、2は文章の文法的構造を決
定する文解析部であってその実体はサブルーチンプログ
ラム、3は単語辞書であってメモリファイルに格納さ九
ている。4は単語相互間の関係から、検索に用いる構造
を生成するための構造生成部であって、これもサブルー
チンプログラム、5は検索構造中の単語について、辞書
を参照してその単語と類似の意味を表わす単語を選択す
る類義語展開部、6は類義な意味を表わす単語が格納さ
れる類義語辞書であって、メモリフフィルに格納される
。7は検索対象選定部であって、検索の対象を選択する
サブルーチンプログラム、8は文字索引、9はテキスト
検索部であって、サブルーチンプログラム、10はテキ
ストベースであって、検索対象となる文章の集まりが格
納されているメモリファイルである。システムのハード
ウェアは、計算機等の情報処理装置と各辞書を格納する
外部記憶装置と質問文を入力するためのキーボードやス
キャナ等の入力装置から構成されている。
入力部lは、テキストを検索するための検索要求(質問
)を自然言語の文章により入力するものであって、キー
操作入力あるいは音声認識、文字パターン認識等の文字
符号化処理を介して自然言語の文章が装置に取り込まれ
る1文解析部2は、入力部Iを介して入力された文章を
解析して、文章の文法的構造を決定する0文法的構造に
は、文章を構成する各単語の識別と分解を行う形態素解
析と、それらの単語の結び付き方から文の構造を決定す
る構文解析とがある0文解析部2で行われる構文解析は
、その文章中の各用言に対応した格構造を抽出する。な
お、構文解析は1例えば、Fi11i+ora等によっ
て行われ、轡文法に対応する格構造(格フレーム)を用
意してその文章の内容を抽出するもので、処理の概要に
ついては1例えば、長尾真著「言語工学1昭晃堂、昭和
58年初版1版に記載されている。
)を自然言語の文章により入力するものであって、キー
操作入力あるいは音声認識、文字パターン認識等の文字
符号化処理を介して自然言語の文章が装置に取り込まれ
る1文解析部2は、入力部Iを介して入力された文章を
解析して、文章の文法的構造を決定する0文法的構造に
は、文章を構成する各単語の識別と分解を行う形態素解
析と、それらの単語の結び付き方から文の構造を決定す
る構文解析とがある0文解析部2で行われる構文解析は
、その文章中の各用言に対応した格構造を抽出する。な
お、構文解析は1例えば、Fi11i+ora等によっ
て行われ、轡文法に対応する格構造(格フレーム)を用
意してその文章の内容を抽出するもので、処理の概要に
ついては1例えば、長尾真著「言語工学1昭晃堂、昭和
58年初版1版に記載されている。
単語辞書3には、文解析部2における形態素解析および
構文解析に用いる情報が記憶されている。
構文解析に用いる情報が記憶されている。
第2図は、第1図の単語辞書の内容を示す図である。
単語辞書3は、第2図に示すように、その内容として、
単語の見出しとその単語の品詞と構文解析に必要な文法
情報とが格納されている。第2図の例では1文法情報は
付属語について、その付属語が接続できる語の種類(格
助詞の場合には「体言1と示してあり、r;1の右側に
その付属語が接続する語の格情報を示している。ただし
、ここでは表層的な格情報で示しである。
単語の見出しとその単語の品詞と構文解析に必要な文法
情報とが格納されている。第2図の例では1文法情報は
付属語について、その付属語が接続できる語の種類(格
助詞の場合には「体言1と示してあり、r;1の右側に
その付属語が接続する語の格情報を示している。ただし
、ここでは表層的な格情報で示しである。
次に、構造生成部4は、文解析部2の結果を受けて検索
に用いる単語を取り出し、それらの単語相互間の関係か
ら、検索に用いるための標準となるべき構造(以下、検
索構造)を生成する。この場合、同一内容を表わす複数
の自然言語表現が考えられるときには、その代表となる
べき表現の構造に変換を行う。
に用いる単語を取り出し、それらの単語相互間の関係か
ら、検索に用いるための標準となるべき構造(以下、検
索構造)を生成する。この場合、同一内容を表わす複数
の自然言語表現が考えられるときには、その代表となる
べき表現の構造に変換を行う。
次に、類義語展開部5は、構造生成部4で生成された検
索構造中の単語について、その単語と類似な意味を持つ
単語を選択し、検索構造を補強する。類義語辞書6には
、類義な意味を表わす単語が格納されており、類義語展
開部5でこれらが参照される。
索構造中の単語について、その単語と類似な意味を持つ
単語を選択し、検索構造を補強する。類義語辞書6には
、類義な意味を表わす単語が格納されており、類義語展
開部5でこれらが参照される。
第3図は、第1図の類義語辞書の内容を示す図であ浸。
第3図に示すように、類義語辞書6の内容は、単語見出
しと、その単語と類義な意味を持つ単語の集りとからな
る。
しと、その単語と類義な意味を持つ単語の集りとからな
る。
検索対象選定部7は、類義語展開部5で補調された検索
構造を受けて、テキストベース中の全記事の中から検索
の対象となる記事候補を選定する。
構造を受けて、テキストベース中の全記事の中から検索
の対象となる記事候補を選定する。
文字索引8には1文字とその文字を含む記事の組が記憶
されており、検索対象選定部7で参照される。
されており、検索対象選定部7で参照される。
第4図は、第1図における文字索引の例を示す図である
。
。
文字索引8は、第4図に示すように、テキストベース中
に出現した各文字と、その文字が記載されている記事の
識別番号の集りとからなる。この文字索引8は、事前に
テキストベース10を処理することにより作成される。
に出現した各文字と、その文字が記載されている記事の
識別番号の集りとからなる。この文字索引8は、事前に
テキストベース10を処理することにより作成される。
次のテキスト検索部9は、類義語展開部5までで生成さ
れた検索構造を標本として、検索対象選定部7が選択し
た各記事候補についてテキストベース10を走査して、
標本である検索構造に合致したものを検索結果として出
力する。この際に。
れた検索構造を標本として、検索対象選定部7が選択し
た各記事候補についてテキストベース10を走査して、
標本である検索構造に合致したものを検索結果として出
力する。この際に。
文解析部2と同じように、単語辞書3を用いて形態素解
析と構文解析を行う。
析と構文解析を行う。
テキストベース10は、検索対象となるべき文章の集り
であって、計算機が直接扱えるような状態になっており
、例えば磁気ディスクまたは磁気テープ等の中に格納さ
れている。
であって、計算機が直接扱えるような状態になっており
、例えば磁気ディスクまたは磁気テープ等の中に格納さ
れている。
第5図は、第1図のテキストベース検索システムの動作
フローチャートである。
フローチャートである。
例えば、入力部1が入力文rテキストを検索する1を後
の処理に送った場合について(ステップ101)、説明
する。
の処理に送った場合について(ステップ101)、説明
する。
文解析部2は、入力文に対して形態素解析および構文解
析を行い(ステップ1o2)、入力文を(テキスト/名
詞)(を/格助詞)(検索する/動詞)に分解し、さら
に入力文の動作は(検索)であり、(検索)の対象は(
テキスト)であることを決定する0次の構造生成部4で
は、これより検索対象となる単語とそれら単語間の関係
を示す検索構造を生成する(ステップ103)、すなわ
ち、LISP言語型の表現で示すならば、(検索(対象
テキスト))のようになる、この処理には、同一内容を
表わす複数の表現、例えば能動態と受動態による表現等
がある場合に、その代表となるべき構造へ変換を行う処
理も含まれる。つまり、「テキストを検索するj 「テ
キストが検索される」の両文章からはともに(検索(対
象 テキスト))の構造が生成される。
析を行い(ステップ1o2)、入力文を(テキスト/名
詞)(を/格助詞)(検索する/動詞)に分解し、さら
に入力文の動作は(検索)であり、(検索)の対象は(
テキスト)であることを決定する0次の構造生成部4で
は、これより検索対象となる単語とそれら単語間の関係
を示す検索構造を生成する(ステップ103)、すなわ
ち、LISP言語型の表現で示すならば、(検索(対象
テキスト))のようになる、この処理には、同一内容を
表わす複数の表現、例えば能動態と受動態による表現等
がある場合に、その代表となるべき構造へ変換を行う処
理も含まれる。つまり、「テキストを検索するj 「テ
キストが検索される」の両文章からはともに(検索(対
象 テキスト))の構造が生成される。
類義語展開部5は、類義語辞書6を参照することにより
、検索構造に含まれる単語を類義語に展開する。類義語
辞書6の中に、r検索」の類義語として「探す」、「テ
キストjの類義語として「文書」 r文章」があった場
合、前述の検索構造は、((検索 探す)(対象(テキ
スト 文書 文章)))のように補強される(ステップ
104)、 検索対象選定部7は、文字索引8を用い
て、テキストベース中の全記事の中から検索対象となり
得る記事を選択する(ステップ105)、すなわち。
、検索構造に含まれる単語を類義語に展開する。類義語
辞書6の中に、r検索」の類義語として「探す」、「テ
キストjの類義語として「文書」 r文章」があった場
合、前述の検索構造は、((検索 探す)(対象(テキ
スト 文書 文章)))のように補強される(ステップ
104)、 検索対象選定部7は、文字索引8を用い
て、テキストベース中の全記事の中から検索対象となり
得る記事を選択する(ステップ105)、すなわち。
「検索1という単語がなければ検索結果とならないとい
う場合には、r検」という文字を含む記事であり、かつ
「索1という文字を含む記事のみ(積集合)が検索候補
となる。上述の条件において、「検索」の代替として?
探すjという単語があれば検索結果となり得るという場
合には、「検索」という単語の必須性の要請から選定さ
れた検索候補とr探す」という単語の必須性の要請から
選定された検索候補のいずれかにある候補(和集合)が
検索候補となる。
う場合には、r検」という文字を含む記事であり、かつ
「索1という文字を含む記事のみ(積集合)が検索候補
となる。上述の条件において、「検索」の代替として?
探すjという単語があれば検索結果となり得るという場
合には、「検索」という単語の必須性の要請から選定さ
れた検索候補とr探す」という単語の必須性の要請から
選定された検索候補のいずれかにある候補(和集合)が
検索候補となる。
このような検索構造に従って、記事集合に対する集合演
算を行うことにより、検索候補の選定が可能となる。こ
れは、文字とそれを含む記事を記憶している文字索引8
を用いることにより高速に処理される。テキスト検索部
9は、検索対象選定部7で選択された記事群についてテ
キストベース10の中を走査して、単語が類似語展開部
5から引き渡された検索構造と同じ関係で出現したもの
を一致した文書として出力する(ステップ106)。
算を行うことにより、検索候補の選定が可能となる。こ
れは、文字とそれを含む記事を記憶している文字索引8
を用いることにより高速に処理される。テキスト検索部
9は、検索対象選定部7で選択された記事群についてテ
キストベース10の中を走査して、単語が類似語展開部
5から引き渡された検索構造と同じ関係で出現したもの
を一致した文書として出力する(ステップ106)。
従って、前述の例においては、f文書を探す」「文章が
検索される」は一致したものと判定するが、Irテキス
トで検索するjは非一致と判定する。
検索される」は一致したものと判定するが、Irテキス
トで検索するjは非一致と判定する。
何故ならば、Irテキストでjはテキストが検索の対象
ではなく5手段であって、入力した文章の意味が文法的
に異なるためである。
ではなく5手段であって、入力した文章の意味が文法的
に異なるためである。
このように本実施例においては、(イ)自然言語の文書
からなるテキストベースを検索の対象とする。(ロ)自
然言語で検索するテキストを指定する。
からなるテキストベースを検索の対象とする。(ロ)自
然言語で検索するテキストを指定する。
(ハ)入力された検索を指定する自然言語文(入力文)
中の各単語の関係をテキストの検索時に利用する。(ニ
)入力文中で使用された単語をその単語と類義な意味を
表わす単語に展開したもので検索を行う、(ホ)検索の
対象をテキストベースの全記事から高速に選択する機構
を備えている。
中の各単語の関係をテキストの検索時に利用する。(ニ
)入力文中で使用された単語をその単語と類義な意味を
表わす単語に展開したもので検索を行う、(ホ)検索の
対象をテキストベースの全記事から高速に選択する機構
を備えている。
以上説明したように1本発明によれば、テキストベース
に対する事前の処理が不要であり、それによる情報の欠
落等を回避することができ、かつ誰でも利用し易く、意
味的に近いものを検索でき、しかも入力文で使用した単
語と検索結果が緩衝され、多様な入力文に対して柔軟に
対応でき、また検索時間の短縮が可能である。
に対する事前の処理が不要であり、それによる情報の欠
落等を回避することができ、かつ誰でも利用し易く、意
味的に近いものを検索でき、しかも入力文で使用した単
語と検索結果が緩衝され、多様な入力文に対して柔軟に
対応でき、また検索時間の短縮が可能である。
第1図は本発明の一実施例を示すテキストベース検索シ
ステムの機能ブロック図、第2図は第1図における単語
辞書の内容を示す図、第3図は第1図における類義語辞
書の内容を示す図、第4図は第1図における文字索引の
内容を示す図、第5図は第1図のシステムの動作フロー
チャートである。 1:入力部、2:文解析部、3:単語辞書、4:構造生
成部、5:類義語展開部、6:類義語辞書。 7:検索対象選定部、8:文字索引、9:テキスト検索
部、10:テキストベース。 第 図 第 図 第 図
ステムの機能ブロック図、第2図は第1図における単語
辞書の内容を示す図、第3図は第1図における類義語辞
書の内容を示す図、第4図は第1図における文字索引の
内容を示す図、第5図は第1図のシステムの動作フロー
チャートである。 1:入力部、2:文解析部、3:単語辞書、4:構造生
成部、5:類義語展開部、6:類義語辞書。 7:検索対象選定部、8:文字索引、9:テキスト検索
部、10:テキストベース。 第 図 第 図 第 図
Claims (1)
- (1)見出し単語と該単語の品詞情報、文法情報を記憶
した単語辞書と、自然言語で書かれた文書を蓄積したテ
キストベースと、自然言語を用いて文章を入力する入力
部と、入力された文章を単語に分割(形態素解析)し、
分割した単語の品詞情報、文法情報から入力された文章
の文法的構造の解析(構文解析)を行う文解析部と、該
文解析部の解析結果に基づいて上記テキストベースを検
索する処理部とを有するテキストベース検索システムに
おいて、見出しの単語と同義ないし類義の意味を有する
単語を記憶した類義語辞書と、文字および該文字を含む
上記テキストベース中の記事を組にした情報を持つ文字
索引とを備え、入力文中から検索時に対象となる単語を
選別し、検索の標本となるべき構造を生成するステップ
と、該構造生成ステップで作成した検索構造中の単語を
類義な意味の単語に展開し、検索構造を補強する類義語
展開ステップと、該類義語展開ステップで作成した検索
構造中の類義語に展開された単語群と上記文字索引とか
ら検索対象をテキストベース中の全記事から選定する検
索対象選定ステップと、上記類義語展開ステップで作成
した検索構造を標本として、上記検索対象選定ステップ
で選出した記事群を走査して、標本の検索構造と一致す
るものを含むテキストを検索結果として出力するテキス
ト検索ステップとを有することを特徴とするテキストベ
ース検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1076012A JPH0827803B2 (ja) | 1989-03-28 | 1989-03-28 | テキストベース検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1076012A JPH0827803B2 (ja) | 1989-03-28 | 1989-03-28 | テキストベース検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02253474A true JPH02253474A (ja) | 1990-10-12 |
JPH0827803B2 JPH0827803B2 (ja) | 1996-03-21 |
Family
ID=13592908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1076012A Expired - Lifetime JPH0827803B2 (ja) | 1989-03-28 | 1989-03-28 | テキストベース検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0827803B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
JPH05128158A (ja) * | 1991-10-31 | 1993-05-25 | Nec Corp | 情報検索装置 |
US6055530A (en) * | 1997-03-03 | 2000-04-25 | Kabushiki Kaisha Toshiba | Document information management system, method and memory |
WO2024117618A1 (ko) * | 2022-11-30 | 2024-06-06 | (주)아이브릭스 | 검색엔진의 동의어 확장 장치 및 그 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62159223A (ja) * | 1986-01-08 | 1987-07-15 | Hitachi Ltd | 文書情報検索方式 |
JPS6340938A (ja) * | 1986-08-05 | 1988-02-22 | Nec Corp | 情報検索における同意語検索方式 |
JPS63156229A (ja) * | 1986-12-19 | 1988-06-29 | Fujitsu Ltd | デ−タ・ベ−ス検索装置 |
JPS6421624A (en) * | 1987-07-17 | 1989-01-25 | Nippon Telegraph & Telephone | Japanese document retrieval system |
JPS6464032A (en) * | 1987-09-04 | 1989-03-09 | Hitachi Ltd | Information retrieving system |
-
1989
- 1989-03-28 JP JP1076012A patent/JPH0827803B2/ja not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62159223A (ja) * | 1986-01-08 | 1987-07-15 | Hitachi Ltd | 文書情報検索方式 |
JPS6340938A (ja) * | 1986-08-05 | 1988-02-22 | Nec Corp | 情報検索における同意語検索方式 |
JPS63156229A (ja) * | 1986-12-19 | 1988-06-29 | Fujitsu Ltd | デ−タ・ベ−ス検索装置 |
JPS6421624A (en) * | 1987-07-17 | 1989-01-25 | Nippon Telegraph & Telephone | Japanese document retrieval system |
JPS6464032A (en) * | 1987-09-04 | 1989-03-09 | Hitachi Ltd | Information retrieving system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
JPH05128158A (ja) * | 1991-10-31 | 1993-05-25 | Nec Corp | 情報検索装置 |
US6055530A (en) * | 1997-03-03 | 2000-04-25 | Kabushiki Kaisha Toshiba | Document information management system, method and memory |
WO2024117618A1 (ko) * | 2022-11-30 | 2024-06-06 | (주)아이브릭스 | 검색엔진의 동의어 확장 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JPH0827803B2 (ja) | 1996-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5099426A (en) | Method for use of morphological information to cross reference keywords used for information retrieval | |
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
US6523030B1 (en) | Sort system for merging database entries | |
JP2742115B2 (ja) | 類似文書検索装置 | |
US20050203900A1 (en) | Associative retrieval system and associative retrieval method | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH1145241A (ja) | かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JPH0418673A (ja) | テキスト情報抽出方法および装置 | |
US20080162115A1 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
JPH0484271A (ja) | 文書内情報検索装置 | |
JPH0844771A (ja) | 情報検索装置 | |
JPH02253474A (ja) | テキストベース検索方法 | |
KR20000036487A (ko) | 정보검색기술을 이용한 한영번역 데이터베이스 시스템 | |
JPH03229367A (ja) | テキストベース検索方式 | |
KR20200122089A (ko) | 지역 색인을 이용한 전자문서 검색 방법 및 장치 | |
JPH0561902A (ja) | 機械翻訳システム | |
JPH0320866A (ja) | テキストベース検索方式 | |
KR20010004090A (ko) | 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 | |
JPH03229366A (ja) | テキストベースの多段検索方式 | |
JPH0262668A (ja) | 文章情報解析技法を用いた文章情報検索方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090321 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090321 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100321 Year of fee payment: 14 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100321 Year of fee payment: 14 |