JPH05250413A - テキストデータ検索装置 - Google Patents

テキストデータ検索装置

Info

Publication number
JPH05250413A
JPH05250413A JP4049137A JP4913792A JPH05250413A JP H05250413 A JPH05250413 A JP H05250413A JP 4049137 A JP4049137 A JP 4049137A JP 4913792 A JP4913792 A JP 4913792A JP H05250413 A JPH05250413 A JP H05250413A
Authority
JP
Japan
Prior art keywords
keyword
key phrase
text
keyphrase
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4049137A
Other languages
English (en)
Inventor
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4049137A priority Critical patent/JPH05250413A/ja
Publication of JPH05250413A publication Critical patent/JPH05250413A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、従来の場合にユーザが適切な検索
文を入力しなければならないという点を、最も普及して
いるキーワード検索システムと同様の入力形式によって
実現することを目的としている。 【構成】 複数のキーワードを入力することによりテキ
ストデータを検索する装置であって、キーワードの論理
結合で表現された検索式を入力し、その検索式を展開す
るキーワード組み合わせ展開部と、キーフレーズ中間構
造へ変換するキーワード・キーフレーズ変換部と、キー
フレーズ文字列を生成するキーフレーズ生成部と、出力
部とをもつ。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードを入力する
ことによりテキストデータを検索するテキストデータ検
索装置に関する。
【0002】
【従来の技術】従来のテキストデータ検索システムに
は、大きく分類すると3つのタイプがある。
【0003】第1は、キーワード検索システムなどと呼
ばれるものである。このタイプのシステムにおいては、
テキストデータベースを構成する各テキストデータに、
そのテキストの内容を表すキーワード群が、検索におけ
るインデックスに供するために、付与される。ユーザ
は、複数のキーワードを論理結合させた検索式を入力
し、テキストデータの検索を行う。
【0004】第2は、テキストベース検索システムなど
と呼ばれるものである。このタイプのシステムにおいて
は、テキストデータベースを構成する各テキストデータ
にそのテキストの内容を表す検索対象文が付与される。
ユーザは検索指示文を入力し、システムは検索指示文と
最も意味的に類似した検索対象文をインデックスとして
持つテキストデータを検索する。このタイプの装置とし
ては、例えば「テキスト型データベース装置;特願平1
−111626号」がある。
【0005】第3は、フルテキスト検索システムと呼ば
れるものである。このタイプのシステムにおいては、デ
ータベースを構成する各テキストデータにはインデック
ス情報が付与されない。システムはユーザによって入力
された検索文を内容に含むテキストデータを検索する。
【0006】
【発明が解決しようとする課題】第1のタイプのシステ
ムにおける問題点は、検索式の条件が厳しすぎると所望
のテキストデータを検索できなくなる場合があること、
逆に検索式の条件が緩すぎると所望でないものも含む多
数のテキストデータが検索される可能性があることであ
る。現状では、このタイプのシステムが最も多い。
【0007】第2のタイプのシステムにおける問題点と
しては、入力として検索対象文と類似していると思われ
る文をユーザが作成して入力しなければならないことが
あげられる。
【0008】第3のタイプのシステムにおける問題点
は、検索処理が基本的に文字列のマッチングであるため
に、あらかじめユーザにより入力された検索文を標準的
な表現に変換したり、バリエーションを持たせるように
変換したりしなければ実用的な検索精度が得られないに
もかかわらず、このための技術が未熟なことである。
【0009】従来のテキストデータ検索システムは、上
記のようにいずれも問題点を抱えている。本発明は、特
に、テキストベース検索システム、および、フルテキス
ト検索システムにおける問題点、すなわち、ユーザが適
切な検索文を入力しなければならないという点を、最も
普及しているキーワード検索システムと同様の入力形式
によって実現することを目的としている。
【0010】
【課題を解決するための手段】本発明のテキストデータ
検索装置は、複数のキーワードを入力することによりテ
キストデータを検索する装置であって、キーワードの論
理結合で表現された検索式を入力する入力部と、単語の
各種属性情報を格納した単語辞書、あらかじめ設定され
たキーワード・キーフレーズ変換規則を格納したキーワ
ード・キーフレーズ変換規則辞書、テキストデータが対
象とする世界に関する知識を記述した対象分野知識辞書
を備え、入力された検索式をその論理結合にしたがって
キーワード群の集合へ展開するキーワード組み合わせ展
開部と、展開された各キーワード群をキーワード・キー
フレーズ変換規則辞書に格納されたキーワード・キーフ
レーズ変換規則を適用することによりキーフレーズ中間
構造へ変換するキーワード・キーフレーズ変換部と、変
換されたキーフレーズ中間構造からキーフレーズ文字列
を生成するキーフレーズ生成部と、生成されたキーフレ
ーズ文字列とそれに対応するキーフレーズ中間構造の対
を出力する出力部を有することを特徴とする。
【0011】
【作用】本発明のテキストデータ検索装置によれば、複
数のキーワードの論理結合によって表現された検索式が
キーフレーズ群に変換される。よって、これらのキーフ
レーズ群をテキストベース検索システム、または、フル
テキスト検索システムの入力とすれば、すでに普及して
いるキーワード検索システムと同様の入力形式によっ
て、テキストベース検索システム、または、フルテキス
ト検索システムを有効に利用することが可能となる。
【0012】
【実施例】以下、添付図面を用いて本発明の一実施例を
詳細に説明する。図1は、本発明のテキストデータ検索
装置の一実施例を示すブロック図である。このテキスト
データ検索装置は、入力部1、キーワード組み合わせ展
開部2、キーワード・キーフレーズ変換部3、単語辞書
4、キーワード・キーフレーズ変換規則辞書5、対象分
野知識辞書6、キーフレーズ生成部7、出力部8を備え
ている。
【0013】入力部1からは、複数のキーワードの論理
結合によって表現された検索式が入力される。検索式の
形式は、従来のキーワード検索システムで用いられてい
るものと同等とする。
【0014】入力された検索式は、キーワード組み合わ
せ展開部2へ転送される。キーワード組み合わせ展開部
2は、入力された検索式に含まれる論理記号、および、
それらによって結ばれた複数のキーワードの関係を解析
し、検索式をキーワード群の集合へと展開する。
【0015】展開されたキーワード群の集合は、キーワ
ード・キーフレーズ変換部3へ転送される。キーワード
・キーフレーズ変換部3では、まず転送されてきたキー
ワード群集合の要素である各キーワード群の中に含まれ
る各キーワードに対する各種属性情報を単語辞書4から
検索しこれらの属性情報をキーワードに付与し、これら
の中からキーワード・キーフレーズ変換規則のキーとな
りうる単語を抽出する。次にこれらの単語をキーとして
キーワード・キーフレーズ変換規則辞書5を検索し、対
応する規則を順次適用しキーワード群を構文木構造とし
て表現されたキーフレーズ中間構造へと変換する。この
際、必要があれば対象分野知識辞書6を検索し、必要な
単語の補完などを行う。
【0016】変換されたキーフレーズ中間構造群は、キ
ーフレーズ生成部7へ転送される。キーフレーズ生成部
7は、構文木構造として表現されたキーフレーズ構造を
操作することによってキーフレーズ文字列を生成する。
【0017】生成されたキーフレーズ文字列と対応する
キーフレーズ中間構造の対データは、出力部8へ転送さ
れる。出力部8は、対データをテキストベース検索シス
テム、または、フルテキスト検索システムへと転送す
る。
【0018】次に以下に示す検索式が入力されたものと
して、本発明のテキストデータ検索装置の動作を説明す
る。 (AND 日本 首相 アメリカ 大統領(OR 調印
協議) (OR 軍縮 ハワイ)) この検索式は、入力部1から入力され、キーワード組み
合わせ展開部2へと転送される。検索式は、キーワード
を論理記号AND、ORで結合したものである。ここ
で、検索式(AND K1 K2 ・・・Kn)は、式
K1〜Knが全てを含むことを意味する。ここで、式と
は、検索式またはキーワードのこととする。また、検索
式(OR K1 K2 ・・・Km)は、式K1〜Kn
の少なくとも1つを含むことを意味する。
【0019】キーワード組み合わせ展開部2は入力され
た検索式を解析し、可能なキーワードの組み合わせの全
体集合を作成する。1組の可能なキーワードの組み合わ
せをキーワード群、キーワード群の全体集合をキーワー
ド群集合という。上記の例に対しては、次の9つのキー
ワード群を要素とするキーワード群集合が生成される。
【0020】 [(日本 首相 アメリカ 大統領 調印 協議 軍縮 ハワイ) (日本 首相 アメリカ 大統領 調印 協議 軍縮) (日本 首相 アメリカ 大統領 調印 協議 ハワイ) (日本 首相 アメリカ 大統領 調印 軍縮 ハワイ) (日本 首相 アメリカ 大統領 協議 軍縮 ハワイ) (日本 首相 アメリカ 大統領 調印 軍縮) (日本 首相 アメリカ 大統領 調印 ハワイ) (日本 首相 アメリカ 大統領 協議 軍縮) (日本 首相 アメリカ 大統領 協議 ハワイ)] なお、検索式から上記のキーワード群集合を生成する方
法は、従来の論理式解析技術等の応用によって容易に実
現可能であるので、ここではキーワード組み合わせ展開
部2の動作原理については問わない。
【0021】次に上記のキーワード群集合は、キーワー
ド・キーフレーズ変換部3へ転送される。キーワード・
キーフレーズ変換部3は、入力されたキーワード群集合
の各要素である各キーワード群に対して以下に説明する
動作を繰り返す。その基本動作を示すフローチャートを
図2に示す。また、以下では、上記のキーワード群集合
の例における5番目の要素であるキーワード群、すなわ
ち、(日本 首相 アメリカ 大統領 協議 軍縮 ハ
ワイ)を例として説明を行う。
【0022】まず、ステップ201において、データの
初期化を行う。以下の処理で必要となる単語情報を格納
する領域へのポインタ、構築されるキーフレーズ中間構
造を保持する領域へのポインタをキーワード群中の各キ
ーワードに対して確保する。
【0023】次に、ステップ202において、単語辞書
4を参照して、各キーワードに対して単語属性情報を付
与する。図3に上記のキーワード群に対する結果の例を
示す。ここでは、単語属性情報として、品詞、意味属
性、対応するキーワード・キーフレーズ変換規則IDの
みを考慮する。なお、単語辞書4は、通常の日本語処理
システムに具備されているものを基にして構築すること
ができる。
【0024】ステップ203では、処理の終了条件をチ
ェックする。キーワード群が1つの要素を支配節点とす
る構文木構造で表されるキーフレーズ中間構造に集約さ
れれば、処理は成功したものとして終了する。この時点
ではまだ、この終了条件は達成されていないので、ステ
ップ204へと進む。
【0025】ステップ204では、キーワード・キーフ
レーズ変換規則辞書5に格納された変換規則を適用可能
なキーワードがキーワード群に存在するかをチェックす
る。もし、このようなキーワードが存在しなければ、処
理は失敗したものとして終了する。ここでは、まず2番
目のキーワード「首相」が適用可能な変換規則(図3に
おいて規則ID:TR001で示されている)を保持し
ており、かつこの規則が未適用であるため、ステップ2
05へ進む。ステップ205では、上記の規則を適用す
る。この変換規則TR001の概念図を図4に示す。こ
の規則は、図4に示されたX=「首相」または「大統
領」という単語を図示下方のような構文木構造へ変換す
ることを示している。ここでYとは、首相が存在する国
であり、かつ、キーワード群に含まれる国名が代入され
る。またZには、その首相の名前が代入される。ある国
に首相が存在するかどうかを判定し、その名前を求める
ためには、そのための知識を装置に持たせることが必要
となる。このような知識を対象分野知識辞書6に記述し
ておくことで上記の処理が可能となる。
【0026】図5に対象分野知識辞書6のエントリ例を
示す。この辞書を参照することによって、日本には首相
が存在し、その名前がMであることが判明する。すなわ
ち、Y=日本、Z=Mとなる。
【0027】なお、このような構文木構造への変換は、
すでに提案されている自然言語処理装置(例えば、日本
語文書推敲支援装置:特願平2−40503号など)を
基にして比較的容易に構成することができるので、ここ
ではその詳細は説明しない。なお、この変換規則の適用
によって生成されるキーフレーズは、図6に示すキーワ
ード群の第1要素となる。
【0028】上記のようにして1回のキーワード・キー
フレーズ変換処理が終了し、処理はまたステップ203
へ戻る。上記と同様にして処理は進み、次は、キーワー
ド「大統領」に対して上記と同様の処理が行われる。こ
こまでの処理が終了した時点で、キーワード群は、図6
に示すようなデータへと変換される。
【0029】次のステップ204においては、キーワー
ド「協議」が変換規則を持ち、かつ、それが未適用なも
のとして選択され、ステップ205においてその規則
(変換規則ID:TR101)が適用される。図7に変
換規則TR101の概念図を示す。図7上方は、動作性
名詞「協議」が持つべき概念を示している。すなわち、
“C1がC2とC3についてC4で協議する”というの
が「協議」の持つ概念である。ここで、C1〜C4は現
在処理中のキーワード群に含まれる要素で、その意味属
性が、C1およびC2は「責任者−政治」を持つもの、
C3は「問題」を持つもの、C4は「地名」を持つもの
であることを示している。この時点で、キーワード群
は、図6に示したようになっているので、C1にはキー
フレーズ中間構造『M首相』、C2にはキーフレーズ
『アメリカのB大統領』、C3にはキーワード「軍
縮」、C4にはキーワード「ハワイ」が代入される。
【0030】図7下方は、図7上方のデータに対する変
換操作後の構文木構造を指定している。上記の代入、お
よび、図7下方に示された操作により、キーワード群は
図8に示されるようになる。
【0031】次のステップ203において、キーワード
群の要素の数は1つであるので、処理は成功したものと
して終了する。そして、結果のキーフレーズ中間構造
は、キーフレーズ生成部7へと転送される。
【0032】キーフレーズ生成部7は、キーフレーズ中
間構造を入力とし、それを走査しながら文字列を集める
ことにより、キーフレーズ文字列を生成する。図9に生
成されるキーフレーズ文字列を示す。なお、構文木構造
を走査することによって大文字列を生成する手法は、自
然言語処理の分野において一般的な手法であるため、こ
こではその詳細は説明しない。
【0033】生成されたキーフレーズ文字列と対応する
キーフレーズ中間構造は、出力部8を介して、テキスト
ベース検索システム、または、フルテキスト検索システ
ムなどへ転送され、これらのシステムの入力となる。
【0034】図10に、テキストベース検索システムと
連結されて利用される例を示す。この例では、生成され
たキーフレーズ「M首相とアメリカのB大統領がハワイ
で軍縮協議」と類似した検索対象文を持つテキストが正
しく検索される例を示している。なお、キーフレーズ文
字列だけでなく対応するキーフレーズ中間構造も対にし
て出力するのは、後段に接続される応用システムによっ
ては、文字列だけでなく構文構造が分かっていたほうが
有利な場合が存在するためである。
【0035】
【発明の効果】以上説明したように、本発明によれば、
テキストデータ検索システムにおいて、現在最も普及し
ているキーワード検索システムと同様のキーワードの論
理結合による検索式を入力として、テキストベース検索
システム、または、フルテキスト検索システムの入力と
なりうる検索文を生成することができる。したがって、
すでに普及している検索方法を用いながら、より柔軟な
検索機能を提供する上記2つのタイプの情報検索システ
ムを利用することが可能となる。
【図面の簡単な説明】
【図1】本発明のテキストデータ検索装置の一実施例を
示すブロック図である。
【図2】キーワード・キーフレーズ変換部の基本的な動
作を示すフローチャートである。
【図3】キーワード・キーフレーズ変換部における単語
属性情報付与の例を示す図である。
【図4】キーワード・キーフレーズ変換規則辞書のエン
トリ例を示す図である。
【図5】対象分野知識辞書のエントリ例を示す図であ
る。
【図6】キーワード・キーフレーズ変換部における途中
結果データ例を示す図である。
【図7】キーワード・キーフレーズ変換規則辞書のエン
トリ例を示す図である。
【図8】キーワード・キーフレーズ変換部が生成するキ
ーフレーズ中間構造例を示す図である。
【図9】キーフレーズ生成部が生成するキーフレーズ例
を示す図である。
【図10】テキストベース検索システムへの入力例を示
す図である。
【符号の説明】
1 入力部 2 キーワード組み合わせ展開部 3 キーワード・キーフレーズ変換部 4 単語辞書 5 キーワード・キーフレーズ変換規則辞書 6 対象分野知識辞書 7 キーフレーズ生成部 8 出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 キーワードを入力することによりテキス
    トデータを検索する装置であって、 キーワードの論理結合で表現された検索式を入力する入
    力部と、 単語の各種属性情報を格納した単語辞書と、 あらかじめ設定されたキーワード・キーフレーズ変換規
    則を格納するキーワード・キーフレーズ変換規則辞書
    と、 テキストデータが対象とする世界に関する知識を記述し
    た対象分野知識辞書とを備えると共に、 入力された検索式をその論理結合にしたがってキーワー
    ド群の集合へ展開するキーワード組み合わせ展開部と、 展開された各キーワード群をキーワード・キーフレーズ
    変換規則辞書に格納されたキーワード・キーフレーズ変
    換規則を適用することによりキーフレーズ中間構造へ変
    換するキーワード・キーフレーズ変換部と、 変換されたキーフレーズ中間構造からキーフレーズ文字
    列を生成するキーフレーズ生成部と、 生成されたキーフレーズ文字列とそれに対応するキーフ
    レーズ中間構造の対を出力する出力部を有することを特
    徴とするテキストデータ検索装置。
JP4049137A 1992-03-06 1992-03-06 テキストデータ検索装置 Pending JPH05250413A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4049137A JPH05250413A (ja) 1992-03-06 1992-03-06 テキストデータ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4049137A JPH05250413A (ja) 1992-03-06 1992-03-06 テキストデータ検索装置

Publications (1)

Publication Number Publication Date
JPH05250413A true JPH05250413A (ja) 1993-09-28

Family

ID=12822688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4049137A Pending JPH05250413A (ja) 1992-03-06 1992-03-06 テキストデータ検索装置

Country Status (1)

Country Link
JP (1) JPH05250413A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208366A (ja) * 2002-01-17 2003-07-25 Univ Waseda 機器統合のためのネットワーク構築装置
CN111309856A (zh) * 2019-04-19 2020-06-19 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208366A (ja) * 2002-01-17 2003-07-25 Univ Waseda 機器統合のためのネットワーク構築装置
CN111309856A (zh) * 2019-04-19 2020-06-19 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统
CN111309856B (zh) * 2019-04-19 2023-06-13 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统

Similar Documents

Publication Publication Date Title
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
KR100594512B1 (ko) 지식 창조 능력을 가지는 문서 의미 분석/선택 시스템 및그 방법
US6076051A (en) Information retrieval utilizing semantic representation of text
JP2000315216A (ja) 自然言語検索方法および装置
JPH03278174A (ja) 異言語交信用翻訳方法およびシステム
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
Stratica et al. Using semantic templates for a natural language interface to the CINDI virtual library
JP3015223B2 (ja) 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH05250413A (ja) テキストデータ検索装置
JP3747542B2 (ja) 統合化検索装置
JPH05233704A (ja) キーワード拡張検索方式
JP2008140204A (ja) データ検索システム及びプログラム
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JPH10207896A (ja) 検索用語拡張方法及び装置及び情報検索方法及び装置
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
KR19990015131A (ko) 영한 자동번역 시스템의 숙어 번역 방법
JP3892227B2 (ja) 機械翻訳システム
JPH03148765A (ja) 文書検索装置
JPH03229367A (ja) テキストベース検索方式
JP3161660B2 (ja) キーワード検索方法
JPH10134078A (ja) 文書検索方法及び装置
JPH0320866A (ja) テキストベース検索方式
JPS6217872A (ja) 日本語理解装置