JPH02176868A

JPH02176868A - データベース検索装置

Info

Publication number: JPH02176868A
Application number: JP63330070A
Authority: JP
Inventors: Masumi Nomura; 真澄野村; Ryoichi Murata; 良一村田
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 1988-12-27
Filing date: 1988-12-27
Publication date: 1990-07-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、自然言語表現記述のデータを格納したデータ
ベースの検索に適用される知的データベース検索装置に
関する。

〔従来の技術〕

単語、あるいは数値的な検索キーを与えて情報を抽出す
る従来のデータベース検索装置は、検索キーによる単な
るコード比較と、数値的な大小演算処理を行なっている
。

〔発明が解決しようとする課題〕

単語、あるいは数値的な検索キーを与えて情報を抽出す
る従来のデータベース検索装置は、以下の問題点を有し
ている。

自然言語における表現上の柔軟性を何等考慮せず１（検
索キーを規定し、検索キーを陽にユ−ザに指定させるこ
とによりデータベースを検索するので、（１）検索キーが登録されていないために検索できない
。

（２）入力しようとしているキーワードが検索キーとし
、て登録されているかを確認する必要があり、検索キー
自身の検索に時間がかかる。

また、複数の検索キーを指定し、これのＡＮＤをとって
検索することにより、抽出情報量を制限することができ
るものの。

（３）検索キーの間の自然言語的意味付けがなされてい
ないため、ユーザの要求していない情報まで取り出して
しまう。

〔課題を解決するための手段〕

ユーザの入力する検索キーとして、自然言語表現のキー
センテンスと称すデータ表現を許し。

対象領域における単語、熟語、あるいは単語の一部（例
えば語幹）等を、単語の種類、他の単語等との関係とと
もに辞書に登録し、さらに単語の種類の順序に関する制
約を柔軟に規定し。

これらを用いてユーザが入力した自然言語表現のデータ
の解析、理解を行ない、この結果を踏まえてデータベー
スを検索する。

〔作用〕

前記手段は、ユーザの入力したキーセンテンスなる自然
言語表現データの意味理解を行う。

なお１本件発明の具体的作用は、〔実施例〕の第５項、
処理手順に述べる。

〔実施例〕

第１図に本発明の実施例を示す。知的データベース検索
装置は、単語抽出装置１、構文解析装置２、データ検索
装置３．第１のメモリ４゜第２のメモリ５、第３のメモ
リ６、ワーキングメモリ７、データベース８、入力装置
９．及び出力装置１０から構成されている。

第２、第３、第４図には、第１のメモリ４゜第２のメモ
リ５、第３のメモリ６の構成図を示す。

また、第５、第６図には、ワーキングメモリ７　データ
ベース８の構成図を示す。

第１のメモリ４に格納されている辞書には。

単語データ４０を第２図に示した形式で記述されている
。以下に具体的な記述内容を説明する。

単語名部４１は、単語を記述する。同義語基部４２は、
当該単語の同義語を記述する。反意語基部４３は、当該
単語の反意語を記述する。

上位単語名部４４は、当該単語の意味するものが物理的
な物であればこれを物理的に包含する物理的な物に対応
する単語を、当該単語の意味するものが抽象的概念であ
れば、これを意味的に包含する抽象的概念に対応する単
語を記述する。

下位単語名部４５は、当該単語の意味するものが物理的
な物であればこれが物理的に包含する物理的な物に対応
する単語を、当該単語の意味するものが抽象的概念であ
れば、これが意味的に包含する抽象的概念に対応する単
語を、その単語区分名とともに記述する。

ルール基部４６は、当該単語が出現したときに評価され
るルール名を記述する。

単語区分基部４７は、当該単語の単語区分名を記述する
。

テンプレートノードの記述例について説明すると、第２
のメモリ５に格納されているテンプレートノード５０は
、第３図に示した形式で記述されている。以下に具体的
な記述内容を説明する。

ノード名部５１は、当該テンプレートノードのノード名
を記述する。通常、これには単語区分名を用いる。

上流ノード名部５２は、当該テンプレートノードのノー
ド名に対応する単語区分名を属性として翁１−単語より
前に出現する単語の単語区分名に対応するテンプレート
ノードのノード名を記述する。下流ノード名部５３は、
当該テンプレートノードのノード名に対応する単語区分
名を属性として有す単語より後に出現する単語の単語区
分基に対応スルテンプレートノードのノード名を記述す
る。

第３のメモリ６に格納されているルールは、第４図に示
したルールセットと称する４つのグループに分割して格
納されている。以下、各ルールセットに格納されている
ルールの一例を示す。第１のルールセット６１のうち、ルールＡでは、接続詞的な単語を有する文は、その接続
詞的な単語の前後でテンプレートノードにより制約され
る語順規定を犯すが、これを黙認する。

ルールＢでは、数量に関する単語は、文の最初か、ある
いは主語より後で副詞、動詞、形容動詞より前に位置せ
ねばならない。

第２のルールセット６２のうち。

ルールＣでは、６及び“や６または”等の接続詞的に使
用する単語は、その前後の単語区分基を参考にして、自
然言語表現データから省略されていると見なされる単語
を補完する。

ルールＤでは２本来２つの単語が接続詞的な単語により
結合され、さらにそれを簡略化したと見なせる単語（例
えば“出入口”は“出口及び入口″と見なしてよい）は
、その元の簡略化していない表現に戻す。

ルールＥでは、１単語１＋否定語１は単語１の反意語に
置換する。

第３のルールセット６３のうち、ルールＦでは、単語区
分基１の単語は、テンプレートノード名１に位置する単
語として単語１あるいは単語２を持たねばならない。ル
ールＧでは、単語区分基１の単語は、テンプレートノー
ド名１に位置する単語として単語区分基２の単語を持っ
てはならない。

第４のルールセット６４のうち、ルールＨでは、単語１
（例えば“あるいは＃）を含むデータは、その前後に位
置し、かつ語順テンプレートを満たす最も長い単語列デ
ータを交換しても自然言語上の意味は何等変わらない。

ルールＩでは、数量に関する単語は、文の最初にあって
も、あるいは主語より後で副詞、動詞、形容動詞より前
にあっても、自然言語上の意味は何ら変わらない。

本発明の実施例は以下の手順で処理がなされる。

５．０　　知的データベース検索装置を起動すると、５１　出力装置１０は、検索のための自然言語表現形式
のデータを入力装置９より入力するよう、ユーザにメツ
セージを出力する。

５．２　　人力装置９より検索のだめの自然言語表現形
式のデータが入力されたら、入力装置９はこれをワーキ
ングメモリ７の初期データ部７１に格納する。

５．３　　単語抽出装置１は、第１のメモリ４に格納さ
れている単語名部４１より単語を順次取り出し、これが
ワーキングメモリ７の初期データ部７１に格納されてい
るデータ内に含・まれるかを評価する。含まれていれば
この単語をワーキングメモリ７のキーワード部７２の最
初に格納する。含まれていなりれば当該単語データ４０
の同義語基部４２に格納されている同義語を抽出し、こ
れがワーキングメモリ７の初期データ部７１に格納され
ているデータ内に含まれるかを評価する。この同義語が
含まれていれば、当該単語（この同義語が同義語基部４
２に登録してあった単語データ４０の単語名部４１に格
納されている単語）をワーキングメモリ７のキーワード
部７２の最初に格納する。

５．４　　単語抽出装置１は、５．３項の処理により単
語を１つも抽出できなければ、ユーザの入力した自然言
語表現形式のデータが不正であるとして、その旨を出力
装置１０より出力し、５゜８に飛ぶ。１つでも抽出でき
れば５．５の処理を行う。

５．５　　構文解析装置２は、まず、ワーキングメモリ
７の初期データ部７１に格納されているデータにおいて
、５３項の処理で抽出した単語の出現する順序に対応し
て、ワーキングメモリ７のキーワード部７２に格納され
ている単語の順序を変更する。次に、ワーキングメモリ
７のキーワード部７２に格納されている単語に対し順次
、第１のメモリ４に格納されている対応する単語データ
４０の有しているルール基部４６を調べ、第３のメモリ
６の第２のルールセット６２に格納されているルールの
ルール名が記述されていれば、当該ルールを抽出、発火
させる。

さらに、ワーキングメモリ７のキーワード部７２に格納
されている単語に対し、順次、第１のメモリ４に格納さ
れている対応する単語データ４０の有している単語区分
基部４７を調べて、この順序が、第２のメモリ５に格納
されているテンプレートノード５０に記述されているリ
ンク情報により実現可能かを評価する。この評価の際、
第３のメモリ６の第１のルールセット６１に格納されて
いるルールの適用される単語があれば当該ルールを考慮
する。実現可能であれば、構文解析装置２は、解析結果
を出力装置１０より出力し、５．６の処理を行なう。実
現可能でなければその旨を出力装置１０ｆＣ出力し、５
８に飛ぶ。

５６　構文解析装置２は、ワーキングメモリ７のキーワ
ード部７２に格納されている単語に対し、第３のメモリ
６の第３のルールセット６３に格納されているルールの
適用される単語があれば当該ルールを評価する。ルール
を満足しない単語が１つもなければ、５．７の処理を行
なう。ルールを満足しない単語が１つでも存在すれば、
その旨を出力装置１０より出力し、５８に飛ぶ。

５．７　　データ検索装置３は、ワーキングメモリ７の
キーワード部７２に格納されている単語列データを、あ
るいはワーキングメモリ７のキーワード部７２に格納さ
れている単語列データ内の一部の単語を第３のメモリ６
の第３のルールセット６３に格納されているルールを考
慮して当該単語データ４０の有している上位単語名部４
４に格納されている単語、あるいは下位単語名部４５に
格納されている単語に置換した単語列データを、この順
に含んでいる自然言語表現記述のデータを、第３のメモ
リ６の第４のルールセット６４に格納されているルール
を考慮してデータベース８のキーセンテンス部８１（デ
ータ部８２であっても構わない）より検索し、これに関
連する範囲内のデータ８０を出力装置１０より出力する
。

５．８　　出力装置１０は、検索を終了するかを問うメ
ツセージを表示し、ユーザが１処理を終了する１と入力
装置９より入力すれば処理を終了し、′処理を継続する
“と入力すればワーキングメモリ７をクリアし５．１に
戻る。

〔発明の効果〕

ユーザの入力する検索キーとして、自然言語表現のキー
センテンスと称すデータ、表、現を許し。

対象領域における単語、熟語、あるいは単語の一部（例
えば語幹）等を、単語の種類、他の単語等との関係とと
もに辞書に登録し、さらに単語の種類の順序に関する制
約を柔軟に規定し、これらを用いてユーザが入力した自
然言語表現のデータの解析、理解を行ない　この結果を
踏まえてデータベースを検索することにより、（１）　
　ユーザは検索キーの登録の有無を一切考慮する必要が
なく、（２）不必要な情報を抽出する恐れが減少する。

【図面の簡単な説明】

第１図は本発明の一実施例としての知的データベース検
索装置、第２．第３．第４図は、前記実施例に含まれる
第１、第２．第３のメモリ４．５．６の構成図、第５図
は、ワーキングメモリ７の構成図、第６図は、データベ
ース８の構成図である。１・・・単語抽出装置、２・・・構文解析装置、３・・
・データ検索装置、４・・・第１のメモリ、５・・・第
２のメモリ、６・・・第３のメモリ、７・・・ワーキン
グメモリ、８・・・データベース　９・・入力装置、１
０・・・出力装置、４０・・・単語データ、４５・・下
位単語名部、５０・・・テンプレートノード、８０・・
・データベース内データの抽出可能な最小単位のデータ
。

Claims

【特許請求の範囲】

自然言語表現で記述したデータを格納するためのメモリ
を有したデータベース検索装置において、前記データベ
ース検索装置が、単熟語を登録した辞書を格納するため
の第１のメモリと、単語の順序を柔軟に規定するテンプ
レートノードを格納するための第２のメモリと、単語の
補完・置換・順序変更検索するためのルールを格納する
ための第３のメモリと、ユーザにより入力されたデータ
から単語を抽出、あるいは同義の別の単語に置換する単
語抽出装置と、前記単語抽出装置により抽出された単語
の順序を確認・修正、同義の別の単語に置換、補完する
構文解析装置と、データベースに格納されている自然言
語表現のデータを検索するデータ検索装置と、外部より
自然言語等を用いて入力するための入力装置と、検索し
たデータを表示する等ユーザに情報を提示するための出
力装置を含むことを特徴とするデータベース検索装置。