JP2997469B2 - 自然言語理解方法および情報検索装置 - Google Patents

自然言語理解方法および情報検索装置

Info

Publication number
JP2997469B2
JP2997469B2 JP63002609A JP260988A JP2997469B2 JP 2997469 B2 JP2997469 B2 JP 2997469B2 JP 63002609 A JP63002609 A JP 63002609A JP 260988 A JP260988 A JP 260988A JP 2997469 B2 JP2997469 B2 JP 2997469B2
Authority
JP
Japan
Prior art keywords
concept
relationship
concepts
words
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63002609A
Other languages
English (en)
Other versions
JPH01180046A (ja
Inventor
浩道 藤澤
デビッド・コン
敦 畠山
伊都子 木内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63002609A priority Critical patent/JP2997469B2/ja
Publication of JPH01180046A publication Critical patent/JPH01180046A/ja
Priority to US07/831,093 priority patent/US5404506A/en
Priority to US07/947,536 priority patent/US5696916A/en
Priority to US08/141,039 priority patent/US5555408A/en
Priority to US08/663,840 priority patent/US6182062B1/en
Application granted granted Critical
Publication of JP2997469B2 publication Critical patent/JP2997469B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、一般のユーザが知識・情報の検索や登録を
判り易く、かつ容易に出来るようにするための自然言語
インターフェースに係る。より具体的には、そのような
自然言語インターフェースを実現するための自然言語理
解方式と、それを用いた知識ベース方式に関する。特
に、多種多様な事物や事実を記憶して、自然言語からの
推論を働かせて検索が出来るような知識ベースの構築法
に関する。
[従来技術] 従来、自然言語を用いたヒューマンインターフェース
としては、データベースのための自然言語インターフェ
ースが知られている。例えば、文献[ジー・ジー・ヘン
ドリックス、他、“ディベロッピング・ア・ナチュラル
・ラングエッジ・インタフェース・トゥー・コンプレッ
クス・データ”、エーシーエム、トランザクション・デ
ータベース・システム、ボル3、1978、ピーピー105−1
47(G.G.Hendrix et al.,“Developing a Natural Lang
uage Interface to Complex Data,"ACM Trans.Database
Systems,Vol.3,1978,pp.105−147)]などがある。こ
れらのシステムでは、データベースのためのデータモデ
ル(記憶するデータ項目間の関係を表現する方式のこ
と)と、自然言語を解釈するための文法や辞書とが独立
に設定されている。すなわち、自然言語インターフェー
スを既存のデータベースに対して付加するときは、文法
や辞書を改めて構築する必要がある。或いは、対象とす
るデータベースが変われば、自然言語インターフェース
のための文法や辞書を変更する必要があるという問題点
がある。
また、従来、自然言語インターフェースが与えられて
いるデータベースは関係データベース(Relational Dat
abase)であり、そこで用いられる検索のための形式言
語、例えば準標準的なSQL言語(Structured Query Lang
uage:ストラクチャード・クエリ・ラングエッジ)は高
次の知識の記述能力に弱い。通常、自然言語による質問
文は、このような中間言語としての形式言語に翻訳され
るため、この形式言語の表現能力にシステム全体の機能
が制限されてしまうという問題点がある。特に、関係デ
ータベースは一様なデータに対しては有効であるが、多
種多様な事物を扱うヘテロジェネオス・データベース
(heterogeneous database)や、オブジェクト指向のデ
ータベースに対しては、充分適しているとは言えない。
例えば、曖昧なユーザの記憶から事物を記述して、その
記述からそれに関する情報を検索することには適してい
ない。
更に、これらのシステムでは、データ(新しい知識・
情報)の入力は自然言語以外の方法を用いており、専門
家が行っている。従って、エンドユーザが直接入力・登
録することが難しいという問題点がある。
[発明が解決しようとする課題] 本発明の解決しようとする課題は、データベースや知
識ベースにおいて、以上のような問題点を解決し、エン
ドユーザが曖昧、または断片的な記憶からでも自然言語
による記述から欲しい情報を検索可能とすることにあ
る。更に、新しい情報や知識の登録もユーザ自身により
同様に自然言語を用いて行えるようにすることにある。
[課題を解決するための手段] 本発明は、かかる課題を達成するために、知識ベース
と自然言語インターフェースとに共通の知識表現基盤を
与え、それにより自然言語による知識・情報の検索と登
録とを容易に実現可能とするものである。
具体的には、本発明は、知識ベースの構成法として、
「概念」と「関係」とで事物の体系と事実を表現する
「概念関係モデル」と呼ぶ知識表現方式(データベース
におけるデータモデルに対応する)を与え、更に、同知
識ベースの中に言語的知識をも記憶させる方式を提供す
る。ここで、「概念」とは、事物や事象、或いは抽象的
な概念を表わす計算機内のデータ項目であり、「関係」
とは、同概念間に定義するデータ項目である。概念はノ
ード(節)で表わし、関係はリンク(辺)で表わす。概
念関係モデルで表された知識は、従って、概念のネット
ワークを構成する。ここでは、これを概念ネットワーク
と称する。
すなわち、本発明による知識ベースでは、本来記憶し
たい知識とそれを言語的に表現するための知識とを一体
として概念ネットワークに格納し、自然言語インターフ
ェースは同知識を共用するようにすることが特徴であ
る。従って、原則として、自然言語インターフェースの
ために改めて辞書などを構築する必要が無い。
また、本発明は、知識ベースに記憶されている事実な
どから推論を働かせて、自然言語で表わされた質問文の
意味解釈を行う自然言語理解方式を提供する。特に、通
常、我々が良く用いる複数の各詞の列からなる複合名詞
句の意味解釈方式を与える。複合名詞句を意味解釈する
ためには、名詞間の関係をシステムが推論する必要があ
るが、本発明では、知識ベース内に記憶されている概念
と関係とから、意味のある関係のみを推論する方式を与
える。
更に、本発明による知識表現方式は、複数の言語に適
用することが容易になるように、言語に依存する部分を
限定している。更には、複数の言語による表現の共存も
可能にしている。従って、同一知識ベースにおいて、例
えば、英語と日本語で検索したり、登録したりすること
を可能とする手段を提供する。
[作用] 以下、本発明方式の原理を説明する。
まず、基本となる概念関係モデルによる知識表現方式
を説明する。第2図に概念ネットワークの一部を説明の
ために示す。同図において、楕円は概念(ノード)を表
わし、矢印は関係(リンク)を表わす。ノード201、“U
NIVERSAL"は知識ベース内の全てを代表するルートノー
ド(根)である。各ノードには一つ以上の文字列を概念
の名称として定義できる。例えば、同義語や外国語を付
加することができる。
一方、ノードとノードを結ぶリンクには、属性が継承
される概念間に定義される包摂関係(IS−Aリンク20
2)、概念間に一般的に定義される「一般関係」(ノー
ド203)、および同一般関係の具体的事例としての「具
体関係」(リンク204)がある。包摂関係は物のクラス
(分類)を表わす。従って、概念と包摂関係からなる概
念ネットワークは、分類階層(taxonomic hierarchy)
を表わす概念木を構成する。
例えば、第2図の概念ネットワークの内、概念木は次
のような知識を表わしている。
(PAPER−MATERIAL(is−a THING)) (BOOK(is−a PAPER−MATERIAL)) (BOOK#0051(is−a BOOK)) (LIVING−THING(is−a THING)) (PERSON(is−a LIVING−THING)) (NEWTON(is−a PERSON)) ここで、これらはフレーム表現と呼ばれる。ここで
は、LISP言語で使うS式表現(Symbolic expression)
で表わしている。これらは普通の英語でも表わすことが
可能であり、 Paper material is a thing. Book is a paper material. などと書ける。日本語では、 「書物は物である。」 「本は書物である。」 「人は生物である。」 などとなる。
一般関係の例は、第2図において、概念211(BOOK)
と概念212(PERSON)との間に定義される関係203であ
る。これは「本」と「人」との間には「著者」または
「著作」という関係が有り得ることを表わしている。こ
の一般関係は、 (BOOK(is−written−by PERSON)) (PERSON(has−written BOOK)) または、 「本を書いた人」 「人が書いた本」 のように、右方向、或いは左方向へ双方向に読むことが
出来る。
具体関係は、第2図において、破線のリンク204で示
されるような関係であり、ある一般関係の一つの具体例
(データベースでは実現値とも言う)を示す。例えば、
第2図では、「著者」という一般関係203の具体例とし
て、概念213と概念214との間に具体関係204が定義され
ている。フレーム表現で書くと、 (BOOK#0051(is−a BOOK)(is−written−by NEWT
ON)) (NEWTON(in−a PERSON)(has−written BOOK#005
1)) となる。自然言語では、 BOOK#0051 is a book which is written by NEWTON. NEWTON is a person who has written BOOK#0051. 「BOOK#0051はNEWTONが書いた本である。」 「NEWTONはBOOK#0051を書いた人である。」 のように表わすことが出来る。
さて、以上のような知識は、本発明方式では以下のよ
うなデータ構造で記憶する。まず、概念とその名称は概
念名称テーブル221(第3図)で記憶する。同テーブル2
21は、三つのカラム222、223、224から成っている。カ
ラム222は概念の固有番号C#であり、カラム223にその
名称CNAMEを定義できる。同名称の言語LANGはカラム224
で規定する。例えば、LANGの値が“J"のときは同名称は
日本語、“E"のときは英語である。
また、概念名称は、同一言語に対して複数個、定義す
ることが出来る。そのために、カラム223はデータ構造
としてデータの繰返しを許している。例えば、概念C#
0004の名称は「本」および“BOOK"であるが、これに対
して、概念名称「書籍」を追加定義することも出来る。
次に、概念の包摂関係は、第4図に示す包摂関係テー
ブル231で表わす。カラム232とカラム233は、各々概念
固有番号C#およびCS#であり、概念C#の上位概念
(Superconcept)は概念SC#であることを表わす。例え
ば、テーブル231の第2レコードは、概念C#0002
(「書物」)の上位概念は概念C#0001(「事物」)で
あることを表わす。各概念に定義される属性などの「関
係」は、包摂関係のリンクを通じて上位から下位へ継承
される。ここで、一つの概念に対して複数の上位概念を
定義することが可能である。従って、属性の多重継承が
実現される。
包摂関係以外の概念間の多種多様な関係は、第5図で
示す一般関係定義テーブル241に定義することが出来
る。個々の一般関係は各々、関係の種類を表わす。基本
的には、そのような関係の種類の数に制限は無く、任意
の数の一般関係を定義することが可能である。
一般関係定義テーブル241は、主に「関係」を自然言
語で表現したときの「読み」を定義する。カラム244は
同関係を左から右へ読んだときの「読み」LRであり、カ
ラム245はその逆に右から左への「読み」RLを定義す
る。これらのカラムは、データ構造として繰返しを許容
し、複数の読みを定義することが出来る。また、これら
は概念名称テーブルと同様にカラム246によって読みの
言語を指定することが出来る。従って、複数の言語によ
って表現することが可能である。
第5図の例では、関係“AUTHORSHIP"は、 PERSON who is author of BOOK PERSON who is the author of BOOK PERSON who wrote BOOK PERSON who has written BOOK 或いは、 BOOK whose author is PERSON BOOK by PERSON BOOK from PERSON BOOK of PERSON と自然言語(この場合は英語)で表現できる。日本語の
場合も同様である(省略)。
概念間の関係の存在は、第6図に示す関係テーブル25
1によって記憶する。これまでに説明したように、関係
リンクには一般関係と具体関係とがあり、それらはテー
ブル251のカラム256によって区別する。カラムCLASSの
値がGRのときは一般関係、INSTのときは具体関係を表わ
す。第6図の例では、第1レコードは第2図の一般関係
203を表わし、第2レコードは第2図の具体関係204を表
わす。また、カラムC#Lは左側の概念を、カラムC#
Rは右側の概念を規定する。ここで、ある概念を右に置
くか左に置くかは、定義次第であり、テーブル241とテ
ーブル251とで矛盾が無い限り、どちらに定義しても良
い。
さて、次に、以上の知識表現方式を基礎とする自然言
語理解方式の原理を説明する。
まず、オブジェクト指向の知識ベースで最も重要な複
合名詞句の意味理解方式を説明する。ここで、複合名詞
句とは一部形容詞を含んだ複数の名詞の列からなる名詞
句である。例えば、以下は複合名詞句の例である。
supercomputer article (1) ElectronicsWeek article (2) Japanese personal computer company (3) American personal computer software packages
(4) ここで、意味を理解することは、各形容詞および名詞
の間の関係を陽に求めることである。
例えば、複合名詞句(1)と(2)は同じ構造をして
いるが、意味は異なり、次のように解釈されるべきであ
る。(1)は、 “article whose subject is supercomputer"のこと
であり、(2)は、 “article which is part of ElectronicsWeek"を意
味する。すなわち、(1)では、articleとsupercomput
erとが関係subject−isで結ばれていること、(2)で
は、articleとElectronicsWeekが関係is−part−ofで結
ばれていることを推論する必要がある。フレーム形式で
記述すると、次のような構造を自動的に抽出することが
意味を理解することである。
(ARTICLE(subject−is SUPERCOMPUTER)) (5) (ARTICLE(is−part−of ElectronicsWeek))
(6) 本発明による自然言語理解方式では、第7図に示すよ
うな知識に基づいて、以下のように意味を解釈する。ま
ず、この推論を可能とする知識としては、一般関係とし
て、関係RS#0011: (ARTICLE(subject−is UNIVERSAL)) (7a) (UNIVERSAL(is−subject−of ARTICLE)) (7b) と、関係RS#0012: (ARTICLE(is−part−of JOURNAL)) (8a) (JOURNAL(has−part−of ARTICLE)) (8b) が定義されている必要がある。すなわち、「記事の主題
には何でも成り得ること」、「記事は雑誌の一部である
こと(記事は雑誌の一部に掲載されるものであるこ
と)」が知識として記憶されている必要がある。
また、包摂関係としては、 (SUPERCOMPUTER(is−a THING)) (9) (THING(is−a UNIVERSAL)) (10) (ElectronicsWeek(is−a JOURNAL)) (11) が記憶されている必要がある。
これにより、“supercomputer article"を解釈するこ
とが出来る。まず、SUPERCOMPUTERから包摂関係を上位
に辿って、 (SUPERCOMPUTER(is−a UNIVERSAL)) (UNIVERSAL(is−subject−of ARTICLE)) であることが分かる。その結果、属性継承により、 (SUPERCOMPUTER(is−subject−of ARITCLE)) 或いは、 (ARTICLE(subject−is SUPERCOMPUTER)) という関係が有り得ることが推論される。すなわち、
「スーパコンピュータは記事の主題に成り得ること」が
導出される。この場合は、これ以外の解釈は無いので、
解釈: “article whose subject is supercomputer" 「スーパコンピュータと主題とする記事」 が採用される。
複合名詞句(2)の意味解釈は少し複雑である。この
場合、第7図から分かるように、 (ElectronicsWeek(is−a JOURNAL)) (JOURNAL(has−part−of ARTICLE)) であると同時に、 (ElectronicsWeek(is−a UNIVERSAL)) (UNIVERSAL(is−subject−of ARTICLE)) であるので、 (ElectronicsWeek(has−part−of ARTICLE)) と (ElectronicsWeek(is−subject−of ARTICLE)) の二つの関係が有り得ることが推論される。すなわち、 “article which is part of ElectronicsWeek" と “article whose subject is ElectronicsWeek" の二つの解釈が有り得ることが分かる。
このように複数の解釈の候補が存在する場合は、本発
明方式では、どの解釈が数多くの具体的事例を持つか
で、解釈の尤もらしさを評価するという発見的手法を用
いる。
具体的には、先の例では、概念“ARTICLE"と概念“El
ectronicsWeek"の自分も含めた下位の概念を探索して、
関係RS#0011と関係RS#0012の具体関係が、それぞれ幾
つ登録されているかを計数する。第7図の例では、前者
は0、後者は一つ具体関係が登録されている。すなわ
ち、“ElectronicsWeek"を主題とした記事はないが、
“ElectronicsWeek"に掲載されている記事は一定、ARTI
CLE#0101がある。従って、関係RS#0012(is−part−o
f)がより適切な解釈として選択される。すなわち、 “article which is part of ElectronicsWeek" と解釈される。
以上に説明したように、複合名詞句の解釈では、2語
の名詞間の関係の推論処理が基本となる。すなわち、以
下説明する三つ以上の単語から成る複合名詞句の解釈の
基本処理は、上記2語間の関係抽出である。以下、複合
名詞句(3)を例に取って説明する。
まず、複合名詞句を構成する単語の中に複合語から成
る概念名称があるかどうかを調べながら、各単語に対応
する概念を選び出す。すなわち、先頭から順次単語を切
り取って、概念名称テーブルを参照して、登録されてい
るかどうかを調べる。
複合名詞句(3)の場合は、 “Japanese" “Japanese personal" “Japanese personal computer" “Japanese personal computer company" “personal" “personal computer" “personal computer company" “computer company" “company" のように、複合名詞句から部分単語列を切り出して、そ
れぞれが概念名称であるかどうかを調べて行く。
ここで、本方式では、形容詞は対応する名詞形を名称
とする概念の同義語として登録されており、形容詞は同
概念として扱われる点が一つの特徴である。例えば、形
容詞“Japanese"は概念“JAPAN"(日本国)、或いは概
念“Japanese people"(日本人)の同義語として登録さ
れていて、同概念として扱われる。
従って、この処理の結果、“personal computer"が一
つの概念名称、“PERSONAL−COMPUTER"として定義され
ていたとすると、複合名詞句(3)はまず、 (JAPAN PERSONAL−COMPUTER COMPANY) (JAPANESE−PEOPLE PERSONAL−COMPUTER COMPANY) として認知される。但し、以下の説明では、判り易くす
るため、最終的には意味のない解釈であることが分かる
後者は省いて説明する。
すなわち、この段階で、同複合名詞句は実質的に三つ
の概念の組合せであることが分かったことになる。これ
は括弧( )を用いて次のようにも表現できる。
(Japanese(personal computer)company) (12) 従って、次の処理は、これら3つの概念がどのように
相互に関連付けられているかを調べることである。この
場合、次の二つの可能性があることが分かる。
(Japanese((personal computer)company))(13) ((Japanese(personal computer))company)(14) まず、(13)の場合、COMPANYとPERSONAL−COMPUTE
R、およびCOMPANYとJAPANの間に結ばれ得る二つの関係
を推論する必要がある。この場合、先に説明した関係の
推論方式により、 (COMPANY(produces PERSONAL−COMPUTER)(is−loca
ted−in JAPAN)) (15a) (COMPANY(has−developed PERSONAL−COMPUTER)(is
−located−in JAPAN)) (15b) なる関係が抽出される。ここでは、複数の解釈の優先度
(尤度:尤もらしさ)を評価するために、COMPANYとPER
SONAL−COMPUTER、およびCOMPANYとJAPANの二つの関係
の具体例(下位の概念に定義されている具体関係)の総
数を、それぞれの解釈(15a)、(15b)に対して計数
し、これを関係の重みとする。全体の評価としては、具
体関係の総数(関係の重み)を一般関係の数で割って、
正規化する。(15a)、(15b)の例では、一般関係の数
は2である。
次に、第二の可能性である(14)について関係を抽出
する。この場合、COMPANYとPERSONAL−COMPUTER、およ
びPERSONAL−COMPUTERとJAPANの二つの関係を求める必
要がある。前者については、 (COMPANY(produces PERSONAL−COMPUTER)) (16a) (COMPANY(has−developed PERSONAL−COMPUTER))
(16b) のような、二つの関係が(想定する知識ベースにおい
て)見つかる。同様に、後者については、 (PERSONAL−COMPUTER(is−produced−by(COMPANY(i
s−located−in JAPAN))) (17a) (PERSONAL−COMPUTER(was−developed−by(COMPANY
(is−located−in JAPAN))) (17b) が見つかる。但し、ここで、PERSONAL−COMPUTERとJAPA
Nとを直接結ぶ関係は無いので、これらを間接的に関係
付ける概念COMPNYを自動的に見出している。
本発明方式は、このように直接結び付ける関係が見つ
からないときは、関係を見出すべきこれら二つの概念の
上位を各々遡って、それら上位概念に定義される全ての
一般関係(の集合)を抽出する。二つの概念について行
うので、二つの一般関係の集合が得られることになる。
これは三つのテーブル231、241、251を検索することに
よって抽出できる。次に、抽出された一般関係の相手方
に結ばれている概念をそれぞれリストアップする。これ
により、二つの概念集合が得られるが、これらの積集合
を求めることにより、最終的に二つの概念を仲介する概
念、先の例では概念COMPANYが得られる。
結局、意味の無い組合せを捨てて、以下の二つの解釈
を得る。
(COMPANY(produces(PERSONAL−COMPUTER(was−deve
loped−by(COMPANY(is−located−in JAPA
N)))))) (18a) (COMPANY(has−developed(PERSONAL−COMPUTER(is
−produced−by(COMPANY(is−located−in JAPA
N)))))) (18b) 最終的には、以下の合計4つの解釈が自動的に得られ
ることになる。
“company which produces personal computer which is located in Japan" (19a) “company which has developed personal computer which is located in Japan" (19b) “company which produces personal computer which was developed by company which is located in Japan" (19c) “company which has developed parsonal computer which is produced by company which is located in Japan" (19d) なお、上記の英語の表現において、関係代名詞の掛け
売り関係はインデンテーションによって示した。レベル
が深くなっている場合は、直上の行の名詞を修飾してい
る。
複合名詞句(4)についても同様に処理される。各単
語を概念名称とマッチングすることにより、 (USA PERSONAL−COMPUTER SOFTWARE−PACKAGE) のような三つの概念から成ることが、まず分かる。これ
ら概念間の関係を推論することにより、以下の解釈が得
られる。
“software package which runs on personal computer which was developed by company which is located in USA" (20) さて、本発明による自然言語理解方式は、複合名詞句
の意味解釈機能の上に、分解釈部(構文解析部)を置く
ことにより、より強力な名詞句解釈機能を可能とすると
同時に、知識ベースとの自然言語による広範な対話を実
現している。同文解釈部は構文規則を用いるが、リスト
1は同構文規則の一例を示す。一つの構文規則は、非終
端記号(ノンターミナルシボル;ここでは、鉤括弧<>
で囲んだ記号)で構成される左辺と、その展開形である
右辺、およびその展開が成功したときに評価されるべき
関数の三つの部分から成る(例えば、(21a)式)。但
し、リスト1では解析が成功したときの評価関数は省略
して示している。各規則の右辺は、終端記号(ターミナ
ルシンボル)と非終端記号から成る列で構成される。こ
こで、記号“|"は並置を示す。また、非終端記号〈s〉
は文章全体を表わす。
文解釈部はボトムアップ処理による語彙解析部と、ト
ップダウン処理による構文解析部とから成る。本方式に
おける構文解析部は、構文規則に合致する全ての文構造
を候補として出力する。そこから、意味のある解釈(単
語間の掛り受け関係)のみを先に説明した複合名詞句解
析により評価、選択する。
ボトムアップ処理である語彙解析(lexical analysi
s)は、概念名称、関係記述子、前置詞、関係代名詞、
冠詞の区別が記述されている語彙辞書(lexicon)を用
いて行われる。
同語彙辞書は、先に説明した知識表現方式による概念
ネットワークから編集処理により自動的に構築すること
が可能である。具体的には、概念名称はテーブル221
(第3図)から抽出される。語彙解析の結果、概念名称
とマッチングした入力文中の単語は、〈concept〉とい
う非終端記号として認識される。
関係記述子とは、同知識表現方式における「関係」、
または、その「読み」のことであり、例えば、“is aut
hor of",“wrote",“has written",“author is"などで
ある。これらは、一般関係定義テーブル241(第5図)
から抽出される。これらにマッチングした入力文中の単
語、または単語列は非終端記号〈link〉として認識され
る。
前置詞は“by",“from",“of"などであり、その意味
(それが表わす関係の種類)は一般関係定義テーブル24
1(第5図)から自動的に抽出される。これら前置詞は
非終端記号〈prep〉として認識される。ここで、関係記
述子および前置詞として認識された場合には、上記非終
端記号とともに、それらが意味する「関係」の種類とそ
の方向を語彙解析結果として出力する。これにより、後
述するように、“book by Newton"のような名詞句の意
味解釈が可能となる(構文規則(24b),(28)を参
照)。
同語彙辞書には、更に、関係代名詞〈rel−pronoun〉
(which,who,that)、不定冠詞〈art〉(a,an)、定冠
詞〈def−art〉(the)が記憶されている。また、語彙
解析で認識できなかった単語は非終端記号〈null〉とし
て認識される。
構文解析は、このボトムアップ前処理としての語彙解
析をもとに行われる。第8図は用いて構文解析方法を説
明する。同図において、入力文として、三つの単語40
1、402、403が解析される。上部から下部へ流れる矢印
(例えば、矢印411)はボトムアップ処理を、下部から
上部へ流れる矢印(例えば、矢印412)はトップダウン
処理を表わす。
語彙解析の結果として、単語401(personal)にはマ
ッチングする概念がないこと、単語402(computer)の
解釈としては二つの概念「計算機」および「雑誌コンピ
ュータ」が有り得ること、単語列401−402(personal c
omputer)は概念「パーソナルコンピュータ」にマッチ
ングすること、単語403(company)は概念「会社」にマ
ッチングすることが出力される。
構文解析部は、これらの結果を受けて、例えばリスト
1に示す構文規則を参照して、文全体を展開していく。
第8図は、その途中からのみを示しているが、同図にお
いて、〈noun−phrase〉421は(25a)式により〈noun−
compound〉422へ、更に、(26)式により〈noun−strin
g〉423へ展開される。更に、〈noun−string〉は(27
b)式により〈concept〉426と〈noun−string〉427とに
展開される。後者の〈noun−string〉は(27a)式によ
り〈concept〉428に展開される。結局、第8図の例で
は、入力文(名詞句)の解釈は、(personal compute
r)と(company)の二つの概念(〈concept〉)とから
構成される複合名詞句(noun compound)が有り得るこ
とが分かる。
なお、ここで第8図以後第11図まででは、図面を簡単
にするために、リスト1で示す記号は、次のように簡略
化している。すなわち、 〈noun−phrase〉,〈noun−group〉,〈noun−compoun
d〉,〈noun−string〉,〈joiner〉,〈rel−pronou
n〉,〈find−word〉は、それぞれ〈n−phrase〉,
〈n−group〉,〈n−comp〉,〈n−string〉,〈joi
n〉,〈rpron〉,〈find〉と表記している。
本構文解析では、構文的に可能な文構造を全て抽出す
る。そのような構文解析アルゴリズムとしては、例えば
チャートパーザ[文献:エイチ・トンプソン、エトア
ル.“インプリメンティング ナチュラル・ラングエッ
ジ・パーザーズ",アーティフィシャル・インテリジェン
ス:トゥール、テクニーク、アンド アプリケーション
ズ、エディティッド バイ テー・オシア アンド エ
ム・アイゼンシュタト、ハーパ・アンド・ロー、ニュー
ヨーク、1984、ピーピー.245−300;Thompson,H.et al.,
“Implementing Natural Language Parsers,"in Artifi
cial Intelligence:Tools,Techniques,and Application
s,edited by T.O'Shea and M.Eisenstat,Harper and Ro
w,New York,NY,1984,pp.245−300]が知られている。
抽出された全構文候補は、各々構文規則に記されてい
る評価式により評価される。本発明の特徴は、この評価
に知識ベースに記憶されている知識を用いる点にある。
第8図の例の場合では、概念“personal computer"と概
念“company"から意味のある複合名詞句が構成され得る
かを評価する。この評価方法は、先に説明した概念ネッ
トワークに登録されている知識を用いる方式を用いる。
この結果、意味のある構文解析結果が尤度の順に得られ
ることになる。
第9図以降は検索文全体に対する構文解析結果を示
す。検索文は、構文規則(21c),(22)を用いて、命
令語と名詞句とに展開される。第9図は、第8図の名詞
句を含む例である。第10図は、関係代名詞を含む名詞句
を含む検索文の分析の例である。ここでは、第5図で示
した概念関係モデルの「関係」の「読み」が関係代名詞
句の述語として機能しているのが分かる。更に、第11図
は、前置詞を含む検索文の例である。ここで、前置詞on
は関係「主題」(“whose subject is")を、前置詞at
は関係「所属」(“who works at")を意味しているこ
とが、既に説明したように、第5図で示した一般関係定
義テーブルに記されている。
以上、説明した原理により、知識ベースと最小限の構
文規則により、陽に関係が記述されていない名詞の例
(複合名詞句)を含む自然言語文を意味解釈することが
可能である。
[実施例] 以下、本発明の一実施例を説明する。第14図は、本発
明の一実施例である知識ベースシステムのハードウェア
構成のブロック図である。
同システムは、同図において、主に中央制御装置(CP
U)101、主メモリユニット(MMU)102、ワークメモリユ
ニット(WMU)103、システムファイルとユーザファイル
とを持つ統合ディスクユニット121、122、プリンタ13
1、ローカル・エリア・ネットワーク(LAN)に接続する
ための通信制御装置(CCU)141およびユーザとの対話の
ための表示装置(CRT)151、キーボード152、マウス153
から成る。
統合ディスクユニットは磁気ディスクと光ディスクと
から成り、例えば本実施例の場合は、第1のディスクユ
ニット(DKU1)121は磁気ディスクで構成されていて、
高速性が要求される情報を記憶する。一方、第2のディ
スクユニット(DKU2)122は光ディスクで構成され、特
に大容量の情報を記憶する。
システムファイルには、オペレーティングシステム、
通信管理プログラム、ファイル管理プログラム、知識ベ
ース管理プログラム、或いは統合オフィス業務支援シス
テムといったシステムが提供するプログラム群、および
それに必要なデータベースなどのファイル群が格納され
ている。一方、ユーザファイルには、個人化されたシス
テム提供のプログラムやユーザが作成したプログラムな
どのアプリケーションプログラム群と、それに必要なデ
ータベースなどのファイル群、およびユーザなどが作成
した統合知識ベース(後述)が格納されている。
システムの動作は、主メモリユニットにロードされた
プログラムの制御に従って、必要なデータを主メモリユ
ニットおよびファイルにアクセスして行われる。同時
に、ユーザは表示装置151に表示される情報を見なが
ら、入力手段152、153を用いてシステムと対話すること
が可能である。
本発明の知識ベースシステムのソフトウェア部分は、
概念ネットワークエディタ、概念ネットワークブラウ
ザ、自然言語文解釈プログラム、マルチメディアファイ
ル管理プログラムとから成るプログラム群と、それらが
用いる情報を統合した統合知識ベースとから成る。以
下、それぞれについて順次説明する。
まず、概念ネットワークエディタは、既に説明した概
念関係モデルに基づいて、オブジェクト指向の知識ベー
スの編集、検索、管理を行う。知識・情報は、第3図か
ら第6図までに示した概念名称テーブル、包摂関係テー
ブル、一般関係定義テーブル、および関係テーブルによ
って記憶、管理する。これらに記憶されているデータ
を、ここでは概念ネットワークという。
概念ネットワークエディタは、所定の仕様に基づくコ
マンド言語(形式言語)によって、以下の機能を提供す
る。
(1)概念の登録:概念名称と分類階層位置を指定し
て、新概念を登録。
(2)一般関係の登録:二つの概念と関係の言語的表現
法を指定して、新しい関係の種類を登録。
(3)具体関係の登録:二つの概念と関係の種類を指定
して、事実、関係、属性などを登録。
(4)概念名称の編集:名称の修正;同義語・別名の削
除・追加。
(5)一般関係の編集:関係付けられている二つの概念
の変更;言語的表現法の修正と追加。
(6)概念の削除 (7)具体関係の削除 (8)階層分類体系の変更 (9)上位概念の追加:二重(或いはそれ以上)に同一
概念を分類;属性等の多重継承の付与。
(10)構造化概念の登録・削除:概念を概念によって修
飾した抽象的概念(後述)の登録および削除。
(11)語彙辞書の更新:概念ネットワークから語彙解析
に必要な情報を語彙辞書に追加・編集。
(12)概念の検索:部分文字列、キーワード、構造化概
念からの検索。
(13)ネットワーク跋渉:分類階層木、および連想によ
る注目観念の移動。
(14)マルチメディア情報の付加・削除:任意の概念に
マルチメディアファイル内の情報を連想的に付加、或い
は削除。
(15)マルチメディア情報の読出し:概念に付加されて
いるマルチメディア情報のマルチメディアファイルから
の読出し。
ここで、上記機能における構造化概念について説明す
る。構造化概念とは、ある概念を別の概念と関係とによ
って、修飾した(意味を限定した)抽象的な概念であ
り、概念ネットワークとは別の記憶手段に格納する。具
体的には、これまでにも例で示してきた複合名詞句がそ
れに当たる。例えば、構造化概念D#0011を (D#0011“supercomputer article"(article(subje
ct−is supercomputer))) として、登録できる。より具体的には、下記の内部デー
タ構造、 (D#0011“supercomputer article"(C#0401((RS
#0033 LR)C#0501))) のように、固有番号で記憶する。ここで、第1要素は構
造化概念固有番号、第2要素は構造化概念名称、第3要
素は構造化概念定義式である。但し、上記記法の例でC
#0401は概念“article"、C#0501は概念“supercompu
ter"、RS#0033は関係「主題」(subject)の固有番号
である。
この構造化概念は、抽象的な、或いは記述的な記憶か
ら情報を検索する際に用いる。本システムは、構造化概
念から、推論処理を用いて具体的な概念を概念ネットワ
ークから検索する機能を有する。上記の例では、概念
“article"に包摂される具体的概念(概念“article"の
下位概念)の集合の中から、主題が概念“supercompute
r"に包摂される概念であるもののみを抽出することが可
能である。この処理を概念マッチングというが、これは
逆向きの推論処理によって実現される。
このように、構造化概念を記憶する手段と、それから
の検索手段を与えることによって、ユーザは随意に自分
のものの見方をシステムに登録し、更に、欲しい概念を
容易に検索することが可能である。
概念ネットワークエディタの機能において、マルチメ
ディア情報機能を更に説明する。マルチメディアファイ
ルには、例えばイメージスキャナによって入力した写真
を登録・蓄積することが出来る。概念ネットワークエデ
ィタには、同写真をある概念に連想的に付加する機能が
ある。具体的には、概念固有番号とマルチメディアファ
イルメンバ名称との対応表を作成し、管理することによ
り実現する。ユーザは同概念を検索した後で、その写真
を表示させることが可能である。マルチメディアファイ
ルには、写真のほかにも、文書イメージや、音声情報等
を記録することが可能である。
本概念ネットワークエディタの構成法としては、発明
「情報記憶方式」(特願昭60−60678)で開示している
方法を用いることが出来るので、ここでは説明を省略す
る。
さて、次に概念ネットワークブラウザを説明する。概
念ネットワークブラウザとは、概念ネットワークエディ
タのためのビジュアルインターフェース(視覚形インタ
ーフェース)であり、マルチウィンドウとマウスを用い
た直接操作方式を採用することによって操作性向上を図
っている。同ブラウザは知識ベースの内容を概念階層
木、フレーム形式、或いはテーブル形式、更には自然言
語形式で、任意のウィンドウ内に表示することが出来
る。また、その表示上のオブジェクト(概念と関係)を
例えばマウスで直接指示して、更に、メニューの中から
命令を選択指示することにより、先の概念ネットワーク
エディタの任意の機能を呼び出して、実行することが出
来る。概念ネットワークブラウザは、ユーザのこのよう
な直接的指示を形式言語であるコマンド言語に翻訳して
概念ネットワークエディタを起動する。
次に、自然言語文解釈プログラムを機能ブロック図、
第1図を参照しながら説明する。本発明の主なる特徴の
一つは、本自然言語文解釈方式にあり、その原理につい
ては、先に説明した。同自然言語文解釈プログラムは、
構成としては、ユーザからの単語列501を入力するため
の入力部502、同単語列の各単語の属性を解析する語彙
解析部503、構文規則を記憶した文法ファイル514を参照
しながら構文を解析する構文解析部504、および、複合
名詞解析部506とから成っている。動作としては、本自
然言語文解釈プログラムは概念ネットワークブラウザか
ら自然言語文501を受け取り、解釈結果505を同概念ネッ
トワークブラウザに返す。
本実施例では、語彙解析部は、構造化概念ファイル51
1、語彙辞書ファイル512、および概念ネットワーク形知
識ベース513の概念名称テーブル522を参照して解析を実
行する。ここで、構造化概念ファイル511は、先述した
ように、構造化概念固有番号、構造化概念名称、構造化
概念定義式の3組の集合を記憶する。また、語彙辞書51
2は第12図で示す前置詞テーブル601、および第13図で示
す関係記述子テーブル611で構成される。別な実施例と
して、高速化処理のため、語彙辞書に概念名称テーブル
も含める構成も有り得る。
前置詞テーブル601は、各前置詞に対し、同前置詞が
表わす一般関係の固有番号を、同関係の方向別に記憶す
る。第12図の例でいうと、前置詞atは、一般関係RS#01
23を左から右に読んだ場合や、RS#0209を右から左に読
んだ場合等の「関係」を表わす。また、関係記述子テー
ブル611は、各関係記述子に対し、その一般関係固有番
号とその方向性を記憶する。これらの二つのテーブル
は、これまでの説明から容易に理解できるように、全て
の有り得る前置詞を別途記憶しておくことにより、第5
図で示した一般概念定義テーブルから自動的に構築した
り、更新したりできる。この機能は、第1図における語
彙辞書編集部507により提供され、実際には、概念ネッ
トワークエディタの機能の一部である。
ここで語彙解析部の機能の説明を一部補足する。発明
の原理の説明では、理解を助けるため構造化概念につい
ては述べなかったが、語彙解析部では、構造化概念名称
にマッチングした単語および単語列は、非終端記号〈co
ncept〉として認識すると同時に、構造化概念の場合に
は、構造化概念定義式を評価値として出力する。
この目的のため、語彙解析部は、入力単語列から原理
説明のように部分単語列を順次切り出して、各部分単語
列が通常の概念名称のみならず、構造化概念名称につい
てもマッチング(一致)するかどうかを調べる。その結
果、それら何れかにマッチングする場合は、非終端記号
として〈concept〉を認識結果とし、更に、通常の概念
名称にマッチングした場合は同概念の固有番号を評価値
とし、構造化概念名称にマッチングした場合は同構造化
概念の定義式を評価値とする。
更に、語彙解析の結果、前置詞および関係記述子とし
て認識された場合には、それぞれ対応する非終端記号を
認識結果とすると同時に、対応する全ての「関係」を評
価値とする。これら評価値は、認識結果である非終端記
号に付随して、語彙解析結果として出力される。
構文解析部504は、原理説明で述べたように、語彙解
析結果を入力として、文法ファイル514の構文規則を参
照しながら可能な全ての文構造をまず生成する。構文規
則に照らして可能な文構造を生成することを(狭義の)
パージングという。このパージング段階では、意味的な
適合性は勘案していない。次に、構文解析部504は意味
的な適合性の分析と、複合名詞句の意味解析を複合名詞
解析部506に行わせる。これにより、候補として生成さ
れた文構造の集合から、意味的に適合するものが尤度の
順に選択されることになる。
構文解析の結果として、意味的に特に重要な要素は名
詞句〈noun−phrase〉であるので、主に名詞句の構文解
析について、第9図から第11図の例を用いてより具体的
に説明する。
まず、第9図の場合において、名詞句: “personal computer companies" は、パージングの結果、下記に示す構造として解析され
る。
(〈noun−phrase〉 D#1009 “personal computer companies" ((〈concept〉(C#1001“personal compute
r")) (〈concept〉(C#1022“company")))) (32) ここで、(32)式に於いて、第1要素は非終端記号、
第2要素は随時与えられる構造化概念番号、第3要素は
入力文の対応する単語列、更に、第4要素以降はパージ
ング結果を表わす。パージング結果は、複数の解釈が存
在する場合にそれらを並置する。(32)式では、単一候
補のため第5要素以降は存在しない。また、第4要素
は、一般的に概念と関係とからなる列を構成する。(3
2)式の例では、二つの概念の列になっている。関係を
含んだ例は、後述(35)式で説明する。
これら概念および関係は、(32)式に示す如く、その
識別子(非終端記号)と具体的にマッチングした概念ま
たは関係の例でそれぞれ表わされる。(32)式の例で
は、各概念は単一のマッチング結果しかない。複数のマ
ッチング結果の例は、(37)式に示す。
さて、構文解析部はパージング結果(32)式を受け
て、同式の最後の2行を複合名詞解析部506に送る。同
複合名詞解析部は、原理説明で述べた方法により、二つ
の概念C#1011とC#1022の意味的な関係を概念ネット
ワークで表わす知識ベースから推論する。その結果、
(想定する知識ベースに於いて)次の二つの解釈、(3
3)式および(34)式を得る。この例では、陽に記述さ
れていない関係が推論処理によって抽出されている。
(D#1009 “personal computer companies" (C#1022((RS#0055 RL)C#1001))) (33) (D#1009 “personal computer companies" (C#1022((RS#0056 RL)C#1001))) (34) これらは自然言語的に表現すると、それぞれ以下のよ
うになる。
“company which produces personal computer" “company which has developed personal computer" 次に、第10図の例について示す。この場合、パージン
グ結果は(35)式のようになる。すなわち、名詞句は二
つの概念が結合子(joiner)によって結び付けられたも
のとして認識される。
(〈noun−phrase〉 D#1010 “person who is author of a book" ((〈concept〉(C#1101“person")) (〈joiner〉(RS#0001 RL“is−author−of")) (〈concept〉(C#1122“book")))) (35) ここで、複合名詞解析部は(35)式の最後の3行を受
けて、概念C#1101とC#1122とが関係(RS#0001 R
L)によって意味的に関係付けられ得ることを推論し、
(36)式の解釈を最終的に得る。この場合、(35)式は
単一の候補しか示していないが、もし仮りに、上記の推
論に失敗した場合は、そのような意味解釈は、知識ベー
スに記憶されている知識に照らしてみて、有り得ないこ
とが分かったことを意味する。
(D#1010 “person who is author of a book" (C#1101((RS#0001 RL)C#1122))) (36) (36)式を自然言語的に表示すると下記のようになる。
“person who is author of book" 最後に、第11図の例を説明する。(37)式に示すパー
ジング結果において、二番目の結合子(joiner)は、前
置詞atを第12図に示す前置詞テーブル601を参照して解
釈したものであり、その結果として複数の解釈が列挙さ
れている。
(〈noun−phrase〉 D#1011 “articles on people at companies" ((〈concept〉(C#0401“article")) (〈joiner〉(RS#0033 LR“subject−is")) (〈concept〉(C#0601“person")) (〈joiner〉(RS#0123 LR“is−developed−at") (RS#1054 LR“is−located−in")... (RS#0209 RL“works−at")...) (〈concept〉(C#1022“company"))) (37) 複合名詞解析部506は(37)式の第4要素を入力し
て、「概念−結合子−概念」という3組毎に、原理説明
で述べた考え方により意味的な関係の妥当性を評価す
る。すなわち、二番目の3組の例でいうと、概念C#06
01(person)と概念C#1022(company)との間に、関
係“is−developed−at"や“is−located−in"は有り得
なく、関係“works−at"のみが意味的に妥当であること
を、知識ベースに記憶されている具体的な事実から推論
する。この場合には、(38)式の解釈が最終的に得られ
る。
(D#1011 “articles on people at companies" (C#0401 ((RS#0033 LR) (C#0601((RS#0209 RL)C#1022)))))(3
8) 解釈(38)式は、自然言語で表示すると下記のように
なる。
“article whose subject is person who works at c
ompany" 次に、本発明方式による知識ベースシステムの次の要
素であるマルチメディアファイル管理プログラムについ
て説明する。知識ベースは記号的にオブジェクトまたは
概念を記憶するのに対して、マルチメディアファイル
は、情報自体をメディアのままで記憶する。すなわち、
情報圧縮のために各々最適を符号化は行うが、写真、文
書、図面、テキスト、音声といった複数の異なる種類の
メディア情報(マルチメディア情報)を所定の記述方式
に従って記憶・管理する。マルチメディア情報の記述方
式については、標準化されるべきマルチメディア・コン
テンツ・アーキテクチャ(例えば、ODA:オフィス・ドキ
ュメント・アーキテクチャ)が知られているので、ここ
では説明しない。
これらのマルチメディア情報は、所定の単位で管理さ
れ、一つのオブジェクト(情報単位)を構成する。例え
ば、「文書」、「記事」、「写真」、「図表」、「一区
切りの音声メッセージ」等々、我々が通常一つの物とし
て認知するものをオブジェクトとすることができる。こ
のオブジェクトは、単一メディアであっても良いし、マ
ルチメディアであっても良い。これらオブジェクトは、
マルチメディアファイル管理プログラムによって、各情
報単位に付けたファイルメンバ名称、物理的ファイルに
おける記憶位置および記憶レコード長、記述形式(例え
ば符号化方式)等から成る管理情報によって管理する。
複数のオブジェクトが構造化されて、別のオブジェクト
を構成することも可能である。逆に、あるオブジェクト
を複数の部分オブジェクトの構造体として管理すること
も可能である。
一方、マルチメディアファイルに格納されている各情
報単位は、先述したように、概念ネットワークの任意の
概念ノードに関連付けることが出来る。これによって、
マルチメディアファイルに格納されている情報本体を、
概念ネットワーク形の知識ベースから知的に推論を用い
て検索することが可能である。
次に、統合知識ベースについて述べる。本発明方式に
よる知識ベースシステムは、これまでに説明した如く、
概念関係モデルに基づく概念ネットワーク形知識ベー
ス、構文規則を記憶した文法ファイル、上記知識ベース
から編集処理によって自動的に作成できる言語的辞書
(語彙辞書512)、ユーザが個人毎に定義できる概念辞
書(構造化概念ファイル511)、およびマルチメディア
ファイルとから構成されていることを特徴としている。
更に、本システムは、知識ベース内の概念とマルチメデ
ィアファイル内のオブジェクトを関連付ける記憶手段と
を有している。このように、記号的・論理的表現による
知識・情報、言語的知識、およびメディア情報とを有機
的に記憶することが出来る知識ベースを、ここでは統合
知識ベースと呼ぶ。これらの情報は、それぞれの特性に
合わせて、統合ディスクユニットに記憶させる。
以上、本発明を特に英語の場合について説明したが、
原理的には、日本語等、他の言語にも同様に拡張可能で
ある。特に、知識表現方式の説明で述べたように、本発
明によれば、容易に多国語システムに拡張することが出
来る。具体的には、知識表現手段のうち、概念名称テー
ブル221(第3図)と一般概念定義テーブル241(第5
図)のみが言語に依存し、同時に、それらのテーブルは
言語を規定するフィールド(カラム)LANG,224および24
6を有している。
また、本発明は実施例で示した構文規則の内容(リス
ト1)に限定されることなく、同構文規則を変更・拡張
することにより、より広範な、或いは別なシステムに適
した自然言語を受け付けられることは自明である。その
意味でも、本発明方式は、広い応用分野を持つ。例え
ば、詳細に説明しなかったが、リスト1においても、
(29a)から(29e)は、自然言語を用いて新しい概念の
登録(29b)、一般関係の登録(29a)、或いは新しい事
実の登録(29d)等を行うことが可能であることを示し
ている。
更にまた、実施例の説明では、マルチメディアファイ
ルと結合したシステムを述べたが、同マルチメディアフ
ァイルと独立して、知識ベースシステムのみで用いても
効果的であることは言うまでもない。
[発明の効果] 以上説明した如く、本発明によれば、ユーザは学習す
ることが難しい形式言語を覚えることなく、自然言語を
用いて、曖昧な記憶から思い起こされる記述的な検索要
求から知識ベース内の欲しい情報を取り出すことが可能
となる。通常、我々の記憶は時間とともに薄らいでいく
が、その時に残る記憶は、断片的であり、かつ抽象化し
ていく。或いは、ずばりその名称を記憶していることは
稀であり、「こんなもの」、「あんなもの」といった記
述的なものに成っていくことも知られている。本発明方
式は、断片的、或いは抽象的な記述から検索する方式を
与えており、その意味では、単に自然言語で検索できる
こと以上の効果を有している。
また、本発明によれば、自然言語理解に必要な知識
は、システム本来の知識とともに知識ベース内に一体と
なって記憶されているため、上記のようなシステムを構
築することが、従来の自然言語インターフェースを与え
る方式に比べて、容易である。具体的には、ユーザは特
に自然言語インターフェースと知識ベースの整合性など
について意識する必要はなく、知識ベースに本来記憶管
理させたい情報の登録に注目しさえすれば良い。
更に、本発明によれば、新しい知識の登録も自然言語
を用いて行うことが可能である。一般的に、複雑な機能
を有するシステムでは、視覚的(直接操作的)インター
フェースと言語的インターフェースとの共存が重要であ
る。本方式では、視覚的(ビジュアル)インターフェー
スに言語的インターフェース機能が統合化されており、
ほとんど全ての機能を自然言語と直接操作により提供し
ている。その意味で、ユーザはその場その場で、好きな
方を選択することが出来、操作性および使い勝手の面で
優れている。
更にまた、本発明では、概念に対して同義語、異表記
語といった別名を登録したり、関係の名称(「読み」)
に対しても別名を記憶・登録させる手段を与えており、
多様な検索要求の表現に対しても適切に検索処理を実行
することが出来る。
また、本発明は、マルチメディア情報を知識ベースに
統合する方式についても示しており、これに従えば、従
来の記号的表現による知識ベース以上の応用分野を切り
開くことが可能である。
或いはまた、拡張例として述べた方式に従って他国語
システムを構築すれば、例えば、英語で検索して日本語
で出力すると言ったことも実現できる。
【図面の簡単な説明】
第1図は本発明方式の自然言語文解釈プログラムの機能
ブロック図、第2図は概念関係モデルによる知識表現方
式を説明する概念ネットワークの図である。第3図以降
は同モデルによる知識記憶を示す図であり、第3図は概
念名称を示す図、第4図は包摂関係を示す図、第5図は
一般関係定義を示す図、第6図は関係を示す図である。
第7図は複合名詞句の意味解釈法の原理を説明するため
の図、第8図は構文解析法を説明する図、更に、第9
図、第10図、第11図は構文解析例を示す図である。第12
図は前置詞を示す図、第13図は関係記述子を示す図であ
る。第14図は本発明の一実施例システムのハードウェア
構成図である。 503……語彙解析部、504……構文解析部、506……複合
名詞解析部、511……構造化概念ファイル、512……語彙
辞書、514……構文規則文法ファイル、221……概念名称
テーブル、231……包摂関係テーブル、241……一般関係
定義テーブル、251……関係テーブル、601……前置詞テ
ーブル、611……関係記述子テーブル。
フロントページの続き (72)発明者 畠山 敦 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 木内 伊都子 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 昭61−220027(JP,A) 特開 昭58−56071(JP,A) 特開 昭61−150592(JP,A)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】単語列を入力する入力手段、入力された単
    語列を処理する処理手段、処理結果を出力する出力手段
    を備える装置であって、上記処理手段は、 概念をノードとして表し、該概念間の関係をリンクとし
    て表し、該ノードとリンクで概念木を構成する概念ネッ
    トワークを知識として記憶する知識ベースと、 上記入力された単語列中に存在する複数の単語間の意味
    関係を、上記概念ネットワークを検索することで判定す
    る解析手段を有するシステムを用いた自然言語理解方法
    であって、 上記入力された単語列中に存在する2つの単語間の意味
    関係に複数の候補が存在する場合に、上記概念木におい
    て、当該2つの単語に対応する概念の下位概念の間に存
    在する関係の数を、上記意味関係の候補に対応した関係
    毎に計数することにより、1つの候補を選択することを
    特徴とする自然言語理解方法。
  2. 【請求項2】単語列を入力する入力手段、入力された単
    語列を処理する処理手段、処理結果を出力する出力手段
    を備える装置であって、上記処理手段は、 概念をノードとして表し、該概念間の関係をリンクとし
    て表し、該ノードとリンクで概念木を構成する概念ネッ
    トワークを知識として記憶する知識ベースと、 上記入力された単語列中に存在する複数の単語間の意味
    関係を、上記概念ネットワークを検索することで判定す
    る解析手段を有するシステムを用いた自然言語理解方法
    であって、 上記入力された単語列中に存在する2つの単語間の意味
    関係に候補が存在しない場合に、上記概念木において、
    上記2つの単語に対応する概念の上位概念に対して存在
    する関係およびその関係によってリンクされる概念の集
    合をそれぞれ抽出し、当該概念の集合の積集合を形成し
    てそれに対応する単語の集合を得、上記2つの単語に上
    記単語の集合から選ばれる単語を加えて、これら単語間
    の意味関係を判定することを特徴とする自然言語理解方
    法。
  3. 【請求項3】単語列を入力する入力手段と、 複数の概念を各々をノードとして表し、該概念間の関係
    をリンクとして表し、該ノードとリンクで概念木を構成
    する概念ネットワークを知識として記憶する知識ベース
    と、 入力された単語列の中に存在する複数の単語間の意味関
    係に関して上記概念ネットワークを検索して、該単語列
    中に存在する2つの単語間の意味関係に複数の候補が存
    在する場合には、上記概念木において、当該2つの単語
    に対応する概念の下位概念の間に存在する関係の数を、
    上記意味関係の候補に対応した関係毎に計数することに
    より、1つの候補を選択する解析手段と、 該解析の結果を出力する出力手段と、 を有することを特徴とする情報検索装置。
JP63002609A 1985-03-27 1988-01-11 自然言語理解方法および情報検索装置 Expired - Lifetime JP2997469B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP63002609A JP2997469B2 (ja) 1988-01-11 1988-01-11 自然言語理解方法および情報検索装置
US07/831,093 US5404506A (en) 1985-03-27 1992-02-10 Knowledge based information retrieval system
US07/947,536 US5696916A (en) 1985-03-27 1992-09-21 Information storage and retrieval system and display method therefor
US08/141,039 US5555408A (en) 1985-03-27 1993-10-25 Knowledge based information retrieval system
US08/663,840 US6182062B1 (en) 1986-03-26 1996-08-21 Knowledge based information retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63002609A JP2997469B2 (ja) 1988-01-11 1988-01-11 自然言語理解方法および情報検索装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP8326482A Division JP2948159B2 (ja) 1996-12-06 1996-12-06 データベース装置

Publications (2)

Publication Number Publication Date
JPH01180046A JPH01180046A (ja) 1989-07-18
JP2997469B2 true JP2997469B2 (ja) 2000-01-11

Family

ID=11534137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63002609A Expired - Lifetime JP2997469B2 (ja) 1985-03-27 1988-01-11 自然言語理解方法および情報検索装置

Country Status (1)

Country Link
JP (1) JP2997469B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2606056B2 (ja) * 1992-09-25 1997-04-30 日本電気株式会社 知識ベース構築方式
US5630121A (en) * 1993-02-02 1997-05-13 International Business Machines Corporation Archiving and retrieving multimedia objects using structured indexes
EP1041499A1 (en) * 1999-03-31 2000-10-04 International Business Machines Corporation File or database manager and systems based thereon
US6792418B1 (en) 2000-03-29 2004-09-14 International Business Machines Corporation File or database manager systems based on a fractal hierarchical index structure
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
JP6206865B2 (ja) 2012-05-31 2017-10-04 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 入力文字列の集合から当該入力文字列の集合を文字列で表現する少なくとも1つのパターン表現に変換する方法、並びに、当該変換パターンを近似パターン表現式として取り出す方法、並びにそのコンピュータ及びコンピュータ・プログラム
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856071A (ja) * 1981-09-29 1983-04-02 Fujitsu Ltd 日本語による検索システム
JPS61220027A (ja) * 1985-03-27 1986-09-30 Hitachi Ltd 文書ファイリングシステム及び情報記憶検索システム
JPS62205438A (ja) * 1986-03-06 1987-09-10 Sharp Corp エキスパ−トシステム

Also Published As

Publication number Publication date
JPH01180046A (ja) 1989-07-18

Similar Documents

Publication Publication Date Title
US6182062B1 (en) Knowledge based information retrieval system
US5404506A (en) Knowledge based information retrieval system
US11113304B2 (en) Techniques for creating computer generated notes
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US5895446A (en) Pattern-based translation method and system
RU2509350C2 (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
KR20100038378A (ko) 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램
US8000957B2 (en) English-language translation of exact interpretations of keyword queries
Stratica et al. Using semantic templates for a natural language interface to the CINDI virtual library
Belkebir et al. TALAA-ATSF: a global operation-based arabic text summarization framework
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
JP2948159B2 (ja) データベース装置
Nguyen et al. Ensuring annotation consistency and accuracy for Vietnamese treebank
Valente Text2Icons: using AI to tell a story with icons
Du On the use of natural language processing for automated conceptual data modeling
Pasquale Automatic generation of a navigation tree for conversational web browsing
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking
Nogueira Identifying References to Legal Literature in Portuguese Superior Court Decisions
Qabbaah et al. Using Visual Analytics and K-Means Clustering for Monetising Logistics Data, a Case Study with Multiple E-Commerce Companies
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
WO2000049522A1 (en) Translation
Reeve et al. Technical Report: Semantic Annotation Platforms
Collins et al. Using Web Harvested Semi-Structured Data to Build an Inspirational Chatbot
JP2002544616A (ja) フリーフォーマットデータを処理する方法と装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9