JPH05298355A - Natural language sentence analyzer - Google Patents

Natural language sentence analyzer

Info

Publication number
JPH05298355A
JPH05298355A JP4126846A JP12684692A JPH05298355A JP H05298355 A JPH05298355 A JP H05298355A JP 4126846 A JP4126846 A JP 4126846A JP 12684692 A JP12684692 A JP 12684692A JP H05298355 A JPH05298355 A JP H05298355A
Authority
JP
Japan
Prior art keywords
analysis
natural language
dialogue
unit
structures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4126846A
Other languages
Japanese (ja)
Inventor
Makoto Ishii
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP4126846A priority Critical patent/JPH05298355A/en
Publication of JPH05298355A publication Critical patent/JPH05298355A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To attain machine translation without requiring the knowledge of an objective language. CONSTITUTION:A natural language senstence is inputted from an input part 1 and converted into an aggregate of analytical structure by a syntax analyzing part 3. The analyzing part 3 has an analytical structure feature extracting part for extracting features sufficiently for distinguishing other analytical structure from a certain analytical structure. An interactive processing part 4 outputs one or plural features out of the aggregate of features extracted by the extracting part to an operator as questions, solves the various meanings of the analytical structure by using answers from the operator and executes interaction based upon the entropy of features.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【技術分野】本発明は、自然言語文解析装置に関し、機
械翻訳装置など自然言語文を入力とするシステムの実現
において用いられる自然言語文の構文解析装置、特に操
作者との対話を情報源とする対話型構文解析装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language sentence analysis device, and a natural language sentence syntax analysis device used in the realization of a system such as a machine translation device for inputting a natural language sentence. The present invention relates to an interactive syntax parsing device.

【0002】[0002]

【従来技術】自然言語文にはその意味が曖昧な文が数多
く存在する。例えば、 (a)私はきのう買った本を読んだ。については「きの
う買った」のか「きのう読んだ」のかが曖昧である。こ
うした曖昧さを「係り受け」の曖昧さと呼ぶ。すなわち
「きのう」の係り先が曖昧であるという意味である。ま
た、 (b)魚は食べる。については「魚が何かを食べる」の
か「何かが魚を食べる」のか曖昧である。こうした曖昧
さを「役割」の曖昧さと呼ぶ。すなわち「魚は」の「食
べる」に対する役割が主語であるのか目的語であるのか
が曖昧である。
2. Description of the Related Art Many natural language sentences have ambiguous meanings. For example: (a) I read the book I bought yesterday. Regarding, it is ambiguous whether "I bought yesterday" or "I read yesterday". This ambiguity is called "dependency" ambiguity. In other words, it means that the party to which "Kiyo" belongs is ambiguous. Also, (b) eat fish. Is ambiguous as to whether "the fish eats something" or "something eats the fish". This ambiguity is called "role" ambiguity. In other words, it is unclear whether the role of "fish" for "eat" is the subject or the object.

【0003】人間の場合、自然言語におけるこうした曖
昧さは、発話の状況やイントネーション、間の取り方な
どを情報として解消していると考えられる。しかし、機
械翻訳などに用いられる自然言語構文解析装置で、入力
部よりの文字列データが入力情報であるので、上記のよ
うな曖昧さを解消するのは困難である。そこで操作者が
自然言語文解析装置を介入して操作者の意図する結果を
得ようとする技術には数多くの提案がなされてきた。自
然言語文解析装置の応用分野である機械翻訳技術におい
ても、例えば、特開昭63−300360号公報、特開
昭59−140582号公報、特開昭61−18073
号公報などがある。以下こうした曖昧な自然言語文の解
析結果を絞り込む技術を「多義の解消」に関する技術と
呼ぶ。
In the case of human beings, it is considered that such ambiguity in natural language eliminates the utterance situation, intonation, and how to make a space as information. However, in a natural language parsing device used for machine translation or the like, since the character string data from the input unit is the input information, it is difficult to eliminate the ambiguity as described above. Therefore, many proposals have been made for the technique in which the operator intervenes in the natural language sentence analysis device to obtain the result intended by the operator. Also in the machine translation technology, which is an application field of the natural language sentence analysis device, for example, JP-A-63-300360, JP-A-59-140582, and JP-A-61-18073.
There is a bulletin, etc. Hereinafter, a technique for narrowing down the analysis result of such ambiguous natural language sentence is referred to as a technique for “elimination of ambiguous”.

【0004】まず、特開昭63−300360号公報に
記載のものは、翻訳・編集作業の効率化を図るために、
編集制御部は翻訳部で翻訳継続中に、翻訳が既に終了し
た訳文を訳文記憶部から続出して表示部で表示せしめる
機能と、翻訳継続中に出される編集コマンド情報に応答
して、該翻訳が既に終了した訳文について編集処理を行
なう機能を有するものであり、このような従来技術およ
び類似する技術をポストエディット方式と呼び、自然言
語文解析装置は可能な解析結果のうち一つを強制的に選
択し、その唯一解を機械翻訳装置の変換生成部が対象言
語に変換する。解析装置の選択が誤ったことによる翻訳
結果の誤りの修正は、目的言語そのものを編集すること
によって行なわれるものである。
First, in order to improve the efficiency of the translation / editing work, the one disclosed in Japanese Patent Laid-Open No. 63-300360 is
The editing control unit responds to edit command information issued during translation continuation in response to edit function information issued during translation continuation, while the translation unit continues translation and responds to edit command information issued during translation continuation. Has a function of editing a translated sentence that has already been completed, and such a conventional technique and a similar technique are called a post-edit method, and the natural language sentence analysis device forces one of the possible analysis results. , And the conversion generator of the machine translation device converts the unique solution into the target language. The correction of the error in the translation result due to the incorrect selection of the analysis device is performed by editing the target language itself.

【0005】また、特開昭59−140582号公報に
記載されたものは、自然言語の解析において、多義性の
生じる場合をあらかじめ分類し、これらの分類に属して
多義性が生じる可能性のある入力言語の該当部分に、構
文解析処理以前にあらかじめ指示用データを、多義性を
解消する指示方法にしたがって挿入しておくことにより
翻訳処理を行うものであり、このような従来技術および
類似する技術をプレエディット方式と呼び、自然言語文
解析装置に入力する入力文に曖昧さを解消するための情
報を付加することによって多義を解消するものである。
In Japanese Patent Laid-Open No. 59-140582, there is a possibility that ambiguity may occur in natural language analysis by classifying cases of polysemy in advance. Translation processing is performed by inserting instruction data in advance in the relevant part of the input language according to an instruction method that eliminates ambiguity before the parsing processing. Is called the pre-edit method, and ambiguous is resolved by adding information for disambiguation to the input sentence input to the natural language sentence analysis device.

【0006】また、特開昭61−18073号公報に記
載されたものは、翻訳処理において、第1言語の解析終
了時点で校正を行い、例えば、解析結果を解析木として
表示し、そのノード番号を用いて校正を行い、使用頻度
の高い一連の校正に対して、マクロ的なコマンドを使用
するものであり、このような従来技術および類似する技
術をインタエディット方式と呼び、自然言語文解析装置
が入力文の解析結果あるいは中間状態を操作者に示し、
操作者はその出力が間違っていれば自ら修正し、修正さ
れた結果が変換生成の処理対象となる。
Further, the one disclosed in Japanese Patent Laid-Open No. 61-18073 performs proofreading at the end of the analysis of the first language in the translation process, and displays the analysis result as an analysis tree, and the node number thereof, for example. Proofreading is performed by using a macro command for a series of frequently used proofreadings. Such a conventional technique and a similar technique are called an interedit method. Indicates to the operator the analysis result or intermediate state of the input sentence,
If the output is incorrect, the operator corrects it by himself, and the corrected result becomes the conversion generation processing target.

【0007】また多義の解消を操作者との対話によって
解消する対話型の自然言語文解析装置として、例えば、
「対話翻訳の一方式について」(青山外4名、電気情報
通信学会技術研究報告、NLC90−14、P.17〜
24、1990)に述べられている技術がある。これを
対話方式とよぶ。前述の従来技術では操作者が曖昧さを
編集方式で解消しようというものであったが、対話方式
では自然言語文解析装置が曖昧さを検知すると、解消す
るための情報を操作者に求め、操作者がそれに答えるこ
とによって解消する。
Further, as an interactive natural language sentence analysis device which resolves ambiguousness by a dialog with an operator, for example,
"On a method of interactive translation" (Aoyama, 4 members, IEICE Technical Report, NLC90-14, P.17-
24, 1990). This is called an interactive method. In the above-mentioned conventional technology, the operator tried to resolve the ambiguity by the editing method, but in the interactive method, when the natural language sentence analysis device detects the ambiguity, the operator is asked for information for the resolution and the operation is performed. It is solved by the person who answers it.

【0008】一方、自然言語文を構文解析する際には、
構文解析木のような構造的データ構造を構成するだけで
は精密な解析は困難である。そこで構造的データ構造に
加えて、意味的データ構造を構成し、これら二つのデー
タ構造により相補的に文法を記述する枠組みに語彙機能
文法がある。これは、「The Mental Representationof
Grammatical Relations,」( Bresnan,J. The MIT Pres
s, 1982 )に開示されている。前記ポストエディット方
式については、目的言語を編集するためには目的言語の
知識がなければならないという問題点がある。例えば日
英機械翻訳システムを日本人が用いようとする場合に
は、英語の充分な知識をも必要とすることになる(第1
の問題点)。
On the other hand, when parsing a natural language sentence,
Precise analysis is difficult only by constructing a structural data structure such as a parse tree. Therefore, in addition to the structural data structure, a semantic data structure is constructed, and there is a vocabulary functional grammar in the framework that describes the grammar complementarily by these two data structures. This is `` The Mental Representation of
Grammatical Relations, '' (Bresnan, J. The MIT Pres
s, 1982). The post-edit method has a problem that knowledge of the target language is required to edit the target language. For example, if a Japanese person wants to use the Japanese-English machine translation system, he or she will also need to have sufficient knowledge of English (No. 1
Problem).

【0009】また、前記プレエディット方式について
は、目的言語の知識は必要ないが、操作者は入力文の曖
昧さを予想しなければならない。曖昧さを解消するのに
充分な情報を付加するためには、入力文の各所に多くの
情報を付加しなければならない。また、操作者の意図す
る解析結果を得るために必要最小限の情報を付加するこ
とは困難である。すなわち、意図通りの解析結果を得る
ためには、どうしても冗長な情報を付加することにな
り、無駄である。またプレエディットの作業自体が煩雑
である(第2の問題点)。
Further, the preedit method does not require knowledge of the target language, but the operator has to predict the ambiguity of the input sentence. In order to add enough information to resolve the ambiguity, a lot of information must be added to each part of the input sentence. Moreover, it is difficult to add the minimum necessary information to obtain the analysis result intended by the operator. That is, in order to obtain the intended analysis result, redundant information is inevitably added, which is wasteful. Further, the work of pre-editing itself is complicated (second problem).

【0010】また、インタエディタ方式については、入
力文の解析構造あるいは中間構造としてツリー構造ある
いは類似する構造が表示され、操作者はその表示を修
正、確認する。しかし、この方式では、入力文に関する
複雑な構造を示されても操作者は分からず、またツリー
構造などの編集作業も煩雑である(第3の問題点)。こ
のように、従来の対話方式では、自然言語文解析装置の
解析のフェーズごとに発生した多義の全てをその場で解
消するため、煩雑であった。また発生した順に多義を解
消するため対話の回数を多くなり、操作者の負担が大き
かった。さらに文法的な質問であるため、文法的知識が
充分でない操作者に負担が大きかった。例えば、日本語
の「買われた本は…」という文の「れる」の語義が「受
身」か「尊敬」かという質問を受けても、操作者の答え
はいい加減なものになるであろう。従来の対話方式では
こうした問題点の考慮がなかった(第4の問題点)。
In the inter-editor method, a tree structure or a similar structure is displayed as an analysis structure or an intermediate structure of the input sentence, and the operator corrects and confirms the display. However, in this method, even if a complicated structure relating to an input sentence is shown, the operator does not know, and the editing work of the tree structure and the like is complicated (third problem). As described above, the conventional interactive method is complicated because all the ambiguous meanings generated in each analysis phase of the natural language sentence analysis apparatus are eliminated on the spot. In addition, the number of dialogues was increased in order to resolve the ambiguity in the order in which they occurred, which placed a heavy burden on the operator. Furthermore, since it is a grammatical question, the burden on the operator who has insufficient grammatical knowledge is heavy. For example, if the question "re" is used in the sentence "Bought book is ..." in Japanese is "passive" or "respect", the operator's answer will be lenient. .. In the conventional dialogue system, such a problem has not been taken into consideration (fourth problem).

【0011】[0011]

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、自然言語文解析装置が入力文の解析時に多義を
検知した場合には、多義を解消するに充分な情報を最も
効率良い順番で質問する。この「最も効率良い順番で質
問する」ことによる対話を最大効率対話と呼ぶ。質問は
入力文に関しての「係り受け」の質問や構文要素の「役
割」の質問である。そのため質問内容が目的言語によら
ず前記の第1の問題点を解消すること、また、多義を検
知した場合に、かつ最も効率良い順番で対話を行なうた
め、対話は入力文の多義を解消するのに必要最小限なも
のとなり、前記第2の問題点を解決すること、また、質
問は係り受けや構文要素の役割に関するものであり、解
析構造を示すといった操作者に分かり難いインターフェ
ースを排除することができるため、前記第3の問題点を
解決すること、また、入力文の解析のフェーズによら
ず、全ての多義を考慮した上で最も効率良い順番で対話
を行なうため、従来の対話方式の煩雑さを解決する。さ
らに各質問について、その質問の平易さ、言い替えれば
その質問に対する操作者の答の確実さに関する情報を持
ち、その情報を最大効率対話に反映することによって前
記第4の問題点を解決するようにした自然言語文解析装
置を提供することを目的としてなされたものである。
[Object] The present invention has been made in view of the above-mentioned circumstances, and when a natural language sentence analysis device detects an ambiguous word when analyzing an input sentence, it is most efficient to provide information sufficient to eliminate the ambiguous word. Ask questions in order. The dialogue by "asking questions in the most efficient order" is called the maximum efficiency dialogue. Questions are "dependency" questions about input sentences and "role" questions of syntax elements. Therefore, the question content solves the first problem regardless of the target language, and when the polysemy is detected, the dialogue is conducted in the most efficient order, so that the dialogue eliminates the polysemy of the input sentence. It is necessary to solve the second problem, and the question is related to the role of dependency and syntax element, and eliminates the interface that is difficult for the operator to understand such as showing the parse structure. Therefore, it is possible to solve the third problem, and to carry out the dialogue in the most efficient order in consideration of all the meanings regardless of the phase of analysis of the input sentence. Solve the complexity of. Further, for each question, information about the ease of the question, in other words, the certainty of the operator's answer to the question is held, and the fourth problem is solved by reflecting the information in the maximum efficiency dialogue. It was made for the purpose of providing the natural language sentence analysis device.

【0012】[0012]

【構成】本発明は、上記目的を達成するために、(1)
自然言語文を入力とする入力部と、該入力部による入力
文を解析構造の集合に変換する構文解析部と、該構文解
析部による各々の解析構造から、該解析構造を他の解析
構造と区別するに充分な特徴を抽出する解析構造特徴抽
出部と、前記解析構造の集合に対して抽出された特徴の
集合から、一つあるいは複数を問い、その答を用いて解
析構造の多義を解消する対話処理部と、該対話処理部に
よる解析結果を出力する出力部とから成り、前記対話処
理部は前記特徴のエントロピーを基に対話を行なうこ
と、更には、(2)前記構文解析部は、各々の解析構造
について解析構造の不適合性に関する値を計算するこ
と、更には、(3)前記対話処理部は得られた答の確実
性に関する情報を有し、前記エントロピーを前記答の確
実性に関する情報に基づき計算すること、或いは、
(4)自然言語文を入力とする入力部と、該入力部によ
る入力文を解析構造の集合に変換する構文解析部と、該
構文解析部による各々の解析構造から、該解析構造を他
の解析構造と区別するに充分な特徴を抽出する解析構造
特徴抽出部と、前記解析構造の集合に対して抽出された
特徴の集合から、一つあるいは複数を問い、その答を用
いて解析構造の多義を解消する対話処理部と、該対話処
理部による解析結果を出力する出力部とから成り、前記
対話処理部は解析構造の集合の要素数を最も減らすよう
に対話を行なうこと、更には、(5)前記(4)におい
て、前記構文解析部は、各々の解析構造について解析構
造の不適合性に関する値を計算すること、更には、
(6)前記(4)において、前記対話処理部は得られた
答の確実性に関する情報を有し、解析構造の朝合の要素
数を最も減らすように対話を行なう際に、前記答の確実
性に関する情報に用いて行なうことを特徴としたもので
ある。
In order to achieve the above object, the present invention provides (1)
An input unit that takes a natural language sentence as an input, a parsing unit that converts the input sentence by the input unit into a set of analytic structures, and the analytic structure from each analytic structure by the analytic unit to another analytic structure. An analysis structure feature extraction unit that extracts enough features to distinguish them, and one or more questions are asked from the set of extracted features for the set of analysis structures, and the answer is used to resolve the ambiguity of the analysis structure. And an output unit for outputting an analysis result by the dialogue processing unit, wherein the dialogue processing unit conducts a dialogue based on the entropy of the feature, and (2) the syntax analysis unit Calculating a value relating to the incompatibility of the analytic structure for each analytic structure, and (3) the dialogue processing unit has information regarding the certainty of the obtained answer, and the entropy is the certainty of the answer. Based on information about It is attributed calculation, or,
(4) An input unit for inputting a natural language sentence, a parsing unit for converting the input sentence by the input unit into a set of parsing structures, and another parsing structure from each parsing structure by the parsing unit An analysis structure feature extraction unit that extracts a feature sufficient to distinguish it from the analysis structure, and one or more questions are asked from the set of extracted features for the set of analysis structures, and the answer is used to determine the analysis structure. The dialogue processing unit for eliminating the ambiguity, and the output unit for outputting the analysis result by the dialogue processing unit, the dialogue processing unit performs the dialogue so as to reduce the number of elements of the set of analysis structure to the minimum, further, (5) In (4) above, the syntactic analysis unit calculates a value regarding incompatibility of the analytic structure for each analytic structure, and further,
(6) In (4) above, the dialogue processing unit has information on the certainty of the obtained answer, and when the dialogue is made so as to reduce the number of elements in the analysis structure in the morning, the certainty of the answer is obtained. It is characterized by being used for information about sex.

【0013】本発明による自然言語文解析装置では、文
法的性質を制約として表現し、各制約にはその制約のも
つ文法的強さ(例外の少なさ)に関する情報を付加する
ことによって文法現象を表現する。一方で解析装置は入
力文に対して公知の語彙機能文法での機能構造に相当す
る構造を構成し、さらに機能構造の適合性をしらべるた
めにいくつかの制約のチェックを行なう。各々の制約は
例外の少なさに関する情報を持っているので、満たされ
なかった制約の全ての例外の少なさに関する情報を総合
評価して数値で表わす。この数値は各々の機能構造の不
適合性であり、ペナルティと呼ぶ。
In the natural language sentence analysis apparatus according to the present invention, grammatical properties are expressed as constraints, and information about the grammatical strength of the constraints (the number of exceptions is small) is added to each constraint so that the grammatical phenomenon is recognized. Express. On the other hand, the analysis device constructs a structure corresponding to the functional structure in the known vocabulary functional grammar for the input sentence, and further checks some constraints in order to examine the suitability of the functional structure. Since each constraint has information on the number of exceptions, all the information on the exceptions of unfulfilled constraints are comprehensively evaluated and numerically expressed. This numerical value is the incompatibility of each functional structure and is called the penalty.

【0014】曖昧な(多義のある)自然言語文が入力さ
れた場合、複数個の機能構造が各々ペナルティを計算さ
れて得られる。ペナルティはその機能構造の不適合性、
言い替えれば機能構造が正しい解析結果であることの可
能性の少なさを表わしている。本発明による自然言語文
解析装置では、これらペナルティつきの機能構造の各々
から他の機能構造と区別するのに十分な情報を抽出する
ことにより構造表現ベクタを構成する。こうして得られ
た複数個のペナルティ付きの構造表現ベクタの集合か
ら、一つのベクタを特定するのに最も効率の良い順番で
質問を行う。
When an ambiguous (ambiguous) natural language sentence is input, a plurality of functional structures are obtained by calculating the respective penalties. Penalty is incompatibility of its functional structure,
In other words, it indicates that the possibility that the functional structure is a correct analysis result is low. In the natural language sentence analysis device according to the present invention, a structure expression vector is constructed by extracting sufficient information from each of these functional structures with penalties so as to distinguish them from other functional structures. From the set of structural expression vectors with penalties obtained in this way, questions are asked in the most efficient order to identify one vector.

【0015】この最大効率対話は、前記の構造表現ベク
タの各列に関してエントロピーを計算し、エントロピー
の値が大きいものから質問を行なう。また別の実現によ
ると、構造表現ベクタの1列を決定することにより減る
構造表現ベクタの数の期待値が大きいものから質問を行
なう。こうした最大効率対話の実現法を対話計画と呼
ぶ。二つの対話計画のうち、前者を「エントロピーを用
いた最大効率対話」、後者を「機能構造の数を用いた最
大効率対話」と呼ぶ。さらに、対話計画の際に、各質問
に関して質問の平易さ、答えの確実さに関する情報を加
えて計算を行う。このように、複数個の構造表現ベクタ
から一つのベクタを特定するのに最も効率良く行なう対
話計画によると、構造表現ベクタが機能構造を十分に表
現しているため、複数個の機能構造から一つの機能構造
を特定するのに、操作者の文法的知識を考慮したうえで
の最も効率の良い対話を行なうことになる。
In this maximum efficiency dialogue, entropy is calculated for each column of the structure expression vector, and the question having the larger entropy value is queried. According to another implementation, the question is asked from the one having a larger expected value of the number of structural expression vectors which is reduced by determining one column of the structural expression vector. Such a method of realizing maximum efficiency dialogue is called dialogue planning. Of the two dialogue plans, the former is called "maximum efficiency dialogue using entropy" and the latter is called "maximum efficiency dialogue using the number of functional structures". Furthermore, in the dialogue planning, information regarding the ease of question and the certainty of answer is added to each question for calculation. As described above, according to the dialogue plan that is most efficiently performed to identify one vector from a plurality of structural expression vectors, the structural expression vector sufficiently expresses the functional structure, so In order to specify one functional structure, the most efficient dialogue will be carried out in consideration of the grammatical knowledge of the operator.

【0016】図1は、本発明による自然言語文解析装置
の一実施例を説明するための構成図で、図中、1は入力
部、2は出力部、3は構文解析部、4は対話処理部、5
は辞書部、6は構文規則部、7は制約部、8は機能関係
部である。入力部1はキーボードなどの入力装置あるい
は記憶装置から自然言語文が入力される。また入力部1
は対話処理において、操作者からの情報を入力する手段
でもある。出力部2は解析結果あるいは対話処理におけ
る質問内容を操作者に示すためのディスプレイ装置など
である。機械翻訳システムなどの場合のように、出力装
置として別のモジュールが付加する場合も含む。
FIG. 1 is a block diagram for explaining an embodiment of a natural language sentence analysis apparatus according to the present invention. In the figure, 1 is an input unit, 2 is an output unit, 3 is a syntax analysis unit, and 4 is a dialogue. Processing unit, 5
Is a dictionary part, 6 is a syntax rule part, 7 is a restriction part, and 8 is a functional relation part. A natural language sentence is input to the input unit 1 from an input device such as a keyboard or a storage device. Also input unit 1
Is also a means for inputting information from the operator in the interactive processing. The output unit 2 is a display device or the like for showing the analysis result or the question content in the interactive processing to the operator. This also includes the case where another module is added as an output device, as in the case of a machine translation system.

【0017】図2(a),(b)及び図3は、辞書部の
内容の一部である辞書D、構文規則部の内容の一部であ
る構文規則R、制約部の内容の一部である制約Cを示す
ものであり、図4は機能関係部の内容の一部を示すもの
である。図2(a)に示す辞書Dの各要素は見出し語、
語彙範疇(品詞)、素性リストで表現される。素性リスト
は素性のリストで、各素性は(素性名、素性値)の形の
ペアである。ここで素性とは語彙の持つ性質を抽出した
ものである。図2(b)に示す構文規則Rは公知の句構
造文法の表記法を拡張したラベル付きの句構造文法で記
述されている。右辺の各要素はラベル付きの非終端記号
か、ラベルなしの非終端記号である。例えば、図2
(b)中の規則R1中の(NP;case)の場合、NPは
非終端記号でラベルcaseが付加されている。また各々の
規則について、右辺の非終端記号で小文字の英字は前終
端記号(語彙範疇)、大文字の英字は前終端記号以外の非
終端記号を表わしている。また構文規則中のラベルは機
能名を表す。ここで機能名とは公知の語彙機能文法での
用法と同様であり、例えば、規則R1の記述は語彙機能
文法における以下のR10と同じである。
2A, 2B and 3 show a dictionary D which is a part of the contents of the dictionary part, a syntax rule R which is a part of the contents of the syntax rule part, and a part of the contents of the constraint part. 4 shows a constraint C, and FIG. 4 shows a part of the contents of the functional relation part. Each element of the dictionary D shown in FIG. 2A is a headword,
It is expressed by a vocabulary category (part of speech) and a feature list. The feature list is a list of features, and each feature is a pair of the form (feature name, feature value). Here, a feature is a feature extracted from a vocabulary. The syntax rule R shown in FIG. 2B is described by a labeled phrase structure grammar, which is an extension of the well-known phrase structure grammar notation. Each element on the right side is either a labeled non-terminal symbol or an unlabeled non-terminal symbol. For example, in FIG.
In the case of (NP; case) in rule R1 in (b), NP is a non-terminal symbol and a label case is added. In each rule, lower-case letters on the right-hand side represent lower-case letters, which represent front-terminal symbols (vocabulary categories), and upper-case letters represent non-terminal symbols other than front-terminal symbols. The label in the syntax rule represents the function name. Here, the function name is similar to the usage in the known vocabulary functional grammar, and for example, the description of the rule R1 is the same as the following R10 in the vocabulary functional grammar.

【0018】図3に示す制約Cの各要素は機能名とペナ
ルティ付きのプロダクションルールである。その表記法
は、 (機能名:ペナルティ)制約規則 の形式である。ここでペナルティは各制約の持つ文法的
な強さを表す数値であり、その値が大きいほどその制約
が文法的に強い。すなわち、例外が少ないことを意味す
る。各々の制約規則は機能構造中の情報、特に素性を参
照している。ここで機能構造とは公知の語彙機能文法で
の定義と同様であり、機能名を属性名、機能構造を属性
値とする再帰的なマトリクスである。図7に機能構造の
例を示す。
Each element of the constraint C shown in FIG. 3 is a production rule with a function name and a penalty. The notation is in the form of (feature name: penalty) constraint rules. Here, the penalty is a numerical value representing the grammatical strength of each constraint, and the larger the value, the stronger the constraint is. That is, there are few exceptions. Each constraint rule refers to information in the functional structure, especially features. Here, the functional structure is the same as the definition in a known vocabulary functional grammar, and is a recursive matrix in which a functional name is an attribute name and a functional structure is an attribute value. FIG. 7 shows an example of the functional structure.

【0019】図5は、本発明による自然言語文解析装置
の構文解析部と対話処理部のフローチャートである。step1 ;入力部より「ベた書き」の日本語文が入力され
た構文解析部は、形態素解析の処理にしたがって入力文
を形態素のリストに分割する。例えば、 (a0)彼が公園で遊ぶ が入力文であるとすると、形態素分割の結果は、 (a1)(彼:n)(が:p)(公園:n) (で:p)(遊ぶ:v) となる。ここで各形態素は(見出し語:語彙範疇)の形
式で表現される。形態素分割においては辞書部から形態
素分割用辞書を抽出して用いる。
FIG. 5 is a flow chart of the syntactic analysis unit and the dialogue processing unit of the natural language sentence analysis apparatus according to the present invention. step1 ; The syntactic analysis unit, to which the Japanese sentence "solid writing" is input from the input unit, divides the input sentence into a list of morphemes according to the morphological analysis process. For example, if (a0) He plays in a park is an input sentence, the result of morpheme division is (a1) (he: n) (ga: p) (park: n) (de: p) (play: v). Here, each morpheme is expressed in the form of (entry word: vocabulary category). In the morpheme division, a morpheme division dictionary is extracted from the dictionary unit and used.

【0020】step2;次に、形態素解析後の形態素の列
に対して構文規則部の内容を用いて構成素構造を作成す
る。ここで構成素構造とは公知の語彙機能文法での用法
と同様であり、図6に示すようなラベル付きの木構造で
ある。各々のラベルは機能名を表し、構文規則中に記述
されるラベルを構文規則の適用時に参照することによ
り、構成素構造を得る。形態素の列から構成素構造を作
成する手法は多く提案されているが、ここではボトムア
ップにCKY法による。形態素列から構成素構造を作成
する際に、処理すべき形態素がなくなった時点で、最終
状態に達した構成素構造は全てstep2の出力であり、一
般に複数個になる。ここで最終状態に達したかどうかは
文全体に対して作られた構成素構造のルートノードが非
終端記号S(構文規則R0を参照)であるかどうかで判
断される。形態素列(a1)から作成された構成素構造
の一つ(a2)を図6に示す。step3 ;前記step2で得られた複数個の構成素構造の各
々から機能構造を作成する。この処理は公知の語彙機能
文法における構成素構造から機能構造を作成する処理に
したがう。図6に示す構成素構造(a2)から作成され
た機能構造(a3)を図7に示す。このstep3では辞書
部から機能構造作用辞書を抽出して用いる。構成素構造
と機能構造は一対一で対応するので、step3の出力にお
ける機能構造は一般に複数個である。
[0020] step2; now creates a constituent structure using the contents of the syntax rules portion relative morpheme string after morphological analysis. Here, the constituent structure is similar to the usage in the known vocabulary functional grammar, and is a tree structure with labels as shown in FIG. Each label represents a function name, and the label described in the syntax rule is referred to when the syntax rule is applied to obtain the constituent structure. Although many methods for creating a constituent structure from a sequence of morphemes have been proposed, here, the CKY method is used from the bottom up. When a constituent structure is created from a morpheme string, when there are no more morphemes to be processed, the constituent structures that have reached the final state are all output from step 2, and generally there are multiple constituent structures. Whether or not the final state has been reached is determined by whether or not the root node of the constituent structure created for the entire sentence is the non-terminal symbol S (see syntax rule R0). FIG. 6 shows one of the constituent structures (a2) created from the morpheme string (a1). step3 : A functional structure is created from each of the plurality of constituent structures obtained in step2. This process follows the process of creating a functional structure from a constituent structure in a known vocabulary functional grammar. FIG. 7 shows a functional structure (a3) created from the constituent structure (a2) shown in FIG. In step 3, the functional structure action dictionary is extracted from the dictionary section and used. Since there is a one-to-one correspondence between the constituent structure and the functional structure, there is generally a plurality of functional structures in the output of step 3.

【0021】step4;前記各々の機能構造について制約
部からの制約と辞書部からの制約適用用辞書を用いて制
約の適用を行なう。制約適用の手順は以下の通りであ
る。 機能構造中の全機能について、各機能でインデクスさ
れる制約(制約Cでの機能名を見ながら)を全て適用
し、満たされなかった制約についてはその制約の持つペ
ナルティを加算する。またこの時、ペナルティが充分に
大きくなった機能構造については解析失敗として以後の
解析を行なわない。 制約適用の終了した機能については、機能関係部を参
照して、その機能の子の機能に変更する。このときの子
の機能が複数個ある場合は機能構造を複数個にコピーす
る。 変更された機能名について前記,をさらに行な
う。 前記,,を機能名の変更ができなくなるまで続
ける。
[0021] step4; performing application of constraints using the constraint application dictionary from constraints and the dictionary portion of the restriction portion for functional structures of the respective. The procedure for applying constraints is as follows. For all functions in the functional structure, all the constraints indexed by each function (while looking at the function name in constraint C) are applied, and for the constraints that are not satisfied, the penalty of the constraint is added. At this time, the functional structure with a sufficiently large penalty is not analyzed and the subsequent analysis is not performed. For the function for which constraint application has been completed, refer to the function-related part and change it to a child function of that function. If there are multiple child functions, the functional structure is copied to multiple functions. The above is further performed for the changed function name. Continue the above steps until the function name cannot be changed.

【0022】上記の〜を機能構造の再帰的構造につ
いて再帰的に行なう。ここで各制約には制約Cに示すよ
うに機能名がついているので、前記の参照は容易であ
る。また機能関係部では機能名を図4に示すように木構
造で管理されているので、各機能を子の機能に変更する
前記の処理も容易である。
The above steps 1 to 3 are recursively performed on the recursive structure of the functional structure. Since each constraint has a function name as shown in constraint C, the above reference is easy. Moreover, since the function name is managed in a tree structure as shown in FIG. 4 in the function-related part, the above-described processing for changing each function into a child function is easy.

【0023】前記step4における処理の例を図7に示す
機能構造(a3)について実行する。文節「公園で」に
相当する機能名は、最初は構文規則R1によって与えら
れたcaseである。このcase機能について、前記にした
がってcaseでインデクスされている制約の適用を行な
う。すなわち、図3の制約C0が適用されるが、親の機
能構造における主要語は「遊ぶ」という用言であるので
満たされている。次に前記にしたがってcase機能がそ
の子の機能であるsubj、obj、obj2、ob1に変更される。
この場合、子の機能は複数個あるので、機能構造は、そ
の各々に対応するようにコピーされる。例としてsubj機
能に変更された場合を考える。subj機能について、前記
にしたがって制約C1〜C4が適用される。この4つ
の制約の中で、C3はsubj格中の格マーカー素性の値は
「で」であるので満たされない。したがってこの機能構
造はペナルティ200を加算する。このペナルティ値は十
分に大きいので「公園で」がsubj機能となる機能構造は
解析失敗となり、以後の解析は行なわない。一方、case
機能がob1機能に変更された機能構造については、制約
C5、C6を適用するが、いずれも満たすためペナルテ
ィ値は0であり、さらに機能名の変更を受ける。
An example of the processing in step 4 is executed for the functional structure (a3) shown in FIG. The function name corresponding to the phrase "in the park" is initially the case given by the syntax rule R1. For this case function, the constraints indexed by case are applied as described above. That is, the constraint C0 of FIG. 3 is applied, but the main word in the functional structure of the parent is a play word, which is satisfied. Then, according to the above, the case function is changed to its child functions, subj, obj, obj2, and ob1.
In this case, since there are a plurality of child functions, the functional structure is copied so as to correspond to each of them. As an example, consider the case where the function is changed to the subj function. Regarding the subj function, the constraints C1 to C4 are applied according to the above. Within these four constraints, C3 is not satisfied because the value of the case marker feature in the subj case is "at". Therefore, this functional structure adds a penalty of 200. Since this penalty value is large enough, the functional structure in which "at the park" is the subj function fails in analysis and no further analysis is performed. On the other hand, case
The constraints C5 and C6 are applied to the functional structure in which the function is changed to the ob1 function, but the penalty value is 0 because both are satisfied, and the function name is changed.

【0024】以上の処理を文節「彼が」についても行
い、最終的に得られた機能構造の一例を図8に示す。こ
の機能構造は全ての制約を満たすため、ペナルティ値は
0である。前記step4での処理は一つの機能構造につい
て一つあるいは複数個の機能構造を作成する。前記step
4への入力は複数個の機能構造であるので、step4の出
力は図8に示すような機能構造が複数個となり、各々の
機能構造にはペナルティ値が計算されている。
FIG. 8 shows an example of the functional structure finally obtained by performing the above processing for the phrase "hega". Since this functional structure satisfies all the constraints, the penalty value is 0. The processing in step 4 creates one or more functional structures for one functional structure. The step
Since the input to 4 is a plurality of functional structures, the output of step 4 is a plurality of functional structures shown in FIG. 8, and the penalty value is calculated for each functional structure.

【0025】step5;前記ペナルティ値をもとに機能構
造の選択を行なう。具体的にはペナルティ値の十分に低
い機能構造を一つあるいは複数個選択する。(a0)の
ような曖昧さのない文については、step5で選択される
機能構造は図8に示す一つだけであり(ペナルティ値=
0)、そのため対話による多義の解消処理は必要がな
く、次のstep6は何もしない。step6 ;対話による多義の解消は行わない。最後に解析
結果として出力部に出力する。(a0)の例文について
は図8に示す機能構造を出力する。
[0025] step5; to select the original functionality structure the penalty value. Specifically, one or more functional structures having sufficiently low penalty values are selected. For an unambiguous sentence such as (a0), the functional structure selected in step 5 is only one shown in FIG. 8 (penalty value =
0), therefore, there is no need to perform ambiguous resolution processing by dialogue, and the next step 6 does nothing. step6 ; The ambiguousness is not resolved by dialogue. Finally, the analysis result is output to the output unit. For the example sentence (a0), the functional structure shown in FIG. 8 is output.

【0026】以上は「彼が公園で遊ぶ」という曖昧さの
ない入力文についての処理例であった。しかし、 (b0)きのう買った本を読んだ については、前述のように「きのう」が「買った」に係
るのか「読んだ」に係るのかが曖昧である。「きのう」
が「買った」に係るとした構成素構造を図9に示す。図
9で機能 rentai#obj は機能 rentaiの子の機能であ
り、機能 rentai は連体修飾節(埋め込み文)を、機能
rentai#obj はその中でも被修飾体言が修飾節中の目的
格と一致することを意味する。この例では「本」は「買
った」の目的格であることを意味する。図9の構成素構
造から作成された機能構造を(b1)を図10に示す。
さて(b0)は「きのう」の係り先が曖昧であったた
め、図5のstep5の処理後の機能構造は図10に示すも
のと図11に示すもの(b2)との二つになる(各々の
ペナルティ値は0)。ここで図11では簡単のため素性
の一致を省略して書いているが、二つの機能構造の相違
点が「きのう」の機能構造中の位置であることが分か
る。
The above is a processing example for an unambiguous input sentence "He plays in the park". However, (b0) Regarding reading a book that was bought yesterday, it is unclear whether "yes" relates to "buy" or "read" as described above. "Yesterday"
FIG. 9 shows a constituent structure related to “buying”. In Figure 9, the function rentai # obj is a child function of the function rentai, and the function rentai has the adnominal modifier clause (embedded sentence).
rentai # obj means that the modified noun matches the objective in the modifier clause. In this example, "book" means the purpose of "buying". FIG. 10 shows (b1) a functional structure created from the constituent structure of FIG.
Now, in (b0), since the reference of "Kiyo" was ambiguous, the functional structure after the processing of step 5 of FIG. 5 becomes two as shown in FIG. 10 and (b2) shown in FIG. Has a penalty value of 0). Here, in FIG. 11, the coincidence of the features is omitted for simplification, but it can be seen that the difference between the two functional structures is the position in the functional structure of “yes”.

【0027】図12は、図5のstep6において対話処理
部の行う対話による多義の解消処理についてのフローチ
ャートである。以下、各ステップに従って順に説明す
る。step10 ;対話による多義の解消を行なうのは機能構造
が複数個ある場合である。その場合、各機能構造につい
てペナルティつきの構造表現ベクタを求める。ここでは
(b1)については、 (b3)ペナルティ=0 (2,adverb,3,rentai#obj,4,obj,0,head) となり、 (b2)については (b4)ペナルティ=0 (4,adverb,3,rentai#obj,4,obj,0,head) となる。ここで各構造表現ベクタについて、その奇数番
目の要素は前から順に各文節の修飾先の文節番号を表
す。
FIG. 12 is a flowchart of the ambiguous resolution processing by the dialogue performed by the dialogue processing unit in step 6 of FIG. Hereinafter, each step will be described in order. step10 ; It is when there is a plurality of functional structures that the ambiguousness is resolved by dialogue. In that case, a structure expression vector with a penalty is obtained for each functional structure. here
For (b1), (b3) penalty = 0 (2, adverb, 3, rentai # obj, 4, obj, 0, head), and for (b2) (b4) penalty = 0 (4, adverb, 3) , Rentai # obj, 4, obj, 0, head). Here, for each structural expression vector, the odd-numbered elements sequentially represent the clause number of the modification destination of each clause.

【0028】例えば上記(b3)の最初の「2」は文節
「きのう」が2番目の文節「買った」を修飾しているこ
とを表す。また「0」は修飾する文節が存在しない(文
全体の主要文節である)ことを表す。偶数番目の要素は
前から順に各文節の文における役割を表す。ここで文に
おける「役割」とは機能名で表現する。上記(b3)の
二番目の要素である「adverb」は文節「きのう」の役割
(機能名)が「adverb」であることを表す。各構造表現
ベクタは辞書情報を用いて機能構造を復元するに一分な
情報を持っている。したがって、機能構造の相違は構造
表現ベクタを比べれば分かる。上記例の(b3)と(b
4)を比較すれば、一4二つの機能構造の相違が「きの
う」の係り先が「買った」か「読んだ」かの違いである
ことがすぐに分かる。
For example, the first "2" in the above (b3) indicates that the phrase "Kinoyu" modifies the second phrase "Bought". Further, "0" represents that there is no clause to be modified (it is the main clause of the whole sentence). The even-numbered elements represent the role of each clause in the sentence in order from the front. Here, the "role" in the sentence is expressed by a function name. The second element “adverb” in (b3) above indicates that the role (function name) of the clause “Kinoyu” is “adverb”. Each structure expression vector has enough information to restore the functional structure using the dictionary information. Therefore, the difference in functional structure can be seen by comparing the structural expression vectors. (B3) and (b in the above example
Comparing 4), it is immediately clear that the difference between the functional structures of the two is the difference between "buy" and "read" in the "yes".

【0029】step11;対話処理の対象となる機能構造
は複数個あるのでペナルティつきの構造表現ベクタは複
数個求められる。以後対話によって得た情報をもとにこ
のベクタを一つに絞る。この際、対話はペナルティつき
の構造表現ベクタを基に最も効率良くベクタの一列を問
うことで行なう(最大効率対話)。最大効率対話につい
ては、一つに絞られた場合はstep15で構造表現ベクタ
に相当する機能構造を出力する。step12 ;構造表現ベクタが複数個ある場合、構造表現
ベクタの集合から最もバラツキの大きい列を求める。上
記例では構造表現ベクタの第1要素以外は同じであるの
で第1番目の列を問う。
Step 11 ; Since there are a plurality of functional structures that are the targets of the interactive processing, a plurality of penalty- added structure expression vectors are obtained. After that, this vector is narrowed down to one based on the information obtained by the dialogue. At this time, the dialogue is performed by efficiently querying a sequence of vectors based on the penalty structure expression vector (maximum efficiency dialogue). With regard to the maximum efficiency dialogue, when it is narrowed down to one, the functional structure corresponding to the structure expression vector is output in step 15. step12 ; When there are a plurality of structural expression vectors, the column with the largest variation is obtained from the set of structural expression vectors. In the above example, since the elements other than the first element of the structural expression vector are the same, the first column is queried.

【0030】step13;前記step12で求めた列を操作
者に問う。この場合は、 (b5)「きのう」の係り先は何ですか? あるいは、 (b6)「きのう」の係り先は「買った」と「読んだ」
のどちらですか? などと問う。step14 ;前記step13で操作者から得た答えに合う構
造表現ベクタだけを残し、他のベクタは解析失敗とす
る。(b5)あるいは(b6)の問いの答えが「買っ
た」であった場合は構造表現ベクタ(b4)だけを残
す。step15 ;前記step14の時点で構造表現ベクタは一つ
に絞られたので、機能構造(b1)を出力する。
Step 13 ; The operator is queried for the row obtained in Step 12 above. In this case, (b5) What is the person in charge of "Yesterday"? Alternatively, (b6) the person in charge of “Yes” read “I bought” and “Read”
Which one? And so on. step 14 ; Only the structural expression vector that matches the answer obtained from the operator in step 13 is left, and the other vectors are failed in analysis. When the answer to the question of (b5) or (b6) is "buy", only the structural expression vector (b4) is left. step15 : Since the structure representation vector is narrowed down to one at the time of step 14, the functional structure (b1) is output.

【0031】以上は「きのう買った本を読んだ」という
曖昧さはあるが、その曖昧さは「きのう」の係り先の一
つである入力文についてであった。しかし、 (e0)彼がきのう買った本を読んだ。については、
「きのう」が「買った」に係るのか「読んだ」に係るの
かが曖昧であり、また「彼が」が「買った」に係るのか
「読んだ」に係るのかが曖昧であり、二つの曖昧さがあ
る。すなわち図5のstep5にいては例えば3つの機能構
造を出力する。その各々から対話処理部が計算した構造
表現ベクタは以下の3つである。 (e1) ペナルティ値=0 (3,subj,3,adverb,4,rentai#obj,5,obj,0,head) (e2) ペナルティ値=10 (5,subj,3,adverb,4,rentai#obj,5,obj,0,head) (e3) ペナルティ値=15 (5,subj,5,adverb,4,rentai#obj,5,obj,0,head) となる。
Although there is the ambiguity that "I read the book I bought yesterday", the ambiguity was about the input sentence, which is one of the references of "Kino". However, (e0) I read the book he bought yesterday. about,
It is ambiguous whether "yes" is "buried" or "read", and ambiguous whether "he" is "buried" or "read". There is ambiguity. That is, in step 5 of FIG. 5, for example, three functional structures are output. The following three structure expression vectors are calculated by the dialogue processing unit from each of them. (E1) Penalty value = 0 (3, subj, 3, adverb, 4, rentai # obj, 5, obj, 0, head) (e2) Penalty value = 10 (5, subj, 3, adverb, 4, rentai # obj, 5, obj, 0, head) (e3) Penalty value = 15 (5, subj, 5, adverb, 4, rentai # obj, 5, obj, 0, head).

【0032】この結果の意味することは、(e0)の解
釈として、 (e4)「彼がきのう買った本を誰か(おそらく発話
者)が読んだ。」とするのが最も尤もらしいということ
がわかる。 (e2)は「(誰かが)きのう買った本を彼が読ん
だ。」、(e3)は「(誰かがいつか)買った本を彼が
きのう読んだ。」という解釈に相当する。ペナルティの
値によりこれら二つの解釈は(e4)の解釈より尤もら
しさが小さいことが分かる。この場合、対話処理部とし
ては各々の構造表現ベクタの持つペナルティ値に基づ
き、 (e5)「彼が」の係り先は何ですか? (e6)「きのう」の係り先は何ですか? の可能な質問のうち、(e5)を選択して操作者に問う。
その理由は以下のとおりである。
The meaning of this result is that, as the interpretation of (e0), it is most likely that (e4) "someone (probably the speaker) read the book he bought yesterday." Recognize. (E2) corresponds to the interpretation that "he read the book that (someone) bought yesterday.", And (e3) that he read the book that (someone else) bought yesterday. It can be seen from the penalty value that these two interpretations are less likely than the interpretation of (e4). In this case, as the dialogue processing unit, based on the penalty value of each structure expression vector, (e5) What is the contact of "he is"? (E6) What is the person in charge of "Kinou"? From among the possible questions, select (e5) and ask the operator.
The reason is as follows.

【0033】対話処理部はペナルティ値に基づき構造表
現ベクタが(e1)である機能構造が正解であると予想
している。したがって操作者の返答は(e1)に合う答
えであると考えている。もし(e6)を先に質問して
も、おそらく「買った」であるという答が返るであろ
う。その場合、続けて(e5)の質問をしなければ(e
1)(e2)のいずれに相当する機能構造が操作者の意
図するものであるかが分からない。一方(e5)を先に
問い、「買った」という答であれば、(e6)を問わず
に(e1)に相当する機能構造が操作者の意図するもの
であることが分かる。すなわち、最大効率対話では、
(e5)を先に問う方がいいのである。
Based on the penalty value, the dialogue processing unit expects that the functional structure having the structure expression vector (e1) is correct. Therefore, the operator's reply is considered to be an answer that matches (e1). If you ask (e6) first, you will probably get the answer that you have bought. In that case, if you do not continue to ask question (e5) (e5
1) It is unknown whether the functional structure corresponding to (e2) is intended by the operator. On the other hand, if the question (e5) is asked first and the answer is "buy", it is understood that the functional structure corresponding to (e1) is intended by the operator regardless of (e6). That is, in maximum efficiency dialogue,
It is better to ask (e5) first.

【0034】以上を数式を用いてより詳細に説明を行
う。機能構造の集合を、 Γ={Si} (i=1,2,…N) (1) とする。各々の機能構造(例えばS3)を、その構文的
構造や意味的性質を基に一意にベクタ表現することがで
きる。
The above will be described in more detail using mathematical expressions. The set of functional structures is Γ = {S i } (i = 1, 2, ... N) (1). Each functional structure (eg, S 3 ) can be uniquely vector-expressed based on its syntactic structure and semantic properties.

【0035】[0035]

【数1】 [Equation 1]

【0036】Mはベクタの次元であり、各々の機能構造
はM次元で表現できることを示している。さらに各々の
機能構造はペナルティを持っている。機能構造Siの持
つ賛ナルティをei(0e<∞)とすると、機能構造
の持つ相対確率pは、
M is the dimension of the vector, indicating that each functional structure can be expressed in M dimensions. Furthermore, each functional structure has a penalty. If the negativeness of the functional structure S i is e i (0 < e <∞), the relative probability p of the functional structure is

【0037】[0037]

【数2】 [Equation 2]

【0038】となる。ここで base はエントロピーを確
率に戻す際の「底」であり、base>1である。この相対
確率pはを機能構造の集合全体で1になるように正規化
する。
[0038] Here base is the "bottom" when entropy is returned to probability, and base> 1. This relative probability p is normalized so that it is 1 in the entire set of functional structures.

【0039】[0039]

【数3】 [Equation 3]

【0040】したがって、機能構造の熱合を一意に表現
するN×Mのマトリクスxijとペナルティを表すN次の
ベクタ[p′i]で解集合の曖昧性は完全に表現される。1
回の対話によって得ることができる情報は、マトリクス
の1列(例えば[xi5])である。対話によりxi5=vで
あることがわかると、これは機能構造への制約として表
現される。例えば、xi5≠vであるような機能構造Si
を解析失敗とする。さて、エントロピーを用いた最大効
率対話では、列ごとのエントロピーを計算し、最もエン
トロピーの高い列の値を対話によって得る。例えば、第
5列を表すN次ベクタ[xi5]のエントロピーE5は以下
のように計算できる。[xi5]の値のバリエーションが、
{v1,v2,…,vL}とする。ここで、1Nであ
る。このときマトリクスの成分xi5が値vkをとる確率
は、
Therefore, the ambiguity of the solution set is completely expressed by the N × M matrix x ij which uniquely expresses the heat of the functional structure and the Nth-order vector [p ′ i ] which represents the penalty. 1
The information that can be obtained by one interaction is one column of the matrix (eg [x i5 ]). If the dialog reveals that x i5 = v, this is expressed as a constraint on the functional structure. For example, a functional structure S i such that x i5 ≠ v
Is an analysis failure. By the way, in the maximum efficiency dialogue using entropy, entropy for each column is calculated, and the value of the column with the highest entropy is obtained by the dialogue. For example, the entropy E 5 of the Nth order vector [x i5 ] representing the fifth column can be calculated as follows. The variation of the value of [x i5 ] is
Let {v 1 , v 2 , ..., V L }. Here, 1 < L < N. At this time, the probability that the matrix component x i5 takes the value v k is

【0041】[0041]

【数4】 [Equation 4]

【0042】である。このPを用いて、It is Using this P,

【0043】[0043]

【数5】 [Equation 5]

【0044】となる。また、機能構造の数を用いた最大
効率対話では、列の値を知ることによって減らすことの
できる機能構造の数の期待値が最大になるような列の値
を対話によって得る。具体的には前項の第(6)式を、
It becomes Further, in the maximum efficiency dialogue using the number of functional structures, the dialogue value is obtained such that the expected value of the number of functional structures which can be reduced by knowing the value of the column is maximized. Specifically, the equation (6) in the previous section is

【0045】[0045]

【数6】 [Equation 6]

【0046】とする。Σxi5=vk 1は、単にxの値がvk
となる機能構造の数を数えているだけである。以上が最
大効率対話の数式による定義である。入力文の解析結果
が複数個ある場合にはこの最大効率対話を用いて最も効
率良い対話を行なうことが数学的に保証されている。
It is assumed that Σ xi5 = vk 1 means that the value of x is v k
It just counts the number of functional structures. The above is the mathematical definition of the maximum efficiency dialogue. It is mathematically assured that the maximum efficiency dialogue is used for the most efficient dialogue when there are a plurality of analysis results of the input sentence.

【0047】次に、 (f0)きのう買われた本を読んだ。については、「き
のう」が「買われた」に係るのか「読んだ」に係るのか
が曖昧である。また「買われた」が「受身」の意味なの
か「尊敬」の意味なのかも曖昧である。したがって、構
文解析部は、例えば4つの機能構造を出力する。その各
々から対話処理部が計算した構造表現ベクタは、以下の
4つである。 (f1) ペナルティ値=0 (2,adverb,3,rentai#pass#obj,4,obj,0,head) (f2) ペナルティ値=10 (4,adverb,3,rentai#pass#obj,4,obj,0,head) (f3) ペナルティ値=0 (2,adverb,3,rentai#reg#obj,4,obj,0,head) (f4) ペナルティ値=10 (4,adverb,3,rentai#reg#obj,4,obj,0,head)
Next, (f0) I read the book bought yesterday. Regarding, it is ambiguous whether "yes" is related to "bought" or "read". It is also ambiguous whether "bought" means "passive" or "respect". Therefore, the syntactic analysis unit outputs, for example, four functional structures. The following four structure expression vectors are calculated by the dialogue processing unit from each of them. (F1) Penalty value = 0 (2, adverb, 3, rentai # pass # obj, 4, obj, 0, head) (f2) Penalty value = 10 (4, adverb, 3, rentai # pass # obj, 4, obj, 0, head) (f3) Penalty value = 0 (2, adverb, 3, rentai # reg # obj, 4, obj, 0, head) (f4) Penalty value = 10 (4, adverb, 3, rentai # (reg # obj, 4, obj, 0, head)

【0048】ここで機能名 rentai#pass#obj は文節
「買われた」が「本を」連体修飾していて、受身の用法
であり、「本」が「買う」の目的語となっていることを
表す。また機能名 rentai#reg#obj は文節「買われた」
が「本を」を連体修飾していて、「尊敬」の意味であ
り、「本」が「買う」の目的語となっていることを表
す。
Here, the function name rentai # pass # obj is the passive usage of the phrase “Bought” and “Book”, and the “Book” is the object of “Buy”. It means that. Also, the function name rentai # reg # obj is the phrase “Bought”
Indicates that the book is adnominally modified, meaning "respect", and that "book" is the object of "buy".

【0049】これら4つの構造表現ベクタから一つを選
択するのに最も効率のよい質問は、ペナルティ値だけを
考えた最大効率対話によると、ベクタの第1列、すなわ
ち「きのう」の係り先の曖昧さと、第4列、すなわち
「れる」の語義の曖昧さの二つが同じ優先度で考えられ
る。しかし、本発明の実施例による対話処理部には、あ
らかじめ図14に示すような質問パターン情報量テーブ
ルがあるので、これを参照して「係り先を問う」質問に
較べて、「語義を問う」質問は0.2分の情報量しかな
いことが分かる。そこで対話処理部は (f5)「きのう」の係り先は何ですか? と問う。この質問を先にする方が効率が良いからであ
る。その後、「れる」の意味を問うてもいいし、「れ
る」の語義を問う質問に対する情報量が十分に少ないと
みなして質問を止めてもよい。質問を止めた場合は、自
然言語文解装置が操作者の文法的知識を考慮して「れ
る」の意味を分離することは不要であると判断したこと
を意味する。この場合、解析装置の出力は図13に示す
ように「れる」の意味を決定してない、圧縮したものと
なっている。また必要に応じて、公知のデフォールト処
理にしたがって「れる」の意味は「受身」であると決定
してもよい。
The most efficient question for choosing one of these four structural representation vectors is that the maximum efficiency dialogue considering only the penalty value indicates that the first column of the vector, namely the "yes" The ambiguity and the ambiguity of the meaning of the fourth column, that is, "ru" are considered with the same priority. However, since the dialogue processing unit according to the embodiment of the present invention has a question pattern information amount table as shown in FIG. 14 in advance, referring to this table, as compared with the question "inquiring about the person in charge", It turns out that the question has only 0.2 minutes of information. So, what is the contact point of (f5) “Kiyo”? Ask. It is more efficient to answer this question first. After that, the meaning of “ru” may be asked, or the question may be stopped because the amount of information for the question asking the meaning of “ru” is sufficiently small. When the question is stopped, it means that it is not necessary for the natural language grammar solver to separate the meaning of "ru" in consideration of the grammatical knowledge of the operator. In this case, the output of the analysis device is compressed, as shown in FIG. 13, without determining the meaning of "ru". If necessary, the meaning of “yes” may be determined to be “passive” according to a known default process.

【0050】[0050]

【効果】以上の説明から明らなように、本発明による
と、以下のような効果がある。 (1)目的言語の知識を必要としないので、例えば日本
人を操作者とする日英機械翻訳システムなどに応用でき
る。 (2)操作者が加えるベき情報は多義を解消するのに必
要最小限なものであるので、むだな情報を加える必要が
なく、またその質問の順番も最大効率対話によるもので
あり、操作者の負担を軽減できる。 (3)操作者が加えるベき情報の内容が分かり易いの
で、質問内容は入力文の係り受け構造に関するものや、
構文要素の役割に関するものであり、解析構造あるいは
中間構造を示すといった操作者に分かり難いインターフ
ェースを排除することができる。また、操作者に分かり
難い質問に対する答えを重視しないようにもできる。 (4)操作者に必要以上の文法的知識を必要としないの
で、各質問についてその質問の平易さが計算され、平易
な質問ほど先に質問され易いように最大効率対話を行な
う。操作者に分かり難い質問はより詳細な解析を行なう
場合に行なわれる。また、平易な質問の対する操作者の
答えほど解析装置は重視する。
[Effect] As is apparent from the above description, the present invention has the following effects. (1) Since it does not require knowledge of the target language, it can be applied to, for example, a Japanese-English machine translation system in which a Japanese operator is used. (2) Since the information added by the operator is the minimum necessary to resolve the ambiguity, it is not necessary to add unnecessary information, and the order of the questions is based on the maximum efficiency dialogue. The burden on the person can be reduced. (3) Since the content of the information added by the operator is easy to understand, the question content is related to the dependency structure of the input sentence,
This is related to the role of the syntax element, and it is possible to eliminate an interface which is difficult for the operator to understand, such as showing a parsing structure or an intermediate structure. Further, it is possible to place less importance on answers to questions that are difficult for the operator to understand. (4) Since the operator does not need more grammatical knowledge than is necessary, the simplicity of the question is calculated for each question, and the maximum efficiency dialogue is performed so that the easier the question is, the easier the question is asked earlier. Questions that are difficult for the operator to understand are asked when performing more detailed analysis. The analysis device attaches more importance to the operator's answer to a simple question.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明による自然言語文解析装置の一実施例
を説明するための構成図である。
FIG. 1 is a configuration diagram for explaining an embodiment of a natural language sentence analysis device according to the present invention.

【図2】 本発明による辞書、構文規則を示す図であ
る。
FIG. 2 is a diagram showing a dictionary and syntax rules according to the present invention.

【図3】 本発明による制約を示す図である。FIG. 3 is a diagram showing constraints according to the present invention.

【図4】 本発明による機能関係部の内容を示す図であ
る。
FIG. 4 is a diagram showing the contents of a functional relation part according to the present invention.

【図5】 本発明による自然言語文解析装置の処理部の
フローチャートである。
FIG. 5 is a flowchart of a processing unit of the natural language sentence analysis device according to the present invention.

【図6】 本発明による構成素構造を示す図である。FIG. 6 is a diagram showing a constituent structure according to the present invention.

【図7】 本発明による機能構造を示す図である。FIG. 7 is a diagram showing a functional structure according to the present invention.

【図8】 本発明による機能構造を示す図である。FIG. 8 is a diagram showing a functional structure according to the present invention.

【図9】 本発明の他の構成素構造を示す図である。FIG. 9 is a diagram showing another constituent structure of the present invention.

【図10】 本発明の他の機能構造を示す図である。FIG. 10 is a diagram showing another functional structure of the present invention.

【図11】 本発明の他の機能構造を示す図である。FIG. 11 is a diagram showing another functional structure of the present invention.

【図12】 本発明の対話による多義の解消処理のフロ
ーチャートを示す図である。
FIG. 12 is a diagram showing a flowchart of ambiguous resolution processing by dialogue according to the present invention.

【図13】 本発明の更に他の機能構造を示す図であ
る。
FIG. 13 is a diagram showing still another functional structure of the present invention.

【図14】 本発明の質問パターン情報量テーブルを示
す図である。
FIG. 14 is a diagram showing a question pattern information amount table of the present invention.

【符号の説明】[Explanation of symbols]

1…入力部、2…出力部、3…構文解析部、4…対話処
理部、5…辞書部、6…構文規則部、7…制約部、8…
機能関係部。
DESCRIPTION OF SYMBOLS 1 ... Input part, 2 ... Output part, 3 ... Syntax analysis part, 4 ... Dialog processing part, 5 ... Dictionary part, 6 ... Syntax rule part, 7 ... Restriction part, 8 ...
Functional section.

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 自然言語文を入力とする入力部と、該入
力部による入力文を解析構造の集合に変換する構文解析
部と、該構文解析部による各々の解析構造から、該解析
構造を他の解析構造と区別するに充分な特徴を抽出する
解析構造特徴抽出部と、前記解析構造の集合に対して抽
出された特徴の集合から、一つあるいは複数を問い、そ
の答を用いて解析構造の多義を解消する対話処理部と、
該対話処理部による解析結果を出力する出力部とから成
り、前記対話処理部は前記特徴のエントロピーを基に対
話を行なうことを特徴とする自然言語文解析装置。
1. An analytic structure is obtained from an input unit for inputting a natural language sentence, a parsing unit for converting an input sentence by the input unit into a set of analytic structures, and an analytic structure for each analytic structure by the parse unit. An analysis structure feature extraction unit that extracts a feature sufficient to distinguish it from other analysis structures, and one or more questions are asked from the set of features extracted for the set of analysis structures, and the analysis is performed using the answer. A dialogue processing unit that eliminates the ambiguity of the structure,
A natural language sentence analysis device comprising: an output unit that outputs an analysis result by the dialogue processing unit, wherein the dialogue processing unit performs a dialogue based on the entropy of the feature.
【請求項2】 前記構文解析部は、各々の解析構造につ
いて解析構造の不適合性に関する値を計算することを特
徴とする請求項1項記載の自然言語文解析装置。
2. The natural language sentence analysis device according to claim 1, wherein the syntactic analysis unit calculates a value regarding incompatibility of the analysis structure for each analysis structure.
【請求項3】 前記対話処理部は得られた答の確実性に
関する情報を有し、前記エントロピーを前記答の確実性
に関する情報に基づき計算することを特徴とする請求項
1項記載の自然言語文解析装置。
3. The natural language according to claim 1, wherein the dialogue processing unit has information regarding the certainty of the obtained answer, and calculates the entropy based on the information regarding the certainty of the answer. Sentence analyzer.
【請求項4】 自然言語文を入力とする入力部と、該入
力部による入力文を解析構造の集合に変換する構文解析
部と、該構文解析部による各々の解析構造から、該解析
構造を他の解析構造と区別するに充分な特徴を抽出する
解析構造特徴抽出部と、前記解析構造の集合に対して抽
出された特徴の集合から、一つあるいは複数を問い、そ
の答を用いて解析構造の多義を解消する対話処理部と、
該対話処理部による解析結果を出力する出力部とから成
り、前記対話処理部は解析構造の集合の要素数を最も減
らすように対話を行なうことを特徴とする自然言語文解
析装置。
4. An analytic structure is selected from an input unit for inputting a natural language sentence, a parsing unit for converting the input sentence by the input unit into a set of analytic structures, and an analytic structure for each analytic structure by the parse unit. An analysis structure feature extraction unit that extracts a feature sufficient to distinguish it from other analysis structures, and one or more questions are asked from the set of features extracted for the set of analysis structures, and the analysis is performed using the answer. A dialogue processing unit that eliminates the ambiguity of the structure,
An apparatus for outputting a natural language sentence, comprising: an output section for outputting an analysis result by the dialogue processing section, wherein the dialogue processing section conducts a dialogue so as to reduce the number of elements of a set of analysis structures to a minimum.
【請求項5】 前記構文解析部は、各々の解析構造につ
いて解析構造の不適合性に関する値を計算することを特
徴とする請求項4項記載の自然言語文解析装置。
5. The natural language sentence analysis apparatus according to claim 4, wherein the syntactic analysis unit calculates a value regarding incompatibility of the analysis structure for each analysis structure.
【請求項6】 前記対話処理部は得られた答の確実性に
関する情報を有し、解析構造の朝合の要素数を最も減ら
すように対話を行なう際に、前記答の確実性に関する情
報に用いて行なうことを特徴とする請求項4項記載の自
然言語文解析装置。
6. The dialogue processing unit has information on the certainty of the obtained answer, and when the dialogue is made so as to reduce the number of elements of the analysis structure in the morning, the information on the certainty of the answer is provided. 5. The natural language sentence analysis device according to claim 4, wherein the natural language sentence analysis device is used.
JP4126846A 1992-04-20 1992-04-20 Natural language sentence analyzer Pending JPH05298355A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4126846A JPH05298355A (en) 1992-04-20 1992-04-20 Natural language sentence analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4126846A JPH05298355A (en) 1992-04-20 1992-04-20 Natural language sentence analyzer

Publications (1)

Publication Number Publication Date
JPH05298355A true JPH05298355A (en) 1993-11-12

Family

ID=14945315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4126846A Pending JPH05298355A (en) 1992-04-20 1992-04-20 Natural language sentence analyzer

Country Status (1)

Country Link
JP (1) JPH05298355A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (en) * 1993-04-28 1994-11-08 Ibm Japan Ltd Method and device for mechanical translation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (en) * 1993-04-28 1994-11-08 Ibm Japan Ltd Method and device for mechanical translation

Similar Documents

Publication Publication Date Title
EP0176858B1 (en) Translation system
JP3009215B2 (en) Natural language processing method and natural language processing system
JP2963463B2 (en) Interactive language analyzer
US5321607A (en) Automatic translating machine
JP2005535007A (en) Synthesizing method of self-learning system for knowledge extraction for document retrieval system
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
KR20170106308A (en) Annotation assistance device and computer program therefor
WO2003056450A1 (en) Syntax analysis method and apparatus
JPS62163173A (en) Mechanical translating device
Roche Parsing with finite-state transducers
JPH08292955A (en) Language processing method and data processor applying the same
JPH0351022B2 (en)
JP3441400B2 (en) Language conversion rule creation device and program recording medium
JPH05298355A (en) Natural language sentence analyzer
Jagtman et al. Report-COMOLA: a computer system for the analysis of interlanguage data
Kübler et al. Adding context information to part of speech tagging for dialogues
JPH08190562A (en) Machine translation system
JP2006024114A (en) Mechanical translation device and mechanical translation computer program
JP6045948B2 (en) Machine translation apparatus and machine translation program
JP5331964B2 (en) Translation support device, translation support method, and translation support program
JPH0415750A (en) Analyzing device for natural language sentence
JP2713353B2 (en) Knowledge extraction device
Moot Parsing corpus-induced type-logical grammars
Roche 8 Parsing with Finite-State
Huiskens et al. Developing a tool for the description of language acquisition