JPH0415750A - Analyzing device for natural language sentence - Google Patents

Analyzing device for natural language sentence

Info

Publication number
JPH0415750A
JPH0415750A JP2115398A JP11539890A JPH0415750A JP H0415750 A JPH0415750 A JP H0415750A JP 2115398 A JP2115398 A JP 2115398A JP 11539890 A JP11539890 A JP 11539890A JP H0415750 A JPH0415750 A JP H0415750A
Authority
JP
Japan
Prior art keywords
section
natural language
dictionary
analysis
structures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2115398A
Other languages
Japanese (ja)
Inventor
Makoto Ishii
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2115398A priority Critical patent/JPH0415750A/en
Publication of JPH0415750A publication Critical patent/JPH0415750A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE:To facilitate the operation of an analyzing device for natural language sentence by extracting the information to discriminate the analysis structure of a natural language sentence from other analysis structures. CONSTITUTION:An input sentence received from an input part 2 which inputs the natural language sentences is divided into the morphemes with use of a morpheme division dictionary of a dictionary part 4. Then plural component element structures are produced based on the contents of a syntax rule part 5 and the function structures are produced from the component element structure. In this case, a processing part 1 applies the limit by means of the limit of a limit part 6 and a limit application dictionary of the part 4 and then performs multivocal dissolution processing jobs after a conversation. Then the information is extracted for discrimination of the analysis structure of a natural language sentence from other analysis structures in an interactive form. Thus this analysis method can be applied a Japanese-English machine, translation system which is operated by a Japanese operator. Then the operator' s load is reduced.

Description

【発明の詳細な説明】 狡生分立 本発明は、自然言語文解析装置に関し、機械翻訳装置な
ど自然言語文を入力とするシステムの自然言語文の構文
解析装置、特に操作者との対話を情報源とする対話型構
文解析装置に関する。
[Detailed Description of the Invention] The present invention relates to a natural language sentence analysis device, and particularly relates to a natural language sentence parsing device for a system that receives natural language sentences as input, such as a machine translation device. This article relates to an interactive syntax parsing device.

死米艮朱 自然言語文にはその意味があいまいな文が数多く存在す
る。例えば、 (a)私はきのう買った本を読んだ。
There are many sentences in natural language whose meanings are ambiguous. For example, (a) I read the book I bought yesterday.

については「きのう買った」のか「きのう読んだ」のか
があいまいである。こうしたあいまいさを「係り受け」
のあいまいさと呼ぶ。すなわち「きのう」の係り先があ
いまいであるという意味である。また、 (b)魚は食べる。
It is unclear whether it means "I bought it yesterday" or "I read it yesterday." This ambiguity is ``required''
It is called ambiguity. In other words, the meaning of ``yesterday'' is ambiguous. Also, (b) I eat fish.

については「魚が何かを食べる」のが「何がが魚を食へ
る」のかあいまいである。こうしたあいまいさを「役割
」のあいまいさと呼ぶ。すなわちr魚は」の「食べる」
に対する役割が主語であるのか目的語であるのかがあい
まいであるという意味である。
Regarding this, it is unclear whether ``the fish eats something'' or ``what eats the fish''. This ambiguity is called ``role'' ambiguity. In other words, "eat" in "r fish".
This means that it is ambiguous whether the role of the word is the subject or the object.

人間の場合、自然言語におけるこうしたあいまいさは、
発話においては発話の状況とかイントネーション、間の
取り方などを情報として解消していると考えられるが、
機械翻訳などに用いられる構文解析装置においては、入
力部を通して入力された文字列データだけをもって入力
データとみなすので、上記のようなあいまいさを除去す
ることは困難である。そこで操作者が介入して操作者の
意図する結果を得ようとする技術には数多くの提案がな
されてきた。自然言語文解析装置の応用分野である機械
翻訳処理について1例えば、特開昭63−300360
号公報、特開昭59−140582号公報、特開昭61
−18073号公報などがある。以下こうしたあいまい
な文の解析結果を絞り込む技術を「多義の解消」に関す
る技術と呼ぶ。
For humans, these ambiguities in natural language are
In speech, it is thought that the situation of the utterance, intonation, pauses, etc. are resolved as information.
In a syntax analysis device used for machine translation, etc., only character string data input through an input unit is considered as input data, so it is difficult to eliminate the above-mentioned ambiguity. Therefore, many proposals have been made for techniques in which the operator intervenes to obtain the results intended by the operator. Regarding machine translation processing, which is an application field of natural language sentence analysis devices 1 For example, Japanese Patent Application Laid-Open No. 63-300360
No. 59-140582, Japanese Patent Application Laid-open No. 1982-140582
-18073, etc. Hereinafter, the technology for narrowing down the analysis results of such ambiguous sentences will be referred to as the technology for "resolving ambiguity."

まず、特開昭63−300360号公報に記載された従
来技術および類似する技術をポストエデイツト方式とよ
び、自然言語文解析装置は可能な解析結果のうち一つを
強制的に選択し、その唯−解を機械翻訳装置の変換生成
部が対象言語に変換する。解析装置の選択が誤ったこと
による翻訳結果の誤りの修正は対象言語そのものを編集
することによって行なわれる。
First, the prior art described in Japanese Patent Application Laid-Open No. 63-300360 and similar technologies are called post-edit methods, in which a natural language sentence analysis device forcibly selects one of the possible analysis results. The conversion generation unit of the machine translation device converts the solution into the target language. Errors in translation results due to incorrect selection of an analysis device can be corrected by editing the target language itself.

特開昭59−140582号公報に記載された従来技術
および類似する技術をプレエデイツト方式とよび、自然
言語文解析装置に入力する入力文にあいまいさを解消す
るための情報を付加することによって多義を解消する。
The prior art described in Japanese Patent Application Laid-Open No. 59-140582 and similar technologies are called pre-editing methods, which remove ambiguity by adding information to resolve ambiguity to an input sentence input to a natural language sentence analysis device. Eliminate.

特開昭61−18073号公報に記載された従来技術お
よび類似する技術をインタエデイツト方式とよび、自然
言語文解析装置が入力文の解析結果を操作者に示し、操
作者はその解析結果が間違っていれば自ら修正し、修正
された結果が変換生成の処理対象となる。
The prior art described in JP-A No. 61-18073 and similar technologies are called interedit methods, in which a natural language sentence analysis device shows the analysis result of the input sentence to the operator, and the operator can check if the analysis result is incorrect. If so, it will be corrected by itself, and the corrected result will be processed for conversion generation.

一方、自然言語文を構文解析する際には、構文解析木の
ような構造的データ構造を構成するだけでは精密な解析
は困難である。そこで構造的データ構造に加えて、意味
的データ構造を構成し、これら二つのデータ構造により
相補的に文法を記述する枠組みを提供する文法理論とし
て、rThe Mental Representat
ion of GrammaticalRelatio
ns、J (Bresnan、J、 MIT Pres
s、 1982 )に開示された語當機能文法がある。
On the other hand, when parsing a natural language sentence, it is difficult to perform precise analysis just by constructing a structural data structure such as a parse tree. Therefore, in addition to the structural data structure, a semantic data structure is constructed, and as a grammar theory that provides a framework for describing grammar complementary to these two data structures, the Mental Representat
ion of GrammaticalRelation
ns, J (Bresnan, J, MIT Pres.
There is a word-to-function grammar disclosed in J. S., 1982).

前記ポストエデイツト方式については、対象言語を編集
するためには対象言語の知識がなければならないという
問題点がある。これは例えば日英機械翻訳装置を日本人
が用いようとする場合には、英語の知識をも必要とする
ことになる。
The problem with the post-editing method is that knowledge of the target language is required in order to edit the target language. For example, if a Japanese person wants to use a Japanese-English machine translation device, knowledge of English is also required.

また、前記プレエデイツト方式については、対象言語の
知識は必要ないが、入力文のあいまいさを予想しなけれ
ばならない。あいまいさを解消するのに十分な情報を付
加するためには、入力文の各所に多くの情報を付加しな
ければならず、これが必要十分であるためには言語に関
する十分な知識とシステムの処理に関する十分な知識を
必要とする。すなわち操作者の意図する解析結果を得る
ために必要最小限の情報を付加することは困難であり、
どうしても冗長な情報を付加することになり、むだであ
る。また入力する各文に情報を付加する作業自体が煩雑
である。
Furthermore, although the pre-editing method does not require knowledge of the target language, it is necessary to anticipate the ambiguity of the input sentence. In order to add enough information to resolve ambiguity, it is necessary to add a lot of information to various parts of the input sentence, and for this to be necessary and sufficient, sufficient knowledge of the language and system processing are required. requires sufficient knowledge of In other words, it is difficult to add the minimum amount of information necessary to obtain the analysis results intended by the operator.
This inevitably adds redundant information, which is wasteful. Further, the work itself of adding information to each input sentence is complicated.

上記の区別によれば1本発明はインタエデイツト方式に
用いられる構文解析装置といえる。ただし前記特開昭6
1−18073号公報によれば、入力文の解析構造とし
てツリー構造あるいは類似する構造が表示され、操作者
はその表示を修正、確認する。しかし入力文に関する複
雑な構造を示されても操作者は分からないという問題点
がある。
According to the above distinction, the present invention can be said to be a syntactic analysis device used in the interedit system. However, the above-mentioned Japanese Patent Application Publication No. 6
According to Japanese Patent No. 1-18073, a tree structure or a similar structure is displayed as an analysis structure of an input sentence, and the operator corrects and confirms the display. However, there is a problem that the operator cannot understand even if the complicated structure of the input sentence is shown to him.

L−一放 本発明は、上述のごとき実情に鑑みてなされたもので、
自然言語文解析装置が入力文の解析時に入力文のあいま
いさを検知した場合、その時点で多義を解消するに足る
情報を最も効率の良い順番で質問し、この質問が入力文
に関しての「係り受け」や「役割」の質問であることに
より対象言語の知識を必要としないこと、また、あいま
いさを検知した時点で質問を行ない、また最も効率の良
い順番で質問するため、その質問は多義を解消するのに
必要十分なものであること、さらに、質問内容は入力文
に関する係り受けに関するものや。
The present invention was made in view of the above-mentioned circumstances.
When the natural language sentence analysis device detects ambiguity in the input sentence when analyzing the input sentence, it asks for enough information to resolve the ambiguity at that point in the most efficient order, and this question Since the questions are "receive" or "role" questions, knowledge of the target language is not required, and the questions are asked when ambiguity is detected, and the questions are asked in the most efficient order, so the questions are ambiguous. The content of the question is necessary and sufficient to solve the problem, and the question is related to dependencies related to the input sentence.

構文要素の役割に関するものであり、解析構造を示すと
いった操作者に分かりにくいインターフェースを排除す
ることができるような自然言語文解析装置を提供するこ
とを目的としてなされたものである。
It concerns the role of syntactic elements, and was developed with the purpose of providing a natural language sentence analysis device that can eliminate interfaces that are difficult for operators to understand, such as showing analysis structures.

購−一一衣 本発明は、上記目的を達成するために、自然言語文を入
力する入力部と、該入力部からの入力文を辞書部の形態
素分割用辞書を用いて形態素分割し、該形態素分割され
たものに対して、構文規則部の内容をmmいて複数の構
成素構造を作成し、該構成素構造の各々から機能構造を
作成し、該機能構造を作成するに際しては、制約部から
の制約と前記辞書部の制約適用用辞書を用いて制約の適
用を行い、その後対話による多義の解消処理を行なう処
理部と、該処理部による解析結果を出力する出力部とか
ら成り、自然言語文の解析構造から該解析構造を他の解
析構造と区別する一つあるいは複数の情報を抽出し、該
情報のうち一つあるいは複数を対話形式で行うことを特
徴としたものである。
In order to achieve the above object, the present invention includes an input section for inputting a natural language sentence, and a morpheme segmentation dictionary of a dictionary section that divides the input sentence from the input section into morphemes. For the morpheme-divided morphemes, the content of the syntactic rule part is divided to create multiple constituent structures, and a functional structure is created from each of the constituent structures. When creating the functional structure, the constraint part is It consists of a processing section that applies constraints using the constraints from and the constraint application dictionary of the dictionary section, and then performs ambiguity resolution processing through dialogue, and an output section that outputs the analysis results of the processing section. This method is characterized by extracting one or more pieces of information that distinguishes the parsing structure from other parsing structures from the parsing structure of a linguistic sentence, and performing one or more of the pieces of information in an interactive manner.

本発明による自然言語文解析装置では、文法的性質を制
約として表現し、各制約にはその制約のもつ文法的強さ
(例外の少なさ)に関する情報を付加する。一方で入力
文に対して公知の諸費機能文法での機能構造に相当する
構造を構成し、さらに機能構造が実現するためのいくつ
かの制約のチエツクを行なう。各々の制約は例外の少な
さに関する情報を持っているので、満たされなかった制
約について上記例外の少なさに関する情報を総合評価し
てその評価を数値で表現し、機能構造の不適合性とみな
し、この不適合性をペナルティと呼ぶ。
In the natural language sentence analysis device according to the present invention, grammatical properties are expressed as constraints, and information regarding the grammatical strength (few exceptions) of each constraint is added to each constraint. On the other hand, a structure corresponding to the functional structure in the known overhead functional grammar is constructed for the input sentence, and several constraints for realizing the functional structure are checked. Since each constraint has information on the number of exceptions, the information on the number of exceptions mentioned above is comprehensively evaluated for constraints that are not satisfied, the evaluation is expressed numerically, and it is regarded as an incompatibility of the functional structure. This incompatibility is called a penalty.

あいまいな文が入力された場合、複数個の機能構造が各
々ペナルティを計算されて得られる。ペナルティはその
機能構造が正しい解析結果であることの可能性の少なさ
を表現している。本発明ではこれら複数個の機能構造の
各々がら他の解析結果と区別するに足る情報を抽出して
構造表現ベクタを構成する。ここで各々の機能構造から
抽出された構造表現ベクタは各機能構造を十分に表現し
ている。こうして得られた複数個のペナルティ付きの構
造表現ベクタから、一つのベクタを特定するのに最も効
率の良い質問は、構造表現ベクタが機能構造を十分に表
現しているため、複数個の機能構造から一つの機能構造
を特定するのに最も効率の良い質問となる。以下、本発
明の実施例に基づいて説明する。
When an ambiguous sentence is input, a plurality of functional structures are obtained by calculating penalties for each. The penalty expresses the low probability that the functional structure is the correct analysis result. In the present invention, a structure representation vector is constructed by extracting information sufficient to distinguish each of these plurality of functional structures from other analysis results. Here, the structure expression vectors extracted from each functional structure sufficiently express each functional structure. The most efficient question for identifying one vector from the multiple penalized structure representation vectors obtained in this way is that the structure representation vector sufficiently represents the functional structure. This is the most efficient question for identifying a single functional structure. Hereinafter, the present invention will be explained based on examples.

第1図は、本発明による自然言語文解析装置の一実施例
を説明するための構成図で、図中、1は処理部、2は入
力部、3は出力部、4は辞書部、5は構文規則部、6は
制約部、7は機能関係部である。
FIG. 1 is a block diagram for explaining an embodiment of a natural language sentence analysis device according to the present invention, in which 1 is a processing section, 2 is an input section, 3 is an output section, 4 is a dictionary section, and 5 is a syntax rule section, 6 is a constraint section, and 7 is a function relationship section.

入力部2はキーボードなどの入力装置あるいは記憶装置
からの入力を含む。また入力部2は対話による多義の解
消処理時に操作者からの情報を入力する手段でもある。
The input unit 2 includes input from an input device such as a keyboard or a storage device. The input unit 2 also serves as a means for inputting information from the operator during ambiguity resolution processing through dialogue.

出力部3は解析結果あるいは質問内容を操作者に伝える
ためのデイスプレィなどであり、機械翻訳などの場合の
ように構文解析装置を用いたアプリケーションが解析結
果を用いようとする場合も含む。
The output unit 3 is a display or the like for conveying the analysis result or question content to the operator, and includes cases where an application using a syntax analysis device attempts to use the analysis result, such as in the case of machine translation.

第2図(、)〜(c)は、各々辞書り、構文規則R1制
約Cを示すものである。
FIGS. 2(a) to 2(c) show the dictionary and the syntax rule R1 constraint C, respectively.

第2図(a)に示す辞書りの各要素は見出し語、語當範
躊(品詞)、素性リストで表現される。素性リストは素
性のリストで、各素性は(素性名、素性値)の形のペア
である。ここで素性とは語當の持つ性質を抽出したもの
である。
Each element of the dictionary shown in FIG. 2(a) is expressed as a headword, word category (part of speech), and feature list. The feature list is a list of features, and each feature is a pair of the form (feature name, feature value). Here, the feature is the extracted property of the word.

第2図(b)に示す構文規則Rは公知の句構造文法の表
記法を拡張したラベル付きの句構造文法で記述されてい
る。右辺の各要素はラベル付きの非終端記号か、ラベル
なしの非終端記号である。
The syntactic rule R shown in FIG. 2(b) is written in a labeled phrase structure grammar that is an extension of the notation of a known phrase structure grammar. Each element on the right-hand side is either a labeled nonterminal or an unlabeled nonterminal.

R1中の(N P ; case)の場合、NPは非終
端記号でラベルcaseが付加されている。また右辺の
非終端記号で小文字の英字は前終端記号(語當範躊)、
大文字の英字は前終端記号以外の非終端記号である。ま
た構文規則中のラベルは機能名を表す。ここで機能名と
は公知の語業機能文法での用法と同様である。すなわち
R1の記述は語業機能文法における以下のRhoと同じ
である。
In the case of (N P ; case) in R1, NP is a non-terminal symbol and the label case is added. Also, the non-terminal symbol on the right side, the lowercase alphabetic character, is the front terminal symbol (word category),
Uppercase letters are nonterminal symbols other than preterminals. Also, the labels in the syntax rules represent function names. Here, the term "function name" is used in the same manner as in the known language function grammar. That is, the description of R1 is the same as the following Rho in the language function grammar.

第2図(c)に示す制約Cの各要素は機能名とペナルテ
ィ付きのプロダクションルールである。
Each element of constraint C shown in FIG. 2(c) is a production rule with a function name and a penalty.

表記法は、 (機能名:ペナルティ)制約規則 の形式である。ここでペナルティは各制約の持つ文法的
な強さを表す数値であり、その値が大きいほどその制約
が文法的に強い、すなわち、例外が少ないことを意味す
る。各々の制約規則は機能構造中の情報、特に辞書から
の素性を参照している。
The notation is in the form of a (Function name: Penalty) constraint rule. Here, the penalty is a numerical value representing the grammatical strength of each constraint, and the larger the value, the stronger the grammatical constraint is, that is, the fewer exceptions there are. Each constraint rule references information in the functional structure, specifically features from the dictionary.

ここで機能構造とは公知の諸費機能文法での用法と同様
であり1機能名を属性名、機能構造を属性値とする再帰
的なマトリクスである。第6図に機能構造の例を示す。
Here, the functional structure is used in the same manner as in the known overhead function grammar, and is a recursive matrix in which one function name is an attribute name and the functional structure is an attribute value. FIG. 6 shows an example of the functional structure.

第3図は、本発明による自然言語文解析装置の処理部の
フローチャートである。
FIG. 3 is a flowchart of the processing section of the natural language sentence analysis device according to the present invention.

旦肚圭;入力部より「べた書き」の日本語文が入力され
た処理部は、該入力文を形態素のリストに分割する。例
えば、 (aO)彼が公園で遊ぶ が入力文であるとすると、形態素分割の結果は。
Kei Tanfu: The processing unit receives the Japanese sentence “solid writing” from the input unit and divides the input sentence into a list of morphemes. For example, if the input sentence is (aO) He plays in the park, then the result of morpheme segmentation is.

(al)(彼:n)(が:p)(公II : n )(
で:p)(遊ぶ:v) となる。ここで各形態は(見出し語二諸費範ml)の形
式で表現されている。形態素分割においては辞書部から
形態素分割用辞書を抽出して用いる。
(al) (he: n) (ga: p) (Ko II: n) (
So: p) (play: v). Here, each form is expressed in the form (headword 2 miscellaneous expenses range ml). In morpheme segmentation, a dictionary for morpheme segmentation is extracted from the dictionary section and used.

畦旺l;次に、形態素解析後の形態素の列に対して構文
規則部の内容を用いて構成製構造を作成する。ここで構
成製構造とは公知の諸費機能文法での用法と同様であり
、第5図に示すようなラベル付きの木構造である。木構
造に付いているラベルは機能名を表し、構文規則中に記
述されているラベルを構文規則の適用時に参照すること
により得ることができる。
Next, a configuration structure is created using the contents of the syntax rule section for the sequence of morphemes after the morphological analysis. Here, the compositional structure is used in the same way as in the well-known expense function grammar, and is a labeled tree structure as shown in FIG. Labels attached to the tree structure represent function names, and can be obtained by referring to the labels described in the syntax rules when applying the syntax rules.

形態素の列から構成製構造を作成する処理については、
多くの手法が提案されていて公知であるが、ここではボ
トムアップにCKY法により構成する。形態素列から構
成製構造を作成する際に、処理すべき形態素がなくなっ
た時点で、最終状態に達した構成製構造は全て5tep
 2の出力であり、一般に複数解がある。
Regarding the process of creating a compositional structure from a sequence of morphemes,
Although many methods have been proposed and are known, here, the CKY method is used from the bottom up. When creating a compositional structure from a morpheme sequence, when there are no more morphemes to process, all compositional structures that have reached the final state are processed in 5 steps.
2, and there are generally multiple solutions.

ここで最終状態に達したかどうかは文全体に対して作ら
れた構成製構造のルートノードが非終端記号Sであるか
どうかで判断される。
Here, whether the final state has been reached is determined by whether the root node of the compositional structure created for the entire sentence is a non-terminal symbol S.

(al)の形態素列から作成された構成製構造の一つ(
a2)を第5図に示す。
One of the construction structures created from the morpheme sequence of (al) (
a2) is shown in FIG.

% ;前記5tep 2で得られた複数個の構成製構造
の各々から機能構造を作成する。この処理は公知のS索
機能文法における構成製構造から機能構造を作成する処
理にしたがっても良いし、構成製構造でラベルのない子
ノードについては主要語としてエントリ部にブツシュし
、ラベル付きの子ノードについてはそのラベルを属性名
とし子ノードについての機能構造を属性値とするように
再帰的に機能構造を作成しても良い。第5図に示す構成
製構造(a2)から作成された機能構造(a3)を第6
図に示す。この5tep 3では辞書部から機能構造作
用辞書を抽出して用いる。この辞書の内容は辞書りにお
ける素性リストの部分である。構成製構造と機能構造は
一対一で対応するので、5tep 3の出力における機
能構造は複数解がある。
%; A functional structure is created from each of the plurality of constituent structures obtained in step 2 above. This process may follow the process of creating a functional structure from a constituent structure in the well-known S-search functional grammar, or it may be possible to follow the process of creating a functional structure from a constituent structure in a well-known S-search functional grammar, or to write a child node without a label in a constituent structure as a main word in the entry section, and to write it to a labeled child node. For a node, a functional structure may be created recursively by using its label as an attribute name and the functional structure of a child node as an attribute value. The functional structure (a3) created from the component structure (a2) shown in FIG.
As shown in the figure. In this step 3, the functional structure action dictionary is extracted from the dictionary section and used. The contents of this dictionary are part of the feature list in the dictionary. Since there is a one-to-one correspondence between the configuration structure and the functional structure, there are multiple solutions for the functional structure in the output of 5tep 3.

桂吐李;前記機能構造について制約部からの制約と辞書
部からの制約適用用辞書を用いて制約の適用を行なう。
Katsura Tori: Constraints are applied to the functional structure using the constraints from the constraint section and the constraint application dictionary from the dictionary section.

制約適用の手順は以下の通りである。The procedure for applying constraints is as follows.

■機能構造中の全機能について、各機能でインデクスさ
れる制約を全て適用し、満たされなかった制約について
はその制約の持つペナルティを加算する。またこの時、
ペナルティが十分に大きい機能構造については解析失敗
として以後の解析を行なわない。
■For all functions in the functional structure, all constraints indexed by each function are applied, and for constraints that are not satisfied, the penalty of that constraint is added. At this time again,
Functional structures for which the penalty is sufficiently large are treated as analysis failures and no further analysis is performed.

■制約適用の終了した機能については、機能関係部を参
照して、その機能の子の機能に変更する。このときの子
の機能が複数個ある場合は機能構造を複数個にコピーす
る。
■For a function to which constraints have been applied, refer to the function-related section and change it to a child function of that function. If there are multiple child functions at this time, the functional structure is copied to multiple functions.

■変更された機能名について上記■、■をさらに行なう
。この■、■、■を機能名の変更ができなくなるまで続
ける。
■Repeat steps (2) and (2) above for the changed function name. Continue these ■, ■, and ■ until the function name cannot be changed.

上記の■〜■を′M&能構造の再帰的構造について再帰
的に行なう。ここで各制約には制約Cに示すように機能
名、ペナルティが付いているので参照は容易である。ま
た機能関係部では機能名を第4図に示すように木構造で
管理されているので、各機能を子の機能に変更するのは
容易である。
The above steps (1) to (2) are performed recursively for the recursive structure of the 'M&N structure. Here, each constraint has a function name and a penalty as shown in constraint C, so it is easy to refer to. Furthermore, since the function names are managed in a tree structure as shown in FIG. 4 in the function-related section, it is easy to change each function to a child function.

前記5tep 4における処理の例を第6図に示す機能
構造(C3)について実行する。文節「公園で」に相当
する機能名は、最初は構文規則R1によって与えられた
caseである。このCa5e機能について、前記■に
したがって制約COが適用されるが、親の機能構造にお
ける主要語は「遊ぶ」という用言であるので満たされて
いる。次に前記■にしたがってcase機能がその子の
機能である5ubj、 obj、obj2゜oblに変
更される。この場合、子の機能は複数個あるのでその各
々に対応するように機能構造はコピーされる。例として
5ubj機能に変更された場合は、次に5ubj機能に
ついて、前記・工にしたがって制約01〜c4が適用さ
れる。この中でC3については5ubj格中の格マーカ
ー素性の値は「で」であるので満たされていない。した
がってこの機能構造はペナルティ200を加算されるが
、このペナルティは十分に大きいので「公園で」が5u
bj格となるこの機能構造は解析失敗となり、以後の解
析は行なわない。一方、 case機能がob1機能に
変更された機能構造については制約c5、C6が適用さ
れるがいずれも満たされているためペナルティは0で、
前記■でさらに機能名の変更を受ける。以上の処理を文
節「彼が」についても行い、最終的に得られた機能構造
の一例を第7図に示す。この機能構造のペナルティはO
である。前記5tep 4での処理は一つの機能構造に
ついて複数個の機能構造を作成する。前記5tep 4
への久方は複数個の機能構造であるので5tep 4の
出力は第7図に示すような機能構造が複数個となり、各
々の機能構造はペナルティが計算されている。
An example of the processing in step 4 is executed for the functional structure (C3) shown in FIG. The function name corresponding to the phrase "in the park" is initially a case given by the syntax rule R1. Regarding this Ca5e function, constraint CO is applied according to the above-mentioned item (2), but it is satisfied because the main word in the parent functional structure is the term "play". Next, the case function is changed to its child functions 5ubj, obj, obj2°obl according to the above item (2). In this case, since there are multiple child functions, the functional structure is copied to correspond to each child function. For example, when the function is changed to 5ubj, constraints 01 to c4 are applied to the 5ubj function according to the above-mentioned section. Among these, C3 is not satisfied because the value of the case marker feature in the 5ubj case is "de". Therefore, a penalty of 200 is added to this functional structure, but this penalty is sufficiently large that "in the park" is 5u.
This functional structure, which has a bj case, results in an analysis failure and no further analysis is performed. On the other hand, constraints c5 and C6 are applied to the functional structure where the case function is changed to the ob1 function, but since both are satisfied, the penalty is 0.
The function name is further changed in step (■) above. The above process is also performed for the phrase "he", and an example of the finally obtained functional structure is shown in FIG. The penalty for this functional structure is O
It is. The process in step 4 creates a plurality of functional structures for one functional structure. Said 5tep 4
Since there are a plurality of functional structures in the distance, the output of 5tep 4 is a plurality of functional structures as shown in FIG. 7, and a penalty has been calculated for each functional structure.

旦弘旦;前記ペナルティをもとに機能構造の選択を行な
う。具体的にはペナルティの十分に低い機能構造をひと
つあるいは複数個選択する。
Dan: The functional structure is selected based on the penalty. Specifically, one or more functional structures with sufficiently low penalties are selected.

(aO)のようなあいまいさのない文については5te
p 5で選択される機能構造は第7図に示すひとつしか
なく(ペナルティo)、そのため対話による多義の解消
処理は必要がなく、次の5tep 6は何もしない。
5te for unambiguous sentences like (aO)
There is only one functional structure selected in step 5 (penalty o) as shown in FIG. 7, so there is no need to perform ambiguity resolution processing through dialogue, and nothing is done in the next step 5.

廷肛旦;最後に対話による多義の解消の処理後の機能構
造を解析結果として出方部に出方する。
Finally, the functional structure after the process of eliminating ambiguity through dialogue is presented in the output section as an analysis result.

(al)の例文については第7図に示す機能構造が出力
される。
For the example sentence (al), the functional structure shown in FIG. 7 is output.

以上は「彼が公園で遊ぶ」というあいまいさのない入力
文についてであった。しかし。
The above was about the unambiguous input sentence ``He plays in the park.'' but.

(bO)きのう買った本を読んだ については、前述のように「きのう」が「買った」に係
るのか「読んだ」に係るのががあいまいである。「きの
う」が「買った」に係った構成素構造を第8図に示す。
(bO) As for "I read the book I bought yesterday," as mentioned above, it is unclear whether "yesterday" relates to "bought" or "read." Figure 8 shows the constituent structure of ``yesterday'' related to ``bought''.

第8図中で機能rentai#objは機能renta
iの子の機能であり、機能rentaiは連体修飾節(
埋込文)を、機能rentai#objはその中でも被
修飾筒中の目的格と一致することを意味する。この例で
は1本」は「買った」の目的格であるという意味である
。第8図の梼成素構造から作成された機能構造を第9図
(bl)に示す。さて(bO)は「きのう」の係り先が
あいまいであったため、第7図に示す処理後の機能構造
は第9図に示すものと第10図に示すもの(b2)との
二つが得られる(各々のペナルティはO)。ここで第1
0図では簡単のため素性を省略して書いである。二つの
機能構造の相違点が「きのう」の機能構造中の位置であ
ることが分かる。
In Figure 8, the function rentai#obj is the function renta.
It is a child function of i, and the function rentai is an adnominal modification clause (
(embedded sentence), the function rentai#obj means that it matches the objective case in the modified cylinder. In this example, ``1 book'' means that it is the objective case of ``bought.'' A functional structure created from the assembled element structure of FIG. 8 is shown in FIG. 9 (bl). Now, in (bO), the dependency of "yesterday" was ambiguous, so the functional structure after processing shown in Fig. 7 is obtained as shown in Fig. 9 and that shown in Fig. 10 (b2). (Each penalty is O). Here the first
In Figure 0, the features are omitted for simplicity. It can be seen that the difference between the two functional structures is the position of ``yesterday'' in the functional structure.

第11図は、対話による多義の解消処理についてのフロ
ーチャートである。以下、各ステップに従って順に説明
する。
FIG. 11 is a flowchart of ambiguity resolution processing through dialogue. Below, each step will be explained in order.

扛肛上立;第3図の5tep 6で対話による多義の解
消を行なうのは機能構造が複数個ある場合である。その
場合多機能構造について構造表現ベクタを求める。これ
は(bl)については、(b3)ペナルティ=O (2adv 4 rentai#obj 4 rent
ai#obj6 obj 6 obj Ohead 0
head )(b2)については (b4)ペナルティ=0 (6adv 4 rentai#obj 4 rent
ai#obj6 obj 6 obj Ohead 0
head )となる。ここで各ベクタについてその奇数
番目の要素は前から順に各形態素の修飾光の形態素番号
を表す。例えば上記(b3)の最初の「2」は形態素「
きのう」が2番目の形態素「買う」を修飾していること
を表す。またrQJは修飾する形態素が存在しないこと
を表す。各ベクタの偶数番目の要素は前から順に各形態
素の文における役割を表す。ここで文における「役割」
とは機能名で表現している。上記(b3)の二番目の要
素であるradvJは形態素「きのう」の機能名がra
dν」であることを表す。ここで各構造表現ベクタは辞
書の情報を用いて機能構造を復元するに足る、すなわち
機能構造を十分に表現している。言い替えれば機能構造
の違いは構造表現ベクタを比べれば分かるのである。上
記例の(b3)と(b4)では「きのう」の係り先が「
買う」か「読む」かの違いであることがすぐに分かる。
In case there are multiple functional structures, ambiguity is resolved through dialogue in Step 5 of Figure 3. In that case, a structure representation vector is obtained for the multifunctional structure. This means that for (bl), (b3) penalty = O (2adv 4 rentai#obj 4 rent
ai#obj6 obj 6 obj Ohead 0
head ) For (b2), (b4) penalty = 0 (6adv 4 rentai#obj 4 rent
ai#obj6 obj 6 obj Ohead 0
head). Here, the odd-numbered elements of each vector represent the morpheme number of the modifier light of each morpheme in order from the front. For example, the first “2” in (b3) above is the morpheme “
This indicates that ``yesterday'' modifies the second morpheme ``buy''. Furthermore, rQJ indicates that there is no modifying morpheme. The even-numbered elements of each vector represent the role of each morpheme in the sentence in order from the front. Here the "role" in the sentence
is expressed as a function name. The second element in (b3) above, radvJ, has the functional name of the morpheme "yesterday" as ra
dν". Here, each structure representation vector is sufficient to restore the functional structure using dictionary information, that is, it sufficiently represents the functional structure. In other words, differences in functional structure can be seen by comparing the structure expression vectors. In (b3) and (b4) of the above example, "yesterday" is related to "
You will soon realize that there is a difference between "buying" and "reading".

旦ヨ1」5機能構造は複数個あるので構造表現ベクタは
複数側基められる。以後対話によって得た情報をもとに
このベクタを一つに絞る。
Since there are multiple functional structures, the structure representation vector is based on multiple sides. From now on, we will narrow down this vector to one based on the information obtained through dialogue.

一つに絞られた場合は5tep15で構造表現ベクタに
相当する機能構造を出力する。
If the number is narrowed down to one, a functional structure corresponding to the structure expression vector is output in step 515.

mよ」工;構造表現ベクタが複数個ある場合、構造表現
ベクタの集合から最もバラツキの大きい列を求める。上
記例では第1要素以外は同じであるので第1番目の列で
あることが分かる。
If there are multiple structure expression vectors, find the sequence with the largest variation from the set of structure expression vectors. In the above example, the elements other than the first element are the same, so it can be seen that it is the first column.

7:前記5tep12で求めた列を操作者に問う。上記
例では。
7: Ask the operator about the column found in step 12 above. In the example above.

(b5)rきのう」の係り先は何ですか?あるいは。(b5) Who is responsible for "r yesterday"? or.

(b6)rきのう」の係り先は「買う」と「読む」のど
ちらですか? と聞けば良い。
(b6) Is "r yesterday" related to "buying" or "reading"? Just ask.

廷ユ上↓;前記5tep13で得た問いの答えに合う構
造表現ベクタだけを残し、他のベクタは解析失敗とする
。(b5)あるいは(b6)の問いの答えが「買う」で
あった場合、構造表現ベクタ(b4)だけを残す。
Only the structure expression vectors that match the answer to the question obtained in step 5 above are retained, and the other vectors are treated as failures in analysis. If the answer to question (b5) or (b6) is "buy," only the structure expression vector (b4) is left.

扛肚上l;前記5tep14の時点で構造表現ベクタは
一つに絞られたので、構造表現ベクタに相当する機能構
造(bl)を出力する。
扛肚上I: Since the structure expression vector has been narrowed down to one at the time of step 14, the functional structure (bl) corresponding to the structure expression vector is output.

羞−一果 以上の説明から明らなように1本発明によると。Shyness According to one aspect of the present invention, as is clear from the above description.

以下のような効果がある。It has the following effects.

(1)対象言語の知識を必要としないので1例えば日本
人を操作者とする日英機械翻訳システムなどに応用でき
る。
(1) Since knowledge of the target language is not required, it can be applied to, for example, a Japanese-English machine translation system operated by a Japanese person.

(2)操作者が加えるべき情報は多義を解消するのに必
要十分なものであるので、むだな情報を加える必要がな
く、またその質問の順番も最も効率の良いものであり、
操作者の負担を軽減できる。
(2) The information that the operator should add is necessary and sufficient to eliminate ambiguity, so there is no need to add unnecessary information, and the order of questions is the most efficient.
The burden on the operator can be reduced.

(3)操作者が加えるべき情報の内容が判り易いので、
質問内容は入力文に関する係り受けに関するものや、構
文要素の役割に関するものであり、解析構造を示すとい
った操作者に分かりにくいインターフェースを排除する
ことができる。
(3) The content of the information that the operator should add is easy to understand, so
The content of the questions is related to dependencies regarding input sentences and the roles of syntactic elements, and it is possible to eliminate interfaces that are difficult for the operator to understand, such as showing analysis structures.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は1本発明による自然言語文解析装置の一実施例
を説明するための構成図、第2図は、辞書、構文規則、
制約を示す図、第3図は、本発明による自然言語文解析
装置の処理部のフローチャート、第4図は、機能関係部
の内容を示す図、第5図は、構成素構造を示す図、第6
図、第7図は、機能構造を示す図、第8図は、他の構成
素構造を示す図、第9図、第10図は、他の機能構造を
示す図、第11図は、対話による多義の解消処理のフロ
ーチャートを示す図である。 1・・・処理部、2・・・入力部、3・・・出力部、4
・・・辞書部、 訃 構文規則部、 6・・・制約部、 7・・機能関係 部。
FIG. 1 is a block diagram for explaining an embodiment of a natural language sentence analysis device according to the present invention, and FIG. 2 shows a dictionary, syntax rules,
3 is a flowchart of the processing section of the natural language sentence analysis device according to the present invention; FIG. 4 is a diagram showing the contents of the functional relationship section; FIG. 5 is a diagram showing the constituent structure; 6th
7 is a diagram showing the functional structure, FIG. 8 is a diagram showing other component structures, FIGS. 9 and 10 are diagrams showing other functional structures, and FIG. 11 is a diagram showing dialogue. It is a figure which shows the flowchart of the ambiguity resolution process by. 1... Processing section, 2... Input section, 3... Output section, 4
... Dictionary section, syntax rule section, 6. Constraint section, 7. Functional relation section.

Claims (1)

【特許請求の範囲】[Claims] 1、自然言語文を入力する入力部と、該入力部からの入
力文を辞書部の形態素分割用辞書を用いて形態素分割し
、該形態素分割されたものに対して、構文規則部の内容
を用いて複数の構成素構造を作成し、該構成素構造の各
々から機能構造を作成し、該機能構造を作成するに際し
ては、制約部からの制約と前記辞書部の制約適用用辞書
を用いて制約の適用を行い、その後対話による多義の解
消処理を行なう処理部と、該処理部による解析結果を出
力する出力部とから成り、自然言語文の解析構造から該
解析構造を他の解析構造と区別する一つあるいは複数の
情報を抽出し、該情報のうち一つあるいは複数を対話形
式で行うことを特徴とする自然言語文解析装置。
1. An input section for inputting natural language sentences, and a morpheme segmentation of the input sentence from the input section using a morpheme segmentation dictionary in the dictionary section, and the content of the syntax rule section for the morpheme segmentation. A plurality of constituent structures are created using the above-mentioned constituent structures, and a functional structure is created from each of the constituent structures, and when creating the functional structure, constraints from the constraint section and a dictionary for constraint application of the dictionary section are used. It consists of a processing section that applies constraints and then performs ambiguity resolution processing through dialogue, and an output section that outputs the analysis results of the processing section. A natural language sentence analysis device characterized by extracting one or more pieces of distinguishing information and performing one or more of the pieces of information in an interactive format.
JP2115398A 1990-05-01 1990-05-01 Analyzing device for natural language sentence Pending JPH0415750A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2115398A JPH0415750A (en) 1990-05-01 1990-05-01 Analyzing device for natural language sentence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2115398A JPH0415750A (en) 1990-05-01 1990-05-01 Analyzing device for natural language sentence

Publications (1)

Publication Number Publication Date
JPH0415750A true JPH0415750A (en) 1992-01-21

Family

ID=14661581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2115398A Pending JPH0415750A (en) 1990-05-01 1990-05-01 Analyzing device for natural language sentence

Country Status (1)

Country Link
JP (1) JPH0415750A (en)

Similar Documents

Publication Publication Date Title
JPH02187857A (en) Processing of natural language text
ITUD20000228A1 (en) SYSTEM AND METHOD OF AUTOMATIC OR SEMI-AUTOMATIC TRANSLATION WITH POSTEDITATION FOR THE CORRECTION OF ERRORS
JPS62163173A (en) Mechanical translating device
Roche Parsing with finite-state transducers
Ouersighni A major offshoot of the DIINAR-MBC project: AraParse, a morphosyntactic analyzer for unvowelled Arabic texts
JPH08292955A (en) Language processing method and data processor applying the same
US8489384B2 (en) Automatic translation method
Abu Bakar et al. NUWT: Jawi-specific Buckwalter corpus for Malays word tokenization
Curto Automatic generation of multiple-choice tests Geraçao automatica de testes de escolha m ultipla
Dolatian et al. A free/open-source morphological transducer for western armenian
JPS59140582A (en) Natural language translation assisting system
JPH0415750A (en) Analyzing device for natural language sentence
JP3300142B2 (en) Natural language processor
Kempen et al. Author environments: Fifth generation text processors
Rahman et al. Dense word representation utilization in Indonesian dependency parsing
JPH04174070A (en) Natural language sentence analyzing device
Planas et al. Formalizing translation memory
JPH05298355A (en) Natural language sentence analyzer
Dash et al. Morphological Processing of Words
JP2655703B2 (en) Japanese sentence elaboration processing method
Balkan et al. Corpus-based test suite generation
Voegelin Typology of density ranges II: Contrastive and non-contrastive syntax
JP2650099B2 (en) Document extraction device
JPH04112366A (en) Natural language sentence analyzing device
JPH0258115A (en) Interactive device