JP2796690B2 - Example-driven natural language analyzer - Google Patents

Example-driven natural language analyzer

Info

Publication number
JP2796690B2
JP2796690B2 JP5122442A JP12244293A JP2796690B2 JP 2796690 B2 JP2796690 B2 JP 2796690B2 JP 5122442 A JP5122442 A JP 5122442A JP 12244293 A JP12244293 A JP 12244293A JP 2796690 B2 JP2796690 B2 JP 2796690B2
Authority
JP
Japan
Prior art keywords
input
partial
likelihood
distance
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5122442A
Other languages
Japanese (ja)
Other versions
JPH06332940A (en
Inventor
英一郎 隅田
蔵 古瀬
仁 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EI TEI AARU JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
EI TEI AARU JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EI TEI AARU JIDO HONYAKU DENWA KENKYUSHO KK filed Critical EI TEI AARU JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5122442A priority Critical patent/JP2796690B2/en
Publication of JPH06332940A publication Critical patent/JPH06332940A/en
Application granted granted Critical
Publication of JP2796690B2 publication Critical patent/JP2796690B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は用例主導型自然言語解
析装置に関し、特に、機械翻訳システム,情報検索シス
テム,質問応答システムなどで用いられ、曖昧な文に対
して最適な構造を簡易な方法により高い精度で選べるよ
うな用例主導型自然言語解析装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an example-driven natural language analyzing apparatus, and more particularly to a simple method for use in a machine translation system, an information retrieval system, a question answering system, etc., which can optimize an optimal structure for ambiguous sentences. The present invention relates to an example-driven natural language analyzer that can be selected with higher accuracy.

【0002】[0002]

【従来の技術】計算機による言語処理システムは、ます
ますその需要が高まり、研究開発が盛んに行なわれてい
る。最近では、機械翻訳システムは情報検索システムや
質問応答システムなどの多様な分野で商品化も行なわれ
るようになってきた。
2. Description of the Related Art The demand for computer-based language processing systems has been increasing, and research and development have been actively conducted. Recently, machine translation systems have been commercialized in various fields such as information retrieval systems and question answering systems.

【0003】[0003]

【発明が解決しようとする課題】計算機による言語処理
システムの必須要素である言語解析装置には、従来、共
通の大きな問題点があった。すなわち、曖昧な文に対し
て最適な構造を高い精度で選べないことである。たとえ
ば、前置詞句の係り先は、構造的曖昧性を引起こす典型
的な例である。
The language analyzer, which is an essential element of a computer-based language processing system, has conventionally had a large common problem. That is, it is not possible to select an optimal structure with high accuracy for an ambiguous sentence. For example, the involvement of a prepositional phrase is a typical example of causing structural ambiguity.

【0004】 I present a paper at the conferenc
e. この例文の前置詞句「at the conference 」は、動詞
「present 」,名詞「a paper 」の両方を修飾し得る。
一般に、前置詞句の係り先は、文法規則による従来の解
析装置では一意に決定することが困難である。計算機処
理では、ある前置詞の係り先が複数可能な場合でも、人
間は、通常、係り先の尤もらしさを判定できる。この例
では、前者の方が自然な係り先である。
[0004] I present a paper at the conferenc
e. The preposition phrase "at the conference" in this example sentence can modify both the verb "present" and the noun "a paper".
In general, it is difficult to uniquely determine the destination of a prepositional phrase using a conventional analyzer based on grammar rules. In the computer processing, even when a plurality of destinations of a given preposition are possible, a human can usually determine the likelihood of the destination. In this example, the former is a more natural participant.

【0005】現在広く行なわれている手法は、文法規則
や辞書に意味マーカなどを用いて、係り先の優先情報を
指定する方法である。しかし、この手法では、動詞の必
須格は別として、動詞の自由格(たとえば上述の前置詞
句「at the conference 」)や前置詞句が名詞に係る場
合を扱えない。
[0005] A method widely used at present is a method of designating priority information of a destination using a semantic marker or the like in a grammar rule or a dictionary. However, this method cannot deal with the case of the verb being free (for example, the above-mentioned preposition phrase "at the conference") or the case where the preposition phrase relates to a noun, aside from the essential case of the verb.

【0006】一方、近年では、確率文法が盛んに研究さ
れている。この手法は、文法規則適用の最適化をするの
で、前置詞句の曖昧性解消を行なうためには、単語に近
いレベルの細かい文法規則を与える必要がある。このよ
うな細かい文法規則を記述することは容易ではない。さ
らに、もし記述できたとしても、最適化のための学習時
間が膨大になる(計算量は文法のサイズをGとするとO
(G3 )である)。
On the other hand, in recent years, stochastic grammars have been actively studied. Since this method optimizes the application of grammar rules, it is necessary to provide fine grammar rules at a level close to a word in order to resolve the ambiguity of prepositional phrases. It is not easy to describe such detailed grammar rules. Furthermore, even if it can be described, the learning time for optimization is enormous (the amount of computation is O if the size of the grammar is G).
(G 3 )).

【0007】構造的な曖昧性の解消に世界知識,ディス
コースモデルを使う手法がある。しかし、この手法に
は、知識作成の困難さ,処理の重さなどの問題があり、
現実の文章を処理できるものは存在しない。
There is a method using world knowledge and a discourse model for resolving structural ambiguity. However, this method has problems such as difficulty in creating knowledge and weight of processing.
Nothing can handle real text.

【0008】それゆえに、この発明の主たる目的は、曖
昧な文に対して最適な構造を簡易な方法により高い精度
で選べるような用例主導型自然言語解析装置を提供する
ことである。
SUMMARY OF THE INVENTION Therefore, a main object of the present invention is to provide an example-driven natural language analyzer capable of selecting an optimum structure for an ambiguous sentence with high accuracy by a simple method.

【0009】[0009]

【課題を解決するための手段】請求項1に係る発明は、
自然言語の文を入力する入力手段と、入力された入力文
を入力部分構造に写像する解析手段と、入力された自然
言語文の全体を調べて頻繁に出現する用例部分構造を記
憶する用例記憶手段と、意味の類似性に基づいて単語を
予め木の形に整理し、単語の意味概念に従って単語間意
味距離を求めるためのシソーラスと、写像された入力構
造に基づいて、入力部分構造および用例部分構造に含ま
れる単語のシソーラスに従って計算される意味距離に基
づく部分構造間意味距離を求め、その部分構造間意味距
離が最小になる用例部分構造を検索し、部分構造間意味
距離が最小になる用例部分構造の出現する頻度を計算
し、計算した部分構造間意味距離と頻度とを部分尤度と
して出力する尤度計算手段と、計算された部分構造間距
離と頻度とからなる部分尤度に従って、最も確からしさ
を示す最尤の入力構造を選択する選択手段と、選択され
た最尤の構造を出力する出力手段を備えて構成される。
The invention according to claim 1 is
Input means for inputting a sentence of a natural language, analysis means for mapping the input sentence to an input substructure, and example storage for examining the entire input natural language sentence and storing frequently occurring example substructures Means, a thesaurus for prearranging words in the form of a tree based on the similarity of meaning, and obtaining a meaning distance between words in accordance with the meaning concept of the word, and an input partial structure and an example based on the mapped input structure Find the semantic distance between substructures based on the semantic distance calculated according to the thesaurus of words included in the substructures, search for an example substructure that minimizes the semantic distance between the substructures, and minimize the semantic distance between the substructures The likelihood calculating means for calculating the frequency of appearance of the example substructures and outputting the calculated semantic distance between the substructures and the frequency as the partial likelihood, and the calculated distance between the substructures and the frequency In accordance with the divided likelihood configured to include selecting means for selecting the input structure of the maximum likelihood indicating the most certainty, output means for outputting the structure of the maximum likelihood chosen.

【0010】[0010]

【0011】[0011]

【0012】[0012]

【0013】[0013]

【0014】[0014]

【0015】[0015]

【0016】[0016]

【作用】この発明に係る用例主導型自然言語解析装置
は、入力手段から自然言語の文を入力し、解析手段によ
って入力文を入力構造に写像する。入力された自然言語
文の全体を調べて頻繁に出現する用例の部分構造を記憶
しておき、写像された入力構造に基づいてシソーラスか
ら単語間意味距離を求め、その単語間意味距離が最小に
なる用例部分構造を検索し、部分構造間意味距離が最小
になる用例部分構造の出現する頻度を計算し、構造の確
からしさを決定する尤度を求め、その尤度に従って最も
確からしさを示す最尤の入力構造を選択して出力するこ
とにより、曖昧な文に対して最適な構造を高い精度で選
択することができる。
In the example-driven natural language analysis apparatus according to the present invention, a sentence of a natural language is input from input means, and the input sentence is mapped to an input structure by the analysis means. By examining the entire input natural language sentence and storing the substructures of frequently occurring examples, the inter-word semantic distance is obtained from the thesaurus based on the mapped input structure, and the inter-word semantic distance is minimized. Search for the example substructure, calculate the frequency of occurrence of the example substructure that minimizes the semantic distance between the substructures, find the likelihood for determining the likelihood of the structure, and determine the likelihood that indicates the most certainty according to the likelihood. By selecting and outputting the input structure of the likelihood, it is possible to select an optimum structure for an ambiguous sentence with high accuracy.

【0017】[0017]

【実施例】以下の説明では、この発明を英語の解析に適
用した2つの実施例について示す。ここでは、特に、前
置詞の係り受けを扱うが、この発明は用例を収集すれ
ば、他の構造的な曖昧性、たとえば、to−不定詞,関
係節,従属節などの係り受けにも有効である。
DESCRIPTION OF THE PREFERRED EMBODIMENTS In the following description, two embodiments in which the present invention is applied to the analysis of English will be described. Here, in particular, we deal with the dependency of prepositions. However, the present invention is effective in collecting other structural ambiguities, for example, to-infinitives, relative clauses, subordinate clauses, etc. is there.

【0018】説明を簡単にするために、前述の例文の
前置詞句「at the conference 」の尤もらしい係り先
が、動詞「present 」,名詞「a paper 」のいずれであ
るかを決定する問題を例として扱う。
For simplicity, the problem of deciding whether the plausible part of the preposition phrase "at the conference" in the above example sentence is the verb "present" or the noun "a paper" will be described. Treat as

【0019】図1はこの発明の一実施例の概略ブロック
図であり、図2は図1に示した尤度計算部の具体例を示
す図である。
FIG. 1 is a schematic block diagram of one embodiment of the present invention, and FIG. 2 is a diagram showing a specific example of the likelihood calculating section shown in FIG.

【0020】まず、入力部1はキーボードや文字認識装
置や音声認識装置などからなり、文を入力しかつ同時に
その文を単語分割して各単語に品詞などの情報を辞書に
従って付与し解析部2に与える。解析部2は従来の構文
解析やパターンマッチングによる手法などで、入力に対
する可能な構造(入力構造)を生成する。尤度計算部3
は、図2に示すように、用例記憶部6とシソーラス7と
を含み、入力構造のそれぞれの尤度を計算する。この尤
度計算部3はこの発明の特徴部分であり、後で詳細に説
明する。選択部4は尤度計算部3で計算された尤度と木
構造から最尤の構造を選択するものであり、その選択し
た最尤の構造を出力部5に出力する。出力部5は表示装
置や印刷装置等からなる。なお、この実施例において用
いられる尤度,複合尤度,最尤は構造の確からしさを決
定するために定義されたものである。
First, the input unit 1 includes a keyboard, a character recognition device, a voice recognition device, and the like. The input unit 1 inputs a sentence, divides the sentence into words at the same time, and gives information such as part of speech to each word according to a dictionary. Give to. The analysis unit 2 generates a possible structure for the input (input structure) by a conventional syntax analysis or a method based on pattern matching. Likelihood calculator 3
Includes an example storage unit 6 and a thesaurus 7, as shown in FIG. 2, and calculates the likelihood of each of the input structures. The likelihood calculating section 3 is a feature of the present invention, and will be described later in detail. The selection unit 4 selects the maximum likelihood structure from the likelihood calculated by the likelihood calculation unit 3 and the tree structure, and outputs the selected maximum likelihood structure to the output unit 5. The output unit 5 includes a display device, a printing device, and the like. Note that the likelihood, composite likelihood, and maximum likelihood used in this embodiment are defined for determining the certainty of the structure.

【0021】前述の尤度計算部3は、入力構造の各部分
構造毎に計算する部分尤度に基づいて全体の尤度を計算
する。部分尤度は、入力部分構造との部分構造間意味距
離(実数値)が最小になる用例部分構造を用例記憶部6
から検索し、その部分構造間意味距離と検索された用例
部分構造の個数(頻度)とからなる。部分構造間意味距
離は、入力部分構造,用例部分構造に含まれる単語のシ
ソーラス7に従って計算される単語間意味距離に基づい
て決定する。ここで、部分尤度決定について詳細に説明
する。
The above-mentioned likelihood calculating section 3 calculates the overall likelihood based on the partial likelihood calculated for each partial structure of the input structure. The partial likelihood is obtained by storing the example partial structure in which the meaningful distance (real value) between the partial structures with the input partial structure is the smallest, in the example storage unit 6.
, And the number (frequency) of the searched example partial structures. The inter-substructure semantic distance is determined based on the inter-word semantic distance calculated according to the thesaurus 7 of the words included in the input sub-structure and the example sub-structure. Here, the partial likelihood determination will be described in detail.

【0022】図3は例文の曖昧な係り先に対応する2
つの入力構造を示したものであり、ここでは説明を簡略
化するために、依存構造表現と呼ばれるのもので表わ
す。図3(a)は動詞「present 」に係る場合に対応
し、図3(b)は「名詞「paper」に係る場合に対応
し、太線で係り受けを示している。尤度計算部3ではこ
の2つの可能性、すなわち、「present 、at、the conf
erence」,「a paper 、at、、the conference」の尤度
を計算する。その際に図2に示した用例記憶部6とシソ
ーラス7の2つを参照する。用例記憶部6は部分構造を
キーとしてアクセスできるように構成されており、ここ
で説明している前置詞の場合は、部分構造は動詞(ある
いは名詞)・前置詞・名詞からなる3つ組である。
FIG. 3 shows an example sentence 2 corresponding to an ambiguous destination.
One input structure is shown here, and for the sake of simplicity, it is represented by what is called a dependent structure expression. FIG. 3A corresponds to the case related to the verb “present”, and FIG. 3B corresponds to the case related to “noun“ paper ”, and the dependency is indicated by a thick line. The likelihood calculation unit 3 uses these two possibilities, namely, “present, at, the conf”
erence "," a paper, at, the conference ". At this time, the example storage unit 6 and the thesaurus 7 shown in FIG. 2 are referred to. The example storage unit 6 is configured to be able to access using the partial structure as a key. In the case of the preposition described here, the partial structure is a triple set consisting of a verb (or a noun), a preposition, and a noun.

【0023】図4は用例記憶部の一例を示す図であり、
特に、図4(a)は動詞に係る場合を示し、図4(b)
は名詞に係る場合を示している。図5はシソーラスの一
部と単語間の意味距離計算を説明するための図である。
FIG. 4 is a diagram showing an example of the example storage unit.
In particular, FIG. 4A shows a case relating to a verb, and FIG.
Indicates a case relating to a noun. FIG. 5 is a diagram for explaining the calculation of the semantic distance between a part of the thesaurus and a word.

【0024】シソーラス7は、単語を共通の意味概念に
従って体系化した辞書のことである。この一部を図5に
示している。単語間意味距離はシソーラス7を使って計
算する。この方法では、単語間意味距離をシソーラス7
上の概念間意味距離によって定義する。概念間意味距離
はシソーラス7における最小の共通上位概念の位置に従
って0から1までの値にする。値0は2つの概念が同じ
であることを意味し、値1は無関係であることを意味す
る。階層数(n+1)なら下から、0,1/n,2/
n,…,1を距離として割当てる。図5のシソーラス7
は(3+1)階層で0,1/3,2/3,1を割当て
る。たとえば、『人間』,『猿』の2つの概念の最小の
共通上位概念は『動物』であり、距離は1/3となる。
したがって、概念『人間』を持つ単語「彼女」と、概念
『猿』を持つ単語「チンパンジー」の距離は1/3とな
る。図5において、d(x,y)は単語(あるいは概
念)x,yの間の意味距離を表わす。
The thesaurus 7 is a dictionary in which words are systematized according to a common semantic concept. A part of this is shown in FIG. The meaning distance between words is calculated using the thesaurus 7. In this method, the inter-word semantic distance is calculated using the thesaurus 7
It is defined by the above semantic distance between concepts. The concept meaning distance is set to a value from 0 to 1 according to the position of the smallest common superordinate concept in the thesaurus 7. A value of 0 means that the two concepts are the same, and a value of 1 means that they are irrelevant. If the number of layers is (n + 1), from the bottom, 0, 1 / n, 2 /
.., 1 are assigned as distances. Thesaurus 7 in FIG.
Assigns 0, 1/3, 2/3, and 1 in the (3 + 1) hierarchy. For example, the smallest common superordinate concept between the two concepts "human" and "monkey" is "animal", and the distance is 1/3.
Therefore, the distance between the word "she" having the concept "human" and the word "chimpanzee" having the concept "monkey" is 1/3. In FIG. 5, d (x, y) represents a semantic distance between words (or concepts) x and y.

【0025】部分構造間意味距離は、各単語の距離に重
みをかけたものの総和として計算する。入力部分構造I
と用例部分構造Eがそれぞれn個の単語Ik とEk の列
からなるとすると、部分構造間意味距離d(I,E)は
次式で計算される。
The semantic distance between partial structures is calculated as the sum of weights of distances between words. Input partial structure I
Assuming that the partial structure E is composed of columns of n words I k and E k , respectively, the meaning distance d (I, E) between the partial structures is calculated by the following equation.

【0026】[0026]

【数1】 (Equation 1)

【0027】重みwk は正解率が高くなるように調整す
る必要があるが、ここでは簡単のためにwk =1とす
る。
Although it is necessary to adjust the weight w k so as to increase the accuracy rate, it is assumed here that w k = 1 for simplicity.

【0028】次に、入力構造全体の尤度について説明す
る。ここでは、まず、入力文中に前置詞句が1つしかな
い単純な場合を考えると、構造全体の尤度と部分尤度と
が一致する。選択部4がこの比較を行なう。
Next, the likelihood of the entire input structure will be described. Here, first, considering a simple case where there is only one preposition phrase in the input sentence, the likelihood of the entire structure and the partial likelihood match. The selector 4 makes this comparison.

【0029】次に、具体的な処理について説明する。係
り先の候補数をnとし、係り先の候補(動詞または名
詞)をxi (1<=i<=n)とし、前置詞をpとし、
pの目的語(名詞)をyとする。問題は入力「x1
…,xn ,p,y」に対して「p,y」の最尤の係り先
「xk 」を選ぶことである。例文では、入力は「pres
ent ,a paper ,at,the conference」であり、正解は
「present 」である。 [処理手順] (ステップ1) 次の処理を繰返す(1<=i<=
n)。
Next, specific processing will be described. The number of candidate candidates is n, the candidate (verb or noun) is x i (1 <= i <= n), the preposition is p,
The object (noun) of p is y. Problem input "x 1,
, X n , p, y ”is to select the maximum likelihood destination“ x k ”of“ p, y ”. In the example sentence, the input is "pres
ent, a paper, at, the conference ”, and the correct answer is“ present ”. [Processing Procedure] (Step 1) The following processing is repeated (1 <= i <=
n).

【0030】「xp y」との部分構造間意味距離を
前述の第(1)式に従って計算し、最小距離の用例部分
構造を用例記憶部6から検索する。最小距離dと同一
距離の用例部分構造の頻度fを記憶する。
[0030] The partial structure between the mean distance between the "x i p y" calculated in accordance with equation (1) described above, to search for example partial structure of the minimum distance from the example storage unit 6. Storing the minimum distance d i and frequency f i of the example the partial structure of the same distance.

【0031】(ステップ2)di が最小になるxi が1
つしか存在しないならば、xi を係り先として返し終了
する。
[0031] (Step 2) d i is minimized x i is 1
If only One does not exist, to end returns the x i as the dependency destination.

【0032】(ステップ3)di が最小になるxi のう
ちでfi が最大になるxi が1つしか存在しないなら
ば、xi を係り先として返し終了する。
(Step 3) If there is only one x i with the largest f i among the x i with the smallest d i , the process returns with x i as the destination and ends.

【0033】(ステップ4)di が最小になるxi すべ
てを係り先として返し終了する。 具体例1 ステップ2で終了する場合。
(Step 4) Return all x i in which d i is the minimum as the destination and end. Specific example 1 When ending in step 2.

【0034】 I present a paper at the conferenc
e. 「present ,at,the conference」の最短距離は0.0
0であり、「a paper,at,the conference」の最短距
離は0.33である。したがって、前者に決定する。 具体例2 ステップ3で終了する場合。
[0034] I present a paper at the conferenc
e. The shortest distance of "present, at, the conference" is 0.0
0, and the shortest distance of “a paper, at, the conference” is 0.33. Therefore, the former is decided. Specific example 2 When ending in step 3.

【0035】 We have the next conference at the
hotel. この場合、「have,at,the hotel 」「the next confe
rence ,at,the hotel」の両候補の最短距離は、とも
に0.17となった。前者の最短距離の用例は「hold,
at,hotel 」でその頻度は92件であり、後者の最短距
離の用例は「meeting 、at、hotel 」であり、その頻度
は15件であったので、「at,the hotel」の係り先
は、「have」と判定する。
[0035] We have the next conference at the
hotel. In this case, "have, at, the hotel""the next confe"
The shortest distance of both candidates "rence, at, the hotel" was 0.17. An example of the former shortest distance is "hold,
"at, hotel" has a frequency of 92, and the latter example of the shortest distance is "meeting, at, hotel", and its frequency is 15; , "Have".

【0036】上述の手続は、部分用例間意味距離di
同一距離の用例の頻度fi とから計算できる複合尤度、
たとえばdi −fi /10m (mは用例記憶部6の規模
に依存するが、経験的にはm=6で十分である)を最小
にすることとほぼ等価である。
The procedure described above, the composite likelihood can be calculated from a partial example between mean distance d i and frequency f i of the example of the same distance,
For example d i -f i / 10 m (where m is dependent on the size of the example storage unit 6, the empirical is sufficient m = 6) is approximately equivalent to minimizing the.

【0037】すべての前置詞の複合尤度の総和に従っ
て、最尤の係り先を決定する。次に、第2実施例につい
て説明する。第2実施例は基本的には第1実施例と同じ
である。相違するのは尤度および部分尤度の計算が、解
析部2に組込まれている点である。文法規則適用時に係
り先候補を抽出し、同時に、部分尤度計算を行なう。
According to the sum of the composite likelihoods of all prepositions, the maximum likelihood is determined. Next, a second embodiment will be described. The second embodiment is basically the same as the first embodiment. The difference is that the calculation of the likelihood and the partial likelihood is incorporated in the analysis unit 2. At the time of applying a grammar rule, a candidate for a destination is extracted, and at the same time, a partial likelihood calculation is performed.

【0038】文法規則は次のようなものが用意される。 (1)VP PP→VP (2)NP PP→NP 入力文は次の例文だとする。The following grammar rules are prepared. (1) VP PP → VP (2) NP PP → NP The input sentence is assumed to be the following example sentence.

【0039】 I present a paper at the conferenc
e. 文法規則(1)が適用されるときに部分構造「present
、at、the conference」が抽出でき、当該部分構造の
部分尤度計算を行なう。文法規則(2)が適用されると
きに部分構造「a paper 、at、the conference」が抽出
でき、当該部分構造の部分尤度計算を行なう。解析終了
時には、構造全体の尤度が求まる。これ以外の点は第1
実施例と同じである。
[0039] I present a paper at the conferenc
e. When the grammar rule (1) is applied, the substructure "present
, At, and the conference "can be extracted, and partial likelihood calculation of the partial structure is performed. When the grammar rule (2) is applied, a partial structure “a paper, at, the conference” can be extracted, and a partial likelihood calculation of the partial structure is performed. At the end of the analysis, the likelihood of the entire structure is obtained. Other points are the first
This is the same as the embodiment.

【0040】[0040]

【発明の効果】以上のように、この発明によれば、自然
言語の文を入力して入力構造に写像し、複数の入力構造
が得られたとき各構造の尤度を計算し、その尤度に従っ
て最尤の入力構造を選択して出力するようにしたの
で、、曖昧な入力文に対して用例を参照して最尤の構造
を出力することができる。しかも、シソーラスを利用す
ることで近似照合が実現でき、用例数が少なくて済む。
さらに、分野毎に用例を用意すれば、分野毎に簡単に調
整できる。また、この手法は任意の言語に適用でき、従
来の多くの解析手法(CFGやパターンマッチングな
ど)に容易に組込むことができる。
As described above, according to the present invention, a sentence in a natural language is input and mapped to an input structure, and when a plurality of input structures are obtained, the likelihood of each structure is calculated. Since the maximum likelihood input structure is selected and output according to the degree, the maximum likelihood structure can be output by referring to an example for an ambiguous input sentence. In addition, approximate matching can be realized by using a thesaurus, and the number of examples can be reduced.
Furthermore, if an example is prepared for each field, it can be easily adjusted for each field. This method can be applied to any language, and can be easily incorporated into many conventional analysis methods (CFG, pattern matching, etc.).

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の用例主導型自然言語解析装置の第1
実施例の概要を示すブロック図である。
FIG. 1 is a first example of an example-driven natural language analyzer according to the present invention.
It is a block diagram showing an outline of an example.

【図2】図1に示した尤度計算部の概要を示すブロック
図である。、
FIG. 2 is a block diagram illustrating an outline of a likelihood calculation unit illustrated in FIG. 1; ,

【図3】曖昧な入力文「I present a paper at the con
ference.」に対する可能な入力構造を示した図である。
[Figure 3] Ambiguous input sentence "I present a paper at the con
FIG. 7 shows a possible input structure for "ference."

【図4】用例記憶部の一部を示す図であり、特に、
(a)は動詞に係る場合を示し、(b)は名詞に係る場
合を示す。
FIG. 4 is a diagram showing a part of an example storage unit.
(A) shows a case related to a verb, and (b) shows a case related to a noun.

【図5】シソーラスの一部と単語間意味距離計算を説明
するための図である。
FIG. 5 is a diagram for explaining calculation of a part of a thesaurus and a semantic distance between words.

【符号の説明】[Explanation of symbols]

1 入力部 2 解析部 3 尤度計算部 4 選択部 5 出力部 6 用例記憶部 7 シソーラス DESCRIPTION OF SYMBOLS 1 Input part 2 Analysis part 3 Likelihood calculation part 4 Selection part 5 Output part 6 Example storage part 7 Thesaurus

───────────────────────────────────────────────────── フロントページの続き (72)発明者 飯田 仁 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール自 動翻訳電話研究所内 (56)参考文献 特開 平4−47364(JP,A) 特開 平3−276367(JP,A) 特開 昭63−91776(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Jin Iida Kyoto, Soraku-gun, Seika-cho, 5F, Inani, 5F, Sanpiraya Inside AT / R Automatic Translation and Telephone Research Institute, Inc. (56) References JP-A-4- 47364 (JP, A) JP-A-3-276367 (JP, A) JP-A-63-91776 (JP, A) (58) Fields investigated (Int. Cl. 6 , DB name) G06F 17/20-17 / 28 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 自然言語の文を入力する入力手段と、 前記入力手段によって入力された入力文を入力部分構造
に写像する解析手段と、 前記入力手段から入力された自然言語文の全体を調べて
頻繁に出現する用例部分構造を記憶する用例記憶手段
と、 意味の類似性に基づいて単語を予め木の形に整理し、単
語の意味概念に従って単語間意味距離を求めるためのシ
ソーラスと、 前記解析手段によって写像された入力構造に基づいて、
前記入力部分構造および前記用例部分構造に含まれる単
語の前記シソーラスに従って計算される意味距離に基づ
く部分構造間意味距離を求め、その部分構造間意味距離
が最小になる用例部分構造を前記用例記憶手段から検索
し、部分構造間意味距離が最小になる用例部分構造の出
現する頻度を計算し、計算した部分構造間意味距離と頻
度とを部分尤度として出力する尤度計算手段と、 前記尤度計算手段によって計算された部分構造間距離と
頻度とからなる部分尤度に従って、最も確からしさを示
す最尤の入力構造を選択する選択手段と、 前記選択手段によって選択された最尤の構造を出力する
出力手段を備えた、用例主導型自然言語解析装置。
An input unit for inputting a sentence of a natural language; an analyzing unit for mapping an input sentence input by the input unit onto an input substructure; and a whole natural language sentence input from the input unit is examined. An example storage means for storing an example partial structure that frequently appears in the form of a word; and a thesaurus for prearranging the words in a tree form based on the similarity of the meaning and obtaining a meaning distance between words according to the concept of the meaning of the word; Based on the input structure mapped by the analysis means,
Calculating a semantic distance between partial structures based on a semantic distance calculated according to the thesaurus of words included in the input partial structure and the example partial structure; and storing the example partial structure having the minimum semantic distance between the partial structures as the example storage means. A likelihood calculating unit that calculates the frequency of occurrence of the example substructures in which the semantic distance between the partial structures is minimized, and outputs the calculated semantic distance between the substructures and the frequency as a partial likelihood; Selecting means for selecting the maximum likelihood input structure indicating the most certainty, according to the partial likelihood consisting of the distance between the partial structures and the frequency calculated by the calculating means, and outputting the maximum likelihood structure selected by the selecting means An example-driven natural language analysis device, comprising:
JP5122442A 1993-05-25 1993-05-25 Example-driven natural language analyzer Expired - Fee Related JP2796690B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5122442A JP2796690B2 (en) 1993-05-25 1993-05-25 Example-driven natural language analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5122442A JP2796690B2 (en) 1993-05-25 1993-05-25 Example-driven natural language analyzer

Publications (2)

Publication Number Publication Date
JPH06332940A JPH06332940A (en) 1994-12-02
JP2796690B2 true JP2796690B2 (en) 1998-09-10

Family

ID=14835955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5122442A Expired - Fee Related JP2796690B2 (en) 1993-05-25 1993-05-25 Example-driven natural language analyzer

Country Status (1)

Country Link
JP (1) JP2796690B2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266246B2 (en) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン Natural language analysis apparatus and method, and knowledge base construction method for natural language analysis

Also Published As

Publication number Publication date
JPH06332940A (en) 1994-12-02

Similar Documents

Publication Publication Date Title
WO2019196314A1 (en) Text information similarity matching method and apparatus, computer device, and storage medium
EP1475778B1 (en) Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US8639509B2 (en) Method and system for computing or determining confidence scores for parse trees at all levels
EP1422634A2 (en) Statistical method and apparatus for statistical learning of translation relationships among phrases
Bangalore et al. A finite-state approach to machine translation
Lee et al. Deep learning-based context-sensitive spelling typing error correction
WO1998000833A1 (en) Natural language parser with dictionary-based part-of-speech probabilities
JP2003505778A (en) Phrase-based dialogue modeling with specific use in creating recognition grammars for voice control user interfaces
Crocker Rational models of comprehension: Addressing the performance paradox
JP2609173B2 (en) Example-driven machine translation method
KR100895940B1 (en) Automatic resolution of segmentation ambiguities in grammar authoring
JP2796690B2 (en) Example-driven natural language analyzer
JP2000267693A (en) Voice processor and index preparation device
JP5120749B2 (en) Storage medium recording tree structure dictionary, tree structure dictionary creating apparatus, and tree structure dictionary creating program
Jelinek Language modeling for speech recognition
Vaičiūnas et al. Statistical language models of Lithuanian based on word clustering and morphological decomposition
Kipyatkova et al. Rescoring N-best lists for Russian speech recognition using factored language models
JP2007102530A (en) Device for generating grammar of specific language
JP2765618B2 (en) Language analyzer
Jurafsky et al. Integrating experimental models of syntax, phonology, and accent/dialect in a speech recognizer
Habeeb et al. Three N-grams Based Language Model for Auto-correction of Speech Recognition Errors
JP2779333B2 (en) Language analyzer
JP2994681B2 (en) Kana-Kanji conversion device
JP3181465B2 (en) Language processor
JP2004280467A (en) Translation device, translation method, and its program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980519

LAPS Cancellation because of no payment of annual fees