JP2000112936A - Language processor and word meaning deciding device - Google Patents

Language processor and word meaning deciding device

Info

Publication number
JP2000112936A
JP2000112936A JP10279724A JP27972498A JP2000112936A JP 2000112936 A JP2000112936 A JP 2000112936A JP 10279724 A JP10279724 A JP 10279724A JP 27972498 A JP27972498 A JP 27972498A JP 2000112936 A JP2000112936 A JP 2000112936A
Authority
JP
Japan
Prior art keywords
attribute
sentence
correct
information
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10279724A
Other languages
Japanese (ja)
Other versions
JP3022511B1 (en
Inventor
Kazuhide Yamamoto
和英 山本
Eiichiro Sumida
英一郎 隅田
Hitoshi Iida
仁 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Interpreting Telecommunications Research Laboratories filed Critical ATR Interpreting Telecommunications Research Laboratories
Priority to JP10279724A priority Critical patent/JP3022511B1/en
Application granted granted Critical
Publication of JP3022511B1 publication Critical patent/JP3022511B1/en
Publication of JP2000112936A publication Critical patent/JP2000112936A/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To highly precisely supplement an abbreviated part and to decide a word meaning in a translation device even if an error exists in an input character string. SOLUTION: Deciding tree learning parts 12-1 to 12-M inductively and mechanically learn an abbreviated part which is to be supplemented from text data where an abbreviated element is already supplemented in a text data memory 21 and deciding trees are obtained for respective attribute tables. Abbreviated element supplement parts 14-1 to 14-M execute abbreviation element supplement processings by using the corresponding deciding trees and decide the abbreviated element to be supplemented. An abbreviated element supplement selection part 15 selects the abbreviated element having maximum frequency and outputs a character string where the abbreviated element is supplemented. Knowledge obtained from the corpus of text data is expressed by the respective deciding trees for the respective attribute tables and is stored in deciding tree file memories 23-1 to 23-M.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、省略された代名詞
とその位置の情報を含む日本語テキストデータベースに
格納された用例を用いて、日本語対話文において省略が
行なわれた格要素を自動的に補完する日本語省略要素補
完装置や、翻訳装置のための語義決定装置などの言語処
理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for automatically omitting a case element in a Japanese dialogue sentence using an example stored in a Japanese text database including information on the omitted pronoun and its position. The present invention relates to a language processing device such as a Japanese abbreviation element complementing device for complementing a language and a meaning determining device for a translation device.

【0002】[0002]

【従来の技術】主語や目的語などの表示が義務的でない
日本語対話文の処理においては、「ゼロ代名詞」と呼ば
れるこれら省略要素(非明示要素)を補う処理が重要で
ある。特に、日本語から英語又はドイツ語などへの翻訳
の際には、補完処理は必須となる。
2. Description of the Related Art In the processing of a Japanese dialogue sentence in which the display of a subject or object is not obligatory, it is important to supplement these omitted elements (non-explicit elements) called "zero pronouns". In particular, when translating from Japanese to English or German, the complementing process is indispensable.

【0003】日本語の省略補完技術の1つとして、出現
単語の情報を利用した手法がいくつか提案されている。
例えば、従来技術文献1「村田真樹ほか,“用例や表層
表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名
詞の指示対象の推定”,(自然言語処理,Vol.4,
No.1,pp.87−109,1997年」(以下、
第1の従来例という。)において、省略補完に必要な情
報をすべて人手によって規則化して得点を与えていき、
最も高得点の候補を指示対象とする技術を提案してい
る。
[0003] As one of Japanese abbreviation complementing techniques, there have been proposed several techniques using information on appearing words.
For example, prior art document 1, "Maki Murata et al.," Estimation of referents, pronouns, and zero pronouns in Japanese sentences using examples and surface expressions ", (Natural Language Processing, Vol. 4,
No. 1, pp. 87-109, 1997 "(hereinafter referred to as"
This is referred to as a first conventional example. ), All the information necessary for abbreviated completion is manually ruled and scored.
A technique is proposed in which the candidate with the highest score is designated as an instruction target.

【0004】また、従来技術文献2「森辰則ほか,“言
語表現のもつ性質に基づく日本語マニュアルにおけるゼ
ロ代名詞照応”,情報処理学会研究会報告,NL115
−1,pp.1−8,1996年」(以下、第2の従来
例という。)において、言語表現自身の持つ語用論的制
約と対象文章の語用論的知識の2つを人手により抽出
し、その結果得られた情報を利用して省略の補完を行な
う手法を提案している。特に、日本語から英語又はドイ
ツ語などへの機械翻訳処理の際には、補完処理は必須と
なる。
[0004] Prior Art Document 2 "Tatsunori Mori et al.," Zero-pronoun anaphora in Japanese manuals based on properties of linguistic expressions ", Information Processing Society of Japan, NL115.
-1, pp. 1-8, 1996 "(hereinafter, referred to as a second conventional example), two of the pragmatic constraints of the linguistic expression itself and the pragmatic knowledge of the target sentence are manually extracted, and as a result, We propose a method of complementing omissions using the obtained information. In particular, in the case of machine translation processing from Japanese to English or German, supplementary processing is essential.

【0005】さらに、従来技術文献3「工藤育男ほか,
“日本語の述部の特性を用いた省略の補完機構につい
て”,電子情報通信学会論文誌,Vol.J76−D−
II,No.3,pp.624−635,1993年)
(以下、第3の従来例という。)において、省略に必要
な述部表現および動詞を人手により分類し、それぞれの
述部表現および動詞に対して断定的に省略補完対象を決
定するという手法を提案している。
[0005] Furthermore, prior art document 3 "Ikuo Kudo et al.
"On the Completion Mechanism of Omission Using the Characteristics of Japanese Predicates", IEICE Transactions, Vol. J76-D-
II, No. 3, pp. 624-635, 1993)
(Hereinafter, this is referred to as a third conventional example.) A method of manually classifying predicate expressions and verbs required for omission and manually determining abbreviation complement targets for each predicate expression and verb is used. is suggesting.

【0006】日本語の格要素省略に関わる情報は多岐に
わたっており、一般的にはそれらが複雑に影響しあって
省略が行なわれていると考えられている。第1の従来例
ではそれら各要素を人手によって得点化しているが、こ
れら付与された各得点が本当に正しいものかどうかは不
明である。第2の従来例及び第3の従来例では、各言語
表現を分類し、それぞれの項目に対して断定的に省略補
完を行なっているが、これらの分類方法も恣意的であ
り、適切かどうかは不明である。また、第2の従来例及
び第3の従来例では、複数要素の影響については、補完
対象の動詞と各種文末表現との間に統一的に優先順位を
つけているにすぎず、文末表現間の相互影響に関しては
考慮されていない。
[0006] There is a wide variety of information related to the omission of Japanese case elements, and it is generally considered that they are complicatedly affected and omitted. In the first conventional example, these elements are manually scored, but it is unclear whether these assigned scores are really correct. In the second conventional example and the third conventional example, each linguistic expression is classified and each item is abbreviated and complemented, but these classification methods are also arbitrary and appropriate. Is unknown. Further, in the second conventional example and the third conventional example, regarding the influence of a plurality of elements, only the priority is given unifiedly between the verb to be complemented and various end-of-sentence expressions. No consideration has been given to the interaction between the two.

【0007】以上の問題点を解決するために、本発明者
は、日本語文における格要素省略の補完処理において、
人手を介すことなく補完に必要な多くの情報の影響関係
を自動的に把握して、省略された代名詞をより正確にか
つ自動的に決定して補完することができる日本語省略要
素補完装置を、特願平9−245201号の特許出願に
おいて開示している。この従来例の日本語省略要素補完
装置は、「日本語自然発話文の文字列からなり、その文
の省略要素の正解人称が予め補完された省略要素補完済
みテキストデータと、動詞の正規形と、動詞の意味属性
と、文末表現と、言語外情報としての話者情報とを含む
複数の属性の属性リストとに基づいて、各テキストデー
タの各文と、属性リストの各属性とのすべての組み合わ
せについてそれらを照合して、各文毎に各属性が存在す
るか否か、及び省略要素が何人称であるかの正解人称を
示す属性表を生成する生成手段と、上記生成手段によっ
て生成された属性表に基づいて、すべての属性による分
割後のエントロピーと分割前のエントロピーとの差が最
大の属性を選択して、選択された属性値により分割され
たノードを生成するように決定木を、リーフノードに到
達するまで更新するように学習することにより、各属性
の属性値に依存して分割されるような二分木形式の木構
造を有する省略要素の正解人称を決定するための決定木
を生成する学習手段と、入力された日本語自然発話文の
文字列に基づいて、上記属性リストを参照して、各属性
毎に照合を行うことにより各属性が存在するか否かを示
す属性値を抽出して出力する抽出手段と、上記抽出手段
から出力される属性値に対して、上記学習手段によって
生成された決定木を用いて、上記入力された自然発話文
の文字列における省略要素の正解人称を決定し、その正
解人称を含む省略要素が補完された文字列を出力する補
完手段とを備えた」ことを特徴としている。
[0007] In order to solve the above problems, the present inventor has proposed a supplementary process for omitting case elements in Japanese sentences.
Japanese abbreviation element completion device that automatically grasps the influence of many pieces of information necessary for completion without human intervention, and can determine and supplement omitted pronouns more accurately and automatically. Is disclosed in Japanese Patent Application No. 9-245201. This conventional Japanese abbreviation element complementing device is composed of an abbreviation element supplemented text data consisting of a character string of a Japanese spontaneous utterance sentence, in which the correct person of the abbreviation element of the sentence is complemented in advance, and a verb normal form. , Based on an attribute list of a plurality of attributes including a verb's semantic attributes, a sentence end expression, and speaker information as out-of-language information, all of each sentence of each text data and each attribute of the attribute list A generating unit that collates them for each combination and generates an attribute table indicating whether each attribute exists for each sentence and a correct personal name indicating the personal name of the omitted element; Based on the attribute table, the decision tree is selected so that the attribute having the largest difference between the entropy after division by all attributes and the entropy before division is selected, and a node divided by the selected attribute value is generated. , Generates a decision tree for determining the correct person of an abbreviated element having a tree structure in a binary tree form that is divided depending on the attribute value of each attribute by learning to update until reaching the node Based on the character string of the input Japanese natural utterance sentence, and by referring to the attribute list, performing matching for each attribute to determine an attribute value indicating whether or not each attribute exists. Correctness of the omitted element in the character string of the input natural utterance sentence using the extraction means for extracting and outputting and the attribute value output from the extraction means using the decision tree generated by the learning means And a complementing means for determining a person and outputting a character string in which the omitted element including the correct person is complemented. "

【0008】[0008]

【発明が解決しようとする課題】しかしながら、従来例
の日本語省略要素補完装置においては、1つの決定木を
用いて省略部を補完しているために、音声認識結果な
ど、処理装置への入力文字列に誤りが含まれている可能
性があるときに、出力される補完結果における信頼性が
低くなり、その結果、精度の劣化を起こす可能性がある
という問題点があった。
However, in the conventional Japanese abbreviation element supplementing device, since the omitted portion is supplemented by using one decision tree, the input to the processing device such as a speech recognition result is performed. When there is a possibility that an error is included in the character string, the reliability of the output complement result is reduced, and as a result, there is a problem that accuracy may be deteriorated.

【0009】本発明の目的は以上の問題点を解決し、入
力文字列において誤りがある場合であっても、従来例に
比較して高い精度で省略部の補完や翻訳装置における語
義の決定を行うことができる言語処理装置を提供するこ
とにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, so that even if there is an error in an input character string, it is possible to complement an omitted part and determine the meaning of a word in a translation device with higher accuracy than in the conventional example. An object of the present invention is to provide a language processing device that can perform the processing.

【0010】[0010]

【課題を解決するための手段】本発明に係る請求項1記
載の言語処理装置は、所定の言語の文字列からなり、そ
の文のあいまい性を解消するための情報が予め補完され
た情報補完済みテキストデータと、言語のあいまい性を
解消するための言語の属性を含む複数の属性の属性リス
トとに基づいて、各テキストデータの各文と、属性リス
トに含まれる各属性を複数の集合に分割したときの各属
性集合とのすべての組み合わせについてそれらを照合し
て、各文毎に各属性集合内の各属性が存在するか否か、
及び言語のあいまい性を解消するための正解情報を示す
属性表をそれぞれ、各属性集合毎に生成する複数の生成
手段と、上記複数の生成手段によって生成された複数の
属性表に基づいてそれぞれ、各属性集合内のすべての属
性による分割後のエントロピーと分割前のエントロピー
との差が最大の属性を選択して、選択された属性値によ
り分割されたノードを生成するように決定木を、リーフ
ノードに到達するまで更新するように学習することによ
り、各属性の属性値に依存して分割されるような二分木
形式の木構造を有する、言語のあいまい性を解消するた
めの正解情報を決定するための決定木を、各属性集合毎
に生成する複数の学習手段と、入力された所定の言語の
文字列に基づいて、上記属性リストを参照して、各属性
毎に照合を行うことにより各属性が存在するか否かを示
す属性値を抽出して出力する抽出手段と、上記抽出手段
から出力される属性値に対して、上記複数の学習手段に
よって生成された各決定木を用いてそれぞれ、上記入力
された文字列における言語のあいまい性を解消するため
の正解情報を決定してその頻度とともに出力する複数の
補完手段と、上記複数の補完手段から出力される正解情
報とその頻度に基づいて、頻度が最大又は頻度がより大
きな所定数の正解情報を選択して、その正解情報を含む
情報が補完された文字列を出力する補完選択手段とを備
えたことを特徴とする。
According to a first aspect of the present invention, there is provided a language processing apparatus comprising a character string of a predetermined language, wherein information for eliminating ambiguity of a sentence is complemented in advance. Each sentence of each text data and each attribute included in the attribute list are divided into a plurality of sets based on the completed text data and the attribute list of multiple attributes including the language attribute for resolving language ambiguity. For all combinations with each attribute set at the time of division, collate them and determine whether each attribute in each attribute set exists for each sentence,
And a plurality of attribute means indicating correct information for resolving language ambiguity, respectively, a plurality of generating means for each attribute set, based on a plurality of attribute tables generated by the plurality of generating means, The decision tree is selected so as to select the attribute having the largest difference between the entropy after division by all attributes in each attribute set and the entropy before division, and to generate a node divided by the selected attribute value. By learning to update until reaching the node, determine the correct answer information to resolve the ambiguity of the language, which has a tree structure of a binary tree format that is divided depending on the attribute value of each attribute A plurality of learning means for generating a decision tree for each attribute set, and a matching for each attribute by referring to the attribute list based on the input character string in a predetermined language. Extracting means for extracting and outputting an attribute value indicating whether or not each attribute is present, and using each of the decision trees generated by the plurality of learning means for the attribute value output from the extracting means. A plurality of complementing means for determining correct information for resolving language ambiguity in the input character string and outputting the information together with the frequency, and correct information output from the plurality of complementary means and the frequency thereof. And a complement selecting means for selecting a predetermined number of correct answer information having a maximum frequency or a higher frequency based on the information and outputting a character string supplemented with information including the correct answer information.

【0011】また、請求項2記載の言語処理装置におい
ては、請求項1記載の言語処理装置は、日本語省略要素
補完装置であり、上記情報補完済みテキストデータは、
日本語自然発話文の文字列からなり、その文の省略要素
の正解人称が予め補完された省略要素補完済みテキスト
データであり、上記属性リストは、動詞の正規形と、動
詞の意味属性と、文末表現と、言語外情報としての話者
情報とを含む複数の属性の属性リストであり、上記属性
表は、各文毎に各属性が存在するか否か、及び省略要素
が何人称であるかの正解人称を示す属性表であり、上記
各決定木は、省略要素の正解人称を決定するための決定
木であり、上記各補完手段は、上記入力された文字列に
おける省略要素の正解人称を決定し、上記補完選択手段
は、頻度が最大又は頻度がより大きな所定数の正解人称
を選択して、その正解人称を含む省略要素が補完された
文字列を出力することを特徴とする。
Further, in the language processing apparatus according to the second aspect, the language processing apparatus according to the first aspect is a Japanese abbreviation element complementing apparatus, and the information-completed text data is:
Omitted element-completed text data consisting of a character string of a Japanese natural utterance sentence, in which the correct person of the omitted element of the sentence has been completed in advance, and the attribute list includes the normal form of the verb, the semantic attribute of the verb, It is an attribute list of a plurality of attributes including an end-of-sentence expression and speaker information as out-of-language information. The attribute table indicates whether each attribute exists for each sentence, and what abbreviation element is the first person. Is an attribute table indicating correct correct person names, each of the decision trees is a decision tree for determining correct correct person names of omitted elements, and each of the complementing means is a correct correct person name of omitted elements in the input character string. Is determined, and the complement selection means selects a predetermined number of correct personal names having the highest frequency or higher frequency, and outputs a character string in which the omitted element including the correct personal name is complemented.

【0012】さらに、請求項3記載の言語処理装置は、
請求項2記載の言語処理装置において、上記省略要素
は、日本語自然発話文における主語又は目的語の人称で
あることを特徴とする。
Further, the language processing device according to claim 3 is
3. The language processing apparatus according to claim 2, wherein the omitted element is a subject of a subject or an object in a Japanese natural utterance sentence.

【0013】また、請求項4記載の言語処理装置におい
ては、請求項1記載の言語処理装置は、第1の言語から
第2の言語に翻訳する翻訳装置のための語義決定装置で
あり、上記情報補完済みテキストデータは、第1の言語
の文の文字列からなり、その文の語義が予め補完された
語義決定済みテキストデータであり、上記属性リスト
は、文の種類、時制、主語、目的語の情報を含む複数の
属性の属性リストであり、上記属性表は、各文毎に各属
性が存在するか否か、及び正解語義を示す属性表であ
り、上記各決定木は、正解語義を決定するための決定木
であり、上記各補完手段は、上記入力された文字列にお
ける正解語義を決定し、上記補完選択手段は、頻度が最
大又は頻度がより大きな所定数の正解語義を選択して、
その正解語義が補完された文字列を出力することを特徴
とする。
According to a fourth aspect of the present invention, the language processing apparatus according to the first aspect is a semantic determination apparatus for a translation apparatus for translating from a first language to a second language. The information-completed text data is composed of a character string of a sentence in the first language, and is semantically determined text data in which the meaning of the sentence is complemented in advance. The attribute list includes the sentence type, tense, subject, and purpose. An attribute list of a plurality of attributes including word information. The attribute table is an attribute table indicating whether or not each attribute exists for each sentence, and the correct meaning. Each of the decision trees is a correct word meaning. Is a decision tree for determining the correct word meaning in the input character string, and the complement selecting means selects a predetermined number of correct word meanings having the maximum frequency or the higher frequency. do it,
A character string in which the correct meaning is complemented is output.

【0014】さらに、請求項5記載の言語処理装置は、
請求項4記載の言語処理装置において、上記正解語義
は、第2の言語の対訳要素であることを特徴とする。
Further, the language processing device according to the fifth aspect is characterized in that:
5. The language processing apparatus according to claim 4, wherein the correct meaning is a bilingual element of a second language.

【0015】[0015]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0016】<第1の実施形態>図1は、本発明に係る
第1の実施形態である日本語省略要素補完装置の構成を
示すブロック図である。本実施形態の日本語省略要素補
完装置は、省略要素補完済みのコーパス(テキストデー
タ)から補完すべき省略部を決定木学習部12−1乃至
12−M(Mは複数、総称して12と付す。)により帰
納的に機械学習して属性表毎に決定木を求め、省略要素
補完部14−1乃至14−M(総称して14と付す。)
によりそれぞれ各対応する決定木を用いて省略要素補完
処理を行って補完すべき省略要素を決定して、省略要素
補完選択部15により最大頻度を有する省略要素を選択
して、省略要素が補完された文字列を出力することを特
徴としている。ここで、コーパスから獲得した知識は属
性表毎に各決定木によって表現されて決定木ファイルメ
モリ23−1乃至23−M(総称して23と付す。)に
格納される。
<First Embodiment> FIG. 1 is a block diagram showing the structure of a Japanese language elimination element complementing apparatus according to a first embodiment of the present invention. The Japanese abbreviation element complementing device of the present embodiment determines the abbreviations to be complemented from the corpus (text data) for which the abbreviation elements have been complemented, by using the decision tree learning units 12-1 to 12-M (M is plural and collectively 12). ), A decision tree is obtained for each attribute table by inductive machine learning, and the omitted element complementers 14-1 to 14-M (collectively referred to as 14).
By using each corresponding decision tree, the omitted element complementing process is performed to determine the omitted element to be complemented, and the omitted element complement selecting section 15 selects the omitted element having the maximum frequency, and the omitted element is complemented. Character strings are output. Here, the knowledge acquired from the corpus is represented by each decision tree for each attribute table and stored in the decision tree file memories 23-1 to 23-M (collectively referred to as 23).

【0017】まず、日本語対話文の省略現象について述
べる。例として、以下の発話で「忘れる」の主語を補完
することを考える。 (例1)部屋にカメラを忘れてきてしまったようなんで
すが。この例では、動詞「忘れる」の持つ意味属性や
「てくる」「てしまう」「た」「ようだ」「んです」
「が」といった文末表現など、非常に多くの要素が補完
すべき主語に関係する可能性があり、このうちどの要素
がどの程度主語補完に影響しているかを明確に記述する
ことは難しい。一方、本実施形態に係る決定木を用いた
手法では、影響する可能性のある要素を列挙するのみで
よく、学習の結果主語補完に不要な属性は決定木の属性
からは自動的に排除される。さらに、従来気づかなかっ
た複数要素の同時出現による影響を自動的に学習するこ
ともできる。
First, a description will be given of a phenomenon of omitting a Japanese dialogue sentence. As an example, consider supplementing the subject of "forget" with the following utterances. (Example 1) I forgot the camera in my room. In this example, the verb “forget” has semantic attributes and “come”, “get”, “ta”, “you”, “n”
A large number of elements, such as the end-of-sentence expression such as "ga", may be related to the subject to be complemented, and it is difficult to clearly describe which of these elements influences subject complementation and to what extent. On the other hand, in the method using the decision tree according to the present embodiment, it is only necessary to enumerate the elements that may influence, and attributes unnecessary for subject complementation as a result of learning are automatically excluded from the attributes of the decision tree. You. Further, it is also possible to automatically learn the influence of simultaneous appearance of a plurality of elements which has not been noticed conventionally.

【0018】一般に、対話文において省略された主語を
補完するためには以下の情報が必要と考えられる。 (1)文内の情報 動詞、平叙/疑問、能動/受動、尊敬/謙譲など。 (2)前文以前の情報(文脈情報) 対話におけるこれまでの話の流れ。 (3)言語外情報 その文が、どこで、誰が誰に対して発話されたか、な
ど。
Generally, it is considered that the following information is necessary to complement a subject omitted in a dialogue sentence. (1) Information in sentences Verbs, declarative / questioning, active / passive, respect / humility, etc. (2) Information before the preamble (contextual information) The flow of the conversation so far in the dialogue. (3) Non-language information Where the sentence was sent to whom, etc.

【0019】ここで、以上のように分類された情報は独
立ではなく、相互に影響しながら主語が省略されている
ことに注意しなければならない。例えば、ホテルのフロ
ントにおける受付と客の対話で、一般的に「宿泊する」
の動作主は客もしくは「一般的な人」であるが、ある特
殊な文脈によってはそれ以外の可能性も考えられる。
Here, it should be noted that the information classified as described above is not independent, and the subject is omitted while affecting each other. For example, in a reception at a hotel reception and a conversation between a customer and a guest, they generally “stay”
Is a guest or "general person", but other possibilities are possible in certain special contexts.

【0020】次いで、決定木を用いた補完処理について
述べる。上述したように、日本語対話文の省略補完に必
要な情報は多岐にわたる。これら情報を統一的に、かつ
自動的で一意に主語を補完する手法として、本実施形態
では決定木を用いる手法を用いる。決定木は、多要素が
複雑に関係した概念に対する知識表現手法の一つであ
り、有向木で表現される。各分岐節点はある属性に対応
してその属性値によって枝分かれしていき、それぞれの
葉で意思決定が行なわれる。決定木は分岐節点における
分岐数によって大きく二分木と多進木とに分かれるが、
本実施形態では前者を用いる。
Next, the complementing process using the decision tree will be described. As described above, there is a wide variety of information necessary for supplementing the abbreviations of Japanese dialogue sentences. In this embodiment, a method using a decision tree is used as a method for uniformly and automatically complementing the subject with such information. A decision tree is one of the knowledge expression methods for a concept in which multiple elements are complicatedly related, and is represented by a directed tree. Each branch node branches according to an attribute value corresponding to a certain attribute, and a decision is made at each leaf. The decision tree is largely divided into a binary tree and a multi-ary tree according to the number of branches at the branch node.
In the present embodiment, the former is used.

【0021】次いで、正解データと決定木学習について
述べる。自動的に一意に決定木を作成するために、コー
パス(テキストデータ)からの帰納的学習により決定木
の作成を行なう。本実施形態の実施例で使用したコーパ
スは、チケット予約、観光案内などにおける二者の会話
を収録した本特許出願人が所有する旅行会話コーパスで
ある。このコーパスにおいて、主語が省略されている動
詞に対して、1人称、2人称、3人称、特定されない人
物(一般的な「人」を念頭において発話していると考え
られる場合に付与する。)の4種類の「補完すべき主語
の正解人称情報」を付与した。このとき、これらの正解
は日本語のみを考慮して付与した。つまり、英語などへ
の翻訳時にどの主語になるかという観点では付与してい
ない。一般に決定木学習はNP(Nondeterministic Pol
ynomialの略である。)完全であるので、本実施形態で
は、後述するエントロピー規準による貪欲法(greedy a
lgorithm)によって決定木学習を行なった。また、枝刈
り(pruning)は行なっていない。
Next, the correct answer data and decision tree learning will be described. In order to automatically and uniquely create a decision tree, a decision tree is created by inductive learning from a corpus (text data). The corpus used in the example of the present embodiment is a travel conversation corpus owned by the present applicant that includes conversation between two parties in ticket reservation, tourist information, and the like. In this corpus, the first person, the second person, the third person, and the unspecified person are added to the verb in which the subject is omitted (given when it is considered that a general person is spoken in mind). 4 types of correct personal information of the subject to be complemented. At this time, these correct answers were given considering only Japanese. In other words, it is not provided from the viewpoint of which subject is used when translating into English or the like. Generally, decision tree learning is NP (Nondeterministic Pol)
Abbreviation for ynomial. In this embodiment, since it is complete, the greedy method (greedy a
lgorithm). No pruning was performed.

【0022】次いで、「補完すべき主語の正解人称情
報」を決定する決定木を構築する決定木学習処理のアル
ゴリズムについて述べる。決定木学習処理では、各属性
の有効性を他の属性と独立に計算し、クラスの決定のた
めの効率的な属性による分類順序を、二分木の形式で分
割された構造を有する木構造として構築する。属性の有
効性は、その属性による分割分類後のエントロピーHに
より評価する。ここでのエントロピーは、属性の有効性
の優先順位を表わす。すなわち、ある属性BでノードN
1とノードN2とに分割するときに、分割前のエントロピ
ーH0と、分割後のエントロピーHと、ノードN1に対す
るエントロピーH1と、ノードN2に対するエントロピー
2とは次式で表される。
Next, an algorithm of a decision tree learning process for constructing a decision tree for determining “correct personal information of the subject to be complemented” will be described. In the decision tree learning process, the validity of each attribute is calculated independently of the other attributes, and the classification order based on the efficient attributes for class determination is determined as a tree structure having a structure divided in the form of a binary tree. To construct. The validity of the attribute is evaluated based on the entropy H after division and classification according to the attribute. The entropy here indicates the priority of the validity of the attribute. That is, the node N
When divided into 1 and the node N 2, and the entropy H 0 before the division, and the entropy H of the divided, the entropy H 1 for node N 1, and the entropy H 2 to node N 2 is given by: You.

【0023】[0023]

【数1】H0= Σ p(tagall)・log{p
(tagall)}tagall
H 0 = Σ p (tagall) · log {p
(Tagall) @tagall

【数2】H=p11+(1−p1)H2 ここで、H = p 1 H 1 + (1−p 1 ) H 2 where:

【数3】H1= Σ p(tagN1)・log{p(t
agN1)}tagN1
H 1 = Hp (tagN 1 ) · log {p (t
agN 1 )} tagN 1

【数4】H2= Σ p(tagN2)・log{p(t
agN2)}tagN2
H 2 = Σp (tagN 2 ) · log {p (t
agN 2 )} tagN 2

【0024】ここで、p(tagall)は分割前のす
べての「補完すべき主語の正解人称情報(以下、正解人
称情報という。)」(これをタグともいう。)について
の事例数の頻度確率又は出現確率であり、tagall
についてのΣは、分割前のすべての正解人称情報につい
ての和を示す。また、p1は、ノードN1に分割したとき
に含まれる正解人称情報の事例数の頻度確率の総和であ
る。さらに、p(tagN1)はノードN1のすべての正
解人称情報についての事例数の頻度確率であり、tag
1についてのΣは、ノードN1のすべての正解人称情報
についての和を示す。p(tagN2)はノードN2のす
べての正解人称情報についての事例数の頻度確率であ
り、tagN2についてのΣは、ノードN2のすべての正
解人称情報についての和を示す。
Here, p (tagall) is the frequency probability of the number of cases for all “correct correct person information of the subject to be complemented (hereinafter referred to as correct person information)” before division (this is also referred to as a tag). Or the probability of appearance, tagall
Indicates the sum of all correct personal information before the division. Further, p 1 is the sum of the frequency probabilities of the number of cases of the correct personal information included when the node is divided into the nodes N 1 . In addition, p (tagN 1) is the number of cases of frequency probability for all of the correct person information of the node N 1, tag
Σ for N 1 represents the sum of all the correct person information of the node N 1. p (tagN 2) is the number of instances of frequency probabilities for all correct answers personal information of the node N 2, the Σ of tagn 2, indicates the sum of all the correct person information of the node N 2.

【0025】有効性の計算のために、学習用のテキスト
データから各文について「属性とその属性値、正解人称
情報」の組からなる事例情報を予めとりだしておく。具
体的には、全ての事例集合に対して、分類後のエントロ
ピーHが最小となる属性を求め、最初のノードに割り当
てる。この属性の属性値により、事例集合を分割し、対
応する子ノードを作る。各々の子ノードにおいて、同様
の処理を繰り返し行なうことにより、木構造を構築す
る。分割の停止条件は、更新したノードの属性が単一で
あることとする。ここで、分割されないノードをリーフ
と呼ぶ。学習された決定木のリーフでは、与えられた事
例集合から各正解人称情報の頻度確率を計算する。
In order to calculate the validity, for each sentence, case information consisting of a set of "attribute, its attribute value, and correct personal information" is preliminarily extracted from the text data for learning. Specifically, for all the case sets, an attribute that minimizes the entropy H after classification is obtained and assigned to the first node. The case set is divided according to the attribute value of this attribute, and corresponding child nodes are created. A tree structure is constructed by repeating the same process at each child node. The condition for stopping the division is that the updated node has a single attribute. Here, a node that is not divided is called a leaf. At the leaf of the learned decision tree, the frequency probability of each correct personal information is calculated from the given case set.

【0026】次いで、頑健性を持った決定木モデルの条
件について説明する。従来技術の項で述べたように、本
発明者は、従来例において、決定木を意思決定手段に用
いた省略補完方法を開示している。この従来例の方法で
は、単独の決定木を導入して、補完に有用な情報である
可能性がある属性集合を用いて決定木学習を行なった。
また、学習時に行なう属性照合には、ある検索空間に形
態素(もしくは意味属性)があるかどうかという手法で
行なった。この手法の頑健性を考えると、以下の点にお
いて頑健性があると予想される。 (a)決定木学習時に複数の情報源(属性)を使用して
いる。 (b)照合方法が、ある空間における要素の有無だけを
問題にしている。
Next, conditions of a robust decision tree model will be described. As described in the section of the prior art, the present inventor has disclosed an abbreviated complementing method using a decision tree as a decision making means in the conventional example. In this conventional method, a single decision tree is introduced, and decision tree learning is performed using an attribute set that may be useful information for complementation.
In the attribute matching performed at the time of learning, a method was used to determine whether a morpheme (or semantic attribute) exists in a certain search space. Considering the robustness of this method, it is expected that it is robust in the following points. (A) A plurality of information sources (attributes) are used during decision tree learning. (B) The matching method is concerned only with the presence or absence of an element in a certain space.

【0027】前者については、例えば『助動詞「たい」
を含めば主語は1人称』などのように単独の要素のみか
ら意思決定している場合には、当該要素に何らかの誤り
が含まれていた場合には補完に失敗してしまう。決定木
学習では、出現したあらゆる要素の組み合わせに対して
確率的な計算を行なうため、欠落により「たい」が出現
しなかった場合もしくは置換により「たい」が別の語に
替わった場合においても、ある程度の頑健性は期待でき
る。また、後者については、検索空間にある当該要素の
有無だけを手がかりにしているため、特に挿入誤りに対
しては頑健性が期待できる。
As for the former, for example, the auxiliary verb “tai”
If the decision is made only from a single element, such as "the subject is the first person," the complementation will fail if the element contains any error. In decision tree learning, since probabilistic calculations are performed for all combinations of elements that have appeared, even if "tai" does not appear due to lack or if "tai" is replaced by another word due to replacement, Some robustness can be expected. In the latter case, since only the presence or absence of the element in the search space is used as a clue, robustness can be expected especially for insertion errors.

【0028】次いで、情報源と意思決定手段について述
べる。上述したように、決定木とその属性判定にある程
度の頑健性はあることが期待されるが、これらは十分と
は言えない。これは、意思決定源が単独であることが最
大の理由であると考えられる。入力列における誤り、あ
るいは不信頼部分が確定できないとき、それらすべての
要素を正解要素として処理の対象にすることは、入力の
信頼性が確保できない問題においては危険である。
Next, information sources and decision making means will be described. As described above, the decision tree and its attribute determination are expected to have some robustness, but these are not sufficient. This is probably due to the single source of decision. When an error or an unreliable part in an input sequence cannot be determined, it is dangerous to treat all of these elements as correct elements in a problem in which input reliability cannot be ensured.

【0029】処理の信頼度を向上させるための1つの方
策は、意思決定源を複数にすることである。すなわち、
意思決定器(第1の実施形態における省略要素補完部1
4、第2の実施形態における語義決定部14aに対応す
る。)を複数用意して同一の情報源を利用する、もしく
は意思決定に利用する情報源を別個にし、それぞれの情
報源から同一の意思決定器を利用して複数の意思決定を
行なうことである。後者の場合、それぞれ利用する情報
源を排他的にする、全要素から各々異なる情報を除いた
情報源にするなど、いろいろな選択肢が可能であり、全
く同一でなければよいと考える。
One way to improve the reliability of the process is to use multiple decision sources. That is,
Decision maker (Omission element complementing unit 1 in the first embodiment)
4. Corresponds to the semantic determination unit 14a in the second embodiment. ) Are prepared to use the same information source, or separate information sources to be used for decision making, and make a plurality of decisions from each information source using the same decision maker. In the latter case, various options are possible, such as making the information sources to be used exclusively or information sources excluding different information from all elements.

【0030】このようにして複数の意思決定器を用意し
て複数の解答候補が得られたとき、このうちどれを最終
的な解答とするかは重要な問題である。意思決定の種類
が有限、特に少数である時には多数決モデルなどが考え
られるが、意思決定源相互の関係などに調整が必要であ
り、問題が残る。そこで、本実施形態で開示する決定木
モデルは、各意思決定源からの解答に、信頼性、もしく
は信頼性に相当する尤度を認定し、最終的な解答を決定
する際にそれらの尤度の比較によって行なうことを考え
る。この際、異なる意思決定器から出力された場合の比
較には、客観的な尺度としての信頼性を測定もしくは予
測し、それらの比較を行なう必要があるが、一般的には
これら信頼性の測定は容易ではない。
When a plurality of answer decision devices are prepared and a plurality of answer candidates are obtained in this manner, it is important to determine which of them is the final answer. When the type of decision is finite, especially when the number is small, a majority model may be considered. However, it is necessary to adjust the relationship between the decision sources, and the problem remains. Therefore, the decision tree model disclosed in the present embodiment recognizes the reliability or the likelihood corresponding to the reliability from the answers from the respective decision sources, and determines the likelihood when determining the final answer. Consider doing this by comparing. At this time, in the case where the data is output from different decision-making devices, it is necessary to measure or predict the reliability as an objective measure and to compare them. Is not easy.

【0031】以上の考察から、本実施形態では頑健性を
持ったモデル構築のために、以下の方策を採用した。 (a)複数の解答を用意し、それらの中から解答を選択
する。 (b)複数の解答は、同一の意思決定器から情報源を変
化させることで作成する。 (c)解答の選択には、同一の意思決定器からの尤度を
比較することで行なう。
From the above considerations, in the present embodiment, the following measures have been adopted for constructing a robust model. (A) Prepare a plurality of answers and select an answer from them. (B) A plurality of answers are created by changing information sources from the same decision maker. (C) The answer is selected by comparing the likelihoods from the same decision maker.

【0032】上述の考察に基づき、本実施形態では入力
の不正確性に対する頑健性を持ったモデルを提案する。
このモデルは、本発明が発明した従来例の格要素省略補
完モデルを拡張したものであり、複数の決定木を有する
MDT(MultipleDecision Tre
e)モデルと呼ぶ(特願平9−245201号の特許出
願の明細書では、主語以外の格要素に関しても考察を行
なっているが、本実施形態では議論を主語に限定する。
ただし、本実施形態の議論はそのまま他の格要素につい
ても同様に言える。)。また、従来例の決定木モデル
を、比較のため以後SDT(Single Decis
ion Tree)モデルと呼ぶ。これらのモデルの比
較を図7に示す。
Based on the above considerations, this embodiment proposes a model having robustness against input inaccuracy.
This model is an extension of the conventional case element elimination complement model invented by the present invention, and is an MDT (Multiple Decision Tree) having a plurality of decision trees.
e) In the specification of the patent application of Japanese Patent Application No. 9-245201, a case element other than the subject is considered, but in the present embodiment, the discussion is limited to the subject.
However, the discussion of the present embodiment can be similarly applied to other case elements. ). For comparison, the conventional decision tree model is hereinafter referred to as SDT (Single Decision).
(Ion Tree) model. A comparison of these models is shown in FIG.

【0033】SDTモデルでは、決定木という知識表現
手法を用いて主語補完知識の構築を行なう。決定木の学
習では、誤りのない入力文と正解となる主語情報を持っ
た事例から、事前に用意した属性の有無によって質問を
行ない、エントロピー基準によって事例の分類を行なっ
ていく。MDTモデルは以上のSDTモデルを基本にし
て、頑健性を持たせたモデルである。このMDTモデル
では、同一の学習集合から属性集合のみを変化させ、同
一の決定木学習方法によって複数の決定木を作成する。
In the SDT model, subject complementing knowledge is constructed using a knowledge expression technique called a decision tree. In learning a decision tree, a question is asked based on the presence or absence of an attribute prepared in advance from a case having an error-free input sentence and the correct subject information, and the case is classified based on the entropy criterion. The MDT model is a robust model based on the above SDT model. In this MDT model, only the attribute set is changed from the same learning set, and a plurality of decision trees are created by the same decision tree learning method.

【0034】次いで、複数の決定木から1つの適切な決
定木を選択するための方法について説明する。MDTモ
デルで得られた複数の解答候補の中から、本実施形態で
はMCL選好(Maximum−Case Leaf
Preference)と呼ぶ選択方法を新たに導入す
る。まず、このMCL選好の利用に際して必要な、入力
の不確かさに関する仮定を行なう。<仮定>処理の入力
が正解と異なる場合には、正解要素列と比較してどこか
尤もらしくない入力となる。すなわち、誤りを含んだ入
力文字列のほうが部分的に稀な要素列となる。
Next, a method for selecting one appropriate decision tree from a plurality of decision trees will be described. From a plurality of answer candidates obtained by the MDT model, in the present embodiment, the MCL preference (Maximum-Case Leaf) is selected.
A selection method called “Preference” is newly introduced. First, an assumption regarding the input uncertainty necessary for using this MCL preference is made. <Assumption> When the input of the process is different from the correct answer, the input is unlikely to be somewhere in comparison with the correct answer element sequence. That is, an input character string containing an error is a partially rare element string.

【0035】この仮定は音声認識の出力結果に対する処
理を想定する場合には、自然な仮定である。なぜなら、
正解要素列よりも入力要素列のほうが、いかなる基準に
おいても自然な要素列である場合には、もはや誤りを含
んだ入力文字列であるとそれを認識することは不可能で
あり、音声認識後のあらゆる処理において、それらの要
素列を正解要素列と見做して処理を行なうしかないから
である。よってこのような入力はありえない、もしくは
あった場合でも音声認識において対処が必要な入力であ
り、本実施形態で対象とする入力からはずすことは自然
である。
This assumption is a natural assumption when processing the output result of speech recognition is assumed. Because
If the input element string is a natural element string by any standard than the correct element string, it is no longer possible to recognize that the input character string contains an error. This is because, in all the processings of the above, the processing must be performed by regarding those element strings as correct element strings. Therefore, such an input is impossible, or even if it is present, it is an input that needs to be dealt with in speech recognition, and it is natural to remove it from the target input in the present embodiment.

【0036】次いで、属性集合について説明する。省略
された格要素を補完するためには、種々の情報を考慮し
て行なわなければならない。特に、決定木モデルによる
学習においては、どのような属性を用意するかが精度に
大きく影響する。本実施形態では以下に述べる属性を考
慮して決定木を作成した。
Next, the attribute set will be described. In order to supplement the omitted case element, various information must be considered. In particular, in learning using a decision tree model, what kind of attribute is prepared greatly affects the accuracy. In the present embodiment, a decision tree is created in consideration of the attributes described below.

【0037】(a)内容語の意味属性:省略の対象とな
る文において、どのような内容語が含まれているかに関
する情報。内容語は大きく、用言に関する情報と格要素
(体言)に関する情報に分かれる。内容語の意味属性と
しては角川類語新辞典における中分類(100属性)を
使用した。その一例を次の表に示す。
(A) Semantic attribute of content word: Information on what content word is included in a sentence to be omitted. The content word is broadly divided into information on declinable information and information on case elements (nominal). The middle category (100 attributes) in the Kadokawa New Thesaurus was used as the semantic attribute of the content word. An example is shown in the following table.

【0038】[0038]

【表1】 動詞の意味属性の一例(角川類語新辞典より) ――――――――――――――――――――――――――――――――― 3行動:30動作,31往来,32表情,33見聞,34陳述,… ――――――――――――――――――――――――――――――――― 34陳述:340発言,341沈黙,342進言,343談話,… ――――――――――――――――――――――――――――――――― 343談話:1話し掛ける,2語り掛ける,3声を掛ける, 4言い交わす,5言い合う,6言い合わせる,… ――――――――――――――――――――――――――――――――― (注)数字は動詞の意味分類番号である。[Table 1] Examples of verb semantic attributes (from Kadokawa New Thesaurus) ――――――――――――――――――――――――――――――――― 3 actions: 30 actions, 31 traffic, 32 facial expressions, 33 observations, 34 statements,… ――――――――――――――――――――――――――――――― ―― 34 statements: 340 statements, 341 silence, 342 statements, 343 discourse, ―――――――――――――――――――――――――――――――― ― 343 Discourse: 1 speak, 2 speak, 3 voices, 4 speak, 5 speak, 6 speak,… ―――――――――――――――――――――――― ―――――――――― (Note) The numbers are the classification numbers of the verbs.

【0039】(b)機能語の出現:用言に後接する付属
語群、及び助詞などの機能語の出現に関する情報。付属
語群の中には、受動/尊敬/可能/自発「れる」使役
「せる」アスペクト「ている」などの助動詞などのほ
か、当為を表す準体助動詞「べき」などが含まれる。ま
た、尊敬(召し上がる)、謙譲(伺う)、可能(飲め
る)などを示す動詞の集合をそれぞれ一つの属性とし、
「尊敬」などを示す機能語として取り扱った。また、受
給表現「やる」や動詞「する」「なる」なども特殊な機
能語と見なした。
(B) Appearance of a function word: Information on the appearance of a function word such as a group of attached words following a verb and a particle. The appendix group includes auxiliary verbs such as passive / respect / possible / spontaneous "re" causative "sell" aspect "being" and quasi-form auxiliary verbs "should" indicating the purpose. In addition, a set of verbs indicating respect (to be consumed), humility (to ask), possible (to drink), etc., is one attribute,
Treated as a function word indicating "respect". In addition, received expressions such as "do" and verbs "do" and "become" were also considered as special function words.

【0040】その他の機能語には、格助詞、接続助詞、
終助詞、「考えですか」「用意できます」の例に見
られる動詞直前の敬意を表す接頭辞がある。この他、禁
止を表す形容名詞「だめ」意思を表す形式名詞「つも
り」、疑問詞集合(「どこ」「なぜ」など)なども機能
語に含めた。 (c)言語外情報:言語外情報としては、発話された文
の話者が情報提供者か情報享受者か、という属性を使用
した。
Other functional words include case particles, connecting particles,
Final particle, there is a prefix that represents the respect of the verb just before seen in the example of "do you think,""you can offer." In addition, functional words also include the adjective noun "dame" indicating prohibition, the formal noun "gonna" indicating intention, and a set of question words ("where""why"). (C) Out-of-language information: As the out-of-language information, an attribute indicating whether the speaker of the uttered sentence is an information provider or an information receiver is used.

【0041】本実施形態で用いた属性集合を次の表に示
す。
The attribute set used in this embodiment is shown in the following table.

【0042】[0042]

【表2】 用意した属性集合 ―――――――――――――――――――――――――――――――――― 集合 属性 意味属性 機能語 話者役割 計 ―――――――――――――――――――――――――――――――――― 集合A 述語の意味属性 100 格要素の意味属性 100 機能語(文末表現) 166 話者役割 1 (計) 367 ―――――――――――――――――――――――――――――――――― 集合C 述語の意味属性 100 格要素の意味属性 100 話者役割 1 (計) 201 ―――――――――――――――――――――――――――――――――― 集合F 機能語(文末表現) 166 話者役割 1 (計) 167 ――――――――――――――――――――――――――――――――――[Table 2] Set of prepared attributes ―――――――――――――――――――――――――――――――――― Set Attribute Meaning Attribute Function word Speaker Role total ―――――――――――――――――――――――――――――――― Set A Semantic attribute of predicate 100 Semantic attribute of case element 100 Function Word (end-of-sentence expression) 166 Speaker role 1 (total) 367 ―――――――――――――――――――――――――――――――――― Set C Semantic attribute of predicate 100 Semantic attribute of case element 100 Speaker role 1 (total) 201 ――――――――――――――――――――――――――――――― --- Set F Function words (end-of-sentence expression) 166 Speaker role 1 (total) 167 ―――――――――――――――――――――――――――――― ――――

【0043】次いで、属性照合について説明する。言語
外情報以外に関しては、形態素列とのマッチングによっ
て属性の照合を行なった。すなわち、補完対象の用言を
中心にして、以下に示す5種類のうちどの位置に出現す
るかという情報をすべての属性に予め与えておく。 (a):before=用言の前(直前を含む)に…と
いう形態素を含む。 (b):latest=用言の直前に…という形態素を
含む。 (c):here=その用言が…である。 (d):next=用言の直後に…という形態素を含
む。 (e):after=用言の後(直後を含む)に…とい
う形態素を含む。
Next, attribute matching will be described. For the information other than the out-of-language information, attribute matching was performed by matching with the morpheme sequence. That is, information about which position of the following five types appears in the center of the word to be complemented is given to all attributes in advance. (A): before = the morpheme before (including immediately before) the morpheme is included. (B): contains the morpheme “latest = immediately before the declinable word”. (C): here = the word is ... (D): includes a morpheme of next = immediately after the declinable. (E): After = the morpheme after (including immediately after) the morpheme is included.

【0044】例えば、用言に関する属性は:here、
格助詞に対しては:before、接頭辞に対しては:
latestの位置情報を与える。意味属性に関して
は、ある位置にある意味属性を持つ語が含まれているか
どうかによって照合を行なった。複文や重文などの、文
が複数の単文からなる場合には、近似的に単文に分割し
た。分割手法は、接続助詞(ここで、「…たら/ば」の
ように、複数の接続助詞が連続する場合は最後方の接続
助詞である。)を分割位置にしてその前後を分割した。
For example, the attributes relating to a word are: here,
For case particles: before, for prefixes:
Gives the location information of the latest. Regarding semantic attributes, matching was performed based on whether or not a word having a semantic attribute at a certain position was included. When a sentence such as a compound sentence or a compound sentence is composed of a plurality of simple sentences, it is approximately divided into simple sentences. In the division method, a connecting particle (here, when a plurality of connecting particles are continuous, such as "... tar / ba", the connecting particle is the last connecting particle) is used as a dividing position and divided before and after.

【0045】図1において、省略要素補完済みテキスト
データメモリ21は、次の表に示す如く、省略要素補完
済みテキストデータを予め記憶する。
In FIG. 1, the omitted element complemented text data memory 21 previously stores the omitted element supplemented text data as shown in the following table.

【0046】[0046]

【表3】 省略要素補完済みテキストデータの一例 ――――――――――――――――――――――――――――――――――― 文 主語 形態素 ――――――――――――――――――――――――――――――――――― 文1.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文2.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文3.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文4.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文5.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文6.(1人称) 決まる/しだい/ご/*連絡*/差し上げる/ます/う/か 文7.(1人称) きょう/の/予約/を/*取る*/ておる/ます/よ 文8.(1人称) すぐに/*連絡*/差し上げる/た/ん/です/よ 文9.(1人称) それでは/確認/を/*取る*/せる/ていただく/ます 文10.(1人称) 明日/ご/*連絡*/差し上げる/ておる/ます 文11.(2人称) ご/*連絡*/する/ていただく/ます/か 文12.(2人称) だから/それ/まで/に/*連絡*/する/ていただける /ます/か 文13.(2人称) はい/じゃあ/メモ/でも/*取る*/てもらえる/ます /か 文14.(2人称) はい/なるべく/夜景/が/楽しめる/席/を/*取る* /ていただく/たい/の/です/けれども 文15.(2人称) ゆっくり/夕食/を/*取る*/ていただく/の/は/い かが/でしょう/か ――――――――――――――――――――――――――――――――――― (注)()で挟んだ部分がゼロ代名詞(省略要素)が補完されたところであり、 *で挟んだ部分が動詞の正規形の部分である。 ここで、処理は、単語(正規形)単位で行われることを明確にするために、 /を挿入している。[Table 3] Example of text data with completed omitted elements ――――――――――――――――――――――――――――――――― sentence subject morpheme ――――――――――――――――――――――――――――――――――― Statement 1. (1st person) Decided / Depends on your / * Contact * / Give / Masu / U / K (1st person) Decided / Depends on your / * Contact * / Give / Masu / U / ka Sentence 3. (1st person) Decided / Depending on your / * Contact * / Give / Masu / U / K (1st person) Decided / Depends on your / * Contact * / Give / Musu / U / K (1st person) Decided / Depends on / Guide / * Contact * / Give / Masu / U / ka Sentence 6. (1st person) Decided / Depends on your / * Contact * / Give / Masu / U / K (1st person) Today / no / reservation / available (1st person) Immediately / * Contact * / Give / Ta / N / I / Yo Sentence 9. (1st person) Then / confirmation / take / * take * / make / get / sentence Sentence 10. (1st person) Tomorrow / Your / * Contact * / Give me / Your / Issue Sentence 11. (2nd person) Your / * Contact * / Yes / Tell me / Mus / or Sentence 12. (2nd person) So / to / to / to / * contact * / to / you can / you / masu / ka Sentence 13. (2nd person) Yes / Jay / Memo / But / * Take * / Get / Masu / ka Sentence 14. (2nd person) Yes / As much as possible / Night view / Gaze / Enjoy / Seats // Take * / Tell me / Want / No / Is / But Sentence 15. (Second person) Slowly / Dinner // * Take * / Take / No / Ha / Is / Would // ――――――――――――――――――――――― ―――――――――――――― (Note) The part between () is where the zero pronoun (abbreviated element) is complemented, and the part between * is the normal form part of the verb. is there. Here, / is inserted in order to clarify that the processing is performed in word (normal form) units.

【0047】また、属性リストメモリ20は、上述の属
性を記憶したメモリであって、その属性集合の一例を次
の表に示す。
The attribute list memory 20 is a memory storing the above-mentioned attributes, and an example of the attribute set is shown in the following table.

【0048】[0048]

【表4】 属性リストのうち属性集合AS1 ――――――――――――――――――――――――――――――――――― 属性A1.動詞が「連絡」か? 属性A2.動詞が「取る」か? 属性A3.動詞の前に「が」を含むか? 属性A4.動詞の後に「差し上げる」を含むか? 属性A5.動詞の後に「ていただく」を含むか? 属性A6.動詞の後に「です」を含むか? 属性A7.動詞の後に「ます」を含むか? 属性A8.動詞の後に「う」を含むか? 属性A9.動詞の後に「か」を含むか? 属性A10.動詞の後に「よ」を含むか? 属性A11.動詞の前に意味コード41の単語を含むか? ――――――――――――――――――――――――――――――――――― (注)「41」は、表1の動詞の意味属性における意味コード「確認」を示す。[Table 4] Attribute set AS1 in attribute list ――――――――――――――――――――――――――――――――― Attribute A1. Is the verb "contact"? Attribute A2. Is the verb "take"? Attribute A3. Do you include "ga" before the verb? Attribute A4. Do you include "given" after the verb? Attribute A5. Do you include "terechi" after the verb? Attribute A6. Do you include "is" after the verb? Attribute A7. Do you include "mas" after the verb? Attribute A8. Do you include "u" after the verb? Attribute A9. Do you include "ka" after the verb? Attribute A10. Do you include "yo" after the verb? Attribute A11. Do you include the word with the meaning code 41 before the verb? ――――――――――――――――――――――――――――――――――― (Note) “41” is the semantic attribute of the verb in Table 1. Indicates the meaning code "confirmation".

【0049】[0049]

【表5】 属性リストのうち属性集合AS2 ――――――――――――――――――――――――――――――――――― 属性A3.動詞の前に「が」を含むか? 属性A6.動詞の後に「です」を含むか? 属性A7.動詞の後に「ます」を含むか? 属性A8.動詞の後に「う」を含むか? 属性A9.動詞の後に「か」を含むか? 属性A11.動詞の前に意味コード41の単語を含むか? ―――――――――――――――――――――――――――――――――――[Table 5] Attribute set AS2 in the attribute list ――――――――――――――――――――――――――――――――― Attribute A3. Do you include "ga" before the verb? Attribute A6. Do you include "is" after the verb? Attribute A7. Do you include "mas" after the verb? Attribute A8. Do you include "u" after the verb? Attribute A9. Do you include "ka" after the verb? Attribute A11. Do you include the word with the meaning code 41 before the verb? ―――――――――――――――――――――――――――――――――――

【0050】[0050]

【表6】 属性リストのうち属性集合AS3 ――――――――――――――――――――――――――――――――――― 属性A4.動詞の後に「差し上げる」を含むか? 属性A5.動詞の後に「ていただく」を含むか? 属性A6.動詞の後に「です」を含むか? 属性A7.動詞の後に「ます」を含むか? 属性A10.動詞の後に「よ」を含むか? 属性A11.動詞の前に意味コード41の単語を含むか? ―――――――――――――――――――――――――――――――――――[Table 6] Attribute set AS3 in attribute list ――――――――――――――――――――――――――――――――― Attribute A4. Do you include "given" after the verb? Attribute A5. Do you include "terechi" after the verb? Attribute A6. Do you include "is" after the verb? Attribute A7. Do you include "mas" after the verb? Attribute A10. Do you include "yo" after the verb? Attribute A11. Do you include the word with the meaning code 41 before the verb? ―――――――――――――――――――――――――――――――――――

【0051】[0051]

【表7】 属性リストのうち属性集合AS4 ――――――――――――――――――――――――――――――――――― 属性A1.動詞が「連絡」か? 属性A2.動詞が「取る」か? 属性A3.動詞の前に「が」を含むか? 属性A4.動詞の後に「差し上げる」を含むか? 属性A5.動詞の後に「ていただく」を含むか? 属性A9.動詞の後に「か」を含むか? ―――――――――――――――――――――――――――――――――――[Table 7] Attribute set AS4 in the attribute list ――――――――――――――――――――――――――――――――― Attribute A1. Is the verb "contact"? Attribute A2. Is the verb "take"? Attribute A3. Do you include "ga" before the verb? Attribute A4. Do you include "given" after the verb? Attribute A5. Do you include "terechi" after the verb? Attribute A9. Do you include "ka" after the verb? ―――――――――――――――――――――――――――――――――――

【0052】そして、属性表生成部11は、省略要素補
完済みテキストデータメモリ21内の省略要素補完済み
テキストデータと、属性リストメモリ20内の属性リス
トとに基づいて、各テキストデータの各文と、属性リス
トの各属性とのすべての組み合わせについてそれらを照
合して、各文毎に各属性が存在するか否か、及び省略要
素が何人称であるかの正解人称を示す属性表を生成して
属性表メモリ22に記憶する。ここで、属性集合AS1
に基づいて属性表AST1を生成し、属性集合AS2に
基づいて属性表AST2を生成し、属性集合AS3に基
づいて属性表AST3を生成し、属性集合AS4に基づ
いて属性表AST4を生成する。上記テキストデータ
は、日本語自然発話文の文字列からなり、その文の省略
要素の正解人称が予め補完されたものであり、上記属性
リストは、例えば、動詞の正規形と、動詞の意味属性
と、文末表現と、言語外情報としての話者情報とを含
む。当該属性表生成処理のフローチャートを図2に示
す。表4乃至表7に基づいて生成された属性表の一例を
次の表に示す。
Then, the attribute table generating unit 11 generates each sentence of each text data based on the omitted element complemented text data in the omitted element complemented text data memory 21 and the attribute list in the attribute list memory 20. , For all combinations with each attribute in the attribute list, generate an attribute table indicating whether each attribute exists for each sentence and the correct personal name of the omitted element. Stored in the attribute table memory 22. Here, the attribute set AS1
, An attribute table AST2 is generated based on the attribute set AS2, an attribute table AST3 is generated based on the attribute set AS3, and an attribute table AST4 is generated based on the attribute set AS4. The text data is composed of a character string of a Japanese natural utterance sentence, and the correct personal name of an abbreviated element of the sentence is complemented in advance. The attribute list includes, for example, a verb normal form and a verb semantic attribute. , A sentence end expression, and speaker information as out-of-language information. FIG. 2 shows a flowchart of the attribute table generation processing. An example of the attribute table generated based on Tables 4 to 7 is shown in the following table.

【0053】[0053]

【表8】 属性表AST1 ――――――――――――――――――――――――――――――――――― 文 1−6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― 属性A1 Y N Y N Y Y Y N N N 属性A2 N Y N Y N N N Y Y Y 属性A3 N N N N N N N N Y N 属性A4 Y N Y N Y N N N N N 属性A5 N N N Y N Y N N Y Y 属性A6 N N Y N N N N N Y N 属性A7 Y Y N Y Y Y Y Y N N 属性A8 Y N N N N N N N N N 属性A9 Y N N N N Y Y Y N Y 属性A10 N Y Y N N N N N N N 属性A11 Y N N Y N N N N N N ――――――――――――――――――――――――――――――――――― 正解人称 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――[Table 8] Attribute table AST1 ――――――――――――――――――――――――――――――――― Statement 1-6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― Attribute A1 Y N Y N Y Y Y Y N NN attribute A2 N Y N N N N N Y Y Y Attribute A3 N N N N N N N N N Y N N Attribute A4 Y N Y N N N N N N N N Attribute A5 N N N Y N Y N N N Y Y Attribute A6 N N Y N N N N N Y N N Attribute A7 Y Y N Y Y Y Y Y Y N N Attribute A8 Y N N N N N N N N N N N Attribute A9 Y N N N N Y Y Y N Y Attribute A10 N Y Y N N N N N N N Attribute A11 Y N N Y N N N N N N N ―――――――――――――――――――――――――――― ―――― ――― Correct answer 1 1 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――

【0054】[0054]

【表9】 属性表AST2 ――――――――――――――――――――――――――――――――――― 文 1−6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― 属性A3 N N N N N N N N Y N 属性A6 N N Y N N N N N Y N 属性A7 Y Y N Y Y Y Y Y N N 属性A8 Y N N N N N N N N N 属性A9 Y N N N N Y Y Y N Y 属性A11 Y N N Y N N N N N N ――――――――――――――――――――――――――――――――――― 正解人称 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――[Table 9] Attribute table AST2 ――――――――――――――――――――――――――――――――――― Statement 1-6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― Attribute A3 N N N N N N N N N YN attribute A6 N N Y N N N N N N Y N attribute A7 Y Y N Y Y Y Y Y Y N N attribute A8 Y N N N N N N N N N N attribute A9 Y N N N N N Y Y Y Y N Y Attribute A11 Y N N N N N N N N N ――――――――――――――――――――――――――――――――――― Correct person 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――

【0055】[0055]

【表10】 属性表AST3 ――――――――――――――――――――――――――――――――――― 文 1−6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― 属性A4 Y N Y N Y N N N N N 属性A5 N N N Y N Y N N Y Y 属性A6 N N Y N N N N N Y N 属性A7 Y Y N Y Y Y Y Y N N 属性A10 N Y Y N N N N N N N 属性A11 Y N N Y N N N N N N ――――――――――――――――――――――――――――――――――― 正解人称 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――[Table 10] Attribute table AST3 ――――――――――――――――――――――――――――――――― Statement 1-6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― Attribute A4 Y N Y N Y N N N N NN attribute A5 N N N Y N Y N N N Y Y attribute A6 N N Y N N N N N Y N N attribute A7 Y Y N Y Y Y Y Y Y N N N attribute A10 N Y Y N N N N N N N N Attribute A11 Y N N N N N N N N N ――――――――――――――――――――――――――――――――――― Correct person 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――

【0056】[0056]

【表11】 属性表AST4 ――――――――――――――――――――――――――――――――――― 文 1−6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― 属性A1 Y N Y N Y Y Y N N N 属性A2 N Y N Y N N N Y Y Y 属性A3 N N N N N N N N Y N 属性A4 Y N Y N Y N N N N N 属性A5 N N N Y N Y N N Y Y 属性A9 Y N N N N Y Y Y N Y ――――――――――――――――――――――――――――――――――― 正解人称 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――[Table 11] Attribute table AST4 ――――――――――――――――――――――――――――――――― Statement 1-6 7 8 9 10 11 12 13 14 15 ――――――――――――――――――――――――――――――――――― Attribute A1 Y N Y N Y Y Y Y N NN attribute A2 N Y N N N N N Y Y Y Attribute A3 N N N N N N N N N Y N N Attribute A4 Y N Y N N N N N N N N Attribute A5 N N N Y N Y N N N Y Y Attribute A9 Y N N N N Y Y Y N Y ---------------------------------------------------------------- 1 1 1 1 1 2 2 2 2 2 ―――――――――――――――――――――――――――――――――――

【0057】さらに、決定木学習部12−1乃至12−
Mはそれぞれ、属性表メモリ22内の属性表に基づい
て、「補完すべき主語の正解人称情報」(なお、本実施
形態では、主語の正解人称情報であるが、本発明は主語
に限らず、直接目的語、間接目的語などの省略要素であ
ってもよい。)を決定するための決定木DT1乃至DT
4を生成して、対応する決定木ファイルメモリ23−1
乃至23−Mに記憶する。その決定木DT1乃至DT4
の一例を図8乃至図11に示す。ここで、図8の決定木
DT1は属性集合AS1に基づいて生成された属性表A
ST1に基づいて生成された決定木であり、図9の決定
木DT2は属性集合AS2に基づいて生成された属性表
AST2に基づいて生成された決定木であり、図10の
決定木DT3は属性集合AS3に基づいて生成された属
性表AST3に基づいて生成された決定木であり、図1
1の決定木DT4は属性集合AS4に基づいて生成され
た属性表AST4に基づいて生成された決定木である。
当該決定木は、各属性の属性値に依存して分割されるよ
うな二分木形式の木構造を有する省略要素の正解人称を
決定するための決定木である。
Further, the decision tree learning units 12-1 to 12-
Each of M is based on the attribute table in the attribute table memory 22 based on “correct correct person information of the subject to be complemented” (in the present embodiment, correct subject personal information of the subject, but the present invention is not limited to the subject. , May be omitted elements such as direct objects, indirect objects, etc.).
4 and generates the corresponding decision tree file memory 23-1.
To 23-M. The decision trees DT1 to DT4
8 to 11 are shown in FIGS. Here, the decision tree DT1 in FIG. 8 is an attribute table A generated based on the attribute set AS1.
The decision tree DT2 of FIG. 9 is a decision tree generated based on the attribute table AST2 generated based on the attribute set AS2, and the decision tree DT3 of FIG. FIG. 1 is a decision tree generated based on an attribute table AST3 generated based on a set AS3.
The first decision tree DT4 is a decision tree generated based on the attribute table AST4 generated based on the attribute set AS4.
The decision tree is a decision tree for determining a correct person of an omitted element having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute.

【0058】上記決定木学習処理のフローチャートを図
3に示す。また、図3の決定木生成処理の具体的な処理
を、図4のフローチャートに示す。図4において、ま
ず、ステップS21ですべての各属性による分割後のエ
ントロピーHと分割前のエントロピーH0を計算し、ス
テップS22でエントロピーの差(H0−H)が最大の
属性を選択し、ステップS23で選択された属性値によ
り分割したノードを生成して決定木を更新する。そし
て、ステップS24で更新したノードの下の属性値が単
一か、すなわち、決定結果を示すリーフノードか否かが
判断され、NOのとき、ステップS25で生成したノー
ドを処理対象としてステップS21からの処理を続け
る。一方、ステップS24でYESであれば、当該決定
木生成処理を終了してメインルーチンに戻る。すなわ
ち、決定木学習部12は、属性表メモリ22内の属性表
に基づいて、すべての属性による分割後のエントロピー
と分割前のエントロピーとの差が最大の属性を選択し
て、選択された属性値により分割されたノードを生成す
るように決定木を、リーフノードに到達するまで更新す
るように学習することにより、決定木を生成する。
FIG. 3 shows a flowchart of the decision tree learning process. Further, a specific process of the decision tree generation process of FIG. 3 is shown in a flowchart of FIG. 4, first, all the entropy H 0 before division entropy H after division by each attribute calculated in step S21, the difference between the entropy (H 0 -H) selects the greatest attribute in step S22, A node divided by the attribute value selected in step S23 is generated to update the decision tree. Then, it is determined whether the attribute value under the node updated in step S24 is single, that is, whether or not it is a leaf node indicating the determination result. If NO, the node generated in step S25 is set as a processing target and the process proceeds from step S21. Continue processing. On the other hand, if YES is determined in the step S24, the decision tree generating process ends and the process returns to the main routine. That is, the decision tree learning unit 12 selects, based on the attribute table in the attribute table memory 22, the attribute having the largest difference between the entropy after the division by all the attributes and the entropy before the division, and selects the selected attribute. The decision tree is generated by learning to update the decision tree until a leaf node is reached so as to generate a node divided by a value.

【0059】ここで、決定木学習処理の一例を示す。入
力される正解人称のデータが{11111111112
2222}であるときの初期状態のエントロピーは次式
の通り計算される。
Here, an example of the decision tree learning process will be described. The input correct personal name data is $ 11111111112
The initial state entropy at 2222 ° is calculated as follows.

【0060】[0060]

【数5】−(10/15)×log2(10/15)−(5/1
5)×log2(5/15)=0.918
(5) − (10/15) × log 2 (10/15) − (5/1
5) × log 2 (5/15) = 0.918

【0061】そして、属性AS1によって正解を分類し
たとき、すなわち、{Yes}{No}={11111
11122}{11222}であるときの全体のエント
ロピーは次式の通り計算される。
Then, when the correct answer is classified according to the attribute AS1, that is, {Yes} No} = {11111
The total entropy when 11122 {11222} is calculated as follows:

【0062】[0062]

【数6】(10/15)×{−(7/10)×log2(7/1
0)−(3/10)×log2(3/10)}+(5/15)×{−
(2/5)×log2(2/5)−(3/5)×log2(3/5)}=
0.911
(10/15) × {− (7/10) × log 2 (7/1
0) − (3/10) × log 2 (3/10)} + (5/15) × {−
(2/5) × log 2 (2/5) − (3/5) × log 2 (3/5)} =
0.911

【0063】さらに、属性AS1を採用したときのエン
トロピーの減少量(差)は次式の通り計算される。
Further, the amount of decrease (difference) in entropy when the attribute AS1 is adopted is calculated as follows.

【0064】[0064]

【数7】0.918−0.911=0.0070.98−0.911 = 0.007

【0065】同様に、各属性に対してエントロピーの減
少量(差)を計算して、次の表を得る。
Similarly, the entropy reduction (difference) is calculated for each attribute to obtain the following table.

【0066】[0066]

【表12】 ――――――――――――――――――――――――――――――――――― 属性 正解人称のデータ エントロピー エントロピーの減少量 ――――――――――――――――――――――――――――――――――― 属性AS1 {1111111122}{11222} 0.911 0.007 属性AS2 {11222}{1111111122} 0.805 0.113 属性AS3 {2}{11111111112222} 0.806 0.112 属性AS4 {11111111}{1122222} 0.403 0.515 属性AS5 {1222}{11111111122} 0.718 0.200 属性AS6 {12}{1111111112222} 0.905 0.013 属性AS7 {111111111222}{122} 0.833 0.085 属性AS8 {111111}{111122222} 0.595 0.323 属性AS9 {1111112222}{11112} 0.888 0.030 属性AS10 {11}{1111111122222} 0.833 0.085 属性AS11 {1111111}{11122222} 0.509 0.409 ―――――――――――――――――――――――――――――――――――[Table 12] ――――――――――――――――――――――――――――――――――― Attribution Correct person data Entropy Reduction of entropy ― ―――――――――――――――――――――――――――――――― Attribute AS1 {1111111122} {11222} 0.911 0.007 Attribute AS2 {11222} {1111111122} 0.805 0.113 Attribute AS3 {2} {11111111112222} 0.806 0.112 Attribute AS4 {11111111} {1122222} 0.403 0.515 Attribute AS5 {1222} {11111111122} 718 0.200 Attribute AS6 {12} {1111111112222} 0.905 0.013 Attribute AS7 {111111111222} {122} 0.833 0.085 Attribute AS8 {111111} {111122222} 0.595 0.323 Attribute AS9 {1111112222 } {11112} 0.888 0.030 Attribute AS10 {11} {1111111122222} 0.833 0.085 Attribute S11 {1111111} {11122222} 0.509 0.409 -----------------------------------

【0067】この処理例では、エントロピーの減少量が
最大の属性AS4が選択されて、当該属性値により分割
したノードを生成して決定木を更新する。
In this processing example, the attribute AS4 whose entropy reduction amount is the largest is selected, a node divided by the attribute value is generated, and the decision tree is updated.

【0068】一方、属性値抽出部13は、例えば、キー
ボードなどの入力手段を用いて入力され又は音声認識装
置によって音声認識された自然発話文の文字列、もしく
は、ハードデイスクメモリに記憶された自然発話文の文
字列に基づいて、属性リストメモリ20内の属性リスト
を参照して、各属性毎に照合を行うことにより各属性が
存在するか否かを示す属性値を抽出して、バッファメモ
リ24を介して省略要素補完部14−1乃至14−Mに
出力する。この属性値抽出部13の属性値抽出処理を図
5のフローチャートに示す。
On the other hand, the attribute value extracting unit 13 outputs a character string of a natural utterance sentence input using an input means such as a keyboard or recognized by a voice recognition device, or a natural utterance stored in a hard disk memory. Based on the character string of the sentence, by referring to the attribute list in the attribute list memory 20 and comparing each attribute, an attribute value indicating whether or not each attribute exists is extracted, and the buffer memory 24 Through the omission element complementing units 14-1 to 14-M. The attribute value extraction processing of the attribute value extraction unit 13 is shown in the flowchart of FIG.

【0069】さらに、省略要素補完部14−1乃至14
−Mはそれぞれ、入力される属性値に対して、決定木フ
ァイルメモリ23−1乃至23−M内の各決定木DT1
乃至DT4を用いて、主語の正解人称の解答候補を決定
して省略要素補完選択部15に出力し、これに応答し
て、省略要素補完選択部15は、各省略要素補完部14
−1乃至14−Mからの解答候補のうち最大の頻度を有
する解答候補(もしくは、複数n個のより大きな頻度を
有する解答候補(n−best)であってもよい。)を
最終的な解答として選択して、その正解人称を含む省略
要素が補完された文字列を生成して、メモリ、プリンタ
又は表示装置などの外部装置に出力する。
Further, the omitted element complementing sections 14-1 to 14-1
Each of the decision trees DT1 in the decision tree file memories 23-1 to 23-M corresponds to the input attribute value.
Using DT4 to DT4, the candidate correct answer person of the subject is determined and output to the omitted element complementing selection unit 15, and in response to this, the omitted element complementing selecting unit 15
The answer candidate having the highest frequency among the answer candidates from -1 to 14-M (or a plurality of n-number of answer candidates having the higher frequency (n-best) may be the final answer). To generate a character string in which the omitted element including the correct person is complemented and output to an external device such as a memory, a printer, or a display device.

【0070】各省略要素補完部14−1乃至14−Mに
よって実行される省略要素補完処理を図6のフローチャ
ートを示す。図6において、まず、ステップS41で決
定木の読み込みを行い、ステップS42で抽出された属
性値を読み込む。次いで、ステップS43で決定木のル
ーフノードを処理対象のカレントノードとし、ステップ
S44でカレントノードがリーフノードであるか否かが
判断され、NOのときはステップS45でカレントノー
ドの属性値に基づいて対応する子ノード(決定木のより
下側に位置するノード)を処理対象のカレントノードと
して、ステップS44に戻る。ステップS44でYES
のときは、正解人称を決定することができたので、ステ
ップS46でその正解人称を含む省略要素の解答候補を
出力して、当該省略要素補完処理を終了する。
FIG. 6 is a flowchart showing the omitted element complementing process executed by each of the omitted element complementing units 14-1 to 14-M. In FIG. 6, first, a decision tree is read in step S41, and the attribute values extracted in step S42 are read. Next, in step S43, the roof node of the decision tree is set as the current node to be processed. In step S44, it is determined whether the current node is a leaf node. If NO, the process proceeds to step S45 based on the attribute value of the current node. The corresponding child node (the node located below the decision tree) is set as the current node to be processed, and the process returns to step S44. YES in step S44
In the case of, since the correct person has been determined, the answer candidate of the omitted element including the correct person is output in step S46, and the omitted element complementing process ends.

【0071】ここで、文1乃至文15の単語のうち、単
語「差し上げる」が誤って単語「召し上がる」と認識さ
れて入力された場合を考える。すなわち、次の表に示す
文字列が入力される場合についての処理例について示
す。
Here, a case is considered in which, of the words of sentences 1 to 15, the word "present" is erroneously recognized and input as the word "call". That is, an example of processing when a character string shown in the following table is input will be described.

【0072】[0072]

【表13】 ――――――――――――――――――――――――――――――――――― 文1’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文2’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文3’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文4’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文5’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文6’.決まる/しだい/ご/*連絡*/召し上がる/ます/う/か 文8’.すぐに/*連絡*/召し上がる/た/ん/です/よ 文10’.明日/ご/*連絡*/召し上がる/ておる/ます ―――――――――――――――――――――――――――――――――――[Table 13] ――――――――――――――――――――――――――――――――― Statement 1 '. Decided / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 2 '. Determined / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 3 '. Decided / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 4 '. Decided / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 5 '. Decided / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 6 '. Decided / Dependent / Your / * Contact * / Eat / Masu / U / ka Sentence 8 '. Immediately / * Contact * / Eat / Ta / N / I / Yo Sentence 10 '. Tomorrow / your / * contact * / eat / have / /----------------

【0073】従来例の手法では属性集合AS1のみを判
断基準にして主語の補完を行なうため、文10は正しく
1人称と補完されるが、文1乃至文6並びに文8は2人
称と判断されてしまう。すなわち、8文中7文が誤った
補完結果を出力してしまう。一方、本実施形態の手法で
は、属性集合AS1乃至AS4の4個の決定木を用いた
各省略要素補完部14が出力した解答候補のうち、最も
頻度の高い解答候補を最終的な解答として選択する。す
なわち、
In the conventional method, the subject is complemented using only the attribute set AS1 as a criterion, so that sentence 10 is correctly complemented with the first person, but sentences 1 through 6 and sentence 8 are judged as the second person. Would. That is, seven out of eight sentences output incorrect complement results. On the other hand, in the method of the present embodiment, the answer candidate with the highest frequency is selected as the final answer among the answer candidates output by the omitted element complementing units 14 using the four decision trees of the attribute sets AS1 to AS4. I do. That is,

【数8】文1’.決まる/しだい/ご/*連絡*/召し
上がる/ます/う/か が入力された場合に、属性集合AS1から得られる決定
木DT1では2人称(頻度4)を解答候補とし、同様
に、次の表の結果を得る。
## EQU8 ## Sentence 1 '. When determined / depending / go / * contact * / enjoy / masu / u / ka is input, in the decision tree DT1 obtained from the attribute set AS1, the second person (frequency 4) is set as the answer candidate. Obtain the results in the table.

【0074】[0074]

【表14】 ―――――――――――――――――――――― 決定木 解答候補 頻度 ―――――――――――――――――――――― 決定木DT1 2人称 頻度 4 決定木DT2 1人称 頻度 7 決定木DT3 1人称 頻度 1 決定木DT4 1人称 頻度 4 ――――――――――――――――――――――[Table 14] ―――――――――――――――――――――― Decision Tree Answer Candidate Frequency ――――――――――――――――――― ――― Decision tree DT1 2nd person frequency 4 Decision tree DT2 1st person frequency 7 Decision tree DT3 1st person frequency 1 Decision tree DT4 1st person frequency 4 ――――――――――――――――――― ―――

【0075】このうち、学習時に最も頻度の高かった解
答候補である決定木DT2の解答、すなわち1人称が選
択され、正しく補完される。同様に、文2’乃至文
6’、文8’は正しく補完される(文10’は誤った解
を出力する)。すなわち、従来例の手法で8文中7文が
誤っていたこれらの文を、7文正解させることができ、
誤入力による精度の劣化を最小限に抑えることができ
る。
Of these, the answer of the decision tree DT2, which is the answer candidate with the highest frequency at the time of learning, that is, the first person is selected and complemented correctly. Similarly, sentences 2 'to 6' and sentence 8 'are correctly complemented (sentence 10' outputs an incorrect solution). That is, these sentences, in which seven sentences out of eight sentences were incorrect by the conventional method, can be correctly answered by seven sentences,
Accuracy degradation due to erroneous input can be minimized.

【0076】次いで、同様に、何らかの理由により
「か」が「ね」に誤った場合を考える。すなわち、次の
表に示す文が入力された場合を考える。
Next, similarly, consider a case where "ka" is mistaken for "ne" for some reason. That is, consider a case where a sentence shown in the following table is input.

【0077】[0077]

【表15】 ――――――――――――――――――――――――――――――――――― 文1”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文2”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文3”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文4”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文5”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文6”.決まる/しだい/ご/*連絡*/差し上げる/ます/う/ね 文11”.ご/*連絡*/する/ていただく/ます/ね 文12”.だから/それ/まで/に/*連絡*/する/ていただける/ます/ね 文13”.はい/じゃあ/メモ/でも/*取る*/てもらえる/ます/ね 文15”.ゆっくり/夕食/を/*取る*/ていただく/の/は/いかが/でし ょう/ね ―――――――――――――――――――――――――――――――――――[Table 15] ――――――――――――――――――――――――――――――――― Statement 1 ”. Contact * / Give / Masu / U / Ne Sentence 2 ". Determined / Dependent / go / * Contact * / Give / Music / U / Ne Sentence 3 ". Decided / Desired / Go / * Contact * / Give / Mus / U / Ne Sentence 4". Determined / Dependent / go / * Contact * / Give / Music / U / Ne Sentence 5 ". Determined / Desired / Go / * Contact * / Give / Music / U / Ne Sentence 6". Determined / Dependent / Your / * Contact * / Give / Mus / U / Ne Sentence 11 ". So / that / until / to / * contact * / do / you can / can / ne sentence 13 ". Yes / then / memo / even / * take * / get / get / ne sentence 15". Slowly / Dinner /// * Take * / Take / No / Ha / How // ---―――――――――――――――――――――――――― ――――――――――

【0078】これらのうち、従来例の手法の決定木DT
1のみを使った手法では、文11”、文12”、文1
3”、文15”の4文が誤った解答を出すのに対し、本
実施形態の手法では、上のすべての文において正しい解
を出力する。
Of these, the decision tree DT of the prior art method
In the method using only 1, sentence 11 ″, sentence 12 ″, sentence 1
While four sentences of 3 ″ and sentence 15 ″ give incorrect answers, the method of the present embodiment outputs correct solutions for all of the above sentences.

【0079】本発明に係る実施形態の手法が有効的に機
能する理由は次のように考えられる。従来例の手法は決
定木に含まれる属性の存在を疑う必要がなかったため、
もし入力においてこれらの属性、例えば「差し上げる」
に誤りがあった場合に有効に機能しない。ところが、本
発明に係る実施形態では、「差し上げる」を属性に含ま
ない決定木も作成してあり(決定木DT2)、別の観点
から補完を試みていることに相当する。このため補完に
必要な情報として「差し上げる」の存在に極度に依存す
ることを回避することができ、もし仮に「差し上げる」
が削除もしくは別の語に置換されていたとしても「前に
意味コード41の単語を含む」など、その他の補完に有
効な属性によって正しく補完でき、またその結果まとま
りのある決定木を作成している。これによって「差し上
げる」が含まれない場合に属性集合AS1などでは低頻
度のリーフノードにたどりつくのに対して、この場合唯
一正しい決定木である決定木AS2では高頻度のリーフ
ノードにたどりつく可能性が比較的高いと予想される。
本発明に係る実施形態は、この性質を利用して、複数の
決定木から得られる補完候補を学習時のリーフノードの
頻度によって順位付けしている。
The reason why the method of the embodiment according to the present invention works effectively is considered as follows. In the conventional method, there was no need to doubt the existence of attributes included in the decision tree,
If these attributes in the input, for example, "given"
Does not work effectively if there is an error in However, in the embodiment according to the present invention, a decision tree that does not include “given” as an attribute is also created (decision tree DT2), which corresponds to trying complementation from another viewpoint. For this reason, it is possible to avoid being extremely dependent on the existence of "give" as information necessary for complementation.
Even if is deleted or replaced with another word, it can be correctly complemented with other valid attributes such as "including the word with the meaning code 41 before", and as a result, a coherent decision tree is created I have. As a result, in the case where the “given” is not included, the attribute set AS1 or the like can reach a low-frequency leaf node, whereas in this case, the decision tree AS2 that is the only correct decision tree may reach a high-frequency leaf node. Expected to be relatively high.
In the embodiment according to the present invention, by utilizing this property, the complement candidates obtained from a plurality of decision trees are ranked according to the frequency of the leaf nodes at the time of learning.

【0080】なお、属性表生成部11と、決定木学習部
12と、属性値抽出部13と、省略要素補完部14と、
省略要素補完選択部15とは、例えば、CPUを備えた
ディジタル計算機で構成され、属性リストメモリ20
と、省略要素補完済みテキストデータメモリ21と、属
性表メモリ22と、決定木ファイルメモリ23と、バッ
ファメモリ24とは、例えばハードディスクメモリで構
成される。
The attribute table generating unit 11, the decision tree learning unit 12, the attribute value extracting unit 13, the omitted element complementing unit 14,
The omitted element complement selection unit 15 is constituted by, for example, a digital computer having a CPU, and includes an attribute list memory 20.
The abbreviation element-completed text data memory 21, the attribute table memory 22, the decision tree file memory 23, and the buffer memory 24 are constituted by, for example, a hard disk memory.

【0081】以上の実施形態においては、結果的に代名
詞の補完に影響しない項目を属性事項に挙げた場合は、
それらの属性は決定木生成部12で自動的に不採用とな
り、結果的に補完の精度に悪影響を与えないため、恣意
的にならず、また言語学的に高度な内省も行なう必要も
ない。ここでは木は二分木としたが、多分木も全く同一
の技術で応用できる。また、目的語の省略など、主語補
完以外でも全く同一の技術で応用できる。本発明は、日
本語だけでなく、同様の省略現象を持つ言語、例えば韓
国語にも応用できる。
In the above embodiment, if an item that does not affect the complement of a pronoun is listed as an attribute item,
Since these attributes are automatically rejected by the decision tree generation unit 12 and do not adversely affect the accuracy of the complementation as a result, there is no need to make any arbitrariness and to perform sophisticated linguistic introspection. . Here, the tree is a binary tree, but a multiple tree can also be applied using exactly the same technology. In addition, the present invention can be applied with exactly the same technology other than subject complementation such as omitting an object. The present invention can be applied not only to Japanese but also to languages having a similar omission phenomenon, for example, Korean.

【0082】以上説明したように、本実施形態によれ
ば、多要素が複雑に影響する日本語格要素省略補完に対
して、決定木という技術を導入することで、人手を介す
ことなく補完に必要な多くの情報の影響関係を自動的に
把握し、省略された格要素を自動的に決定することがで
きる。また、複数の属性表に対応した複数の決定木を生
成して、各決定木毎に解答候補を得て、最大の頻度を有
する解答候補を正解の省略要素としているので、従来例
に比較して高精度で省略要素を補完することができる。
また、複数の属性表に対応した複数の決定木を生成し
て、各決定木毎に解答候補を得て、最大の頻度を有する
解答候補を正解の語義としているので、入力に誤りを含
む場合に、従来例に比較して高精度で語義を決定するこ
とができる。
As described above, according to the present embodiment, a technique called a decision tree is introduced for the Japanese case element elimination and complementation in which multiple elements affect in a complicated manner without manual intervention. Automatically grasps the influence relationship of many pieces of information necessary for, and can automatically determine omitted case elements. In addition, a plurality of decision trees corresponding to a plurality of attribute tables are generated, an answer candidate is obtained for each decision tree, and the answer candidate having the highest frequency is used as an omission element of a correct answer. Elements can be complemented with high precision.
In addition, since a plurality of decision trees corresponding to a plurality of attribute tables are generated, an answer candidate is obtained for each decision tree, and the answer candidate having the highest frequency is regarded as a correct meaning, so that an error is included in the input. In addition, the meaning can be determined with higher accuracy than in the conventional example.

【0083】<第2の実施形態>図12は、本発明に係
る第2の実施形態である翻訳装置のための語義決定装置
の構成を示すブロック図である。この第2の実施形態
は、英語から日本語への翻訳装置のための語義決定に用
いられ、図1の第1の実施形態に比較して以下の点が異
なる。 (1)省略要素補完済みテキストデータメモリ21に代
えて、英文に対して日本語訳が語義として付与された語
義決定済みテキストデータを格納する語義決定済みテキ
ストデータメモリ21aを備える。 (2)属性リストメモリ20に代えて、英文の文の種
類、時制、主語の種類、目的語の種類を含む属性の属性
リストを格納する属性リストメモリ20aを備える。 (3)属性表リストメモリ22に代えて、属性表リスト
メモリ22aを備え、ここに、属性リストメモリ20a
内の属性リストに基づいて生成された属性表が格納され
る。 (4)決定木ファイルメモリ23−1乃至23−Mに代
えて決定木ファイルメモリ23a−1乃至23a−M
(総称して23aと付す。)を備え、ここに、属性表メ
モリ22a内の各属性表に基づいて生成された決定木が
格納される。 (5)省略要素補完部14−1乃至14−Mに代えて、
語義決定部14a−1乃至14a−M(総称して14a
と付す。)を備え、語義決定部14aはそれぞれ、入力
される属性値に対して、決定木ファイルメモリ23a−
1乃至23a−M内の各決定木を用いて、入力された英
文の意味を表す語義の解答候補を決定して出力する。 (6)省略要素補完選択部15に代えて、語義決定選択
部15aを備え、語義決定選択部15aは、各語義決定
部14a−1乃至14a−Mからの解答候補のうち最大
の頻度を有する解答候補(もしくは、複数n個のより大
きな頻度を有する解答候補(n−best)であっても
よい。)を最終的な解答として選択して、その語義が決
定された日本語の文字列を生成して、メモリ、プリンタ
又は表示装置などの外部装置に出力する。
<Second Embodiment> FIG. 12 is a block diagram showing a configuration of a meaning determining device for a translation device according to a second embodiment of the present invention. This second embodiment is used for determining the meaning of an English to Japanese translation device, and differs from the first embodiment of FIG. 1 in the following points. (1) Instead of the text data memory 21 with completed omitted elements, a semantically determined text data memory 21a for storing semantically determined text data in which a Japanese translation is added as a meaning to an English sentence is provided. (2) Instead of the attribute list memory 20, an attribute list memory 20a for storing an attribute list of attributes including English sentence type, tense, subject type, and object type is provided. (3) An attribute table list memory 22a is provided in place of the attribute table list memory 22, where the attribute list memory 20a is provided.
The attribute table generated based on the attribute list in is stored. (4) Decision tree file memories 23a-1 to 23a-M instead of decision tree file memories 23-1 to 23-M
(Collectively referred to as 23a), in which a decision tree generated based on each attribute table in the attribute table memory 22a is stored. (5) Instead of the omitted element complementers 14-1 to 14-M,
Meaning determination units 14a-1 to 14a-M (collectively, 14a
Attached. ), And the meaning determining unit 14a respectively determines the input attribute values by using the decision tree file memory 23a-
By using each of the decision trees in 1 to 23a-M, a meaningful answer candidate representing the meaning of the input English sentence is determined and output. (6) A semantic decision selecting section 15a is provided in place of the omitted element complement selecting section 15, and the semantic decision selecting section 15a has the highest frequency among the answer candidates from each of the semantic determining sections 14a-1 to 14a-M. An answer candidate (or a plurality of n answer candidates having a higher frequency (n-best) may be selected) as a final answer, and a Japanese character string whose meaning is determined is selected. Generate and output to an external device such as a memory, printer or display device.

【0084】次いで、第2の実施形態における処理例と
して、英語動詞の”take”の語義決定(又は日本語
訳決定)の処理について説明する。語義決定済みテキス
トデータメモリ21a内の語義決定済みテキストデータ
の一例を次の表に示す。
Next, as an example of processing in the second embodiment, the processing of determining the meaning of the English verb “take” (or determining the Japanese translation) will be described. An example of the text data for which the meaning has been determined in the text data memory 21a for which the meaning has been determined is shown in the following table.

【0085】[0085]

【表16】 ――――――――――――――――――――――――――――――――――― 番号 日本語訳 英文 ――――――――――――――――――――――――――――――――――― 文101. かかる It takes five minutes. 文102. かかる It takes three days. 文103. かかる It takes five minutes. 文104. かかる It takes about an hour. 文105. かかる It took ten minutes. 文106. かかる It takes thirty minutes. 文107. かかる It will take us in twenty minutes. 文108. 乗る I take a bus to the airport. 文109. 乗る Are you taking a train? 文110. 乗る I am taking a shuttle bus today. 文111. 連れていく Are you going to take me to downtown? 文112. 連れていく It takes you to the station. ―――――――――――――――――――――――――――――――――――[Table 16] ――――――――――――――――――――――――――――――――――――――――――――――――― Number Japanese Translation English ―――――― ――――――――――――――――――――――――――――― Statement 101. Such It takes five minutes. Such It takes three days. Such It takes five minutes. Such It takes about an hour. Such It took ten minutes. Such It takes thirty minutes. Sentence 108. It will take us in twenty minutes. Ride I take a bus to the airport. Get on Are you taking a train? Ride I am taking a shuttle bus today. Are you going to take me to downtown? Take it It takes you to the station. ―――――――――――――――――――――――――――――――――――

【0086】次いで、属性リストメモリ20aに格納さ
れる属性リストのうちの属性集合の一例を次の表に示
す。
Next, an example of an attribute set in the attribute list stored in the attribute list memory 20a is shown in the following table.

【0087】[0087]

【表17】 属性リストのうちの属性集合AS11 ――――――――――――――――――――――――――――――――――― 属性A101. 文が平叙文か? 属性A102. 文が疑問文か? 属性A103. 文が命令文か? 属性A104. 時制が現在形か? 属性A105. 時制が過去形か? 属性A106. 時制が未来形か? 属性A107. 主語がIか? 属性A108. 主語がyouか? 属性A109. 主語がitか? 属性A110. 目的語が乗り物か? 属性A111. 目的語が時間か? 属性A112. 目的語が人か? ―――――――――――――――――――――――――――――――――――[Table 17] Attribute set AS11 in the attribute list ――――――――――――――――――――――――――――――――― Attribute A101. Is the sentence declarative? Attribute A102. Is the sentence questionable? Attribute A103. Is the statement imperative? Attribute A104. Is the tense present tense? Attribute A105. Is the tense a past tense? Attribute A106. Is the tense a future tense? Attribute A107. Is the subject I? Attribute A108. Is your subject you? Attribute A109. Is the subject it? Attribute A110. Is the object a vehicle? Attribute A111. Is the object time? Attribute A112. Is the object a person? ―――――――――――――――――――――――――――――――――――

【0088】[0088]

【表18】 属性リストのうちの属性集合AS12 ――――――――――――――――――――――――――――――――――― 属性A104. 時制が現在形か? 属性A106. 時制が未来形か? 属性A108. 主語がyouか? 属性A109. 主語がitか? 属性A111. 目的語が時間か? 属性A112. 目的語が人か? ―――――――――――――――――――――――――――――――――――[Table 18] Attribute set AS12 in the attribute list ――――――――――――――――――――――――――――――――― Attribute A104. Is the tense present tense? Attribute A106. Is the tense a future tense? Attribute A108. Is your subject you? Attribute A109. Is the subject it? Attribute A111. Is the object time? Attribute A112. Is the object a person? ―――――――――――――――――――――――――――――――――――

【0089】[0089]

【表19】 属性リストのうちの属性集合AS13 ――――――――――――――――――――――――――――――――――― 属性A101. 文が平叙文か? 属性A102. 文が疑問文か? 属性A104. 時制が現在形か? 属性A106. 時制が未来形か? 属性A110. 目的語が乗り物か? 属性A112. 目的語が人か? ―――――――――――――――――――――――――――――――――――[Table 19] Attribute set AS13 in the attribute list ――――――――――――――――――――――――――――――――― Attribute A101. Is the sentence declarative? Attribute A102. Is the sentence questionable? Attribute A104. Is the tense present tense? Attribute A106. Is the tense a future tense? Attribute A110. Is the object a vehicle? Attribute A112. Is the object a person? ―――――――――――――――――――――――――――――――――――

【0090】[0090]

【表20】 属性リストのうちの属性集合AS14 ――――――――――――――――――――――――――――――――――― 属性A101. 文が平叙文か? 属性A102. 文が疑問文か? 属性A105. 時制が過去形か? 属性A106. 時制が未来形か? 属性A110. 目的語が乗り物か? 属性A111. 目的語が時間か? ―――――――――――――――――――――――――――――――――――[Table 20] Attribute set AS14 in attribute list ――――――――――――――――――――――――――――――――― Attribute A101. Is the sentence declarative? Attribute A102. Is the sentence questionable? Attribute A105. Is the tense a past tense? Attribute A106. Is the tense a future tense? Attribute A110. Is the object a vehicle? Attribute A111. Is the object time? ―――――――――――――――――――――――――――――――――――

【0091】図13乃至図16はそれぞれ、第2の実施
形態で用いる属性集合AS11乃至AS14に基づいて
決定木学習部12−1乃至12−Mにより生成された決
定木DT11乃至DT14の一例を示す木構造図であ
る。属性表生成部11と決定木学習部12−1乃至12
−Mの処理は第1の実施形態と同様であり、ここでは省
略する。なお、属性表は、各文において各属性が存在す
るか否か、及び各文での正解語義を含む。
FIGS. 13 to 16 show examples of decision trees DT11 to DT14 generated by the decision tree learning units 12-1 to 12-M based on the attribute sets AS11 to AS14 used in the second embodiment, respectively. It is a tree structure diagram. Attribute table generation unit 11 and decision tree learning units 12-1 to 12
The processing of -M is the same as that of the first embodiment, and is omitted here. The attribute table includes whether each attribute exists in each sentence, and the correct meaning of each sentence.

【0092】次いで、第2の実施形態の装置における処
理例として、仮に目的語部分の時間がすべて誤って誤認
識された場合を考える。すなわち、文101の目的語が
誤認識され、
Next, as an example of processing in the apparatus of the second embodiment, consider the case where all the times of the object part are erroneously recognized. That is, the object of sentence 101 is misrecognized,

【数9】文101’.It takes five minuets. が入力されたと仮定する。Sentence 101 '. Suppose that It takes five minuets. Has been entered.

【0093】この場合において、従来の手法では属性集
合AS11のみを判断基準にして語義決定を行なうた
め、文101’においては「連れていく」と判断され、
同様に文102’、文103’、文104’、文10
6’の4文においても、目的語が誤った場合は「連れて
いく」と判断される。また文105’は「かかる」と判
断され、いずれも誤った語義を出力してしまう。
In this case, in the conventional method, since the meaning is determined based on only the attribute set AS11 as a criterion, the sentence 101 'is determined to be "taken".
Similarly, sentence 102 ′, sentence 103 ′, sentence 104 ′, sentence 10
Also in the four sentences 6 ′, if the object is incorrect, it is determined that “take”. Also, the sentence 105 'is determined to be "taken", and all of them output incorrect meanings.

【0094】本発明の実施形態の手法では、属性集合A
S11,AS12,AS13,AS14の4個の決定木
が出力した解答候補のうち、最も頻度の高い解答候補を
最終的な解答候補として選択する。すなわち、
In the method of the embodiment of the present invention, the attribute set A
Among the answer candidates output by the four decision trees S11, AS12, AS13, and AS14, the answer candidate with the highest frequency is selected as the final answer candidate. That is,

【数10】文101’.It takes five minuets. が入力された場合に、属性集合AS11から得られる決
定木DT11では「連れていく」(頻度 1)を解答候
補とし、同様に、次の表に示す結果を得る。
Sentence 101 '. When "It takes five minuets." Is input, in the decision tree DT11 obtained from the attribute set AS11, "take" (frequency 1) is set as the answer candidate, and similarly, the results shown in the following table are obtained.

【0095】[0095]

【表21】 ――――――――――――――――――――――――――――――――――― 決定木 解答候補 頻度 ――――――――――――――――――――――――――――――――――― 決定木DT11 連れていく 1 決定木DT12 連れていく 1 決定木DT13 かかる 6 決定木DT14 連れていく 1 ―――――――――――――――――――――――――――――――――――[Table 21] ――――――――――――――――――――――――――――――――― Decision tree Answer candidate frequency ―――――― ――――――――――――――――――――――――――――― Decision Tree DT11 Take 1 Decision Tree DT12 Take 1 Decision Tree DT13 Take 6 Decision Tree DT14 Take 1 ――――――――――――――――――――――――――――――――――――

【0096】このうち、学習時に最も頻度の高かった解
答候補である決定木DT13の解答、すなわち「かか
る」が選択され、正しく語義決定される。同様に、文1
02’、文103’、文104’、文105’、文10
6’の5文に対しても、いずれも決定木DT13の「か
かる」が選択され、正しく語義決定される。
Among these, the answer of the decision tree DT13, which is the answer candidate with the highest frequency at the time of learning, that is, "take" is selected, and the meaning is correctly determined. Similarly, sentence 1
02 ', sentence 103', sentence 104 ', sentence 105', sentence 10
With respect to the five sentences 6 ′, “Such” in the decision tree DT13 is selected, and the meaning is correctly determined.

【0097】以上の実施形態においては、英語から日本
語への翻訳装置のための語義決定装置について説明して
いるが、本発明はこれに限らず、第1の言語から別の第
2の言語の翻訳装置のための語義決定装置又は翻訳決定
装置に適用することができる。
In the above embodiment, the semantic determination device for the English-to-Japanese translation device has been described. However, the present invention is not limited to this, and the present invention is not limited to this. Can be applied to a meaning determination device or a translation determination device for a translation device.

【0098】以上説明したように、本実施形態によれ
ば、多要素が複雑に影響する翻訳装置のための語義決定
処理に対して、決定木という技術を導入することで、人
手を介すことなく補完に必要な多くの情報の影響関係を
自動的に把握し、対応する翻訳文の語義を自動的に決定
することができる。また、複数の属性表に対応した複数
の決定木を生成して、各決定木毎に解答候補を得て、最
大の頻度を有する解答候補を正解の語義としているの
で、従来例に比較して高精度で語義を決定することがで
きる。また、複数の属性表に対応した複数の決定木を生
成して、各決定木毎に解答候補を得て、最大の頻度を有
する解答候補を正解の語義としているので、入力に誤り
を含む場合に、従来例に比較して高精度で語義を決定す
ることができる。
As described above, according to the present embodiment, by introducing a technique called a decision tree to the semantic determination processing for a translation apparatus in which multiple elements affect in a complicated manner, human intervention is required. In addition, it is possible to automatically grasp the influence relationship of much information necessary for complementation and automatically determine the meaning of the corresponding translated sentence. In addition, since a plurality of decision trees corresponding to a plurality of attribute tables are generated, an answer candidate is obtained for each decision tree, and the answer candidate having the highest frequency is defined as a correct meaning, so that it is compared with the conventional example. The meaning can be determined with high accuracy. In addition, since a plurality of decision trees corresponding to a plurality of attribute tables are generated, an answer candidate is obtained for each decision tree, and the answer candidate having the highest frequency is regarded as a correct meaning, so that an error is included in the input. In addition, the meaning can be determined with higher accuracy than in the conventional example.

【0099】[0099]

【実施例】本発明者は、図1の日本語省略要素補完装置
の性能評価を行なうために、評価実験を行なった。実験
は、実際の音声認識結果を入力とした実誤りに対する精
度と、人工的に誤りを作成した人工誤りに対する精度を
評価した。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The inventor conducted an evaluation experiment in order to evaluate the performance of the Japanese language elimination element complementing apparatus shown in FIG. In the experiments, we evaluated the accuracy against real errors using actual speech recognition results as input and the accuracy against artificial errors that artificially created errors.

【0100】まず、音声認識結果に対する頑健性の実験
結果について説明する。表22に、入力に使用した音声
認識結果の特性を示す。
First, an experimental result of robustness with respect to a speech recognition result will be described. Table 22 shows the characteristics of the speech recognition result used for the input.

【0101】[0101]

【表22】 入力文の誤り特性と音声認識装置の性能 ―――――――――――――――――――――――――――――――――― パラメータ P1 P2 P3 ―――――――――――――――――――――――――――――――――― 発話数 968 968 968 発話平均形態素 14.9 14.9 14.9 文字認識率(%) 78.48 78.89 72.09 ―――――――――――――――――――――――――――――――――― 発話平均誤り 3.44 3.49 4.09 (挿入誤り) 0.56 0.51 0.64 (欠落誤り) 0.76 0.84 0.88 (置換誤り) 2.12 2.14 2.57 ――――――――――――――――――――――――――――――――――[Table 22] Error characteristics of input sentence and performance of speech recognition device ―――――――――――――――――――――――――――――――― Parameter P1 P2 P3 ―――――――――――――――――――――――――――――――― Number of utterances 968 968 968 Average utterance morpheme 14.9 14. 9 14.9 Character recognition rate (%) 78.48 78.89 72.09 ――――――――――――――――――――――――――――――― ――― Average utterance error 3.44 3.49 4.09 (insertion error) 0.56 0.51 0.64 (missing error) 0.76 0.84 0.88 (replacement error) 2.12 2. 14 2.57 ――――――――――――――――――――――――――――――――――

【0102】次いで、表23に、実誤りに対する性能を
示す。実験は、音声認識誤りのない正解入力と、その同
一の文集合の音声認識結果の2種類について行なった。
実験文数は448文である。実験は、単独の決定木を使
用して補完を行なうSDTモデルによる実験と、本実施
形態の提案するMDTモデルの両者について行なった。
SDTモデルにおける属性集合は、集合A、集合F、集
合Cの三種類に対して行なった。これをそれぞれ、SD
T/A、SDT/F、SDT/Cと表記する。また、M
DTモデルにおける意思決定器である省略要素補完部1
4は、上記の集合A,C,Fの3つを使用して処理を行
った。
Next, Table 23 shows the performance against real errors. The experiment was performed for two types of input: a correct answer input without a speech recognition error and a speech recognition result of the same sentence set.
The number of experimental sentences is 448. The experiment was performed for both an experiment using an SDT model that performs complementation using a single decision tree and an MDT model proposed in the present embodiment.
Attribute sets in the SDT model were performed for three types: set A, set F, and set C. This is called SD
They are expressed as T / A, SDT / F, and SDT / C. Also, M
Omission element complementer 1 which is a decision-maker in DT model
No. 4 performed processing using three of the above sets A, C, and F.

【0103】[0103]

【表23】 音声誤りに対する性能 ―――――――――――――――――――――――――――――――――― 正解入力 P1 P2 P3 ―――――――――――――――――――――――――――――――――― SDT/A 0.674 0.625 0.651 0.663 SDT/C 0.642 0.602 0.621 0.605 SDT/F 0.691 0.623 0.640 0.638 ―――――――――――――――――――――――――――――――――― MDT 0.715 0.676 0.688 0.705 ――――――――――――――――――――――――――――――――――[Table 23] Performance against speech error ―――――――――――――――――――――――――――――――― Correct answer P1 P2 P3 ――― ――――――――――――――――――――――――――――――― SDT / A 0.674 0.625 0.651 0.663 SDT / C 0 0.642 0.602 0.621 0.605 SDT / F 0.691 0.623 0.640 0.638 ―――――――――――――――――――――― ―――――――――― MDT 0.715 0.676 0.688 0.705 ――――――――――――――――――――――――― ―――――――

【0104】次に、モデルの頑健性と誤りの傾向との関
連を議論するために、以下のような人工誤りに対してモ
デルがどのような特性を示すのかを実験した。実験は、
以下の3種類の誤りについて行なった。 (a)挿入誤り。 (b)欠落誤り。 (c)置換誤り。 (d)混合誤り。
Next, in order to discuss the relationship between the robustness of the model and the tendency of errors, an experiment was conducted to determine what characteristics the model exhibits with respect to the following artificial errors. The experiment is
The following three types of errors were performed. (A) Insertion error. (B) Missing error. (C) Replacement error. (D) mixing errors.

【0105】挿入誤りは以下のように作成した。まず、
誤りのない形態素列に対して、誤りを挿入する位置を無
作為に1ヶ所決定する。この位置に対して、決定木学習
を行なった訓練会話の形態素集合から任意の一語を無作
為に選択し、この語を挿入する。挿入される語は、訓練
会話の各形態素の出現割合と同一の期待値で決定される
ため、格助詞などの高頻出語が挿入される可能性が高く
なる。以上が一語を挿入する過程であり、複数N語を挿
入する場合には以上の過程をN回繰り返す。挿入誤りの
個数と性能との関係を図17に示す。図17より、MD
Tモデルは挿入誤りに対してほとんど性能劣化のないこ
とが明らかになった。また、三種のSDTモデルに関し
ても、若干の精度低下はあるものの誤り語数増加に伴う
程度低下割合はゆるやかである。SDTモデルが挿入誤
りに対してあまり性能が落ちないのは、上述で議論した
要素照合手法が頑健性を持っていたことを示し、挿入誤
りに関してはSDTモデルにもある程度の頑健性を持っ
ていることが確認された。また、MDTモデルにほとん
ど性能劣化がないのは、上記SDTが持つ頑健性に加
え、意思決定を複数行なった後に選択する本手法が有効
に機能しているためと考えられる。
The insertion error was created as follows. First,
One position where an error is to be inserted is determined at random in a morpheme sequence having no error. At this position, an arbitrary word is randomly selected from the morpheme set of the training conversation in which the decision tree learning has been performed, and this word is inserted. Since the inserted word is determined by the same expected value as the appearance ratio of each morpheme in the training conversation, the possibility that a frequently appearing word such as a case particle is inserted increases. The above is the process of inserting one word. When inserting a plurality of N words, the above process is repeated N times. FIG. 17 shows the relationship between the number of insertion errors and the performance. According to FIG.
It turned out that the T model has almost no performance degradation with respect to insertion errors. Also, with respect to the three types of SDT models, although the accuracy is slightly reduced, the degree of the degree of reduction with the increase in the number of erroneous words is gradual. The fact that the performance of the SDT model does not decrease so much with respect to insertion errors indicates that the element matching method discussed above has robustness, and the SDT model also has some robustness with respect to insertion errors. It was confirmed that. Further, it is considered that the reason why the MDT model hardly deteriorates in performance is that, in addition to the robustness of the above-described SDT, the present method of selecting after performing a plurality of decision making functions effectively.

【0106】次いで、欠落誤りは以下のように作成し
た。誤りのない形態素を入力として、欠落させる形態素
を無作為に選択する。ただし、省略された主語に対する
動詞もしくはサ変名詞は選択の対象からはずす。なぜな
ら、もし当該動詞もしくはサ変名詞が欠落された形態素
が音声認識結果となった場合には、省略の検出が不可能
となり、補完の対象とはならないからである。以上の処
理を複数回繰り返し、その都度欠落させる形態素を無作
為に選択する。
Next, the missing error was created as follows. A morpheme to be deleted is selected at random by using a morpheme having no error as an input. However, verbs or sa-variant nouns for the omitted subject are excluded from selection. This is because, if the morpheme from which the verb or sa-variant noun is missing is the result of speech recognition, it is impossible to detect omission and is not a target for complementation. The above process is repeated a plurality of times, and a morpheme to be deleted is randomly selected each time.

【0107】欠落誤りの個数と性能との関係を図18に
示す。図18からわかるように、MDTモデルは7形態
素以上の欠落においてSDT/Cモデルよりも性能がわ
ずかに低い結果となったが、事実上はほぼ同一の精度と
考えられる。また平均1発話の平均が15形態素である
こと、実際の音声認識結果の平均欠落誤りが1発話で1
形態素に満たないことを考えると、7形態素以上の情報
の欠落は実用上は問題にならない。図18においてはS
DT/Cモデルがほとんど性能劣化がないが、これは欠
落誤りの対象に述語が含まれていないためである。SD
T/Cモデルではこの情報を主要な情報として主語を決
定しているため、述語以外の形態素の欠落に対してはあ
まり性能劣化を起こさない。
FIG. 18 shows the relationship between the number of missing errors and performance. As can be seen from FIG. 18, the performance of the MDT model was slightly lower than that of the SDT / C model in the absence of seven or more morphemes, but it is considered that the accuracy is practically the same. In addition, the average of one utterance is 15 morphemes, and the average missing error of the actual speech recognition result is one utterance.
Considering that it is less than a morpheme, the lack of information of seven or more morphemes does not pose a problem in practical use. In FIG. 18, S
The DT / C model has almost no performance degradation, because the target of the missing error does not include a predicate. SD
In the T / C model, the subject is determined by using this information as main information, and therefore, there is not much performance degradation when a morpheme other than a predicate is missing.

【0108】次いで、置換誤りは以下のように作成し
た。誤りのない形態素を入力として、欠落させる形態素
を無作為に選択する。ただし、省略された主語に対する
動詞もしくはサ変名詞は欠落誤りと同様の理由で、欠落
の対象からはずす。この後、この欠落の位置に、挿入誤
りと同様、決定木学習を行なった訓練会話の形態素集合
から任意の一語を無作為に選択し、この語を挿入する。
以上が一語を挿入する過程であり、複数N語を挿入する
場合には以上の過程をN回繰り返す。置換誤りの個数と
性能との関係を図19に示す。
Next, a replacement error was created as follows. A morpheme to be deleted is selected at random by using a morpheme having no error as an input. However, the verb or the sub-variant noun for the omitted subject is excluded from the object of the omission for the same reason as the omission error. Thereafter, as in the case of the insertion error, an arbitrary word is randomly selected from the set of morphemes of the training conversation in which the decision tree learning has been performed, and this word is inserted into this missing position.
The above is the process of inserting one word. When inserting a plurality of N words, the above process is repeated N times. FIG. 19 shows the relationship between the number of replacement errors and the performance.

【0109】さらに、混合誤りは以下のように作成し
た。正解入力に対して、まず誤りの種類を決定する。誤
りは、挿入、欠落、置換の三種類が同じ確率で出現する
ように、無作為に決定する。誤り種類が決定した後は、
前述した挿入、欠落、置換誤りの処理を行なう。複数形
態素の誤りの場合は、以上の処理を複数回繰り返し、そ
の都度誤り種類を無作為に選択する。混合誤りの個数と
性能との関係を図20に示す。
Further, the mixing error was created as follows. First, the type of error is determined for the correct answer input. Errors are randomly determined so that the three types of insertion, deletion, and substitution appear with the same probability. After the type of error is determined,
The above-described processing of insertion, deletion, and substitution error is performed. In the case of an error of a plurality of morphemes, the above processing is repeated a plurality of times, and the error type is randomly selected each time. FIG. 20 shows the relationship between the number of mixing errors and the performance.

【0110】図17及び図18より、本実施形態で提案
するMDTモデルが比較手法よりも頑健であることがわ
かる。特に、MDTモデルは挿入誤りに対して非常に頑
健であり、10個に満たない形態素の挿入に対してはほ
とんど補完性能の劣化がないことが確認された。また表
23より、実際の音声認識の結果、誤りを含んだ入力に
対しても、SDTに比較して優位であることを確認し
た。MDTモデルが頑健性に関して優位であるである理
由は、以下の2点であると予想する。 (a)属性照合の際に、形態素もしくは意味属性の有無
によって照合しているため。 (b)MCL選好によって、比較的稀な要素に照合した
決定木は最終的に選択されないため。
FIGS. 17 and 18 show that the MDT model proposed in this embodiment is more robust than the comparison method. In particular, it was confirmed that the MDT model was very robust against insertion errors, and that there was almost no deterioration in complementation performance for insertion of less than 10 morphemes. Also, from Table 23, it was confirmed that, as a result of actual speech recognition, an input including an error was superior to SDT as well. We expect that the MDT model is superior in terms of robustness for the following two reasons. (A) Because attribute matching is performed based on the presence or absence of a morpheme or semantic attribute. (B) A decision tree matched with a relatively rare element is not finally selected by MCL preference.

【0111】前者は、形態素の誤挿入によって照合され
る要素が増加するのみであり、本実施形態の提案する照
合方法では本来照合されるべき属性は形態素の挿入によ
っても必ず照合することを保証する。後者は、もし仮に
過剰に照合した場合でも、それらを情報源にして得られ
た解答候補は、前述の仮定により過剰照合した属性が何
らかの意味で稀な要素であるため、MCL選好によって
最終的に選択されない可能性が高いことを意味する。
The former only increases the number of elements to be collated due to erroneous insertion of morphemes, and in the collation method proposed in the present embodiment, guarantees that the attributes that should be collated are always collated by morpheme insertion. . In the latter case, even if they are over-matched, the answer candidates obtained by using them as information sources are ultimately determined by the MCL preference because the attribute over-matched by the above assumption is a rare element in some sense. It means that there is a high possibility that it will not be selected.

【0112】以上により、MDTモデルは音声認識誤り
に対して頑健なことが確認されたが、仮に誤りがなくて
も有効に機能する可能性がある。なぜなら、相異なる情
報源から意思決定器を通して得られた解答候補に対して
MCL選好によって解答を得る枠組みは、学習時に類似
事例が最大であった属性群の解答を支持することを意味
するためである。この仮説を検証したのが、表23の左
「正解入力」の欄である。これによると、正解入力に対
してもMDTはいずれのSDTよりも明らかに高い補完
性能を示した。
As described above, it has been confirmed that the MDT model is robust against speech recognition errors. However, even if there is no error, the MDT model may function effectively. This is because the framework for obtaining answers by MCL preference for answer candidates obtained from different information sources through the decision maker means supporting the answer of the attribute group whose similar case was the largest at the time of learning. is there. This hypothesis was verified in the left column of “correct answer input” in Table 23. According to this, MDT showed a clearly higher complementing performance than any SDT even for correct input.

【0113】以上説明したように、音声対話処理ではテ
キスト処理にはない頑健性を必要とするが、本実施形態
では、対話に頻出する主語省略の補完処理に関して、我
々の提案する決定木を用いた手法が、音声認識誤りに対
して頑健性を持っていることを示した。本発明者による
実験では、音声認識結果に対して正解テキスト入力と比
べて数%程度の性能低下であり、特に入力誤りに対して
頑健であった。本実施形態で得られた知見を以下にまと
める。 (a)決定木はそれ自身にある程度の頑健性を持つ。 (b)複数決定木(MDT)モデルとMCL選好によ
り、より頑健な意思決定を行なうことが可能である。 (c)複数決定木モデルは誤りのない確定要素入力に対
しても単独決定木(SDT)モデルよりも高性能であ
る。従って、本実施形態で提案したモデルは、特に入力
列の挿入誤りに対する頑健性を十分に持っていると結論
づけることができる。
As described above, speech dialogue processing requires robustness not found in text processing. In the present embodiment, however, the decision tree proposed by us is used for complementing subject abbreviations that frequently appear in dialogues. It was shown that the proposed method was robust against speech recognition errors. In an experiment by the inventor, the performance of the speech recognition result was about several percent lower than that of the correct text input, and was particularly robust against input errors. The findings obtained in the present embodiment are summarized below. (A) The decision tree itself has some robustness. (B) A more robust decision can be made by using a multiple decision tree (MDT) model and MCL preference. (C) The multi-decision tree model has higher performance than the single decision tree (SDT) model even for error-free deterministic element inputs. Therefore, it can be concluded that the model proposed in the present embodiment has sufficient robustness particularly against input string insertion errors.

【0114】以上説明したように、本実施形態によれ
ば、以下の特有の効果を有する。 (a)最適な特徴パターンを人手で選択しなくても、省
略補完又は語義決定が可能となる決定木が自動的に作成
され、作成された決定木を使うことによって適切な省略
要素が補完され、もしくは翻訳装置のための語義(又は
対訳語)が決定される。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、省略補完又は語義決定が可能となる決定木
がより正確にかつ自動的に作成され、作成された決定木
を使うことによって適切な省略要素が補完され、もしく
は翻訳装置のための語義(又は対訳語)が決定される。 (c)新規の特徴追加に対しても省略補完又は語義決定
が可能となる決定木が自動的に作成され、作成された決
定木を使うことによって適切な省略要素が補完され、も
しくは翻訳装置のための語義(又は対訳語)が決定され
る。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な省略要素
を補完し、もしくは翻訳装置のための語義(又は対訳
語)を決定することができる。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な省略要素を補完し、もしくは翻訳
装置のための語義(又は対訳語)を決定することができ
る。
As described above, the present embodiment has the following unique effects. (A) A decision tree enabling omission complementation or semantic determination can be automatically created without manually selecting an optimal feature pattern, and an appropriate omitted element is complemented by using the created decision tree. Alternatively, the meaning (or bilingual term) for the translation device is determined. (B) A decision tree enabling omission complementation or semantic determination can be created more accurately and automatically without manually adjusting parameters and determining priorities, and is appropriately performed by using the created decision tree. Such omitted elements are complemented, or the meaning (or translated word) for the translation device is determined. (C) A decision tree that enables omission complementation or semantic determination for automatically adding a new feature is automatically created, and appropriate omitted elements are supplemented by using the created decision tree, or the translation device Meaning (or translated word) is determined. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to complement appropriate omitted elements with higher precision than in the conventional example, or to determine the meaning (or bilingual term) for the translation device. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to complement appropriate omitted elements with higher precision than in the conventional example, or to determine the meaning (or bilingual term) for the translation device.

【0115】<変形例>以上の実施形態においては、日
本語省略要素補完装置及び翻訳装置のための語義決定装
置について説明しているが、本発明はこれに限らず、以
下の言語処理装置に適用することができる。 (a)省略要素補完済みテキストデータに代えて、言語
のあいまい性を解消するための情報が付与されたテキス
トデータである。 (b)属性リストは、言語のあいまい性を解消するため
の言語の属性であり、具体的には、第1の実施形態又は
第2の実施形態で示した属性を含む。 (c)第1及び第2の実施形態と同様に、属性を複数の
セクションに分割して、それら毎に、属性表を作成し、
また、決定木を同様に作成する。ここで、属性表は、各
属性が存在するか及びあいまい性を解消するための情報
の正解情報を含む。 (d)省略要素補完部14に代えて、属性値抽出部13
からバッファメモリ24を介して出力される属性値に対
して、決定木学習部12によって生成された決定木を用
いて、上記入力された自然発話文の文字列における、言
語のあいまい性を解消するための情報を決定し、その情
報が補完された文字列を出力する情報補完手段を複数備
える。 (e)省略要素補完選択部15に代えて、各情報要素手
段からの解答候補のうち最大の頻度を有する解答候補
(もしくは、複数n個のより大きな頻度を有する解答候
補(n−best)であってもよい。)を最終的な解答
として選択して、その解答の情報が補完された文字列を
生成して出力する情報補完選択手段を備える。
<Modifications> In the above embodiment, the Japanese language omission element complementing device and the semantic determination device for the translation device have been described. However, the present invention is not limited to this, and the following language processing device is applicable. Can be applied. (A) Text data to which information for resolving language ambiguity has been added instead of the text data for which the omitted element has been complemented. (B) The attribute list is a language attribute for resolving language ambiguity, and specifically includes the attribute shown in the first embodiment or the second embodiment. (C) As in the first and second embodiments, the attribute is divided into a plurality of sections, and an attribute table is created for each of them.
In addition, a decision tree is similarly created. Here, the attribute table includes information indicating whether each attribute exists and correct information of information for resolving ambiguity. (D) Instead of the omitted element complementing unit 14, the attribute value extracting unit 13
, Using the decision tree generated by the decision tree learning unit 12 for the attribute value output from the buffer memory 24 through the buffer memory 24, the language ambiguity in the character string of the input natural utterance sentence is resolved. And a plurality of information complementing means for determining information to be output and outputting a character string in which the information is complemented. (E) Instead of the omitted element complementing selection unit 15, the answer candidate having the highest frequency among the answer candidates from the information element means (or a plurality of n answer candidates having the higher frequency (n-best)) is used. ) May be selected as the final answer, and a character string in which the information of the answer is complemented is generated and output.

【0116】[0116]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の言語処理装置によれば、所定の言語の文字列か
らなり、その文のあいまい性を解消するための情報が予
め補完された情報補完済みテキストデータと、言語のあ
いまい性を解消するための言語の属性を含む複数の属性
の属性リストとに基づいて、各テキストデータの各文
と、属性リストに含まれる各属性を複数の集合に分割し
たときの各属性集合とのすべての組み合わせについてそ
れらを照合して、各文毎に各属性集合内の各属性が存在
するか否か、及び言語のあいまい性を解消するための正
解情報を示す属性表をそれぞれ、各属性集合毎に生成す
る複数の生成手段と、上記複数の生成手段によって生成
された複数の属性表に基づいてそれぞれ、各属性集合内
のすべての属性による分割後のエントロピーと分割前の
エントロピーとの差が最大の属性を選択して、選択され
た属性値により分割されたノードを生成するように決定
木を、リーフノードに到達するまで更新するように学習
することにより、各属性の属性値に依存して分割される
ような二分木形式の木構造を有する、言語のあいまい性
を解消するための正解情報を決定するための決定木を、
各属性集合毎に生成する複数の学習手段と、入力された
所定の言語の文字列に基づいて、上記属性リストを参照
して、各属性毎に照合を行うことにより各属性が存在す
るか否かを示す属性値を抽出して出力する抽出手段と、
上記抽出手段から出力される属性値に対して、上記複数
の学習手段によって生成された各決定木を用いてそれぞ
れ、上記入力された文字列における言語のあいまい性を
解消するための正解情報を決定してその頻度とともに出
力する複数の補完手段と、上記複数の補完手段から出力
される正解情報とその頻度に基づいて、頻度が最大又は
頻度がより大きな所定数の正解情報を選択して、その正
解情報を含む情報が補完された文字列を出力する補完選
択手段とを備える。従って、本発明によれば、以下の特
有の効果を有する。 (a)最適な特徴パターンを人手で選択しなくても、言
語のあいまい性を解消するための正解情報を決定する決
定木が自動的に作成され、作成された決定木を使うこと
によって適切な正解情報が決定される。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、言語のあいまい性を解消するための正解情
報を決定する決定木がより正確にかつ自動的に作成さ
れ、作成された決定木を使うことによって適切な正解情
報が決定される。 (c)新規の特徴追加に対しても正解情報を決定する決
定木が自動的に作成され、作成された決定木を使うこと
によって適切な正解情報が決定される。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な正解情報
を決定することができる。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な正解情報を決定することができ
る。
As described above in detail, according to the language processing apparatus of the first aspect of the present invention, the language processing apparatus comprises a character string in a predetermined language, and information for resolving the ambiguity of the sentence is supplemented in advance. Based on the supplemented information-completed text data and the attribute list of multiple attributes including language attributes for resolving language ambiguities, each sentence of each text data and each attribute included in the attribute list are To clarify whether each attribute in each attribute set exists for each sentence, and to resolve language ambiguity by checking all combinations with each attribute set when divided into multiple sets A plurality of generating means for generating an attribute table indicating the correct answer information of each attribute set, and all the attributes in each attribute set based on the plurality of attribute tables generated by the plurality of generating means. Yo Select the attribute with the largest difference between the entropy after division and the entropy before division, and update the decision tree to generate a node divided by the selected attribute value until it reaches a leaf node By learning, a decision tree having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, and a decision tree for determining correct information for resolving language ambiguity,
Based on a plurality of learning means generated for each attribute set, and referring to the attribute list based on a character string input in a predetermined language, whether or not each attribute exists by performing a matching for each attribute Extracting means for extracting and outputting an attribute value indicating whether
For each of the attribute values output from the extracting means, each of the decision trees generated by the plurality of learning means is used to determine correct answer information for resolving language ambiguity in the input character string. A plurality of complementing means to output together with the frequency, and, based on the correct answer information output from the plurality of complementing means and the frequency, select a predetermined number of correct answer information having a maximum frequency or a higher frequency, and And complement selection means for outputting a character string in which information including correct answer information has been complemented. Therefore, the present invention has the following specific effects. (A) A decision tree for determining correct information for resolving language ambiguity is automatically created without manually selecting an optimal feature pattern, and an appropriate decision tree is created by using the created decision tree. Correct answer information is determined. (B) A decision tree for determining correct answer information for resolving language ambiguity is more accurately and automatically created without manually adjusting parameters or determining priorities, and the created decision tree The appropriate correct information is determined by using. (C) A decision tree for determining correct information is automatically created for addition of a new feature, and appropriate correct information is determined by using the created decision tree. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to determine appropriate correct information with higher accuracy than in the conventional example. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to determine appropriate correct information with higher accuracy than in the conventional example.

【0117】また、請求項2記載の言語処理装置におい
ては、請求項1記載の言語処理装置は、日本語省略要素
補完装置であり、上記情報補完済みテキストデータは、
日本語自然発話文の文字列からなり、その文の省略要素
の正解人称が予め補完された省略要素補完済みテキスト
データであり、上記属性リストは、動詞の正規形と、動
詞の意味属性と、文末表現と、言語外情報としての話者
情報とを含む複数の属性の属性リストであり、上記属性
表は、各文毎に各属性が存在するか否か、及び省略要素
が何人称であるかの正解人称を示す属性表であり、上記
各決定木は、省略要素の正解人称を決定するための決定
木であり、上記各補完手段は、上記入力された文字列に
おける省略要素の正解人称を決定し、上記補完選択手段
は、頻度が最大又は頻度がより大きな所定数の正解人称
を選択して、その正解人称を含む省略要素が補完された
文字列を出力する。ここで、上記省略要素は、好ましく
は、日本語自然発話文における主語又は目的語の代名詞
である。従って、本発明によれば、以下の特有の効果を
有する。 (a)最適な特徴パターンを人手で選択しなくても、省
略補完が可能となる決定木が自動的に作成され、作成さ
れた決定木を使うことによって適切な省略要素が補完さ
れる。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、省略補完が可能となる決定木がより正確に
かつ自動的に作成され、作成された決定木を使うことに
よって適切な省略要素が補完される。 (c)新規の特徴追加に対しても省略補完が可能となる
決定木が自動的に作成され、作成された決定木を使うこ
とによって適切な省略要素が補完される。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な省略要素
を補完することができる。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な省略要素を補完することができ
る。
Further, in the language processing device according to the second aspect, the language processing device according to the first aspect is a Japanese omitted element complementing device, and the information-completed text data is
Omitted element-completed text data consisting of a character string of a Japanese natural utterance sentence, in which the correct person of the omitted element of the sentence has been previously complemented. It is an attribute list of a plurality of attributes including an end-of-sentence expression and speaker information as out-of-language information. The attribute table indicates whether each attribute exists for each sentence, and what abbreviation element is the first person. Is an attribute table indicating correct correct person names, each of the decision trees is a decision tree for determining correct correct person names of omitted elements, and each of the complementing means is a correct correct person name of omitted elements in the input character string. Is determined, and the complement selecting means selects a predetermined number of correct personal names having the highest frequency or higher frequency, and outputs a character string in which the omitted element including the correct personal name is complemented. Here, the omitted element is preferably a pronoun of the subject or the object in the Japanese natural utterance sentence. Therefore, the present invention has the following specific effects. (A) A decision tree enabling omission complementation is automatically created without manually selecting an optimal feature pattern, and an appropriate omitted element is complemented by using the created decision tree. (B) A decision tree enabling omission completion can be created more accurately and automatically without manually adjusting parameters or determining priorities, and appropriate omission elements can be obtained by using the created decision tree. Is complemented. (C) A decision tree capable of performing omission complementation even when a new feature is added is automatically created, and an appropriate omitted element is complemented by using the created decision tree. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to complement appropriate omitted elements with higher accuracy than in the conventional example. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to complement appropriate omitted elements with higher accuracy than in the conventional example.

【0118】また、請求項4記載の言語処理装置におい
ては、請求項1記載の言語処理装置は、第1の言語から
第2の言語に翻訳する翻訳装置のための語義決定装置で
あり、上記情報補完済みテキストデータは、第1の言語
の文の文字列からなり、その文の語義が予め補完された
語義決定済みテキストデータであり、上記属性リスト
は、文の種類、時制、主語、目的語の情報を含む複数の
属性の属性リストであり、上記属性表は、各文毎に各属
性が存在するか否か、及び正解語義を示す属性表であ
り、上記各決定木は、正解語義を決定するための決定木
であり、上記各補完手段は、上記入力された文字列にお
ける正解語義を決定し、上記補完選択手段は、頻度が最
大又は頻度がより大きな所定数の正解語義を選択して、
その正解語義が補完された文字列を出力する。ここで、
上記正解語義は、好ましくは、第2の言語の対訳要素で
ある。従って、本発明によれば、以下の特有の効果を有
する。 (a)最適な特徴パターンを人手で選択しなくても、語
義決定が可能となる決定木が自動的に作成され、作成さ
れた決定木を使うことによって適切な、翻訳装置のため
の語義(又は対訳文)が決定される。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、語義決定が可能となる決定木がより正確に
かつ自動的に作成され、作成された決定木を使うことに
よって適切な、翻訳装置のための語義(又は対訳文)が
決定される。 (c)新規の特徴追加に対しても語義決定が可能となる
決定木が自動的に作成され、作成された決定木を使うこ
とによって適切な、翻訳装置のための語義(又は対訳
文)が決定される。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な、翻訳装
置のための語義(又は対訳文)を決定することができ
る。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な、翻訳装置のための語義(又は対
訳文)を決定することができる。
Further, in the language processing apparatus according to the fourth aspect, the language processing apparatus according to the first aspect is a semantic determination apparatus for a translation apparatus that translates from a first language to a second language. The information-completed text data is composed of a character string of a sentence in the first language, and is semantically determined text data in which the meaning of the sentence is complemented in advance. An attribute list of a plurality of attributes including word information. The attribute table is an attribute table indicating whether or not each attribute exists for each sentence, and the correct meaning. Each of the decision trees is a correct word meaning. Is a decision tree for determining the correct word meaning in the input character string, and the complement selecting means selects a predetermined number of correct word meanings having the maximum frequency or the higher frequency. do it,
A character string with the correct word meaning complemented is output. here,
The correct word meaning is preferably a bilingual element of the second language. Therefore, the present invention has the following specific effects. (A) A decision tree capable of determining meaning is automatically created without manually selecting an optimal feature pattern, and by using the created decision tree, an appropriate meaning for a translation device ( Or a bilingual sentence) is determined. (B) Decision trees that enable semantic determination can be created more accurately and automatically without manually adjusting parameters and determining priorities, and using the created decision trees to provide appropriate translation. The meaning (or bilingual sentence) for the device is determined. (C) A decision tree that enables the meaning to be determined even when a new feature is added is automatically created, and by using the created decision tree, an appropriate meaning (or a translated sentence) for the translation device can be obtained. It is determined. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to determine an appropriate meaning (or a translated sentence) for the translation device with higher accuracy than the conventional example. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to determine an appropriate meaning (or a translated sentence) for the translation device with higher accuracy than the conventional example.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る第1の実施形態である日本語省
略要素補完装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing the configuration of a Japanese language elimination element complementing device according to a first embodiment of the present invention.

【図2】 図1の属性表生成部11によって実行される
属性表生成処理を示すフローチャートである。
FIG. 2 is a flowchart illustrating an attribute table generation process executed by an attribute table generation unit 11 of FIG. 1;

【図3】 図1の決定木学習部12によって実行される
決定木学習処理を示すフローチャートである。
FIG. 3 is a flowchart showing a decision tree learning process executed by a decision tree learning unit 12 in FIG. 1;

【図4】 図3のサブルーチンである決定木生成処理を
示すフローチャートである。
FIG. 4 is a flowchart showing a decision tree generation process which is a subroutine of FIG. 3;

【図5】 図1の属性値抽出部13によって実行される
属性値抽出処理を示すフローチャートである。
FIG. 5 is a flowchart showing an attribute value extraction process executed by the attribute value extraction unit 13 of FIG.

【図6】 図1の省略要素補完部14によって実行され
る省略要素補完処理を示すフローチャートである。
FIG. 6 is a flowchart illustrating an omitted element complementing process executed by the omitted element complementing unit 14 of FIG. 1;

【図7】 従来例の1つの決定木を有するSDTモデル
と、本実施形態に係る複数の決定木を有するMDTモデ
ル処理の違いを示す図である。
FIG. 7 is a diagram illustrating a difference between the conventional SDT model having one decision tree and the MDT model processing having a plurality of decision trees according to the present embodiment.

【図8】 第1の実施形態で用いる属性集合AS1によ
る決定木の一例を示す木構造図である。
FIG. 8 is a tree structure diagram showing an example of a decision tree based on an attribute set AS1 used in the first embodiment.

【図9】 第1の実施形態で用いる属性集合AS2によ
る決定木の一例を示す木構造図である。
FIG. 9 is a tree structure diagram showing an example of a decision tree based on an attribute set AS2 used in the first embodiment.

【図10】 第1の実施形態で用いる属性集合AS3に
よる決定木の一例を示す木構造図である。
FIG. 10 is a tree structure diagram showing an example of a decision tree based on an attribute set AS3 used in the first embodiment.

【図11】 第1の実施形態で用いる属性集合AS4に
よる決定木の一例を示す木構造図である。
FIG. 11 is a tree structure diagram showing an example of a decision tree based on an attribute set AS4 used in the first embodiment.

【図12】 本発明に係る第2の実施形態である翻訳装
置のための語義決定装置の構成を示すブロック図であ
る。
FIG. 12 is a block diagram illustrating a configuration of a meaning determining device for a translation device according to a second embodiment of the present invention.

【図13】 第2の実施形態で用いる属性集合AS11
による決定木の一例を示す木構造図である。
FIG. 13 shows an attribute set AS11 used in the second embodiment.
FIG. 3 is a tree structure diagram showing an example of a decision tree based on the above.

【図14】 第2の実施形態で用いる属性集合AS12
による決定木の一例を示す木構造図である。
FIG. 14 shows an attribute set AS12 used in the second embodiment.
FIG. 3 is a tree structure diagram showing an example of a decision tree based on the above.

【図15】 第2の実施形態で用いる属性集合AS13
による決定木の一例を示す木構造図である。
FIG. 15 shows an attribute set AS13 used in the second embodiment.
FIG. 3 is a tree structure diagram showing an example of a decision tree based on the above.

【図16】 第2の実施形態で用いる属性集合AS14
による決定木の一例を示す木構造図である。
FIG. 16 shows an attribute set AS14 used in the second embodiment.
FIG. 3 is a tree structure diagram showing an example of a decision tree based on the above.

【図17】 第1の実施形態に係る言語処理装置の実験
結果であって、挿入誤りに対する性能を示すグラフであ
る。
FIG. 17 is a graph showing experimental results of the language processing device according to the first embodiment, showing performance with respect to insertion errors;

【図18】 第1の実施形態に係る言語処理装置の実験
結果であって、欠落誤りに対する性能を示すグラフであ
る。
FIG. 18 is a graph showing experimental results of the language processing apparatus according to the first embodiment, showing performance against missing errors.

【図19】 第1の実施形態に係る言語処理装置の実験
結果であって、置換誤りに対する性能を示すグラフであ
る。
FIG. 19 is a graph showing experimental results of the language processing apparatus according to the first embodiment, showing performance with respect to replacement errors.

【図20】 第1の実施形態に係る言語処理装置の実験
結果であって、混合誤りに対する性能を示すグラフであ
る。
FIG. 20 is a graph showing experimental results of the language processing apparatus according to the first embodiment, showing performance against a mixing error;

【符号の説明】[Explanation of symbols]

11…属性表生成部、 12,12−1乃至12−M…決定木学習部、 13…属性値抽出部、 14,14−1乃至14−M…省略要素補完部、 14a,14a−1乃至14a−M…語義決定部、 15…省略要素補完選択部、 15a…語義決定選択部、 20…属性リストメモリ、 20a…属性リストメモリ。 21…省略要素補完済みテキストデータメモリ、 21a…語義決定済みテキストデータメモリ、 22…属性表メモリ、 22a…属性表メモリ、 23,23−1乃至23−M…決定木ファイルメモリ、 23a,23a−1乃至23a−M…決定木ファイルメ
モリ、 24…バッファメモリ。
11: Attribute table generator, 12, 12-1 to 12-M: decision tree learning unit, 13: attribute value extractor, 14, 14-1 to 14-M: omitted element complementer, 14a, 14a-1 to 14a-M: Meaning determination unit, 15: Omission element complementing selection unit, 15a: Meaning determination selection unit, 20: Attribute list memory, 20a: Attribute list memory 21: Text data memory for which omitted elements have been supplemented 21a: Text data memory for which meaning has been determined 22: Attribute table memory 22a: Attribute table memory 23, 23-1 to 23-M: Decision tree file memory 23A, 23a- 1 to 23a-M: decision tree file memory; 24: buffer memory

─────────────────────────────────────────────────────
────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成11年7月6日(1999.7.6)[Submission date] July 6, 1999 (1999.7.6)

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】発明の名称[Correction target item name] Name of invention

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【発明の名称】 言語処理装置及び語義決定装置Patent application title: Language processing device and meaning determining device

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Correction target item name] Claims

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【特許請求の範囲】[Claims]

【手続補正3】[Procedure amendment 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0010[Correction target item name] 0010

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0010】[0010]

【課題を解決するための手段】本発明に係る請求項1記
載の言語処理装置は、所定の言語の文字列からなり、そ
の文のあいまい性を解消するための情報が予め補完され
た情報補完済みテキストデータと、言語のあいまい性を
解消するための言語の属性を含む複数の属性の属性リス
トとに基づいて、各テキストデータの各文と、属性リス
トに含まれる各属性を複数の集合に分割したときの各属
性集合とのすべての組み合わせについてそれらを照合し
て、各文毎に各属性集合内の各属性が存在するか否か、
及び言語のあいまい性を解消するための正解情報を示す
属性表をそれぞれ、各属性集合毎に生成する複数の生成
手段と、上記複数の生成手段によって生成された各属性
集合毎の属性表を記憶する第1の記憶装置と、上記第1
の記憶装置に記憶された複数の属性表に基づいてそれぞ
れ、各属性集合内のすべての属性による分割後のエント
ロピーと分割前のエントロピーとの差が最大の属性を選
択して、選択された属性値により分割されたノードを生
成するように決定木を、リーフノードに到達するまで更
新するように学習することにより、各リーフノードに頻
度を有しかつ各属性の属性値に依存して分割されるよう
な二分木形式の木構造を有する、言語のあいまい性を解
消するための正解情報を決定するための決定木を、各属
性集合毎に生成する複数の学習手段と、上記複数の学習
手段によって生成された各属性集合毎の決定木を記憶す
る第2の記憶装置と、入力された所定の言語の文字列に
基づいて、上記属性リストを参照して、各属性毎に照合
を行うことにより各属性が存在するか否かを示す属性値
を抽出して出力する抽出手段と、上記抽出手段から出力
される属性値に対して、上記第2の記憶装置に記憶され
た各決定木を用いてそれぞれ、上記入力された文字列に
おける言語のあいまい性を解消するための正解情報を決
定してその頻度とともに出力する複数の補完手段と、上
記複数の補完手段から出力される正解情報とその頻度に
基づいて、頻度が最大又は頻度がより大きな所定数の正
解情報を選択して、その正解情報を含む情報が補完され
た文字列を出力する補完選択手段とを備えたことを特徴
とする。
According to a first aspect of the present invention, there is provided a language processing apparatus comprising a character string of a predetermined language, wherein information for eliminating ambiguity of a sentence is complemented in advance. Each sentence of each text data and each attribute included in the attribute list are divided into a plurality of sets based on the completed text data and the attribute list of multiple attributes including the language attribute for resolving language ambiguity. For all combinations with each attribute set at the time of division, collate them and determine whether each attribute in each attribute set exists for each sentence,
And a plurality of generating means for generating, for each attribute set, attribute tables indicating correct answer information for resolving language ambiguity, and storing an attribute table for each attribute set generated by the plurality of generating means. A first storage device that performs
Based on the plurality of attribute tables stored in the storage device, the attribute having the largest difference between the entropy after division and the entropy before division by all the attributes in each attribute set is selected, and the selected attribute is selected. By learning to update the decision tree to generate nodes divided by value, until reaching the leaf nodes, each leaf node has a frequency and is split depending on the attribute value of each attribute A plurality of learning means for generating, for each attribute set, a decision tree having a tree structure in a binary tree format for determining correct answer information for resolving language ambiguity, and the plurality of learning means Collating each attribute by referring to the attribute list based on a second storage device that stores a decision tree for each attribute set generated by the above and a character string in a predetermined language that is input. By Extracting means for extracting and outputting an attribute value indicating whether or not an attribute exists; and using the respective decision trees stored in the second storage device for the attribute value output from the extracting means. Each of the plurality of complementing means for determining and outputting the correct answer information for resolving the ambiguity of the language in the input character string and the frequency thereof, and the correct answer information output from the plurality of complementary means and the frequency thereof. And a selection means for selecting a predetermined number of correct answer information having the highest frequency or a higher frequency based on the selected information and outputting a character string supplemented with information including the correct answer information.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0011[Correction target item name] 0011

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0011】また、請求項2記載の言語処理装置におい
ては、請求項1記載の言語処理装置は、日本語省略要素
補完装置であり、上記情報補完済みテキストデータは、
日本語自然発話文の文字列からなり、その文の省略要素
の正解人称が予め補完された省略要素補完済みテキスト
データであり、上記属性リストは、動詞の正規形と、動
詞の意味属性と、文末表現と、言語外情報としての話者
情報とを含む複数の属性の属性リストであり、上記属性
表は、各文毎に各属性が存在するか否か、及び省略要素
が何人称であるかの正解人称を示す属性表であり、上記
各決定木は、省略要素の正解人称を決定するための決定
木であり、上記各補完手段は、上記入力された文字列に
おける省略要素の正解人称を決定し、上記補完選択手段
は、頻度が最大又は頻度がより大きな所定数の正解人称
を選択して、その正解人称を含む省略要素が補完された
文字列を出力することを特徴とする。
Further, in the language processing apparatus according to the second aspect, the language processing apparatus according to the first aspect is a Japanese abbreviation element complementing apparatus, and the information-completed text data is:
Omitted element-completed text data consisting of a character string of a Japanese natural utterance sentence, in which the correct person of the omitted element of the sentence has been previously complemented. It is an attribute list of a plurality of attributes including an end-of-sentence expression and speaker information as out-of-language information. Is an attribute table indicating correct correct person names, each of the decision trees is a decision tree for determining correct correct person names of omitted elements, and each of the complementing means is a correct correct person name of omitted elements in the input character string. Is determined, and the complement selection means selects a predetermined number of correct personal names having the highest frequency or higher frequency, and outputs a character string in which the omitted element including the correct personal name is complemented.

【手続補正5】[Procedure amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0012[Correction target item name] 0012

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0012】さらに、請求項3記載の言語処理装置は、
請求項2記載の言語処理装置において、上記省略要素
は、日本語自然発話文における主語又は目的語の人称で
あることを特徴とする。
Further, the language processing device according to claim 3 is
3. The language processing apparatus according to claim 2, wherein the omitted element is a subject of a subject or an object in a Japanese natural utterance sentence.

【手続補正6】[Procedure amendment 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0013[Correction target item name] 0013

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0013】また、本発明に係る請求項4記載の語義決
定装置は、第1の言語から第2の言語に翻訳する翻訳装
置のための語義決定装置であって、第1の言語の文の文
字列からなり、その文の所定の語の語義が予め決定され
た語義決定済みテキストデータと、語義を決定するため
の文の種類、時制、主語、目的語の情報を含む複数の属
性の属性リストとに基づいて、各テキストデータの各文
と、属性リストに含まれる各属性を複数の集合に分割し
たときの各属性集合とのすべての組み合わせについてそ
れらを照合して、各文毎に各属性集合内の各属性が存在
するか否か、及び正解語義を示す属性表をそれぞれ、各
属性集合毎に生成する複数の生成手段と、上記複数の生
成手段によって生成された各属性集合毎の属性表を記憶
する第1の記憶装置と、上記第1の記憶装置に記憶され
た複数の属性表に基づいてそれぞれ、各属性集合内のす
べての属性による分割後のエントロピーと分割前のエン
トロピーとの差が最大の属性を選択して、選択された属
性値により分割されたノードを生成するように決定木
を、リーフノードに到達するまで更新するように学習す
ることにより、各リーフノードに頻度を有しかつ各属性
の属性値に依存して分割されるような二分木形式の木構
造を有する、語義を決定するための決定木を、各属性集
合毎に生成する複数の学習手段と、上記複数の学習手段
によって生成された各属性集合毎の決定木を記憶する第
2の記憶装置と、入力された第1の言語の文の文字列に
基づいて、上記属性リストを参照して、各属性毎に照合
を行うことにより各属性が存在するか否かを示す属性値
を抽出して出力する抽出手段と、上記抽出手段から出力
される属性値に対して、上記第2の記憶装置に記憶され
た各決定木を用いてそれぞれ、上記入力された文字列の
意味を表す語義を決定してその頻度とともに出力する複
数の語義決定手段と、上記複数の語義決定手段から出力
される語義とその頻度に基づいて、頻度が最大又は頻度
がより大きな所定数の語義を選択して、その語義が決定
された第2の言語の文字列を出力する語義決定選択手段
とを備えたことを特徴とする。
A semantic determination device according to a fourth aspect of the present invention is a semantic determination device for a translation device for translating a first language into a second language. Semantics-determined text data consisting of a character string and the meaning of a given word of the sentence is determined in advance, and attributes of a plurality of attributes including information on the sentence type, tense, subject, and object for determining the meaning. On the basis of the list, each sentence of each text data and each attribute set when each attribute included in the attribute list is divided into a plurality of sets are checked against all combinations, and each sentence is checked for each sentence. An attribute table indicating whether or not each attribute in the attribute set exists, and an attribute table indicating correct word meaning, respectively, a plurality of generating means for each attribute set, and a plurality of attribute tables for each attribute set generated by the plurality of generating means. First storage device for storing an attribute table And selecting the attribute having the largest difference between the entropy after division and the entropy before division by all the attributes in each attribute set based on the plurality of attribute tables stored in the first storage device. By learning to update the decision tree to generate nodes divided by the selected attribute value until the leaf node is reached, each leaf node has a frequency and the attribute value of each attribute A plurality of learning means for generating, for each attribute set, a decision tree having a tree structure of a binary tree format that is dependently divided, for each attribute set; and a plurality of learning trees generated by the plurality of learning means. A second storage device for storing a decision tree for each attribute set, and a matching for each attribute by referring to the attribute list based on the input character string of the sentence in the first language, Whether the attribute exists Extracting means for extracting and outputting an attribute value indicating whether or not the attribute value is output from the extracting means, using the respective decision trees stored in the second storage device. A plurality of meaning determining means for determining the meaning representing the meaning of the character string and outputting the meaning along with the frequency; and a predetermined meaning having a maximum frequency or a higher frequency based on the meaning and the frequency output from the plurality of meaning determining means. Means for selecting a number of meanings and outputting a character string of the second language in which the meanings are determined.

【手続補正7】[Procedure amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0014[Correction target item name] 0014

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0014】さらに、請求項5記載の語義決定装置は、
請求項4記載の語義決定装置において、上記正解語義
は、第2の言語の対訳要素であることを特徴とする。
Further, the meaning determination device according to claim 5 is
5. The meaning determining device according to claim 4, wherein the correct meaning is a bilingual element in a second language.

【手続補正8】[Procedure amendment 8]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0116[Correction target item name]

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0116】[0116]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の言語処理装置によれば、所定の言語の文字列か
らなり、その文のあいまい性を解消するための情報が予
め補完された情報補完済みテキストデータと、言語のあ
いまい性を解消するための言語の属性を含む複数の属性
の属性リストとに基づいて、各テキストデータの各文
と、属性リストに含まれる各属性を複数の集合に分割し
たときの各属性集合とのすべての組み合わせについてそ
れらを照合して、各文毎に各属性集合内の各属性が存在
するか否か、及び言語のあいまい性を解消するための正
解情報を示す属性表をそれぞれ、各属性集合毎に生成す
る複数の生成手段と、上記複数の生成手段によって生成
された各属性集合毎の属性表を記憶する第1の記憶装置
と、上記第1の記憶装置に記憶された複数の属性表に基
づいてそれぞれ、各属性集合内のすべての属性による分
割後のエントロピーと分割前のエントロピーとの差が最
大の属性を選択して、選択された属性値により分割され
たノードを生成するように決定木を、リーフノードに到
達するまで更新するように学習することにより、各リー
フノードに頻度を有しかつ各属性の属性値に依存して分
割されるような二分木形式の木構造を有する、言語のあ
いまい性を解消するための正解情報を決定するための決
定木を、各属性集合毎に生成する複数の学習手段と、上
記複数の学習手段によって生成された各属性集合毎の決
定木を記憶する第2の記憶装置と、入力された所定の言
語の文字列に基づいて、上記属性リストを参照して、各
属性毎に照合を行うことにより各属性が存在するか否か
を示す属性値を抽出して出力する抽出手段と、上記抽出
手段から出力される属性値に対して、上記第2の記憶装
置に記憶された各決定木を用いてそれぞれ、上記入力さ
れた文字列における言語のあいまい性を解消するための
正解情報を決定してその頻度とともに出力する複数の補
完手段と、上記複数の補完手段から出力される正解情報
とその頻度に基づいて、頻度が最大又は頻度がより大き
な所定数の正解情報を選択して、その正解情報を含む情
報が補完された文字列を出力する補完選択手段とを備え
る。従って、本発明によれば、以下の特有の効果を有す
る。 (a)最適な特徴パターンを人手で選択しなくても、言
語のあいまい性を解消するための正解情報を決定する決
定木が自動的に作成され、作成された決定木を使うこと
によって適切な正解情報が決定される。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、言語のあいまい性を解消するための正解情
報を決定する決定木がより正確にかつ自動的に作成さ
れ、作成された決定木を使うことによって適切な正解情
報が決定される。 (c)新規の特徴追加に対しても正解情報を決定する決
定木が自動的に作成され、作成された決定木を使うこと
によって適切な正解情報が決定される。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な正解情報
を決定することができる。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な正解情報を決定することができ
る。
As described above in detail, according to the language processing apparatus of the first aspect of the present invention, the language processing apparatus comprises a character string in a predetermined language, and information for resolving the ambiguity of the sentence is supplemented in advance. Based on the supplemented information-completed text data and the attribute list of multiple attributes including language attributes for resolving language ambiguities, each sentence of each text data and each attribute included in the attribute list are To clarify whether each attribute in each attribute set exists for each sentence, and to resolve language ambiguity by checking all combinations with each attribute set when divided into multiple sets A plurality of generating means for generating an attribute table indicating correct answer information for each attribute set, a first storage device for storing an attribute table for each attribute set generated by the plurality of generating means, First memory Based on a plurality of attribute tables stored in each attribute set, the attribute having the largest difference between the entropy after division by all the attributes in each attribute set and the entropy before division is selected, and the selected attribute value By learning to update the decision tree to generate a split node until it reaches a leaf node, each leaf node has a frequency and is split depending on the attribute value of each attribute A plurality of learning means for generating, for each attribute set, a decision tree for determining correct information for resolving language ambiguity having a tree structure of a simple binary tree, and the plurality of learning means; The second storage device that stores the determined decision tree for each attribute set, and the above-described attribute list based on the input character string in a predetermined language, performs matching for each attribute, attribute Extracting means for extracting and outputting an attribute value indicating whether or not the attribute value exists; and using the respective decision trees stored in the second storage device for the attribute value output from the extracting means. A plurality of complementing means for determining the correct answer information for resolving the ambiguity of the language in the input character string and outputting the information together with the frequency, and based on the correct answer information output from the plurality of complementary means and the frequency. And complement selection means for selecting a predetermined number of correct answer information having a maximum frequency or a higher frequency and outputting a character string in which information including the correct answer information is complemented. Therefore, the present invention has the following specific effects. (A) A decision tree for determining correct information for resolving language ambiguity is automatically created without manually selecting an optimal feature pattern, and an appropriate decision tree is created by using the created decision tree. Correct answer information is determined. (B) A decision tree for determining correct answer information for resolving language ambiguity is more accurately and automatically created without manually adjusting parameters or determining priorities, and the created decision tree The appropriate correct information is determined by using. (C) A decision tree for determining correct information is automatically created for addition of a new feature, and appropriate correct information is determined by using the created decision tree. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to determine appropriate correct information with higher accuracy than in the conventional example. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to determine appropriate correct information with higher accuracy than in the conventional example.

【手続補正9】[Procedure amendment 9]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0118[Correction target item name]

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0118】また、本発明に係る請求項4記載の語義決
定装置によれば、第1の言語から第2の言語に翻訳する
翻訳装置のための語義決定装置であって、第1の言語の
文の文字列からなり、その文の所定の語の語義が予め決
定された語義決定済みテキストデータと、語義を決定す
るための文の種類、時制、主語、目的語の情報を含む複
数の属性の属性リストとに基づいて、各テキストデータ
の各文と、属性リストに含まれる各属性を複数の集合に
分割したときの各属性集合とのすべての組み合わせにつ
いてそれらを照合して、各文毎に各属性集合内の各属性
が存在するか否か、及び正解語義を示す属性表をそれぞ
れ、各属性集合毎に生成する複数の生成手段と、上記複
数の生成手段によって生成された各属性集合毎の属性表
を記憶する第1の記憶装置と、上記第1の記憶装置に記
憶された複数の属性表に基づいてそれぞれ、各属性集合
内のすべての属性による分割後のエントロピーと分割前
のエントロピーとの差が最大の属性を選択して、選択さ
れた属性値により分割されたノードを生成するように決
定木を、リーフノードに到達するまで更新するように学
習することにより、各リーフノードに頻度を有しかつ各
属性の属性値に依存して分割されるような二分木形式の
木構造を有する、語義を決定するための決定木を、各属
性集合毎に生成する複数の学習手段と、上記複数の学習
手段によって生成された各属性集合毎の決定木を記憶す
る第2の記憶装置と、 入力された第1の言語の文の文
字列に基づいて、上記属性リストを参照して、各属性毎
に照合を行うことにより各属性が存在するか否かを示す
属性値を抽出して出力する抽出手段と、 上記抽出手段
から出力される属性値に対して、上記第2の記憶装置に
記憶された各決定木を用いてそれぞれ、上記入力された
文字列の意味を表す語義を決定してその頻度とともに出
力する複数の語義決定手段と、上記複数の語義決定手段
から出力される語義とその頻度に基づいて、頻度が最大
又は頻度がより大きな所定数の語義を選択して、その語
義が決定された第2の言語の文字列を出力する語義決定
選択手段とを備える。ここで、上記正解語義は、好まし
くは、第2の言語の対訳要素である。従って、本発明に
よれば、以下の特有の効果を有する。 (a)最適な特徴パターンを人手で選択しなくても、語
義決定が可能となる決定木が自動的に作成され、作成さ
れた決定木を使うことによって適切な、翻訳装置のため
の語義(又は対訳文)が決定される。 (b)人手によってパラメータ調整や優先順位の決定を
しなくても、語義決定が可能となる決定木がより正確に
かつ自動的に作成され、作成された決定木を使うことに
よって適切な、翻訳装置のための語義(又は対訳文)が
決定される。 (c)新規の特徴追加に対しても語義決定が可能となる
決定木が自動的に作成され、作成された決定木を使うこ
とによって適切な、翻訳装置のための語義(又は対訳
文)が決定される。 (d)従来例における単独の決定木学習に比較して、処
理の入力に誤りがある場合でも信頼性の劣化を抑えられ
る。従って、従来例に比較して高精度で適切な、翻訳装
置のための語義(又は対訳文)を決定することができ
る。 (e)音声認識結果、OCR文字入力結果など、ノイズ
を含む可能性のある入力記号列を入力文とした場合であ
っても、精度の劣化を抑えられる。従って、従来例に比
較して高精度で適切な、翻訳装置のための語義(又は対
訳文)を決定することができる。
According to a fourth aspect of the present invention, there is provided a semantic determination device for a translation device for translating from a first language to a second language, wherein A sentence character string in which the meaning of a given word in the sentence is determined in advance, and a plurality of attributes including information on the sentence type, tense, subject, and object for determining the meaning. Based on the attribute list, each sentence of each text data is checked against all combinations of each attribute set when each attribute included in the attribute list is divided into a plurality of sets. A plurality of generating means for generating, for each attribute set, whether or not each attribute in each attribute set exists and the correct word meaning, and each attribute set generated by the plurality of generating means. The first to store the attribute table for each A storage device and an attribute having the largest difference between entropy after division and entropy before division by all attributes in each attribute set are selected based on the plurality of attribute tables stored in the first storage device. Then, by learning to update the decision tree to generate a node divided by the selected attribute value until reaching the leaf node, each leaf node has a frequency and the attribute of each attribute A plurality of learning means for generating, for each attribute set, a decision tree having a tree structure of a binary tree format that is divided depending on a value, for each attribute set; A second storage device for storing a decision tree for each attribute set, and performing matching for each attribute by referring to the attribute list based on an input character string of a sentence in the first language. Each attribute exists by Extracting means for extracting and outputting an attribute value indicating whether or not the attribute value is output from the extracting means; A plurality of meaning determining means for determining the meaning representing the meaning of the input character string and outputting the meaning along with the frequency; and based on the meaning and the frequency output from the plurality of meaning determining means, the maximum frequency or the frequency is determined. Means for selecting a predetermined larger number of meanings and outputting a character string of the second language for which the meaning is determined. Here, the correct word meaning is preferably a bilingual element in the second language. Therefore, the present invention has the following specific effects. (A) A decision tree capable of determining meaning is automatically created without manually selecting an optimal feature pattern, and by using the created decision tree, an appropriate meaning for a translation device ( Or a bilingual sentence) is determined. (B) Decision trees that enable semantic determination can be created more accurately and automatically without manually adjusting parameters and determining priorities, and using the created decision trees to provide appropriate translation. The meaning (or bilingual sentence) for the device is determined. (C) A decision tree that enables the meaning to be determined even when a new feature is added is automatically created, and by using the created decision tree, an appropriate meaning (or a translated sentence) for the translation device can be obtained. It is determined. (D) Compared to the single decision tree learning in the conventional example, even if there is an error in the input of the process, the deterioration of reliability can be suppressed. Therefore, it is possible to determine an appropriate meaning (or a translated sentence) for the translation device with higher accuracy than the conventional example. (E) Even if an input symbol string that may contain noise, such as a speech recognition result or an OCR character input result, is used as an input sentence, deterioration in accuracy can be suppressed. Therefore, it is possible to determine an appropriate meaning (or a translated sentence) for the translation device with higher accuracy than the conventional example.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 隅田 英一郎 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 飯田 仁 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5B091 AA15 AB19 CA05 CA14 CC01 EA01 EA24  ────────────────────────────────────────────────── ─── Continued on the front page (72) Inventor Eiichiro Sumida 5 Shiraya, Inaya, Seika-cho, Soraku-cho, Kyoto Pref. AT R.R. 5 Seira-cho, Seiya-cho, Gunma, Subdivision 5, Sanriya, ATR S.A.R.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 所定の言語の文字列からなり、その文の
あいまい性を解消するための情報が予め補完された情報
補完済みテキストデータと、言語のあいまい性を解消す
るための言語の属性を含む複数の属性の属性リストとに
基づいて、各テキストデータの各文と、属性リストに含
まれる各属性を複数の集合に分割したときの各属性集合
とのすべての組み合わせについてそれらを照合して、各
文毎に各属性集合内の各属性が存在するか否か、及び言
語のあいまい性を解消するための正解情報を示す属性表
をそれぞれ、各属性集合毎に生成する複数の生成手段
と、 上記複数の生成手段によって生成された複数の属性表に
基づいてそれぞれ、各属性集合内のすべての属性による
分割後のエントロピーと分割前のエントロピーとの差が
最大の属性を選択して、選択された属性値により分割さ
れたノードを生成するように決定木を、リーフノードに
到達するまで更新するように学習することにより、各属
性の属性値に依存して分割されるような二分木形式の木
構造を有する、言語のあいまい性を解消するための正解
情報を決定するための決定木を、各属性集合毎に生成す
る複数の学習手段と、 入力された所定の言語の文字列に基づいて、上記属性リ
ストを参照して、各属性毎に照合を行うことにより各属
性が存在するか否かを示す属性値を抽出して出力する抽
出手段と、 上記抽出手段から出力される属性値に対して、上記複数
の学習手段によって生成された各決定木を用いてそれぞ
れ、上記入力された文字列における言語のあいまい性を
解消するための正解情報を決定してその頻度とともに出
力する複数の補完手段と、 上記複数の補完手段から出力される正解情報とその頻度
に基づいて、頻度が最大又は頻度がより大きな所定数の
正解情報を選択して、その正解情報を含む情報が補完さ
れた文字列を出力する補完選択手段とを備えたことを特
徴とする言語処理装置。
1. An information-completed text data composed of a character string in a predetermined language, in which information for resolving the ambiguity of the sentence is complemented in advance, and a language attribute for resolving the ambiguity of the language. Based on the attribute list of the plurality of attributes included, each sentence of each text data is checked against all combinations of each attribute set when each attribute included in the attribute list is divided into a plurality of sets. A plurality of generation means for generating, for each attribute set, whether or not each attribute in each attribute set exists for each sentence, and an attribute table indicating correct answer information for resolving language ambiguity; Based on the plurality of attribute tables generated by the plurality of generating means, the attribute having the largest difference between the entropy after division and the entropy before division by all the attributes in each attribute set is selected. Then, by learning to update the decision tree so as to generate a node divided by the selected attribute value until it reaches a leaf node, the decision tree can be divided depending on the attribute value of each attribute. A plurality of learning means for generating, for each attribute set, a decision tree for determining correct information for resolving language ambiguity having a tree structure of a simple binary tree; Extracting means for extracting and outputting an attribute value indicating whether or not each attribute exists by performing matching for each attribute by referring to the attribute list based on a character string; and outputting from the extracting means. For each attribute value, the correct answer information for resolving the ambiguity of the language in the input character string is determined by using each of the decision trees generated by the plurality of learning means, and together with the frequency, Out A plurality of complementing means, and based on the correct answer information output from the plurality of complementary means and the frequency thereof, select a predetermined number of correct answer information having a maximum frequency or a higher frequency, and obtain information including the correct answer information. A language processing apparatus comprising: a complement selection unit that outputs a complemented character string.
【請求項2】 請求項1記載の言語処理装置は、日本語
省略要素補完装置であり、 上記情報補完済みテキストデータは、日本語自然発話文
の文字列からなり、その文の省略要素の正解人称が予め
補完された省略要素補完済みテキストデータであり、 上記属性リストは、動詞の正規形と、動詞の意味属性
と、文末表現と、言語外情報としての話者情報とを含む
複数の属性の属性リストであり、 上記属性表は、各文毎に各属性が存在するか否か、及び
省略要素が何人称であるかの正解人称を示す属性表であ
り、 上記各決定木は、省略要素の正解人称を決定するための
決定木であり、 上記各補完手段は、上記入力された文字列における省略
要素の正解人称を決定し、 上記補完選択手段は、頻度が最大又は頻度がより大きな
所定数の正解人称を選択して、その正解人称を含む省略
要素が補完された文字列を出力することを特徴とする言
語処理装置。
2. A language processing apparatus according to claim 1, wherein the information-completed text data comprises a character string of a Japanese natural utterance sentence, and the correct answer of the omitted element of the sentence. The abbreviation element supplemented text data in which the person is complemented in advance, and the attribute list includes a plurality of attributes including a normal form of the verb, a semantic attribute of the verb, a sentence end expression, and speaker information as extralingual information. The attribute table is an attribute table indicating whether or not each attribute exists for each sentence, and the correct personal name of the omitted element, and each of the decision trees is omitted. A decision tree for determining a correct person of the element; each of the complementing means determines a correct person of the omitted element in the input character string; and the complement selecting means has a maximum frequency or a higher frequency. Select a certain number of correct personals And outputting a character string in which the omitted element including the correct person is complemented.
【請求項3】 請求項2記載の言語処理装置において、 上記省略要素は、日本語自然発話文における主語又は目
的語の人称であることを特徴とする言語処理装置。
3. The language processing apparatus according to claim 2, wherein the omitted element is a subject of a subject or an object in a Japanese natural utterance sentence.
【請求項4】 請求項1記載の言語処理装置は、第1の
言語から第2の言語に翻訳する翻訳装置のための語義決
定装置であり、 上記情報補完済みテキストデータは、第1の言語の文の
文字列からなり、その文の語義が予め補完された語義決
定済みテキストデータであり、 上記属性リストは、文の種類、時制、主語、目的語の情
報を含む複数の属性の属性リストであり、 上記属性表は、各文毎に各属性が存在するか否か、及び
正解語義を示す属性表であり、 上記各決定木は、正解語義を決定するための決定木であ
り、 上記各補完手段は、上記入力された文字列における正解
語義を決定し、 上記補完選択手段は、頻度が最大又は頻度がより大きな
所定数の正解語義を選択して、その正解語義が補完され
た文字列を出力することを特徴とする言語処理装置。
4. The language processing apparatus according to claim 1, wherein the language processing apparatus is a semantic determination apparatus for a translation apparatus for translating from a first language to a second language, wherein the information-completed text data is in a first language. The sentence is text data for which the meaning of the sentence has been determined in advance and the meaning of the sentence is complemented in advance. The attribute table is an attribute table indicating whether each attribute exists for each sentence and the correct meaning, and each of the decision trees is a decision tree for determining the correct meaning. Each complementing means determines the correct word meaning in the input character string, and the complement selecting means selects a predetermined number of correct word meanings having the highest frequency or higher frequency, and the character whose correct word meaning is complemented. A language characterized by outputting columns Processing equipment.
【請求項5】 請求項4記載の言語処理装置において、 上記正解語義は、第2の言語の対訳要素であることを特
徴とする言語処理装置。
5. The language processing apparatus according to claim 4, wherein the correct meaning is a bilingual element of a second language.
JP10279724A 1998-10-01 1998-10-01 Language processing device and semantic determination device Expired - Fee Related JP3022511B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10279724A JP3022511B1 (en) 1998-10-01 1998-10-01 Language processing device and semantic determination device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10279724A JP3022511B1 (en) 1998-10-01 1998-10-01 Language processing device and semantic determination device

Publications (2)

Publication Number Publication Date
JP3022511B1 JP3022511B1 (en) 2000-03-21
JP2000112936A true JP2000112936A (en) 2000-04-21

Family

ID=17615006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10279724A Expired - Fee Related JP3022511B1 (en) 1998-10-01 1998-10-01 Language processing device and semantic determination device

Country Status (1)

Country Link
JP (1) JP3022511B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004079627A1 (en) * 2003-03-07 2006-06-08 株式会社ダイナコム Method for selecting an action element to identify a gene
EP3267369A1 (en) 2016-07-04 2018-01-10 Panasonic Intellectual Property Management Co., Ltd. Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system
WO2018066258A1 (en) * 2016-10-06 2018-04-12 シャープ株式会社 Dialog device, control method of dialog device, and control program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004079627A1 (en) * 2003-03-07 2006-06-08 株式会社ダイナコム Method for selecting an action element to identify a gene
EP3267369A1 (en) 2016-07-04 2018-01-10 Panasonic Intellectual Property Management Co., Ltd. Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system
US10846603B2 (en) 2016-07-04 2020-11-24 Panasonic Intellectual Property Management Co., Ltd. Decision tree generating apparatus, decision tree generating method, non-transitory computer-readable recording medium, and inquiry system
WO2018066258A1 (en) * 2016-10-06 2018-04-12 シャープ株式会社 Dialog device, control method of dialog device, and control program
CN109791766A (en) * 2016-10-06 2019-05-21 夏普株式会社 Interface, the control method of Interface and control program
JPWO2018066258A1 (en) * 2016-10-06 2019-09-05 シャープ株式会社 Interactive device, interactive device control method, and control program

Also Published As

Publication number Publication date
JP3022511B1 (en) 2000-03-21

Similar Documents

Publication Publication Date Title
US8126714B2 (en) Voice search device
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
Souvignier et al. The thoughtful elephant: Strategies for spoken dialog systems
Molina et al. Shallow Parsing using Specialized HMMs.
US6631346B1 (en) Method and apparatus for natural language parsing using multiple passes and tags
CN1781102B (en) Low memory decision tree
US6823493B2 (en) Word recognition consistency check and error correction system and method
US6349282B1 (en) Compound words in speech recognition systems
US20020087310A1 (en) Computer-implemented intelligent dialogue control method and system
JP2000353161A (en) Method and device for controlling style in generation of natural language
US20060241936A1 (en) Pronunciation specifying apparatus, pronunciation specifying method and recording medium
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2000200273A (en) Speaking intention recognizing device
CN106649278A (en) Method and system for extending spoken language dialogue system corpora
JP3022511B1 (en) Language processing device and semantic determination device
Llitjós et al. Improving pronunciation accuracy of proper names with language origin classes
US6735560B1 (en) Method of identifying members of classes in a natural language understanding system
JP2999768B1 (en) Speech recognition error correction device
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Lucassen Discovering phonemic base forms automatically: an information theoretic approach
US20040034524A1 (en) Hybrid baseform generation
Ircing et al. Using morphological information for robust language modeling in Czech ASR system
JP2001013992A (en) Voice understanding device
JP2779333B2 (en) Language analyzer
López-Cózar et al. New technique to enhance the performance of spoken dialogue systems based on dialogue states-dependent language models and grammatical rules

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees