JP3027553B2 - Parser - Google Patents

Parser

Info

Publication number
JP3027553B2
JP3027553B2 JP9218522A JP21852297A JP3027553B2 JP 3027553 B2 JP3027553 B2 JP 3027553B2 JP 9218522 A JP9218522 A JP 9218522A JP 21852297 A JP21852297 A JP 21852297A JP 3027553 B2 JP3027553 B2 JP 3027553B2
Authority
JP
Japan
Prior art keywords
speech
decision tree
word
attribute
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9218522A
Other languages
Japanese (ja)
Other versions
JPH1166070A (en
Inventor
秀紀 柏岡
エズラ・ダブリュー・ブラック
ステファン・ジー・ユーバンク
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP9218522A priority Critical patent/JP3027553B2/en
Publication of JPH1166070A publication Critical patent/JPH1166070A/en
Application granted granted Critical
Publication of JP3027553B2 publication Critical patent/JP3027553B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字列を含む文章
のテキストデータに対して、構文構造決定用の確率付き
決定木を用いて、構文構造を自動的に付与する構文解析
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a syntax analyzer for automatically assigning a syntax structure to text data of a sentence including a character string by using a decision tree with a probability for determining a syntax structure.

【0002】[0002]

【従来の技術】従来、比較的精度のよい品詞付与システ
ム(以下、第1の従来例という。)が、従来技術文献1
「E.Brill et al.,“Some Advances in Transformation
--Based Part of Speech Tagging",Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence,pp.722-727,AAAI,1994年」及び従来技術文献2
「B.Merialdo et al.,“Tagging English Text with a
Probabilistic Model",Computational Linguistics,20-
2,pp.155-171,1994年」において報告されている。この
従来例の品詞付与システムにおいては、単語表記とその
表記のとる品詞ラベルの組を記述した、品詞付与のため
の辞書を参照することによりテキストデータに対して品
詞を付与している。
2. Description of the Related Art Conventionally, a relatively accurate part-of-speech assigning system (hereinafter referred to as a first conventional example) is disclosed in Prior Art Document 1.
“E. Brill et al.,“ Some Advances in Transformation
--Based Part of Speech Tagging ", Proceedings of the
Twelfth National Conferenceon Artificial Intellig
ence, pp.722-727, AAAI, 1994 "and prior art document 2
“B. Merialdo et al.,“ Tagging English Text with a
Probabilistic Model ", Computational Linguistics, 20-
2, pp. 155-171, 1994 ". In this part-of-speech giving system of this conventional example, part-of-speech is given to text data by referring to a dictionary for giving part-of-speech, which describes a set of a word notation and a part-of-speech label taken by the notation.

【0003】この第1の従来例の品詞付与システムにお
いては、辞書を用いて品詞を付与しているために、辞書
項目に記載されていない未知語に対する品詞付与は難し
く、また、単語と品詞ラベルとの未知の組合せに対する
処理は難しいという問題点があった。さらに、使われる
品詞体系の変更により辞書のメンテナンスを行う必要が
あるという問題点があった。また、辞書を使用しない
で、ヒューリスティックスにより(発見的に又は経験的
に)単語に対する品詞ラベルを割り当てている品詞付与
装置もあるが、品詞付与の正解率は比較的低いという問
題点があった。
In the part-of-speech assigning system of the first conventional example, part-of-speech is assigned using a dictionary. Therefore, it is difficult to assign a part-of-speech to an unknown word not described in a dictionary item. There is a problem that processing for an unknown combination with is difficult. Furthermore, there is a problem that it is necessary to maintain the dictionary by changing the part of speech system used. There is also a part-of-speech device that uses heuristics (heuristically or empirically) to assign a part-of-speech label to a word without using a dictionary. However, there is a problem that the accuracy rate of part-of-speech assignment is relatively low.

【0004】以上の問題点を解決するために、本特許出
願人は、特願平8−232993号の特許出願におい
て、品詞付与のための辞書を用いることなく、第1の従
来例に比較して正確に自動的に付与することができる品
詞付与装置(以下、第2の従来例という。)を開示して
いる。この第2の従来例の品詞付与装置は、(a)単語
列からなる品詞付与済みテキストデータに基づいて、各
単語の綴りの特徴と、文章内の使われ方による特徴と、
単語の相互情報量を用いた階層的な分類とを含む複数の
属性を用いて、上記各属性の属性値に依存して分割され
るような二分木形式の木構造を有し品詞付与のための決
定木を生成し、上記生成された決定木の分割されないノ
ードであるリーフノードに対して複数の品詞に対する頻
度確率を計算して付与することにより、頻度確率付き決
定木を生成する決定木学習手段と、(b)上記決定木学
習手段によって生成された頻度確率付き決定木を用い
て、入力される単語列からなるテキストデータに基づい
て、上記リーフノードに付与された頻度確率の中で上位
複数n個の頻度確率を選択して上記テキストデータの各
単語に対して付与し、上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定して出力する品詞付与手段とを備えたことを特徴と
している。
[0004] In order to solve the above problems, the present applicant has compared the first conventional example without using a dictionary for assigning the part of speech in the patent application of Japanese Patent Application No. Hei 8-232993. A part-of-speech assigning device (hereinafter, referred to as a second conventional example) that can be assigned automatically and accurately. The second conventional example of the part-of-speech providing apparatus includes: (a) a spelling feature of each word, a feature based on how to be used in a sentence,
Using a plurality of attributes including hierarchical classification using mutual information of words, and having a tree structure in a binary tree format that is divided depending on the attribute value of each attribute, Tree that generates a decision tree with frequency probabilities by calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node that is an undivided node of the generated decision tree. Means, and (b) using the decision tree with frequency probability generated by the decision tree learning means, based on the text data composed of the input word strings, the top among the frequency probabilities assigned to the leaf nodes. A product in which a plurality of n frequency probabilities are selected and given to each word of the text data, and a part of speech having the maximum connection probability in the word string of the text data is determined and output as a correct part of speech. It is characterized in that a supplying means.

【0005】[0005]

【発明が解決しようとする課題】さらに、英文構文解析
装置として、従来技術文献3「M.J.Collins,“A new st
atistical parser based on bigram lexical dependenc
ies",the 34th Annual Meeting of ACL Proceedings,19
96年」において、構文構造が付与されたテキストデータ
から主要語のバイグラムの統計情報を学習し、構文解析
を行うこと(以下、第3の従来例という。)が開示され
ている。
Further, as an English sentence parsing apparatus, a prior art document 3 “MJCollins,“ A new st
atistical parser based on bigram lexical dependenc
ies ", the 34th Annual Meeting of ACL Proceedings, 19
In 1996, learning bigram statistical information of a main word from text data to which a syntax structure has been added and performing syntax analysis (hereinafter, referred to as a third conventional example) is disclosed.

【0006】しかしながら、第3の従来例では、素性構
造付き文脈自由文法などの詳細な構文構造の情報を付与
することはできないという問題点があった。
However, in the third conventional example, there is a problem that information of a detailed syntax structure such as a context-free grammar with a feature structure cannot be added.

【0007】本発明の目的は以上の問題点を解決し、品
詞付与のための辞書を用いることなく、従来例に比較し
て正確に自動的に品詞を付与することができ、しかも素
性構造付き文脈自由文法などの詳細な構文構造の情報を
付与することはできる構文解析装置を提供することにあ
る。
SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, and to provide a part-of-speech more accurately and automatically than a conventional example without using a dictionary for giving a part-of-speech. It is an object of the present invention to provide a parsing apparatus capable of adding detailed syntax structure information such as a context-free grammar.

【0008】[0008]

【課題を解決するための手段】本発明に係る請求項1記
載の構文解析装置は、単語列からなる構文解析済みテキ
ストデータに基づいて、各単語の綴りの特徴と、文章内
の使われ方による特徴と、単語の相互情報量を用いた階
層的な分類とを含む複数の属性を用いて、上記各属性の
属性値に依存して分割されるような二分木形式の木構造
を有し品詞付与のための品詞決定木を生成し、上記生成
された品詞決定木の分割されないノードであるリーフノ
ードに対して複数の品詞に対する頻度確率を計算して付
与することにより、頻度確率付き品詞決定木を生成する
品詞決定木学習手段と、単語列からなる構文解析済みテ
キストデータに基づいて、処理対象の単語の語数と、処
理対象の主辞単語の品詞、処理対象の直前の単語の品
詞、単語の相互情報量を用いた階層的な分類とを含む複
数の属性を用いて、上記各属性の属性値に依存して分割
されるような二分木形式の木構造を有し文法規則付与の
ための文法規則決定木を生成し、上記生成された文法規
則決定木の分割されないノードであるリーフノードに対
して複数の文法規則に対する頻度確率を計算して付与す
ることにより、頻度確率付き文法規則決定木を生成する
文法規則決定木学習手段と、単語列からなる構文解析済
みテキストデータに基づいて、処理対象の単語の語数
と、処理対象の主辞単語の品詞、処理対象の直前の単語
の品詞、単語の相互情報量を用いた階層的な分類とを含
む複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し文法規則付
与処理における各パージング状態で処理方向を決定する
ための処理方向決定木を生成し、上記生成された処理方
向決定木の分割されないノードであるリーフノードに対
して複数の処理方向に対する頻度確率を計算して付与す
ることにより、頻度確率付き処理方向決定木を生成する
処理方向決定木学習手段と、上記品詞決定木学習手段に
よって生成された頻度確率付き品詞決定木を用いて、入
力される処理対象の単語列からなるテキストデータに基
づいて、上記リーフノードに付与された頻度確率の中で
上位複数n個の頻度確率を選択して上記テキストデータ
の各単語に対して付与し、上記テキストデータの単語列
において最大の結合確率を有する品詞列を正解品詞列と
して決定し、次いで、所定のスタック・デコーダ・アル
ゴリズムを用いて、文法規則付与処理における各パージ
ング状態での単語列に対する結合確率が最大の結合確率
を有するパージング状態を選択した後、上記処理方向決
定木学習手段によって生成された頻度確率付き処理方向
決定木を用いて上記処理対象の単語列における処理方向
を決定し、決定された処理方向におけるパージング状態
において、上記文法規則決定木学習手段によって生成さ
れた頻度確率付き文法規則決定木に従って文法規則を上
記処理対象の単語列に加えることにより構文解析情報を
付与して構文解析済みテキストデータを出力する構文情
報付与手段とを備えたことを特徴とする。
According to the first aspect of the present invention, there is provided a parsing apparatus according to the present invention, wherein a spelling characteristic of each word and a usage in a sentence are determined based on parsed text data composed of a word string. Has a tree structure such as a binary tree format that is divided depending on the attribute value of each attribute, using a plurality of attributes including the feature according to and the hierarchical classification using mutual information of words. A part-of-speech tree with frequency probability is calculated by generating a part-of-speech decision tree for part-of-speech assignment and calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node which is an undivided node of the generated part-of-speech tree. Based on the part-of-speech decision tree learning means for generating a tree, and the number of words to be processed, the part-of-speech of the head word to be processed, the part-of-speech of the word immediately before the processing target, Mutual information Grammatical rule determination for assigning grammatical rules with a binary tree structure that is divided depending on the attribute value of each attribute using a plurality of attributes including hierarchical classification using A grammar rule decision tree with a frequency probability is generated by generating a tree and calculating and assigning frequency probabilities for a plurality of grammar rules to a leaf node which is an undivided node of the generated grammar rule decision tree. Based on the grammar rule decision tree learning means and the parsed text data consisting of word strings, the number of words to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the processing object, mutual information of words Each of the parsing states in the grammar rule assignment process has a tree structure of a binary tree format that is divided depending on the attribute value of each attribute using a plurality of attributes including a hierarchical classification using the quantity. Processed by By generating a processing direction decision tree for determining a direction and calculating and assigning frequency probabilities for a plurality of processing directions to a leaf node that is an undivided node of the generated processing direction decision tree, Using a processing direction decision tree learning means for generating a processing direction decision tree with probabilities, and a frequency-probability part of speech decision tree generated by the above-described part-of-speech decision tree learning means, text data consisting of a word string to be input is processed. Based on the frequency probabilities assigned to the leaf nodes, n higher-order frequency probabilities are selected and assigned to each word of the text data, and the maximum joint probability in the word string of the text data is selected. Is determined as a correct part-of-speech sequence, and then each parsing in the grammar rule assignment process is performed using a predetermined stack decoder algorithm. After selecting the purging state in which the connection probability for the word string in the state has the maximum connection probability, the processing direction decision tree with the frequency probability generated by the processing direction decision tree learning means is used to select the purging state. Parsing is performed by determining a processing direction and adding a grammar rule to the word string to be processed in accordance with the grammar rule decision tree with frequency probability generated by the grammar rule decision tree learning means in the parsing state in the determined processing direction. Syntax information adding means for adding information and outputting parsed text data.

【0009】また、請求項2記載の構文解析装置は、請
求項1記載の構文解析装置において、上記各決定木学習
手段は、上記二分木の形式で分割するときに、上記各属
性による分割前の属性の有効性の優先順位を表わすエン
トロピーH0と分割後のエントロピーHとの差(H0
H)が最大の属性を分割候補の属性として選択し、所定
の分割続行基準を満足するときに、二分木の形式で分割
して決定木を更新することを特徴とする。
According to a second aspect of the present invention, in the parsing apparatus according to the first aspect, when each of the decision tree learning means performs the division in the form of the binary tree, the division before the division by each of the attributes is performed. The difference (H 0 −) between the entropy H 0 representing the priority of the validity of the attribute of the
H) selects the largest attribute as an attribute of a division candidate, and when a predetermined division continuation criterion is satisfied, the decision tree is updated by division in the form of a binary tree.

【0010】さらに、請求項3記載の構文解析装置は、
請求項2記載の構文解析装置において、上記分割続行基
準は、(I)選択された属性に基づいて分割したときの
エントロピーの差(H0−H)が所定のエントロピーし
きい値Hth以上であり、かつ(II)選択された属性に
基づく分割後の属性とその属性値及び品詞の組のイベン
ト数が所定のイベント数しきい値Dth以上であること
を特徴とする。
Further, the parsing device according to claim 3 is
3. The parsing apparatus according to claim 2, wherein the division continuation criterion is that (I) a difference (H 0 −H) in entropy at the time of division based on the selected attribute is equal to or greater than a predetermined entropy threshold Hth. And (II) the number of events of a set of the attribute after division based on the selected attribute, the attribute value thereof, and the part of speech is equal to or more than a predetermined event number threshold Dth.

【0011】またさらに、請求項4記載の構文解析装置
は、請求項1、2又は3記載の構文解析装置において、
上記構文情報付与手段は、上記リーフノードに付与され
た頻度確率の中で上位複数n個の頻度確率を選択して上
記テキストデータの各単語に対して付与した後、所定の
スタック・デコーダ・アルゴリズムを用いて、処理途中
のテキストデータの単語列に対する結合確率が所定の結
合確率以上である品詞候補のみを残して品詞候補を限定
し、品詞付与処理終了時の上記テキストデータの単語列
において最大の結合確率を有する品詞列を正解品詞列と
して決定することを特徴とする。
Further, the parsing device according to claim 4 is a parsing device according to claim 1, 2 or 3, wherein
The syntax information assigning means selects a plurality of upper n frequency probabilities from the frequency probabilities assigned to the leaf nodes and assigns the selected frequency probabilities to each word of the text data. Is used to limit the part-of-speech candidates, leaving only the part-of-speech candidates whose connection probability to the word string of the text data being processed is equal to or greater than the predetermined connection probability, and the largest part of the word string of the text data at the end of the part-of-speech processing. A part-of-speech sequence having a connection probability is determined as a correct part-of-speech sequence.

【0012】[0012]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である、決定木学習装置10及び構文情報付与
装置11を備えた構文解析システムのブロック図であ
る。この品詞付与システムは、英語のテキストデータに
対して、品詞付与のための辞書を参照しないで、品詞を
付与した後、素性構造付き文脈自由文法などの詳細な構
文構造の情報を付与することはできる構文解析システム
であって、(a)品詞付与済みテキストメモリ21に格
納された品詞付与済みテキストデータに基づいて、属性
リストメモリ22に格納された属性リストと、品詞リス
トメモリ23に格納された品詞リストとを参照して、詳
細後述する品詞決定木学習処理を実行して学習すること
により、頻度確率付き品詞決定木を生成して品詞決定木
ファイルメモリ25に格納し、次いで、品詞付与済みテ
キストメモリ21に格納された品詞付与済みテキストデ
ータに基づいて、属性リストメモリ22に格納された属
性リストと、文法規則リストメモリ24に格納された文
法規則リストとを参照して、詳細後述する文法規則決定
木学習処理を実行して学習することにより、頻度確率付
き文法規則決定木を生成して文法規則決定木ファイルメ
モリ26に格納し、さらに、品詞付与済みテキストメモ
リ21に格納された品詞付与済みテキストデータに基づ
いて、属性リストメモリ22に格納された属性リスト
と、文法規則リストメモリ24に格納された文法規則リ
ストとを参照して、詳細後述する処理方向決定木学習処
理を実行して学習することにより、頻度確率付き処理方
向決定木を生成して処理方向決定木ファイルメモリ27
に格納する決定木学習装置10と、(b)スタックメモ
リ12が構文情報付与装置11に接続され、品詞決定木
ファイルメモリ25に格納された頻度確率付き品詞決定
木と、文法規則決定木ファイルメモリ26に格納された
頻度確率付き文法規則決定木と、処理方向決定木ファイ
ルメモリ27に格納された頻度確率付き処理方向決定木
とを用いて、属性リストメモリ22に格納された属性リ
ストと、品詞リストメモリ23に格納された品詞リスト
と、文法規則リストメモリ24に格納された文法規則リ
ストを参照して、テキストデータメモリ30に格納され
入力されるテキストデータに対して、詳細後述する品詞
付与処理(図7)及び文法規則付与処理(図8)を含む
構文情報付与処理を実行することにより、品詞を付与し
かつ文法規則を付与して、構文解析済みテキストデータ
を生成して構文解析済みテキストデータ31に格納する
構文情報付与装置11とを備えたことを特徴とする。本
実施形態においては、テキストデータとは、英語の単語
列からなる英文である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a syntax analysis system including a decision tree learning device 10 and a syntax information providing device 11 according to an embodiment of the present invention. This part-of-speech assignment system does not refer to a dictionary for part-of-speech assignment to English text data, and then assigns detailed syntactic information such as context-free grammar with feature structure after assigning the part of speech. (A) an attribute list stored in an attribute list memory 22 and an attribute list stored in a part-of-speech list memory 23 based on the part-of-speech text data stored in the part-of-speech text memory 21 By referring to the part-of-speech list and executing a part-of-speech decision tree learning process, which will be described in detail later, by learning, a part-of-speech decision tree with frequency probability is generated and stored in the part-of-speech decision tree file memory 25. An attribute list stored in an attribute list memory 22 and a grammar rule based on the part-of-speech-added text data stored in a text memory 21 A grammar rule decision tree with a frequency probability is generated by executing a grammar rule decision tree learning process, which will be described in detail later, with reference to the grammar rule list stored in the strike memory 24 to generate a grammar rule decision tree file memory. 26, and based on the part-of-speech-added text data stored in the part-of-speech-added text memory 21, an attribute list stored in an attribute list memory 22 and a grammar rule list stored in a grammar rule list memory 24. The processing direction decision tree learning processing described in detail later is executed to perform learning, thereby generating a processing direction decision tree with frequency probability and processing direction decision tree file memory 27.
And a (b) stack memory 12 connected to the syntax information providing device 11 and a part-of-speech decision tree with frequency probabilities stored in a part-of-speech decision tree file memory 25 and a grammar rule decision tree file memory The attribute list stored in the attribute list memory 22 using the grammar rule decision tree with frequency probability stored in the file 26 and the processing direction decision tree with frequency probability stored in the processing direction decision tree file memory 27, With reference to the part of speech list stored in the list memory 23 and the grammar rule list stored in the grammar rule list memory 24, the part of speech given to the text data stored and input in the text data memory 30 will be described in detail later. By executing syntax information adding processing including (FIG. 7) and grammar rule adding processing (FIG. 8), a part of speech is added and a grammatical rule is added. To, characterized in that a syntactic information providing device 11 which generates and stores parsed text data in the parsed text data 31. In the present embodiment, the text data is an English sentence composed of an English word string.

【0013】まず、本実施形態の構文解析システムにお
いて用いる文法規則と知識について説明する。この中
で、まず、本実施形態で用いる詳細な文法規則について
述べる。学習用テキストデータベースであるコーパスに
現れる言語現象の中には、ある単位としてまとまること
により、言語的な特徴を持つ場合が少なくない。また、
この特徴が構文解析に非常に有効な情報となる場合も多
い。しかしながら、このような特徴は、スケルトン・パ
ージングにより構文情報を付与されたコーパスのみか
ら、学習することは困難である。本発明者は、詳細な文
法を用いることで、この問題を回避する。文法として
は、素性構造つき文脈自由文法を用いる。これは、文法
規則の子供のノードには現れない特徴を親ノードに付与
することで、より詳細な情報を付与でき、各素性の特徴
を利用しやすいと考えたためである。文法体系は、66
種の素性が持つ値(平均12種の値)の組み合わせで表
現され、品詞タグとしては、統語カテゴリに加えて意味
カテゴリの情報を付与することにより、2,843種の
タグセットを用いている。このタグセットに基づく規則
数は、1,155種であり、各規則には、第1の主辞、
第2の主辞の情報が付与されている。
First, grammar rules and knowledge used in the syntax analysis system of the present embodiment will be described. First, detailed grammatical rules used in the present embodiment will be described. Many linguistic phenomena appearing in a corpus, which is a learning text database, have linguistic characteristics by being organized as a unit. Also,
This feature is often very useful information for parsing. However, it is difficult to learn such features only from a corpus to which syntax information has been added by skeleton parsing. We avoid this problem by using a detailed grammar. As the grammar, a context-free grammar with a feature structure is used. This is because it is considered that by giving features that do not appear in the child node of the grammar rule to the parent node, more detailed information can be given and the features of each feature are easy to use. The grammar system is 66
Expressed as a combination of the values of the features of the species (an average of 12 values), 2,843 types of tag sets are used as part of speech tags by adding information on semantic categories in addition to syntactic categories. . The number of rules based on this tag set is 1,155, and each rule has a first head,
Information of the second head is given.

【0014】上述の文法規則に従う構造から、正しい構
造を得るために、様々な特徴を利用する。まず、文法に
与えられている各素性の持つ値の特徴を利用する。この
特徴に加えて、単語自身が持つ語彙の特徴、文の持つ特
徴を利用する。様々な文脈において、文法規則の素性が
取る値の統計的な性質を調べることで、どの文法規則が
確らしいかの指標を与えることができる。単語自身が持
つ語彙の特徴は、単語に対するタグを決めるのに非常に
有効な情報であるとともに、構文構造のある範囲での第
1の主辞となる語の情報としても利用される。本実施形
態において取り扱う語彙の情報は、辞書より得られる情
報ではなく、語を構成しているサフィックスやプレフィ
ックス、単語の文字数等により特徴づけられている。ま
た、文の持つ特徴は、1文に含まれる単語数や句読法、
あるいは、同じ単語が複数回現れているか等により特徴
づけられる。さらに、文脈的な情報を利用できるよう
に、直前の単語や文末、文頭、処理対象の文法規則のカ
バーする範囲の先頭の単語、末尾の単語等に関する特徴
も利用できるようにしている。文法家(文法規則を生成
する専門家をいう。)が様々な特徴を記述するために、
語法の特徴を記述するための枠組みを用いる。
Various features are used to obtain the correct structure from the structure that follows the grammatical rules described above. First, the feature of the value of each feature given to the grammar is used. In addition to these features, the vocabulary features of the words themselves and the features of the sentences are used. In various contexts, examining the statistical properties of the values taken by the features of a grammar rule can give an indication of which grammar rule is likely. The characteristics of the vocabulary of the word itself are very effective information for determining a tag for the word, and are also used as information of the first head word in a certain range of the syntax structure. The vocabulary information handled in the present embodiment is not information obtained from the dictionary, but is characterized by the suffix and prefix constituting the word, the number of characters of the word, and the like. The sentence features include the number of words contained in one sentence, punctuation,
Alternatively, it is characterized by whether the same word appears more than once. Further, in order to use contextual information, features related to the immediately preceding word, the end of a sentence, the beginning of a sentence, the first word in the range covered by the grammar rule to be processed, the last word, and the like are also available. To describe various features, grammarists (specialists who generate grammar rules)
Use a framework to describe the characteristics of the grammar.

【0015】次いで、本実施形態で用いる統計的構文解
析法について述べる。本実施形態では、上述した特徴を
効率的に利用するために、統計的な性質を学習用コーパ
スを用いて計算し、確率付決定木として学習している。
本手法で用いる決定木では、枝刈りに、最小コスト−コ
ンプレキシティアルゴリズムを用い、スムージングに
は、フォワード−バックワードアルゴリズムを用いた。
この決定木は、2分木となっている。そのため、上述し
た特徴を決定木の分岐点の情報としては、直接利用でき
ない。そこで、各特徴の値に“0”,“1”の固有のビ
ット列を与え、特定のビットを利用する。また、その特
徴が有効な特徴であるかどうかの分岐も行っている。こ
こで、例えば、文頭の単語を処理する場合に、直前の単
語に関する特徴は利用できない。
Next, a statistical parsing method used in this embodiment will be described. In the present embodiment, in order to efficiently use the above-described features, statistical properties are calculated using a learning corpus, and learning is performed as a decision tree with probability.
In the decision tree used in this method, a minimum cost-complexity algorithm was used for pruning, and a forward-backward algorithm was used for smoothing.
This decision tree is a binary tree. Therefore, the above-mentioned features cannot be directly used as the information of the branch point of the decision tree. Therefore, a unique bit string of “0” and “1” is given to each feature value, and specific bits are used. In addition, branching is performed to determine whether the feature is a valid feature. Here, for example, when processing the word at the beginning of the sentence, the feature related to the immediately preceding word cannot be used.

【0016】本手法の構文解析は、部分的な解析木を表
現する状態を、連続的に構築する処理として捉えられ
る。ある状態から次の状態に移るために、以下の処理の
いずれかが行われている。この各処理に対して上述した
決定木が構成されている。 (a)単語にタグを付与し、統語的な素性を決めた後、
意味的な素性を決める。 (b)現在の処理対象が構成要素の終りかどうかを判断
する。 (c)現在の処理対象の構成要素に文法規則を付与す
る。 これらの処理の順序関係には、何通りかの可能性がある
が、本実施形態では、まず、全ての単語に品詞のタグ付
を行い、左から右に、ボトム・アップで解析を進めてい
る。文法から生成される候補は、非常に膨大であり、最
適な候補を見いだすことが困難に思われるが、本手法で
は、決定木で文脈に依存した確率の推定を行っており、
詳細後述するスタック・デコーダ・アルゴリズムを利用
することで、処理の効率化をはかっている。
The syntax analysis of the present method is regarded as a process of continuously constructing a state representing a partial parse tree. To move from one state to the next, one of the following processes is performed. The above-described decision tree is formed for each process. (A) After assigning tags to words and determining syntactic features,
Determine semantic features. (B) Determine whether the current processing target is the end of the component. (C) Add a grammar rule to the current component to be processed. There are several possibilities for the order of these processes. In the present embodiment, first, all words are tagged with parts of speech, and the analysis is performed from left to right in a bottom-up manner. I have. The number of candidates generated from the grammar is very large, and it seems difficult to find the best candidate.However, in this method, the probability depending on the context is estimated using a decision tree.
The efficiency of processing is improved by using a stack decoder algorithm described in detail below.

【0017】次いで、図1の構文解析システムの構成及
び動作について説明する。決定木学習装置10は、メモ
リ21から読み出された単語列からなる品詞付与済みテ
キストデータに基づいて、各単語の綴りの特徴と、文章
内の使われ方による特徴と、単語の相互情報量を用いた
階層的な分類とを含み属性リストメモリ22に格納され
た複数の属性を用いて、上記各属性の属性値に依存して
分割されるような二分木形式の木構造を有し品詞付与の
ための品詞決定木を生成し、上記生成された品詞決定木
の分割されないノードであるリーフノードに対して複数
の品詞に対する頻度確率を計算して付与することによ
り、頻度確率付き品詞決定木を生成して品詞決定木ファ
イルメモリ25に格納する。次いで、決定木学習装置1
0は、メモリ21から読み出された単語列からなる品詞
付与済みテキストデータに基づいて、処理対象の単語の
語数と、処理対象の主辞単語の品詞、処理対象の直前の
単語の品詞、単語の相互情報量を用いた階層的な分類と
を含み属性リストメモリ22に格納された複数の属性を
用いて、上記各属性の属性値に依存して分割されるよう
な二分木形式の木構造を有し文法規則付与のための文法
規則決定木を生成し、上記生成された文法規則決定木の
分割されないノードであるリーフノードに対して複数の
文法規則に対する頻度確率を計算して付与することによ
り、頻度確率付き文法規則決定木を生成して文法規則決
定木ファイルメモリ26に格納する。
Next, the configuration and operation of the parsing system of FIG. 1 will be described. The decision tree learning device 10 uses the part-of-speech-added text data composed of the word string read from the memory 21 to determine the spelling characteristics of each word, the characteristics of the words used in the text, and the mutual information amount of the words. And has a tree structure of a binary tree format that is divided depending on the attribute value of each attribute using a plurality of attributes stored in the attribute list memory 22 including a hierarchical classification using A part-of-speech tree with frequency probability is generated by generating a part-of-speech decision tree for assignment and calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node which is an undivided node of the generated part-of-speech decision tree. Is generated and stored in the part of speech decision tree file memory 25. Next, the decision tree learning device 1
0 is the number of words to be processed, the part of speech of the head word of the processing target, the part of speech of the word immediately before the processing target, the part of speech of the word, Using a plurality of attributes stored in the attribute list memory 22 including a hierarchical classification using mutual information, a tree structure in a binary tree format that is divided depending on the attribute value of each of the above attributes is formed. By generating a grammar rule decision tree for providing a grammar rule, calculating and assigning frequency probabilities for a plurality of grammar rules to a leaf node which is an undivided node of the generated grammar rule decision tree. Then, a grammar rule decision tree with frequency probability is generated and stored in the grammar rule decision tree file memory 26.

【0018】さらに、決定木学習装置10は、メモリ2
1から読み出された単語列からなる品詞付与済みテキス
トデータに基づいて、処理対象の単語の語数と、処理対
象の主辞単語の品詞、処理対象の直前の単語の品詞、単
語の相互情報量を用いた階層的な分類とを含み属性リス
トメモリ22に格納された複数の属性を用いて、上記各
属性の属性値に依存して分割されるような二分木形式の
木構造を有し文法規則付与処理における各パージング状
態で処理方向を決定するための処理方向決定木を生成
し、上記生成された処理方向決定木の分割されないノー
ドであるリーフノードに対して複数の処理方向に対する
頻度確率を計算して付与することにより、頻度確率付き
処理方向決定木を生成して処理方向決定木ファイルメモ
リ27に格納する。ここで、決定木学習装置10は、上
記二分木の形式で分割するときに、上記各属性による分
割前の属性の有効性の優先順位を表わすエントロピーH
0と分割後のエントロピーHとの差(H0−H)が最大の
属性を分割候補の属性として選択し、所定の分割続行基
準を満足するときに、二分木の形式で分割して決定木を
更新する。
Further, the decision tree learning device 10 includes a memory 2
Based on the part-of-speech-attached text data consisting of the word string read from 1, the number of words to be processed, the part of speech of the subject head word to be processed, the part of speech of the word immediately before the processing object, and the mutual information of the words A plurality of attributes stored in the attribute list memory 22 including the used hierarchical classification and having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, Generate a processing direction decision tree for determining a processing direction in each purging state in the adding process, and calculate frequency probabilities for a plurality of processing directions for leaf nodes that are undivided nodes of the generated processing direction decision tree. Then, a processing direction decision tree with frequency probability is generated and stored in the processing direction decision tree file memory 27. Here, when the decision tree learning device 10 performs the division in the form of the binary tree, the entropy H indicating the priority of the validity of the attribute before the division by each attribute is used.
An attribute having the largest difference (H 0 −H) between 0 and the entropy H after the division is selected as an attribute of a division candidate, and when a predetermined division continuation criterion is satisfied, the attribute is divided into a binary tree and divided into a decision tree. To update.

【0019】次いで、構文情報付与装置11は、決定木
学習装置10によって生成された頻度確率付き品詞決定
木を用いて、テキストデータメモリ30から入力される
処理対象の単語列からなるテキストデータに基づいて、
上記リーフノードに付与された頻度確率の中で上位複数
n個の頻度確率を選択して上記テキストデータの各単語
に対して付与し、上記テキストデータの単語列において
最大の結合確率を有する品詞列を正解品詞列として決定
し、次いで、所定のスタック・デコーダ・アルゴリズム
を用いて、文法規則付与処理における各パージング状態
での単語列に対する結合確率が最大の結合確率を有する
パージング状態を選択した後、決定木学習装置10によ
って生成された頻度確率付き処理方向決定木を用いて上
記処理対象の単語列における処理方向を決定し、決定さ
れた処理方向におけるパージング状態において、上記決
定木学習装置10によって生成された頻度確率付き文法
規則決定木に従って文法規則を上記処理対象の単語列に
加えることにより構文解析情報を付与して構文解析済み
テキストデータを出力する。
Next, the syntax information providing device 11 uses the part-of-speech decision tree with frequency probability generated by the decision tree learning device 10 based on the text data composed of the word string to be processed input from the text data memory 30. hand,
A part-of-speech sequence having the maximum combination probability in the word sequence of the text data, selecting the top plural n frequency probabilities from among the frequency probabilities assigned to the leaf nodes and assigning them to each word of the text data. Is determined as a correct part-of-speech sequence, and then, using a predetermined stack decoder algorithm, after selecting a purging state in which the connection probability for the word sequence in each purging state in the grammar rule assignment process has the maximum connection probability, Using the processing direction decision tree with frequency probability generated by the decision tree learning device 10, the processing direction in the word string to be processed is determined, and the parsing state in the determined processing direction is generated by the decision tree learning device 10. By adding grammatical rules to the word string to be processed according to the grammar rule decision tree with frequency probability By applying a sentence analysis information to output the parsed text data.

【0020】ここで、構文情報付与装置11は、上記リ
ーフノードに付与された頻度確率の中で上位複数n個の
頻度確率を選択して上記テキストデータの各単語に対し
て付与した後、所定のスタック・デコーダ・アルゴリズ
ムに用いて、処理途中のテキストデータの単語列に対す
る結合確率が所定の結合確率以上である品詞候補のみを
残して品詞候補を限定し、処理終了時の上記テキストデ
ータの単語列において最大の結合確率を有する品詞列を
正解品詞列として決定する。
Here, the syntax information providing apparatus 11 selects a plurality of upper n frequency probabilities from the frequency probabilities assigned to the leaf nodes and assigns them to each word of the text data. The stack decoder algorithm is used to limit the part-of-speech candidates, leaving only the part-of-speech candidates whose connection probability to the word string of the text data being processed is equal to or greater than the predetermined connection probability. The part-of-speech sequence having the maximum connection probability in the sequence is determined as the correct part-of-speech sequence.

【0021】本実施形態においては、品詞決定木学習処
理により、品詞付与済みテキストデータから得られる知
識を用いて、二分木形式の木構造を有し品詞付与のため
の頻度確率付き品詞決定木を生成し、品詞付与を行な
う。頻度確率付き品詞決定木で用いられる属性は、言語
学的な特徴やコーパスから得られる統計的な特徴を用い
る。従来の品詞付与では、辞書を引くことで品詞候補を
制限し、その中から、前後に現れる語との関係などを考
慮して、もっとも適切な品詞を選択するという方法が一
般的である。しかしながら、辞書の作成や保守にかかる
コストの問題となる。また、辞書項目に無い語(未知
語)や辞書の品詞候補にない品詞として使われた語に対
しては、特別な処理が必要とされる。本実施形態に係る
頻度確率付き品詞決定木を用いた方法では、単語の品詞
を決定するために、辞書を用いないため、辞書の作成や
保守にかかるコストは問題にならない。頻度確率付き品
詞決定木を、品詞付与済みテキストを用いた学習により
構築する。そのために、品詞付与済みテキストデータが
あれば、品詞体系に柔軟に対応できる。また、上記頻度
確率を用いて、品詞列の優先順位を自動的に決定するこ
とができる。品詞決定木は、対象を複数の属性とその属
性値から、適切なクラスに分類する木構造のモデルであ
る。品詞付与においては、対象が各単語に、クラスが品
詞に相当する。属性としては、各単語の綴の特徴や文内
の使われ方による特徴や単語の相互情報量を用いた階層
的分類などを用いる。
In the present embodiment, a part-of-speech decision tree having a tree structure of a binary tree format and having a frequency probability for giving part-of-speech is obtained by using a part-of-speech decision tree learning process using knowledge obtained from text data to which part-of-speech has been added. Generate and give part of speech. The attributes used in the part-of-speech decision tree with frequency probability use linguistic features and statistical features obtained from a corpus. In the conventional part-of-speech assignment, a method is generally used in which part-of-speech candidates are limited by drawing a dictionary, and the most appropriate part-of-speech is selected from the candidates, taking into account the relationship with words that appear before and after. However, there is a problem of the cost for creating and maintaining the dictionary. In addition, special processing is required for words that are not included in dictionary items (unknown words) and words that are used as parts of speech that are not included in dictionary part-of-speech candidates. In the method using the part-of-speech decision tree with frequency probability according to the present embodiment, a dictionary is not used in order to determine the part of speech of a word, so that the cost of creating and maintaining the dictionary does not matter. The part-of-speech decision tree with frequency probabilities is constructed by learning using the part-of-speech-added text. Therefore, if there is text data with the part of speech added, it is possible to flexibly cope with the part of speech system. In addition, the priority of the part of speech sequence can be automatically determined using the frequency probability. The part-of-speech decision tree is a tree structure model that classifies a target into an appropriate class from a plurality of attributes and their attribute values. In the part of speech, the object corresponds to each word and the class corresponds to the part of speech. As the attribute, a spelling feature of each word, a feature according to a usage in a sentence, a hierarchical classification using mutual information of words, and the like are used.

【0022】また、構文情報付与装置11における文法
付与処理においては、文法規則決定木と処理方向決定木
を用いて、処理対象の単語列に対して、文法規則を付与
してゆく。ここで、文法規則決定木と処理方向決定木の
属性としては、処理対象の単語の語数と、処理対象の主
辞単語の品詞、処理対象の直前の単語の品詞、単語の相
互情報量を用いた階層的な分類を用いる。文法規則決定
木と処理方向決定木を用いた方法では、文法規則の付加
を決定するために、辞書を用いないため、辞書の作成や
保守にかかるコストは問題にならない。頻度確率付き文
法規則決定木及び処理方向決定木を、構文解析済みテキ
ストを用いた学習により構築する。そのために、構文解
析済みテキストデータがあれば、文規則の体系に柔軟に
対応できる。以下、本実施形態の構文解析システムにつ
いて詳述する。
In the grammar assignment process in the syntax information assignment device 11, a grammar rule is assigned to a word string to be processed using a grammar rule decision tree and a processing direction decision tree. Here, as attributes of the grammar rule decision tree and the processing direction decision tree, the number of words of the processing target, the part of speech of the head word of the processing target, the part of speech of the word immediately before the processing target, and the mutual information of the words were used. Use hierarchical classification. In the method using the grammar rule decision tree and the processing direction decision tree, a dictionary is not used in order to determine the addition of the grammar rule, so that the cost of creating and maintaining the dictionary does not matter. A grammar rule decision tree with a frequency probability and a processing direction decision tree are constructed by learning using a parsed text. Therefore, if there is parsed text data, it is possible to flexibly cope with the system of sentence rules. Hereinafter, the syntax analysis system of the present embodiment will be described in detail.

【0023】図1において、決定木学習装置10は、品
詞付与済みテキストメモリ21に格納された品詞付与済
みテキストデータに基づいて、属性リストメモリ22に
格納された属性リストと、品詞リストメモリ23に格納
された品詞リストとを参照して、詳細後述する品詞決定
木学習処理を実行して学習することにより、頻度確率付
き品詞決定木を生成して品詞決定木ファイルメモリ25
に格納し、次いで、品詞付与済みテキストメモリ21に
格納された品詞付与済みテキストデータに基づいて、属
性リストメモリ22に格納された属性リストと、文法規
則リストメモリ24に格納された文法規則リストとを参
照して、詳細後述する文法規則決定木学習処理を実行し
て学習することにより、頻度確率付き文法規則決定木を
生成して文法規則決定木ファイルメモリ26に格納し、
さらに、品詞付与済みテキストメモリ21に格納された
品詞付与済みテキストデータに基づいて、属性リストメ
モリ22に格納された属性リストと、文法規則リストメ
モリ24に格納された文法規則リストとを参照して、詳
細後述する処理方向決定木学習処理を実行して学習する
ことにより、頻度確率付き処理方向決定木を生成して処
理方向決定木ファイルメモリ27に格納する。次いで、
構文情報付与装置11には、スタックメモリ12が接続
され、構文情報付与装置11は、品詞決定木ファイルメ
モリ25に格納された頻度確率付き品詞決定木と、文法
規則決定木ファイルメモリ26に格納された頻度確率付
き文法規則決定木と、処理方向決定木ファイルメモリ2
7に格納された頻度確率付き処理方向決定木とを用い
て、属性リストメモリ22に格納された属性リストと、
品詞リストメモリ23に格納された品詞リストと、文法
規則リストメモリ24に格納された文法規則リストを参
照して、テキストデータメモリ30に格納され入力され
るテキストデータに対して、詳細後述する品詞付与処理
(図7)及び文法規則付与処理(図8)を含む構文情報
付与処理を実行することにより、品詞を付与しかつ文法
規則を付与して、構文解析済みテキストデータを生成し
て構文解析済みテキストデータ31に格納する。ここ
で、生成された構文解析済みテキストデータは、例えば
CRTディスプレイやプリンタなどの出力機器に出力し
てもよい。
In FIG. 1, a decision tree learning device 10 stores an attribute list stored in an attribute list memory 22 and a part-of-speech list memory 23 based on text data with a part of speech stored in a text memory 21 with a part of speech. By referring to the stored part-of-speech list and performing learning by performing a part-of-speech decision tree learning process described in detail later, a part-of-speech decision tree with frequency probability is generated and the part-of-speech decision tree file memory 25 is generated.
Then, based on the part-of-speech-added text data stored in the part-of-speech-added text memory 21, the attribute list stored in the attribute list memory 22 and the grammar rule list stored in the grammar rule list memory 24 With reference to, a grammar rule decision tree learning process, which will be described in detail later, is executed to perform learning, thereby generating a grammar rule decision tree with frequency probability and storing it in the grammar rule decision tree file memory 26,
Further, based on the part-of-speech-added text data stored in the part-of-speech-added text memory 21, reference is made to the attribute list stored in the attribute list memory 22 and the grammar rule list stored in the grammar rule list memory 24. By executing and learning a processing direction decision tree learning process, which will be described in detail later, a processing direction decision tree with frequency probability is generated and stored in the processing direction decision tree file memory 27. Then
A stack memory 12 is connected to the syntax information providing device 11. The syntax information providing device 11 is stored in a part-of-speech decision tree with frequency probability stored in a part-of-speech decision tree file memory 25 and stored in a grammar rule decision tree file memory 26. Grammar rule decision tree with frequency probability and processing direction decision tree file memory 2
7, the attribute list stored in the attribute list memory 22 using the processing direction decision tree with frequency probability stored in
Referring to the part-of-speech list stored in the part-of-speech list memory 23 and the grammar rule list stored in the grammar rule list memory 24, the part-of-speech assignment described in detail later is performed on the text data stored and input in the text data memory 30. By executing the syntax information providing process including the process (FIG. 7) and the grammar rule providing process (FIG. 8), the POS is given and the grammatical rule is provided, the parsed text data is generated, and the parsed text data is generated. It is stored in the text data 31. Here, the generated parsed text data may be output to an output device such as a CRT display or a printer.

【0024】ここで、決定木学習装置10と構文情報付
与装置11はそれぞれ、例えば、各処理を実行するCP
Uと、各処理のプログラム及びそれを実行するために必
要なデータを格納するROM(読出専用メモリ)と、C
PUのワーキングメモリとして用いられるRAM(ラン
ダムアクセスメモリ)とを備えたデジタル計算機で構成
される。また、メモリ12,21乃至27,30,31
は、例えばハードディスクメモリで構成される。さら
に、構文情報付与装置11には、スタック・デコーダ・
アルゴリズムを用いて品詞付与処理及び文法規則付与処
理を実行するためのスタック用スタックメモリ12が接
続される。
Here, the decision tree learning device 10 and the syntax information providing device 11 are, for example, CPs for executing respective processes.
U, a ROM (read only memory) for storing a program for each process and data necessary for executing the program, and C
It comprises a digital computer having a RAM (random access memory) used as a working memory of the PU. Further, the memories 12, 21 to 27, 30, 31
Is composed of, for example, a hard disk memory. Further, the syntax information providing device 11 includes a stack decoder
A stack memory 12 for executing part-of-speech assignment processing and grammar rule assignment processing using an algorithm is connected.

【0025】品詞リストメモリ23に格納される品詞リ
ストの一例を表1に示す。また、属性リストメモリ22
に格納される属性リストの一例を表2及び表3に示す。
さらに、文法規則リストメモリ24に格納される文法規
則の一例を表4に示す。
Table 1 shows an example of the part-of-speech list stored in the part-of-speech list memory 23. The attribute list memory 22
Tables 2 and 3 show examples of the attribute list stored in.
Table 4 shows an example of the grammar rules stored in the grammar rule list memory 24.

【0026】[0026]

【表1】 品詞リスト ─────────────────────────────────── 品詞タグ 意義 ─────────────────────────────────── NN1INTER−ACT 単数普通名詞、相互行為 NP1CITYNM 固有名詞、都市名 IIIN 前置詞 INJJVVGINTER−ACT 形容詞的用法の現在分詞、相互行為 VVGCONSUME 現在分詞、消費 VVGRECEIVE 現在分詞、受理 …………………… ………………………… ───────────────────────────────────[Table 1] Part of speech list ─────────────────────────────────── Part of speech tag meaning ────── ───────────────────────────── NN1INTER-ACT Singular common noun, Interaction NP1CITYNM Proper noun, City name IIIN Preposition INJJVGINTER-ACT Adjective Present participle of the target usage, mutual action VVGCONSUME present participle, consumption VVGRECEIVE present participle, acceptance …………………………………………… ─────────────────────

【0027】[0027]

【表2】 品詞付与用属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 単語の相互情報量を用いた 分類コード 階層的分類コード 対象単語が“〜ing”の単語 Yes,No 対象単語が“〜ed”の単語 Yes,No 対象単語の長さ 単語長さの数値 (例えば、“word”なら4) 直前の単語の品詞属性の値 品詞属性の値 現在の単語の品詞属性の値 品詞属性の値 文末が“?” Yes,No ………………………… ………………………… ───────────────────────────────────[Table 2] Attribute List for Part of Speech ─────────────────────────────────── Attribute Attribute Value ─── Classification code using mutual information of words Hierarchical classification code Word of ~ ing "Yes, No Word of target word is" ~ ed "Yes, No Length of target word Numerical value of word length (for example," word "is 4) Value of part of speech attribute of previous word Part of speech attribute Value The value of the part-of-speech attribute of the current word The value of the part-of-speech attribute The end of the sentence is “?” Yes, No ……………………… ──────────────────────────

【0028】[0028]

【表3】 文法規則付与用属性リスト ─────────────────────────────────── 属性 属性値 ─────────────────────────────────── 処理対象の主辞単語の相互情報量 分類コード に基づく階層的単語分類コード (所定ビット) 処理対象が一語のみ Yes,No 処理対象の主辞単語の品詞が名詞 Yes,No 処理対象の直前の単語の品詞が名詞 Yes,No ………………………… ……………………… ───────────────────────────────────[Table 3] Attribute list for assigning grammar rules ─────────────────────────────────── Attribute Attribute value ──相互 Mutual information of subject words to be processed Hierarchical word classification based on classification code Code (predetermined bit) Processing target is only one word Yes, No Part of speech of head word to be processed is noun Yes, No Part of speech of word immediately before processing is noun Yes, No ……………………………… …………………… ───────────────────────────────────

【0029】[0029]

【表4】文法規則リスト ────────────────────── nbarq4:N’→N’I 名詞句 nbar1:N’→N1 名詞句 n1a:N1→N* 名詞要素 i1e:I→P 前置詞句 p1:P→II*N’ 前置詞要素 …………………………… …… ──────────────────────[Table 4] Grammar rule list ────────────────────── nbarq4: N '→ N'I Noun phrase nbar1: N' → N1 Noun phrase n1a: N1 → N * noun element i1e: I → P preposition phrase p1: P → II * N 'preposition element ………………………… ─────────────── ─────────────── ───────

【0030】表4の文法規則リストにおいて、例えば、
第1行目は、名詞句が名詞句と前置詞句から構成される
ことを意味し、第3行目は、名詞要素が、名詞の品詞を
持つ語から構成されることを意味し、第5行目は、前置
詞要素は、前置詞と名詞要素から構成されることを意味
する。なお、処理方向は、リストとして示していない
が、本実施形態において、「右」、「左」、「上」のい
ずれかである。
In the grammar rule list in Table 4, for example,
The first line means that the noun phrase is composed of a noun phrase and a prepositional phrase, and the third line means that the noun element is composed of a word having a noun part of speech. The line indicates that the preposition element is composed of a preposition and a noun element. The processing direction is not shown as a list, but is any one of “right”, “left”, and “up” in the present embodiment.

【0031】ここで、品詞属性とは、粗く品詞を32種
類に分類した属性であり、品詞属性の値とは、例えば、
v(動詞),n(名詞),determin(冠詞),
punct(記号)である。また、単語の相互情報量を
用いた階層的分類コードとは、例えば、特願平8−02
7809号の特許出願や従来技術文献4「Akira Ushiod
a,“Hierarchical Clustering of Words",Proceedings
of COLING'96,The 16th International Conference on
Computational Linguistics,Vol.2,pp.1159-1162,1996
年8月」において開示された単語分類方法を用いて分類
された階層的分類コードである。この単語分類方法で
は、テキストデータ内の単語について出現頻度の比較的
低い単語を、同一の単語に隣接する割合の多い単語を同
一のクラスに割り当てるという基準で分類した後、単語
分類結果を中間層、上側層、及び下側層の3つの階層に
分類し、テキストデータ内のすべての単語を対象とする
グローバルな(全体的な)コスト関数である所定の平均
相互情報量を用いて、中間層、上側層、及び下側層の順
序で階層別に単語の分類を実行することを特徴としてい
る。相互情報量を用いたクラスタリングの方法において
は、単語数Tのテキスト、語数Vの語彙、それに語彙の
分割関数πとが存在すると仮定し、ここで、語彙の分割
関数πは語彙Vから語彙の中の単語クラスセットCへの
分割写像(マッピング)を表わす写像関数である。複数
の単語からなるテキストデータを生成するバイグラムの
クラスモデルの尤度L(π)は次式によって得られる。
Here, the part of speech attribute is an attribute roughly classifying the part of speech into 32 types, and the value of the part of speech attribute is, for example,
v (verb), n (noun), determine (article),
punct (symbol). A hierarchical classification code using mutual information of words is described in, for example, Japanese Patent Application No. 8-02 / 98.
7809 Patent Application and Prior Art Document 4 “Akira Ushiod
a, “Hierarchical Clustering of Words”, Proceedings
of COLING'96, The 16th International Conference on
Computational Linguistics, Vol. 2, pp. 1159-1162, 1996
8 is a hierarchical classification code classified using the word classification method disclosed in "August". In this word classification method, words having relatively low frequency of occurrence in words in text data are classified based on a criterion of assigning words having a high percentage of adjacent words to the same word to the same class, and then the word classification result is classified into an intermediate layer. , An upper layer, and a lower layer, and using a predetermined average mutual information that is a global (overall) cost function for all words in the text data, , Upper layer, and lower layer. In the clustering method using mutual information, it is assumed that a text having the number of words T, a vocabulary having the number of words V, and a vocabulary division function π exist. This is a mapping function representing a division mapping (mapping) to a word class set C in the middle. The likelihood L (π) of the bigram class model that generates text data composed of a plurality of words is obtained by the following equation.

【0032】[0032]

【数1】L(π)=−Hm+I## EQU1 ## L (π) =-Hm + I

【0033】ここで、Hmはモノグラムの単語分布のエ
ントロピーであり、Iはテキストデータ内の隣接する2
つのクラスC1,C2に関する平均的な相互情報量(Aver
ageMutual Information;以下、平均相互情報量とし、
AMIと表記する。)であり、次式で計算することがで
きる。
Here, Hm is the entropy of the word distribution of the monogram, and I is two adjacent words in the text data.
Average mutual information about two classes C 1 and C 2 (Aver
ageMutual Information; Hereinafter, the average mutual information,
Notated as AMI. ) And can be calculated by the following equation.

【0034】[0034]

【数2】 (Equation 2)

【0035】ここで、Pr(C1)は第1のクラスC1
単語の出現確率であり、Pr(C2)は第2のクラスC2
の単語の出現確率であり、Pr(C1|C2)は、第2の
クラスC2の単語は出現した後に、第1のクラスC1の単
語が出現する条件付き確率であり、Pr(C1,C2)は
第1のクラスC1の単語と第2のクラスC2の単語が隣接
して出現する確率である。従って、上記数2で表される
AMIは、互いに異なる第1のクラスC1の単語と第2
のクラスC2の単語とが隣接して出現する確率を、上記
第1のクラスC1の単語の出現確率と第2のクラスC2
単語の出現確率との積で割った相対的な頻度の割合を表
わす。エントロピーHは写像関数πに依存しない値であ
ることから、AMIを最大にする写像関数は同時にテキ
ストの尤度L(π)も最大にする。従って、AMIを単
語のクラス構成における目的関数として使用することが
できる。
Here, Pr (C 1 ) is the probability of occurrence of a word of the first class C 1 , and Pr (C 2 ) is the second class C 2
Pr (C 1 | C 2 ) is the conditional probability that a word of the first class C 1 will appear after a word of the second class C 2 has appeared, and Pr (C 1 | C 2 ) C 1 , C 2 ) is the probability that a word of the first class C 1 and a word of the second class C 2 appear adjacent to each other. Therefore, AMI is different first mutually Class C 1 word and the second represented by the number 2
The relative frequency of the word class C 2 is the probability of occurrence adjacent, divided by the product of the above first occurrence probabilities of the words in the classes C 1 and a second class of C 2 probability of occurrence of words Represents the ratio of Since the entropy H is a value independent of the mapping function π, the mapping function that maximizes the AMI also maximizes the likelihood L (π) of the text. Therefore, the AMI can be used as an objective function in the word class configuration.

【0036】上記単語分類方法は、意味又は統語的特徴
が似通った単語が近接した位置に配置された点で、バラ
ンスが取れた二分木の形式を有するツリー構造を生成す
ることができる。処理の最後に、根のノード(ルートノ
ード(root node))から葉のノード(リーフ
ノード(leaf node)に至るパスの追跡し、左
側方向の分岐又は右側方向の分岐をそれぞれ表わす0又
は1の1ビットを各分岐に割り当てることによって、語
彙の中の各単語に対して、ビットストリング(単語ビッ
ト)を割り当てることができる。
The above-described word classification method can generate a tree structure having a balanced binary tree form in that words having similar meanings or syntactic characteristics are arranged at close positions. At the end of the process, the path from the root node (root node) to the leaf node (leaf node) is traced, and 0 or 1 representing a leftward branch or a rightward branch, respectively. By assigning one bit to each branch, a bit string (word bit) can be assigned to each word in the vocabulary.

【0037】次いで、品詞決定木、文法規則決定木及び
処理方向決定木を構築する決定木学習処理のアルゴリズ
ム、及び構文情報付与処理のアルゴリズムについて述べ
る。
Next, an algorithm of a decision tree learning process for constructing a part-of-speech decision tree, a grammar rule decision tree, and a processing direction decision tree, and an algorithm of a syntax information adding process will be described.

【0038】各決定木学習処理では、各属性の有効性を
他の属性と独立に計算し、クラスの決定のための効率的
な属性による分類順序を、二分木の形式で分割された構
造を有する木構造として構築する。属性の有効性は、そ
の属性による分割分類後のエントロピーHにより評価す
る。ここでのエントロピーは、属性の有効性の優先順位
を表わす。すなわち、ある属性BでノードN1とノード
2とに分割するときに、分割前のエントロピーH0と、
分割後のエントロピーHと、ノードN1に対するエント
ロピーH1と、ノードN2に対するエントロピーH2とは
次式で表される。
In each decision tree learning process, the validity of each attribute is calculated independently of the other attributes, and the classification order based on the efficient attributes for determining the class is determined by dividing the structure divided in the form of a binary tree. Construct as a tree structure having The validity of the attribute is evaluated based on the entropy H after division and classification according to the attribute. The entropy here indicates the priority of the validity of the attribute. That is, when dividing into a node N 1 and a node N 2 with a certain attribute B, the entropy H 0 before the division,
And entropy H after division, the entropy H 1 for node N 1, and the entropy H 2 to node N 2 is expressed by the following equation.

【0039】[0039]

【数3】 (Equation 3)

【数4】H=p11+(1−p1)H2 ここで、H = p 1 H 1 + (1−p 1 ) H 2 where:

【数5】 (Equation 5)

【数6】 (Equation 6)

【0040】ここで、p(tagall)は分割前のす
べての品詞タグ(品詞決定木の場合;文法規則決定木の
ときは文法規則タグであり、処理方向決定木のときは処
理方向タグ、すなわち、「上」、「左」及び「右」であ
る。)についてのイベントの数の頻度確率又は出現確率
であり、tagallについてのΣは、分割前のすべて
の品詞タグについての和を示す。また、p1は、ノード
1に分割したときに含まれる品詞タグのイベントの数
の頻度確率の総和である。さらに、p(tagN1)は
ノードN1のすべての品詞タグについてのイベントの数
の頻度確率であり、tagN1についてのΣは、ノード
1のすべての品詞タグについての和を示す。p(ta
gN2)はノードN2のすべての品詞タグについてのイベ
ントの数の頻度確率であり、tagN2についてのΣ
は、ノードN2のすべての品詞タグについての和を示
す。
Here, p (tagall) is all part-of-speech tags before division (for a part-of-speech decision tree; a grammar rule tag for a grammar rule decision tree; a processing direction tag for a processing direction decision tree, ie, , “Up,” “left,” and “right.”), The frequency probability or appearance probability of the number of events, and Σ for tagall indicates the sum of all part-of-speech tags before division. P 1 is the sum of the frequency probabilities of the number of events of the part-of-speech tag included when the node is divided into nodes N 1 . Furthermore, p (tagN 1) is the number of frequency probability events for all parts of speech tags of the node N 1, the Σ of tagn 1, indicates the sum for all parts of speech tags of the node N 1. p (ta
gN 2) is the number of frequency probability of the event for all of the part-of-speech tag of the node N 2, for tagN 2 of Σ
Indicates the sum for all parts of speech tags of the node N 2.

【0041】有効性の計算のために、学習用のテキスト
データから各語について「属性とその属性値、品詞」の
組からなるイベント情報(event:以下、イベント
という。)を予めとりだしておく。具体的には、全ての
イベントの集合に対して、分類後のエントロピーHが最
小となる属性を求め、最初のノードに割り当てる。この
属性の属性値により、イベントの集合を分割し、対応す
る子ノードを作る。各々の子ノードにおいて、同様の処
理を繰り返し行なうことにより、木構造を構築する。分
割の停止条件は、各ノードに含まれるイベント数が一定
数以下、あるいは分割による有効性が一定基準以下(こ
こで、分割後のエントロピーHと分割前のエントロピー
0との差がある所定量を越えない場合。)とする。こ
こで、分割されないノードをリーフと呼ぶ。学習された
決定木のリーフでは、与えられたイベントの集合から各
品詞の頻度確率を計算する。
For the purpose of calculating the validity, event information (event: hereinafter referred to as an event) consisting of a set of "attributes, their attribute values, and parts of speech" is preliminarily extracted from the text data for learning. Specifically, an attribute that minimizes the entropy H after classification is obtained for a set of all events, and is assigned to the first node. The set of events is divided according to the attribute value of this attribute, and corresponding child nodes are created. A tree structure is constructed by repeating the same process at each child node. The condition for stopping the division is that the number of events included in each node is equal to or less than a certain number, or the effectiveness of the division is equal to or less than a certain reference (here, a predetermined amount having a difference between entropy H after division and entropy H 0 before division). Is not exceeded.) Here, a node that is not divided is called a leaf. At the leaf of the learned decision tree, the frequency probability of each part of speech is calculated from a given set of events.

【0042】ここで、本実施形態の構文情報付与システ
ムでは、従来技術文献5「L.E.Baum,“An inequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process",Inequalities,Vol.3,pp.1-8,1972年」に開
示されたForward−Backwardアルゴリズ
ムを用いて、スムージング用の学習データに基づいて、
スムージング用の学習データから得られる確率と決定木
から得られる確率との差が最小となるようにスムージン
グを行ない、品詞及び構文情報を付与すべき最後の頻度
確率分布を補正する。また、本実施形態のシステムで
は、上記決定木学習処理のアルゴリズムに従って、2段
階の決定木を作成している。1段目は、粗く分類した品
詞(以下、GPOS(Global Part Of
Speech)という。)(ここで、実際の品詞の属性
の1つに対応しており、例えば、動詞、名詞、冠詞など
に分類される。)のための決定木であり、2段目とし
て、GPOSの品詞毎に実際の品詞(表1に示した品詞
タグレベル)を決定するための決定木を作成する。本実
施形態では、より詳細な品詞レベルの名称を品詞タグと
呼んでいる。すなわち、2段階に分割して決定木を生成
することにより、1回の処理で必要な記憶装置の記憶容
量を大幅に減少させている。
Here, in the syntax information adding system according to the present embodiment, the related art document 5 “LEBaum,“ Aninequality a
nd associated maximization technique in statistica
l estimation for probabilistic functions of a Mark
ov process ", Inequalities, Vol. 3, pp. 1-8, 1972", based on the learning data for smoothing using the Forward-Backward algorithm.
Smoothing is performed so that the difference between the probability obtained from the learning data for smoothing and the probability obtained from the decision tree is minimized, and the last frequency probability distribution to which the part of speech and syntax information are to be added is corrected. Further, in the system of the present embodiment, a two-stage decision tree is created according to the algorithm of the decision tree learning process. The first row shows the parts of speech roughly classified (hereinafter referred to as GPOS (Global Part Of).
Speech). ) (Here, it corresponds to one of the attributes of the actual part of speech, and is classified into, for example, a verb, a noun, an article, etc.). First, a decision tree for determining an actual part of speech (part of speech tag level shown in Table 1) is created. In the present embodiment, a more detailed part-of-speech level name is called a part-of-speech tag. That is, by generating the decision tree by dividing it into two stages, the storage capacity of the storage device required in one process is greatly reduced.

【0043】品詞付与処理においては、入力文のテキス
トデータを左から右に処理し、結合確率を最大にする品
詞列を出力する。入力文が、w1,w2,…,wNのよう
な複数N個の単語からなり、品詞列{t1,t2,…,t
N}(ここで、tiはi番目の単語の品詞である。)が得
られたとすると、結合確率Pは次式で表される。なお、
本実施形態では、品詞の出現をマルコフ情報源として取
り扱っておらず、それまでに出現した単語や品詞に依存
した情報源として取り扱っている。従って、十分に長い
文において、文の最初の語とその品詞に依存して最後の
単語の品詞を導くことが、原理的には可能である。
In the part-of-speech giving process, the text data of the input sentence is processed from left to right, and a part-of-speech sequence that maximizes the connection probability is output. The input sentence is composed of a plurality of N words such as w 1 , w 2 ,..., W N , and the part-of-speech sequence {t 1 , t 2 ,.
Assuming that N } (where t i is the part of speech of the i-th word) is obtained, the connection probability P is represented by the following equation. In addition,
In the present embodiment, the appearance of the part of speech is not treated as a Markov information source, but as an information source depending on the words and parts of speech that have appeared so far. Thus, in a sufficiently long sentence, it is in principle possible to derive the part of speech of the last word depending on the first word of the sentence and its part of speech.

【0044】[0044]

【数7】 P≡p(t1,t2,…,tN│w1,w2,…,wN(7) P≡p (t 1 , t 2 ,..., T N │w 1 , w 2 ,..., W N )

【数8】 (Equation 8)

【0045】上記数7の右辺は、入力文w1,w2,…,
Nが入力されたときに、品詞列t1,t2,…,tNが与
えられる結合確率を意味し、上記数8の右辺は、入力文
1,w2,w3,…,wn、および、i−1番目の単語ま
での品詞列t1,t2,…,ti-1が与えられたときのi
番目の品詞の確率をiが1からnまで積算することによ
り得られる確率を意味する。ここで、Πの記号はiを2
からNまで変化したときの積和を意味する。そして、文
脈に依存する属性をもちいて、決定木のリーフleaf
(L)を導き、Lに関連した頻度確率分布を、pLによ
り表現し、決定木の条件付き分布を用いて以下のように
近似する。
The right side of the above equation (7) represents input sentences w 1 , w 2 ,.
When w N is input, it means the connection probability that a part of speech sequence t 1 , t 2 ,..., t N is given, and the right side of the above equation 8 indicates the input sentence w 1 , w 2 , w 3 ,. w n , and i given a part-of-speech sequence t 1 , t 2 ,..., t i-1 up to the (i−1) th word
This means the probability obtained by multiplying the probability of the part of speech by i from 1 to n. Here, the symbol of Π represents i as 2
From N to N. Then, using a context-dependent attribute, the leaf leaf of the decision tree
(L) is derived, the frequency probability distribution associated with L is represented by p L , and approximated as follows using the conditional distribution of the decision tree.

【0046】[0046]

【数9】Li≡文脈w1,w2,…,wN,t1,t2,…,
i-1において導かれたリーフ
L i ≡ context w 1 , w 2 ,..., W N , t 1 , t 2 ,.
Leaf led at t i-1

【数10】p(ti│w1,w2,…,wN,t1,t2
…,ti-1)≒pLi(ti
P (t i | w 1 , w 2 ,..., W N , t 1 , t 2 ,
..., t i-1 ) ≒ p Li (t i )

【0047】上記数9における文脈w1,w2,…,
N,t1,t2,…,ti-1は、i番目の単語wiのもつ
文脈を意味する。また、数10の左辺は、文脈w1
2,…,wN,t1,t2,…,ti-1の次に単語tiが来る
頻度確率又は出現確率を表し、それが、数10の右辺で
ある、文脈Liのもとで品詞tiをとる確率に近似できる
ことを意味する。従って、最大化すべき結合確率Pは以
下のようになる。
The contexts w 1 , w 2 ,...
w N , t 1 , t 2 ,..., t i-1 mean the context of the i-th word w i . Further, the left side of Expression 10 is the context w 1 ,
w 2 ,..., w N , t 1 , t 2 ,..., t i -1 represent the frequency probability or occurrence probability of the word t i , which is the right-hand side of Equation 10 in the context L i This means that the probability of taking the part of speech t i can be approximated. Therefore, the coupling probability P to be maximized is as follows.

【0048】[0048]

【数11】 [Equation 11]

【0049】上記数11から明らかなように、結合確率
Pは、入力文の各単語での文脈に依存して得られる品詞
iの確率の積で表される。さらに、入力文の各単語に
対する品詞付与処理においては、次の2段階の処理を行
なっている。 (a)GPOSの各品詞の頻度確率を計算する。 (b)GPOSの各品詞に対応する決定木を用いて、品
詞の頻度確率を計算する。
As is apparent from the above equation 11, the connection probability P is represented by the product of the probabilities of the parts of speech t i obtained depending on the context of each word of the input sentence. Further, in the part of speech processing for each word of the input sentence, the following two-stage processing is performed. (A) Calculate the frequency probability of each part of speech of the GPOS. (B) Using the decision tree corresponding to each part of speech of the GPOS, the frequency probability of the part of speech is calculated.

【0050】各語の頻度確率の計算では、それまでに得
られている可能性のある品詞列を全て考慮する必要があ
る。細かな品詞体系を扱う場合、探索範囲が膨大になる
ため、本システムでは、従来技術文献6「F.Jelinek,
“A fast sequential decodingalgorithm using a stac
k",IBM Journal of Research and Development,No.13,p
p.675-685,1969年」及び従来技術文献7「D.Paul,“Alg
orithms for an optimal a* search and linearizing t
he search in the stack decoder",Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop,1990年」において開示されたスタック・デコーダ・
アルゴリズムを用いて、頻度確率又は出現確率が最大と
なる品詞列を探索している。このアルゴリズムは、一種
のグラフサーチアルゴリズムであり、しきい値により一
時的に探索範囲を限定し、評価値の最も良いものを探す
ことができる。すなわち、各語に付与される可能性のあ
る複数の品詞から、最も頻度確率の高い品詞列を選択す
ることは、各品詞をノードとし隣接する単語に付与され
ているノードを連結したグラフの複数の経路から最適な
経路を探索することであり、スタック・デコーダ・アル
ゴリズムは、二分木形式で分割された木構造の経路にお
いて、複数のノードをスタック構造としてまとめて取り
扱い、スタック構造内で、探索範囲を変更することによ
り、最適な経路を、効率的に見い出すことができる。
In the calculation of the frequency probability of each word, it is necessary to consider all the part-of-speech sequences that may have been obtained so far. When dealing with a fine part-of-speech system, the search range becomes enormous. Therefore, in this system, the related art document 6 “F. Jelinek,
“A fast sequential decodingalgorithm using a stac
k ", IBM Journal of Research and Development, No. 13, p
p.675-685, 1969 "and prior art document 7" D. Paul, "Alg
orithms for an optimal a * search and linearizing t
he search in the stack decoder ", Proceedingsof the
June 1990 DARPA Speech and Natural Language Work s
hop, 1990 ".
The part-of-speech sequence with the maximum frequency probability or appearance probability is searched for using an algorithm. This algorithm is a kind of graph search algorithm, in which the search range is temporarily limited by a threshold value, and the best evaluation value can be searched. In other words, selecting a part of speech sequence with the highest frequency probability from a plurality of parts of speech that may be given to each word is performed by using a graph that connects each part of speech as a node and nodes attached to adjacent words. The stack decoder algorithm treats a plurality of nodes collectively as a stack structure in a tree-structured path divided in a binary tree format, and searches the stack structure for the optimum path. By changing the range, an optimal route can be efficiently found.

【0051】図2は、図1の決定木学習装置によって実
行される品詞決定木学習処理を示すフローチャートであ
る。図2において、まず、ステップS1で構文解析済み
テキストデータメモリ21に格納された構文解析済み
(品詞付与済み)テキストデータを読み出して、決定木
学習装置10内のRAMに書き込む。次いで、ステップ
S2で、各属性と品詞タグとの組み合わせの頻度確率
(上記p(tagall),p(tagN1),p(t
agN2)に対応する。)を計算して決定木学習装置1
0内のRAMに書き込む。さらに、ステップS3で決定
木作成処理を実行することにより頻度確率付き品詞決定
木を生成し、ステップS4で作成された確率付き品詞決
定木をメモリ24に出力して格納する。
FIG. 2 is a flowchart showing a part-of-speech decision tree learning process executed by the decision tree learning device of FIG. In FIG. 2, first, the parsed (part of speech added) text data stored in the parsed text data memory 21 is read out in step S 1 and written to the RAM in the decision tree learning device 10. Next, in step S2, the frequency probabilities of the combination of each attribute and the part-of-speech tag (the above p (tagall), p (tagN 1 ), p (t
agN 2 ). ) To calculate the decision tree learning device 1
Write to RAM in 0. Further, a part-of-speech decision tree with frequency probability is generated by executing a decision tree creation process in step S3, and the part-of-speech decision tree with probability created in step S4 is output to the memory 24 and stored.

【0052】図3は、図1の決定木学習装置によって実
行される文法規則決定木学習処理(ステップS11−S
14)を示すフローチャートであり、図2の品詞決定木
学習処理と同様に実行される。図4は、図1の決定木学
習装置によって実行される処理方向決定木学習処理(ス
テップS21−S24)を示すフローチャートであり、
図2の品詞決定木学習処理と同様に実行される。ここ
で、処理方向とは、文法規則付与処理における各パージ
ング状態で処理すべき方向であり、文法規則を付与する
範囲となる処理対象をどのように変更するかを限定する
ものである。ここで、パージング状態とは、図13に示
すように、構文情報付与装置11において部分的に解析
された状態のことをいい、現在の処理対象となるノード
又は単語の情報(具体的には、単語とその品詞情報、処
理対象はどれか)を有する。また、ゴール状態は、最終
的な構文解析結果を入力する状態であり、一文を文とし
てまとめる文法規則によりひとまとまりになったパージ
ング状態である。
FIG. 3 shows a grammar rule decision tree learning process (steps S11-S) executed by the decision tree learning device of FIG.
14 is a flowchart showing 14), which is executed similarly to the part-of-speech decision tree learning process of FIG. 2. FIG. 4 is a flowchart showing a processing direction decision tree learning process (steps S21 to S24) executed by the decision tree learning device of FIG.
It is executed in the same manner as the part-of-speech decision tree learning process of FIG. Here, the processing direction is a direction to be processed in each purging state in the grammar rule providing process, and limits how to change a processing target within a range to which the grammar rule is provided. Here, the parsing state, as shown in FIG. 13, refers to a state of being partially analyzed by the syntax information providing apparatus 11, and information on a node or word to be processed at present (specifically, A word, its part of speech information, and which one is to be processed). The goal state is a state in which the final result of parsing is input, and is a parsing state united by a grammar rule that combines one sentence as a sentence.

【0053】図5は、図2、図3及び図4のサブルーチ
ンである決定木作成処理(ステップS3,S13,S2
3)を示すフローチャートである。まず、ステップS3
1ですべての各属性による分割後のエントロピーHと、
分割前のエントロピーH0とをそれぞれ数4と数3を用
いて計算する。次いで、ステップS32でエントロピー
の差(H0−H)が最大の属性を分割候補の属性として
選択し、ステップS33で選択された属性について分割
続行判定基準を満足するか否かが判断される。ここで、
分割続行判定基準とは、(I)選択された属性に基づい
て分割したときのエントロピーの差(H0−H)が所定
のエントロピーしきい値Hth以上であり、かつ(II)
選択された属性に基づく分割後のイベント数が所定のイ
ベント数しきい値Dth以上であること。ステップS3
3で分割続行判定基準を満足するときは、ステップS3
4で、選択された属性の属性値により分割した2つのノ
ードを作成して、すなわち二分木の形式で分割して、決
定木を更新する。そして、ステップS35では、上記作
成した各ノードを処理対象として、ステップS31に戻
り、ステップS31からの処理を繰り返す。一方、ステ
ップS33で分割続行判定基準を満足しないときは、元
のメインルーチンに戻る。
FIG. 5 shows a decision tree creation process (steps S3, S13, S2) which is a subroutine of FIG. 2, FIG. 3, and FIG.
It is a flowchart which shows 3). First, step S3
1 and entropy H after division by all attributes,
The entropy H 0 before the division is calculated using Equations 4 and 3, respectively. Next, in step S32, the attribute having the largest entropy difference (H 0 −H) is selected as the attribute of the division candidate, and it is determined whether or not the attribute selected in step S33 satisfies the division continuation determination criterion. here,
The division continuation criterion is defined as (I) a difference (H 0 −H) in entropy at the time of division based on the selected attribute is equal to or greater than a predetermined entropy threshold Hth, and (II)
The number of events after division based on the selected attribute is equal to or greater than a predetermined event number threshold Dth. Step S3
If it is determined in step S3 that the division continuation criterion is satisfied, step S3
In step 4, two nodes divided by the attribute value of the selected attribute are created, that is, divided in the form of a binary tree to update the decision tree. Then, in step S35, the processing returns to step S31, and the processing from step S31 is repeated with each of the created nodes as a processing target. On the other hand, if the division continuation criterion is not satisfied in step S33, the process returns to the original main routine.

【0054】これらの決定木学習処理において作成され
た品詞決定木、文法規則決定木及び処理方向決定木の一
例を示す。ここで、入力されるテキストデータとして
は、「meeting in London」を用いる
と、構文情報付与装置11から出力される構文解析済み
テキストデータとして、「[nbarq4 [nbar
1 [n1a meeting_NN1INTER−A
CT n1a] nbar1] [i1e [p1 i
n_IIIN [nbar1 [n1a London
_NP1CITYNM n1a] nbar1] p
1] i1e] nbarq4]」が出力される。
An example of the part-of-speech decision tree, the grammar rule decision tree, and the processing direction decision tree created in these decision tree learning processes will be described. Here, when "meeting in London" is used as the text data to be input, "[nbarq4 [nbar
1 [n1a meeting_NN1INTER-A
CT n1a] nbar1] [i1e [p1 i
n_IIIN [nbar1 [n1a London
_NP1CITYNM n1a] nbar1] p
1] i1e] nbarq4] ”is output.

【0055】上記例において作成された頻度確率付き品
詞決定木の一例を図10に示す。図10に示すように、
当該頻度確率付き品詞決定木は、各属性101乃至10
5で二分木の形式で分割された木構造を有し、最後のリ
ーフにおいて各品詞タグに対する頻度確率が付与されて
いる。この例では、入力文が“meeting inL
ondon”であるときに、単語“meeting”に
対して品詞タグNN1INTER−ACT(単数普通名
詞,相互行為)が付与される一方、単語“Londo
n”に対して品詞タグNP1CITYNM(固有名詞,
都市名)が付与されている。
FIG. 10 shows an example of the part-of-speech decision tree with frequency probability created in the above example. As shown in FIG.
The part-of-speech decision tree with frequency probabilities is represented by each of the attributes 101 to 10
5 has a tree structure divided in the form of a binary tree, and a frequency probability for each part of speech tag is assigned to the last leaf. In this example, the input sentence is "meeting inL
Ondon ", the part-of-speech tag NN1INTER-ACT (singular common noun, reciprocity) is attached to the word" meeting ", while the word" Londo "
n ”for the part of speech tag NP1CITYNM (proper noun,
City name).

【0056】上記例において作成された頻度確率付き文
法規則決定木の一例を図11に示す。図11に示すよう
に、当該頻度確率付き文法規則決定木は、各属性301
乃至305で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各文法規則タグに対する頻度確率
が付与されている。この例では、入力文が“meeti
ng in London”であるときに、リーフノー
ド401において、文法規則タグnbarq4(名詞句
と前置詞要素から構成される名詞句を意味する。)が付
与される一方、リーフノード403において、文法規則
タグnbar1(名詞要素一つから構成される名詞句を
意味する。)が付与されている。
FIG. 11 shows an example of a grammar rule decision tree with frequency probability created in the above example. As shown in FIG. 11, the grammar rule decision tree with frequency probabilities
Has a tree structure divided in the form of a binary tree by
In the last leaf, the frequency probability for each grammar rule tag is given. In this example, the input sentence is "meeti
ng in London ", a grammar rule tag nbarq4 (meaning a noun phrase composed of a noun phrase and a preposition element) is attached to the leaf node 401, while a grammar rule tag nbar1 is assigned to the leaf node 403. (Meaning a noun phrase composed of one noun element).

【0057】上記例において作成された頻度確率付き処
理方向決定木の一例を図12に示す。図12に示すよう
に、当該頻度確率付き処理方向決定木は、各属性501
乃至505で二分木の形式で分割された木構造を有し、
最後のリーフにおいて各処理方向タグに対する頻度確率
が付与されている。この例では、入力文が“meeti
ng in London”であるときに、リーフノー
ド601において、処理方向タグ「上」が付与されて現
在の処理対象“meeting”のままで、この処理対
象への文法付与決定木の処理が続けられる。一方、リー
フノード603において、処理方向タグ「左」が付与さ
れて、現在の処理対象“[[in[[Londo
n]]]]”にその左にある”[meeting]”を
加え、新たな処理対象“[meeting][[in
[[London]]]]”とする処理が行われ、文法
付与決定木の処理が続けられる。
FIG. 12 shows an example of the processing direction decision tree with frequency probability created in the above example. As shown in FIG. 12, the processing direction decision tree with the frequency probability has the attribute 501
Has a tree structure divided in the form of a binary tree by
In the last leaf, a frequency probability for each processing direction tag is given. In this example, the input sentence is "meeti
In the case of “ng in London”, in the leaf node 601, the processing direction tag “up” is added and the current processing target “meeting” remains, and the processing of the grammar assignment decision tree for this processing target is continued. On the other hand, in the leaf node 603, the processing direction tag “left” is added, and the current processing target “[[in [[Londo
n]]]] ”and“ [meeting] ”on the left of the new object“ [meeting] [[in
[[London]]]] ”is performed, and the processing of the grammar assignment decision tree is continued.

【0058】図6は、図1の構文情報付与装置によって
実行される構文情報付与処理を示すフローチャートであ
る。図6において、まず、ステップS41で、確率付き
品詞決定木ファイルメモリ25に格納された頻度確率付
き品詞決定木ファイルを読み出して、構文情報付与装置
11内のRAMに書き込み、確率付き文法規則決定木フ
ァイルメモリ26に格納された頻度確率付き文法規則決
定木ファイルを読み出して、構文情報付与装置11内の
RAMに書き込み、確率付き処理方向決定木ファイルメ
モリ27に格納された頻度確率付き処理方向決定木ファ
イルを読み出して、構文情報付与装置11内のRAMに
書き込む。次いで、ステップS42でテキストデータメ
モリ30に格納された解析対象のテキストデータを読み
出して構文情報付与装置11内のRAMに書き込む。さ
らに、ステップS43で品詞付与処理を実行して、品詞
付与済みテキストデータを生成し、次いで、ステップS
44で、ステップS43で生成された品詞付与済みテキ
ストデータに対して文法規則タグを付与するための文法
規則付与処理を実行することにより、構文解析済みテキ
ストデータを生成する。そして、ステップS45で生成
された構文解析済みテキストデータを、構文解析済みテ
キストデータメモリ31に出力して書き込む。
FIG. 6 is a flowchart showing a syntax information adding process executed by the syntax information adding apparatus of FIG. In FIG. 6, first, in step S41, the part-of-speech decision tree file with frequency probability stored in the probability-part-of-speech decision tree file memory 25 is read and written into the RAM in the syntax information providing device 11, and the grammatical rule decision tree with probability is read. The grammar rule decision tree file with frequency probability stored in the file memory 26 is read out, written to the RAM in the syntax information providing device 11, and the processing direction decision tree with frequency probability stored in the probability direction processing tree file memory 27 is stored. The file is read and written to the RAM in the syntax information providing device 11. Next, in step S42, the text data to be analyzed stored in the text data memory 30 is read and written to the RAM in the syntax information providing device 11. Further, in step S43, a part-of-speech providing process is executed to generate part-of-speech-added text data.
At 44, parsed text data is generated by executing a grammar rule adding process for adding a grammar rule tag to the part-of-speech-added text data generated at step S43. Then, the parsed text data generated in step S45 is output to the parsed text data memory 31 and written.

【0059】図7は、図6のサブルーチンである品詞付
与処理(ステップS43)を示すフローチャートであ
る。まず、ステップS51で解析対象のテキストデータ
の文頭の単語を対象単語とする。次いで、ステップS5
2で決定木の最上位置にあるルートノードを処理対象の
カレントノードとする。そして、ステップS53でカレ
ントノードがリーフノードであるか否かが判断される。
NOであるときは、ステップS58でカレントノードの
属性値に基づいて対応する子ノードをカレントノードと
し、ステップS53に戻る。一方、ステップS53でY
ESであるときは、ステップS54でリーフノードに割
り当てられた頻度確率リストの中で上位n個の頻度確率
(ここで、nは複数であり、例えば、好ましくは、3乃
至6であり、より好ましくは4である。)を選択して対
象単語に与える。そして、ステップS55で上述のスタ
ック・デコーダ・アルゴリズムに従って、所定の結合確
率以上の結合確率Pを残して品詞タグ候補を限定する。
さらに、ステップS56で次の処理単語があるか否かが
判断され、あるときはステップS57で次の単語を対象
単語とし、ステップS52に戻って上記の処理を繰り返
す。一方、ステップS56で次の単語がないときは、ス
テップS59で最大の結合確率Pを有する品詞タグ列を
正解品詞列に決定し、元のメインルーチンに戻る。
FIG. 7 is a flowchart showing the part of speech giving processing (step S43) which is a subroutine of FIG. First, in step S51, a word at the beginning of the text data to be analyzed is set as a target word. Next, step S5
In 2, the root node at the top of the decision tree is set as the current node to be processed. Then, in step S53, it is determined whether the current node is a leaf node.
If NO, the corresponding child node is set as the current node based on the attribute value of the current node in step S58, and the process returns to step S53. On the other hand, in step S53, Y
If it is ES, the top n frequency probabilities in the frequency probability list assigned to the leaf node in step S54 (where n is a plurality, for example, preferably 3 to 6, more preferably Is 4.) and gives it to the target word. Then, in step S55, the part-of-speech tag candidates are limited according to the above-described stack decoder algorithm while leaving the connection probability P equal to or higher than the predetermined connection probability.
Further, it is determined in step S56 whether or not there is a next processing word. If there is, the next word is set as a target word in step S57, and the process returns to step S52 to repeat the above processing. On the other hand, if there is no next word in step S56, the part-of-speech tag string having the maximum joint probability P is determined as the correct part-of-speech string in step S59, and the process returns to the original main routine.

【0060】図8及び図9は、図6のサブルーチンであ
る文法規則付与処理(ステップS44)を示すフローチ
ャートである。まず、図8のステップS61で、文頭の
単語を対象としたパージング状態を生成する。次いで、
ステップS62で、処理方向決定の回数と、文法規則決
定の回数とによって決定されるスタックメモリ12内の
スタックに直前に生成したパージング状態を追加する。
上記決定されるスタックとは、各パージング状態を、記
録しておくデータ構造を意味する。そして、ステップS
63で、上述のスタック・デコーダ・アルゴリズムに従
って最大の結合確率を有するパージング状態を選択し、
ステップS64で処理方向決定木を用いて処理方向を決
定する。ここで、処理方向が「右」であるときは、ステ
ップS65を介してステップS67で次の単語を処理対
象にしたパージング状態を生成した後、ステップS62
に戻る。また、ステップS64で処理方向が「上」であ
るときは、ステップS65及びS66を介して、ステッ
プS68で処理対象のノードに文法規則決定木に従って
文法規則タグを加えたパージング状態を生成した後、ス
テップS70に進む。ここで、処理方向が「上」とは、
現在の処理対象に対してステップS68で、文法規則決
定木に従った処理を行うことを意味する。さらに、ステ
ップS64で処理方向が「左」であるときは、ステップ
S65及びS66を介して、ステップS69で処理対象
のノードの範囲を左にのばして文法規則決定木に従って
文法規則タグを加えたパージング状態を生成した後、ス
テップS70に進む。
FIGS. 8 and 9 are flowcharts showing a grammar rule assignment process (step S44) which is a subroutine of FIG. First, in step S61 in FIG. 8, a parsing state for the word at the beginning of the sentence is generated. Then
In step S62, the purging state generated immediately before is added to the stack in the stack memory 12 determined by the number of processing direction determinations and the number of grammar rule determinations.
The determined stack means a data structure for recording each purging state. And step S
At 63, select the purging state with the largest joint probability according to the stack decoder algorithm described above;
In step S64, the processing direction is determined using the processing direction determination tree. Here, when the processing direction is “right”, a purging state in which the next word is to be processed is generated in step S67 via step S65, and then in step S62.
Return to When the processing direction is “up” in step S64, a purging state in which a grammar rule tag is added to the node to be processed according to the grammar rule decision tree in step S68 via steps S65 and S66, Proceed to step S70. Here, the processing direction is “up”.
In step S68, processing according to the grammar rule decision tree is performed on the current processing target. Further, when the processing direction is "left" in step S64, the parsing in which the range of the node to be processed is extended to the left in step S69 and the grammar rule tag is added according to the grammar rule decision tree via steps S65 and S66. After generating the state, the process proceeds to step S70.

【0061】ステップS70において、処理していない
単語がなくかつ文法規則が1つの文として成立している
か否かが判断され、NOのときステップS62に戻る一
方、YESのとき図9のステップS71に進む。ステッ
プS71では、ゴール状態に現在のパージング状態を追
加し、ステップS72で予め決められた一定数(例え
ば、上位N個の結果を得たい場合は、Nである。)のパ
ージング状態がゴール状態となったか否かが判断され、
NOのときステップS62に戻る一方、YESのとき当
該文法規則付与処理を終了して元のメインルーチンに戻
る。
In step S70, it is determined whether there is no unprocessed word and the grammatical rule is satisfied as one sentence. If NO, the process returns to step S62. If YES, the process returns to step S71 in FIG. move on. In step S71, the current purging state is added to the goal state, and a predetermined number of predetermined purging states (for example, N when obtaining the top N results) are determined as the goal state in step S72. It is determined whether or not
If the determination is NO, the process returns to step S62. If the determination is YES, the grammar rule assignment process ends, and the process returns to the original main routine.

【0062】以上の実施形態においては、予め決められ
た1つの文法規則体系で構文解析済みの学習用テキスト
データを用いているが、本発明はこれに限らず、他の文
法規則体系G1で解析された一定量のテキストデータが
ある場合、他の文法規則体系G1の情報を利用するよう
に構成してもよく、このとき、構文解析の精度を向上で
きる。ここで、利用する文法規則体系をG0とする。文
法規則体系G1の情報を利用するために、文法規則体系
G1で解析済テキストの一部を、文法規則体系G0で解
析したテキストを作成する。文法規則体系G0及びG1
双方で解析済の同じテキストデータを用いて、利用する
属性に、文法規則体系G1の文法の特徴を反映させた決
定木を学習する。文法規則体系G1の文法の特徴が反映
された決定木を用いて、文法規則体系G1で解析された
テキストを入力することにより、入力の豊富な情報を利
用した解析が可能となり、構文解析の精度を向上するこ
とができる。
In the above embodiment, the learning text data that has been parsed by one predetermined grammatical rule system is used. However, the present invention is not limited to this, and it is analyzed by another grammatical rule system G1. When there is a certain amount of text data obtained, information of another grammar rule system G1 may be used. At this time, the accuracy of syntax analysis can be improved. Here, the grammar rule system to be used is G0. In order to use the information of the grammar rule system G1, a part of the text analyzed by the grammar rule system G1 and a text analyzed by the grammar rule system G0 are created. Grammar rules G0 and G1
Using the same text data analyzed on both sides, a decision tree in which the characteristics of the grammar rule system G1 are reflected in the attributes to be used is learned. By inputting the text analyzed by the grammar rule system G1 using the decision tree reflecting the grammatical features of the grammar rule system G1, analysis using abundant input information becomes possible, and the accuracy of the syntax analysis is improved. Can be improved.

【0063】[0063]

【実施例】本発明者は、以上のように構成された構文解
析システムを用いて以下の実験を行った。自動的な評価
を行う際に、正解とされるデータが複数存在し、問題が
生じることは、珍しいことではない。非常に詳細にタグ
の仕様が決められている場合においても、実際には、複
数の正解が存在することが多い。しかし、そのためにコ
ーパス上に複数の正解を付加しておくことも現実的では
ない。また、段落単位では、正解が絞り込めるが、一文
では、絞り込めない場合も多い。そこで、テスト用のデ
ータを予め設定しておき、そのデータに対してのみ複数
の正解を付加することでこの問題に対処できると考え、
評価用データを作成した。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present inventor conducted the following experiment using the parsing system configured as described above. It is not uncommon for automatic evaluation to have a problem with a plurality of correct data. Even when the specifications of the tag are determined in great detail, there are often a plurality of correct answers. However, it is not realistic to add a plurality of correct answers on the corpus for that purpose. Also, correct answers can be narrowed down in paragraph units, but in many cases it is not possible to narrow down in one sentence. Therefore, it is thought that this problem can be solved by setting test data in advance and adding a plurality of correct answers only to the data.
Evaluation data was created.

【0064】本実験では、まず、品詞タグを付与してか
ら構文解析を行っている。現在、品詞タグ付のみの精度
が、1正解に対して74%である(なお、複数の正解に
よる評価をする場合、約10%の精度向上が見込まれて
いる。)。そこで、品詞が正しく付与されている状態で
構文解析を行った実験結果を表5に、テキストのみから
処理した実験結果を表6に示す。
In this experiment, first, a part-of-speech tag is attached, and then syntax analysis is performed. At present, the accuracy of only the part-of-speech tagging is 74% with respect to one correct answer (in the case of evaluation using a plurality of correct answers, an accuracy improvement of about 10% is expected). Thus, Table 5 shows the experimental results of parsing with the part-of-speech correctly assigned, and Table 6 shows the experimental results of processing from text alone.

【0065】[0065]

【表5】 ─────────────────────────────────── 単語数(長さ) 文数 上位第1位 上位20位まで クロス 構成素/文 ─────────────────────────────────── 1−10 1044 81.8% 95.0% 89.1% 7.6 11−15 248 30.2% 72.6% 43.1% 23.9 16−23 201 17.4% 48.3% 28.4% 34.2 ───────────────────────────────────[Table 5] 数 Number of words (length) Number of sentences Top 1 Rank Up to the top 20 Cross Constituent / Sentence ─────────────────────────────────── 1-10 1044 81 8.8% 95.0% 89.1% 7.6 11-15 248 30.2% 72.6% 43.1% 23.9 16-23 201 17.4% 48.3% 28.4% 34 .2───────────────────────────────────

【0066】[0066]

【表6】 ─────────────────────────────────── 単語数(長さ) 完全一致 統語的完全一致 ───────────── ─────────────── 上位第1位 上位10位まで 上位第1位 上位10位まで ─────────────────────────────────── 1−10 34.5% 40.1% 50.4% 62.3% 11−15 1.2% 3.6% 11.3% 25.6% ───────────────────────────────────[Table 6] 数 Number of words (length) Perfect match Syntactic perfect Match ───────────── ─────────────── Top 1 Top 10 Top Top 1 Top 10 ───── 1− 1-10 34.5% 40.1% 50.4% 62.3% 11 -15 1.2% 3.6% 11.3% 25.6% ──────────────────────────────── ───

【0067】表5の「クロス」は、第1位の解析結果と
正解解析候補との全くブラケットが交差しない文の割合
である。表6の「完全一致」は、文字通り、完全に一致
した場合の割合であり、「統語的完全一致」は、ブラケ
ットの位置、文法規則名、統語的なタグが完全に一致し
た場合の割合である。
"Cross" in Table 5 is the ratio of sentences in which the brackets of the first analysis result and the correct analysis candidate do not intersect at all. "Exact match" in Table 6 is the ratio of a perfect match literally, and "syntactic perfect match" is the ratio of the case where the bracket position, grammar rule name, and syntactic tag match completely. is there.

【0068】実験結果から明らかなように、単語数が比
較的少ない場合において、非常に高い精度が得られてい
るが、一文の単語数が増えると非常に精度が悪くなって
いる。この問題は、決定木モデルに起因するものではな
く、正解を探索する手法の問題と考えている。つまり、
一文の単語数が大きくなれば、正解の構造が、処理途中
で解析候補から漏てしまっていると考えている。そのた
めにスタックデコーダアルゴリズム、あるいは探索手法
を改善する必要があり、それは設計上の問題である。ま
た、タグ付与の精度向上が必要である。
As is evident from the experimental results, very high accuracy is obtained when the number of words is relatively small, but the accuracy becomes very poor as the number of words in one sentence increases. This problem is not caused by the decision tree model, but is considered to be a problem of a method of searching for a correct answer. That is,
If the number of words in one sentence increases, it is considered that the structure of the correct answer has leaked from the analysis candidate during the processing. Therefore, it is necessary to improve a stack decoder algorithm or a search method, which is a design problem. Further, it is necessary to improve the accuracy of tagging.

【0069】以上説明したように、本実施形態によれ
ば、品詞の接続関係、語と品詞の関係、さらに、離れた
語あるいは品詞との依存関係を統計的に処理するため、
自動的に一意に高精度で品詞を付与でき、しかも高精度
で文法規則を付与することができ、高精度の構文解析シ
ステムを提供することができる。また、辞書を用いず
に、単語に品詞ラベルを割り当てるため、従来技術の問
題となる未知語に対する特別な処理が不必要である。さ
らに、品詞を付与した構文解析済みテキストデータを用
いて学習を行なうため、多くの品詞体系に対して柔軟な
対応ができる。さらには、自動的に詳細な構文情報を付
与することができるため、付与された構文情報を翻訳シ
ステム、音声認識システム、又は情報検索システムに利
用することができる。また、詳細な情報を含む構文構造
付きおデータを自動的に生成することができるため、構
文情報を付与したデータを大量に蓄えることができる。
As described above, according to the present embodiment, the connection relation between parts of speech, the relation between words and parts of speech, and the dependency between distant words or parts of speech are statistically processed.
A part of speech can be automatically and uniquely assigned with high accuracy, and a grammar rule can be assigned with high accuracy, so that a high-precision parsing system can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. In addition, since data with a syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.

【0070】[0070]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の構文解析装置によれば、単語列からなる構文解
析済みテキストデータに基づいて、各単語の綴りの特徴
と、文章内の使われ方による特徴と、単語の相互情報量
を用いた階層的な分類とを含む複数の属性を用いて、上
記各属性の属性値に依存して分割されるような二分木形
式の木構造を有し品詞付与のための品詞決定木を生成
し、上記生成された品詞決定木の分割されないノードで
あるリーフノードに対して複数の品詞に対する頻度確率
を計算して付与することにより、頻度確率付き品詞決定
木を生成する品詞決定木学習手段と、単語列からなる構
文解析済みテキストデータに基づいて、処理対象の単語
の語数と、処理対象の主辞単語の品詞、処理対象の直前
の単語の品詞、単語の相互情報量を用いた階層的な分類
とを含む複数の属性を用いて、上記各属性の属性値に依
存して分割されるような二分木形式の木構造を有し文法
規則付与のための文法規則決定木を生成し、上記生成さ
れた文法規則決定木の分割されないノードであるリーフ
ノードに対して複数の文法規則に対する頻度確率を計算
して付与することにより、頻度確率付き文法規則決定木
を生成する文法規則決定木学習手段と、単語列からなる
構文解析済みテキストデータに基づいて、処理対象の単
語の語数と、処理対象の主辞単語の品詞、処理対象の直
前の単語の品詞、単語の相互情報量を用いた階層的な分
類とを含む複数の属性を用いて、上記各属性の属性値に
依存して分割されるような二分木形式の木構造を有し文
法規則付与処理における各パージング状態で処理方向を
決定するための処理方向決定木を生成し、上記生成され
た処理方向決定木の分割されないノードであるリーフノ
ードに対して複数の処理方向に対する頻度確率を計算し
て付与することにより、頻度確率付き処理方向決定木を
生成する処理方向決定木学習手段と、上記品詞決定木学
習手段によって生成された頻度確率付き品詞決定木を用
いて、入力される処理対象の単語列からなるテキストデ
ータに基づいて、上記リーフノードに付与された頻度確
率の中で上位複数n個の頻度確率を選択して上記テキス
トデータの各単語に対して付与し、上記テキストデータ
の単語列において最大の結合確率を有する品詞列を正解
品詞列として決定し、次いで、所定のスタック・デコー
ダ・アルゴリズムを用いて、文法規則付与処理における
各パージング状態での単語列に対する結合確率が最大の
結合確率を有するパージング状態を選択した後、上記処
理方向決定木学習手段によって生成された頻度確率付き
処理方向決定木を用いて上記処理対象の単語列における
処理方向を決定し、決定された処理方向におけるパージ
ング状態において、上記文法規則決定木学習手段によっ
て生成された頻度確率付き文法規則決定木に従って文法
規則を上記処理対象の単語列に加えることにより構文解
析情報を付与して構文解析済みテキストデータを出力す
る構文情報付与手段とを備える。従って、品詞の接続関
係、語と品詞の関係、さらに、離れた語あるいは品詞と
の依存関係を統計的に処理するため、自動的に一意に高
精度で品詞を付与でき、しかも高精度で文法規則を付与
することができ、高精度の構文解析システムを提供する
ことができる。また、辞書を用いずに、単語に品詞ラベ
ルを割り当てるため、従来技術の問題となる未知語に対
する特別な処理が不必要である。さらに、品詞を付与し
た構文解析済みテキストデータを用いて学習を行なうた
め、多くの品詞体系に対して柔軟な対応ができる。さら
には、自動的に詳細な構文情報を付与することができる
ため、付与された構文情報を翻訳システム、音声認識シ
ステム、又は情報検索システムに利用することができ
る。また、詳細な情報を含む構文構造付きおデータを自
動的に生成することができるため、構文情報を付与した
データを大量に蓄えることができる。
As described above in detail, according to the parsing apparatus of the first aspect of the present invention, the spelling characteristics of each word and the spelling of each word are determined based on the parsed text data composed of word strings. Tree that is divided depending on the attribute value of each attribute, using a plurality of attributes including features based on usage of words and hierarchical classification using mutual information of words By generating a part-of-speech decision tree having a structure and giving part-of-speech, calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node which is an undivided node of the generated part-of-speech decision tree, Based on a part-of-speech decision tree learning means for generating a part-of-speech decision tree with probabilities, and based on parsed text data consisting of word strings, the number of words to be processed, the part of speech of the subject head word to be processed, and the word immediately before the processing target Part of speech, word Using a plurality of attributes including a hierarchical classification using mutual information, and having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, the A grammar rule decision tree with a frequency probability is generated by generating a grammar rule decision tree and calculating and assigning the frequency probabilities for a plurality of grammar rules to a leaf node which is an undivided node of the generated grammar rule decision tree. Based on the grammar rule decision tree learning means that generates the word, the number of words to be processed, the part of speech of the head word to be processed, the part of speech of the word immediately before the processing, and the word Using a plurality of attributes including a hierarchical classification using mutual information, a tree structure of a binary tree format that is divided depending on the attribute value of each of the above attributes is used in the grammar rule assignment process. Each purging Generating a processing direction decision tree for determining a processing direction in a state, and calculating and assigning frequency probabilities for a plurality of processing directions to a leaf node which is an undivided node of the generated processing direction decision tree. And a processing target decision tree learning means for generating a processing direction decision tree with frequency probability, and a word string to be processed, which is input using the part of speech decision tree with frequency probability generated by the part of speech decision tree learning means. Based on the text data, a plurality of top n frequency probabilities are selected from among the frequency probabilities assigned to the leaf nodes and assigned to each word of the text data, and the largest one in the word string of the text data is selected. The part-of-speech sequence having the joint probability is determined as the correct part-of-speech sequence, and then, using a predetermined stack decoder algorithm, After selecting the purging state in which the connection probability with respect to the word string in the purging state has the maximum connection probability, using the processing direction decision tree with frequency probability generated by the processing direction decision tree learning means, the processing target word string is used. In the parsing state in the determined processing direction, and adding a grammar rule to the word string to be processed according to the grammar rule decision tree with frequency probability generated by the grammar rule decision tree learning means. A syntactic information adding means for adding the analysis information and outputting the parsed text data. Therefore, since the part-of-speech connection relation, the relation between words and part-of-speech, and the dependency relation between distant words or parts of speech are statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and grammar with high precision Rules can be given, and a highly accurate parsing system can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. In addition, since data with a syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.

【0071】また、請求項2記載の構文解析装置におい
ては、請求項1記載の構文解析装置において、上記各決
定木学習手段は、上記二分木の形式で分割するときに、
上記各属性による分割前の属性の有効性の優先順位を表
わすエントロピーH0と分割後のエントロピーHとの差
(H0−H)が最大の属性を分割候補の属性として選択
し、所定の分割続行基準を満足するときに、二分木の形
式で分割して決定木を更新する。従って、品詞の接続関
係、語と品詞の関係、さらに、離れた語あるいは品詞と
の依存関係を統計的に処理するため、自動的に一意に高
精度で品詞を付与でき、しかも高精度で文法規則を付与
することができ、高精度の構文解析システムを提供する
ことができる。また、辞書を用いずに、単語に品詞ラベ
ルを割り当てるため、従来技術の問題となる未知語に対
する特別な処理が不必要である。さらに、品詞を付与し
た構文解析済みテキストデータを用いて学習を行なうた
め、多くの品詞体系に対して柔軟な対応ができる。さら
には、自動的に詳細な構文情報を付与することができる
ため、付与された構文情報を翻訳システム、音声認識シ
ステム、又は情報検索システムに利用することができ
る。また、詳細な情報を含む構文構造付きおデータを自
動的に生成することができるため、構文情報を付与した
データを大量に蓄えることができる。
According to a second aspect of the present invention, in the parsing apparatus according to the first aspect, each of the decision tree learning means may be configured to divide the binary data in the form of the binary tree.
The attribute having the largest difference (H 0 −H) between the entropy H 0 indicating the priority of the validity of the attribute before the division by each attribute and the entropy H after the division is selected as the attribute of the division candidate, and the predetermined division is performed. When the continuation criterion is satisfied, the decision tree is updated by dividing in the form of a binary tree. Therefore, since the part-of-speech connection relation, the relation between words and part-of-speech, and the dependency relation between distant words or parts of speech are statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and grammar with high precision Rules can be given, and a highly accurate parsing system can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. In addition, since data with a syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.

【0072】さらに、請求項3記載の構文解析装置にお
いては、請求項2記載の構文解析装置において、上記分
割続行基準は、(I)選択された属性に基づいて分割し
たときのエントロピーの差(H0−H)が所定のエント
ロピーしきい値Hth以上であり、かつ(II)選択され
た属性に基づく分割後の属性とその属性値及び品詞の組
のイベント数が所定のイベント数しきい値Dth以上で
ある。従って、品詞の接続関係、語と品詞の関係、さら
に、離れた語あるいは品詞との依存関係を統計的に処理
するため、自動的に一意に高精度で品詞を付与でき、し
かも高精度で文法規則を付与することができ、高精度の
構文解析システムを提供することができる。また、辞書
を用いずに、単語に品詞ラベルを割り当てるため、従来
技術の問題となる未知語に対する特別な処理が不必要で
ある。さらに、品詞を付与した構文解析済みテキストデ
ータを用いて学習を行なうため、多くの品詞体系に対し
て柔軟な対応ができる。さらには、自動的に詳細な構文
情報を付与することができるため、付与された構文情報
を翻訳システム、音声認識システム、又は情報検索シス
テムに利用することができる。また、詳細な情報を含む
構文構造付きおデータを自動的に生成することができる
ため、構文情報を付与したデータを大量に蓄えることが
できる。
Further, in the parsing apparatus according to the third aspect, in the parsing apparatus according to the second aspect, the division continuation criterion may include: (I) a difference in entropy when the division is performed based on the selected attribute ( (H 0 −H) is equal to or greater than a predetermined entropy threshold Hth, and (II) the number of events of a set of the attribute after division based on the selected attribute and its attribute value and part of speech is a predetermined event number threshold Dth or more. Therefore, since the part-of-speech connection relation, the relation between words and part-of-speech, and the dependency relation between distant words or parts of speech are statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and grammar with high precision Rules can be given, and a highly accurate parsing system can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. In addition, since data with a syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.

【0073】またさらに、請求項4記載の構文解析装置
においては、請求項1、2又は3記載の構文解析装置に
おいて、上記品詞付与手段は、上記リーフノードに付与
された頻度確率の中で上位複数n個の頻度確率を選択し
て上記テキストデータの各単語に対して付与した後、所
定のスタック・デコーダ・アルゴリズムに用いて、処理
途中のテキストデータの単語列に対する結合確率が所定
の結合確率以上である品詞候補のみを残して品詞候補を
限定し、処理終了時の上記テキストデータの単語列にお
いて最大の結合確率を有する品詞列を正解品詞列として
決定する。従って、品詞の接続関係、語と品詞の関係、
さらに、離れた語あるいは品詞との依存関係を統計的に
処理するため、自動的に一意に高精度で品詞を付与で
き、しかも高精度で文法規則を付与することができ、高
精度の構文解析システムを提供することができる。ま
た、辞書を用いずに、単語に品詞ラベルを割り当てるた
め、従来技術の問題となる未知語に対する特別な処理が
不必要である。さらに、品詞を付与した構文解析済みテ
キストデータを用いて学習を行なうため、多くの品詞体
系に対して柔軟な対応ができる。さらには、自動的に詳
細な構文情報を付与することができるため、付与された
構文情報を翻訳システム、音声認識システム、又は情報
検索システムに利用することができる。また、詳細な情
報を含む構文構造付きおデータを自動的に生成すること
ができるため、構文情報を付与したデータを大量に蓄え
ることができる。
Further, in the parsing apparatus according to the fourth aspect, in the parsing apparatus according to the first, second or third aspect, the part-of-speech assigning means is a higher-ranking one among the frequency probabilities assigned to the leaf nodes. After selecting a plurality of n frequency probabilities and assigning them to each word of the text data, using the predetermined stack decoder algorithm, the connection probability for the word string of the text data being processed is determined by the predetermined connection probability. The part-of-speech candidates are limited while leaving only the part-of-speech candidates described above, and the part-of-speech string having the maximum connection probability in the word string of the text data at the end of the process is determined as the correct part-of-speech string. Therefore, the connection between parts of speech, the relation between words and parts of speech,
In addition, since the dependence on distant words or parts of speech is statistically processed, parts of speech can be automatically and uniquely assigned with high precision, and grammatical rules can be assigned with high precision. A system can be provided. In addition, since a part of speech label is assigned to a word without using a dictionary, a special process for an unknown word, which is a problem of the related art, is unnecessary. Furthermore, since the learning is performed using the parsed text data to which the parts of speech are added, it is possible to flexibly cope with many parts of speech systems. Furthermore, since detailed syntax information can be automatically added, the added syntax information can be used for a translation system, a speech recognition system, or an information search system. In addition, since data with a syntax structure including detailed information can be automatically generated, a large amount of data with syntax information can be stored.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である、決定木学習
装置及び構文情報付与装置を備えた構文解析システムの
ブロック図である。
FIG. 1 is a block diagram of a syntax analysis system including a decision tree learning device and a syntax information providing device according to an embodiment of the present invention.

【図2】 図1の決定木学習装置によって実行される品
詞決定木学習処理を示すフローチャートである。
FIG. 2 is a flowchart showing a part-of-speech decision tree learning process executed by the decision tree learning device of FIG. 1;

【図3】 図1の決定木学習装置によって実行される文
法規則決定木学習処理を示すフローチャートである。
FIG. 3 is a flowchart showing a grammar rule decision tree learning process executed by the decision tree learning device of FIG. 1;

【図4】 図1の決定木学習装置によって実行される処
理方向決定木学習処理を示すフローチャートである。
FIG. 4 is a flowchart showing processing direction decision tree learning processing executed by the decision tree learning device of FIG. 1;

【図5】 図2、図3及び図4のサブルーチンである決
定木作成処理(ステップS3,S13,S23)を示す
フローチャートである。
FIG. 5 is a flowchart showing a decision tree creation process (steps S3, S13, S23) which is a subroutine of FIGS. 2, 3 and 4;

【図6】 図1の構文情報付与装置によって実行される
構文情報付与処理を示すフローチャートである。
FIG. 6 is a flowchart showing a syntax information providing process executed by the syntax information providing apparatus of FIG. 1;

【図7】 図6のサブルーチンである品詞付与処理(ス
テップS43)を示すフローチャートである。
FIG. 7 is a flowchart showing a part of speech giving process (step S43) which is a subroutine of FIG.

【図8】 図6のサブルーチンである文法規則付与処理
(ステップS44)の第1の部分を示すフローチャート
である。
FIG. 8 is a flowchart showing a first part of a grammar rule assignment process (step S44), which is a subroutine of FIG.

【図9】 図6のサブルーチンである文法規則付与処理
(ステップS44)の第2の部分を示すフローチャート
である。
FIG. 9 is a flowchart showing a second part of the grammar rule assignment process (step S44), which is a subroutine of FIG.

【図10】 図1の決定木学習装置によって作成された
頻度確率付き品詞決定木ファイル内の品詞決定木の一例
を示す図である。
FIG. 10 is a diagram showing an example of a part-of-speech decision tree in a part-of-speech decision tree file with frequency probability created by the decision tree learning device of FIG. 1;

【図11】 図1の決定木学習装置によって作成された
頻度確率付き文法規則決定木ファイル内の品詞決定木の
一例を示す図である。
11 is a diagram showing an example of a part of speech decision tree in a grammar rule decision tree file with frequency probability created by the decision tree learning device of FIG.

【図12】 図1の決定木学習装置によって作成された
頻度確率付き処理方向決定木ファイル内の品詞決定木の
一例を示す図である。
12 is a diagram showing an example of a part-of-speech decision tree in a processing direction decision tree file with frequency probability created by the decision tree learning device of FIG. 1;

【図13】 図1の構文情報付与装置における処理途中
のパージング状態及び処理方向の一例を示すフロー図で
ある。
13 is a flowchart showing an example of a parsing state and a processing direction during processing in the syntax information providing apparatus of FIG. 1;

【符号の説明】[Explanation of symbols]

10…決定木学習装置、 11…構文情報付与装置、 21…構文解析済みテキストデータメモリ、 22…属性リストメモリ、 23…品詞リストメモリ、 24…文法規則リストメモリ、 25…品詞決定木ファイルメモリ、 26…文法規則決定木ファイルメモリ、 27…処理方向決定木ファイルメモリ、 30…テキストデータメモリ、 31…構文解析済みテキストデータメモリ。 10: Decision tree learning device, 11: Syntax information adding device, 21: Parsed text data memory, 22: Attribute list memory, 23: Part of speech list memory, 24: Grammar rule list memory, 25: Part of speech decision tree file memory, 26: grammar rule decision tree file memory, 27: processing direction decision tree file memory, 30: text data memory, 31: parsed text data memory.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 ステファン・ジー・ユーバンク 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 柏岡秀紀、Ezra W.Blac k、Stephen G.Euban k、「決定木学習による形態素解析」、 人工知能学会研究会資料、SIG−SL UD−9603−4、p.19−p.24 (1997.1) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Stephane G. Eubank 5 Shiratani Sanai-ya, Seika-cho, Soraku-gun, Kyoto Pref. Ezra W .; Black, Stephen G .; Eubank, "Morphological Analysis by Decision Tree Learning", SIG-SL UD-9603-4, p. 19-p. 24 (Jan. 1997) (58) Fields surveyed (Int. Cl. 7 , DB name) G06F 17/20-17/28 JICST file (JOIS)

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 単語列からなる構文解析済みテキストデ
ータに基づいて、各単語の綴りの特徴と、文章内の使わ
れ方による特徴と、単語の相互情報量を用いた階層的な
分類とを含む複数の属性を用いて、上記各属性の属性値
に依存して分割されるような二分木形式の木構造を有し
品詞付与のための品詞決定木を生成し、上記生成された
品詞決定木の分割されないノードであるリーフノードに
対して複数の品詞に対する頻度確率を計算して付与する
ことにより、頻度確率付き品詞決定木を生成する品詞決
定木学習手段と、 単語列からなる構文解析済みテキストデータに基づい
て、処理対象の単語の語数と、処理対象の主辞単語の品
詞、処理対象の直前の単語の品詞、単語の相互情報量を
用いた階層的な分類とを含む複数の属性を用いて、上記
各属性の属性値に依存して分割されるような二分木形式
の木構造を有し文法規則付与のための文法規則決定木を
生成し、上記生成された文法規則決定木の分割されない
ノードであるリーフノードに対して複数の文法規則に対
する頻度確率を計算して付与することにより、頻度確率
付き文法規則決定木を生成する文法規則決定木学習手段
と、 単語列からなる構文解析済みテキストデータに基づい
て、処理対象の単語の語数と、処理対象の主辞単語の品
詞、処理対象の直前の単語の品詞、単語の相互情報量を
用いた階層的な分類とを含む複数の属性を用いて、上記
各属性の属性値に依存して分割されるような二分木形式
の木構造を有し文法規則付与処理における各パージング
状態で処理方向を決定するための処理方向決定木を生成
し、上記生成された処理方向決定木の分割されないノー
ドであるリーフノードに対して複数の処理方向に対する
頻度確率を計算して付与することにより、頻度確率付き
処理方向決定木を生成する処理方向決定木学習手段と、 上記品詞決定木学習手段によって生成された頻度確率付
き品詞決定木を用いて、入力される処理対象の単語列か
らなるテキストデータに基づいて、上記リーフノードに
付与された頻度確率の中で上位複数n個の頻度確率を選
択して上記テキストデータの各単語に対して付与し、上
記テキストデータの単語列において最大の結合確率を有
する品詞列を正解品詞列として決定し、次いで、所定の
スタック・デコーダ・アルゴリズムを用いて、文法規則
付与処理における各パージング状態での単語列に対する
結合確率が最大の結合確率を有するパージング状態を選
択した後、上記処理方向決定木学習手段によって生成さ
れた頻度確率付き処理方向決定木を用いて上記処理対象
の単語列における処理方向を決定し、決定された処理方
向におけるパージング状態において、上記文法規則決定
木学習手段によって生成された頻度確率付き文法規則決
定木に従って文法規則を上記処理対象の単語列に加える
ことにより構文解析情報を付与して構文解析済みテキス
トデータを出力する構文情報付与手段とを備えたことを
特徴とする構文解析装置。
1. A spelling feature of each word, a feature according to how the word is used in a sentence, and a hierarchical classification using mutual information of the words, based on the parsed text data composed of the word strings. Using a plurality of attributes including a part-of-speech tree having a tree structure of a binary tree format that is divided depending on the attribute value of each attribute, A part-of-speech decision tree learning means for generating a part-of-speech decision tree with frequency probabilities by calculating and assigning frequency probabilities for a plurality of parts of speech to a leaf node which is an undivided node of the tree; Based on the text data, multiple attributes including the number of words to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the processing object, and hierarchical classification using mutual information of words Use each of the above Is a node that has a tree structure in the form of a binary tree that is divided depending on the attribute value of gender, generates a grammar rule decision tree for assigning grammar rules, and is an undivided node of the generated grammar rule decision tree. Grammar rule decision tree learning means for generating grammar rule decision trees with frequency probabilities by calculating and assigning frequency probabilities for a plurality of grammar rules to leaf nodes, based on parsed text data consisting of word strings By using a plurality of attributes including the number of words of the word to be processed, the part of speech of the subject word to be processed, the part of speech of the word immediately before the object of processing, and a hierarchical classification using mutual information of words, Generating a processing direction determination tree for determining a processing direction in each parsing state in a grammar rule assignment process having a tree structure of a binary tree format that is divided depending on an attribute value of each attribute; A processing direction decision tree learning means for generating a processing direction decision tree with frequency probability by calculating and assigning frequency probabilities for a plurality of processing directions to a leaf node which is a node that is not divided by the processing direction decision tree; Using the part-of-speech decision tree with frequency probabilities generated by the part-of-speech decision tree learning means, based on the text data consisting of the input word string to be processed, the top plural n in the frequency probabilities assigned to the leaf nodes Number of frequency probabilities are selected and given to each word of the text data, the part-of-speech sequence having the maximum connection probability in the word sequence of the text data is determined as the correct part-of-speech sequence, and then a predetermined stack decoder -Using the algorithm, the connection probability for the word string in each purging state in the grammar rule assignment process has the maximum connection probability After selecting the paging state, the processing direction in the word string to be processed is determined using the processing direction decision tree with frequency probability generated by the processing direction decision tree learning means, and the parsing state in the determined processing direction is determined. Syntactic information for adding parsing information by adding a grammar rule to the word string to be processed according to the grammar rule decision tree with frequency probability generated by the grammar rule decision tree learning means and outputting parsed text data A syntactic analysis device comprising: an assigning unit.
【請求項2】 上記各決定木学習手段は、上記二分木の
形式で分割するときに、上記各属性による分割前の属性
の有効性の優先順位を表わすエントロピーH0と分割後
のエントロピーHとの差(H0−H)が最大の属性を分
割候補の属性として選択し、所定の分割続行基準を満足
するときに、二分木の形式で分割して決定木を更新する
ことを特徴とする請求項1記載の構文解析装置。
2. The decision tree learning means, when dividing in the form of the binary tree, entropy H 0 indicating the priority of the validity of the attribute before the division by each attribute, and entropy H after the division. the difference (H 0 -H) selects the greatest attribute as an attribute of the candidate dividing, when satisfying the predetermined division continue criterion, and updates the decision tree is divided in the form of a binary tree of The syntax analysis device according to claim 1.
【請求項3】 上記分割続行基準は、(I)選択された
属性に基づいて分割したときのエントロピーの差(H0
−H)が所定のエントロピーしきい値Hth以上であ
り、かつ(II)選択された属性に基づく分割後の属性と
その属性値及び品詞の組のイベント数が所定のイベント
数しきい値Dth以上であることを特徴とする請求項2
記載の構文解析装置。
3. The division continuation criterion includes: (I) a difference (H 0) in entropy at the time of division based on a selected attribute.
-H) is equal to or greater than a predetermined entropy threshold Hth, and (II) the number of events of the set of the attribute after division based on the selected attribute and its attribute value and part of speech is equal to or greater than a predetermined event number threshold Dth 3. The method according to claim 2, wherein
The parser described.
【請求項4】 上記構文情報付与手段は、上記リーフノ
ードに付与された頻度確率の中で上位複数n個の頻度確
率を選択して上記テキストデータの各単語に対して付与
した後、所定のスタック・デコーダ・アルゴリズムを用
いて、処理途中のテキストデータの単語列に対する結合
確率が所定の結合確率以上である品詞候補のみを残して
品詞候補を限定し、品詞付与処理終了時の上記テキスト
データの単語列において最大の結合確率を有する品詞列
を正解品詞列として決定することを特徴とする請求項
1、2又は3記載の構文解析装置。
4. The syntax information providing means selects a plurality of upper n frequency probabilities from among the frequency probabilities assigned to the leaf nodes and assigns the selected frequency probabilities to each word of the text data. By using a stack decoder algorithm, only the part-of-speech candidates whose connection probability to the word string of the text data being processed is equal to or greater than the predetermined connection probability are limited, and the part-of-speech candidates are limited. 4. The parsing apparatus according to claim 1, wherein a part-of-speech sequence having a maximum connection probability in the word sequence is determined as a correct part-of-speech sequence.
JP9218522A 1997-08-13 1997-08-13 Parser Expired - Fee Related JP3027553B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9218522A JP3027553B2 (en) 1997-08-13 1997-08-13 Parser

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9218522A JP3027553B2 (en) 1997-08-13 1997-08-13 Parser

Publications (2)

Publication Number Publication Date
JPH1166070A JPH1166070A (en) 1999-03-09
JP3027553B2 true JP3027553B2 (en) 2000-04-04

Family

ID=16721259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9218522A Expired - Fee Related JP3027553B2 (en) 1997-08-13 1997-08-13 Parser

Country Status (1)

Country Link
JP (1) JP3027553B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014166876A (en) * 2013-02-28 2014-09-11 Oji Holdings Corp Bag body

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6607482B2 (en) * 2015-02-02 2019-11-20 国立研究開発法人情報通信研究機構 Syntax analysis device, learning device, machine translation device, and program
US11205052B2 (en) * 2019-07-02 2021-12-21 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柏岡秀紀、Ezra W.Black、Stephen G.Eubank、「決定木学習による形態素解析」、人工知能学会研究会資料、SIG−SLUD−9603−4、p.19−p.24(1997.1)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014166876A (en) * 2013-02-28 2014-09-11 Oji Holdings Corp Bag body

Also Published As

Publication number Publication date
JPH1166070A (en) 1999-03-09

Similar Documents

Publication Publication Date Title
Kuhn et al. The application of semantic classification trees to natural language understanding
Martin et al. Algorithms for bigram and trigram word clustering
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
Magerman Natural language parsing as statistical pattern recognition
US6684201B1 (en) Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
D’Ulizia et al. A survey of grammatical inference methods for natural language learning
Chelba Exploiting syntactic structure for natural language modeling
Emami et al. A neural syntactic language model
Araujo Part-of-speech tagging with evolutionary algorithms
Araujo How evolutionary algorithms are applied to statistical natural language processing
Kim et al. Learning-based intrasentence segmentation for efficient translation of long sentences
JP3027553B2 (en) Parser
Zheng et al. Character-based parsing with convolutional neural network
Magerman Parsing as statistical pattern recognition
Ramesh et al. Interpretable natural language segmentation based on link grammar
JP3035261B2 (en) Japanese parser
JP3100556B2 (en) Part-of-speech device
KR20010103151A (en) Machine translation machine and system, method
Wen Text mining using HMM and PMM
JP3174526B2 (en) Morphological analyzer
JP3043625B2 (en) Word classification processing method, word classification processing device, and speech recognition device
JP4084816B2 (en) Dependent structure information processing apparatus, program thereof, and recording medium
Marques et al. Neural networks, part-of-speech tagging and lexicons
KR20020003574A (en) Apparatus And Method For Word Sense Disambiguation In Machine Translation System
Shih et al. A system for computer assisted grammar construction

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees