JP2002041513A - Device and method for natural language processing and device and method for natural language dictionary generation - Google Patents

Device and method for natural language processing and device and method for natural language dictionary generation

Info

Publication number
JP2002041513A
JP2002041513A JP2000227096A JP2000227096A JP2002041513A JP 2002041513 A JP2002041513 A JP 2002041513A JP 2000227096 A JP2000227096 A JP 2000227096A JP 2000227096 A JP2000227096 A JP 2000227096A JP 2002041513 A JP2002041513 A JP 2002041513A
Authority
JP
Japan
Prior art keywords
pattern
feature
natural language
constraint
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000227096A
Other languages
Japanese (ja)
Inventor
Toshiki Murata
稔樹 村田
Mihoko Kitamura
美穂子 北村
Sayori Shimohata
さより 下畑
Miki Sasaki
美樹 佐々木
Takashi Fukui
毅至 福居
Masamutsu Fuchigami
正睦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000227096A priority Critical patent/JP2002041513A/en
Priority to US09/909,901 priority patent/US7010479B2/en
Publication of JP2002041513A publication Critical patent/JP2002041513A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To actualize a device and a method for natural language processing which can impose restrictions on a natural language pattern and evade a great increase in the capacity of a dictionary even when the restrictions are imposed. SOLUTION: The device and method perform syntax analysis and syntax generation by using a natural language pattern composed of an array of a language name, a left side, and a right side, and they have a pattern inspecting means (stage) for inspecting whether or not all or some of natural language patterns have center element information prescribing restrictions by origin and a center pattern element at origin propagation time in the left or right side and also an extracted natural language pattern is suitable to a tree structure in terms of the restriction by the origin and a pattern applying means (stage) where the natural language pattern is applied to the tree structure when it is suitable, and the restriction by the origin are propagated when the natural language pattern has the center element information.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、自然言語処理装
置、自然言語処理方法、自然言語パターン辞書作成装置
及び自然言語パターン辞書作成方法に関し、例えば、翻
訳パターンを利用して機械翻訳を行う機械翻訳装置や機
械翻訳方法などに適用し得るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a natural language processing apparatus, a natural language processing method, a natural language pattern dictionary creating apparatus, and a natural language pattern dictionary creating method. For example, machine translation for performing machine translation using a translation pattern It can be applied to devices and machine translation methods.

【0002】[0002]

【従来の技術】従来型の機械翻訳装置において、システ
ムやユーザが登録可能な翻訳知識(システム辞書やユー
ザ辞書)は、単語辞書、複数単語からなるイディオム、
さらに、高性能なものでも「手を焼く」などの動詞と名
詞の共起表現など、機械翻訳装置が予め決めている表現
に限定されていた。これは、従来型の機械翻訳装置は、
原言語の文法と辞書で原言語文を構文解析をし、変換辞
書で言語変換し、目的言語の文法と辞書で目的言語文を
生成するため、システムの文法に則った形式でしか、シ
ステムやユーザは翻訳辞書を登録できないためである。
2. Description of the Related Art In a conventional machine translation apparatus, translation knowledge (a system dictionary and a user dictionary) that can be registered by a system or a user includes a word dictionary, an idiom composed of a plurality of words,
Furthermore, even high-performance devices are limited to expressions predetermined by a machine translation device, such as a co-occurrence expression of a verb and a noun such as "burn hands". This is a conventional machine translation device,
The source language sentence is parsed using the source language grammar and the dictionary, the language is converted using the conversion dictionary, and the target language sentence is generated using the target language grammar and the dictionary. This is because the user cannot register the translation dictionary.

【0003】さらに、原言語と目的言語は、個別に解
析、生成されるため、翻訳知識としてユーザの直感に即
した ”[名詞句]を次に示します。” ”Following is [名詞句].”(名詞句
は変数) (P1) のような原言語と目的言語の対から構成されるパターン
に基づいた辞書も登録できない。
[0003] Furthermore, since the source language and the target language are analyzed and generated separately, "[noun phrase] which is intuitive to the user as translation knowledge is shown below.""Following is [noun phrase]. A dictionary based on a pattern composed of a pair of a source language and a target language, such as "(noun phrase is a variable) (P1), cannot be registered.

【0004】このような課題を解決したものとして、特
開平5−290082号公報に記載された翻訳パターン
に基づく翻訳方法及び翻訳装置がある。この公報記載の
発明は、翻訳知識を文脈自由文法の範囲内で表し、文法
規則を原言語のパターンと目的言語のパターンとで対に
したものである。また、文法規則はトライ型の辞書に格
納することにより、構文解析の速さを実用レベルにする
ことを可能にした。さらに、文法規則を原言語のパター
ンと目的言語のパターンとで対にしたことにより、同期
導出が可能となり、言語変換、構文生成は簡単な処理だ
けで済むようになった。
As a solution to such a problem, there is a translation method and a translation device based on a translation pattern described in Japanese Patent Application Laid-Open No. 5-290082. The invention described in this publication expresses translation knowledge within the scope of context-free grammar, and grammar rules are paired with patterns in the source language and patterns in the target language. By storing grammar rules in a trie dictionary, the parsing speed can be reduced to a practical level. Furthermore, by synchronizing the grammar rules with the patterns of the source language and the patterns of the target language, synchronous derivation is possible, and language conversion and syntax generation can be performed only by simple processing.

【0005】これにより、ユーザの直感に即した上述し
たパターンP1のような原言語と目的言語の対から構成
される翻訳パターンに基づいた辞書が登録できるように
なり、文脈自由文法の範囲内なら任意の翻訳知識を登録
でき、翻訳処理できるようになった。
[0005] This makes it possible to register a dictionary based on a translation pattern composed of a pair of a source language and a target language, such as the pattern P1 described above, in conformity with the user's intuition. Arbitrary translation knowledge can be registered and the translation process can be performed.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記公
報の技術では、全ての翻訳知識を文脈自由文法で記述す
る必要がある。
However, in the technique disclosed in the above publication, all translation knowledge needs to be described in a context-free grammar.

【0007】文脈自由文法では各変数(非終端記号)に
制約を与えることはできず、制約を付与したい場合に
は、制約1つ1つに非終端記号を割り当て、それを用い
た文法を書き下す必要があり、その結果、文法の数が膨
大になってしまい、メインテナンスが非常に困難にな
る。
[0007] In the context-free grammar, it is not possible to constrain each variable (non-terminal symbol). When it is desired to apply a constraint, it is necessary to assign a non-terminal symbol to each constraint and write down a grammar using the non-terminal symbol. As a result, the number of grammars becomes enormous and maintenance becomes very difficult.

【0008】そのため、文法規則に係る自然言語パター
ンに制約を加えることができ、加えたとしても、辞書の
大容量化を避けることができる、構文解析や構文生成等
を自然言語パターンを利用して行う自然言語処理装置や
自然言語処理方法が望まれており、また、それらの自然
言語処理装置や自然言語処理方法に好適な自然言語パタ
ーン作成装置及び自然言語パターン作成方法も望まれて
いる。
For this reason, it is possible to add a restriction to the natural language pattern according to the grammar rules, and even if added, it is possible to avoid a large dictionary, and to perform syntax analysis and syntax generation using the natural language pattern. A natural language processing apparatus and a natural language processing method to be performed are desired, and a natural language pattern creation apparatus and a natural language pattern creation method suitable for the natural language processing apparatus and the natural language processing method are also desired.

【0009】[0009]

【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明は、言語名、左辺、右辺の並びから構
成された自然言語パターンを利用して、構文解析、及び
又は、構文生成を行う自然言語処理装置において、予め
パターン辞書に用意されている上記自然言語パターンの
全て又は一部は、左辺及び又は右辺に、素性による制
約、及び、素性伝搬時の中心のパターン要素を規定する
中心要素情報を有すると共に、予めパターン辞書に用意
されている上記自然言語パターンから、構文解析、及び
又は、構文生成時の処理での候補として抽出された自然
言語パターンが木構造に適合しているか否かを、素性に
よる制約面からも検査するパターン検査手段と、適合す
る場合に、その自然言語パターンを木構造に適用すると
共に、その自然言語パターンが中心要素情報を有すると
きに素性による制約を伝搬させるパターン適用手段とを
有することを特徴とする。
According to a first aspect of the present invention, there is provided a method for parsing and / or synthesizing a language using a natural language pattern composed of a sequence of a language name, a left side, and a right side. In the natural language processing device that performs the generation, all or a part of the natural language pattern prepared in advance in the pattern dictionary prescribes the restriction by the feature on the left side and / or the right side, and the central pattern element at the time of the feature propagation. The natural language pattern extracted from the natural language pattern prepared in the pattern dictionary in advance as a candidate in the processing at the time of syntactic analysis and / or syntax generation while having the core element information to A pattern checking means for checking whether or not there is a constraint based on features, and if applicable, applying the natural language pattern to a tree structure and Turn and having a pattern application unit for propagating constrained by feature when having a center element information.

【0010】また、第2の本発明は、言語名、左辺、右
辺の並びから構成された自然言語パターンを利用して、
構文解析、及び又は、構文生成を行う自然言語処理方法
において、予めパターン辞書に用意されている上記自然
言語パターンの全て又は一部は、左辺及び又は右辺に、
素性による制約、及び、素性伝搬時の中心のパターン要
素を規定する中心要素情報を有すると共に、予めパター
ン辞書に用意されている上記自然言語パターンから、構
文解析、及び又は、構文生成時の処理での候補として抽
出された自然言語パターンが木構造に適合しているか否
かを、素性による制約面からも検査するパターン検査工
程と、適合する場合に、その自然言語パターンを木構造
に適用すると共に、その自然言語パターンが中心要素情
報を有するときに素性による制約を伝搬させるパターン
適用工程とを有することを特徴とする。
Further, the second invention uses a natural language pattern composed of a sequence of a language name, a left side, and a right side, and
In the natural language processing method of performing syntax analysis and / or syntax generation, all or a part of the natural language pattern prepared in advance in the pattern dictionary is, on the left side and / or the right side,
Constraints due to features, and having central element information that defines the central pattern element at the time of feature propagation, and parsing from the natural language pattern prepared in advance in the pattern dictionary, and / or processing during syntax generation A natural language pattern extracted as a candidate of the pattern conforms to the tree structure, whether the pattern is inspected from the aspect of the restriction by the feature, and if the pattern is matched, the natural language pattern is applied to the tree structure, And a pattern application step of propagating the restriction by the feature when the natural language pattern has the core element information.

【0011】さらに、第3の本発明は、言語名、左辺、
右辺の並びから構成された自然言語パターンを利用し
て、構文解析、及び又は、構文生成を行う自然言語処理
装置に適用されるパターン辞書を作成する自然言語パタ
ーン辞書作成装置において、左辺及び又は右辺に、素性
による制約、及び、素性伝搬時の中心のパターン要素を
規定する中心要素情報を有することがある、全てテキス
トデータで既述されている自然言語パターンを格納して
いるソース辞書と、このソース辞書から読み出した自然
言語パターンの素性制約情報を、論理演算が実行し易い
形式の素性制約データに変換して上記パターン辞書に格
納する制約情報形式変換手段とを有することを特徴とす
る。
[0011] Further, the third invention is a language, a left side,
In a natural language pattern dictionary creation device that creates a pattern dictionary applied to a natural language processing device that performs syntax analysis and / or syntax generation using a natural language pattern composed of a sequence of right sides, a left side and / or a right side A source dictionary that stores natural language patterns that are all described in text data, and may have central element information that defines the central pattern element during feature propagation. And a feature information conversion unit configured to convert the feature constraint information of the natural language pattern read from the source dictionary into feature constraint data in a format in which a logical operation can be easily performed and store the feature constraint data in the pattern dictionary.

【0012】さらにまた、第4の本発明は、言語名、左
辺、右辺の並びから構成された自然言語パターンを利用
して、構文解析、及び又は、構文生成を行う自然言語処
理装置に適用されるパターン辞書を作成する自然言語パ
ターン辞書作成方法において、左辺及び又は右辺に、素
性による制約、及び、素性伝搬時の中心のパターン要素
を規定する中心要素情報を有することがある、全てテキ
ストデータで既述されている自然言語パターンを格納し
ているソース辞書から読み出した自然言語パターンの素
性制約情報を、論理演算が実行し易い形式の素性制約デ
ータに変換して上記パターン辞書に格納する制約情報形
式変換処理を有することを特徴とする。
Still further, the fourth invention is applied to a natural language processing apparatus that performs syntax analysis and / or syntax generation using a natural language pattern composed of a sequence of language names, left and right sides. In a natural language pattern dictionary creation method for creating a pattern dictionary, there is a case where the left side and / or the right side have a constraint by a feature and central element information that defines a central pattern element at the time of feature propagation. Constraint information for converting feature constraint information of a natural language pattern read from a source dictionary storing a natural language pattern described above into feature constraint data in a format in which a logical operation can be easily performed and storing the feature constraint data in the pattern dictionary It has a format conversion process.

【0013】[0013]

【発明の実施形態】(A)第1の実施形態 以下、本発明による自然言語処理装置、自然言語処理方
法、自然言語パターン辞書作成装置及び自然言語パター
ン辞書作成方法を、機械翻訳装置及び機械翻訳方法に適
用した第1の実施形態を図面を参照しながら詳述する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS (A) First Embodiment Hereinafter, a natural language processing apparatus, a natural language processing method, a natural language pattern dictionary creation apparatus and a natural language pattern dictionary creation method according to the present invention will be described with reference to a machine translation apparatus and a machine translation machine. A first embodiment applied to the method will be described in detail with reference to the drawings.

【0014】(A−1)第1の実施形態の構成 図1は、第1の実施形態の機械翻訳装置の機能的構成を
示すブロック図である。なお、実際上は、例えば、パソ
コンなどの情報処理装置上に、処理プログラムや固定デ
ータなどがローディングされて、第1の実施形態の機械
翻訳装置が構築される。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a functional configuration of a machine translation apparatus according to the first embodiment. In practice, for example, a processing program, fixed data, and the like are loaded on an information processing apparatus such as a personal computer, and the machine translation apparatus according to the first embodiment is constructed.

【0015】図1において、第1の実施形態の機械翻訳
装置1は、入力部101、出力部102、形態素解析部
103、形態素生成部104、構文解析部105、構文
生成部106、パターン検査部107、パターン適用部
108、パターン辞書109、素性テーブル110、辞
書作成部111、素性テーブル作成部112、辞書ソー
ス113及び素性定義表114からなる。
In FIG. 1, a machine translation apparatus 1 according to a first embodiment includes an input unit 101, an output unit 102, a morphological analysis unit 103, a morphological generation unit 104, a syntax analysis unit 105, a syntax generation unit 106, and a pattern check unit. 107, a pattern application unit 108, a pattern dictionary 109, a feature table 110, a dictionary creation unit 111, a feature table creation unit 112, a dictionary source 113, and a feature definition table 114.

【0016】なお、上記構成要素のうち、入力部10
1、出力部102、形態素解析部103、形態素生成部
104、構文解析部105、構文生成部106、パター
ン検査部107、パターン適用部108及びパターン辞
書109が、機械翻訳装置本体を構成している。
It should be noted that, of the above components, the input unit 10
1. The output unit 102, the morphological analysis unit 103, the morphological generation unit 104, the syntax analysis unit 105, the syntax generation unit 106, the pattern inspection unit 107, the pattern application unit 108, and the pattern dictionary 109 constitute a machine translation apparatus body. .

【0017】入力部101は、翻訳対象となる入力文
(原言語文)を受け付けものであり、キーボードだけで
なく、文章ファイルからの読み出し構成等も該当する。
形態素解析部103は、その入力文は形態素(例えば単
語)毎に区切るものである。なお、入力部101及び形
態素解析部103は、従来のものと同様である。また、
形態素解析に利用される形態素辞書の図示は省略してい
る。
The input unit 101 receives an input sentence (source language sentence) to be translated, and corresponds to not only a keyboard but also a reading configuration from a sentence file.
The morphological analysis unit 103 separates the input sentence for each morpheme (for example, a word). Note that the input unit 101 and the morphological analysis unit 103 are the same as the conventional one. Also,
Illustration of a morphological dictionary used for morphological analysis is omitted.

【0018】構文解析部105は、形態素解析部103
の形態素解析結果に基づき、パターン辞書109を辞書
引きし、パターン検査部107及びパターン適用部10
8を適宜用いて、構文解析を行うものである。一方、構
文生成部106は、構文解析部105から与えられた原
言語文に対する構文解析結果に基づき、パターン辞書1
09を辞書引きし、パターン検査部107及びパターン
適用部108を適宜用いて、目的言語での構文を生成す
るものである。構文解析部105や構文生成部106の
機能については、後述する動作説明で明らかにする。
The syntax analyzer 105 includes a morpheme analyzer 103
Based on the morphological analysis result, the pattern dictionary 109 is looked up in a dictionary, and the pattern inspection unit 107 and the pattern application unit 10
8 is used to perform syntax analysis. On the other hand, based on the result of the syntax analysis on the source language sentence given from the syntax analysis unit 105, the syntax generation unit 106
09 is looked up in a dictionary, and a pattern in the target language is generated using the pattern inspection unit 107 and the pattern application unit 108 as appropriate. The functions of the syntax analysis unit 105 and the syntax generation unit 106 will be clarified in an operation description described later.

【0019】形態素生成部104は、構文生成部106
が生成した目的言語の構文に該当する形態素を当てはめ
て翻訳結果を得るものである。出力部102は、翻訳結
果を出力するものであり、表示出力や印刷出力するもの
だけでなく、記憶出力するものも含まれる。また、出力
する翻訳結果の数(候補数)をユーザが指定し得るもの
であっても良い。なお、形態素生成部104及び出力部
102は、従来のものと同様である。また、形態素生成
に利用される形態素辞書の図示は省略している。
The morpheme generation unit 104 includes a syntax generation unit 106
Then, a translation result is obtained by applying a morpheme corresponding to the syntax of the target language generated by. The output unit 102 outputs a translation result, and includes not only a display output and a print output, but also a storage output. Alternatively, the number of translation results to be output (the number of candidates) may be specified by the user. Note that the morpheme generation unit 104 and the output unit 102 are the same as the conventional one. Illustration of a morphological dictionary used for morpheme generation is omitted.

【0020】パターン辞書部109は、構文解析、構文
生成に用いられる翻訳パターン(原言語パターン及び目
的言語パターンの対)を格納しているものである。この
第1の実施形態の場合、原言語パターン及び目的言語パ
ターンのそれぞれには、後述するように、素性による制
約が付加されていることがある。
The pattern dictionary section 109 stores translation patterns (pairs of source language patterns and target language patterns) used for syntactic analysis and syntax generation. In the case of the first embodiment, the source language pattern and the target language pattern may each have a feature restriction as described later.

【0021】パターン検査部107は、構文解析結果の
構文木又は生成しようとする構文木が、辞書引きで得ら
れたパターンの素性制約に適合しているかどうかを検査
するものである。一方、パターン適用部108は、制約
に適合している場合に、制約に適合しているパターンを
適用した構文木に変更するものである。
The pattern checking unit 107 checks whether the syntax tree of the syntax analysis result or the syntax tree to be generated conforms to the feature constraints of the pattern obtained by dictionary lookup. On the other hand, when the pattern conforms to the constraint, the pattern applying unit 108 changes the syntax tree to a pattern conforming to the constraint.

【0022】また、上述した構成要素のうち、素性テー
ブル110、辞書作成部111、素性テーブル作成部1
12、辞書ソース113及び素性定義表114が、パタ
ーン辞書部109に格納させる翻訳パターンを作成する
翻訳パターン辞書作成装置を構成している。これら各構
成要素の機能については、動作の項で明らかにするが、
簡単に言及すると、以下の通りである。
The feature table 110, the dictionary creation unit 111, and the feature table creation unit 1 among the constituent elements described above.
12, a dictionary source 113 and a feature definition table 114 constitute a translation pattern dictionary creating apparatus for creating a translation pattern to be stored in the pattern dictionary unit 109. The function of each of these components will be clarified in the operation section.
Briefly, it is as follows.

【0023】素性定義表114は、制約などに利用し得
る素性(feature)を定義しているデータ(後述する図
5参照)を記憶しているものである。素性テーブル11
0は、翻訳パターンに制約として付加し得る形式の制約
素性データを記憶しているものである。素性テーブル作
成部112は、素性定義表114に格納されている素性
定義データから、素性テーブル110に格納する制約素
性データを作成するものである。
The feature definition table 114 stores data (see FIG. 5 described later) defining features that can be used for constraints and the like. Feature table 11
0 stores constraint feature data in a format that can be added as a constraint to the translation pattern. The feature table creation unit 112 creates constraint feature data to be stored in the feature table 110 from feature definition data stored in the feature definition table 114.

【0024】なお、素性テーブル110、素性テーブル
作成部112及び素性定義表114は、原言語及び目的
言語別に機能するものである。
The feature table 110, the feature table creating unit 112, and the feature definition table 114 function according to the source language and the target language.

【0025】辞書ソース113は、原翻訳パターンを格
納しているものである。辞書作成部111は、辞書ソー
ス113に格納されている原翻訳パターンを、適宜、素
性テーブル110に格納されている制約素性データに基
づいて、パターン検査部107やパターン適用部108
が処理し易い形態の翻訳パターンのデータに変換してパ
ターン辞書109に格納させるものである。
The dictionary source 113 stores original translation patterns. The dictionary creation unit 111 converts the original translation pattern stored in the dictionary source 113 into the pattern inspection unit 107 and the pattern application unit 108 based on the constraint feature data stored in the feature table 110 as appropriate.
Is converted into translation pattern data in a form that is easy to process and stored in the pattern dictionary 109.

【0026】(A−2)第1の実施形態の動作 (A−2−1)素性制約付き翻訳パターン辞書作成動作 素性による制約が付加された翻訳パターンの作成動作を
説明する前に、まず、翻訳パターンについて説明する。
(A-2) Operation of First Embodiment (A-2-1) Operation for Creating Translation Pattern Dictionary with Feature Constraint Before describing the operation for creating a translation pattern to which a constraint based on features is added, first, The translation pattern will be described.

【0027】翻訳パターンは、図2に示すように、複数
の言語によるパターンを対(組)にしているものであ
る。なお、2言語間の片方向又は双方向の機械翻訳装置
であれば、翻訳パターンは、2言語によるパターンを対
にしているものである。各言語でのパターンは、文脈自
由文法に従っており、言語種類を特定する言語名と、構
文カテゴリー(パターン名)を表す左辺と、その構文カ
テゴリーを構成する他の構文カテゴリーの並びを構成す
る右辺(パターン構成要素)とで記述されている。
As shown in FIG. 2, the translation pattern is a pattern in which patterns in a plurality of languages are paired. In the case of a one-way or two-way machine translation device between two languages, the translation pattern is a pair of patterns in two languages. The pattern in each language follows a context-free grammar, and includes a language name that specifies a language type, a left side that represents a syntax category (pattern name), and a right side that constitutes a sequence of other syntax categories that make up that syntax category ( Pattern component).

【0028】例えば、構文解析時には、右辺(の非終端
記号や終端記号)がその直前までの構文解析結果や形態
素解析結果にマッチすれば、左辺(の非終端記号)に還
元される。また例えば、構文生成時には、左辺(の非終
端記号)が右辺(の非終端記号や終端記号)に置換され
る。
For example, at the time of parsing, if the right-hand side (a non-terminal symbol or terminal symbol) matches the immediately preceding parsing result or morphological analysis result, it is reduced to the left-hand side (the non-terminal symbol). For example, at the time of syntax generation, the left side (a non-terminal symbol) is replaced with the right side (a non-terminal symbol or a terminal symbol).

【0029】図3は、素性による制約が付加されていな
い翻訳パターンの一例を示したものである。なお、図3
は、辞書ソース113での格納例をも表している。
FIG. 3 shows an example of a translation pattern to which no restriction by the feature is added. Note that FIG.
Also shows an example of storage in the dictionary source 113.

【0030】図3において、en及びjaはそれぞれ英
語及び日本語を表しており、:を挟んでこれに続いてい
るSは左辺の非終端記号名(構文カテゴリー名)であ
り、この例では、文を表す非終端記号名である。また、
NP(名詞句)、VP(動詞句)は右辺を構成する非終
端記号名(構文カテゴリー名)であり、これら非終端記
号名に付加されている1、2は同じ番号のついた非終端
記号同士が両パターン間で対応していることを示してい
る。右辺を構成する各構文カテゴリー(パターン構成要
素)は、大括弧の対によって区別されている。
In FIG. 3, en and ja represent English and Japanese, respectively, and S following the: is a nonterminal symbol name (syntax category name) on the left side. Is a non-terminal symbol name. Also,
NP (noun phrase) and VP (verb phrase) are non-terminal symbol names (syntax category names) constituting the right side, and 1 and 2 added to these non-terminal symbol names are non-terminal symbols having the same number. This indicates that there is correspondence between patterns. Each syntax category (pattern component) constituting the right side is distinguished by a pair of square brackets.

【0031】図4は、素性による制約が付加された翻訳
パターンの一例を示したものである。なお、図4の例
は、英語のパターンにのみ制約が付加され、日本語のパ
ターンには制約が付加されていない例である。また、図
4も、辞書ソース113での格納例をも表している。
FIG. 4 shows an example of a translation pattern to which restrictions due to features are added. Note that the example of FIG. 4 is an example in which a restriction is added only to an English pattern, and no restriction is added to a Japanese pattern. FIG. 4 also shows an example of storage in the dictionary source 113.

【0032】ここで、翻訳パターンに制約として付加さ
れる素性とは、形態素情報、構文情報、意味情報など翻
訳で用いられる各種情報における特徴情報をいう。
Here, the feature added as a constraint to the translation pattern refers to feature information in various information used in translation, such as morphological information, syntax information, and semantic information.

【0033】図4において、numやposは素性名で
あり、前者は数(数量)を表す素性名であり、後者は品
詞を表す素性名である。素性名に続く=sgや=nは素
性値を表しており、前者は数量が単数であることを表し
ており、後者は品詞が名詞であることを表している。ま
た、図4におけるVP:*の*は、この記号がついた右
辺の要素(構文カテゴリー)が、右辺での中心要素であ
ることを示している。構文解析時においては、中心要素
が持っている素性は全て左辺に対応した構文木のノード
にコピーされる。コピーされた後、左辺にかかれた素性
(この例ではtype=normal)自体もセットさ
れる。
In FIG. 4, num and pos are feature names, the former is a feature name representing a number (quantity), and the latter is a feature name representing a part of speech. = Sg or = n following the feature name indicates a feature value, the former indicates that the quantity is singular, and the latter indicates that the part of speech is a noun. In addition, * in VP: * in FIG. 4 indicates that the element (syntax category) on the right side with this symbol is the central element on the right side. At the time of parsing, all features of the central element are copied to the nodes of the parse tree corresponding to the left side. After being copied, the feature (type = normal in this example) added to the left side is also set.

【0034】次に、パターン辞書109に格納する、制
約素性データ付き翻訳パターンを作成するまでの動作を
説明する。
Next, the operation up to the creation of a translation pattern with constraint feature data stored in the pattern dictionary 109 will be described.

【0035】なお、パターン辞書109に格納される翻
訳パターンは、図3や図4に示すような翻訳パターン本
体に、後述するパターン検査での処理を容易化するため
の制約素性データ(例えば、ビット配列データ)が付加
されたものである。
The translation pattern stored in the pattern dictionary 109 is stored in a translation pattern body as shown in FIGS. 3 and 4 in the form of constraint feature data (for example, bit data) for facilitating processing in a pattern inspection described later. (Sequence data).

【0036】まず、素性テーブル作成部112の動作
を、図5のフローチャートを参照しながら説明する。
First, the operation of the feature table creation unit 112 will be described with reference to the flowchart of FIG.

【0037】素性テーブル作成部112は、素性定義表
114の格納内容(素性定義)を読み込む(ステップ5
01)。
The feature table creation unit 112 reads the stored contents (feature definition) of the feature definition table 114 (step 5).
01).

【0038】図6は、素性定義表114での素性の定義
データ例を示している。図6は、1個の素性定義対象に
対する例を示している。図6において、/**/で挟ま
れた部分はデータ上のコメントであり、2行目は文字列
(string)形式である素性で素性名が標準形ba
seFormとして規定されていることを表しており、
4行目は単語(word)形式である素性で素性名が品
詞posの素性値がn(名詞)及びadj(形容詞)で
あることを定義しており、6行目は単語(word)形
式である素性で素性名が数(数量)numの素性値がs
g(単数)かpl(複数)であることを定義している。
FIG. 6 shows an example of feature definition data in the feature definition table 114. FIG. 6 shows an example for one feature definition target. In FIG. 6, the portion between / ** / is a comment on the data, the second line is a feature in a character string (string) format, and the feature name is in the standard form ba.
represents that it is defined as seForm,
The fourth line defines the feature in the word (word) format, and the feature name defines that the feature value of the part of speech pos is n (noun) and adj (adjective), and the sixth line defines the feature in the word (word) format. A feature name is number (quantity) num and the feature value is s
g (single) or pl (plural).

【0039】以上のように、素性名の定義は2つの種類
があり、第1は、文字列(文字列値)を持つものであ
り、第2は、予め定めた値を持つものである。
As described above, there are two types of definition of the feature name, the first one having a character string (character string value), and the second one having a predetermined value.

【0040】なお、素性定義は、図6に示すような既に
データ化されている既存の素性定義のものであって良
い。
The feature definition may be an existing feature definition that has already been converted into data as shown in FIG.

【0041】素性テーブル作成部112は、素性定義表
114から素性定義を読み込むと、次に、素性定義で予
め定めた値を持つとされたものに対し、図7に示すよう
に、その素性名と素性値の組毎に一意の番号(組を規定
する識別番号N1〜N4)を付与し(ステップ50
2)、その素性名及び素性値の組と、その組に付与され
た番号の対応表(以下、素性値/番号対応表やビット配
列データと呼ぶ)を素性テーブル110に書き込む(ス
テップ503)。
The feature table creation unit 112 reads the feature definition from the feature definition table 114, and then, for a feature having a predetermined value in the feature definition, as shown in FIG. And a unique number (identification numbers N1 to N4 defining the set) for each set of
2) Write a correspondence table (hereinafter referred to as a "feature value / number correspondence table" or "bit arrangement data") between the set of the feature name and the feature value and the number assigned to the set in the feature table 110 (step 503).

【0042】このような番号は、パターン検査部107
が、後述するように、パターンの制約を検査するときに
用いられ、これにより、パターン検査部107が高速に
検査し得るようになされている。
Such numbers are stored in the pattern inspection unit 107.
Are used when checking the constraint of the pattern, as described later, so that the pattern checking unit 107 can check at high speed.

【0043】図7は、品詞名素性posの素性値n(名
詞)に番号N1を付与し、品詞名素性posの素性値a
dj(形容詞)に番号N2を付与し、数素性numの素
性値sgに番号N3を付与し、数素性numの素性値p
lに番号N4を付与した例である。図7は、あくまでも
例であり、素性種類や各素性種類の素性値数もこれに限
定されるものではない。
FIG. 7 shows a case in which the number N1 is assigned to the feature value n (noun) of the part-of-speech noun feature pos, and the feature value a of the part-of-speech noun feature pos.
dj (adjective) is assigned a number N2, and a feature value sg of the numeric feature num is assigned a number N3, and a feature value p of the numeric feature num is assigned.
This is an example in which a number N4 is assigned to l. FIG. 7 is merely an example, and the feature types and the number of feature values of each feature type are not limited thereto.

【0044】パターンに対する素性による制約は、図8
に示すように、4種類を基本としている。
FIG. 8 shows the restrictions on the pattern due to its features.
As shown in FIG.

【0045】第1は、ある素性(素性名)に対して記述
されている素性値で制約を与えるものである。上述した
図4の英語用パターンにおける右辺第2項のnum=s
gは、この第1種類の制約例であり、数素性が単数であ
るという制約である。第2は、ある素性(素性名)に対
して記述されている素性値以外という制約を与えるもの
である。例えば、num!=sgという制約は、数素性
が単数ではないという制約である。第3は、ある素性
(素性名)に対して記述されている複数の素性値で制約
を与えるものである。例えば、pos=n|adjとい
う制約は、品詞素性が名詞か形容詞であるという制約で
ある。第4は、ある素性(素性名)に対して記述されて
いる複数の素性値以外という制約を与えるものである。
例えば、pos!=n|adjという制約は、品詞素性
が名詞でもなくかつ形容詞でもないという制約である。
First, a constraint is given by a feature value described for a certain feature (feature name). Num = s of the second term on the right side in the above-mentioned English pattern of FIG.
g is an example of this first type of constraint, and is a constraint that the numeric feature is singular. The second is to impose restrictions on features other than those described for a certain feature (feature name). For example, num! The constraint of = sg is a constraint that the numerical feature is not singular. Third, a constraint is given by a plurality of feature values described for a certain feature (feature name). For example, the constraint pos = n | adj is a constraint that the part-of-speech feature is a noun or an adjective. Fourth, a constraint is imposed on a feature (feature name) other than a plurality of feature values described.
For example, pos! The constraint of = n | adj is a constraint that the part of speech feature is neither a noun nor an adjective.

【0046】なお、1個の構文要素(構文カテゴリー)
に対する素性による制約は、複数以上の素性に対して付
与されていても良い。上述した図4の英語用パターンに
おける右辺第1項のnum=sg:pos=nは、この
ような複数以上の素性制約の例であって、右辺第1項に
係る構文要素(構文カテゴリー)に対し、数素性が単
数、かつ、品詞素性が名詞という制約を付与したもので
ある。上述のように、:によって、素性の違いを表して
いる。
Note that one syntax element (syntax category)
May be given to a plurality of features. Num = sg: pos = n of the first term on the right side in the above-described English pattern of FIG. 4 is an example of such a plurality of feature constraints, and the syntax element (syntax category) related to the first term on the right side On the other hand, the number feature is singular, and the part of speech feature is a noun. As described above, the difference is represented by:.

【0047】辞書ソース113は、翻訳パターンが記述
されているものであり、素性による制約が付与されてい
る翻訳パターン(図4参照)も素性による制約が付与さ
れていない翻訳パターン(図3参照)も含まれている。
The dictionary source 113 describes a translation pattern. A translation pattern to which a restriction by a feature is given (see FIG. 4) and a translation pattern to which no restriction by a feature is given (see FIG. 3). Is also included.

【0048】次に、辞書作成部111が辞書ソース11
3の格納内容(翻訳パターン本体)から、素性テーブル
110の格納内容を参照して、パターン辞書109に登
録する翻訳パターン(制約素性データ付き翻訳パター
ン)を作成する動作を、図9のフローチャートを参照し
ながら説明する。
Next, the dictionary creation unit 111 sends the dictionary source 11
The operation of creating a translation pattern (translation pattern with constraint feature data) to be registered in the pattern dictionary 109 by referring to the storage content of the feature table 110 from the storage content (translation pattern body) of No. 3 is referred to the flowchart of FIG. I will explain while.

【0049】辞書作成部111はまず、辞書ソース11
3の格納内容(翻訳パターン)を読み込む(ステップ9
01)。次に、辞書作成部111は、素性テーブル11
0の素性値/番号対応表をみながら、素性による制約を
番号データ(ビット配列データ)に置き換えて(又は追
加して)パターン辞書109に書き込む(ステップ90
2)。ここで、上述した図7に示した制約の種類や、制
約が左辺に付与されているか右辺に付与されているかに
応じて、ビット配列データが決定され、パターン辞書1
09に書き出される。
The dictionary creation unit 111 firstly receives the dictionary source 11
3 (translation pattern) is read (step 9).
01). Next, the dictionary creation unit 111 sends the feature table 11
While referring to the feature value / number correspondence table of 0, the constraint by the feature is replaced (or added) with the number data (bit array data) and written into the pattern dictionary 109 (step 90).
2). Here, the bit array data is determined according to the type of the constraint shown in FIG. 7 and whether the constraint is applied to the left side or the right side, and the pattern dictionary 1
09 is written.

【0050】図10は、パターン(原言語パターン又は
目的言語パターン)における素性による制約部分を、置
き換えたビット配列データ(番号データ)の例を示すも
のである。
FIG. 10 shows an example of bit array data (number data) in which a part restricted by a feature in a pattern (source language pattern or target language pattern) is replaced.

【0051】図10(A)は、右辺に存在する素性制約
num=sg:pos=nに対するビット配列データを
示している。この場合のビット配列データは、AND
(論理積)値配列データと、ANDマスク配列データと
でなる。素性値/番号対応表が上述した図7に示すもの
であるので、AND値配列データは「1010」とな
り、一方、AND値配列データ上で意味があるビット部
分を示すANDマスク配列データは「1010」とな
る。
FIG. 10A shows bit array data for the feature constraint num = sg: pos = n existing on the right side. The bit array data in this case is AND
It consists of (logical product) value array data and AND mask array data. Since the feature value / number correspondence table is as shown in FIG. 7 described above, the AND value array data is “1010”, while the AND mask array data indicating a meaningful bit portion on the AND value array data is “1010”. ".

【0052】図10(B)は、右辺に存在する素性制約
num!=sg:pos=nに対するビット配列データ
を示している。この場合のビット配列データも、AND
値配列データと、ANDマスク配列データとでなる。素
性値/番号対応表が上述した図7に示すものであるの
で、AND値配列データは「1000」となり、一方、
AND値配列データ上で意味があるビット部分を示すA
NDマスク配列データは「1010」となる。すなわ
ち、ANDマスク配列データの3ビットが「1」である
ので、AND値配列データでの3ビット目「0」は数素
性が単数ではないことを表している。
FIG. 10B shows a feature constraint num! Existing on the right side. = Sg: bit array data for pos = n. The bit array data in this case is also AND
It consists of value array data and AND mask array data. Since the feature value / number correspondence table is as shown in FIG. 7 described above, the AND value array data is “1000”.
A indicating a significant bit portion on the AND value array data
The ND mask array data is “1010”. That is, since three bits of the AND mask array data are “1”, the third bit “0” in the AND value array data indicates that the numerical feature is not singular.

【0053】図10(C)は、右辺に存在する素性制約
pos=n|adjに対するビット配列データを示して
いる。この場合のビット配列データは、OR(論理和)
値配列データでなる。OR値配列データは「1100」
となる。なお、OR値配列データに対するORマスク配
列データは、OR値配列データ自体が有効部分の情報を
含むので作成されない。
FIG. 10C shows bit array data for the feature constraint pos = n | adj existing on the right side. The bit array data in this case is OR (logical sum)
It consists of value array data. OR value array data is "1100"
Becomes Note that the OR mask array data for the OR value array data is not created because the OR value array data itself includes information of a valid part.

【0054】図10(D)は、左辺に存在する素性制約
num=sgに対するビット配列データを示している。
この場合のビット配列データは、ADD値配列データ
と、ADDマスク配列データとでなる。左辺は、右辺の
素性制約が伝搬され得ることもあるので(第2の実施形
態参照)、ADD値配列データを採用し、この例の場
合、ADD値配列データは「0010」となり、ADD
マスク配列データは他の素性の伝搬を受け付けられるよ
うに「0011」となる。図10(D)に示すADD形
式が適用されるのは、パターン適用部108の処理によ
る(後述する図16参照)。
FIG. 10D shows bit array data for the feature constraint num = sg existing on the left side.
In this case, the bit array data includes ADD value array data and ADD mask array data. Since the feature constraint on the right side may be propagated to the left side (see the second embodiment), ADD value array data is employed. In this example, the ADD value array data is “0010”, and the ADD value array is “0010”.
The mask array data is "0011" so that propagation of other features can be accepted. The ADD format shown in FIG. 10D is applied by the processing of the pattern application unit 108 (see FIG. 16 described later).

【0055】素性の制約は、図8に示す表現が組み合わ
せられたとしても、図10に示す3種類の形式、すなわ
ち、AND配列形式、OR配列形式及びADD配列形式
のいずれかで表すことができる。
Even if the expressions shown in FIG. 8 are combined, the feature constraints can be expressed in any of the three types shown in FIG. 10, namely, an AND array format, an OR array format, and an ADD array format. .

【0056】なお、辞書作成部111によって、素性制
約が置き換えられて作成されたビット配列データは、1
や0が続けて並ぶ傾向にあるので(例えば、制約に係る
素性種類が多い場合や素性値の種類が多い場合には)、
メモリ空間効率や処理効率をあげるために圧縮していて
も良い。
The bit array data created by the dictionary creating unit 111 by replacing the feature constraints is 1 bit.
And 0 tend to line up continuously (for example, when there are many feature types related to constraints or when there are many feature value types),
It may be compressed to increase memory space efficiency and processing efficiency.

【0057】(A−2−2)翻訳動作 次に、第1の実施形態の機械翻訳装置での翻訳パターン
を利用した翻訳動作について説明する。
(A-2-2) Translation Operation Next, a translation operation using a translation pattern in the machine translation apparatus of the first embodiment will be described.

【0058】入力部101が原言語文を取り込んで形態
素解析部103に与え、その入力された原言語文を形態
素解析部103が形態素解析する間での動作は、従来と
同様である。
The operation during which the input unit 101 takes in the source language sentence and supplies it to the morphological analysis unit 103 and the morphological analysis unit 103 performs morphological analysis on the input source language sentence is the same as the conventional one.

【0059】以下、構文解析部105の動作を図11の
フローチャートを参照しながら説明する。なお、この第
1の実施形態の構文解析部105は、パターンに基づく
従来の機械翻訳方法で述べられている処理に加えて、パ
ターンに付加されている素性による制約に関する処理を
行う。
Hereinafter, the operation of the syntax analyzer 105 will be described with reference to the flowchart of FIG. Note that the syntax analysis unit 105 of the first embodiment performs a process related to restrictions due to features added to the pattern, in addition to the process described in the conventional machine translation method based on the pattern.

【0060】構文解析部105はまず、形態素解析部1
03から形態素解析済みの構文木を受け取る(ステップ
1101)。そして、構文解析の必要な木がまだ残って
いることを確認してから(ステップ1102)、パター
ン辞書109を引いて必要なパターン(ここでは原言語
用のパターン)を取り出す(ステップ1103)。ここ
では、複数のパターンが取り出されることがある。
The syntactic analysis unit 105 firstly receives the morphological analysis unit 1
Then, the morphologically analyzed syntax tree is received from step 03 (step 1101). Then, after confirming that a tree still requiring parsing remains (step 1102), the pattern dictionary 109 is consulted to extract a necessary pattern (here, a pattern for the source language) (step 1103). Here, a plurality of patterns may be extracted.

【0061】そして、適用するパターンが決まっていな
い状態で後述するステップ1105が実行されていない
未処理のパターンが残っているか否かを判別する(ステ
ップ1104)。残っていない場合には、上述したステ
ップ1102に戻る。一方、未処理のパターンが残って
いると、構文木とその未処理パターンをパターン検査部
107に渡して制約に適合しているかどうかを検査させ
(ステップ1105)、その検査結果を受け取って検査
結果を判別する(ステップ1106)。
Then, it is determined whether or not there remains an unprocessed pattern for which the step 1105 described below has not been executed in a state where the pattern to be applied has not been determined (step 1104). If not, the process returns to step 1102 described above. On the other hand, if an unprocessed pattern remains, the syntax tree and the unprocessed pattern are passed to the pattern checker 107 to check whether the pattern conforms to the constraint (step 1105). Is determined (step 1106).

【0062】なお、従来は素性による制約がないため取
り出したパターンの検査は行なわれないが、この第1の
実施形態では、パターンに制約を付加しているため、上
述したステップ1105のパターン検査が実行される。
Note that, conventionally, the extracted pattern is not inspected because there is no restriction due to the feature. However, in the first embodiment, since the pattern is restricted, the pattern inspection in step 1105 described above is performed. Be executed.

【0063】適合していないという検査結果であれば、
上述したステップ1104に戻り、これに対して、対象
となっているパターンが制約に適合している場合には、
その構文木とパターンをパターン適用部108に渡し
て、その構文木にパターンを適用した結果の構文木を受
け取り(ステップ1107)、上述したステップ110
2に戻る。
If the result of the test is that it is not suitable,
Returning to step 1104 described above, if the target pattern meets the constraint,
The syntax tree and the pattern are transferred to the pattern application unit 108, and a syntax tree resulting from applying the pattern to the syntax tree is received (step 1107).
Return to 2.

【0064】ステップ1102〜1107でなる処理ル
ープを繰り返し実行し、構文解析が一通り終ったところ
で、構文解析結果の木を作成して構文生成部106に渡
す(ステップ1108)。
The processing loop consisting of steps 1102 to 1107 is repeatedly executed. When the syntax analysis is completed, a tree of the syntax analysis result is created and passed to the syntax generation unit 106 (step 1108).

【0065】図12は、構文解析部105からの検査依
頼時のパターン検査部107の処理を示すフローチャー
トである。パターン検査部107の図12で示す処理
は、上述したステップ1105での検査依頼に対応して
いる。
FIG. 12 is a flowchart showing the processing of the pattern inspection unit 107 when an inspection request is made from the syntax analysis unit 105. The processing of the pattern inspection unit 107 shown in FIG. 12 corresponds to the inspection request in step 1105 described above.

【0066】パターン検査部107はまず、構文木とパ
ターンを受け取り(ステップ1201)、処理右辺数パ
ラメータiを初期値0に設定する(ステップ120
2)。
First, the pattern checker 107 receives a syntax tree and a pattern (step 1201), and sets a processing right side number parameter i to an initial value 0 (step 120).
2).

【0067】そして、パラメータiがパターンの右辺数
に達していないことを確認して(ステップ1203)、
構文木のi+1番目の子ノードと、パターンの右辺のi
+1番目を取り出してパターンの制約が満たされている
か否かを判別し、その判別結果を認識する(ステップ1
204、1205)。なお、パターンの右辺のi+1番
目に制約がない場合には、制約が満たされていると取り
扱う。
Then, it is confirmed that the parameter i has not reached the number of right sides of the pattern (step 1203).
I + 1th child node of the syntax tree and i on the right side of the pattern
The + 1st is taken out to determine whether or not the constraint of the pattern is satisfied, and the result of the determination is recognized (step 1).
204, 1205). If there is no constraint on the (i + 1) th right side of the pattern, it is determined that the constraint is satisfied.

【0068】構文木のi+1番目の子ノードが、パター
ンの右辺のi+1番目についての制約を満たしていない
場合には、パターン検査部107は、適合しなかった旨
を構文解析部105に返信する(ステップ1208)。
If the (i + 1) -th child node of the syntax tree does not satisfy the constraint on the (i + 1) -th right side of the pattern, the pattern checker 107 sends a message to the effect that it did not match to the syntax analyzer 105 ( Step 1208).

【0069】これに対して、構文木のi+1番目の子ノ
ードが、パターンの右辺のi+1番目についての制約を
満たしている場合には、パラメータiを1インクリメン
トしてステップ1203に戻る(ステップ1206)。
このステップ1203でパラメータiがパターンの右辺
数に達したという判別結果を得る場合は、構文木の全て
の子ノードがパターンの対応する右辺要素の制約を満た
した場合であり、このとき、パターン検査部107は、
適合した旨を構文解析部105に返信する(ステップ1
207)。
On the other hand, if the (i + 1) th child node of the syntax tree satisfies the constraint on the (i + 1) th right side of the pattern, the parameter i is incremented by 1 and the process returns to step 1203 (step 1206). .
If the result of the determination that the parameter i has reached the number of right sides of the pattern in step 1203 is obtained, all the child nodes of the syntax tree satisfy the constraint of the corresponding right side element of the pattern. The unit 107
A reply to the parsing unit 105 is sent to the parsing unit 105 (step 1).
207).

【0070】ここで、素性の制約を調べるには通常かな
りの時間や処理量やコストがかかるが、この第1の実施
形態では、図10に示したように、ビット配列データで
素性とその制約が保持されているので、ビット配列デー
タを順に比較するだけで済み、時間や処理量やコストは
かなり小さくなる。
Here, it usually takes a considerable amount of time, processing amount, and cost to check the feature constraint. However, in the first embodiment, as shown in FIG. 10, the feature and its constraint are represented by bit array data. Is held, it is only necessary to compare the bit array data in order, and the time, processing amount and cost are considerably reduced.

【0071】以下、ビット配列データを用いた制約適合
性の判断方法の詳細を、図13及び図14に示す例を用
いて説明する。
Hereinafter, the details of the method for judging the suitability of the constraint using the bit array data will be described with reference to the examples shown in FIGS.

【0072】図13は、素性による制約が、図10
(A)や(B)に示すようなAND形式の場合を示して
いる。符号1301は、ある右辺要素に対するビット配
列データ(AND値配列データ及びANDマスク配列デ
ータ)を示している。符号1302は、上記右辺要素に
対応する構文木の子ノードのビット配列データを示して
いる。このような子ノードのビット配列データは、この
適合性の判断時に、子ノードの素性情報から形成され
る。なお、形態素解析部103が素性テーブル110の
格納内容を参照して形成しておくようにしても良い。
FIG. 13 shows that the restriction due to the feature
The case of the AND format as shown in (A) or (B) is shown. Reference numeral 1301 denotes bit array data (AND value array data and AND mask array data) for a certain right side element. Reference numeral 1302 denotes bit array data of a child node of the syntax tree corresponding to the right side element. Such bit arrangement data of the child node is formed from the feature information of the child node when determining the suitability. It should be noted that the morphological analysis unit 103 may be formed by referring to the storage contents of the feature table 110.

【0073】右辺要素に対するビット配列データと、子
ノードのビット配列データとが照合されることになる
(符号1303)。
The bit array data for the right side element and the bit array data of the child node are collated (reference numeral 1303).

【0074】図13に示すようなAND形式の場合に
は、具体的には、子ノードの値配列データとANDマス
ク配列データのビット毎のANDをとり、子ノードの値
配列データにおいて照合が必要なビット部分だけを浮き
出させ、その結果がAND値配列データと全く同じであ
れば制約に適合したと判断し、1ビットでも異なってい
れば制約に適合していないと判断する(符号130
4)。
In the case of the AND format as shown in FIG. 13, specifically, the value array data of the child node is ANDed with the bit array of the AND mask array data, and the collation is required in the value array data of the child node. Only the bit portion is highlighted. If the result is exactly the same as the AND value array data, it is determined that the constraint has been met. If even one bit is different, it is determined that the constraint has not been met (reference numeral 130).
4).

【0075】図13の場合、構文木の子ノードのビット
配列データ(符号1302)は、パターンの右辺要素に
対するビット配列データ(符号1301)が表している
制約に適合している場合である。
In the case of FIG. 13, the bit array data (reference numeral 1302) of the child node of the syntax tree conforms to the constraint represented by the bit array data (reference numeral 1301) for the right side element of the pattern.

【0076】この図13から明らかなように、構文木の
子ノードの値配列データは複数の素性に関するものであ
っても、パターンの右辺要素に対するビット配列データ
が表している制約に係る素性との適合だけが問題とな
る。
As is clear from FIG. 13, even if the value array data of the child node of the syntax tree relates to a plurality of features, the value array data for the constraint represented by the bit array data for the right-hand side element of the pattern does not match. Only conformance matters.

【0077】図14は、素性の制約が、図10(C)に
示すようなOR形式の場合を示している。符号1401
は、パターンのある右辺要素に対するビット配列データ
(OR値配列データ)を示している。符号1402は、
上記右辺要素に対応する構文木の子ノードのビット配列
データを示している。
FIG. 14 shows a case where the feature constraint is of the OR type as shown in FIG. 10 (C). Reference numeral 1401
Indicates bit array data (OR value array data) for the right side element having a pattern. Reference numeral 1402 is
The bit array data of the child node of the syntax tree corresponding to the right side element is shown.

【0078】OR配列でも、右辺要素に対するビット配
列データと、子ノードのビット配列データとが照合され
ることになる(符号1403)。
Also in the OR array, the bit array data for the right side element and the bit array data of the child node are collated (1403).

【0079】図14に示すようなOR形式の場合には、
具体的には、子ノードの値配列データとパターンのOR
値配列データのビット毎のANDをとり、その結果に1
ビットでも1があれば、制約に適合したと判断し、全て
のビットが0であれば、制約に適合していないと判断す
る(符号1404)。
In the case of the OR format as shown in FIG.
Specifically, the OR of the value array data of the child node and the pattern
An AND for each bit of the value array data is taken, and 1 is added to the result.
If there is even one bit, it is determined that the constraint has been met. If all bits are 0, it is determined that the constraint has not been met (1404).

【0080】図14の場合、構文木の子ノードのビット
配列データ(符号1402)は、パターンの右辺要素に
対するビット配列データ(符号1401)が表している
制約に適合している場合である。
In the case of FIG. 14, the bit array data (reference numeral 1402) of the child node of the syntax tree conforms to the constraint represented by the bit array data (reference numeral 1401) for the right side element of the pattern.

【0081】この図14から明らかなように、OR形式
では、制約を付与する素性値が多くあり、構文木の子ノ
ードの値配列データがそのうちの1個に関するものであ
っても制約を受けるようにすることを要する。
As is apparent from FIG. 14, in the OR format, there are many feature values to which constraints are applied, and even if the value array data of the child node of the syntax tree is related to one of them, the constraint is imposed. It is necessary to

【0082】図15は、構文解析時でのパターン適用部
108の処理を示すフローチャートである。パターン適
用部108の処理は、上述したステップ1107(図1
1参照)の処理に対応している。なお、図15は、素性
の伝搬面から記述している。
FIG. 15 is a flowchart showing the processing of the pattern application unit 108 during syntax analysis. The processing of the pattern application unit 108 is the same as that of the above-described step 1107 (FIG. 1).
1). FIG. 15 is described from the propagating surface of the feature.

【0083】パターン適用部108はまず、構文木とパ
ターンを受け取る(ステップ1501)。パターンの中
心ノードに対応する構文木の子ノードの素性を構文木の
トップノードにセットする(ステップ1502)。これ
を素性の伝般と呼ぶ。次に、パターンの左辺の素性情報
を構文木のトップノードに追加する(ステップ150
3)。
The pattern application unit 108 first receives a syntax tree and a pattern (step 1501). The feature of the child node of the syntax tree corresponding to the central node of the pattern is set to the top node of the syntax tree (step 1502). This is called a feature propagation. Next, the feature information on the left side of the pattern is added to the top node of the syntax tree (step 150).
3).

【0084】なお、パターン適用部108の処理が実行
されるのは、パターン検査部107での検査によって、
構文木が制約を適合しているパターンについてであり、
パターン適用部108の処理により、制約が適合してい
る素性情報を、上位ノードに伝搬させている。
The processing of the pattern application unit 108 is executed by the inspection by the pattern inspection unit 107.
For patterns where the parse tree meets the constraints,
By the processing of the pattern applying unit 108, the feature information that conforms to the constraint is propagated to the upper node.

【0085】図16は、パターン適用部108の上述し
た処理を、ビット配列データに対する演算処理で実行す
る方法を示している。
FIG. 16 shows a method in which the above-described processing of the pattern applying unit 108 is executed by arithmetic processing on bit array data.

【0086】図16において、符号1601は、制約適
合のパターンの左辺要素に対するビット配列データ(A
DD値配列データ及びADDマスク配列データ)を示し
ており、符号1602は、パターンの右辺中心要素に対
応する構文木の子ノードのビット配列データ(値配列デ
ータ及びマスク配列データ)を示している。
In FIG. 16, reference numeral 1601 denotes bit array data (A
DD value array data and ADD mask array data), and reference numeral 1602 denotes bit array data (value array data and mask array data) of a child node of the syntax tree corresponding to the right-hand side center element of the pattern.

【0087】パターン適用部108はまず、符号160
2で示す子ノードのビット配列データ(素性)を構文木
のトップノードにコピーする(符号1603)。次に、
トップノードの素性(値配列データ及びマスク配列デー
タ)に、パターンでの制約を反映させる。この処理は、
次の(1)式及び(2)式で表すことができる(符号1
604)。
The pattern application unit 108 first receives the reference numeral 160
The bit array data (feature) of the child node indicated by 2 is copied to the top node of the syntax tree (reference numeral 1603). next,
The features in the top node (value array data and mask array data) reflect the restrictions in the pattern. This process
It can be expressed by the following equations (1) and (2) (reference numeral 1).
604).

【0088】 値配列=ADD値配列|(〜(ADDマスク配列)&値配列) …(1) マスク配列=ADDマスク配列|マスク配列 …(2) なお、(1)式及び(2)式において、|はビット毎の
OR(論理和)を表し、〜はビット毎のNOT(論理否
定)を表し、&はビット毎のAND(論理積)を表して
いる。また、配列データにおけるデータの用語は省略し
ている。
Value array = ADD value array | (〜 (ADD mask array) & value array) (1) Mask array = ADD mask array | Mask array (2) In the equations (1) and (2), , | Represent OR (logical sum) for each bit, ~ represents NOT (logical NOT) for each bit, and & represents AND (logical product) for each bit. Further, the term of data in the array data is omitted.

【0089】(1)式は、パターンでの制約を受けた素
性の素性値(ADD値配列)と、その素性以外の素性に
ついての子ノードから承継された素性値(〜(ADDマ
スク配列)&値配列)とを合成したものを、トップノー
ドでの素性にすることを表している。このような素性種
類の増加に対応するように、値配列で有効なビットの位
置を規定するマスク配列も、(2)式に示すように、2
種類のマスク配列を合成したものとなる。
Expression (1) is obtained by calculating the feature value (ADD value array) of the feature restricted by the pattern and the feature value (((ADD mask array) & (Value array) is used as a feature at the top node. In order to cope with such an increase in feature types, a mask array that defines valid bit positions in the value array also has a value of 2 as shown in Expression (2).
This is a combination of different types of mask arrangements.

【0090】符号1605は、制約適合のパターンの左
辺要素に対するビット配列データが符号1601で示す
場合であり、かつ、パターンの右辺中心要素に対応する
構文木の子ノードのビット配列データが符号1602で
示す場合であるときの処理後のトップノードでのビット
配列データ(値配列データ及びマスク配列データ;素
性)を示している。
Reference numeral 1605 denotes a case where the bit array data for the left side element of the constraint conforming pattern is indicated by reference numeral 1601, and the bit array data of the child node of the syntax tree corresponding to the right side central element of the pattern is indicated by reference numeral 1602. This shows the bit array data (value array data and mask array data; features) at the top node after processing when this is shown.

【0091】構文解析部105がパターン検査部107
やパターン適用部108に適宜処理依頼しながら構文解
析して得た構文解析結果は、構文生成部106に与えら
れ、構文生成部106は、目的言語での構文木情報を生
成する。
The syntax analysis unit 105 has the pattern inspection unit 107
The syntax analysis result obtained by performing the syntax analysis while appropriately requesting the processing to the pattern application unit 108 is provided to the syntax generation unit 106, and the syntax generation unit 106 generates syntax tree information in the target language.

【0092】以下、構文生成部106の動作の詳細を図
17のフローチャートを参照しながら説明する。なお、
この第1の実施形態の構文生成部106は、パターンに
基づく従来の機械翻訳方法で述べられている処理に加え
て、パターンに付加されている素性による制約に関する
処理も行う。
Hereinafter, details of the operation of the syntax generation unit 106 will be described with reference to the flowchart of FIG. In addition,
The syntax generation unit 106 according to the first embodiment performs, in addition to the processing described in the conventional machine translation method based on a pattern, processing relating to a constraint due to a feature added to the pattern.

【0093】なお、上述した図3及び図4では、目的言
語(日本語)については、素性の制約が付されていない
例であるが、当然に素性による制約が付与されていても
良い。また、同じ原言語パターンに対する目的言語パタ
ーンが複数あっても良い。
Although FIGS. 3 and 4 show an example in which the target language (Japanese) is not restricted by the feature, the target language (Japanese) may be naturally restricted by the feature. Further, there may be a plurality of target language patterns for the same source language pattern.

【0094】構文生成部106はまず、構文解析部10
5から構文解析済みの構文木を受け取る(ステップ17
01)。そして、構文生成が必要な木(木部分)がまだ
残っていることを確認してから(ステップ1702)、
パターン辞書109を引いて必要なパターン(ここでは
目的言語パターン)を取り出す(ステップ1703)。
ここでは、複数のパターンが取り出されることがある。
First, the syntax generation unit 106
5 receives the parsed parse tree (step 17)
01). Then, after confirming that a tree (tree portion) requiring syntax generation still remains (step 1702),
A necessary pattern (here, a target language pattern) is extracted by looking up the pattern dictionary 109 (step 1703).
Here, a plurality of patterns may be extracted.

【0095】そして、適用するパターンが決まっていな
い状態で後述するステップ1705が実行されていない
未処理のパターンが残っているか否かを判別する(ステ
ップ1704)。残っていない場合には、上述したステ
ップ1702に戻る。一方、未処理のパターンが残って
いると、構文木とその未処理パターンをパターン検査部
107に渡して制約に適合しているかどうかを検査させ
(ステップ1705)、その検査結果を受け取って検査
結果を判別する(ステップ1706)。
Then, it is determined whether or not an unprocessed pattern for which the step 1705 described below has not been executed remains in a state where the pattern to be applied has not been determined (step 1704). If not, the process returns to step 1702 described above. On the other hand, if an unprocessed pattern remains, the syntax tree and the unprocessed pattern are passed to the pattern checker 107 to check whether the pattern conforms to the constraint (step 1705). Is determined (step 1706).

【0096】なお、従来は素性による制約がないため取
り出したパターンの検査は行なわれないが、この第1の
実施形態では、パターンに制約を付加しているため、上
述したステップ1705のパターン検査が実行される。
この構文生成時のパターン検査の際には、トップダウン
に構文生成を行うので、パターン検査部107は、フロ
ーチャートの図示は省略しているが、構文木のトップノ
ードとパターンの右辺との素性適合を検査する。
In the meantime, conventionally, the extracted pattern is not inspected because there is no restriction due to the feature. However, in the first embodiment, since the pattern is restricted, the pattern inspection in the above-described step 1705 is not performed. Be executed.
At the time of the pattern check at the time of the syntax generation, the syntax generation is performed from the top down, so the pattern inspection unit 107 omits the illustration of the flowchart, but the feature matching between the top node of the syntax tree and the right side of the pattern is performed. To inspect.

【0097】適合していないという検査結果であれば、
上述したステップ1704に戻り、これに対して、対象
となっているパターンが制約に適合している場合には、
その構文木とパターンをパターン適用部108に渡し
て、その構文木にパターンを適用した結果の構文木を受
け取り(ステップ1707)、上述したステップ170
2に戻る。
If the test result is not conforming,
Returning to step 1704 described above, if the target pattern conforms to the constraint,
The syntax tree and the pattern are passed to the pattern application unit 108, and a syntax tree resulting from applying the pattern to the syntax tree is received (step 1707).
Return to 2.

【0098】この際、パターン適用部108が適用させ
るのは、フローチャートの図示は省略しているが、構文
木の各子ノードとパターンの右辺の各要素である(図1
3、図14参照)。また構文木のトップノードの素性情
報をパターンの右辺の中心要素に対応する構文木の子ノ
ードにセットする。これは、トップノードから中心ノー
ドへの素性の伝搬である。
At this time, the pattern application unit 108 applies each child node of the syntax tree and each element on the right side of the pattern, although illustration of the flowchart is omitted (FIG. 1).
3, see FIG. 14). Also, the feature information of the top node of the syntax tree is set to a child node of the syntax tree corresponding to the central element on the right side of the pattern. This is the propagation of features from the top node to the central node.

【0099】ステップ1702〜1707でなる処理ル
ープを繰り返し実行し、構文生成が一通り終ったところ
で、構文生成結果の構文木を作成して形態素生成部10
4に渡す(ステップ1708)。
The processing loop consisting of steps 1702 to 1707 is repeatedly executed, and when the syntax generation has been completed, a syntax tree of the syntax generation result is created, and the morpheme generation unit 10
4 (step 1708).

【0100】形態素生成部104は、従来と同様にし
て、構文生成部106によって生成された構文木に対
し、その素性等を反映しつつ、目的言語での形態素を当
てはめて翻訳結果(訳文)を得、出力部102によって
得られた訳文が出力される。
The morpheme generation unit 104 applies the morpheme in the target language to the syntax tree generated by the syntax generation unit 106 while reflecting the features and the like, and converts the translation result (translated sentence) in the same manner as in the related art. Then, the translated sentence obtained by the output unit 102 is output.

【0101】(A−3)第1の実施形態の効果 第1の実施形態の機械翻訳装置及び機械翻訳方法によれ
ば、以下の効果を奏することができる。
(A-3) Effects of the First Embodiment According to the machine translation device and the machine translation method of the first embodiment, the following effects can be obtained.

【0102】a.従来のパターンに基づく機械翻訳で
は、素性による制約と素性伝搬とがないため、種々の制
約(意味による制約、数や性による制約、構文情報によ
る制約など)をパターンに盛り込もうとすると、制約の
相違毎に非終端記号や終端記号を用意してパターンに書
き下さないといけなかった。そのため、パターン数が膨
大になってしまう。
A. In conventional machine translation based on patterns, there are no restrictions due to features and no feature propagation, so if you try to incorporate various constraints (such as constraints by meaning, constraints by number or gender, or constraints by syntax information) into a pattern, For each difference, a non-terminal symbol or terminal symbol must be prepared and written in the pattern. Therefore, the number of patterns becomes enormous.

【0103】この第1の実施形態によれば、制約を非終
端記号や終端記号に対する付加情報として簡潔な形でパ
ターンに記述できるようになったため、パターンの数を
減らすことができる。また、制約を非終端記号や終端記
号に対する付加情報としてパターンに導入しているの
で、非終端記号や終端記号の種類を多くする必要がな
く、また、付加情報も素性の一般的な表記を適用でき、
その結果、パターンが理解し易いものとなり、パターン
のメインテナンスのコスト(処理時間や記憶容量等)を
激減させることができる。
According to the first embodiment, the constraint can be described in a pattern in a simple form as additional information for a non-terminal symbol or a terminal symbol, so that the number of patterns can be reduced. In addition, since restrictions are introduced in the pattern as additional information for non-terminal symbols and terminal symbols, it is not necessary to increase the types of non-terminal symbols and terminal symbols, and general information of features can be applied to additional information.
As a result, the pattern becomes easy to understand, and the cost of pattern maintenance (processing time, storage capacity, etc.) can be drastically reduced.

【0104】b.従来は、制約処理がなかったために、
他の翻訳手法を組み合わせなければならなかったが、制
約処理を用いることでこまかな翻訳処理も含めて全てを
パターンに基づく翻訳方法で翻訳できるようになった。
そのため、本質的に学習可能な翻訳エンジンが作成でき
る。
B. Previously, there was no constraint processing,
Other translation methods had to be combined, but by using constraint processing, everything including the fine translation processing can now be translated by a pattern-based translation method.
Therefore, a translation engine that can be essentially learned can be created.

【0105】c.パターンの制約情報を、ビット配列デ
ータにして辞書に登録しておくようにしたので、制約に
適合しているか否かのパターン検査や、適用パターンに
応じた構文木の修正等の処理を高速に実行することがで
きる。
C. Since pattern constraint information is registered in the dictionary as bit array data, processing such as pattern inspection to check whether the pattern conforms to the constraint and modification of the syntax tree according to the applied pattern can be performed at high speed. Can be performed.

【0106】(A−4)第1の実施形態の変形実施形態 上記説明では、パターンの表現方法として図2のような
形式を示し、また、素性定義表として図5のような形式
を示したが、同じ情報量があるならば他の表現形式を用
いても良い。
(A-4) Modified Embodiment of First Embodiment In the above description, a format as shown in FIG. 2 is shown as a pattern expressing method, and a format as shown in FIG. 5 is shown as a feature definition table. However, if there is the same amount of information, another expression form may be used.

【0107】また、上記では、素性の表現に、照合や合
成等のし易さを考慮してビット配列データを用いたが、
照合や合成等の処理結果に同じ結果が得られるのなら
ば、他の表現形式を用いても良い。
In the above description, the bit array data is used for expressing the features in consideration of easiness of collation and synthesis.
As long as the same result is obtained as a result of processing such as collation and synthesis, another expression form may be used.

【0108】さらに、上記では、パターン辞書109に
登録する内容を形成する構成要素110〜114をも含
むものを示したが、これら要素を別個の装置に持たせ、
登録されたパターン辞書109を当該機械翻訳装置に移
植するようにしても良い。
Further, in the above description, the components including the components 110 to 114 forming the contents to be registered in the pattern dictionary 109 are shown. However, these components are provided in separate devices,
The registered pattern dictionary 109 may be ported to the machine translation device.

【0109】さらにまた、上記では、素性テーブル11
0はパターン辞書109と別に存在するように示した
が、パターン辞書109内に素性テーブル110を格納
するようにしても良い。
Further, in the above description, the feature table 11
Although 0 is shown as existing separately from the pattern dictionary 109, the feature table 110 may be stored in the pattern dictionary 109.

【0110】(B)第2の実施形態 次に、本発明による自然言語処理装置、自然言語処理方
法、自然言語パターン辞書作成装置及び自然言語パター
ン辞書作成方法を、機械翻訳装置及び機械翻訳方法に適
用した第2の実施形態を図面を参照しながら詳述する。
(B) Second Embodiment Next, a natural language processing apparatus, a natural language processing method, a natural language pattern dictionary creation apparatus and a natural language pattern dictionary creation method according to the present invention are applied to a machine translation apparatus and a machine translation method. The applied second embodiment will be described in detail with reference to the drawings.

【0111】(B−1)第2の実施形態の構成 図18は、第2の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
(B-1) Configuration of the Second Embodiment FIG. 18 is a block diagram showing the functional configuration of a machine translation device according to the second embodiment.

【0112】図18において、第2の実施形態の機械翻
訳装置2は、入力部1801、出力部1802、形態素
解析部1803、形態素生成部1804、構文解析部1
805、構文生成部1806、パターン検査部180
7、パターン適用部1808、パターン辞書1809、
素性テーブル1810、辞書作成部1811、素性テー
ブル作成部1812、辞書ソース1813及び素性定義
表1814からなる。
In FIG. 18, a machine translation apparatus 2 according to the second embodiment includes an input unit 1801, an output unit 1802, a morphological analysis unit 1803, a morphological generation unit 1804, a syntax analysis unit 1
805, syntax generation unit 1806, pattern inspection unit 180
7, pattern application unit 1808, pattern dictionary 1809,
It comprises a feature table 1810, a dictionary creation unit 1811, a feature table creation unit 1812, a dictionary source 1813, and a feature definition table 1814.

【0113】ここで、入力部1801、出力部180
2、形態素解析部1803、形態素生成部1804、構
文解析部1805、構文生成部1806、パターン検査
部1807、パターン辞書1809、辞書作成部181
1、辞書ソース1813は、第1の実施形態の対応要素
と同一のものである。
Here, the input unit 1801 and the output unit 180
2. Morphological analysis unit 1803, morphological generation unit 1804, syntax analysis unit 1805, syntax generation unit 1806, pattern inspection unit 1807, pattern dictionary 1809, dictionary creation unit 181
1. The dictionary source 1813 is the same as the corresponding element of the first embodiment.

【0114】第2の実施形態の場合、素性定義表181
4、素性テーブル作成部1812、素性テーブル181
0及びパターン適用部1808が、第1の実施形態のも
のと異なっている。
In the case of the second embodiment, the feature definition table 181
4. Feature table creation unit 1812, feature table 181
0 and the pattern application unit 1808 are different from those of the first embodiment.

【0115】後述する動作の項で明らかにするが、素性
定義表1814における素性定義が第1の実施形態と異
なっており、それにより、素性テーブル作成部1812
が作成した素性テーブル1810も第1の実施形態のも
のとは異なっている。また、この第2の実施形態の場
合、パターン適用部1808が素性テーブル1810を
も参照する点が異なっている。
As will be clarified in the operation section described later, the feature definition in the feature definition table 1814 is different from that in the first embodiment.
Are also different from those of the first embodiment. The second embodiment is different in that the pattern application unit 1808 also refers to the feature table 1810.

【0116】(B−2)第2の実施形態の動作 次に、素性テーブル1810に格納する内容を形成する
際の動作について説明する。
(B-2) Operation of the Second Embodiment Next, the operation for forming the contents to be stored in the feature table 1810 will be described.

【0117】素性定義表1814は、上述した図6に示
した定義部分に、図19に示す定義部分を加えたものを
素性定義としている。なお、図19ではコメントを省略
している。
In the feature definition table 1814, a feature definition is obtained by adding the definition portion shown in FIG. 19 to the definition portion shown in FIG. In FIG. 19, comments are omitted.

【0118】図19に示した部分は、非終端記号及び終
端記号(構文カテゴリー;構文木要素;categor
y)の定義とそれが取り得る素性名の定義である。
The parts shown in FIG. 19 are non-terminal symbols and terminal symbols (syntax category; syntax tree element;
The definition of y) and the definition of the feature name that it can take.

【0119】*の行は、全ての非終端記号及び終端記号
が取り得る素性名の定義行であり、その素性名が標準
形、出現形及び品詞を規定している。
The line marked * is a definition line for feature names that can be taken by all non-terminal symbols and terminal symbols, and the feature names define the standard form, the appearance form, and the part of speech.

【0120】””の行は、終端記号が取り得る素性名で
あり、活用形を示している。
The line "" is a feature name that can be taken by a terminal symbol, and indicates a utilization form.

【0121】NPの行は、非終端記号名NP(名詞句)
が取り得る素性名を定義しており、その素性名は数素性
及び意味素性である。VPの行は、非終端記号名VP
(動詞句)が取り得る素性名を定義しており、その素性
名は数素性及び意味素性である。Sの行は、非終端記号
名S(文)が取り得る素性名を定義しており、その素性
名は数素性及び文型素性である。
The line of NP is a nonterminal symbol name NP (noun phrase)
Defines the possible feature names, which are numeric and semantic features. The VP line is the non-terminal symbol name VP
(Verb phrase) defines possible feature names, which are numeric features and semantic features. The row of S defines a feature name that can be taken by the non-terminal symbol name S (sentence), and the feature names are a numeric feature and a sentence pattern feature.

【0122】以上のように、第2の実施形態では、非終
端記号及び終端記号の種類によって、制約し得る素性名
を定義している。
As described above, in the second embodiment, feature names that can be restricted are defined according to the types of non-terminal symbols and terminal symbols.

【0123】NPの行などは、素性の伝搬の際に、伝搬
先の非終端記号や終端記号が取り得る素性のみ伝搬させ
ることを意図した定義である。このように指定した素性
のみが伝搬するようにすれば、不要な素性が伝搬せず、
必要な情報のみが構文木に載ることになり、理解しやす
く、無駄もない。また、多数の構文解析候補が構文解析
中に存在するときに、同じ素性を持つトップノードを持
つ構文解析木はマージして構文解析のコストを大幅に削
減することができるが、不要な素性が伝搬するためにマ
ージできないことがよくある。素性の伝搬の制限は、こ
の不要な素性のためにマージができないという問題をも
解決することができ、大幅な処理効率の向上につなが
る。
The NP row and the like are definitions intended to propagate only the features that can be taken by the non-terminal symbol or terminal symbol at the propagation destination when the feature is propagated. If only the specified features are propagated in this way, unnecessary features are not propagated,
Only the necessary information is included in the syntax tree, which is easy to understand and lean. Also, when a large number of parsing candidates are present during parsing, a parse tree having top nodes with the same feature can be merged to greatly reduce the cost of parsing, but unnecessary features are eliminated. Often, merging is not possible due to propagation. Restriction of feature propagation can also solve the problem that merging cannot be performed due to this unnecessary feature, and leads to a significant improvement in processing efficiency.

【0124】素性テーブル作成部1812は、図19の
定義部分に対して、図20に示すような非終端記号や終
端記号毎の素性マスク(ビット配列データ)を作成し
て、素性テーブル1810に格納する。なお、素性テー
ブル作成部1812は、第1の実施形態で説明した図7
に示すような対応表(この第2の実施形態では図20に
示下と同様な、ビット値を挿入できる箱)を作成して素
性テーブル1810に格納することも行っている。
The feature table creation unit 1812 creates a feature mask (bit array data) for each non-terminal symbol or terminal symbol as shown in FIG. 20 for the defined portion in FIG. 19, and stores it in the feature table 1810. . Note that the feature table creation unit 1812 performs the processing shown in FIG. 7 described in the first embodiment.
20 (in this second embodiment, a box into which bit values can be inserted as shown in FIG. 20) and store it in the feature table 1810.

【0125】図20に示すものは、各非終端記号毎と終
端記号に対して、伝搬する素性マスクである。伝搬する
際に素性データをこれでマスクすれば必要なもののみが
伝搬されるしくみとなる。
FIG. 20 shows a feature mask that propagates for each non-terminal symbol and for each terminal symbol. If the feature data is masked with this when propagating, only the necessary ones are propagated.

【0126】図20において、NPの素性マスク(ビッ
ト配列データ)は、図19の素性定義から、NPにおけ
る値をとる素性は品詞素性(図19の1行目による)、
数素性(図19の3行目による)及び意味素性(図19
の3行目による)であるので、これらを伝搬し得るよう
にしている。なお、意味素性の要素は6個としている。
Sの素性マスク(ビット配列データ)は、図19の素性
定義から、Sにおける値をとる素性は品詞素性、数素性
及び文型素性であるので、これらを伝搬し得るようにし
ている。なお、文型素性の要素は2個としている。VP
の素性マスクは、図示していないが、図示した場合に
は、NPと同様になる。
In FIG. 20, the feature mask (bit array data) of NP is based on the feature definition of FIG. 19, and the features taking values in NP are the part of speech features (according to the first line of FIG. 19).
Numerical features (according to the third line in FIG. 19) and semantic features (FIG. 19)
In the third line), so that these can be propagated. The number of semantic feature elements is six.
The feature mask of S (bit array data) can be propagated because the features taking values in S are part of speech features, numeric features and sentence features from the feature definitions in FIG. It should be noted that there are two elements of the sentence pattern feature. VP
Is not shown, but in the case shown, it is the same as NP.

【0127】図21は、第2の実施形態の構文解析時で
のパターン適用部1808の処理を示すフローチャート
である。パターン適用部1808の処理は、上述したス
テップ1107(図11参照)の処理に対応している。
FIG. 21 is a flowchart showing the processing of the pattern application unit 1808 during syntax analysis according to the second embodiment. The processing of the pattern applying unit 1808 corresponds to the processing of step 1107 (see FIG. 11) described above.

【0128】パターン適用部1808は構文木とパター
ンを受け取り(ステップ2101)、パターンの中心ノ
ードに対応する構文木の子ノードの素性を構文木のトッ
プノードにセットする(ステップ2102)。但し、そ
の際、素性テーブル1810からセット先の非終端記号
や終端記号の素性マスク(図20)を取り出し、子ノー
ドの素性をこの素性マスクでマスクしてから伝搬させ
る。同様に、パターンの左辺の素性情報を構文木のトッ
プノードに追加する際も、素性マスクでマスクしてから
追加する(ステップ2103)。
The pattern application unit 1808 receives the syntax tree and the pattern (step 2101), and sets the features of the child nodes of the syntax tree corresponding to the central node of the pattern to the top node of the syntax tree (step 2102). However, at this time, the feature mask (FIG. 20) of the non-terminal symbol or terminal symbol of the set destination is extracted from the feature table 1810, and the feature of the child node is masked by this feature mask before propagation. Similarly, when adding the feature information on the left side of the pattern to the top node of the syntax tree, it is added after masking with the feature mask (step 2103).

【0129】なお、ステップ2102及び2103のマ
スク処理は一度に行なっても構わない。また、素性マス
クは、パターン適用部1808に内蔵させておくように
しても良い。
The mask processing in steps 2102 and 2103 may be performed at once. The feature mask may be built in the pattern application unit 1808.

【0130】また、フローチャートの図示は省略してい
るが、構文生成時において、パターン適用部108が適
用させるのは、構文木の各子ノードとパターンの右辺の
各要素である。また構文木のトップノードの素性情報を
パターンの右辺の中心要素に対応する構文木の子ノード
にセットする。この際にも、図20に示すような素性マ
スクによって、非終端記号や終端記号毎に、その適用範
囲を規定する。
Although illustration of the flowchart is omitted, the pattern applying unit 108 applies each child node of the syntax tree and each element on the right side of the pattern at the time of generating the syntax. Also, the feature information of the top node of the syntax tree is set to a child node of the syntax tree corresponding to the central element on the right side of the pattern. Also at this time, the applicable range is defined for each non-terminal symbol or terminal symbol by a feature mask as shown in FIG.

【0131】(B−3)第2の実施形態の効果 第2の実施形態の機械翻訳装置及び機械翻訳方法によっ
ても、第1の実施形態と同様な効果a〜cを奏すること
ができる。第2の実施形態によれば、さらに、以下の効
果を奏することができる。
(B-3) Effects of the Second Embodiment The same effects a to c as those of the first embodiment can be obtained by the machine translation apparatus and the machine translation method of the second embodiment. According to the second embodiment, the following effects can be further obtained.

【0132】d.指定した素性のみが伝般するようにす
れば、不要な素性が伝搬せず、必要な情報のみが構文木
に載ることになり、理解しやすく、無駄もない。
D. If only the specified features are transmitted, unnecessary features are not propagated, and only necessary information is included in the syntax tree, which is easy to understand and wasteful.

【0133】e.多数の構文解析候補が構文解析中に存
在するときに、同じ素性を持つトップノードを持つ構文
解析木はマージして構文解析のコストを大幅に削減する
ことができるが、不要な素性が伝搬するためにマージで
きないことがよくある。素性の伝搬の制限は、この不要
な素性のためにマージができないという問題をも解決す
ることができ、大幅な処理効率の向上につながる。
E. When a large number of parsing candidates exist during parsing, parse trees with top nodes with the same feature can be merged to greatly reduce the cost of parsing, but unnecessary features are propagated Often cannot be merged. Restriction of feature propagation can also solve the problem that merging cannot be performed due to this unnecessary feature, and leads to a significant improvement in processing efficiency.

【0134】(B−4)第2の実施形態の変形実施形態 辞書作成部1811が、素性テーブル1810にある素
性マスクの情報を用いて、不適当な素性をパターンでの
非終端記号や終端記号に付加されているか否かの確認を
行い、不適当な素性が付加されているときに、それをエ
ラーとして表示して、辞書作成者に訂正を促す用にして
も良い。
(B-4) Modified Embodiment of Second Embodiment The dictionary creating unit 1811 uses the feature mask information in the feature table 1810 to convert an inappropriate feature into a non-terminal symbol or terminal symbol in a pattern. It is also possible to confirm whether or not it has been added, and when an inappropriate feature has been added, display it as an error and prompt the dictionary creator to correct it.

【0135】また、辞書作成部1811が、素性テーブ
ル1810にある素性マスクの情報を用いて、未定義の
非終端記号を用いていることを検出し、辞書作成者に訂
正を促すようにしても良い。これによって、非終端記号
のスペルミスなどを防ぐことができる。
Further, the dictionary creating unit 1811 may detect the use of an undefined non-terminal symbol by using the information of the feature mask in the feature table 1810 and prompt the dictionary creator to make correction. . This can prevent misspellings of non-terminal symbols.

【0136】さらに、素性定義表として図19のような
形式を示したが、同じ情報量があるなら他の表現形式を
用いても良く、また、素性マスクの表現も、図20に示
したビット配列データに限定されず、同じ処理結果が得
られるのならば、他の表現形式を用いても良い。
Further, the format as shown in FIG. 19 is shown as the feature definition table. However, if there is the same information amount, another expression format may be used. The present invention is not limited to the array data, and another expression format may be used as long as the same processing result is obtained.

【0137】さらにまた、非終端記号や終端記号毎に定
義された制約し得る素性名だけを伝搬制御する方法は、
素性マスクを利用する方法以外の方法で行っても良い。
Furthermore, a method of controlling propagation of only non-terminal symbols and restrictable feature names defined for each terminal symbol is as follows.
This may be performed by a method other than the method using the feature mask.

【0138】(C)第3の実施形態 次に、本発明による自然言語処理装置、自然言語処理方
法、自然言語パターン辞書作成装置及び自然言語パター
ン辞書作成方法を、機械翻訳装置及び機械翻訳方法に適
用した第3の実施形態を図面を参照しながら詳述する。
(C) Third Embodiment Next, a natural language processing apparatus, a natural language processing method, a natural language pattern dictionary creation apparatus and a natural language pattern dictionary creation method according to the present invention are applied to a machine translation apparatus and a machine translation method. A third embodiment applied will be described in detail with reference to the drawings.

【0139】(C−1)第3の実施形態の構成 図22は、第2の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
(C-1) Configuration of Third Embodiment FIG. 22 is a block diagram showing a functional configuration of a machine translation apparatus according to the second embodiment.

【0140】図22において、第3の実施形態の機械翻
訳装置3は、入力部2201、出力部2202、形態素
解析部2203、形態素生成部2204、構文解析部2
205、構文生成部2206、パターン検査部220
7、パターン適用部2208、パターン辞書2209、
素性テーブル2210、辞書作成部2211、素性テー
ブル作成部2212、辞書ソース2213、素性定義表
2214及びコンテキストデータ格納部2215からな
る。
In FIG. 22, a machine translation apparatus 3 according to the third embodiment includes an input unit 2201, an output unit 2202, a morphological analysis unit 2203, a morphological generation unit 2204, and a syntax analysis unit 2.
205, syntax generation unit 2206, pattern inspection unit 220
7, pattern application unit 2208, pattern dictionary 2209,
It comprises a feature table 2210, a dictionary creation unit 2211, a feature table creation unit 2212, a dictionary source 2213, a feature definition table 2214, and a context data storage unit 2215.

【0141】すなわち、構成要素として、パターン検査
部2207とパターン適用部2208が用いるコンテキ
ストデータ格納部2215が第2の実施形態に追加され
ている。また、第2の実施形態と比較した場合、その機
能が多少変更されているものは、素性定義表2214、
素性テーブル作成部2212、素性テーブル2210、
パターン検査部2207及びパターン適用部2208で
あり、他の構成要素は、第2の実施形態の対応するもの
と同様である。
That is, a context data storage unit 2215 used by the pattern inspection unit 2207 and the pattern application unit 2208 is added to the second embodiment as a component. Further, when compared with the second embodiment, those whose functions are slightly changed are the feature definition table 2214,
Feature table creation unit 2212, feature table 2210,
A pattern inspection unit 2207 and a pattern application unit 2208 are the same as the corresponding components of the second embodiment.

【0142】(C−2)第3の実施形態の動作 この第3の実施形態の場合、翻訳パターンは、素性値に
変数(以下、素性変数と呼ぶ)を含むこともあり得る。
図23は、素性変数を含む翻訳パターンの例を示してい
る。図23において、num={NUM}は、素性名n
umの素性値としてNUMという素性変数が適用されて
いることを表している。このような素性変数NUMを適
用することにより、図23の例では、パターン上の右辺
要素NP及びVPにおいて、素性名numの素性値が共
通値であるという制約を付与していることを意味する。
なお、この素性変数部分には、例えば、構文解析時であ
れば、パターン適用部2208によるボトムアップの素
性伝搬処理によって、具体的な素性値が挿入される。
(C-2) Operation of Third Embodiment In the case of the third embodiment, the translation pattern may include a variable in the feature value (hereinafter, referred to as a feature variable).
FIG. 23 shows an example of a translation pattern including a feature variable. In FIG. 23, num = {NUM} is a feature name n
This indicates that the feature variable NUM is applied as the feature value of um. By applying such a feature variable NUM, in the example of FIG. 23, it is meant that a constraint that the feature value of the feature name num is a common value is given to the right side elements NP and VP on the pattern. .
Note that, for example, at the time of syntax analysis, a specific feature value is inserted into the feature variable portion by bottom-up feature propagation processing by the pattern application unit 2208.

【0143】素性定義表2214には、図24のような
定義が含まれていても良い。これは、第1の実施形態に
係る図6に示す「数」の記述の追加であり、素性変数を
利用できる素性名の定義である。素性変数を導入したこ
とにより、同一素性でも区別したいことが多くなると推
測され、そのため、同一素性に対して複数の素性名を付
与している。すなわち、図24は、numとsNumと
oNumが同じ値をとり、同じ素性変数でチェックでき
ることを意味する。このように素性定義表で=で結んで
いない素性同士は同じ素性変数を用いることはできな
い。もちろん、同じ素性名同士は同じ素性変数を用いる
ことができる。
The feature definition table 2214 may include a definition as shown in FIG. This is an addition of the description of “number” shown in FIG. 6 according to the first embodiment, and is a definition of a feature name that can use a feature variable. It is presumed that the introduction of the feature variable makes it easy to distinguish even the same feature, and therefore, a plurality of feature names are assigned to the same feature. That is, FIG. 24 means that num, sNum, and oNum have the same value and can be checked with the same feature variable. As described above, features that are not connected by = in the feature definition table cannot use the same feature variable. Of course, the same feature name can use the same feature variable.

【0144】素性テーブル作成部2212は、このよう
な素性変数用の定義を読み込むと、図25の下側に記述
したようなビット配列データを素性テーブル2210に
書き出す。ここで、素性変数にはいずれの値(sg、p
l)が挿入されるかわからないので共に1にしておく。
また、オフセット値は、その素性変数の本来のビット配
列データ(例えば、第1の実施形態に係る図7)での位
置を示している。辞書作成部2211は、辞書ソース2
213からの翻訳パターンに素性変数があれば、図25
に示すような置き換えを行う。
When reading the definition for the feature variable, the feature table creation unit 2212 writes the bit array data as described on the lower side of FIG. 25 to the feature table 2210. Here, any value (sg, p
Since 1) is not known to be inserted, both are set to 1.
The offset value indicates the position of the feature variable in the original bit array data (for example, FIG. 7 according to the first embodiment). The dictionary creation unit 2211 stores the dictionary source 2
If the translation pattern from 213 has a feature variable,
Replacement as shown in

【0145】パターン検査部2207は、素性の制約を
検査する際、素性変数が使われていれば、その素性値を
コンテキストデータ格納部2215に格納する。また、
格納する際、既に同じ変数名のコンテキストデータがあ
った場合、そのコンテキストデータ格納部2215にあ
る変数値とAND(ビット論理積)をとり、その結果が
全て0になったら、制約に不適合とする。1ビットでも
残れば、その結果をコンテキストデータ格納部2215
に格納し直す。
The pattern inspection unit 2207 stores the feature value in the context data storage unit 2215 when the feature variable is used when checking the feature constraint. Also,
At the time of storing, if there is already context data with the same variable name, the variable value in the context data storage unit 2215 is ANDed (bit ANDed), and if all the results become 0, it is determined that the constraint is not satisfied. . If even one bit remains, the result is stored in the context data storage unit 2215.
Store again.

【0146】パターン適用部2208は、素性変数が使
われていれば、コンテキストデータ格納部2215から
その変数名のデータを取り出し、セットするノードの値
配列の図25で示されたオフセットの場所に、コンテキ
ストデータを図25の配列の大きさだけセットする。
If the feature variable is used, the pattern application unit 2208 fetches the data of the variable name from the context data storage unit 2215, and puts the data at the offset position shown in FIG. 25 of the value array of the node to be set. The context data is set by the size of the array in FIG.

【0147】(C−3)第3の実施形態の効果 第3の実施形態の機械翻訳装置及び機械翻訳方法によっ
ても、既述の実施形態と同様な効果a〜eを奏すること
ができる。第3の実施形態によれば、さらに、以下の効
果を奏することができる。
(C-3) Effects of the Third Embodiment The same effects a to e as those of the above-described embodiment can be obtained by the machine translation apparatus and the machine translation method of the third embodiment. According to the third embodiment, the following effects can be further obtained.

【0148】f.右辺のあるノードとあるノードのある
素性の値を同じにしたいとき、第3の実施形態がなかっ
た場合、素性とり得る値の数だけパターンが必要だっ
た。しかし、素性変数を用いると、1つのパターンで書
くことができ、構文解析などの速度を速め、メインテナ
ンスコストも大幅に下げることができる。
F. When it is desired to make the value of a certain feature of a certain node on the right side the same as that of a certain node, in the absence of the third embodiment, patterns are required by the number of possible values of the feature. However, if the feature variables are used, writing can be performed in one pattern, the speed of syntax analysis and the like can be increased, and the maintenance cost can be significantly reduced.

【0149】(C−4)第3の実施形態の変形実施形態 翻訳パターンとして図23のような形式を示したが、同
じ情報量があるなら他の表現形式を用いても良い。素性
定義表として図24のような形式を示したが、同じ情報
量があるなら他の表現形式を用いても良い。素性変数の
表現に図25に示したビット配列データを用いたが、同
じ結果が得られるのならば、他の表現形式を用いても良
い。
(C-4) Modified Embodiment of Third Embodiment Although a format as shown in FIG. 23 is shown as a translation pattern, another expression format may be used as long as the same information amount is present. Although the format as shown in FIG. 24 is shown as the feature definition table, another expression format may be used if the same information amount is present. Although the bit array data shown in FIG. 25 is used for expressing the feature variables, other expression forms may be used as long as the same result is obtained.

【0150】(D)他の実施形態 上記各実施形態は、翻訳パターンを利用した機械翻訳装
置及び方法に本発明を適用したものを示したが、上記各
実施形態は、構文解析処理や構文生成処理のそれぞれの
処理に特徴があり、そのため、上記各実施形態の技術思
想を他の自然言語処理装置や方法に適用することができ
る。例えば、質疑応答装置で回答文をパターン(自然言
語パターン)を用いて構文解析するまでの部分に本発明
の技術思想を適用することができる。また回答文に応じ
たさらなる質問文の構文木から構文生成処理する場合に
も、本発明の技術思想を適用することができる。
(D) Other Embodiments In each of the above embodiments, the present invention has been applied to the machine translation apparatus and method using a translation pattern. Each process has a feature, and therefore, the technical idea of each of the above embodiments can be applied to other natural language processing devices and methods. For example, the technical idea of the present invention can be applied to a part until the answer sentence is parsed using a pattern (natural language pattern) by the question and answer apparatus. Also, the technical idea of the present invention can be applied to a case where syntax generation processing is performed from a syntax tree of a further question sentence according to an answer sentence.

【0151】また、構文解析処理だけを含む自然言語処
理装置及び方法や、構文生成処理だけを含む自然言語処
理装置及び方法にも、本発明を適用することができる。
Further, the present invention can be applied to a natural language processing apparatus and method including only syntax analysis processing, and a natural language processing apparatus and method including only syntax generation processing.

【0152】[0152]

【発明の効果】本発明によれば、文法規則に係る自然言
語パターンに制約を加えることができ、加えたとして
も、辞書の大容量化を避けることができる、構文解析や
構文生成等を自然言語パターンを利用して行う自然言語
処理装置や自然言語処理方法を実現できる。
According to the present invention, it is possible to add restrictions to natural language patterns related to grammar rules, and even if added, it is possible to avoid an increase in the size of the dictionary. A natural language processing device and a natural language processing method using a language pattern can be realized.

【0153】また、本発明によれば、それらの自然言語
処理装置や自然言語処理方法に好適な自然言語パターン
作成装置及び自然言語パターン作成方法を実現できる。
Further, according to the present invention, a natural language pattern creating device and a natural language pattern creating method suitable for the natural language processing device and the natural language processing method can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1の実施形態の機械翻訳装置の機能的構成を
示すブロック図である。
FIG. 1 is a block diagram illustrating a functional configuration of a machine translation device according to a first embodiment.

【図2】翻訳パターンの原則的な構成例を示す説明図で
ある。
FIG. 2 is an explanatory diagram showing a basic configuration example of a translation pattern.

【図3】素性による制約が付加されていない翻訳パター
ンの一例を示す説明図である。
FIG. 3 is an explanatory diagram showing an example of a translation pattern to which no restriction by a feature is added.

【図4】第1の実施形態の素性による制約が付加されて
いる翻訳パターンの一例を示す説明図である。
FIG. 4 is an explanatory diagram illustrating an example of a translation pattern to which a restriction based on a feature according to the first embodiment is added;

【図5】第1の実施形態の素性テーブル作成部112の
動作を示すフローチャートである。
FIG. 5 is a flowchart illustrating an operation of a feature table creation unit 112 according to the first embodiment.

【図6】第1の実施形態の素性定義例を示す説明図であ
る。
FIG. 6 is an explanatory diagram illustrating an example of a feature definition according to the first embodiment;

【図7】第1の実施形態の素性名と素性値との組への番
号付与例を示す説明図である。
FIG. 7 is an explanatory diagram showing an example of assigning a number to a set of a feature name and a feature value according to the first embodiment;

【図8】第1の実施形態の素性による制約種類例を示す
説明図である。
FIG. 8 is an explanatory diagram illustrating an example of a constraint type based on features according to the first embodiment.

【図9】第1の実施形態の辞書作成部111の動作を示
すフローチャートである。
FIG. 9 is a flowchart illustrating an operation of the dictionary creation unit 111 according to the first embodiment.

【図10】第1の実施形態の素性による制約のビット配
列データ例を示す説明図である。
FIG. 10 is an explanatory diagram illustrating an example of bit array data of restrictions due to features according to the first embodiment.

【図11】第1の実施形態の構文解析部105の処理を
示すフローチャートである。
FIG. 11 is a flowchart illustrating processing of the syntax analysis unit 105 according to the first embodiment.

【図12】第1の実施形態のパターン検査部107の処
理を示すフローチャートである。
FIG. 12 is a flowchart illustrating a process of a pattern inspection unit 107 according to the first embodiment.

【図13】第1の実施形態のビット配列データを用いた
制約適合性の判断方法の説明図(1)である。
FIG. 13 is an explanatory diagram (1) of a method for determining constraint suitability using bit array data according to the first embodiment;

【図14】第1の実施形態のビット配列データを用いた
制約適合性の判断方法の説明図(2)である。
FIG. 14 is an explanatory diagram (2) of a method of determining constraint suitability using bit array data according to the first embodiment.

【図15】第1の実施形態のパターン適用部108の処
理を示すフローチャートである。
FIG. 15 is a flowchart illustrating processing of a pattern application unit according to the first embodiment.

【図16】第1の実施形態のパターン適用部108の具
体的処理方法の説明図である。
FIG. 16 is an explanatory diagram of a specific processing method of the pattern application unit according to the first embodiment.

【図17】第1の実施形態の構文生成部106の処理を
示すフローチャートである。
FIG. 17 is a flowchart illustrating processing of a syntax generation unit 106 according to the first embodiment.

【図18】第2の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
FIG. 18 is a block diagram illustrating a functional configuration of a machine translation device according to a second embodiment.

【図19】第2の実施形態の素性定義例を示す説明図で
ある。
FIG. 19 is an explanatory diagram illustrating an example of a feature definition according to the second embodiment.

【図20】第2の実施形態の素性マスク例を示す説明図
である。
FIG. 20 is an explanatory diagram illustrating an example of a feature mask according to the second embodiment.

【図21】第2の実施形態のパターン適用部1808の
処理を示すフローチャートである。
FIG. 21 is a flowchart illustrating processing of a pattern application unit 1808 according to the second embodiment.

【図22】第3の実施形態の機械翻訳装置の機能的構成
を示すブロック図である。
FIG. 22 is a block diagram illustrating a functional configuration of a machine translation device according to a third embodiment.

【図23】第3の実施形態の素性変数を含む翻訳パター
ン例を示す説明図である。
FIG. 23 is an explanatory diagram illustrating an example of a translation pattern including feature variables according to the third embodiment.

【図24】第3の実施形態の素性変数に係る素性定義の
説明図である。
FIG. 24 is an explanatory diagram of a feature definition related to a feature variable according to the third embodiment.

【図25】第3の実施形態の素性変数に係るビット配列
データの説明図である。
FIG. 25 is an explanatory diagram of bit array data relating to a feature variable according to the third embodiment.

【符号の説明】[Explanation of symbols]

1、2、3…機械翻訳装置、 105、1805、2205…構文解析部、 106、1806、2206…構文生成部、 107、1807、2207…パターン検査部、 108、1808、2208…パターン適用部、 109、1809、2209…パターン辞書、 110、1810、2210…素性テーブル、 111、1811、2211…辞書作成部、 112、1812、2212…素性テーブル作成部、 113、1813、2213…辞書ソース、 114、1814、2214…素性定義表、 2215…コンテキストデータ格納部。 1, 2, 3 ... machine translation device, 105, 1805, 2205 ... syntax analysis unit, 106, 1806, 2206 ... syntax generation unit, 107, 1807, 2207 ... pattern inspection unit, 108, 1808, 2208 ... pattern application unit, 109, 1809, 2209 ... pattern dictionary, 110, 1810, 2210 ... feature table, 111, 1811, 2211 ... dictionary creation unit, 112, 1812, 2212 ... feature table creation unit, 113, 1813, 2213 ... dictionary source, 114, 1814, 2214 ... feature definition table, 2215 ... context data storage unit.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 下畑 さより 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 佐々木 美樹 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 福居 毅至 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 渕上 正睦 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 Fターム(参考) 5B091 AA06 AA15 BA03 CA02 CA05 CA24 CC01 CC04 CC15  ────────────────────────────────────────────────── ─── Continuing from the front page (72) Inventor Sayori Shibatata 1-7-12 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. (72) Miki Sasaki 1-7-112 Toranomon, Minato-ku, Tokyo Inside Electric Industry Co., Ltd. (72) Inventor Takeshi Fukui 1-7-12 Toranomon, Minato-ku, Tokyo Oki Electric Industry Co., Ltd. F term in Industrial Co., Ltd. (reference) 5B091 AA06 AA15 BA03 CA02 CA05 CA24 CC01 CC04 CC15

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 言語名、左辺、右辺の並びから構成され
た自然言語パターンを利用して、構文解析、及び又は、
構文生成を行う自然言語処理装置において、 予めパターン辞書に用意されている上記自然言語パター
ンの全て又は一部は、左辺及び又は右辺に、素性による
制約、及び、素性伝搬時の中心のパターン要素を規定す
る中心要素情報を有すると共に、 予めパターン辞書に用意されている上記自然言語パター
ンから、構文解析、及び又は、構文生成時の処理での候
補として抽出された自然言語パターンが木構造に適合し
ているか否かを、素性による制約面からも検査するパタ
ーン検査手段と、 適合する場合に、その自然言語パターンを木構造に適用
すると共に、その自然言語パターンが中心要素情報を有
するときに素性による制約を伝搬させるパターン適用手
段とを有することを特徴とする自然言語処理装置。
1. A syntax analysis and / or a natural language pattern composed of a sequence of a language name, a left side, and a right side.
In a natural language processing apparatus that performs syntax generation, all or a part of the natural language pattern prepared in advance in the pattern dictionary includes, on the left side and / or the right side, a constraint by a feature and a pattern element at the time of feature propagation. The natural language pattern having the specified core element information and the natural language pattern extracted from the natural language pattern prepared in the pattern dictionary in advance as a candidate in the syntax analysis and / or the processing at the time of syntax generation conforms to the tree structure. A natural language pattern is applied to the tree structure if it matches, and if the natural language pattern has central element information, A natural language processing apparatus comprising: a pattern application unit that propagates a constraint.
【請求項2】 上記パターン適用手段は、素性情報を伝
搬させる際に、予め非終端記号、終端記号毎に定まって
いる定義に従って、伝搬させる素性を制限することを特
徴とする請求項1に記載の自然言語処理装置。
2. The feature according to claim 1, wherein the pattern application unit limits the feature to be propagated according to a definition predetermined for each of the non-terminal symbol and the terminal symbol when the feature information is propagated. Natural language processor.
【請求項3】 自然言語パターンにおける素性の制約と
して素性変数をも適用し、上記パターン検査手段及び上
記パターン適用手段は、素性変数に対してのパターン適
合検査やパターン適用を行なうことを特徴とする請求項
1又は2に記載の自然言語処理装置。
3. The method according to claim 1, wherein a feature variable is also applied as a feature constraint in the natural language pattern, and the pattern inspection means and the pattern application means perform pattern matching inspection and pattern application on the feature variable. The natural language processing device according to claim 1.
【請求項4】 パターン辞書に登録されている上記自然
言語パターンは、その素性の制約情報を論理演算が実行
し易い形式で保持するものであることを特徴とする請求
項1〜3のいずれかに記載の自然言語処理装置。
4. The natural language pattern registered in the pattern dictionary holds feature restriction information in a format in which a logical operation can be easily executed. The natural language processing device according to 1.
【請求項5】 言語名、左辺、右辺の並びから構成され
た自然言語パターンを利用して、構文解析、及び又は、
構文生成を行う自然言語処理方法において、 予めパターン辞書に用意されている上記自然言語パター
ンの全て又は一部は、左辺及び又は右辺に、素性による
制約、及び、素性伝搬時の中心のパターン要素を規定す
る中心要素情報を有すると共に、 予めパターン辞書に用意されている上記自然言語パター
ンから、構文解析、及び又は、構文生成時の処理での候
補として抽出された自然言語パターンが木構造に適合し
ているか否かを、素性による制約面からも検査するパタ
ーン検査工程と、 適合する場合に、その自然言語パターンを木構造に適用
すると共に、その自然言語パターンが中心要素情報を有
するときに素性による制約を伝搬させるパターン適用工
程とを有することを特徴とする自然言語処理方法。
5. A syntax analysis and / or a natural language pattern composed of a sequence of a language name, a left side, and a right side.
In the natural language processing method for generating a syntax, all or a part of the natural language pattern prepared in advance in the pattern dictionary includes, on the left side and / or the right side, a constraint by a feature and a pattern element at the center when the feature is propagated. A natural language pattern having specified central element information and extracted from the natural language pattern prepared in advance in the pattern dictionary as a candidate in a syntax analysis and / or a process at the time of syntax generation conforms to a tree structure. The natural language pattern is applied to the tree structure if it matches, and if the natural language pattern has the core element information, A pattern application step of propagating constraints.
【請求項6】 上記パターン適用工程は、素性情報を伝
搬させる際に、予め非終端記号、終端記号毎に定まって
いる定義に従って、伝搬させる素性を制限することを特
徴とする請求項1に記載の自然言語処理方法。
6. The pattern applying step according to claim 1, wherein, when the feature information is propagated, the feature to be propagated is limited according to a definition predetermined for each of the non-terminal symbol and the terminal symbol. Natural language processing method.
【請求項7】 自然言語パターンにおける素性の制約と
して素性変数をも適用し、上記パターン検査工程及び上
記パターン適用工程は、素性変数に対してのパターン適
合検査やパターン適用を行なうことを特徴とする請求項
5又は6に記載の自然言語処理方法。
7. A method according to claim 7, wherein a feature variable is also applied as a feature constraint in the natural language pattern, and the pattern inspection step and the pattern application step perform pattern matching inspection and pattern application on the feature variable. The natural language processing method according to claim 5.
【請求項8】 パターン辞書に登録されている上記自然
言語パターンは、その素性の制約情報を論理演算が実行
し易い形式で保持するものであることを特徴とする請求
項5〜7のいずれかに記載の自然言語処理方法。
8. The natural language pattern registered in a pattern dictionary holds feature restriction information in a format in which a logical operation can be easily executed. Natural language processing method described in 1.
【請求項9】 言語名、左辺、右辺の並びから構成され
た自然言語パターンを利用して、構文解析、及び又は、
構文生成を行う自然言語処理装置に適用されるパターン
辞書を作成する自然言語パターン辞書作成装置におい
て、 左辺及び又は右辺に、素性による制約、及び、素性伝搬
時の中心のパターン要素を規定する中心要素情報を有す
ることがある、全てテキストデータで既述されている自
然言語パターンを格納しているソース辞書と、 このソース辞書から読み出した自然言語パターンの素性
制約情報を、論理演算が実行し易い形式の素性制約デー
タに変換して上記パターン辞書に格納する制約情報形式
変換手段とを有することを特徴とする自然言語パターン
辞書作成装置。
9. A syntax analysis and / or a natural language pattern composed of a sequence of a language name, a left side, and a right side.
In a natural language pattern dictionary creating apparatus that creates a pattern dictionary applied to a natural language processing apparatus that performs syntax generation, a central element that defines a constraint by a feature and a central pattern element at the time of feature propagation on a left side and / or a right side. A source dictionary storing natural language patterns, which are all described in text data, which may have information, and feature constraint information of the natural language patterns read from the source dictionary, in a format in which logical operations can be easily executed. A natural language pattern dictionary creation device, comprising: a constraint information format conversion unit that converts the data into feature constraint data and stores it in the pattern dictionary.
【請求項10】 上記制約情報形式変換手段は、 制約に用いる素性名及び素性値でなる素性情報の定義情
報を格納している素性定義格納部と、 その定義情報に基づいて、論理演算が実行し易い形式の
データフォーマットを決定する素性制約データフォーマ
ット決定部と、 決定されたデータフォーマットに従って、自然言語パタ
ーンの素性制約情報を、論理演算が実行し易い形式の素
性制約データに変換する変換部とを有することを特徴と
する請求項9に記載の自然言語パターン辞書作成装置。
10. The constraint information format conversion means includes: a feature definition storage unit that stores feature information definition information including feature names and feature values used for constraints; and executes a logical operation based on the definition information. A feature constraint data format determination unit that determines a data format in a format that is easy to perform, and a conversion unit that converts feature constraint information of a natural language pattern into feature constraint data in a format that is easy to perform a logical operation according to the determined data format. 10. The natural language pattern dictionary creating apparatus according to claim 9, comprising:
【請求項11】 言語名、左辺、右辺の並びから構成さ
れた自然言語パターンを利用して、構文解析、及び又
は、構文生成を行う自然言語処理装置に適用されるパタ
ーン辞書を作成する自然言語パターン辞書作成方法にお
いて、 左辺及び又は右辺に、素性による制約、及び、素性伝搬
時の中心のパターン要素を規定する中心要素情報を有す
ることがある、全てテキストデータで既述されている自
然言語パターンを格納しているソース辞書から読み出し
た自然言語パターンの素性制約情報を、論理演算が実行
し易い形式の素性制約データに変換して上記パターン辞
書に格納する制約情報形式変換処理を有することを特徴
とする自然言語パターン辞書作成方法。
11. A natural language for creating a pattern dictionary applied to a natural language processing device that performs syntax analysis and / or syntax generation using a natural language pattern composed of a sequence of language names, left and right sides. In the pattern dictionary creation method, on the left side and / or the right side, there is a constraint by a feature, and there may be central element information that defines a central pattern element at the time of feature propagation, and all natural language patterns already described in text data A feature information conversion process for converting feature constraint information of a natural language pattern read from a source dictionary storing the feature dictionary into feature constraint data in a format in which a logical operation can be easily performed, and storing the feature constraint data in the pattern dictionary. How to create a natural language pattern dictionary.
【請求項12】 上記制約情報形式変換処理は、 予め格納されている制約に用いる素性名及び素性値でな
る素性情報の定義情報に基づいて、論理演算が実行し易
い形式のデータフォーマットを決定する素性制約データ
フォーマット決定工程と、 決定されたデータフォーマットに従って、自然言語パタ
ーンの素性制約情報を、論理演算が実行し易い形式の素
性制約データに変換する変換工程とを含むことを特徴と
する請求項11に記載の自然言語パターン辞書作成方
法。
12. The constraint information format conversion processing determines a data format of a format in which a logical operation is easy to execute, based on feature information defined in advance as feature names and feature values used for constraints. A feature constraint data format determining step, and a conversion step of converting feature constraint information of a natural language pattern into feature constraint data in a format in which a logical operation can be easily executed in accordance with the determined data format. 12. The method for creating a natural language pattern dictionary according to item 11.
JP2000227096A 2000-07-26 2000-07-27 Device and method for natural language processing and device and method for natural language dictionary generation Pending JP2002041513A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000227096A JP2002041513A (en) 2000-07-27 2000-07-27 Device and method for natural language processing and device and method for natural language dictionary generation
US09/909,901 US7010479B2 (en) 2000-07-26 2001-07-23 Apparatus and method for natural language processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000227096A JP2002041513A (en) 2000-07-27 2000-07-27 Device and method for natural language processing and device and method for natural language dictionary generation

Publications (1)

Publication Number Publication Date
JP2002041513A true JP2002041513A (en) 2002-02-08

Family

ID=18720599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000227096A Pending JP2002041513A (en) 2000-07-26 2000-07-27 Device and method for natural language processing and device and method for natural language dictionary generation

Country Status (1)

Country Link
JP (1) JP2002041513A (en)

Similar Documents

Publication Publication Date Title
Wu Stochastic inversion transduction grammars and bilingual parsing of parallel corpora
US7010479B2 (en) Apparatus and method for natural language processing
Carroll et al. A development environment for large natural language grammars
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
Hämäläinen et al. Development of an open source natural language generation tool for finnish
Krishnamurthy et al. Controlled natural language framework for generating assertions from hardware specifications
US7620541B2 (en) Critiquing clitic pronoun ordering in french
JPH0344764A (en) Mechanical translation device
Habash et al. Hybrid natural language generation from lexical conceptual structures
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
JP2008077512A (en) Document analysis device, document analysis method and computer program
JP2002041513A (en) Device and method for natural language processing and device and method for natural language dictionary generation
Babych et al. Ukrainian part-of-speech tagger for hybrid MT: Rapid induction of morphological disambiguation resources from a closely related language
Váradi Shallow parsing of hungarian business news
Cyre Extracting design models from natural language descriptions
JP3113257B2 (en) Machine translation equipment
JP4033089B2 (en) Natural language processing system, natural language processing method, and computer program
JP4033088B2 (en) Natural language processing system, natural language processing method, and computer program
KR100481453B1 (en) Apparatus and Method of Translating of 'Hata' Verb Based on Relation between 'X-hata' and 'X-lul hata' in Korean-Chinese Machine Translation
JP3972697B2 (en) Natural language processing system, natural language processing method, and computer program
SmrŽ et al. Determining Type of TIL Construction withVerb Valency Analyser
JP4092861B2 (en) Natural language pattern creation apparatus and method
Dash et al. POSIT: Simultaneously Tagging Natural and Programming Languages
JP3339006B2 (en) Parallel Noun Phrase Processor in Machine Translation Equipment
Gasser HORNMORPHO 1.1 User’s Guide

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422