JP2007018359A - Language processing device, language processing method and language processing program - Google Patents

Language processing device, language processing method and language processing program Download PDF

Info

Publication number
JP2007018359A
JP2007018359A JP2005200437A JP2005200437A JP2007018359A JP 2007018359 A JP2007018359 A JP 2007018359A JP 2005200437 A JP2005200437 A JP 2005200437A JP 2005200437 A JP2005200437 A JP 2005200437A JP 2007018359 A JP2007018359 A JP 2007018359A
Authority
JP
Japan
Prior art keywords
language
noun
noun phrase
phrase
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005200437A
Other languages
Japanese (ja)
Inventor
Takeshi Kutsumi
毅 九津見
Takehiko Yoshimi
毅彦 吉見
Ichiko Sada
いち子 佐田
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Sharp Corp
Original Assignee
National Institute of Information and Communications Technology
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology, Sharp Corp filed Critical National Institute of Information and Communications Technology
Priority to JP2005200437A priority Critical patent/JP2007018359A/en
Publication of JP2007018359A publication Critical patent/JP2007018359A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a language processing device that can determine the semantic well-formedness of expressions extracted from English text, and output well-formed expressions along with corresponding translations and output nothing about ill-formed expressions. <P>SOLUTION: A noun phrase A is extracted from first language text, the noun phrase A is machine-translated, and nouns MTN<SB>i</SB>(i=1-n) included in the machine translation result are extracted. A noun phrase B is extracted from second language text, and it is determined whether each noun MTN<SB>i</SB>is similar to the noun phrase B. The ratio (relevance rate) of the number of nouns MTN<SB>i</SB>similar to the noun phrase B to the number of nouns MTN<SB>i</SB>is next calculated, and it is determined whether or not the ratio (relevance rate) exceeds a threshold. If the threshold is exceeded, the noun phrase A and noun phrase B are registered as translations. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、前置詞句や等位構造を持つ英語固有表現と、それに対応する日本語表現を対訳コーパスから抽出する言語処理装置および言語処理方法と、言語処理プログラムに関する。特に、連語、複合語を含む名詞句の対訳を抽出する言語処理装置および言語処理方法と、言語処理プログラムである。   The present invention relates to a language processing apparatus, a language processing method, and a language processing program for extracting an English specific expression having a prepositional phrase and a coordinate structure and a corresponding Japanese expression from a parallel corpus. In particular, a language processing apparatus and language processing method for extracting a parallel translation of a noun phrase including a collocation and a compound word, and a language processing program.

機械翻訳システムなどで利用される対訳辞書に登録すべき表現を、対訳コーパスから自動的に獲得する方法の処理対象は、固有表現と非固有表現に分けることができる。固有表現と非固有表現を比べた場合、固有表現は、既存の辞書に登録されていないものが比較的多い。辞書未登録表現の多さが機械翻訳システムなどの品質低下の大きな原因の一つになっている。これを解消するためには、固有表現とその対訳を優先的に獲得すべきである。
このようなことから、発明者等は、英日機械翻訳システムの対訳辞書に登録すべき英語固有表現とそれに対応する日本語表現との対を対訳コーパスから獲得する方法の研究を行なっている。
従来、固有表現とその対訳を獲得することを目的とした研究は、単一言語内での固有表現の認識を目的とした研究に比べるとあまり多くないが、非特許文献1〜4などがある。これらの文献では、抽出対象の英語固有表現は前置修飾句のみを伴う単純名詞句に限定されており、前置詞句を伴う名詞句や等位構造を持つ名詞句についての議論は行なわれていない。しかし、実際には前置詞句による後置修飾と等位構造の一方または両方を持つ固有表現も少なくない。
The processing target of the method of automatically acquiring the expression to be registered in the bilingual dictionary used in the machine translation system or the like from the bilingual corpus can be divided into a specific expression and a non-specific expression. When comparing a specific expression and a non-specific expression, there are relatively many specific expressions that are not registered in an existing dictionary. The large number of unregistered expressions in the dictionary is one of the major causes of quality degradation in machine translation systems. In order to solve this problem, the proper expression and its translation should be preferentially acquired.
For this reason, the inventors have been researching a method for acquiring from the bilingual corpus a pair of English specific expressions to be registered in the bilingual dictionary of the English-Japanese machine translation system and the corresponding Japanese expressions.
Conventionally, the research aiming to acquire specific expressions and their translations is not so much compared to research aiming to recognize specific expressions in a single language, but there are non-patent documents 1 to 4 etc. . In these documents, the English specific expressions to be extracted are limited to simple noun phrases with only prefix modifiers, and no discussion of noun phrases with prefix phrases and noun phrases with coordinate structure is not made. . However, there are actually many unique expressions having one or both of post-modification by a prepositional phrase and a coordinate structure.

そこで本発明では、前置詞句と等位構造の一方または両方を持つ英語の固有名詞句を抽出対象とする。以下では、このような名詞句を単に英語名詞句と呼ぶ。英語名詞句を処理対象にすると、前置修飾のみを伴う単純名詞句を処理対象としていたときには生じなかった課題として前置詞付加などの構文的曖昧性を解消することが必要になる。例えば次の英文(E1)から抽出される“Japanese Embassy in Moscow”という表現は、意味的に適格で一つの英語名詞句であるが、英文(E2)から抽出される“the United States into World War II”は、意味的に不適格で、一つの英語名詞句ではない。
(E1)The ministry quickly instructed the Japanese Embassy in Moscow to....
(E2)The attack on Pearl Harbor.....drew the United States into World War II.
従って、英文から抽出される表現の意味的適格性を判断し、適格な表現についてはその対訳と共に出力し、不適格な表現については何も出力しないようにする必要がある。
Therefore, in the present invention, an English proper noun phrase having one or both of a prepositional phrase and an equal structure is selected. In the following, such noun phrases are simply referred to as English noun phrases. When processing English noun phrases, it is necessary to eliminate syntactic ambiguity such as preposition addition as a problem that did not occur when processing simple noun phrases with only prefix modification. For example, the expression “Japanese Embassy in Moscow” extracted from the following English sentence (E1) is semantically qualified and one English noun phrase, but “the United States into World War” extracted from the English sentence (E2). II ”is semantically ineligible and not an English noun phrase.
(E1) The ministry quickly instructed the Japanese Embassy in Moscow to. . . .
(E2) The attack on Pearl Harbor. . . . .drew the United States into World War II.
Therefore, it is necessary to judge the semantic eligibility of expressions extracted from English sentences, and to output appropriate expressions together with their translations, and to output nothing for unqualified expressions.

本発明に関係する特許としては次のようなものがある。特許文献1は、第1言語の表現から、第2言語の表現を翻訳して生成し、第1言語の表現と第2言語の表現との対訳対応を抽出して、対訳データを送出し、この対訳データを対訳辞書に格納する翻訳辞書自動生成方式である。
特許文献2は、同一内容について記述した対訳文書を使用し、複合語候補抽出部によって複合語候補を抽出し、翻訳用辞書データベースに登録する辞書データ改良装置である。
特許文献3は、第1言語文と、その翻訳結果である第2言語文を対応させ、第1言語文に含まれる単語と第2言語文に含まれる単語の組合せ(単語対)の出現頻度を計数し、単語対の出現頻度が規定値より多い単語対を、第1言語の単語とその第2言語による訳語であると判定して、自動的に訳語を獲得する装置である。
Y.Al-Onaizan and K.Knight. Translating Named Entities Using Monolingual and Bilingual Resources. In Procs.of the 40th Annual Meeting of the ACL,pp.400-408,2002. F.Huang and S.Vogel. Improved Named Entity Translation and Bilingual Named Entity Extraction. In Procs.of the 4th IEEE International Conference on Multimodal Interfaces(ICMI),pp.253-258,2002. F.Huang,S.vogel and A.Waibel. Automatic Extraction of Named Entity Translingual Equivalence Based on Multi-feature Cost Minimization.In Procs.of the ACL Workshop on multilingual and Mixed-language Named Entity Recognition,pp.9-16,2003. R.Moor. Learning Translations of Named-Entity Phrases from Parallel Corpora.In Procs. of the 10th conference of the ECAL,pp.259-266,2003. 特開昭62−297972号公報 特開2001−142882号公報 特開平5−298359号公報
Patents relating to the present invention include the following. Patent Document 1 translates and generates a second language expression from a first language expression, extracts a parallel translation correspondence between the first language expression and the second language expression, and transmits parallel data. This is a translation dictionary automatic generation method in which this parallel translation data is stored in a parallel translation dictionary.
Patent Document 2 is a dictionary data improvement device that uses bilingual documents describing the same content, extracts compound word candidates by a compound word candidate extraction unit, and registers them in a dictionary database for translation.
Patent Document 3 associates a first language sentence with a second language sentence that is a translation result thereof, and an appearance frequency of a combination (word pair) of a word included in the first language sentence and a word included in the second language sentence. This is a device that automatically obtains a translation by determining that a word pair in which the appearance frequency of the word pair is higher than a predetermined value is a translation of the first language and the second language.
Y. Al-Onaizan and K. Knight.Translating Named Entities Using Monolingual and Bilingual Resources.In Procs.of the 40th Annual Meeting of the ACL, pp.400-408,2002. F. Huang and S. Vogel. Improved Named Entity Translation and Bilingual Named Entity Extraction.In Procs.of the 4th IEEE International Conference on Multimodal Interfaces (ICMI), pp.253-258,2002. F.Huang, S.vogel and A.Waibel.Automatic Extraction of Named Entity Translingual Equivalence Based on Multi-feature Cost Minimization.In Procs.of the ACL Workshop on multilingual and Mixed-language Named Entity Recognition, pp.9-16, 2003. R.Moor.Learning Translations of Named-Entity Phrases from Parallel Corpora.In Procs. Of the 10th conference of the ECAL, pp.259-266,2003. JP-A 62-297972 JP 2001-142882 A Japanese Patent Laid-Open No. 5-298359

特許文献1によりこの対訳データを自動的に蓄積して翻訳辞書を生成することができる。しかしその抽出条件は、日本語名詞句を構成する単語が、英語名詞句に写像されていること、英語名詞句の単語がすべて対訳辞書から生成されるか、複数の単語の組合せに対する対訳規則ないし対訳辞書により生成されることであり、抽出できる対応が限定される。
特許文献2は、辞書データの改良装置であるが、訳語候補データから取り出した訳語と照合されるチェックデータは、目的言語形態素、原言語形態素、訳語のセットなどである。これらチェックデータによりチェックできる訳語は限定される。
特許文献3は、単語対の出現頻度によって第1言語の単語とその第2言語による訳語であると判定する装置であるが、膨大なデータ処理を必要とする。
従って、英文から抽出される表現の意味的適格性を判断し、適格な表現についてはその対訳と共に出力し、不適格な表現については何も出力しないようにする必要がある。本発明はこのような課題に対する一つの解決策を示す。
According to Patent Document 1, this parallel translation data can be automatically accumulated to generate a translation dictionary. However, the extraction condition is that the words constituting the Japanese noun phrase are mapped to the English noun phrase, all the words of the English noun phrase are generated from the bilingual dictionary, or there are no parallel rules or rules for combinations of multiple words. It is generated by the bilingual dictionary, and the correspondence that can be extracted is limited.
Patent Document 2 is an apparatus for improving dictionary data, but check data to be collated with translated words extracted from translated word candidate data includes a target language morpheme, a source language morpheme, a set of translated words, and the like. Translations that can be checked by these check data are limited.
Patent Document 3 is a device that determines a word in a first language and a translated word in the second language based on the appearance frequency of word pairs, but requires a huge amount of data processing.
Therefore, it is necessary to judge the semantic eligibility of expressions extracted from English sentences, and to output appropriate expressions together with their translations, and to output nothing for unqualified expressions. The present invention presents a solution to this problem.

本発明の言語処理装置は、第1言語文から名詞句Aを抽出し、その名詞句Aを機械翻訳し、機械翻訳結果に含まれる名詞MTNi(i = 1〜n)を抽出し、一方、第2言語文から名詞句Bを抽出し、各名詞MTNiがそれぞれ名詞句Bと類似しているかを判定し、次に名詞MTNiの数と、名詞句Bと類似している名詞MTNiの数の比(関与率)を算出し、この比(関与率)が閾値を越えたか否か判定し、閾値を越えた名詞句Aと名詞句Bを対訳として登録するものである。 The language processing apparatus of the present invention extracts a noun phrase A from a first language sentence, machine translates the noun phrase A, and extracts a noun MTN i (i = 1 to n) included in the machine translation result, , Extract the noun phrase B from the second language sentence, determine whether each noun MTN i is similar to the noun phrase B, and then the number of nouns MTN i and the noun MTN similar to the noun phrase B A ratio of the number of i (participation rate) is calculated, it is determined whether or not this ratio (participation rate) exceeds a threshold, and noun phrases A and B that exceed the threshold are registered as parallel translations.

より詳細には本発明の言語処理装置は、第1言語文の名詞句を抽出する第1言語名詞句抽出手段と、前記第1言語名詞句を第2言語に翻訳する翻訳手段と、前記翻訳結果に含まれる名詞を抽出する第1言語名詞抽出手段と、第2言語文の名詞句を抽出する第2言語文名詞句抽出手段と、前記第1言語名詞抽出手段により抽出された名詞と、前記第1言語名詞抽出手段により抽出された名詞と、前記第2言語名詞句抽出手段により抽出された名詞または名詞句間との類似度を判定する第2言語名詞間または名詞句間の類似度判定手段と、前記第1言語名詞抽出手段により抽出された名詞のうち、第2言語文の名詞句との類似度が類似度閾値以上である割合(関与率)を求める関与率判定手段とを備え、第1言語と第2言語の対訳を出力する。   More specifically, the language processing apparatus of the present invention includes a first language noun phrase extracting unit that extracts a noun phrase of a first language sentence, a translation unit that translates the first language noun phrase into a second language, and the translation A first language noun extraction means for extracting a noun included in the result, a second language sentence noun phrase extraction means for extracting a noun phrase of a second language sentence, a noun extracted by the first language noun extraction means, Similarities between second language nouns or between noun phrases that determine similarity between nouns extracted by the first language noun extraction means and nouns or noun phrases extracted by the second language noun phrase extraction means A determination means, and an involvement rate determination means for obtaining a ratio (involvement rate) in which the similarity between the noun phrase of the second language sentence and the noun phrase of the second language sentence is equal to or greater than a similarity threshold among the nouns extracted by the first language noun extraction means Provided, and outputs a parallel translation of the first language and the second language.

また本発明の言語処理装置は、前記第1言語名詞句抽出手段が、第1言語名詞句抽出部と、第1言語冠詞リストと、第1言語前置詞リストと、第1言語名詞句判定パターンを備えることが望ましい。
また本発明の言語処理装置は、前記第2言語名詞句抽出手段は、第2言語名詞句抽出部と、第2言語名詞句判定パターンを備えるとよい。
また本発明の言語処理装置は、前記第2言語名詞抽出手段が、第2言語名詞抽出部と、第2言語名詞判定パターンを備えるとよい。
また本発明の言語処理装置は、前記第2言語名詞間または名詞句間の類似度判定手段が、第2言語名詞間または名詞句間の類似度判定部と、文字的類似性判定部と、音韻的類似性判定部と、総合判定部とを備えることが望ましい。
また本発明の言語処理装置は、前記文字的類似性判定部が、文字単位での比較部と、文字種を考慮した比較部とを備えるとよい。
また本発明の言語処理装置は、形態素解析部を更に備え、前記第2言語名詞句抽出部により抽出された名詞句から単語列を抽出するとよい。
また本発明の言語処理装置は、前記関与率判定手段は、前記第1言語の名詞の数と、第2言語の名詞句に含まれる名詞の数の比から関与率を算出し、前記関与率が閾値を越えたか否か判定することが望ましい。
また本発明の言語処理装置は、前記関与率の閾値を越えた第1言語名詞句と、第2言語名詞句を対応して出力することが望ましい。
In the language processing apparatus according to the present invention, the first language noun phrase extraction unit may include a first language noun phrase extraction unit, a first language article list, a first language preposition list, and a first language noun phrase determination pattern. It is desirable to provide.
In the language processing apparatus of the present invention, it is preferable that the second language noun phrase extraction unit includes a second language noun phrase extraction unit and a second language noun phrase determination pattern.
In the language processing apparatus of the present invention, it is preferable that the second language noun extraction unit includes a second language noun extraction unit and a second language noun determination pattern.
Further, in the language processing apparatus of the present invention, the similarity determination means between the second language nouns or noun phrases includes a similarity determination unit between second language nouns or noun phrases, a character similarity determination unit, It is desirable to include a phonological similarity determination unit and a comprehensive determination unit.
In the language processing apparatus of the present invention, it is preferable that the character similarity determination unit includes a comparison unit in units of characters and a comparison unit in consideration of character types.
The language processing apparatus of the present invention preferably further includes a morphological analysis unit, and extracts a word string from the noun phrase extracted by the second language noun phrase extraction unit.
In the language processing apparatus of the present invention, the participation rate determination means calculates a participation rate from a ratio of the number of nouns in the first language and the number of nouns included in the noun phrase in the second language, and the participation rate It is desirable to determine whether or not the threshold value exceeds a threshold value.
Moreover, it is desirable that the language processing apparatus of the present invention outputs the first language noun phrase and the second language noun phrase that exceed the participation rate threshold value in association with each other.

また本発明の別の局面では、以上のような言語処理装置により、第1言語名詞句とこれに対応する第2言語名詞句を対応させて、対訳として登録する辞書を作成する辞書作成装置である。
更に本発明は、別の観点から言語処理方法に関し、第1言語文から第1言語名詞句を抽出するステップと、前記第1言語名詞句を第2言語に翻訳するステップと、前記翻訳結果に含まれる名詞を抽出するステップと、前記第1言語文に対応する第2言語文から第2言語名詞句を抽出するステップと、前記名詞を含む第2言語名詞句を抽出するステップと、前記名詞を含む第2言語名詞句が所定の数以上含む第2言語名詞句を、第1言語名詞句の対応句として決定するステップとからなる言語処理方法である。ここで、「第1言語文から第1言語名詞句を抽出するステップ、前記第1言語名詞句を第2言語に翻訳するステップ、前記翻訳結果に含まれる名詞を抽出するステップ」と、「前記第1言語文に対応する第2言語文から第2言語名詞句を抽出するステップ、前記名詞を含む第2言語名詞句を抽出するステップ」は、どちらを先に処理してもよい。
また本発明の言語処理プログラムは、上記各ステップをコンピュータに実行させ、言語処理方法を実現する。
According to another aspect of the present invention, there is provided a dictionary creation device that creates a dictionary to be registered as a parallel translation by associating a first language noun phrase with a corresponding second language noun phrase by the language processing device as described above. is there.
Furthermore, the present invention relates to a language processing method from another viewpoint, the step of extracting a first language noun phrase from a first language sentence, the step of translating the first language noun phrase into a second language, and the translation result Extracting a contained noun; extracting a second language noun phrase from a second language sentence corresponding to the first language sentence; extracting a second language noun phrase including the noun; and the noun Determining a second language noun phrase including a predetermined number or more of second language noun phrases including as a corresponding phrase of the first language noun phrase. Here, “the step of extracting the first language noun phrase from the first language sentence, the step of translating the first language noun phrase into the second language, the step of extracting the noun included in the translation result”, “the above-mentioned Either the step of extracting the second language noun phrase from the second language sentence corresponding to the first language sentence or the step of extracting the second language noun phrase including the noun may be processed first.
The language processing program of the present invention causes a computer to execute the above steps to realize a language processing method.

本発明の言語処理装置は、第1言語文から名詞句Aを抽出し、その名詞句Aを機械翻訳し、機械翻訳結果に含まれる名詞MTNi(i = 1〜n)を抽出し、一方、第2言語文から名詞句Bを抽出し、各名詞MTNiがそれぞれ名詞句Bと類似しているかを判定し、次に名詞MTNiの数と、名詞句Bと類似している名詞MTNiの数の比(関与率)を算出し、この比(関与率)が閾値を越えたか否か判定し、閾値を越えた名詞句Aと名詞句Bを対訳として登録するので、適格な表現についてはその対訳と共に出力し、不適格な表現については何も出力しないようできる。
本発明の言語処理装置は、第1言語文の名詞句を抽出する第1言語名詞句抽出手段と、第1言語名詞句を第2言語に翻訳する翻訳手段と、翻訳結果に含まれる名詞を抽出する第2言語名詞抽出手段と、第2言語文の名詞句を抽出する第2言語文名詞句抽出手段と、前記第1言語名詞抽出手段により抽出された名詞と、前記第2言語名詞句抽出手段により抽出された名詞または名詞句間との類似度を判定する第2言語名詞間または名詞句間の類似度判定手段と、前記第1言語名詞抽出手段により抽出された名詞のうち、第2言語文の名詞句との類似度が類似度閾値以上である割合(関与率)を求める関与率判定手段とを備えるので、正しい名詞句の対訳を出力することができる。
The language processing apparatus of the present invention extracts a noun phrase A from the first language sentence, machine translates the noun phrase A, and extracts a noun MTNi (i = 1 to n) included in the machine translation result, Extract a noun phrase B from the second language sentence, determine whether each noun MTN i is similar to the noun phrase B, and then the number of nouns MTNi and the number of nouns MTNi similar to the noun phrase B The ratio (participation rate) is calculated, it is determined whether the ratio (participation rate) exceeds the threshold, and the noun phrase A and noun phrase B exceeding the threshold are registered as parallel translations. It can be output with the bilingual translation, and nothing can be output for unqualified expressions.
The language processing apparatus according to the present invention includes a first language noun phrase extracting unit that extracts a noun phrase of a first language sentence, a translation unit that translates the first language noun phrase into a second language, and a noun included in the translation result. Second language noun extraction means for extracting, second language noun phrase extraction means for extracting a noun phrase of a second language sentence, nouns extracted by the first language noun extraction means, and the second language noun phrases Of the nouns extracted by the first language noun extraction means, the similarity determination means between the second language nouns or between the noun phrases for determining the similarity between the nouns or noun phrases extracted by the extraction means, Since it includes the participation rate determination means for obtaining a ratio (involvement rate) in which the similarity between the bilingual sentence and the noun phrase is equal to or higher than the similarity threshold, a correct translation of the noun phrase can be output.

また本発明の言語処理装置は、第1言語名詞句抽出部と、第1言語冠詞リストと、第1言語前置詞リストと、第1言語名詞句判定パターンを第1言語名詞句抽出手段に備えるので、固有表現を持つ英語から名詞句を抽出することができる。
また本発明の言語処理装置は、第2言語名詞句抽出手段が第2言語名詞句抽出部と、第2言語名詞句判定パターンを備えるので、第2言語が日本語である場合に連合名詞、連体修飾を表す付属語も抽出することができる。
また本発明の言語処理装置は、第2言語名詞間または名詞句間の類似度判定手段が第2言語名詞間または名詞句間の類似度判定部と、文字的類似性判定部と、音韻的類似性判定部と、総合判定部とを備えるので、第1言語が英語であり、第2言語が日本語である場合に、英語固有表現と日本語表現の照合を行うことができる。
Moreover, the language processing apparatus of the present invention includes the first language noun phrase extraction unit, the first language article list, the first language preposition list, and the first language noun phrase determination pattern in the first language noun phrase extraction unit. Can extract noun phrases from English with proper expressions.
In the language processing apparatus of the present invention, since the second language noun phrase extraction means includes a second language noun phrase extraction unit and a second language noun phrase determination pattern, the associated noun when the second language is Japanese, It is also possible to extract an adjunct representing a combination modification.
In the language processing apparatus according to the present invention, the similarity determination means between the second language nouns or noun phrases includes a similarity determination unit between the second language nouns or noun phrases, a character similarity determination unit, Since the similarity determination unit and the comprehensive determination unit are provided, when the first language is English and the second language is Japanese, it is possible to collate the English unique expression with the Japanese expression.

また本発明の言語処理装置は、文字的類似性判定部が文字単位での比較部と、文字種を考慮した比較部とを備えるので、漢字のように一文字でも意味を持つ単語と、非漢字を区別して扱うことができる。文字種を考慮した処理により漢字以外の文字が短すぎる単位で適合することを防ぐことができる。
また本発明の言語処理装置は、形態素解析部を更に備え、前記第2言語名詞句抽出部により抽出された名詞句から単語列を抽出するので、名詞を容易に取り出すことができる。
また本発明の言語処理装置は、前記関与率判定手段が前記第1言語の名詞の数と、第2言語の名詞句に含まれる名詞の数の比(関与率)を算出し、前記比(関与率)が閾値を越えたか否か判定するので、適合率、F値を向上することができる。これにより対応付け誤りを抑えることができる。
また本発明の辞書作成装置は、前記関与率の閾値を越えた第1言語名詞句と、第2言語名詞句を対応して出力するので、適格な表現について対訳として登録した辞書を得ることができる。
また本発明の辞書作成装置は、以上のような言語処理装置により、第1言語名詞句とこれに対応する第2言語名詞句を対応させて、対訳として登録するので、本発明の装置により作成された辞書を利用すると、より正確な翻訳が可能になる。
In the language processing apparatus according to the present invention, the character similarity determination unit includes a character-by-character comparison unit and a comparison unit that considers the character type. Can be distinguished and handled. The processing considering the character type can prevent characters other than kanji from being matched in units that are too short.
In addition, the language processing apparatus of the present invention further includes a morphological analysis unit and extracts a word string from the noun phrase extracted by the second language noun phrase extraction unit, so that a noun can be easily extracted.
In the language processing apparatus of the present invention, the participation rate determination unit calculates a ratio (participation rate) between the number of nouns in the first language and the number of nouns included in the noun phrase in the second language, and the ratio ( Since it is determined whether or not (participation rate) exceeds a threshold value, the relevance rate and the F value can be improved. Thereby, an association error can be suppressed.
In addition, since the dictionary creation device of the present invention outputs the first language noun phrase and the second language noun phrase that exceed the threshold of the participation rate in correspondence with each other, it is possible to obtain a dictionary in which eligible expressions are registered as parallel translations. it can.
Also, the dictionary creation device of the present invention is registered by the device of the present invention because the language processing device as described above associates the first language noun phrase with the corresponding second language noun phrase and registers it as a parallel translation. A more accurate translation is possible by using the dictionary.

一般に英語の名詞句が日本語の名詞句に対応するとは限らないが、本発明で対象とするような英語名詞句は、日本語の名詞句に対応することが多いと考えられる。このため、名詞句同士が対応するものと仮定する。本発明は、(1)英語名詞句の抽出、(2)日本語名詞句の抽出、(3)英語名詞句と日本語名詞句の照合の三つの段階から成る。構文的曖昧性の解消は、第一段階または第三段階で行なえると考えられるが、本発明では照合処理で行なう。   In general, English noun phrases do not always correspond to Japanese noun phrases, but it is considered that English noun phrases that are the subject of the present invention often correspond to Japanese noun phrases. For this reason, it is assumed that noun phrases correspond to each other. The present invention comprises three stages: (1) extraction of English noun phrases, (2) extraction of Japanese noun phrases, and (3) collation of English noun phrases and Japanese noun phrases. Although it is considered that the syntactic ambiguity can be resolved in the first stage or the third stage, in the present invention, it is performed by a collation process.

本発明は、前置詞句や等位構造を含む英語固有表現と、それに対応する日本語表現を対訳コーパスから抽出する装置および方法と、プログラムである。本発明は、(1)意味的類似性と音韻的類似性の二つの観点から英語固有表現と日本語表現の対を評価し、二種類の類似度を統合して全体としての類似度を求める処理と、(2)英語固有表現における前置詞付加などの構文的曖昧性を解消する処理を行なう。
本発明の装置および方法を、読売新聞とThe Daily Yomiuriの対訳コーパスを用いて実験を行ない、本発明の性能と上記のような処理を行なわないベースラインの性能を比較する実験を行った。その実験結果より本発明で得られたF値0.678がベースラインでのF値0.583を上回り、本発明の有効性が示された。
以下に実施例とともに本発明を詳細に説明する。
The present invention is an apparatus, method, and program for extracting an English specific expression including a prepositional phrase and a coordinate structure and a corresponding Japanese expression from a bilingual corpus. The present invention (1) evaluates a pair of an English specific expression and a Japanese expression from two viewpoints of semantic similarity and phonological similarity and integrates two kinds of similarities to obtain an overall similarity. And (2) processing to resolve syntactic ambiguity such as adding prepositions in English proper expressions.
The apparatus and method of the present invention were tested using the bilingual corpus of Yomiuri Shimbun and The Daily Yomiuri, and an experiment was performed comparing the performance of the present invention with the performance of the baseline without the above processing. From the experimental results, the F value of 0.678 obtained by the present invention exceeded the F value of 0.583 at the baseline, indicating the effectiveness of the present invention.
Hereinafter, the present invention will be described in detail with examples.

(実施例1)
図1は、本発明の言語処理装置のブロック図を示す。1はキーボード、マウス、スキャナにより対訳文を入力する対訳文入力手段である。入力手段1は、ネットワークを介して文書を取得する通信インターフェースであってもよい。2は液晶表示装置、プラズマ表示装置、CRTのような表示装置により、本発明の処理結果を表示する結果出力手段である。出力手段2は、文字によって表示する外に、情報として記憶装置またはネットワークへ出力する形態であってもよい。3はRAMのような動作用メインメモリ、4はハードディスク、光ディスクのような大容量記憶手段を示す。記憶手段4は、第1言語文と、この第1言語文に対応する第2言語文を対応付けた対訳コーパスを格納する。また本発明のプログラム、言語処理プログラムや計算プログラムを格納する。
以下の5〜10は、本発明の言語処理装置を構成する部分であって、5は第1言語文から名詞句を切り出して抽出する名詞句抽出手段、6は第2言語文から名詞句を切り出して抽出する名詞句抽出手段、7は第1言語から第2言語へ翻訳する機械翻訳手段、8は前記第2言語名詞句抽出手段6が抽出した名詞句から単語としての名詞を切り出して抽出する第2言語名詞抽出手段、9は第2言語の名詞間または名詞句間の類似度判定手段、10は第1言語名詞句の翻訳結果の第2言語名詞句に対する関与率を求める関与率判定手段である。
(Example 1)
FIG. 1 shows a block diagram of the language processing apparatus of the present invention. Reference numeral 1 denotes a bilingual sentence input means for inputting a bilingual sentence using a keyboard, a mouse, and a scanner. The input unit 1 may be a communication interface that acquires a document via a network. Reference numeral 2 denotes a result output means for displaying the processing result of the present invention by a display device such as a liquid crystal display device, a plasma display device or a CRT. The output means 2 may be configured to output information to a storage device or a network in addition to displaying with characters. Reference numeral 3 denotes an operation main memory such as a RAM, and 4 denotes a mass storage means such as a hard disk or an optical disk. The storage unit 4 stores a bilingual corpus in which a first language sentence is associated with a second language sentence corresponding to the first language sentence. The program, language processing program and calculation program of the present invention are stored.
The following 5 to 10 are parts constituting the language processing apparatus of the present invention, 5 is a noun phrase extracting means for extracting and extracting a noun phrase from the first language sentence, and 6 is a noun phrase from the second language sentence. Noun phrase extraction means for extracting and extracting, 7 for machine translation means for translating from the first language to the second language, and 8 for extracting and extracting nouns as words from the noun phrases extracted by the second language noun phrase extraction means 6 Second language noun extraction means, 9 is a similarity determination means between nouns or noun phrases in the second language, and 10 is an involvement rate determination for determining an involvement rate of the translation result of the first language noun phrase with respect to the second language noun phrase. Means.

図1の更に詳細なブロック図を図2に示す。
図1の第1言語名詞句抽出手段5は、第1言語名詞句抽出部5a、第1言語の冠詞リスト5b、第1言語の前置詞リスト5c、第1言語名詞句判定パターン5dを備える。第2言語名詞句抽出手段6は、第2言語名詞句抽出部6a、第2言語名詞句判定パターン6bを備える。第2言語名詞抽出手段8は、第2言語名詞抽出部8a、第2言語名詞判定パターン8bを備える。前記第2言語名詞句抽出部6aによって抽出された名詞句から、第2言語名詞を抽出し、第2言語名詞抽出部8aに格納する第2言語形態素解析部11を備える。第2言語の名詞間または名詞句間の類似度判定手段9は、第2言語の名詞間または名詞句間の類似度判定部9a、文字的類似性判定部9b、音韻的類似性判定部9c、総合判定部9dを備える。
A more detailed block diagram of FIG. 1 is shown in FIG.
The first language noun phrase extraction means 5 of FIG. 1 includes a first language noun phrase extraction unit 5a, a first language article list 5b, a first language preposition list 5c, and a first language noun phrase determination pattern 5d. The second language noun phrase extraction means 6 includes a second language noun phrase extraction unit 6a and a second language noun phrase determination pattern 6b. The second language noun extraction means 8 includes a second language noun extraction unit 8a and a second language noun determination pattern 8b. A second language morphological analyzer 11 is provided that extracts a second language noun from the noun phrase extracted by the second language noun phrase extractor 6a and stores it in the second language noun extractor 8a. Similarity determination means 9 between nouns or noun phrases in the second language includes a similarity determination unit 9a, a character similarity determination unit 9b, and a phonological similarity determination unit 9c. And a comprehensive determination unit 9d.

ここで、第1言語および第2言語は、広義に解釈され、情報を伝達するためのものであれば異国語に限らず、方言であってもよい。あるいは人間が会話または記録する言語に限らず、コンピュータ処理用の言語であってもよい。第1言語文及び第2言語文は、単文に限らず、複数の文からなるもの、語、句を含む。また語句は単語だけでなく、連語、複合語も含む。
また本発明の言語処理装置は、単独に言語処理装置あるいは辞書作成装置、辞書作成方法として構成してもよく、またパーソナルコンピュータ等の汎用処理装置にインストールするソフトウエアとして提供し、そのソフトウエアの処理を実行することによって、言語処理装置あるいは辞書作成装置、辞書作成方法として機能するものであってもよい。
本発明のプログラムは、フラッシュメモリ、ハードディスクのような書き換え可能な記憶手段、またはマスクROM、CD、DVDのような書き換え不可能な記憶手段に格納してもよい。
Here, the first language and the second language are not limited to foreign languages and may be dialects as long as they are interpreted in a broad sense and are for transmitting information. Alternatively, the language is not limited to the language in which humans speak or record, and may be a language for computer processing. The first language sentence and the second language sentence are not limited to a single sentence but include a plurality of sentences, words, and phrases. A phrase includes not only words but also collocations and compound words.
The language processing device of the present invention may be configured as a language processing device, a dictionary creation device, or a dictionary creation method alone, or provided as software installed in a general-purpose processing device such as a personal computer. By executing the processing, it may function as a language processing device, a dictionary creation device, or a dictionary creation method.
The program of the present invention may be stored in a rewritable storage means such as a flash memory or a hard disk, or a non-rewritable storage means such as a mask ROM, CD, or DVD.

本発明の装置は、図3に示すフローチャートにように処理を実行する。このフローチャートでは、第1言語文が英語、第2言語文が日本語として説明する。
最初に、ステップs01で、対訳文入力手段1により、第1言語文と、これに対応する第2言語文を対訳コーパスを格納する記憶手段4から取得する。第1言語文および第2言語文は、次のような文である。第1言語文および第2言語文の取得は、対訳コーパスから取得する外に、第1言語文と第2言語文を多数格納しているデータベースから、第1言語文をキーワードにして第2言語文を検索して取得するような方法でもかまわない。
第1言語文:They strongly request Iraq to remove the obstacles which prevent t he Diplomatic and Consular Missions in Kuwait from executing their f unctions.
第2言語文:双方は、イラクに対し、在クウェート外交領事使節団が活動を実行する上 での障害を除去し、同使節団員の地位及び不可侵権を侵害するようないかな る行動も差し控えるよう強く求める。
The apparatus of the present invention executes processing as shown in the flowchart of FIG. In this flowchart, the first language sentence is assumed to be English, and the second language sentence is assumed to be Japanese.
First, in step s01, the bilingual sentence input unit 1 acquires the first language sentence and the second language sentence corresponding thereto from the storage unit 4 that stores the bilingual corpus. The first language sentence and the second language sentence are as follows. The acquisition of the first language sentence and the second language sentence is performed by using the first language sentence as a keyword from the database storing a large number of the first language sentence and the second language sentence in addition to the acquisition from the bilingual corpus. You can also search for and retrieve sentences.
First language sentence: They strongly request Iraq to remove the obstacles which prevent t he Diplomatic and Consular Missions in Kuwait from executing their f unctions.
Second language sentence: Both sides refrain from taking any action against Iraq that removes the obstacles to the activities of the diplomatic mission in Kuwait and infringe the status and non-aggression of the mission members. Urgently ask.

ステップs02は、第1言語名詞句抽出部5aにより、第1言語の名詞句候補をリストアップする処理である。
英語名詞句の抽出処理では、次の式(1)で表わされる単語列のうち最も長いものを抽出する(この場合、構文解析は行なわない)。
Base NP((P/C)BaseNP)+ ・・・・・・・ (1)
ここで、Base NPは、前修飾句のみを伴う単純名詞句であることを想定しており、大文字始まり語か、数字から成る単語列である。ただし、先頭は小文字始まりの定/不定冠詞であってもよい。また、Pは前置詞であり、Cはandかコンマである。+は、1回以上を表す。
構文的に不適格な英語名詞句が抽出されないようにするために、式(1)によって抽出される単語列に対していくつかの条件を課す。主な条件は次の通りである。
条件1:単語列にコンマが含まれている場合、コンマより後方にandが存在しなけ ればならない。
条件2:単語列の末尾の語は属格名詞ではない。
条件3:単語列が文頭に現れている場合、その先頭の語の品詞は前置詞、接続詞、 副詞のいずれでもない。
Step s02 is a process of listing noun phrase candidates in the first language by the first language noun phrase extracting unit 5a.
In the English noun phrase extraction process, the longest word string represented by the following expression (1) is extracted (in this case, parsing is not performed).
Base NP ((P / C) BaseNP) + ... (1)
Here, Base NP is assumed to be a simple noun phrase with only a pre-modification phrase, and is a word string consisting of a capital letter or a number. However, the beginning may be a constant / indefinite article beginning with a lowercase letter. P is a preposition and C is an or comma. + Represents one or more times.
In order to prevent the extraction of syntactically unqualified English noun phrases, several conditions are imposed on the word string extracted by the expression (1). The main conditions are as follows.
Condition 1: If a comma is included in the word string, and must exist after the comma.
Condition 2: The word at the end of the word string is not a generic noun.
Condition 3: When a word string appears at the beginning of a sentence, the part of speech of the first word is neither a preposition, a conjunction, nor an adverb.

条件1により、例えば次の英文(E3)から“Moscow in April,The Yomiuri Shimbun”が英語名詞句として抽出されるのを防ぐことができる。
(E3)The Russian government has decided to sign....in Moscow in April, The Yomiuri Shimbun learned on Wednesday.
条件2により、例えば“IBM and the U.S.s' big three auto manufacturers”における“IBM and the U.S.s'”の部分が抽出されるのを防ぐことができる。ただし、英語名詞句の末尾の語が属格名詞でない場合にはこのような誤りを防ぐことはできず、例えば “the Self-Defense Forces and U.S. forces”から"the Self-Defense Forces and U.S.”が誤って抽出されてしまう。
条件3は、例えば“Hopefully Japan and the EC”ではなく、“Japan and the EC”を抽出するために設定したものである。この判定は当該語と前置詞、接続詞、副詞の一覧表との照合によって行なう。なお、副詞の一覧表に登録されている語のうちEast,West,North,Southなど15語は、例えば“West Germany, Britain and Italy”のように、これらが名詞または形容詞として機能している英語名詞句が訓練データにおいて比較的多く見られたので、副詞の一覧表から削除した。
Condition 1 can prevent “Moscow in April, The Yomiuri Shimbun” from being extracted as an English noun phrase from the following English sentence (E3), for example.
(E3) The Russian government has decided to sign. . . . in Moscow in April, The Yomiuri Shimbun learned on Wednesday.
Condition 2 can prevent, for example, the extraction of “IBM and the USs” in “IBM and the USs” big three auto manufacturers. However, such an error cannot be prevented if the last word of an English noun phrase is not a generic noun. For example, from “the Self-Defense Forces and US forces” to “the Self-Defense Forces and US” It will be extracted by mistake.
Condition 3 is set to extract “Japan and the EC” instead of “Hopefully Japan and the EC”, for example. This determination is made by comparing the word with a list of prepositions, conjunctions, and adverbs. Of the words registered in the adverb list, 15 words such as East, West, North, and South are English words that function as nouns or adjectives, such as “West Germany, Britain and Italy”. Since noun phrases were relatively common in training data, they were deleted from the adverb list.

このステップs02の特徴は、次のような諸点である。
(ア)英語の辞書引き系や構文解析を行わない。
(イ)英語の名詞辞書を使わない。
(ウ)冠詞・前置詞のリスト(図2に示す第1言語冠詞リスト5b、第1言語前置詞リ スト5c)を使う。
(エ)文の途中の大文字始まりの単語を(固有表現の)名詞と見なす。
(オ)以上に言及した、前置詞・冠詞・固有表現の名詞・and・コンマの組み合わせの パターンとして、名詞句候補を抽出する。そのパターンは、上記式(1)の通り である。ここでは、図2の第1言語名詞句判定パターン5dが、前置詞句か、"a nd"による並列かの、いずれかを必ず含む名詞句を対象として、判定する。
(カ)上記パターンに適合する名詞句のうち、範囲が重なる複数通りの名詞句が候補と して挙がった場合は、それらのうち最長のものだけを候補とする。本実施形態で はこのように最長のものを抽出するが、他の実施形態としては日本語と同様に全 ての単語をリストアップするようにしてもよい。
The features of this step s02 are as follows.
(A) Do not use English dictionary lookup or syntax analysis.
(B) Do not use an English noun dictionary.
(C) An article / preposition list (first language article list 5b, first language preposition list 5c shown in FIG. 2) is used.
(D) A word beginning with a capital letter in the middle of a sentence is regarded as a noun (with a proper expression).
(E) Extract noun phrase candidates as patterns of combinations of prepositions, articles, nouns of proper expressions, and commas mentioned above. The pattern is as shown in the above formula (1). Here, the first language noun phrase determination pattern 5d in FIG. 2 is determined for a noun phrase that always includes either a preposition phrase or a parallel by “a nd”.
(F) Among the noun phrases that match the above pattern, if multiple noun phrases with overlapping ranges are listed as candidates, only the longest of them is selected as a candidate. In this embodiment, the longest word is extracted in this way, but as another embodiment, all words may be listed as in Japanese.

以上のような結果、上記第1言語文から抽出される英語名詞句は「the Diplomatic and Consular Missions in Kuwait」のみとなる。ここでは最も長い名詞句を抽出するとしているが、もしこの英語名詞句が長すぎるために対応する日本語名詞句が抽出されない場合は、抽出された最も長い名詞句を分解して、それより短い全ての名詞句を抽出してもよい。
なお、「the Diplomatic and Consular Missions in Kuwait from executing their functions」のような並びは、本実施形態のこのステップs01の処理では、「executing their functions」の箇所が大文字始まりでないので、名詞句の一部と見なされない。
As a result, the English noun phrase extracted from the first language sentence is only “the Diplomatic and Consular Missions in Kuwait”. The longest noun phrase is extracted here, but if this English noun phrase is too long and the corresponding Japanese noun phrase is not extracted, the extracted longest noun phrase is decomposed and shorter. All noun phrases may be extracted.
It should be noted that an arrangement such as “the Diplomatic and Consular Missions in Kuwait from executing their functions” is a part of a noun phrase because the part of “executing their functions” does not start with a capital letter in the process of step s01 of this embodiment. Not considered.

抽出された英語名詞句を本発明の実験システムで翻訳し、翻訳結果を形態素解析手法である「茶筌」で形態素解析する。「茶筌」とは、奈良先端科学技術大学院大学が公開している自然言語処理のための日本語形態素解析ソフトウエアである。以下では、英語名詞句の機械翻訳結果を英語名詞句のMT訳と呼ぶ。   The extracted English noun phrase is translated by the experimental system of the present invention, and the translation result is analyzed by morpheme using “tea bowl” which is a morphological analysis method. "Chaya" is a Japanese morphological analysis software for natural language processing published by Nara Institute of Science and Technology. Hereinafter, the machine translation result of an English noun phrase is referred to as an MT translation of the English noun phrase.

次のステップs03は、第2言語名詞句抽出部6aにより、第2言語の名詞句候補をリストアップする処理である。
日本語名詞句抽出処理では、用言による連体修飾を含まない名詞句を英語名詞句に対応する対訳候補として抽出する。対訳コーパスの和文を、形態素解析手法ソフトウエア「茶筌」で形態素解析し、その結果に基づいて次の式(2)で表わされる単語列を抽出する。
(JNF)*JN ・・・・・・・ (2)
ここで、JNは複合名詞であり、Fは付属語であることを想定している。*は、0回以上を表す。
上記ステップs01で説明した英語名詞句の抽出の場合と異なり、条件を満たす最長の単語列だけではなく、その部分単語列も抽出する。ただし、複合名詞は原則として分割しない。ある和文からは最長の日本語名詞句「厚生年金保険法と国民年金法の改正案」の他に、「厚生年金保険法と国民年金法」、「国民年金法の改正案」、「厚生年金保険法」、「国民年金法」、「改正案」が抽出される。
The next step s03 is a process of listing up the second language noun phrase candidates by the second language noun phrase extraction unit 6a.
In the Japanese noun phrase extraction process, a noun phrase that does not include the adjunct modification is extracted as a parallel translation candidate corresponding to the English noun phrase. The Japanese text of the bilingual corpus is morphologically analyzed by the morphological analysis method software “tea bowl”, and the word string expressed by the following equation (2) is extracted based on the result.
(JNF) * JN (2)
Here, it is assumed that JN is a compound noun and F is an adjunct. * Represents 0 or more times.
Unlike the extraction of English noun phrases described in step s01 above, not only the longest word string that satisfies the condition but also its partial word string is extracted. However, compound nouns are not divided in principle. In addition to the longest Japanese noun phrase "Amendments to the Employees' Pension Insurance Law and the National Pension Law" from a certain Japanese sentence, the "Employees' Pension Insurance Law and the National Pension Law", "Amendments to the National Pension Law", "Employees'Pension" “Insurance Law”, “National Pension Law”, and “Revision Plan” are extracted.

このステップs03の特徴は、次のような諸点である。
(ア)品詞辞書を備えた日本語の形態素解析系を使う。(図3の第2言語形態素解析部11)
(イ) 品詞の組み合わせのパターンとして、名詞句候補を抽出する。対象とする品詞は、名詞、および連体修飾を表す付属語で、パターンは上記式(2)の通りである。(図2の第2言語名詞句判定パターン6b) 連体修飾を表す付属語としては、例えば、「・・・の・・・」「・・・に対する・・・」等の名詞句を形成するものである。
(ウ)上記パターンに適合する名詞句のうち、範囲が重なる複数通りの名詞句が候補として挙がった場合は、それら全てを候補とする。ただし、名詞ばかりが連続している箇所は、ひとまとまりとして扱い、その中の一部の名詞だけを取り出すことはしない。
The features of this step s03 are as follows.
(A) Use a Japanese morphological analyzer with a part-of-speech dictionary. (Second language morphological analyzer 11 in FIG. 3)
(B) Extract noun phrase candidates as patterns of part-of-speech combinations. The part of speech that is the target is a noun and an adjunct that represents the combination modification, and the pattern is as shown in the above formula (2). (Second Language Noun Phrase Determination Pattern 6b in FIG. 2) As an appendix representing the combination modification, for example, a noun phrase such as “... It is.
(C) Among the noun phrases that match the above pattern, when a plurality of noun phrases with overlapping ranges are listed as candidates, all of them are candidates. However, parts where only nouns are continuous are treated as a group, and only some of the nouns are not extracted.

この結果、上記第2言語文から抽出される日本語名詞句候補は、
「双方」
「イラク」
「在クウェート外交領事使節団」
「活動」
「上での障害」
「上」
「障害」
「同使節団員の地位及び不可侵権」
「同使節団員の地位」
「同使節団員」
「地位及び不可侵権」
「地位」
「不可侵権」
「行動」
となる。
As a result, Japanese noun phrase candidates extracted from the second language sentence are:
"both"
"Iraq"
"Kuwaiti diplomatic mission in Kuwait"
"Activity"
“Failure on”
"Up"
"Failure"
"The status and non-aggression of the mission members"
"The status of the mission members"
"Member of the mission"
"Position and non-aggression"
"Position"
"Non-aggression"
"Action"
It becomes.

次に、ステップs04では、ステップs02で抽出した英語名詞句候補を、第1言語から第2言語への機械翻訳手段7で日本語に翻訳する。上記第1言語文の場合、英語名詞句候補は、「the Diplomatic and Consular Missions in Kuwait」だけであり、その機械翻訳(MT訳)は、
「クウェートにおける外交上の、そして領事のミッション」
であったとする。この段階での機械翻訳の正確性は本発明では重要でなく、任意の機械翻訳方法、機械翻訳装置を使用することができる。またはいわゆる機械翻訳装置でなく、用例主導型翻訳装置、例文主導型翻訳装置と言われるような翻訳装置であってもよい。
もしこのステップs04で機械翻訳により正しい翻訳が得られるのであれば、以下に説明する本発明の処理は不要になる。このように処理が不要になることにより本発明の処理時間を短くすることができる。または本発明の最終的な処理において対訳名詞句として出力しないように処理する。あるいは本発明の処理をすることにより、機械翻訳で得られた結果よりもより望ましい英語固有表現と日本語表現の対を作ることができ、辞書に登録されていないものだけを収集することができ、より辞書のレベルを高くすることができる。本発明はこの翻訳された結果から、第1言語に適合する第2言語を抽出することを特徴とする。
Next, in step s04, the English noun phrase candidate extracted in step s02 is translated into Japanese by the machine translation means 7 from the first language to the second language. In the case of the first language sentence, the only English noun phrase candidate is “the Diplomatic and Consular Missions in Kuwait”, and its machine translation (MT translation) is
"Diplomatic and consular missions in Kuwait"
Suppose that The accuracy of machine translation at this stage is not important in the present invention, and any machine translation method and machine translation apparatus can be used. Alternatively, instead of a so-called machine translation device, a translation device called an example-driven translation device or an example sentence-driven translation device may be used.
If a correct translation can be obtained by machine translation in this step s04, the processing of the present invention described below becomes unnecessary. Thus, the processing time of the present invention can be shortened by eliminating the processing. Alternatively, the final processing of the present invention is processed so that it is not output as a parallel noun phrase. Alternatively, by performing the processing of the present invention, it is possible to create a pair of English proper expressions and Japanese expressions that are more desirable than the results obtained by machine translation, and it is possible to collect only those that are not registered in the dictionary. , The dictionary level can be higher. The present invention is characterized in that a second language that matches the first language is extracted from the translated result.

このようにして得られた英語名詞句候補の機械翻訳結果(MT訳)を、ステップs04−1で、図2に示す日本語形態素解析部11により、日本語形態素解析する。上記の英語名詞句候補のMT訳の形態素解析結果は、例えば次のようになる。
クウェート/に/おける/外交/の/、/そして/領事/の/ミッション
ここで、スラッシュ記号は、形態素の境界を表し、アンダーラインを施されている形態素はその品詞が名詞であることを示している。
なお、上記説明したステップs01〜ステップs04−1の順序は、この順序に限らず適宜変更してもよく、並列に処理してもよい。
The machine translation result (MT translation) of the English noun phrase candidate thus obtained is subjected to Japanese morphological analysis by the Japanese morphological analysis unit 11 shown in FIG. 2 in step s04-1. The morphological analysis result of the MT translation of the above English noun phrase candidate is, for example, as follows.
" Kuwait / in / in / diplomatic / above / of / and / and / consular / of / mission "
Here, the slash mark represents a morpheme boundary, and an underlined morpheme indicates that the part of speech is a noun.
The order of steps s01 to s04-1 described above is not limited to this order, and may be changed as appropriate, or may be processed in parallel.

次に、ステップs05〜ステップs14のループ1で、上記ステップs02で得た英語名詞句及びステップs04で得た英語名詞句のMT訳と、ステップs03で得た日本語名詞句候補との、全ての組合せを順次試す。
このループ1における照合処理では、(1)意味的類似性と音韻的類似性の二つの観点から英語名詞句のMT訳と日本語名詞句の対を評価し、二種類の類似度を統合して全体としての類似度を求める。さらに、(2)英語名詞句の意味的適格性を判断(構文的曖昧性を解消)し、適格な場合にのみ日本語名詞句との対応付けを行なう。
ループ1に含まれるステップs05〜ステップs06について説明する。
ステップs05では、前記のようにして得られた英語名詞句候補のMT訳の一つと、前記のようにして得られた日本語名詞句候補の一つとを、図2の第2言語の名詞間または名詞句間の類似度判定手段9により、類似度を判定する。
Next, in loop 1 from step s05 to step s14, all of the MT translation of the English noun phrase obtained in step s02 and the English noun phrase obtained in step s04 and the Japanese noun phrase candidate obtained in step s03 Try the combinations in order.
In the matching process in loop 1, (1) MT translation of Japanese noun phrases and Japanese noun phrases are evaluated from the two viewpoints of semantic similarity and phonological similarity, and the two types of similarity are integrated. The overall similarity is obtained. Furthermore, (2) the semantic eligibility of English noun phrases is judged (syntactic ambiguity is resolved), and correspondence with Japanese noun phrases is performed only when they are qualified.
Steps s05 to s06 included in the loop 1 will be described.
In step s05, one MT translation of the English noun phrase candidate obtained as described above and one Japanese noun phrase candidate obtained as described above are converted into the second language noun phrase in FIG. Alternatively, the similarity is determined by the similarity determination means 9 between noun phrases.

類似度の判定は、図2の文字的類似性判定部9bによる意味的類似性の評価と、音韻的類似性判定部9cによる音韻的類似性の評価により各スコアを求め、その結果を総合判断する。また意味的類似性の評価は、文字単位での比較と、文字種を考慮した比較がある。
(1)意味的類似性の評価:文字単位での比較
二つの日本語文字列を照合して両者の類似度を求める方法は、照合を単語単位で行なう方法と、文字単位で行なう方法に分けられる。英語名詞句のMT訳と日本語名詞句の照合は文字単位で行なう。なお、照合の対象は英語名詞句のMT訳と日本語名詞句のそれぞれの複合名詞の部分とし、付属語部分は対象外とする。
英語名詞句のMT訳と、日本語名詞句の意味的類似性を表わす尺度としてジャッカード係数を用いる。(ジャッカード係数は、例えば「実例クラスター分析」Romesburg著 西田英郎訳 佐藤嗣二 訳 内田老鶴圃版、1992年参照)、すなわち、英語名詞句のMT訳の複合名詞部分に現れる文字の集合(文字の出現順序を考慮せず、文字の重複を許す)をX、日本語名詞句の複合名詞部分に現れる文字の集合をYとし、さらに、XとYの両方に現れる文字の集合Uとしたとき、英語名詞句のMT訳と日本語名詞句の対に対する意味的類似度Ssemを次の式(3)で求める。
The similarity is determined by obtaining each score by evaluation of semantic similarity by the character similarity determination unit 9b in FIG. 2 and evaluation of phonological similarity by the phonological similarity determination unit 9c, and comprehensively determining the result. To do. Semantic similarity can be evaluated in character units or character types.
(1) Semantic similarity evaluation: Comparison in character units The method of collating two Japanese character strings and obtaining the similarity between them is divided into a method of performing collation in units of words and a method of performing in units of characters. It is done. The MT translation of English noun phrases and Japanese noun phrases are collated on a character basis. The target of collation is the MT translation of English noun phrases and the compound noun parts of Japanese noun phrases, and the attached word part is excluded.
The Jackard coefficient is used as a scale representing the MT translation of English noun phrases and the semantic similarity between Japanese noun phrases. (The Jackard coefficient is, for example, “Example Cluster Analysis” by Romesburg, translated by Hideo Nishida, translated by Shinji Sato, translated by Utsuda Otsukuru, 1992), that is, a set of characters that appear in the compound noun part of the MT translation of the English noun phrase ( Let X be the character's appearance order without allowing for the appearance of characters), Y be the set of characters that appear in the compound noun part of the Japanese noun phrase, and U be the set U of characters that appear in both X and Y Then, the semantic similarity Ssem for a pair of an MT translation of an English noun phrase and a Japanese noun phrase is obtained by the following equation (3).

Figure 2007018359
Figure 2007018359

ある英文から抽出される“The Headquarters of the Struggle against Consumption Tax Raise”を従来の実験システムで翻訳すると、「消費税上昇に対する奮闘の本部」というMT訳が得られる。このMT訳において複合名詞部分は「消費税上昇」、「奮闘」、「本部」である(文字数は9文字)。他方、この英文に対応する和文から抽出される「消費税率引き上げ反対運動推進本部」は複合名詞のみから構成されている(文字数は16文字)。このとき、英語名詞句のMT訳の複合名詞を構成する文字の集合と、日本語名詞句の複合名詞を構成する文字の集合の両方に現れる文字は「消」、「費」、「税」、「上」、「本」、「部」の6文字である。従って、英語名詞句のMT訳「消費税上昇に対する奮闘の本部」と、日本語名詞句「消費税率引き上げ反対運動推進本部」の意味的類似度として、式(3)から、Ssem=6/(9+16−6)=0.316という値が与えられる。この値を、“The Headquarters of the Struggle against Consumption Tax Raise”と、「消費税率引き上げ反対運動推進本部」との間の意味的類似度と解釈する。   The translation of “The Headquarters of the Struggle against Consumption Tax Raise” extracted from an English sentence using a conventional experimental system yields the MT translation of “Headquarters of struggle against consumption tax rise”. In this MT translation, the compound noun parts are “consumption tax rise”, “struggle”, and “headquarters” (number of characters is 9 characters). On the other hand, the “promotion headquarters against consumption tax rate increase” extracted from the Japanese sentence corresponding to this English sentence is composed of compound nouns only (16 characters). At this time, the characters appearing in both the set of characters constituting the MT translation compound noun of the English noun phrase and the set of characters constituting the compound noun of the Japanese noun phrase are “erasure”, “expense”, “tax”. , “Up”, “book”, and “part”. Therefore, from the expression (3), Ssem = 6 / () as the semantic similarity between the MT translation of the English noun phrase “Headquarters for struggling against consumption tax rise” and the Japanese noun phrase “Headquarters for promoting movement against consumption tax rate” The value 9 + 16−6) = 0.316 is given. This value is interpreted as the semantic similarity between “The Headquarters of the Struggle against Consumption Tax Raise” and the “Promotion Headquarters against Consumption Tax Rate Increase”.

(2)意味的類似性の評価:文字種を考慮した比較
上記(1)[意味的類似性の評価:文字単位での比較]の文字単位の照合では、すべての文字種(漢字、平仮名、片仮名、英字、数字、記号など)を同等に扱っている。このような文字種の違いを考慮しない処理では、漢字以外の文字同士が不適切に適合してしまうことがある。例えばある英文から抽出される"Kasumigaseki Station of the Teito Rapid Transit Authority”のMT訳は「帝都高速度交通営団のKasumigasekiステーション」となる。この英文に対応する和文は「営団地下鉄・霞ヶ関駅」や「アタッシェケース」などが抽出される。この場合、「帝都高速度交通営団のKasumigasekiステーション」と「営団地下鉄・霞ヶ関駅」の間の意味的類似度のほうが「帝都高速度交通営団のKasumigasekiステーション」と「アタッシェケース」の間の意味的類似度よりも高くなることが望ましい。
(2) Semantic similarity evaluation: Comparison in consideration of character types All character types (kanji, hiragana, katakana, etc.) are used in the above-mentioned (1) [Evaluation of semantic similarity: comparison in character units]. English letters, numbers, symbols, etc.) are treated equally. In such processing that does not take into account differences in character types, characters other than Kanji characters may be inappropriately matched. For example, the MT translation of “Kasumigaseki Station of the Teito Rapid Transit Authority” extracted from a certain English sentence will be “Kasumigaseki Station of the Imperial High-Speed Transit Authority”. The Japanese text corresponding to this English sentence is extracted from “Keidan Subway / Kasumigaseki Station” and “Attache Case”. In this case, the semantic similarity between “Kasumigaseki Station of the Imperial City High-Speed Transportation Company” and “Kasumigaseki Station of the Imperial City High-Speed Transportation Company” is more similar between “Kasumigaseki Station of the Imperial City High-speed Transportation Company” and “Attache Case”. Desirably higher than the degree.

しかし、実際には次のように後者の意味的類似度のほうが逆に高くなってしまう。正しい対応付けである「帝都高速度交通営団のKasumigasekiステーション」と「営団地下鉄・霞ヶ関駅」の複合名詞の間に共通する文字は、「営」と「団」であるので、式(3)によってこれらの間の意味的類似度Ssemは、2/(27+9−2)=0.059となる。他方、「帝都高速度交通営団のKasumigasekiステーション」と「アタッシェケース」の複合名詞の間に共通する文字は「シ」、「ー」、「ス」であるので、意味的類似度Ssemは、3/(27+8−3)=0.094となる。この類似度の値は、比較的低いので、閾値による制限でこの対応付けを出力しないようにすることもできるが、正しくない対応付けに正しい対応付けよりも高い類似度が与えられることは望ましくない。   However, the latter semantic similarity is actually higher as follows. The correct common correspondence between the compound nouns of “Kasumigaseki Station of Teikoku High Speed Transportation Corps” and “Keidan Subway / Kasumigaseki Station” is “Ying” and “Dang”. The semantic similarity Ssem between them is 2 / (27 + 9−2) = 0.059. On the other hand, the common characters between the compound nouns of “Kasumigaseki Station of the Imperial Capital High-Speed Transportation Company” and “Attache Case” are “shi”, “-”, “su”, so the semantic similarity Ssem is 3 / (27 + 8−3) = 0.094. Since this similarity value is relatively low, it is possible to prevent this association from being output due to a restriction by a threshold value. However, it is not desirable that an incorrect association is given higher similarity than a correct association. .

このような事例を観察すると、漢字は一文字でも意味を持つことが多いが、それ以外の字種の文字はそうではないことから、漢字と非漢字を同等に扱うのは適切ではないことが分かる。このような問題への対策として、文字種により重み付けを行なう方法がこれまでに示されている。これに対して本発明では、照合の際、文字種により照合単位を変化させることにより、問題を解決する。具体的には、漢字の照合は文字単位とし、非漢字の照合は同一文字種の最長文字列単位(ただし単語境界は越えない)とする。非漢字の場合は同一文字種の最長文字列単位で一致しなければならないという条件を設けるが、類似度の計算ではジャッカード係数の求め方は漢字の場合も非漢字の場合も同じとする。すなわち、英語名詞句のMT訳の複合名詞部分に現れる文字の集合をX、日本語名詞句の複合名詞部分に現れる文字の集合をYとし、さらに、XとYから同一文字種の最長文字列単位で互いに一致しない非漢字を削除した文字の集合をそれぞれX´とY´とし、X´とY´の両方に現れる文字の集合U´としたとき、英語名詞句のMT訳と日本語名詞句の対に対する文字種を考慮した意味的類似度S´semを次の式(4)で求める。   Observing these cases, it is clear that even a single character is meaningful, but other characters are not, so it is not appropriate to treat kanji and non-kanji equally. . As a countermeasure against such a problem, a method of weighting by character type has been shown so far. On the other hand, in the present invention, the problem is solved by changing the collation unit according to the character type during collation. Specifically, collation of kanji is performed in units of characters, and collation of non-kanji is performed in units of the longest character string of the same character type (however, word boundaries are not exceeded). In the case of non-kanji characters, a condition is set that the longest character string of the same character type must be matched. However, in calculating the similarity, the method for obtaining the Jackard coefficient is the same for both kanji characters and non-kanji characters. That is, X is the set of characters that appear in the compound noun part of the MT translation of the English noun phrase, Y is the set of characters that appear in the compound noun part of the Japanese noun phrase, and the longest string unit of the same character type from X and Y When the character sets from which non-kanji characters that do not match each other are deleted are X ′ and Y ′, and the character set U ′ appears in both X ′ and Y ′, the MT translation of the English noun phrase and the Japanese noun phrase The semantic similarity S′sem in consideration of the character type for the pair is obtained by the following equation (4).

Figure 2007018359
Figure 2007018359

上記の「帝都高速度交通営団のKasumigasekiステーション」と「アタッシェケース」の場合、Xから「Kasumigasekiステーション」を構成する文字が削除されるので、X´の要素は「帝」、「都」、「高」、「速」、「度」、「交」、「通」、「営」、「団」となり、Yからは「アタッシェケース」を構成する文字が削除されるので、Y´は空集合となる。このため、X´とY´に共通する文字は存在しなくなり、式(4)による意味的類似度S'semは0となる。このように文字種を考慮した処理を行なうことによって、漢字以外の文字が短すぎる単位で適合することを防ぐことができる。   In the case of “Kasumigaseki Station of the Emperor Metropolitan High Speed Transportation Company” and “Attache Case”, the characters that make up “Kasumigaseki Station” are deleted from X. ”,“ Speed ”,“ Degree ”,“ Communication ”,“ Through ”,“ Ying ”,“ Group ”, and the characters that make up“ Attache Case ”are deleted from Y, so Y ′ is an empty set . For this reason, there is no character common to X ′ and Y ′, and the semantic similarity S′sem according to Expression (4) is zero. By performing processing in consideration of the character type in this way, it is possible to prevent characters other than kanji from being matched in units that are too short.

(3)音韻的類似性の評価
意味的類似性は、英語名詞句の構成要素が機械翻訳システムの辞書に登録されており、そのMT訳が得られる場合に有効であるが、辞書に登録されていない場合には有効に働かない。特に、本発明で対象にしている英語名詞句(の構成要素)は辞書に登録されていないことも少なくないと予想される。このような場合、翻字(transliteration)が有効である。
本発明の実験に用いた読売新聞と、The Daily Yomiuriのように日本に関する事柄について述べた記事と、その対訳記事が多く含まれるコーパスを処理対象とする場合、日本に関する英語名詞句には日本語をローマ字表記した語が多く含まれる可能性が高い。このことに着目して、音韻的類似性の評価としてローマ字読みの照合を行なう。英語名詞句のMT訳に現れる辞書未登録語の読みは五十音表との照合によって得る。英語名詞句のMT訳中の辞書未登録語以外の読みと、日本語名詞句の読みは上記形態素解析ソフトウエア「茶筌」によって得ることができる。
(3) Evaluation of phonological similarity Semantic similarity is effective when the constituent elements of an English noun phrase are registered in the dictionary of a machine translation system and the MT translation is obtained. If not, it will not work effectively. In particular, it is expected that the English noun phrases (components) targeted in the present invention are not registered in the dictionary. In such cases, transliteration is effective.
When processing a Yomiuri Shimbun used in the experiment of the present invention, an article about Japan related matters such as The Daily Yomiuri, and a corpus containing many parallel translations, the English noun phrase related to Japan is Japanese. There is a high possibility that many words written in Roman letters are included. Focusing on this, Romaji reading is collated as an evaluation of phonological similarity. Readings of unregistered words that appear in the MT translation of English noun phrases are obtained by collating with the Japanese syllabary table. Readings other than unregistered words in the MT translation of English noun phrases and readings of Japanese noun phrases can be obtained by the above morphological analysis software “tea bowl”.

英語名詞句のMT訳と日本語名詞句の音韻的類似度も、意味的類似度の場合と同じくジャッカード係数で測定する。ただし、音韻的類似度の場合は文字単位ではなく単語単位で照合を行なう。すなわち、英語名詞句のMT訳の複合名詞部分の読みの集合をX、日本語名詞句の複合名詞部分の読みの集合をYとし、さらに、XとYの両方に現れる読みの集合をUとして、音韻的類似度Sphoを式(3)と同様の式で求める。
上記(2)「意味的類似性の評価:文字種を考慮した比較」で述べたように、“Kasumigaseki Station of the Teito Rapid Transit Authority”に対応付けたい日本語名詞句は「営団地下鉄・霞ヶ関駅」である。しかし、実験システムの辞書に“Kasumigaseki”が登録されていないため、この日本語名詞句と“Kasumigaseki Station of the Teito Rapid Transit Authority”のMT訳「帝都高速度交通営団のKasumigasekiステーション」との意味的類似度は0.059と低くなる。五十音表との照合及び形態素解析ソフトウエア「茶筌」によって英語名詞句のMT訳の読みとして「テイト」、「コウソクド」、「コウツウ」、「エイダン」、「カスミガセキ」、「ステーション」が得られる。また、形態素解析ソフトウエア「茶筌」によって日本語名詞句の読みとして「エイダン」、「チカテツ」、「カスミガセキ」、「エキ」が得られる。従って、英語名詞句のMT訳の読みと日本語名詞句の読みの両方に現れる読みは「エイダン」と「カスミガセキ」となり、「帝都高速度交通営団のKasumigasekiステーション」と「営団地下鉄・霞ヶ関駅」の間の音韻的類似度Sphoは、2/(6+4−2)=0.250となる。
The MT translation of the English noun phrase and the phonological similarity of the Japanese noun phrase are also measured by the Jackard coefficient as in the case of the semantic similarity. However, in the case of phonological similarity, collation is performed in units of words, not in units of characters. That is, the set of readings of the compound noun part of the MT translation of the English noun phrase is X, the set of readings of the compound noun part of the Japanese noun phrase is Y, and further, the set of readings appearing in both X and Y is U. The phonological similarity Spho is obtained by the same expression as Expression (3).
As mentioned in (2) “Evaluation of semantic similarity: Comparison in consideration of character types”, the Japanese noun phrase to be associated with “Kasumigaseki Station of the Teito Rapid Transit Authority” is “Keidan Subway / Kasumigaseki Station”. It is. However, since “Kasumigaseki” is not registered in the dictionary of the experimental system, this Japanese noun phrase and the “Kasumigaseki Station of the Teito Rapid Transit Authority” MT translation “Kasumigaseki Station of the Imperial Capital High Speed Transit Authority” are meaningful. The similarity is as low as 0.059. “Tate”, “Kosokudo”, “Kotsuku”, “Aidan”, “Kasumigaseki”, and “Station” are read as MT translations of English noun phrases by the “Chaya”, a collation with the Japanese syllabary and morpheme analysis software. It is done. In addition, “Aidan”, “Chikatsutsu”, “Kasumigaseki”, and “Eki” are obtained as readings of Japanese noun phrases by the morphological analysis software “tea bowl”. Therefore, the readings that appear in both MT translations of English noun phrases and Japanese noun phrases are “Aidan” and “Kasumigaseki”, “Kasumigaseki Station of the Imperial Capital High Speed Transit Authority” and “Keidan Subway / Kasumigaseki Station” The phonological similarity Spho between is 2 / (6 + 4-2) = 0.250.

(4)意味的類似性の評価と音韻的類似性の評価の統合
本発明では、総合判定部9dにより、英語名詞句のMT訳に辞書未登録語が含まれている場合、次の式(5)のような加重和計算式に基づいて意味的類似度S´semと音韻的類似度Sphoを組み合わせて、英語名詞句のMT訳と日本語名詞句の間の総合類似度Sを求める。英語名詞句のMT訳に辞書未登録語が含まれていない場合には意味的類似度S´semを総合類似度Sとする。
(4) Integration of Semantic Similarity Evaluation and Phonological Similarity Evaluation In the present invention, when an unregistered word is included in the MT translation of an English noun phrase by the comprehensive determination unit 9d, the following formula ( The total similarity S between the MT translation of the English noun phrase and the Japanese noun phrase is obtained by combining the semantic similarity S'sem and the phonological similarity Spho based on the weighted sum calculation formula as in 5). If the MT translation of the English noun phrase contains no unregistered word, the semantic similarity S′sem is set as the total similarity S.

Figure 2007018359
βは現在のところ0.5としている。
そして、総合類似度Sが類似度閾値th以上である英語名詞句と日本語名詞句の対を出力する。現在のところ類似度閾値thは0.1としている。
Figure 2007018359
β is currently set to 0.5.
Then, a pair of an English noun phrase and a Japanese noun phrase whose total similarity S is equal to or greater than the similarity threshold th is output. At present, the similarity threshold th is 0.1.

ここで、以上のようにして得られた英語名詞句候補のMT訳と、日本語名詞句候補との組み合わせの一つとして、次の組を考える。
英語名詞句候補のMT訳:クウェートにおける外交上の、そして領事のミッション
日本語名詞句候補:在クウェート外交領事使節団
この組の形態素構成は、それぞれ次の通りである。
英語名詞句候補のMT訳:クウェート/に/おける/外交/の/、/そして/領事/のミッション
日本語名詞句候補:クウェート外交領事使節団
スラッシュとアンダーラインの意味は、ステップs04で述べたとおり、スラッシュ記号は形態素の境界を表し、アンダーラインを施した形態素は名詞であることを示している。また日本語名詞句候補の形態素構成は、ステップS03において、日本語名詞句候補を得る前に、日本語文を形態素解析した段階で得ておく。
Here, the following set is considered as one of the combination of the MT translation of the English noun phrase candidate obtained as described above and the Japanese noun phrase candidate.
MT translation of English noun phrase candidates: diplomatic and consular missions in Kuwait Candidates for Japanese noun phrases: diplomatic consular delegations in Kuwait
MT translation of the English noun phrase candidate: Kuwait / to / definitive / diplomacy / above / Bruno /, / and / consul / mission Japanese noun phrase candidate: the meaning of the presence / Kuwait / diplomatic / consular / mission slash and underline As described in step s04, the slash mark represents a morpheme boundary, and the underlined morpheme is a noun. Further, the morphological structure of the Japanese noun phrase candidate is obtained at the stage of morphological analysis of the Japanese sentence before obtaining the Japanese noun phrase candidate in step S03.

意味的類似性については、本発明では文字の共通性を見ることにより求めている。より詳しくは、名詞句中の名詞部分、即ち上記例のアンダーライン箇所に示した名詞の共通性で見ている。即ち、上記(1)「意味的類似性の評価:文字単位での比較」で説明したとおりである。
また漢字と非漢字(例えば、カタカナ)とでは、1文字の重みが異なると考えられるので、この発明では漢字の場合は1文字でも共通していれば、「共通している」と見なすが、上記(2)「意味的類似性の評価:文字種を考慮した比較」で述べたように、非漢字の場合は形態素解析で一致していなければ「共通している」とは見なさないことにしている。
The semantic similarity is obtained by looking at the commonality of characters in the present invention. More specifically, the noun part in the noun phrase, that is, the noun commonality shown in the underlined portion of the above example is used. That is, as described in (1) “Evaluation of semantic similarity: comparison in character units”.
In addition, since it is considered that the weight of one character is different between kanji and non-kanji (for example, katakana), in the present invention, even if one character is common, it is regarded as “common”. As described in (2) “Evaluation of semantic similarity: Comparison considering character types”, non-kanji characters are not considered “common” if they do not match in morphological analysis. Yes.

よって、上記式(4)にあてはめて、意味的類似度を求めると、次のようになる。
X・・・・・クウェート外交上領事ミッション(15文字)
Y・・・・・在クウェート外交領事使節団(13文字)
U‘・・・・・クウェート外交領事(9文字)
意味的類似度=9/(15+13-9)=0.4737
音韻的類似性については、本発明で言う音韻的類似性は、英語名詞句のMT訳に英文字のみからなる形態素(すなわち、MT訳で訳されなかった単語)が含まれている場合のみ求めるので、この組においては求めない。音韻的類似性を求めなかった場合は、上記式(5)で説明したように総合的判定の際にも音韻的類似性の効力を見ないようにする。
なお、音韻的類似性を求めることが有効な例は、上記(3)音韻的類似性の評価で説明した。
Therefore, when the semantic similarity is obtained by applying the above equation (4), the following is obtained.
X ... Kuwaiti Consular Mission (15 characters)
Y: Diplomatic mission in Kuwait (13 characters)
U '... Kuwaiti diplomatic consul (9 characters)
Semantic similarity = 9 / (15 + 13-9) = 0.4737
With respect to phonological similarity, the phonological similarity referred to in the present invention is obtained only when the MT translation of an English noun phrase includes a morpheme consisting only of English letters (ie, a word that was not translated by the MT translation). So we don't ask for this group. When phonological similarity is not obtained, the effect of phonological similarity is not seen in the comprehensive determination as described in the above formula (5).
An example in which it is effective to obtain phonological similarity has been described in (3) Evaluation of phonological similarity.

以上のような結果、この組の総合的類似度は、意味的類似度と同じになり、0.4737である。
類似度の閾値を0.1とすると、この組は類似度が閾値を上回っているので、ステップs06からステップs07に進む。もし類似度が閾値0.1以下であれば、ステップs13へ進む。ステップs13は、名詞句候補の組み合わせが外にまだある場合は、ステップs14で次の組み合わせを試すため、ステップs05に戻る。図3のループはステップs05に戻るが、ステップs04に戻り、第1言語の名詞句候補を第2言語にMT訳してもよい。ステップs13で名詞句候補の組み合わせがない場合は、ステップs15に進み、出力すると決定した対訳名詞句を出力して、終了する。
なお、「在クウェート外交領事使節団」以外に、ステップs03で求めた日本語名詞句候補については、英語名詞句候補のMT訳「クウェートにおける外交上の、そして領事のミッション」との類似性は、文字の共通性から見て、ゼロまたはきわめて低い値(類似度の閾値を0.1とすると、明らかにそれ未満)になることは明白なので、詳細な説明は省略する。この場合はステップs06からステップs13に進む。
As a result, the overall similarity of this group is the same as the semantic similarity, which is 0.4737.
If the similarity threshold is set to 0.1, the similarity of this group exceeds the threshold, and the process advances from step s06 to step s07. If the similarity is less than or equal to the threshold value 0.1, the process proceeds to step s13. Step s13 returns to step s05 in order to try the next combination in step s14 when there is still a combination of noun phrase candidates. The loop in FIG. 3 returns to step s05, but the process may return to step s04 to translate the noun phrase candidate of the first language into the second language. If there is no combination of noun phrase candidates in step s13, the process proceeds to step s15, the bilingual noun phrase determined to be output is output, and the process ends.
In addition to the “Kuwaiti Diplomatic Consular Mission”, the Japanese noun phrase candidate obtained in step s03 is similar to the MT translation of the English noun phrase candidate “diplomatic and consular mission in Kuwait”. In view of the commonality of characters, it is clear that the value will be zero or extremely low (obviously less than 0.1 when the similarity threshold is 0.1), so detailed description will be omitted. In this case, the process proceeds from step s06 to step s13.

次にステップs07では、英語名詞句のMT訳の日本語名詞句候補に対する関与率を求める準備を行う。つまり第1言語の名詞句候補のMT訳から名詞を抽出する。
前記英語名詞句候補のMT訳
クウェート/に/おける/外交/の/、/そして/領事/のミッション」
から、名詞を抽出する。ここで言う名詞とは、図2の第2言語名詞判定パターン8bによって第2言語名詞抽出部8aが形態素解析結果より抽出した「名詞」のみが連続している箇所を言う。つまり
「クウェート」
「外交上」
「領事」
「ミッション」
が名詞として抽出される。
Next, in step s07, preparation is made for determining the participation rate of the MT translation of the English noun phrase with respect to the Japanese noun phrase candidate. That is, the noun is extracted from the MT translation of the first language noun phrase candidate.
MT translation of the above English noun phrase candidates " Kuwait / Ni / Koku / Diplomatic / Up ///// Consul / Mission"
To extract nouns. Here, the noun refers to a portion where only “nouns” extracted from the morphological analysis result by the second language noun extraction unit 8a by the second language noun determination pattern 8b of FIG. 2 are continuous. In other words, “Kuwait”
"Diplomatic"
"Consul"
"Mission"
Are extracted as nouns.

次にステップs08では第1言語の名詞句候補のMT訳から抽出された各名詞について、第2言語名詞句候補との類似度をそれぞれ求める。
上記ステップs07で抽出した各々の名詞について、前記日本語名詞句候補
クウェート外交領事使節団」
との類似度をそれぞれ求める。求め方は上記ステップs05で述べたとおりである。その結果は式(4)より求めると、次の通りである。
「クウェート」・・・・・0.3846
「外交上」 ・・・・・0.1429
「領事」 ・・・・・0.1538
「ミッション」・・・・・0
次にステップs09で、それぞれの類似度が類似度閾値以上かどうかを判定する。
ここで、閾値を0.1とすると、「クウェート」「外交上」「領事」が類似度の閾値以上で、「ミッション」が類似度の閾値未満となる。
次にステップs10では、第1言語の名詞句のMT訳から抽出された名詞のうち、第2言語の名詞句候補との類似度が類似度閾値以上だったものの割合(関与率)を求める。すなわち、英語名詞句候補のMT訳「クウェートにおける外交上の、そして領事のミッション」から抽出された4個の名詞のうち、日本語名詞句候補「在クウェート外交領事使節団」に関与しているのは3個であるので、関与率は0.75となる。
次のステップs11は、関与率が閾値を越えるかどうかを、関与率判定部10が判定する。関与率の閾値を0.5とすると、上記の関与率0.75は閾値を越えている。
Next, in step s08, for each noun extracted from the MT translation of the first language noun phrase candidate, the degree of similarity with the second language noun phrase candidate is obtained.
Noun each extracted in step S07, the Japanese noun phrase candidate "presence / Kuwait / foreign / consul / mission"
The degree of similarity is obtained respectively. The calculation method is as described in step s05. The result is as follows when it is obtained from equation (4).
「Kuwait」 ・ ・ ・ ・ ・ 0.3846
“Diplomatic” ・ ・ ・ ・ ・ 0.1429
`` Consul '' ・ ・ ・ ・ ・ 0.1538
"Mission" ... 0
Next, in step s09, it is determined whether or not each similarity is equal to or greater than a similarity threshold.
Here, when the threshold is 0.1, “Kuwait”, “Diplomatic”, and “Consular” are equal to or higher than the similarity threshold, and “Mission” is lower than the similarity threshold.
Next, in step s10, the ratio (participation rate) of the nouns extracted from the MT translation of the noun phrase in the first language whose similarity with the noun phrase candidate in the second language is equal to or greater than the similarity threshold is obtained. In other words, among the four nouns extracted from the MT translation of the English noun phrase candidate "Diplomatic and consular mission in Kuwait", it is involved in the Japanese noun phrase candidate "Kuwait diplomatic mission in Kuwait" Since there are three, the participation rate is 0.75.
In the next step s11, the participation rate determination unit 10 determines whether the participation rate exceeds a threshold value. If the threshold of participation rate is 0.5, the above-mentioned participation rate 0.75 exceeds the threshold value.

よって、ステップs12では、関与率の閾値を越えた名詞句候補の組を対訳名詞句として出力すると決定する。この実施例1で説明した以下に示す英語名詞句候補と、英語名詞句候補のMT訳と、日本語名詞句候補は、名詞句の対訳として正しいと判断される。あるいは正しいと判断される可能性がある。
英語名詞句候補:the Diplomatic and Consular Missions in Kuwait
英語名詞句候補のMT訳:クウェートにおける外交上の、そして領事のミッション
日本語名詞句候補:在クウェート外交領事使節団
もし、ステップs11で、関与率が閾値を越えない場合、その名詞句候補の組は対訳名詞句として出力されず、ステップs13へ進む。またステップs12で詞句候補の組を対訳名詞句として出力すると決定した後は、ステップs13へ進む。
Therefore, in step s12, it is determined that a set of noun phrase candidates that exceed the participation rate threshold is output as a parallel noun phrase. The following English noun phrase candidate, the MT translation of the English noun phrase candidate, and the Japanese noun phrase candidate described in the first embodiment are determined to be correct as a parallel translation of the noun phrase. Or it may be judged correct.
English noun phrase candidates: the Diplomatic and Consular Missions in Kuwait
MT translation of English noun phrase candidates: Diplomatic and consular mission in Kuwait Japanese noun phrase candidates: Kuwaiti diplomatic mission in Kuwait If the participation rate does not exceed the threshold in step s11, the noun phrase candidate The set is not output as a bilingual noun phrase, and the process proceeds to step s13. Further, after it is determined in step s12 that the candidate phrase set is output as a parallel noun phrase, the process proceeds to step s13.

(実施例2)
実施例2は、類似度だけで判断すると、間違った名詞句を対応付ける可能性があるところを、関与率判定を採用すると、誤判定を避けることができることを説明する例である。
実施例2では、次の英語文と日本語文の組から対訳名詞句を抽出する処理を説明する。
英語文:The attack on Pearl Harbor was the trigger that drew the United States into World War II.
日本語文:真珠湾攻撃は、米国が第二次世界大戦に介入するきっかけを作った転換点でもあった。
(Example 2)
The second embodiment is an example for explaining that a misjudgment can be avoided if a participation rate judgment is adopted where there is a possibility that an incorrect noun phrase may be associated with a judgment based only on the degree of similarity.
In the second embodiment, a process of extracting a bilingual noun phrase from the following English sentence and Japanese sentence pair will be described.
English: The attack on Pearl Harbor was the trigger that drew the United States into World War II.
Japanese sentence: Pearl Harbor attack was also a turning point that triggered the US intervention in World War II.

ステップs01で、上記英語文が入力され、ステップs02では、英語名詞句候補が抽出される。その英語名詞句候補は、「the United States into World War II」である。なお、「attack on Pearl Harbor」は、大文字始まりでないので、英語名詞句候補として抽出されない。
次にステップs03では、上記日本語文から日本語名詞句候補を抽出する処理である。この例では、上記日本語文から抽出される日本語名詞句候補は、次の通りである。
「真珠湾攻撃」
「米国」
「第二次世界大戦」
「きっかけ」
「転換点」
In step s01, the English sentence is input, and in step s02, English noun phrase candidates are extracted. The English noun phrase candidate is “the United States into World War II”. “Attack on Pearl Harbor” is not extracted as an English noun phrase candidate because it does not begin with a capital letter.
In step s03, a Japanese noun phrase candidate is extracted from the Japanese sentence. In this example, the Japanese noun phrase candidates extracted from the Japanese sentence are as follows.
"Attack on Pearl Harbor"
"USA"
"Second World War"
"Trigger"
"Turning point"

次にステップs04は、上記ステップs02で抽出した英語名詞句候補を機械翻訳手段により、日本語に翻訳するステップである。上記英語名詞句候補「the United States into World War II」の機械翻訳結果(MT訳)が、次の通りであったとする。
「第二次世界大戦への米国」
そして、この英語名詞句候補のMT訳の形態素解析結果は、例えば次のようであったとする。
第二次世界大戦/へ/の/米国
スラッシュ記号は形態素の境界を表し、アンダーラインを施した形態素は、その品詞が名詞であることを表している。
Next, step s04 is a step of translating the English noun phrase candidate extracted in step s02 into Japanese by machine translation means. The machine translation result (MT translation) of the above English noun phrase candidate “the United States into World War II” is as follows.
"United States to World War II"
Then, it is assumed that the morphological analysis result of the MT translation of this English noun phrase candidate is as follows, for example.
" World War II / To / No / USA "
A slash symbol represents a morpheme boundary, and an underlined morpheme indicates that the part of speech is a noun.

次のステップs05〜s14は、ステップs02で得た英語名詞句候補およびs04で得たMT訳と、ステップs03で得た日本語名詞句候補との、全ての組み合わせを試すループである。
まずステップs05およびs06を説明する。
ステップs05では、前記までで得た英語名詞句候補のMT訳の一つと、前記までで得た日本語名詞句候補の一つとを類似度を判定する。前記までで得た英語名詞句候補のMT訳と、前記までで得た日本語名詞句候補との組合せの一つとして、
英語名詞句候補のMT訳:第二次世界大戦への米国
日本語名詞句候補 :第二次世界大戦
の組を考える。
The next steps s05 to s14 are loops that try all combinations of the English noun phrase candidate obtained in step s02 and the MT translation obtained in s04 and the Japanese noun phrase candidate obtained in step s03.
First, steps s05 and s06 will be described.
In step s05, the degree of similarity is determined between one MT translation of the English noun phrase candidate obtained up to now and one of the Japanese noun phrase candidates obtained up to the above. As one of the combinations of the MT translation of English noun phrase candidates obtained above and the Japanese noun phrase candidates obtained above,
MT translation of English noun phrase candidates: United States to World War II Japanese noun phrase candidates: Consider a group of World War II.

この組の形態素解析結果は、それぞれ
第二次世界大戦/へ/の/米国
第二次世界大戦
となる。これらについて式(4)をあてはめて意味的類似度を求めると、
X ・・・・・ 第二次世界大戦米国(9文字)
Y ・・・・・ 第二次世界大戦(7文字)
U´・・・・・ 第二次世界大戦(7文字)
意味的類似度=7/(9+7-7)=0.7778
音韻的類似性については求める対象外である。よって、この組では総合的類似度も0.7778となる。類似度の閾値を0.1とすると、この組では類似度が閾値を上回っているので、ステップs06からステップs07に進む。もし類似度が閾値0.1以下であれば、ステップs13へ進む。
The result of this set of morphological analysis is
World War II / to / of / USA
World War II . By applying equation (4) to obtain the semantic similarity,
X ... World War II USA (9 characters)
Y ... World War II (7 characters)
U '... World War II (7 characters)
Semantic similarity = 7 / (9 + 7-7) = 0.7778
Phonological similarity is out of scope. Therefore, the overall similarity in this group is 0.7778. If the similarity threshold is 0.1, the similarity is higher than the threshold in this set, and the process advances from step s06 to step s07. If the similarity is less than or equal to the threshold value 0.1, the process proceeds to step s13.

ステップs07は、英語名詞句候補のMT訳から名詞を抽出するステップである。このステップs07において、「第二次世界大戦/へ/の/米国」からは、名詞「第二次世界大戦」、「米国」が抽出される。 Step s07 is a step of extracting a noun from the MT translation of the English noun phrase candidate. In this step s07, the nouns “second world war” and “US” are extracted from “ second world war / to / no / US ”.

次にステップs08〜s11で関与率を求める。
ステップs08は、英語名詞句候補のMT訳から抽出された各名詞について、日本語名詞句候補との類似度をそれぞれ求めるステップである。即ち、ステップs07で抽出した各々の名詞について、前記の日本語名詞句候補「第二次世界大戦」との類似度をそれぞれ求める。結果は、
第二次世界大戦 ・・・・・ 1.0
米国 ・・・・・ 0.0
となる。次にステップs09で、それぞれの類似度が類似度閾値以上かどうかを判定する。
ここで、類似度の閾値を0.1とすると、「第二次世界大戦」は類似度の閾値以上であり、「米国」は類似度の閾値未満となる。次にステップs10では、第1言語の名詞句のMT訳から抽出された名詞のうち、第2言語の名詞句候補との類似度が類似度閾値以上だったものの割合(関与率)を求める。上記の結果から、英語名詞句候補のMT訳「第二次世界大戦への米国」から抽出された2個の名詞のうち、日本語名詞句候補「第二次世界大戦」に関与しているのは1個であるので、関与率は0.5となる。関与率の閾値を0.5とすると、この組は閾値を越えていない。
Next, the participation rate is obtained in steps s08 to s11.
Step s08 is a step for obtaining the similarity between each noun extracted from the MT translation of the English noun phrase candidate and the Japanese noun phrase candidate. That is, for each noun extracted in step s07, the degree of similarity with the Japanese noun phrase candidate “second world war” is obtained. Result is,
World War II ... 1.0
United States 0.0
It becomes. Next, in step s09, it is determined whether or not each similarity is equal to or greater than a similarity threshold.
Here, if the similarity threshold is 0.1, “second world war” is equal to or greater than the similarity threshold, and “US” is less than the similarity threshold. Next, in step s10, the ratio (participation rate) of the nouns extracted from the MT translation of the noun phrase in the first language whose similarity with the noun phrase candidate in the second language is equal to or greater than the similarity threshold is obtained. From the above results, among the two nouns extracted from the MT translation of the English noun phrase candidate "US to World War II", it is involved in the Japanese noun phrase candidate "World War II" Since there is one, the participation rate is 0.5. If the participation rate threshold is 0.5, this set does not exceed the threshold.

次のステップs11は、関与率が閾値を越えるかどうかを、関与率判定部10が判定する。関与率の閾値を0.5とすると、上記の関与率は0.5であるから、閾値を越えていない。
よって、ステップs11で、関与率の閾値を越えていないため、
英語名詞句候補:the United States into World War II
英語名詞句候補のMT訳:第二次世界大戦への米国
日本語名詞句候補:第二次世界大戦
の候補は、名詞句の対訳として誤りとは判断される。または誤りと判断される可能性が高い。このため、この組は対訳名詞句として出力されず、ステップs13からステップs14、ステップs05へと進み、別の組み合わせが試される。
In the next step s11, the participation rate determination unit 10 determines whether the participation rate exceeds a threshold value. If the participation rate threshold is 0.5, the above-mentioned participation rate is 0.5, so the threshold is not exceeded.
Therefore, since the threshold value of the participation rate is not exceeded in step s11,
English noun phrase candidates: the United States into World War II
MT translation of English noun phrase candidates: US to World War II Candidates for Japanese noun phrase: World War II candidates are judged to be incorrect translations of noun phrases. Or, there is a high possibility of being judged as an error. For this reason, this set is not output as a bilingual noun phrase, but proceeds from step s13 to step s14 and step s05, and another combination is tried.

以上までで得た、英語名詞句候補のMT訳と、日本語名詞句候補との別の組み合わせの一つとして、次の組み合わせを考える。
英語名詞句候補のMT訳:第二次世界大戦への米国
日本語名詞句候補:米国
この組の形態素解析は、それぞれ次のようになる。
第二次世界大戦/へ/の/米国
米国
この形態素解析について、式(4)をあてはめると、
X ・・・・・ 第二次世界大戦米国(9文字)
Y ・・・・・ 米国(2文字)
U´・・・・・ 米国(2文字)
意味的類似度=2/(9+2-1)=0.2222
音韻的類似性については求める対象外である。よって、この組では総合的類似度も0.2222となる。類似度の閾値を0.1とすると、この組では類似度が閾値を上回っているので、ステップs06からステップs07に進む。もし類似度が閾値0.1以下であれば、ステップs13へ進む。
As another combination of the MT translation of the English noun phrase candidate obtained above and the Japanese noun phrase candidate, the following combination is considered.
MT translation of English noun phrase candidates: USA to World War II Japanese noun phrase candidates: USA The morphological analysis of this group is as follows.
World War II / to / of / USA
For this morphological analysis, applying equation (4),
X ... World War II USA (9 characters)
Y ... United States (2 characters)
U '... United States (2 characters)
Semantic similarity = 2 / (9 + 2-1) = 0.2222
Phonological similarity is out of scope. Therefore, in this group, the overall similarity is 0.2222. If the similarity threshold is 0.1, the similarity is higher than the threshold in this set, and the process advances from step s06 to step s07. If the similarity is less than or equal to the threshold value 0.1, the process proceeds to step s13.

ステップs07は、英語名詞句候補のMT訳から名詞を抽出するステップであり、このステップs07において、「第二次世界大戦/へ/の/米国」から、名詞を抽出すると、「第二次世界大戦」、「米国」が抽出される。
次にステップs08〜s11で関与率を求める。ステップs08は、ステップs07で抽出した各々の名詞について、前記の日本語名詞句候補「米国」との類似度をそれぞれ求める。結果は、
第二次世界大戦 ・・・・・ 0.0
米国 ・・・・・ 1.0
である。次にステップs09で、それぞれの類似度が類似度閾値以上かどうかを判定すると、類似度の閾値が0.1とすると、「米国」は類似度の閾値以上であり、「第二次世界大戦米国」は類似度の閾値未満となる。次にステップs10では、第1言語の名詞句のMT訳から抽出された名詞のうち、第2言語の名詞句候補との類似度が類似度閾値以上だったものの割合(関与率)を求めるステップであるので。上記の結果から、英語名詞句候補のMT訳「第二次世界大戦への米国」から抽出された2個の名詞のうち、日本語名詞句候補「米国」に関与しているのは1個であるので、関与率は0.5となる。関与率の閾値を0.5とすると、この組は閾値を越えていない。
Step s07 is a step of extracting nouns from the MT translation of English noun phrase candidates. In step s07, nouns are extracted from “ second world war / he /// US ”. “Great War” and “USA” are extracted.
Next, the participation rate is obtained in steps s08 to s11. In step s08, for each noun extracted in step s07, the degree of similarity with the Japanese noun phrase candidate “US” is obtained. Result is,
World War II ... 0.0
United States ・ ・ ・ ・ ・ 1.0
It is. Next, in step s09, it is determined whether or not each similarity is equal to or higher than the similarity threshold. If the similarity threshold is 0.1, “US” is equal to or higher than the similarity threshold, and “WWII USA” Is less than the similarity threshold. Next, in step s10, a step of obtaining a ratio (participation rate) of the nouns extracted from the MT translation of the first language noun phrase whose similarity with the second language noun phrase candidate is equal to or greater than the similarity threshold. Because. Based on the above results, one of the two nouns extracted from the MT translation of the English noun phrase candidate “US to World War II” is involved in the Japanese noun phrase candidate “US”. Therefore, the participation rate is 0.5. If the participation rate threshold is 0.5, this set does not exceed the threshold.

次のステップs11は、関与率が閾値を越えるかどうかを、関与率判定部10が判定するステップである。関与率の閾値を0.5とすると、上記の関与率は0.5であるから、閾値を越えていない。
よって、ステップs11で、関与率の閾値を越えていないため、
英語名詞句候補:the United States into World War II
英語名詞句候補のMT訳:第二次世界大戦への米国
日本語名詞句候補:米国
の組は、名詞句の対訳として誤りとは判断される。または誤りと判断される可能性が高い。このため、この組は対訳名詞句として出力されず、ステップs13からステップs14、ステップs05へと進み、別の組み合わせが試される。
なお、「第二次世界大戦」「米国」以外に、ステップs03で求めた日本語名詞句候補については、英語名詞句候補のMT訳「第二次世界大戦への入力」との類似性は、文字の共通性から見て、ゼロまたはきわめて低い値(類似度の閾値を0.1とすると、明らかにそれ未満)になることは明白である。
The next step s11 is a step in which the participation rate determination unit 10 determines whether or not the participation rate exceeds a threshold value. If the participation rate threshold is 0.5, the above-mentioned participation rate is 0.5, so the threshold is not exceeded.
Therefore, since the threshold value of the participation rate is not exceeded in step s11,
English noun phrase candidates: the United States into World War II
MT translation of English noun phrase candidates: United States to World War II Japanese noun phrase candidates: The US group is judged to be an error as a translation of noun phrases. Or, there is a high possibility of being judged as an error. For this reason, this set is not output as a bilingual noun phrase, but proceeds from step s13 to step s14 and step s05, and another combination is tried.
In addition to “World War II” and “United States”, the Japanese noun phrase candidate obtained in step s03 is similar to the MT translation of the English noun phrase candidate “input to World War II”. From the viewpoint of character commonality, it is clear that the value is zero or extremely low (obviously less than 0.1 when the similarity threshold is 0.1).

次に、構文的曖昧性の解消について説明する。
上記ステップs02で説明したように、第2言語名詞句候補の抽出ステップでは、英語文の場合、英語名詞句の抽出の処理によって抽出される英語名詞句には、本来英語名詞句の構成要素を修飾しない前置詞句が含まれている可能性がある。このような前置詞句を含む英語名詞句は意味的に不適格であるため、どの日本語名詞句とも対応付けられてはならない。この明細書の最初に、英文(E2)について述べたように、次の英文(E4)から抽出される“the United States into World War II”は意味的に不適格である。
(E4) The attack on Pearl Harbor was the trigger that drew the United States into World War II.
(J4) 真珠湾攻撃は、米国が第二次世界大戦に介入するきっかけを作った転換点でもあった。
Next, resolution of syntactic ambiguity will be described.
As described in step s02 above, in the second language noun phrase candidate extraction step, in the case of an English sentence, the English noun phrase extracted by the process of extracting the English noun phrase is originally composed of the constituent elements of the English noun phrase. It may contain prepositional phrases that do not qualify. An English noun phrase that includes such a prepositional phrase is semantically ineligible and should not be associated with any Japanese noun phrase. At the beginning of this specification, as mentioned in English (E2), “the United States into World War II” extracted from the following English (E4) is semantically ineligible.
(E4) The attack on Pearl Harbor was the trigger that drew the United States into World War II.
(J4) The attack on Pearl Harbor was also a turning point that triggered the US intervention in World War II.

しかし、ステップs02の上記(1)「文字単位での比較」、(2)「文字種を考慮した比較」で述べた処理では、ある英語名詞句に意味的に不適格な前置詞句が含まれているか否かを識別することは困難であり、このような例の場合に不適切な対応付けが行なわれてしまう。すなわち、“the United States into World War II”のMT訳は、「第二次世界大戦への米国」(複合名詞部分の文字数は9文字)となり、上記の和文(J4)から抽出される日本語名詞句「第二次世界大戦」との間で「第二次世界大戦」の7文字が共有されるので、意味的類似度Ssemは、7/(9+7−7)=0.778という比較的高い値となり、不適切な対応付けが得られてしまう。そこで、この点に対処するために新たな処理を導入する。   However, in the processing described in (1) “Comparison in character units” and (2) “Comparison in consideration of character types” in step s02, a certain English noun phrase includes a preposition phrase that is semantically ineligible. It is difficult to identify whether or not it is present, and in such an example, inappropriate association is performed. That is, the MT translation of “the United States into World War II” is “US to World War II” (the number of characters in the compound noun part is 9 characters), which is extracted from the above Japanese sentence (J4) Since the seven letters of “World War II” are shared with the noun phrase “World War II”, the semantic similarity Ssem is a relatively high value of 7 / (9 + 7−7) = 0.778. Thus, an inappropriate association is obtained. Therefore, a new process is introduced to deal with this point.

ある英語名詞句が意味的に不適格であり本来一つの名詞句を構成しないならば、この英語名詞句に対応する日本語表現は、一つの日本語名詞句という表現形式ではなく他の表現形式になりやすいと考えられる。この仮説によれば、英語名詞句が意味的に適格であるか否かは英語名詞句のMT訳に対応する一つの日本語名詞句が存在するか否かによって判定することができる。この判定は次の規則1に基づいて行ない、英語名詞句のMT訳と日本語名詞句が規則1に従う場合に限り、英語名詞句のMT訳に対応する一つの日本語名詞句が存在するとみなすことにする。
規則1:英語名詞句のMT訳を構成するある複合名MTNi(i=1,2,…,m) と日本語名詞句の間の総合類似度Siが閾値th以上である場合、MTNiは英語名詞句 と日本語名詞句の対応に関与していると呼ぶ。英語名詞句のMT訳を構成するn個の 全複合名詞のうち英語名詞句と日本語名詞句の対応に関与する複合名詞の数がm個で あるとき、関与率m/nが閾値thpartを超えなければならない。
規則1による判定では、英語名詞句のMT訳全体と日本語名詞句との総合類似度を求める処理、即ち、上記(1)「文字単位での比較」ないし(4)「意味的類似性の評価と音韻的類似性の評価の統合」の処理を、英語名詞句のMT訳の構成要素(複合名詞)と日本語名詞句との間に適用している。閾値thpartは現在のところ0.5としている。
If an English noun phrase is semantically ineligible and does not originally form a noun phrase, the Japanese expression corresponding to this English noun phrase is not a single Japanese noun phrase, but another expression form. It is thought that it is easy to become. According to this hypothesis, whether or not an English noun phrase is semantically qualified can be determined by whether or not there is one Japanese noun phrase corresponding to the MT translation of the English noun phrase. This determination is made based on the following rule 1, and only when the MT translation of an English noun phrase and the Japanese noun phrase comply with rule 1, it is considered that there is one Japanese noun phrase corresponding to the MT translation of the English noun phrase. I will decide.
Rule 1: If the total similarity Si between a compound name MTNi (i = 1, 2,..., M) that constitutes an MT translation of an English noun phrase and a Japanese noun phrase is greater than or equal to the threshold th, MTNi is English It is said to be involved in the correspondence between noun phrases and Japanese noun phrases. When the number of compound nouns involved in the correspondence between English noun phrases and Japanese noun phrases is n, out of all n compound nouns that compose the MT translation of English noun phrases, the participation rate m / n is the threshold th part Must be exceeded.
In the determination by rule 1, the processing for obtaining the overall similarity between the entire MT translation of the English noun phrase and the Japanese noun phrase, that is, (1) “Comparison in character units” to (4) “Semantic similarity” The process of “integration of evaluation and evaluation of phonological similarity” is applied between a component (compound noun) of an MT translation of an English noun phrase and a Japanese noun phrase. The threshold th part is currently set to 0.5.

意味的に不適格な英語名詞句“the United States into World War II”のMT訳「第二次世界大戦への米国」と、日本語名詞句「第二次世界大戦」に対して、規則1による判定を行なうと、「第二次世界大戦への米国」を構成する複合名詞のうち、「米国」は「第二次世界大戦への米国」と「第二次世界大戦」の対応付けに関与していないため、関与率は0.5となり、閾値thpartを超えないので“the United States into World War II”と「第二次世界大戦」の対応付けは棄却される。
なお、この処理は、前置詞付加の曖昧性の解消だけでなく、並列構造の曖昧性の解消や、英語名詞句に正しく対応する日本語名詞句が和文中に存在しない場合の対応付け誤りの抑制にも有効である。
Rule 1 for the MT translation of “the United States into World War II”, a semantically ineligible English noun phrase “the United States into World War II”, and the Japanese noun phrase “World War II” Of the compound nouns that make up “United States to World War II”, “US” is the correspondence between “United States to World War II” and “World War II”. Since it is not involved, the participation rate is 0.5, and the threshold th part is not exceeded, so the association between “the United States into World War II” and “World War II” is rejected.
This process not only eliminates the ambiguity of adding prepositions, but also eliminates the ambiguity of the parallel structure and suppresses association errors when there is no Japanese noun phrase in the Japanese sentence that correctly corresponds to an English noun phrase. Also effective.

本発明の評価を以下の実験により確認した。
(実験方法)
評価実験には、読売新聞と、The Daily Yomiuriの対訳コーパスのうち1996年7月中旬から2001年までの記事のうち文対応スコアの上位三万文対を用いた。この三万文対に対して対応付け処理を行ない、各英語名詞句について、総合類似度Sが閾値th=0.1以上であり、かつ規則1に従うもののうち最も総合類似度が高くなる日本語名詞句を出力し、それ以外の場合には何も出力しないようにした。
得られたデータから200文対を標本抽出し、この200文対から人手で正解データを作成し、本発明による対応付け結果と比較した。正解、対応付け漏れ、対応付け誤りの件数をそれぞれC、M、Nとするとき、本発明の性能を評価する指標として次の式で計算される再現率、適合率、F値を用いた。
再現率=C/(C+M)
適合率=C/(C+N)
F値=(2×再現率×適合率)/(適合率+再現率)
The evaluation of the present invention was confirmed by the following experiment.
(experimental method)
For the evaluation experiment, we used the Yomiuri Shimbun and the top 30,000 sentences in the sentence correspondence score among the articles from mid-July 1996 to 2001 in the bilingual corpus of The Daily Yomiuri. A matching process is performed for this 30,000 sentence pair, and for each English noun phrase, the total similarity S is the threshold th = 0.1 or more, and the Japanese noun phrase having the highest total similarity among those that follow rule 1 Is output, otherwise nothing is output.
200 sentence pairs were sampled from the obtained data, and correct answer data was manually created from the 200 sentence pairs, and compared with the matching results according to the present invention. When the numbers of correct answers, omissions of correspondence, and association errors are C, M, and N, respectively, the recall, precision, and F value calculated by the following equations were used as indices for evaluating the performance of the present invention.
Reproducibility = C / (C + M)
Compliance rate = C / (C + N)
F value = (2 x recall x precision) / (fit precision + recall)

(実験結果と考察)
本発明は、文字種を考慮した文字単位の照合、ローマ字読みの照合、英語名詞句のMT訳を構成する各複合名詞の関与を考慮した照合の三つの処理によって対応付けを行なう。これに対して、文字種を考慮しない文字単位の照合だけで対応付けを行なう方法をベースラインとし、本発明とベースラインのそれぞれで対応付けを行なった場合の評価結果を図4の表に示す。図4によれば、本発明のF値は0.678であり、ベースラインのF値0.583から0.095向上している。本発明とベースラインの再現率、適合率を比べると、再現率はベースラインのほうが0.101高いが、適合率は提案手法のほうが0.271高く、本発明では再現率の低下を抑えつつ適合率の向上が実現できている。本発明では、対応付け漏れを抑えることよりも対応付け誤りを抑えることを重視しているため、この結果により所期の目標が達成されていると考える。
(Experimental results and discussion)
In the present invention, matching is performed by three processes: collation in character units that consider character types, collation of Roman readings, and collation that considers the involvement of each compound noun that constitutes the MT translation of an English noun phrase. On the other hand, the table of FIG. 4 shows the evaluation results in the case where the association is performed only by collation by character unit without considering the character type, and the association is performed by each of the present invention and the baseline. According to FIG. 4, the F value of the present invention is 0.678, which is an improvement from the baseline F value of 0.583 to 0.095. Comparing the recall rate and precision rate of the present invention with the baseline, the recall rate is 0.101 higher for the baseline, but the precision rate is 0.271 higher for the proposed method.In the present invention, the precision rate is improved while suppressing the fall of the recall rate. Has been realized. In the present invention, emphasis is placed on suppressing an association error rather than suppressing an omission of correspondence, so that it is considered that the intended goal is achieved by this result.

次に、本発明による各処理が性能の向上にどの程度寄与しているかを調べた。その結果を図5の表に示す。図5において、処理欄の記号‘+’は、その処理を導入して対応付けを行なったことを意味し、記号‘―’はその処理なしで行なったことを意味する。どの処理も導入していない(a)がベースラインの性能であり、すべての処理を導入した(h)が本発明の性能である。(a)と(b)を比べると、複合名詞の関与を考慮した処理を導入することによって、対応付け漏れが16件増えているが、対応付け誤りが81件と大幅に減っていることが分かる。このことから、(1)英文から抽出された英語名詞句が構文的または意味的に不適格である場合や、(2)英文から抽出された英語名詞句が構文的にも意味的にも適格であるが、正解が和文中に存在しない場合に、この英語名詞句に何らかの日本語名詞句が対応付けられる誤りを抑制することに関して、複合名詞の関与を考慮した処理が有効に働いているといえる。   Next, it was examined how much each process according to the present invention contributes to the improvement of performance. The results are shown in the table of FIG. In FIG. 5, the symbol “+” in the processing column means that the processing is introduced and associated, and the symbol “−” means that the processing is performed without the processing. (A) in which no processing is introduced is the performance of the baseline, and (h) in which all the processing is introduced is the performance of the present invention. Comparing (a) and (b), the introduction of processing that takes into account the involvement of compound nouns increased the number of correspondence omissions by 16, but the correspondence errors were greatly reduced to 81 cases. I understand. From this, (1) English noun phrases extracted from English sentences are syntactically or semantically ineligible, or (2) English noun phrases extracted from English sentences are syntactically and semantically qualified. However, when the correct answer does not exist in the Japanese sentence, the processing that considers the involvement of compound nouns works effectively to suppress the error that some Japanese noun phrase is associated with this English noun phrase. I can say that.

読みの類似度を考慮した処理が性能向上に寄与する度合いは、(a)と(c)を比べて分かるように、ベースラインで対応付け漏れであったものが正解になった1件だけであるので、非常に低いようにみえる。(4)「意味的類似性の評価と音韻的類似性の評価の統合」で述べたように、この処理が機能するのは英語名詞句のMT訳に辞書未登録語が含まれている場合である。正解データ中の英語名詞句のうちそのMT訳に辞書未登録語が含まれるものは20件存在した。この20件のうちベースラインで正解が得られなかったものは8件であった。このうち1件が読みの類似度を考慮した処理によって改善されたことになる。
(a)と(e)を比べると、文字種を考慮した処理を導入することによって、対応付け誤りが4件減っている。この処理の目的は漢字以外の文字が短すぎる単位で適合することを防ぐことであるが、解消された4件の対応付け誤りで期待した効果が得られている。他方で、正解が2件減り対応付け漏れが2件増えているが、これは、ベースラインで正解であった2件が文字種を考慮した処理では対応付け漏れになったものであった。今回の実験では英字と数字を同一文字種とみなし、英数字は最長文字列単位で一致しなければならないという設定にした。このため、“the Group of Seven”という英語名詞句のMT訳「7のグループ」と日本語名詞句「G7」との対応付けが得られなくなっていた。
The degree to which the processing considering the similarity of reading contributes to the performance improvement is only one case in which the correspondence was not correct in the baseline, as can be seen by comparing (a) and (c). Because it is, it looks very low. (4) As described in “Integration of Semantic Similarity Evaluation and Phonological Similarity Evaluation”, this processing works when an MT translation of an English noun phrase includes an unregistered word. It is. Of the English noun phrases in the correct answer data, there were 20 cases where the MT translation contained unregistered words. Of these 20 cases, 8 did not get the correct answer at baseline. Of these, one case was improved by processing that considered the similarity of reading.
Comparing (a) and (e), the number of correspondence errors is reduced by introducing a process that considers the character type. The purpose of this process is to prevent characters other than kanji from matching in units that are too short, but the expected effect is obtained with the four correspondence errors that have been eliminated. On the other hand, the number of correct answers decreased by two and the number of correspondence omissions increased by two. This was a case where the two cases that were correct in the baseline resulted in an omission of correspondence in the process considering the character type. In this experiment, English letters and numbers are regarded as the same character type, and alphanumeric characters must be matched in units of the longest character string. For this reason, the correspondence between the MT translation of the English noun phrase “the Group of Seven” “Group of Seven” and the Japanese noun phrase “G7” cannot be obtained.

次に、複数の処理を同時に導入することによってF値がどのように変化したかを見る。読みの類似度を考慮した処理と、複合名詞の関与を考慮した処理を同時に導入した(d)のF値0.678は、前者の処理だけを導入した(c)のF値0.586よりも高く、かつ後者の処理だけを導入した(b)のF値0.667よりも高い。文字種を考慮した処理と、複合名詞の関与を考慮した処理を同時に導入した(f)のF値0.669も、これらの処理を個別に導入した(e)と(b)のF値0.581、0.667を上回る。文字種を考慮した処理と読みの類似度を考慮した処理を同時に導入した(g)のF0.585値も、文字種を考慮した処理だけを導入した場合、(e)のF値0.581よりも高いが、読みの類似度を考慮した処理を同時に導入した場合、(c)のF値0.586よりも若干低くなっている。三種類の処理をすべて導入した本発明(h)のF債が最も高い。以上のことから、文字種を考慮した処理と読みの類似度を考慮した処理を同時に導入した場合に若干の副作用が見られるが、概ね、これらの処理は互いに効果を抑制していないといえる。   Next, we will see how the F value changed by introducing multiple processes simultaneously. The F value 0.678 of (d), which introduced the processing considering the similarity of reading and the processing considering the involvement of compound nouns at the same time, is higher than the F value 0.586 of (c) where only the former processing was introduced, and It is higher than F value 0.667 of (b) which introduced only the latter process. The F value 0.669 of (f), which introduced the processing considering the character type and the processing considering the involvement of compound nouns at the same time, also applied the F values 0.581, 0.667 of (e) and (b), which introduced these processing individually. Exceed. The F0.585 value of (g), which introduced the processing considering the character type and the processing considering the similarity of reading at the same time, is higher than the F value 0.581 of (e) when only the processing considering the character type was introduced. When the processing considering the similarity of reading is introduced at the same time, it is slightly lower than the F value of 0.586 in (c). The F bond of the present invention (h) that introduced all three types of treatment is the highest. From the above, there are some side effects when the processing considering the character type and the processing considering the similarity of reading are introduced at the same time. In general, it can be said that these processing do not suppress the effects of each other.

以上のように、本発明では、前置詞句や等位構造を持つ英語固有表現と、それに対応する日本語表現を対訳コーパスから抽出する方法を示した。本発明で示した関与率の導入が常に有効とは限らない可能性もあると考えられるが、対訳コーパスを用いた実験の結果から、本発明で示した関与率の導入は一般的傾向としては、対応付け精度が向上することが分かった。本発明では。文字種を考慮した処理、ローマ字読みを考慮した処理、名詞句の構成要素の関与を考慮した処理によって英語固有表現と日本語表現の照合を行なった。読売新聞とThe Daily Yomiuriの対訳コーパスを用いた実験では、これら三種類の処理を行なうことによって適合率0.764、再現率0.610、F値0.678という結果が得られた。この結果はこれらの処理を行なわない場合の結果や構文解析系を利用した場合の結果を上回るものである。   As described above, the present invention has shown a method for extracting an English proper expression having a prepositional phrase or a coordinate structure and a corresponding Japanese expression from a bilingual corpus. Although it is considered that the introduction of the participation rate shown in the present invention may not always be effective, the introduction of the participation rate shown in the present invention is a general tendency from the results of experiments using a bilingual corpus. , It was found that the matching accuracy is improved. In the present invention. The English proper expression and the Japanese expression were collated by the process considering the character type, the process considering the Roman reading, and the process considering the involvement of the constituent elements of the noun phrase. In the experiment using the bilingual corpus of Yomiuri Shimbun and The Daily Yomiuri, these three types of processing resulted in a precision of 0.764, recall of 0.610, and F value of 0.678. This result exceeds the result obtained when these processes are not performed and the result obtained when a syntax analysis system is used.

本発明のブロック図を示す。1 shows a block diagram of the present invention. 本発明のより詳細なブロック図を示す。Figure 2 shows a more detailed block diagram of the present invention. 本発明のフローチャート図を示す。The flowchart figure of this invention is shown. 本発明の評価を説明する表を示す。The table | surface explaining evaluation of this invention is shown. 本発明の処理ごとの性能比較を説明する表を示す。The table | surface explaining the performance comparison for every process of this invention is shown.

符号の説明Explanation of symbols

1 入力手段
2 出力手段
3 動作用メインメモリ
4 記憶手段
5 第1言語文名詞句抽出手段
6 第2言語文名詞句抽出手段
7 第1言語から第2言語へ翻訳する機械翻訳手段
8 第2言語名詞抽出手段
9 第2言語の名詞間または名詞句間の類似度判定手段
10 関与率判定手段
11 第2言語形態素解析部
5a 第1言語名詞句抽出部
5b 第1言語の冠詞リスト、
5c 第1言語の前置詞リスト
5d 第1言語名詞句判定パターン
6a 第2言語名詞句抽出部
6b 第2言語名詞句判定パターン
8a 第2言語名詞抽出部
8b 第2言語名詞判定パターン
9a 第2言語の名詞間または名詞句間の類似度判定部
9b 文字的類似性判定部
9c 音韻的類似性判定部
9d 総合判定部
DESCRIPTION OF SYMBOLS 1 Input means 2 Output means 3 Operation | movement main memory 4 Memory | storage means 5 1st language sentence noun phrase extraction means 6 2nd language sentence noun phrase extraction means 7 Machine translation means 8 which translates from a 1st language to a 2nd language 2nd language Noun extraction means 9 Similarity determination means 10 between nouns or noun phrases in the second language Participation rate determination means 11 Second language morpheme analysis section 5a First language noun phrase extraction section 5b Article list of the first language,
5c First language preposition list 5d First language noun phrase determination pattern 6a Second language noun phrase extraction unit 6b Second language noun phrase determination pattern 8a Second language noun extraction unit 8b Second language noun determination pattern 9a Second language noun phrase determination pattern 9a Similarity determination unit 9b between nouns or noun phrases Characteristic similarity determination unit 9c Phonological similarity determination unit 9d General determination unit

Claims (12)

第1言語文の名詞句を抽出する第1言語名詞句抽出手段と、
前記第1言語名詞句を第2言語に翻訳する翻訳手段と、
前記翻訳結果に含まれる名詞を抽出する第1言語名詞抽出手段と、
前記第2言語文の名詞句を抽出する第2言語文名詞句抽出手段と、
前記第1言語名詞抽出手段により抽出された名詞と、前記第2言語名詞句抽出手段により抽出された名詞または名詞句間との類似度を判定する第2言語名詞間または名詞句間の類似度判定手段と、
前記第1言語名詞抽出手段により抽出された名詞のうち、第2言語文の名詞句との類似度が類似度閾値以上である割合(関与率)を求める関与率判定手段と
を備えることを特徴とする言語処理装置。
First language noun phrase extracting means for extracting a noun phrase of the first language sentence;
Translation means for translating the first language noun phrase into a second language;
First language noun extraction means for extracting nouns included in the translation result;
Second language sentence noun phrase extracting means for extracting a noun phrase of the second language sentence;
Similarities between second language nouns or between noun phrases that determine similarity between nouns extracted by the first language noun extraction means and nouns or noun phrases extracted by the second language noun phrase extraction means A determination means;
A participation rate determination unit for obtaining a ratio (participation rate) in which the similarity with the noun phrase of the second language sentence is equal to or higher than a similarity threshold among the nouns extracted by the first language noun extraction unit; A language processing device.
前記第1言語名詞句抽出手段は、第1言語名詞句抽出部と、第1言語冠詞リストと、第1言語前置詞リストと、第1言語名詞句判定パターンを備えることを特徴とする請求項1に記載の言語処理装置。   2. The first language noun phrase extraction unit includes a first language noun phrase extraction unit, a first language article list, a first language preposition list, and a first language noun phrase determination pattern. The language processing device described in 1. 前記第2言語名詞句抽出手段は、第2言語名詞句抽出部と、第2言語名詞句判定パターンを備えることを特徴とする請求項1または2に記載の言語処理装置。   The language processing apparatus according to claim 1, wherein the second language noun phrase extraction unit includes a second language noun phrase extraction unit and a second language noun phrase determination pattern. 前記第2言語名詞抽出手段は、第2言語名詞抽出部と、第2言語名詞判定パターンを備えることを特徴とする請求項1乃至3のいずれか1項に記載の言語処理装置。   4. The language processing apparatus according to claim 1, wherein the second language noun extraction unit includes a second language noun extraction unit and a second language noun determination pattern. 5. 前記第2言語名詞間または名詞句間の類似度判定手段は、第2言語名詞間または名詞句間の類似度判定部と、文字的類似性判定部と、音韻的類似性判定部と、総合判定部とを備えることを特徴とする請求項1乃至4のいずれか1項に記載の言語処理装置。   The similarity determination means between the second language nouns or noun phrases includes a similarity determination unit between second language nouns or between noun phrases, a character similarity determination unit, a phonological similarity determination unit, The language processing apparatus according to claim 1, further comprising a determination unit. 前記文字的類似性判定部は、文字単位での比較部と、文字種を考慮した比較部とを備えることを特徴とする請求項5に記載の言語処理装置。   The language processing apparatus according to claim 5, wherein the character similarity determination unit includes a comparison unit in units of characters and a comparison unit in consideration of a character type. 形態素解析部を更に備え、前記第2言語名詞句抽出部により抽出された名詞句から単語列を抽出することを特徴とする請求項1乃至5のいずれか1項に記載の言語処理装置。   The language processing apparatus according to claim 1, further comprising a morphological analysis unit, wherein a word string is extracted from the noun phrase extracted by the second language noun phrase extraction unit. 前記関与率判定手段は、前記第1言語の名詞の数と、第2言語の名詞句に含まれる名詞の数の比から関与率を算出し、前記関与率が閾値を越えたか否か判定することを特徴とする請求項1乃至7のいずれか1項に記載の言語処理装置。   The participation rate determination means calculates a participation rate from a ratio between the number of nouns in the first language and the number of nouns included in the noun phrase in the second language, and determines whether the participation rate exceeds a threshold value. The language processing apparatus according to claim 1, wherein: 前記関与率の閾値を越えた第1言語名詞句と、第2言語名詞句を対応して出力することを特徴とする請求項1乃至8のいずれか1項に記載の言語処理装置。   The language processing apparatus according to claim 1, wherein a first language noun phrase and a second language noun phrase that exceed the participation rate threshold value are output in correspondence with each other. 請求項1乃至9のいずれか1項に記載の言語処理装置により、第1言語名詞句とこれに対応する第2言語名詞句を対応させて、対訳として登録する辞書を作成することを特徴とする辞書作成装置。   A language processing apparatus according to any one of claims 1 to 9, wherein a dictionary for registering as a parallel translation is created by associating a first language noun phrase with a second language noun phrase corresponding thereto. Dictionary creation device. 第1言語文から第1言語名詞句を抽出するステップと、
前記第1言語名詞句を第2言語に翻訳するステップと、
前記翻訳結果に含まれる名詞を抽出するステップと、
前記第1言語文に対応する第2言語文から第2言語名詞句を抽出するステップと、
前記名詞を含む第2言語名詞句を抽出するステップと、
前記名詞を含む第2言語名詞句が所定の数以上含む第2言語名詞句を、第1言語名詞句の対応句として決定するステップ
とからなる言語処理方法。
Extracting a first language noun phrase from the first language sentence;
Translating the first language noun phrase into a second language;
Extracting a noun included in the translation result;
Extracting a second language noun phrase from a second language sentence corresponding to the first language sentence;
Extracting a second language noun phrase containing the noun;
Determining a second language noun phrase including at least a predetermined number of second language noun phrases including the noun as a corresponding phrase of the first language noun phrase.
請求項11に記載のステップをコンピュータに実行させる言語処理プログラム。   A language processing program for causing a computer to execute the steps according to claim 11.
JP2005200437A 2005-07-08 2005-07-08 Language processing device, language processing method and language processing program Pending JP2007018359A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005200437A JP2007018359A (en) 2005-07-08 2005-07-08 Language processing device, language processing method and language processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005200437A JP2007018359A (en) 2005-07-08 2005-07-08 Language processing device, language processing method and language processing program

Publications (1)

Publication Number Publication Date
JP2007018359A true JP2007018359A (en) 2007-01-25

Family

ID=37755467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005200437A Pending JP2007018359A (en) 2005-07-08 2005-07-08 Language processing device, language processing method and language processing program

Country Status (1)

Country Link
JP (1) JP2007018359A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219861A (en) * 2014-05-21 2015-12-07 富士通株式会社 Document analyzer, document analyzing program and document analyzing method
KR101753708B1 (en) * 2010-12-02 2017-07-20 에스케이플래닛 주식회사 Apparatus and method for extracting noun-phrase translation pairs of statistical machine translation
JP2017211993A (en) * 2016-05-27 2017-11-30 雲拓科技有限公司 Method for correspondence detection of claim component noun belonging component corresponding code in claim

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145245A (en) * 1997-07-27 1999-02-16 Just Syst Corp Foreign language sentence interpretation support system, storing medium for storing foreign language sentence interpretation support program and method for foreign language sentence interpretation support
JP2000076293A (en) * 1998-09-02 2000-03-14 Nec Corp Abbreviated name extraction device/method and record medium
JP2002157241A (en) * 2000-09-06 2002-05-31 Fujitsu Ltd Dictionary preparing device
JP2003323425A (en) * 2002-05-02 2003-11-14 Just Syst Corp Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP2004348514A (en) * 2003-05-23 2004-12-09 Patolis Corp Parallel translation word extraction method, parallel translation word dictionary construction method, and translation memory construction method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145245A (en) * 1997-07-27 1999-02-16 Just Syst Corp Foreign language sentence interpretation support system, storing medium for storing foreign language sentence interpretation support program and method for foreign language sentence interpretation support
JP2000076293A (en) * 1998-09-02 2000-03-14 Nec Corp Abbreviated name extraction device/method and record medium
JP2002157241A (en) * 2000-09-06 2002-05-31 Fujitsu Ltd Dictionary preparing device
JP2003323425A (en) * 2002-05-02 2003-11-14 Just Syst Corp Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP2004348514A (en) * 2003-05-23 2004-12-09 Patolis Corp Parallel translation word extraction method, parallel translation word dictionary construction method, and translation memory construction method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101753708B1 (en) * 2010-12-02 2017-07-20 에스케이플래닛 주식회사 Apparatus and method for extracting noun-phrase translation pairs of statistical machine translation
JP2015219861A (en) * 2014-05-21 2015-12-07 富士通株式会社 Document analyzer, document analyzing program and document analyzing method
JP2017211993A (en) * 2016-05-27 2017-11-30 雲拓科技有限公司 Method for correspondence detection of claim component noun belonging component corresponding code in claim

Similar Documents

Publication Publication Date Title
Costa et al. A linguistically motivated taxonomy for Machine Translation error analysis
US6760695B1 (en) Automated natural language processing
EP1899835B1 (en) Processing collocation mistakes in documents
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
Schulz et al. Code-switching ubique est-language identification and part-of-speech tagging for historical mixed text
Gezmu et al. Portable spelling corrector for a less-resourced language: Amharic
Sánchez-Martínez et al. An open diachronic corpus of historical Spanish: annotation criteria and automatic modernisation of spelling
Meyer New wine in old wineskins?—Tagging Old Russian via annotation projection from modern translations
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
Esmaili et al. Towards kurdish information retrieval
Wu et al. Learning to find English to Chinese transliterations on the web
JP2007018359A (en) Language processing device, language processing method and language processing program
Sangeetha et al. An efficient machine translation system for English to Indian languages using hybrid mechanism
Richardson et al. Robust transliteration mining from comparable corpora with bilingual topic models
Sunitha A hybrid Parts Of Speech tagger for Malayalam language
Friðriksdóttir et al. Disambiguating Confusion Sets in a Language with Rich Morphology.
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
Benajiba et al. Arabic question answering
Savoy et al. Lessons learnt from experiments on the Ad Hoc multilingual test collections at CLEF
Ahn et al. Cross-lingual question answering with QED
Kasahara et al. Error correcting Romaji-kana conversion for Japanese language education
Şulea et al. Using word embeddings to translate named entities
Purev et al. Language resources for Mongolian
Ahn et al. Cross-lingual question answering using off-the-shelf machine translation
Mesfar Towards a cascade of morpho-syntactic tools for Arabic natural language processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111101