JP5439776B2 - Word alignment device and word alignment program - Google Patents
Word alignment device and word alignment program Download PDFInfo
- Publication number
- JP5439776B2 JP5439776B2 JP2008238736A JP2008238736A JP5439776B2 JP 5439776 B2 JP5439776 B2 JP 5439776B2 JP 2008238736 A JP2008238736 A JP 2008238736A JP 2008238736 A JP2008238736 A JP 2008238736A JP 5439776 B2 JP5439776 B2 JP 5439776B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- alignment
- words
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
本発明は、単語アライメント装置及び単語アライメントプログラムに関し、特に単語アライメント例文対訳辞書の学習装置と例文ベース機械翻訳装置における訳語抽出に関する。 The present invention relates to a word alignment apparatus and a word alignment program, and more particularly, to a word alignment example parallel translation dictionary learning apparatus and an example sentence base machine translation apparatus for extracting translated words.
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)統計ベース機械翻訳方式、3)例文ベース機械翻訳方式に大別することができる。 Machine translation is the conversion from one language to another using a computer, and such research and development has been conducted all over the world for half a century. Machine translation systems can be broadly divided into 1) analysis-based machine translation systems, 2) statistical-based machine translation systems, and 3) example sentence-based machine translation systems.
解析ベース機械翻訳方式は、第1言語の解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。 The analysis-based machine translation system is a technique for performing analysis of a first language (morpheme analysis, syntax / semantic analysis, etc.), converting the analysis result to a second language, and further generating a translation of the second language. Since natural language analysis technology is still immature, there are limits to the practical application of analysis-based machine translation systems. Furthermore, since it cannot be learned, it has the disadvantage that it becomes difficult to improve and improve the translation engine.
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。 The statistical-based machine translation method is a technique for constructing a translation model using a language model and a statistical model. This method is limited in practical use because learning data (corpus) necessary for the configuration of each model is limited.
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。 The example-based machine translation method is to translate a new document by referring to a translation example sentence that has already been learned by imitating a mechanism in which a human learns a foreign language. This translation system was proposed in the 1980s, and research and development have been actively conducted since then. Example sentence-based machine translation technology includes translation memory translation technology, translation technology that uses bilingual example sentences with word alignment, translation technology that uses sentence patterns, etc. There is.
図1は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム10は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム10は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。 FIG. 1 is a diagram illustrating an example of the overall configuration of a machine translation system according to an example sentence-based machine translation system. The machine translation system 10 is configured to shift from a simpler translation to a more complicated translation, thereby speeding up translation. In addition, the machine translation system 10 has a learning function that automatically collects portions that cannot be translated and gives an accurate parallel translation.
機械翻訳システム10は、原言語テキスト文入力部12から入力された文単位の文を翻訳する翻訳メモリ翻訳装置14、翻訳メモリ翻訳装置14において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された入力文の単語列を翻訳する例文パターンベース翻訳装置16と、例文パターンベース翻訳装置16で翻訳できなかった入力文を不適切な文としてその形態素解析の結果単語列を入力し、この単語列を翻訳する単語直訳翻訳装置18と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部20とを有している。 The machine translation system 10 translates a sentence-by-sentence sentence input from the source language text sentence input unit 12, an input sentence that cannot be collated by the translation memory translation apparatus 14, that is, an input that is inappropriate. Example sentence pattern-based translation device 16 for inputting a sentence and translating a word string of the input sentence subjected to morphological analysis, and an input sentence that could not be translated by example sentence pattern-based translation apparatus 16 as an inappropriate sentence, as a result of the morphological analysis A word translation unit 18 that inputs a word string and translates the word string, and a target language text output unit 20 that generates a text sentence in a target language based on the result of appropriate translation by the translation unit and outputs it. And have.
さらに機械翻訳システム10は、例文パターンベース翻訳装置16によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部22と、翻訳不適切文自動回収部22により作成された翻訳のチェックや修正を行う学習装置24と、翻訳辞書26とを備えている。翻訳辞書26は、第1の言語の単語とその対訳である第2の言語の単語を格納する単語対訳辞書26a、第1の言語の例文とその対訳である第2の言語の例文を格納する例文対訳辞書26b、第1の言語の例文パターンとその対訳である第2の言語の例文パターンを格納する例文パターン対訳辞書26cを含んでいる。翻訳辞書26は、翻訳メモリ翻訳装置14、例文パターンベース翻訳装置16、単語直訳翻訳装置18において利用される。なお、図1の機械翻訳システムは、一つの構成例であって、さらに他の翻訳エンジンを含むものもある。 Further, the machine translation system 10 collects a sentence that could not be translated by the example sentence pattern-based translation device 16, and creates an appropriate translation for the collected sentence. A learning device 24 for checking and correcting the translation created by the automatic sentence collection unit 22 and a translation dictionary 26 are provided. The translation dictionary 26 stores a word bilingual dictionary 26a that stores words in the first language and a second language word that is a translation thereof, and an example sentence in the first language and an example sentence in the second language that is a translation thereof. The example sentence parallel translation dictionary 26b includes an example sentence pattern parallel translation dictionary 26c that stores example sentence patterns in the first language and example sentence patterns in the second language that are the translations of the first language example patterns. The translation dictionary 26 is used in the translation memory translation device 14, the example sentence pattern base translation device 16, and the word direct translation translation device 18. Note that the machine translation system of FIG. 1 is an example of a configuration, and there is also a system that includes another translation engine.
図2は、図1に示す例文パターンベース翻訳装置16を説明する図であり、ここでは、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置を示している。この例文ベース翻訳装置は、単語アライメント例文対訳辞書を用いて翻訳を行うものであり、入力文とよく似ている例文を高精度に翻訳することを特徴とする。同図に示すように、中国語の入力文が形態素解析され、単語アライメント例文対訳辞書から類似な例文を検索する。そして、入力文と例文の違い、対応関係を算出し、単語対訳辞書を用いて日本語の訳文を生成する。 FIG. 2 is a diagram for explaining the example sentence pattern-based translation apparatus 16 shown in FIG. 1, and shows an example sentence base translation apparatus using a word alignment example sentence parallel translation dictionary. This example sentence base translation apparatus performs translation using a word alignment example sentence parallel translation dictionary, and translates example sentences that are similar to an input sentence with high accuracy. As shown in the figure, a Chinese input sentence is subjected to morphological analysis, and a similar example sentence is searched from a word alignment example sentence parallel translation dictionary. Then, the difference between the input sentence and the example sentence and the correspondence relationship are calculated, and a Japanese translation is generated using the word parallel translation dictionary.
こうした翻訳に関する文献が幾つか報告されている。特許文献1は、第1言語の表現に対応する第2言語の訳語を第2言語の文章中から発音の類似度に基づき抽出する技術を開示している。特許文献2は、対訳テキストコーパスから訳語対を抽出する訳語対抽出装置に関し、第1言語、第2言語の単語の音韻を推定し、両者の音韻が一致する単語を単語対として出力するものである。非特許文献1は、第1言語の例文とその例文の第2言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献2は、第1言語の例文とその例文の第2言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。 There are several reports on these translations. Patent Document 1 discloses a technique for extracting a translated word of a second language corresponding to an expression of the first language from a sentence of the second language based on the similarity of pronunciation. Patent Document 2 relates to a translation pair extraction device that extracts translation pairs from a parallel text corpus, and estimates the phonemes of words in the first language and the second language, and outputs words that match both phonemes as word pairs. is there. Non-Patent Document 1 extracts an example sentence and a word constituting the translated sentence by performing morphological analysis on the example sentence and the translated sentence, respectively, for the example sentence pair including the example sentence of the first language and the translated sentence of the second language of the example sentence. A technique for extracting translations of words constituting an example sentence from a word bilingual dictionary and collating the extracted translations with a translation word is reported. In Non-Patent Document 2, alignment is performed using a statistical model between a word and a translation word, which is composed of a set of example sentence pairs including an example sentence in the first language and a translation sentence in the second language of the example sentence. For example, the statistical model is a DICE coefficient, X2, mutual information, T-score, and the like.
特許文献3は、リコール率が高く、かつ精度良く単語のアライメントを行うことができる単語アライメント例文対訳辞書学習装置および訳語抽出装置を開示している。 Patent Document 3 discloses a word alignment example sentence parallel translation dictionary learning device and a word extraction device that can perform word alignment with high recall rate and high accuracy.
上記した例文ベース翻訳装置には、第1言語の例文とその例文の第2言語の訳文間に、単語とその訳語間の対応関係(アライメント)を自動的に抽出し、これを付与する機能が要求される。 The above-described example sentence-based translation device has a function of automatically extracting and assigning a correspondence relationship between a word and its translated word between the first language example sentence and the second language translation of the example sentence. Required.
図3は、例文と訳文に含まれる単語間のアライメントを説明する図であり、同図(a)は、中国語とその訳文の日本語の入力例文対を示し、同図(b)は、それらの入力例文対を形態素解析して得られた中国語の単語と日本語の単語間の理想的なアライメントを示している。すべての例文と訳文の関係において、同図(b)に示すような正確な単語間のアライメントを人間の手作業により設定することは、非常に時間と手間を要し、現実的ではない。その一方で、単語間のアライメントを自動生成するためには、高いリコール(Recall)率と高精度を要求される。リコール率とは、例文と訳文から抽出されるべき単語のペア数と実際に抽出された単語のペア数との比であり、精度は、実際に抽出された単語のペア数と正解の単語のペア数との比であり、次式に示されている。 FIG. 3 is a diagram for explaining alignment between an example sentence and words included in the translation. FIG. 3A shows a pair of input sentences in Chinese and Japanese of the translation, and FIG. An ideal alignment between Chinese words and Japanese words obtained by morphological analysis of these input example sentence pairs is shown. In the relationship between all example sentences and translated sentences, it is very unrealistic to set accurate word alignment as shown in FIG. 5B by human manual work. On the other hand, in order to automatically generate alignment between words, a high recall rate and high accuracy are required. The recall rate is the ratio between the number of pairs of words that should be extracted from the example sentence and the translation and the number of pairs of words that are actually extracted, and the accuracy is the number of pairs of words that are actually extracted and the number of correct words. It is the ratio to the number of pairs and is shown in the following equation.
単語アライメントについて、特許文献3は、2部グラフ最適マッチング法を活用している。図4は、2部グラフ最適マッチングによる単語アライメント装置の全体構成である。単語アライメント100は、例文とその訳文の対訳例文対を入力する入力部102、アライメントの結果を出力する出力部104、例文及び訳文を形態素解析しそれらに含まれる単語と品詞をそれぞれ抽出し番号を付与する前処理部106、例文とその訳文の対を格納する例文対訳辞書108、例文対訳辞書108から入力された例文及び訳文対に対してそれぞれ例文と訳文の単語と品詞を抽出し、高速に検索できるコーパスインデックスを構築するコーパス前処理部110、単語とその対訳を格納する単語対訳辞書112、単語対訳辞書を用いて単語アライメントを行う類似度計算部114、コーパス前処理部110で構築された単語のインデックス表を格納する単語インデックス表116、単語インデックス表のコーパス統計情報を用いて、単語と訳語間の相関度を求める相関度計算部118、2部グラフマッチング方法により確認度の低いアライメント候補や多対応のアライメント問題を解消し単語間のアライメントの最適化を図る2部グラフベースアライメント部120を有している。 Regarding word alignment, Patent Document 3 utilizes a bipartite graph optimal matching method. FIG. 4 shows the overall configuration of the word alignment apparatus based on the bipartite graph optimal matching. The word alignment 100 includes an input unit 102 for inputting an example sentence and a translation example pair of the translated sentence, an output part 104 for outputting the alignment result, a morphological analysis of the example sentence and the translated sentence, and extracting a word and a part of speech included in the morphological analysis. The preprocessing unit 106 to be assigned, the example sentence bilingual dictionary 108 for storing pairs of example sentences and their translations, the example sentences and the translation sentences inputted from the example sentence bilingual dictionary 108, respectively, extract the example sentences and the translation words and parts of speech respectively. Constructed by a corpus pre-processing unit 110 that constructs a corpus index that can be searched, a word bilingual dictionary 112 that stores words and their translations, a similarity calculation unit 114 that performs word alignment using a word bilingual dictionary, and a corpus pre-processing unit 110 A word index table 116 that stores a word index table, and corpus statistical information of the word index table is used. Correlation degree calculation unit 118 for obtaining the degree of correlation between a word and a translated word, a bipartite graph base that optimizes alignment between words by solving alignment candidates with low confirmation and multiple correspondence alignment problems by a bipartite graph matching method An alignment unit 120 is included.
類似度計算部114および相関度計算部118は、図5(a)に示すように、上段の第1言語の単語と、下段の第2言語の単語間の、辞書類似度、単語間の意味上の類似度、単語間の形状類似度、品詞類似度、単語と訳語間の相関度などから信用性を計算し、この計算値で各枝の重み付けをする。2部グラフベースアライメント部120は、この重みを2部グラフマッチングすることで、図5(b)に示すように1対1に最適化された単語アライメントを求めている。 As shown in FIG. 5 (a), the similarity calculation unit 114 and the correlation calculation unit 118 calculate the dictionary similarity between the words in the upper first language and the words in the lower second language, and the meaning between the words. The reliability is calculated from the above similarity, the shape similarity between words, the part-of-speech similarity, the correlation between words and translations, etc., and the weights of each branch are calculated with the calculated values. The bipartite graph base alignment unit 120 obtains the word alignment optimized on a one-to-one basis as shown in FIG.
しかしながら、このような単語アライメント方法には、次のような3つの課題がある。
1)図4に示す単語対訳辞書112に正確な訳語が存在しないとき、単語の解説訳文を用いて訳語とする場合がある。図6(a)は、中国語の単語についての正確な日本語訳がないため、日本語の解説訳文を対訳としている。図6(b)は、その反対に、日本語の単語についての正確な中国語訳がないため、中国語の解説訳文を対訳としている。このような単語対訳辞書112を用いると、図4に示す類似度計算部114における辞書類似度SimDを用いたアライメント方法のカバー率に悪い影響を与えてしまう。
However, such a word alignment method has the following three problems.
1) When there is no accurate translation in the word parallel translation dictionary 112 shown in FIG. In FIG. 6A, since there is no accurate Japanese translation of the Chinese word, the Japanese explanation translation is used as a parallel translation. On the contrary, in FIG. 6B, since there is no accurate Chinese translation of the Japanese word, the Chinese explanation translation is used as a parallel translation. When such a word parallel translation dictionary 112 is used, the coverage of the alignment method using the dictionary similarity SimD in the similarity calculation unit 114 shown in FIG. 4 is adversely affected.
2)機械翻訳システムにおける単語の切り分け装置、特に中国語の単語切り分け装置(形態素解析など)は、翻訳の精度を高めるために、単語の単位(文字列の長さ)を大きく取る傾向がある。単語の単位を大きくすると、翻訳の精度は高まる反面、単語対訳辞書の単語と単語切り分け装置で得られた単語間に不整合性が生じてしまう。例えば、単語切り分け装置で得られた単語が“W1W2”の文字列を含むとき、単語対訳辞書には、“W1W2”の文字列を含む単語が存在しないが、その代わりに、“W1”と、“W2”という個々の二つの単語がそれぞれ存在する。 2) A word segmentation device in a machine translation system, particularly a Chinese word segmentation device (such as morpheme analysis), tends to take a large unit of word (length of a character string) in order to improve translation accuracy. When the word unit is increased, the accuracy of translation increases, but inconsistency occurs between the word in the word bilingual dictionary and the word obtained by the word segmentation device. For example, when the word obtained by the word segmentation device includes the character string “W1W2”, the word bilingual dictionary does not include a word including the character string “W1W2”. Instead, “W1”, There are two individual words “W2”.
3)2部グラフによる最大最小重み付けをしたマッチングアライメント方法は、1対1の単語アライメントには非常に有効であるが、多対多の単語アライメントには必ずしも有効な手法ではない。 3) The matching alignment method with the maximum and minimum weights by the bipartite graph is very effective for one-to-one word alignment, but is not necessarily an effective method for many-to-many word alignment.
本発明は、こうした従来の課題を解決するものであり、従来の単語アライメント技術を改良し、リコール率および精度を向上させた単語アライメント装置および単語アライメントプログラムを提供することを目的とする。
さらに本発明は、1対多、多対1、多対多の単語アライメント機能を備えた単語アライメント装置および単語アライメントプログラムを提供することを目的とする。
さらに本発明は、単語アライメント技術を利用した単語アライメント例文対訳辞書や単語対訳辞書を生成し、これらの辞書を利用した翻訳装置、翻訳支援システムを提供することを目的とする。
The present invention solves such conventional problems, and an object of the present invention is to provide a word alignment apparatus and a word alignment program in which the conventional word alignment technique is improved and the recall rate and accuracy are improved.
It is another object of the present invention to provide a word alignment apparatus and a word alignment program having a one-to-many, many-to-one, and many-to-many word alignment function.
A further object of the present invention is to provide a word alignment example translation dictionary and a word translation dictionary using word alignment technology, and provide a translation device and a translation support system using these dictionaries.
本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の単語とその対訳である第2言語の単語、第1言語の単語についての第2言語の訳語、および第2言語の単語についての第1言語の訳語の対応関係を記憶する単語対訳辞書と、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が前記単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメント手段と、前記第1のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメント手段とを有する。 A word alignment apparatus according to the present invention performs alignment between words included in a first language example sentence and a second language example sentence that is a translation of the example sentence, and includes a first language word and its translation A second language word, a second language translation for the first language word, a word bilingual dictionary that stores the correspondence of the first language translation for the second language word, and a first language example sentence And an input means for inputting a second language example sentence which is a translation of the example sentence, and a word extracting means for extracting a first language word and a second language word from the inputted first language and second language example sentences, respectively. When the correspondence relationship between the extracted first language word and the extracted second language word is included in the word parallel translation dictionary, the extracted first language word is the extracted first language word. Alignment to bilingual words The word bilingual dictionary includes the correspondence between the first language word and the second language translation of the first language word that is not aligned by the first alignment means and the first language word. A second alignment means for aligning words in the first language with the extracted plurality of words in the second language that are common to the translated words in the second language.
好ましくは単語アライメント装置はさらに、第2のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメント手段を有する。 Preferably, the word alignment apparatus further divides the first language word for the first language word that is not aligned by the second alignment means, and the correspondence relationship between the divided word and the second language translation is When included in the word bilingual dictionary, there is provided a third alignment means for aligning the divided words with the plurality of extracted second language words that are common to the second language translation words.
好ましくは単語アライメント装置はさらに、第3のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と前記抽出された第2言語の単語の表記が一致するとき、当該第1言語の単語を前記抽出された第2言語の単語にアライメントする第4のアライメント手段を有する。例えば、表記の一致は、第1言語の単語と第2言語の単語のそれぞれの漢字の一致である。 Preferably, the word alignment device further includes a first language word that is not aligned by the third alignment means when the first language word and the extracted second language word match, And a fourth alignment means for aligning one language word with the extracted second language word. For example, the notation match is a match between the kanji characters of the first language word and the second language word.
好ましくは第1および第4のアライメント手段は、第1言語の1つの単語から第2言語の複数の連続した単語、あるいは第2言語の1つの単語から第1言語の複数の連続した単語へのアライメントを行う。 Preferably, the first and fourth alignment means convert from one word in the first language to a plurality of consecutive words in the second language, or from one word in the second language to a plurality of consecutive words in the first language. Align.
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の単語と第2言語間の単語について予めアライメントが付与された情報を用いて、連続している2つの単語の品詞の接続関係を示す品詞接続表を記憶する記憶手段と、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするアライメント手段とを有する。 Further, the word alignment apparatus according to the present invention performs alignment between words included in each example sentence in the first language and each example sentence in the second language that is a parallel translation of the example sentence. Storage means for storing a part-of-speech connection table showing a connection relation between parts of speech of two consecutive words using information that has been pre-aligned with respect to words between the two languages, an example sentence in the first language, and the example sentence Input means for inputting example sentences in the second language as a parallel translation; word extraction means for extracting words in the first language and the second language from the inputted example sentences in the first language and the second language; When a word in the first language is aligned with a part of the extracted plurality of consecutive words in the second language and the remaining words are not aligned, the plurality of consecutive words are the part of speech. If included in the connection table has an alignment means for aligning the word of the first language as the extracted plurality of consecutive words of the second language.
好ましくは前記アライメント手段は、前記抽出された連続する複数の単語の一部が前記抽出された第2言語の単語にアライメントし、かつ残りの単語がアライメントされていないとき、前記連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された連続する第1言語の単語を第2言語の単語にアライメントする。 Preferably, the alignment means aligns a part of the extracted consecutive words to the extracted second language word and the remaining words are not aligned when the remaining words are not aligned. Is included in the part-of-speech connection table, the extracted consecutive first language words are aligned with second language words.
好ましくは前記品詞接続表は、単語アライメントが付与されたコーパスを用い、コーパスに含まれる全ての連続している2つの単語の数とコーパスの中でアライメントされている連続している2つの単語の数の割合から一定の出現頻度を有する品詞の接続を規定する。 Preferably, the part-of-speech connection table uses a corpus to which word alignment is assigned, the number of all two consecutive words included in the corpus, and two consecutive words aligned in the corpus. A part-of-speech connection with a certain frequency of occurrence is specified from a number ratio.
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書と、前記抽出された第1言語の単語が前記アライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントする。 Furthermore, the word alignment apparatus according to the present invention performs alignment between words included in each example sentence in the first language and each example sentence in the second language that is a translation of the example sentence, Input means for inputting an example sentence in a second language that is a translation of the example sentence; word extraction means for extracting words in the first language and the second language from the inputted example sentences in the first language and the second language; An alignment dictionary that stores correspondence between one word in one language and a plurality of non-consecutive words in the second language that are the translations thereof, and the extracted first language word are included in the alignment dictionary. And when the second language example sentence includes a plurality of non-consecutive words in the second language that are parallel translations of the words in the first language, the extracted words in the first language are used as the words in the second language. Applies to multiple non-consecutive words To Imento.
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、第1言語の例文とその対訳である第2言語の訳文を記憶した例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択し、選択された例文対訳組相互間の共通部分の組を抽出し、前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出し、算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするアライメント手段とを有する。 Furthermore, the word alignment apparatus according to the present invention performs alignment between words included in each example sentence in the first language and each example sentence in the second language that is a translation of the example sentence, Input means for inputting an example sentence in a second language that is a translation of the example sentence; word extraction means for extracting words in the first language and the second language from the inputted example sentences in the first language and the second language; From the example sentence parallel translation dictionary storing the example sentence of one language and the translation of the second language as its translation, the pair of the extracted example sentence including the plurality of consecutive words of the first language and the translation thereof is selected and selected. Extracting a set of common parts between the translated example sentence parallel translation pairs, calculating a support degree of the extracted common part for the plurality of continuous words, and calculating the plurality of continuous parts based on the calculated support degree The second language And a alignment means for aligning the plurality of words is a common part.
好ましくは前記支持度の算出は、各組の共通部分が、前記連続している複数の単語に対して所定の一致度合にある場合に、第2言語の対応訳文の共通部分をアライメント候補として選出する手段と、前記選出されたアライメント候補の出現回数をその支持度を表すものとして計数する手段とを含む。 Preferably, the degree of support is calculated by selecting a common part of the corresponding translated sentence in the second language as an alignment candidate when the common part of each set has a predetermined matching degree with respect to the plurality of consecutive words. And means for counting the number of appearances of the selected alignment candidate as representing the degree of support.
好ましくは最も出現回数が多いアライメント候補の該出現回数が第1の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第2の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第3の閾値を超える場合の何れかの場合に、該最も出現回数が多いアライメント候補を、前記連続している複数の単語のアライメントとする。 Preferably, when the number of appearances of the alignment candidate with the highest number of appearances exceeds the first threshold value, or the appearance of the translation candidate with the number of appearances equal to or less than the first threshold value and the next most frequent appearance number The difference between the number of occurrences exceeds the second threshold value, or the ratio of the number of appearances to the first threshold value and the number of appearances and the number of appearances of the translated sentence candidate having the next highest number of appearances is the third threshold value. In any case of exceeding the above, the alignment candidate with the largest number of appearances is set as the alignment of the plurality of consecutive words.
本発明に係る例文ベース翻訳装置は、上記した単語アライメント装置と、第1言語の例文とその対訳である第2言語の例文を格納する例文対訳辞書と、前記例文対訳辞書を参照し、入力された第1言語の例文の第2言語の訳語を生成する訳文生成手段とを有し、前記訳文生成手段は、前記単語アライメント装置によるアライメント結果を利用して訳文を生成する。 An example sentence base translation apparatus according to the present invention is input with reference to the above word alignment apparatus, an example sentence bilingual dictionary storing example sentences in a first language and an example sentence in a second language which is a translation thereof, and the example sentence parallel translation dictionary. A translation generation unit that generates a second language translation of the first language example sentence, and the translation generation unit generates a translation using an alignment result of the word alignment device.
本発明に係る単語アライメントプログラムは、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行するものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメントステップと、第1のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメントするステップと、第2のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメントステップとを有する。 The word alignment program according to the present invention is executed by a word alignment apparatus that performs alignment between words included in each example sentence in the first language and each example sentence in the second language that is a parallel translation of the example sentence. Inputting a language example sentence and a second language example sentence that is a translation of the example sentence; extracting first and second language words from the inputted first language and second language example sentences; When the correspondence relationship between the extracted first language word and the extracted second language word is included in the word bilingual dictionary, the extracted first language word is converted to the extracted second language. A first alignment step that aligns the first language word, and a first language word that is not aligned by the first alignment step, and the second language word and second A second word that aligns a first language word with a plurality of extracted second language words that are in common with a second language translation word when the word bilingual correspondence is included in the word bilingual dictionary And the first language word that is not aligned by the second alignment step, the first language word is divided, and the correspondence between the divided word and the second language translation is a word bilingual dictionary A third alignment step of aligning the divided words with the extracted second language words that are in common with the second language translation.
さらに本発明に係る単語アライメントプログラムは、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行するものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が予め用意された連続している2つの単語の品詞の接続関係を示す品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするステップとを有する。 Furthermore, the word alignment program according to the present invention is executed by a word alignment apparatus that performs alignment between words included in each example sentence in the first language and each example sentence in the second language that is a translation of the example sentence. A step of inputting an example sentence in one language and an example sentence in a second language that is a translation of the example sentence, and a step of extracting words in the first language and the second language from the inputted example sentences in the first language and the second language, respectively And when the extracted first language word is aligned with some of the extracted second language consecutive words and the remaining words are not aligned, the consecutive words Is included in the part-of-speech connection table indicating the connection relationship between the parts of speech of two consecutive words prepared in advance, the extracted words in the first language are used as consecutive words in the second language. And a step of aligning the plurality of words.
単語アライメントプログラムはさらに、前記抽出された第1言語の単語が、第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントするステップを有する、請求項16に記載の単語アライメントプログラム。 In the word alignment program, the extracted first language word is further included in an alignment dictionary that stores correspondence between one word in the first language and a plurality of non-consecutive words in the second language, which is a translation of the word. And when the second language example sentence includes a plurality of non-consecutive words in the second language that are parallel translations of the words in the first language, the extracted words in the first language are The word alignment program according to claim 16, further comprising the step of aligning with a plurality of non-contiguous words of a language.
好ましくは単語アライメントプログラムはさらに、例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択するステップと、選択された例文対訳組相互間の共通部分の組を抽出するステップと、前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出するステップと、算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするステップとを有する。 Preferably, the word alignment program further includes a step of selecting, from the example sentence parallel translation dictionary, a pair of the extracted example sentences including a plurality of consecutive words in the first language and the parallel translation, and between the selected example sentence parallel translation pairs Extracting a set of common parts, calculating a support level of the extracted common parts for the plurality of continuous words, and determining the plurality of continuous words based on the calculated support level. Aligning a plurality of words that are common parts of the second language.
本発明によれば、第1言語の単語と第2言語の単語間において1対多、多対1、または多対多のアライメントを可能にしたので、従来よりもリコール率および精度を改善することができる。また、単語対訳辞書が正確な対訳を含まず解説訳語を含むような場合であっても、カバー率を向上させることができる。さらに、アライメントされない単語について、これを分割することで、単語対訳辞書のカバー率を向上させることができる。 According to the present invention, since one-to-many, many-to-one, or many-to-many alignment is possible between words in the first language and words in the second language, the recall rate and accuracy can be improved as compared with the prior art. Can do. Further, even when the word bilingual dictionary does not include an accurate parallel translation but includes a commentary translation, the coverage rate can be improved. Furthermore, by dividing the unaligned word, the coverage of the word bilingual dictionary can be improved.
本発明によれば、高性能な単語アライメント方法を期待することができ、言語情報、類似情報、統計情報の活用、および2部グラフ間の最適マッチング方法により、高いリコール率と高精度な単語アライメント例文対訳辞書学習エンジンを実現可能である。 According to the present invention, a high-performance word alignment method can be expected, and the use of linguistic information, similar information, statistical information, and the optimal matching method between bipartite graphs enables high recall rate and high-precision word alignment. An example sentence parallel dictionary learning engine can be realized.
さらに本発明によれば、研究開発の効率性を高めることができる。例えば、例文対訳辞書から自動的に単語アライメント例文対訳辞書や単語対訳辞書を生成することができるので、翻訳システムに必要な対訳辞書構築の効率性を高めることができる。これにより、対訳辞書構築のコストの低減、構築時間の短縮、構築の自動化などを図ることが可能となる。 Furthermore, according to the present invention, the efficiency of research and development can be improved. For example, the word alignment example sentence parallel translation dictionary and the word parallel translation dictionary can be automatically generated from the example sentence parallel translation dictionary, so that the efficiency of constructing the parallel translation dictionary necessary for the translation system can be improved. This makes it possible to reduce the cost of constructing a bilingual dictionary, shorten the construction time, and automate construction.
本発明を実施するための最良の形態を図に示す実施例を参照して説明する。
本実施の形態の単語アライメント装置の特徴は、次のようになる。
1)単語対訳辞書が単語の解説訳文を訳語に用いたとしても、辞書類似度SimDを用いた単語アライメントを可能にする。
2)単語切り分け装置(例えば形態素解析装置)で得られた単語が単語対訳辞書に存在しなくても、辞書類似度SimDを用いた単語アライメントを可能にする。
3)多対多の単語アライメントを可能にする。
The best mode for carrying out the present invention will be described with reference to the embodiments shown in the drawings.
The features of the word alignment apparatus of the present embodiment are as follows.
1) Even if the word bilingual dictionary uses an explanatory translation of a word as a translation, it enables word alignment using the dictionary similarity SimD.
2) Even if a word obtained by a word segmentation device (for example, a morphological analysis device) does not exist in the word parallel translation dictionary, word alignment using the dictionary similarity SimD is enabled.
3) Enable many-to-many word alignment.
多対多の単語アライメントの種類は、次の6種類に分類される。
S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは第1言語の例文、JSはCSの第2言語の訳文である。CS=<C1,C2,…,Cm>、JS=<J1,J2…,Jn>。ここで、ChとJkは、単語である。
1) 1-n連続型:Ch が、Jh,Jh+1,Jh+2,...のn個の連続している単語とアライメントする。
2) m-1連続型:Ch,Ch+1,Ch+2,・・・のm個の連続している単語が、Jyとアライメントする。
3) m-n連続型: Ch,Ch+1,Ch+2,・・・のm個の連続している単語が、Jh,Jh+1,Jh+2,...のn個の連続している単語とアライメントする。
4) 1-n非連続型:Ch が、Jh,Jx,Jy,...のn個の非連続している単語とアライメントする。
5) m-1非連続型:Ch,Cs,Ct,・・・のm個の非連続している単語が、Jyとアライメントする。
6) m-n非連続型: Ch,Cs,Ct,・・・のm個の非連続している単語が、Jh,Jx,Jy,...のn個の非連続している単語とアライメントする。
Many-to-many word alignment types are classified into the following six types.
S = CS <-> JS represents one parallel example sentence pair. Here, CS is an example sentence in the first language, and JS is a translation in the second language of CS. CS = <C1, C2, ..., Cm>, JS = <J1, J2 ..., Jn>. Here, Ch and Jk are words.
1) 1-n continuous type: Ch is Jh, Jh + 1, Jh + 2,. . . Align with n consecutive words of.
2) m-1 continuous type: m consecutive words of Ch, Ch + 1, Ch + 2, ... align with Jy.
3) mn continuous type: Ch, Ch + 1, Ch + 2,... M consecutive words are Jh, Jh + 1, Jh + 2,. . . Align with n consecutive words of.
4) 1-n non-continuous type: Ch is Jh, Jx, Jy,. . . Align with n non-contiguous words.
5) m-1 discontinuous type: m discontinuous words of Ch, Cs, Ct, ... align with Jy.
6) mn non-continuous type: m discontinuous words of Ch, Cs, Ct,. . . Align with n non-contiguous words.
本実施例では、6番目のm-n非連続型のアライメントを除外する。このタイプの例は、非常に少ないためである。以下の実施例では、中国語と日本語の単語アライメントの例を説明する。 In this embodiment, the sixth m-n non-continuous alignment is excluded. This is because there are very few examples of this type. In the following embodiment, an example of Chinese and Japanese word alignment will be described.
図7は、本実施例の単語アライメント装置の構成を示すブロック図である。本実施例の単語アライメント翻訳装置200は、第1言語の例文とその訳文である第2言語の例文を入力する入力部202、入力された例文を形態素解析する形態素解析部204、形態素解析された文字列または単語を前処理する前処理部206、第1言語の単語とその訳語である第2言語の単語との対応関係、第2言語の単語とその訳語である第1言語の単語との対応関係、および第1言語の単語についての第2言語の解説訳文、および第2言語の単語についての第1言語の解説訳文の対応関係を記憶する単語対訳辞書208、単語対訳辞書208を参照して第1言語の単語と第2言語の単語間のアライメントを行う辞書ベースアライメント部210、中国語の簡繁文字変換を行う中国語簡繁変換部212、中国語簡繁変換部212の変換結果を利用して単語表記のアライメントを行う単語表記ベースアライメント部214、後述する種々のアライメントに関する情報を記憶する記憶部(メモリ)216、記憶部216に記憶されたアライメント情報を利用して多対多の単語アライメントを行う多対多アライメント部218、2部グラフベースアライメントを行うBGMWMベースアライメント部220、単語間のアライメント結果を出力する出力部222とを含んで構成される。 FIG. 7 is a block diagram showing the configuration of the word alignment apparatus of the present embodiment. The word alignment translation apparatus 200 according to the present embodiment includes an input unit 202 that inputs an example sentence in the first language and an example sentence in the second language that is a translation thereof, a morpheme analysis part 204 that analyzes the input example sentence, and a morpheme analysis Pre-processing unit 206 that pre-processes a character string or a word, correspondence relationship between a first language word and a second language word that is the translated word, a second language word and a first language word that is the translated word Refer to the word bilingual dictionary 208 and the word bilingual dictionary 208 that store the correspondence, the second language explanation translation for the first language word, and the first language explanation translation for the second language word. The dictionary base alignment unit 210 that performs alignment between the first language word and the second language word, the Chinese simplified conversion unit 212 that performs simplified Chinese character conversion, and the Chinese simplified conversion unit 212 conversion A word notation base alignment unit 214 that performs alignment of word notation using results, a storage unit (memory) 216 that stores information on various alignments described later, and a multi-pair using alignment information stored in the storage unit 216 It includes a many-to-many alignment unit 218 that performs multiple word alignment, a BGMWM base alignment unit 220 that performs bipartite graph-based alignment, and an output unit 222 that outputs alignment results between words.
本実施例の単語アライメント装置200は、好ましくは図1に示すような例文ベース翻訳装置16に含まれる。図1に示す翻訳メモリ翻訳装置14において適切に翻訳することができなかった例文は、例文ベース翻訳装置16に入力される。入力された例文は、図2に示すように、単語アライメント例文対訳辞書と比較され、例文と類似する例文とその訳語を対にした例文パターンが抽出される。好ましくは、このような例文対訳パターンが入力部202に入力される。 The word alignment apparatus 200 of the present embodiment is preferably included in an example sentence base translation apparatus 16 as shown in FIG. The example sentences that could not be properly translated in the translation memory translation apparatus 14 shown in FIG. 1 are input to the example sentence base translation apparatus 16. As shown in FIG. 2, the input example sentence is compared with a word alignment example sentence parallel translation dictionary, and an example sentence pattern in which an example sentence similar to the example sentence and its translation word are paired is extracted. Preferably, such an example sentence parallel translation pattern is input to the input unit 202.
形態素解析部204は、入力された例文パターンを形態素解析により、例文および訳文を構成する単語を切り分け、単語の品詞を付与する。形態素解析の技術は、広く知られているが、例えば、日本語の形態素解析技術であればChasen、中国語形態素解析技術であれば、清華大学のSeg and POSツールや中国東北大学のCiPosSDKツールを用いることができる。図8は、中国語の形態素解析の例と、日本語の形態素解析の例を示している。 The morpheme analysis unit 204 performs morphological analysis on the inputted example sentence pattern to separate words constituting the example sentence and the translated sentence, and gives the part of speech of the word. The technology of morphological analysis is widely known. For example, Chasen for Japanese morphological analysis technology, Seg and POS tool of Tsinghua University and CiPosSDK tool of Tohoku University of China for Chinese morphological analysis technology. Can be used. FIG. 8 shows an example of Chinese morphological analysis and an example of Japanese morphological analysis.
図9に前処理部の動作フローを示す。前処理部206は、形態素解析部204によって切り分けられた単語および品詞ID等(図8を参照)を受け取り(ステップS101)、この中から数値部分を抽出する(ステップS102)。次いで、数値部分と非数値部分に切り分け、数値部分を漢字で表現し(ステップS103、S104))、漢字で表現された数値部分と非数値部分とを合成する(ステップS105)。これにより、アルファベットや数字は漢字表現に変換される。 FIG. 9 shows an operation flow of the preprocessing unit. The preprocessing unit 206 receives the word and part-of-speech ID (see FIG. 8) cut by the morphological analysis unit 204 (step S101), and extracts a numerical part from the word (step S102). Next, the numerical value portion and the non-numeric value portion are separated, the numerical value portion is expressed in Chinese characters (steps S103 and S104), and the numerical value portion expressed in Chinese characters and the non-numeric value portion are synthesized (step S105). Thereby, alphabets and numbers are converted into Kanji expressions.
次に、辞書ベースアライメント部について説明する。S=CS<->JSは、一つの対訳例文ペアを表すものとする。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。よって、CS=<C1 C2 …Cm>、JS=<J1 J2 … Jn>で表され、ChとJkは、単語である。 Next, the dictionary base alignment unit will be described. S = CS <-> JS represents one translated example sentence pair. Here, CS is an example sentence in the first language, and JS is a translated sentence in the second language of CS. Therefore, CS = <C1 C2... Cm>, JS = <J1 J2... Jn>, and Ch and Jk are words.
辞書ベースアライメント部210は、単語対訳辞書208を参照して、以下のアルゴリズムを実行する。 The dictionary base alignment unit 210 refers to the word bilingual dictionary 208 and executes the following algorithm.
1)DBA1アルゴリズム:SimD(Cx,Jy)=1になるすべての単語ペア(Cx, Jy)に対して、単語CxとJyにアライメントさせる。
2)DBA2アルゴリズム:アライメントされていない単語Chに対して,単語対訳辞書208にあるChのすべての訳語の集合をDict(Ch)={Jh1,Jh2, …,Jhx}とする。もし、次の条件1と条件2を満たすJSの部分文字列<Jk,Jk+1,…,Jk+y>が存在するなら、単語ChとJSの部分文字列<Jk,Jk+1,…,Jk+y>にアライメントさせる。
1) DBA1 algorithm: For all word pairs (Cx, Jy) where SimD (Cx, Jy) = 1, align to the words Cx and Jy.
2) DBA2 algorithm: For an unaligned word Ch, a set of all translated words of Ch in the word bilingual dictionary 208 is Dict (Ch) = {Jh1, Jh2,..., Jhx}. If there is a JS partial character string <Jk, Jk + 1, ..., Jk + y> that satisfies the following condition 1 and condition 2, the partial character strings <Jk, Jk + 1, ... of the words Ch and JS , Jk + y>.
3)DBA3アルゴリズム:アライメントされていない単語Chに対して、単語対訳辞書208にあるChの訳語が存在していない場合は、単語対訳辞書208の第1言語の単語集合BiWordSet1を用いて、単語Chを分割する。分割した結果をCh=<Ch1,Ch2,…,Chz>とする。単語対訳辞書208のChiのすべての訳語集合をDict(Chi)={Jhi1,Jhi2,…,Jhix}とする。もし、次の条件1と条件2を満たすJSの単語Jkが存在するなら、単語ChとJSの単語Jkにアライメントさせる。 3) DBA3 algorithm: If there is no Ch translation in the word bilingual dictionary 208 for the unaligned word Ch, the word Ch is used by using the first language word set BiWordSet1 in the word bilingual dictionary 208. Split. The divided result is Ch = <Ch1, Ch2, ..., Chz>. Let Dict (Chi) = {Jhi1, Jhi2,..., Jhix} be the set of all translations of Chi in the word bilingual dictionary 208. If there is a JS word Jk that satisfies the following conditions 1 and 2, alignment is performed with the words Ch and JS.
次に、単語表記ベースアライメント部について説明する。S=CS<->JSは、一つの対訳例文ペアを表す。CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2,…Cm>、JS=<J1,J2, … Jn>で表され、ChとJkは単語である。 Next, the word notation base alignment unit will be described. S = CS <-> JS represents one parallel example sentence pair. CS is an example sentence in the first language, and JS is a translation in the second language of CS. CS = <C1, C2,... Cm>, JS = <J1, J2,... Jn>, and Ch and Jk are words.
単語表記ベースアライメント部212は、中国語簡繁文字変換部212による中国語の簡体字を参照し、すべてのアライメントされていない単語Chに対して、形状類似度SimM(Ch,Jy)=1、かつ、単語Jyがアライメントされていなかった場合は、単語CxとJyにアライメントさせる。SimM(Ch,Jy)=1は、漢字が同じ形状のとき、例えば“中国”と“中国”である。 The word notation base alignment unit 212 refers to the simplified Chinese characters by the simplified Chinese character conversion unit 212, and for all unaligned words Ch, the shape similarity SimM (Ch, Jy) = 1, and If the word Jy is not aligned, it is aligned with the words Cx and Jy. SimM (Ch, Jy) = 1 is, for example, “China” and “China” when the Chinese characters have the same shape.
次に、多対多アライメント部について説明する。多対多アライメント部218は、図10に示すように、1-n連続型とm-1連続型アライメント部230と、1-n非連続型とm-1非連続型アライメント部232と、m-n連続型アライメント部234とを含んでいる(n、mは、2以上の自然数である)。 Next, the many-to-many alignment unit will be described. As shown in FIG. 10, the many-to-many alignment unit 218 includes a 1-n continuous type and m-1 continuous type alignment unit 230, a 1-n non-continuous type and an m-1 non-continuous type alignment unit 232, And a continuous alignment unit 234 (n and m are natural numbers of 2 or more).
n連続型とm-1連続型アライメント部230は、1つの単語と連続するn個の単語のアライメント、あるいは連続するm個の単語と1つの単語のアライメントを行う。 The n-continuous type and m-1 continuous-type alignment unit 230 performs alignment of n words continuous with one word, or alignment of m consecutive words with one word.
n連続型とm-1連続型アライメント部230は、事前に、単語アライメントコーパスを用いて、1-n連続型とm-1連続型のアライメントについて、連続している二つの単語の品詞接続表CPPS(Concomitance POS Pair Set)を構築する。例えば、単語C1が連続している単語J1,J2,J3にアライメントする場合は、J1とJ2、J2とJ3間の品詞接続を計算の対象にする。逆に、連続している単語C1,C2,C3が単語J1にアライメントする場合は、C1とC2,C2とC3間の品詞接続を計算の対象にする。CPPSは、次式によって求めることができる。ここで、CPPSの分母は、コーパスにおけるすべての2つの連続する品詞の数であり、分子は、コーパスにおけるアライメントされた品詞の数である。また、θは、閾値であり、0<θ<1である。 The n-continuous type and m-1 continuous type alignment unit 230 uses the word alignment corpus in advance to perform the part-of-speech connection table of two consecutive words for the 1-n continuous type and the m-1 continuous type alignment. Construct CPPS (Concomitance POS Pair Set). For example, when aligning to words J1, J2, and J3 in which word C1 is continuous, the part-of-speech connection between J1 and J2 and J2 and J3 is the object of calculation. Conversely, when consecutive words C1, C2, and C3 are aligned with word J1, the part-of-speech connections between C1 and C2, and C2 and C3 are subject to calculation. CPPS can be obtained by the following equation. Here, the denominator of CPPS is the number of all two consecutive parts of speech in the corpus and the numerator is the number of aligned parts of speech in the corpus. Further, θ is a threshold value, and 0 <θ <1.
1-n連続型とm-1連続型アライメント部230は、品詞接続表を用いて次のようなアライメントを行う。 The 1-n continuous type and m-1 continuous type alignment unit 230 performs the following alignment using the part-of-speech connection table.
S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。 S = CS <-> JS represents one parallel example sentence pair. Here, CS is an example sentence in the first language, and JS is a translated sentence in the second language of CS. CS = <C1, C2,..., Cm>, JS = <J1, J2,..., Jn>, Ch and Jk are words.
すべてのアライメントされた単語Jkに対して、
ケース1:単語ChがJkにアライメントし、かつ、Jk+1がまたアライメントされていないとき、もし、(POS(Jk),POS(Jk+1)) ∈ CPPSならば、ChをJk+1にアライメントさせる。
ケース2:単語ChがJkにアライメントし、かつ、Jk-1がまたアライメントされていないとき、もし、(POS(Jk-1),POS(Jk)) ∈ CPPSならば、ChをJk-1にアライメントさせる。図11(a)、(b)は、ケース1とケース2を例示している。
For all aligned words Jk
Case 1: If the word Ch is aligned to Jk and Jk + 1 is also not aligned, if (POS (Jk), POS (Jk + 1)) ∈ CPPS, Ch to Jk + 1 Align.
Case 2: If the word Ch is aligned to Jk and Jk-1 is not aligned again, if (POS (Jk-1), POS (Jk)) ∈ CPPS, Ch to Jk-1 Align. FIGS. 11A and 11B illustrate a case 1 and a case 2.
すべてのアライメントされた単語Chに対して、
ケース1:ChがJkにアライメントし、かつ、Ch+1がまたアライメントされていないとき、もし、(POS(Ch),POS(Ch+1)) ∈ CPPSならば、Ch+1をJkにアライメントさせる。
ケース2:ChがJkにアライメントし、かつ、Ch-1がまたアライメントされていないとき、もし、(POS(Ch-1),POS(Ch)) ∈ CPPSならば、Ch-1をJkにアライメントさせる。図12(a)、(b)は、ケース1とケース2を例示している。
For all aligned words Ch,
Case 1: Ch is aligned to Jk, and Ch + 1 is not aligned again. If (POS (Ch), POS (Ch + 1)) ∈ CPPS, align Ch + 1 to Jk. Let
Case 2: Ch is aligned to Jk, and Ch-1 is not aligned again. If (POS (Ch-1), POS (Ch)) ∈ CPPS, align Ch-1 to Jk. Let 12A and 12B exemplify case 1 and case 2. FIG.
次に、1-n非連続型とm-1非連続型アライメント部232について説明する。1-n非連続型とm-1非連続型のアライメントに対して、1に対応している単語の大部分が連結詞、前置詞、助詞であるため、それらの1-n非連続型とm-1非連続型のアライメントを事前に抽出して辞書化する。これを、多対多アライメント辞書MMADicと呼び、そのサンプルを図13に示す。ここには、中国語の1つの単語とこれに対応する日本語の非連続の複数の単語と、その反対に、日本語の1つの単語とこれに対応する中国語の非連続の複数の単語の例が示されている。 Next, the 1-n non-continuous type and the m-1 non-continuous type alignment unit 232 will be described. For 1-n non-continuous and m-1 non-continuous alignments, most of the words corresponding to 1 are connectives, prepositions, and particles, so these 1-n non-continuous and m -1 Discontinuous alignment is extracted in advance and converted into a dictionary. This is called a many-to-many alignment dictionary MMADic, and a sample thereof is shown in FIG. Here, one Chinese word and a plurality of non-consecutive Japanese words corresponding thereto, and conversely, one Japanese word and a plurality of non-contiguous Chinese words corresponding thereto An example of is shown.
ここで、S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。 Here, S = CS <-> JS represents one parallel example sentence pair. Here, CS is an example sentence in the first language, and JS is a translated sentence in the second language of CS. CS = <C1, C2,..., Cm>, JS = <J1, J2,..., Jn>, Ch and Jk are words.
すべてのアライメントされた単語Chに対して、もし、
1)Chが多対多アライメント辞書MMADicにあること、
2)Chの対応している訳語集合がJk,Js,…,JSの単語であること、
3)訳語集合Jk,Js,…,がまたアライメントされていないこと、
を満たす場合は、単語ChがJk,Js,…,にアライメントされる。
For all aligned words Ch, if
1) Ch is in the many-to-many alignment dictionary MMADic,
2) The translation set corresponding to Ch is a word of Jk, Js, ..., JS,
3) The translation set Jk, Js, ... is not aligned again,
If so, the word Ch is aligned with Jk, Js,.
すべてのアライメントされた単語Jkに対して、もし、
1)Jkが多対多アライメント辞書MMADicにあること、
2)Jkの対応している訳語集合がCh,Cs,…,がCSの単語であること、
3)訳語集合Ch,Cs,…,がまたアライメントされていないこと、
を満たす場合は,単語Ch,Cs,…,がJkにアライメントされる。
For all aligned words Jk, if
1) Jk is in the many-to-many alignment dictionary MMADic,
2) Ch, Cs, ..., the set of translations supported by Jk are CS words,
3) The translation set Ch, Cs, ..., is not aligned again,
If so, the words Ch, Cs, ... are aligned to Jk.
次に、m-n連続型アライメント部234について説明する。S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。 Next, the m-n continuous alignment unit 234 will be described. S = CS <-> JS represents one parallel example sentence pair. Here, CS is an example sentence in the first language, and JS is a translated sentence in the second language of CS. CS = <C1, C2,..., Cm>, JS = <J1, J2,..., Jn>, Ch and Jk are words.
すべてのアライメントされた連続している二つの単語ChとCh+1に対して、P=<Ch,Ch+1>;MN-Alignment(P,Alignment(P))を用いて、Pのアライメント結果を求める。もし、Alignment(P) = <Jk,Jk+1>、かつ、JkとJk+1がまだアライメントされていなかった場合は、<Ch,Ch+1>を<Jk,Jk+1>にアライメントする。 Alignment result of P using P = <Ch, Ch + 1>; MN-Alignment (P, Alignment (P)) for all aligned consecutive two words Ch and Ch + 1 Ask for. If Alignment (P) = <Jk, Jk + 1> and Jk and Jk + 1 are not yet aligned, align <Ch, Ch + 1> to <Jk, Jk + 1> .
すべてのアライメントされた連続している二つの単語JkとJk+1に対して、P=<Jk,Jk+1>;MN-Alignment(P,Alignment(P))を用いて、Pのアライメント結果を求める。もし、Alignment(P) = <Ch, Ch+1>、かつ、ChとCh+1がまだアライメントされていなかった場合は、 <Ch,Ch+1>を<Jk,Jk+1>にアライメントする。 Alignment result of P using P = <Jk, Jk + 1>; MN-Alignment (P, Alignment (P)) for all aligned consecutive two words Jk and Jk + 1 Ask for. If Alignment (P) = <Ch, Ch + 1> and Ch and Ch + 1 are not yet aligned, align <Ch, Ch + 1> to <Jk, Jk + 1> .
定義:例文とその訳文をそれぞれCSとJSで表す。例文対訳ペアをS=CS<->JSで表し、対訳例文ペアの候補をBSで表す。例文とその訳文は、文字の順序付き文字列で表現する。即ち、CS、JS、Sは、数式(1)、(2)、(3)によって表される。 Definition: Express example sentences and their translations as CS and JS, respectively. An example sentence parallel translation pair is represented by S = CS <-> JS, and a candidate example sentence pair is represented by BS. The example sentences and their translations are expressed as character strings with ordered characters. That is, CS, JS, and S are expressed by mathematical formulas (1), (2), and (3).
また、連続している複数の単語をPで表す。Pも文字の順序付き文字列で表現し、数式(4)で表される。 A plurality of consecutive words is represented by P. P is also expressed by a character string with an order of characters, and is expressed by Equation (4).
次に、例文訳文ペア(組)の共通部分の定義を説明する。例文訳文ペアSk,Shは、対訳例文ペアの候補BSに含まれ、これらの共通部分は、数式(5)、(6)で表される。 Next, the definition of the common part of the example sentence translated sentence pair (group) will be described. The example sentence translation pair Sk, Sh is included in the candidate BS of the translation example sentence pair, and their common parts are expressed by equations (5) and (6).
例文訳文ペアSk,Shの共通部分の求め方は、数式(7)、(8)、(9)、(10)、(11)によって行われる。ここで、CWSTOPは、言語1の禁止用文字集合、JWSTOPは、言語2の禁止用文字集合を表す。例えば、文書に高い頻度で出現する文字として、中国語の“的”、”地”、”得”など、日本語の“は”、“が”、“を”などが該当する。
次に、Pの言語が言語1の場合の処理を説明する。もし、ShとSkの共通部分が次式(12-1)であれば、ShとShがP<->Tgを強支持すると表現し、この場合、Tgは、Pのアライメント候補となる。 Next, processing when the language of P is language 1 will be described. If the common part of Sh and Sk is the following expression (12-1), it is expressed that Sh and Sh strongly support P <-> Tg. In this case, Tg is a P alignment candidate.
もし、例文対訳候補BSの中に、x個の例文ペアがP<->Tgを支持するなら、TgがPのアライメント候補である支持度がxであると定義され、SV(P<->Tg)=xと表現される。そして、支持度SV(P<->Tg)が最大のTgをPのアライメント結果とし、数式(13-1)のように表される。 If x example sentence pairs support P <-> Tg in the example sentence parallel translation candidate BS, it is defined that the support degree that Tg is an alignment candidate of P is x, and SV (P <-> Tg) = x. Then, Tg having the maximum support degree SV (P <−> Tg) is taken as the alignment result of P, and is expressed as in Expression (13-1).
もし、例文対訳ペアShとSkの共通部分が数式(14-1)であれば、ShとShがP<->Tgを弱支持すると表現し、この場合もTgは、Pのアライメント候補である。 If the common part of the example sentence translation pair Sh and Sk is the formula (14-1), it is expressed that Sh and Sh weakly support P <-> Tg, and Tg is also a P alignment candidate in this case .
他方、Pの言語が言語2の場合には、もし、ShとSkの共通部分が次式(12-2)であれば、ShとShがP<->Tgを強支持すると表現し、この場合、Tgは、Pのアライメント候補となる。 On the other hand, if the language of P is language 2, if the common part of Sh and Sk is the following equation (12-2), it is expressed that Sh and Sh strongly support P <-> Tg. In this case, Tg becomes a P alignment candidate.
もし、例文対訳候補BSの中に、x個の例文ペアがP<->Tgを支持するなら、TgがPのアライメント候補である支持度がxであると定義され、SV(P<->Tg)=xと表現される。そして、支持度SV(P<->Tg)が最大のTgをPのアライメント結果とし、数式(13-2)のように表される。 If x example sentence pairs support P <-> Tg in the example sentence parallel translation candidate BS, it is defined that the support degree that Tg is an alignment candidate of P is x, and SV (P <-> Tg) = x. Then, Tg having the maximum support degree SV (P <-> Tg) is taken as the alignment result of P, and is expressed as Expression (13-2).
もし、例文対訳ペアShとSkの共通部分が数式(14-2)であれば、ShとShがP<->Tgを弱支持すると表現し、この場合もTgは、Pのアライメント候補である。 If the common part of the example sentence parallel translation pair Sh and Sk is the formula (14-2), it is expressed that Sh and Sh weakly support P <-> Tg, and Tg is also a P alignment candidate in this case. .
次に、m-n連続型アライメント部の処理手順を説明する。図14は、m-n連続型アライメント部の処理フローを示す図である。m-n連続型アライメント部234は、例文対訳辞書26bをアクセスし、そこから、例えば連続している複数の単語Pを含む複数の例文対訳ペアの候補BSを求める(ステップS201)。求められた例文対訳ペア候補BSは、記憶部216に格納され、次いで、これらの各例文対訳組相互間の共通部分の組を抽出し、それらの全てのペア候補の支持度を算出する(ステップS202)。そして、支持度の高いものをアライメント候補に選択する(ステップS203)。 Next, a processing procedure of the m-n continuous alignment unit will be described. FIG. 14 is a diagram illustrating a processing flow of the m-n continuous alignment unit. The m-n continuous alignment unit 234 accesses the example sentence parallel translation dictionary 26b, and obtains a plurality of example sentence parallel translation pair candidates BS including a plurality of consecutive words P, for example (step S201). The obtained example sentence parallel translation pair candidate BS is stored in the storage unit 216. Next, a pair of common parts between the respective example sentence parallel translation pairs is extracted, and the support level of all the pair candidates is calculated (step). S202). Then, one having a high degree of support is selected as an alignment candidate (step S203).
アライメント候補の選択は、例えば次にようにして行われる。
ここで、2つのアライメント候補をT1とT2とし、それらの支持度をx,y(但し、x > y)とする。すなわち、SV(P<->T1)=x, SV(P<->T2)=yとする。
Selection of alignment candidates is performed as follows, for example.
Here, the two alignment candidates are T1 and T2, and their support levels are x and y (where x> y). That is, SV (P <-> T1) = x and SV (P <-> T2) = y.
もし、 x < θ1 ならば、適切な候補が存在しないとして、アライメント失敗とする。
もし、 x >= θ1 であり、かつ x-y > θ2 のならば、T1をアライメント結果として出力する。
もし、 x >= θ1 でり、かつ x / y > θ3 ならば、T1をアライメント結果として出力する。
但し、θ1、θ2、 θ3は、非負の実数である。
If x <θ1, it is determined that the alignment fails because there is no suitable candidate.
If x> = θ1 and xy> θ2, T1 is output as the alignment result.
If x> = θ1 and x / y> θ3, T1 is output as the alignment result.
However, θ1, θ2, and θ3 are non-negative real numbers.
上記基準に従ってアライメント結果が存在するか否かを判定し(ステップS204)、アライメント結果が存在するときは、その結果を出力する(ステップS205)。ここでのアライメント結果が存在しないときは、次の処理、例えば2部グラフベースアライメント部220による処理が行われる。 It is determined whether or not there is an alignment result according to the above criteria (step S204). If there is an alignment result, the result is output (step S205). When there is no alignment result here, the next processing, for example, the processing by the bipartite graph base alignment unit 220 is performed.
図15は、m-n連続型アライメント部による中国語から日本語へ翻訳する具体例が示されている。連続する複数の単語Pが入力され、これに応答して、例文対訳辞書26bから入力Pを含む例文が抽出されている。S1,S2…、S5は、中主連れた例文対訳ペアであり、中国語の例文C1,C2,…C4は、連続した複数の単語Pを含んでいることがわかる。 FIG. 15 shows a specific example of translation from Chinese into Japanese by the m-n continuous alignment unit. A plurality of continuous words P are input, and in response to this, an example sentence including the input P is extracted from the example sentence parallel translation dictionary 26b. S1, S2,..., S5 are example sentence parallel translation pairs accompanied by the main character, and Chinese example sentences C1, C2,... C4 include a plurality of consecutive words P.
図15により抽出された例文対訳ペアのすべてについての支持度が算出される。図16は、図15において抽出された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。 The support level for all of the example sentence parallel translation pairs extracted in FIG. 15 is calculated. FIG. 16 shows a specific example of calculating the support level in the common part of the example sentence parallel translation pairs extracted in FIG. The support level in the common part of each example sentence parallel translation pair is determined, and as a result, the support level of the corresponding translated sentence is added.
図17は、図15で求めた支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。 FIG. 17 shows a tabulation result of the support levels obtained in FIG. As a result, the degree of support for each translated sentence candidate is known.
図18では、支持度の集計結果から、支持度の高かった2つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的なアライメント結果に決定されている。 In FIG. 18, two translation candidates with high support are extracted from the support result tabulation result, and finally it is determined that T1 exceeds a predetermined standard, and the final alignment result is determined. Yes.
次に、図7に戻り、多対多アライメント部218でアライメントされたかった場合には、BGMWMベースアライメント部220によってアライメントが行われる。
ここでのアライメントは、すべてのアライメントされていないCSの単語集合とJSの単語集合を用いて、重み2部グラフを作成し、図4、図5に示すような2部グラフベースアライメント部を用いてアライメントを行う。
Next, returning to FIG. 7, when the alignment is desired by the many-to-many alignment unit 218, alignment is performed by the BGMWM base alignment unit 220.
Alignment here creates a weight bipartite graph using all unaligned CS word sets and JS word sets, and uses a bipartite graph-based alignment unit as shown in FIGS. Perform alignment.
図19は、本実施例の単語アライメント装置において、領域にスポーツ新聞記事を用い、15,405の例分対訳を格納した例文対訳辞書を用い、100例分対のテスト集合(Open test)で実験をしたときの結果を示している。F-Scoreは、F=(R+P)*2/(R+F)で定義される。実験結果から明らかなように、本実施例の自動単語アライメント装置による種々のアルゴリズムを実行したとき、従来の手法と比較して、リコール率、精度、F-Scoreが向上していることがわかる。 FIG. 19 shows an experiment using a test set (Open test) of 100 pairs of examples using a sports newspaper article in the region and an example sentence parallel translation dictionary in which 15,405 parallel translations are stored in the word alignment apparatus of the present embodiment. Shows the results when. F-Score is defined by F = (R + P) * 2 / (R + F). As can be seen from the experimental results, when various algorithms are executed by the automatic word alignment apparatus of this embodiment, the recall rate, accuracy, and F-Score are improved as compared with the conventional method.
図20は、単語アライメント装置の一ハードウエア構成を示すブロック図である。翻訳メモリ翻訳装置は、好ましくは、入力装置700、表示装置702、主記憶装置704、記憶装置706、中央処理装置(CPU)708、これらを接続するバス710を含んで構成される。 FIG. 20 is a block diagram showing a hardware configuration of the word alignment apparatus. The translation memory translation device preferably includes an input device 700, a display device 702, a main storage device 704, a storage device 706, a central processing unit (CPU) 708, and a bus 710 connecting them.
入力装置700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置704は、ROMまたはRAMを含み、図7に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書26、124等のデータを格納する。中央処理装置708は、主記憶装置704に記憶されたプログラムに従い各部を制御する。 The input device 700 includes a keyboard for inputting information by key operation, a scanner for optically reading a document or the like written on a manuscript, an input interface for inputting data from an external device, an external memory, or the like. The display device 702 includes a display that displays user input, translation results, and the like. The main storage device 704 includes a ROM or a RAM, and stores a program for controlling the operation of each unit shown in FIG. The storage device 706 includes a large-capacity storage device such as a hard disk, and stores data such as various dictionaries 26 and 124 such as an example sentence parallel translation dictionary. The central processing unit 708 controls each unit according to a program stored in the main storage device 704.
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiment of the present invention has been described in detail above, but the present invention is not limited to the specific embodiment, and various modifications can be made within the scope of the present invention described in the claims. Deformation / change is possible.
例えば、上記実施例では、重みが非ゼロの置換が1つとなる例文候補を選択して訳文を生成する例を示したが、必ずしもこれに限らず、重みが非ゼロ置換が2つ、または3つ、あるいはそれ以上であってもよい。また、脱落の数も1つよりも大きくてもよい。置換や脱落の数が増えれば、それに応じて、翻訳の精度が低下する可能性はあるが、それを十分に考慮して翻訳システムに用いることができる。 For example, in the above-described embodiment, an example is shown in which a translation is generated by selecting an example sentence candidate having one non-zero permutation weight. However, the present invention is not limited to this. It may be one or more. Also, the number of dropouts may be greater than one. If the number of substitutions and omissions increases, the translation accuracy may decrease accordingly, but it can be used in a translation system with sufficient consideration.
本発明に係る翻訳メモリ翻訳装置は、機械翻訳システムや翻訳支援システムにおいて利用される。 The translation memory translation apparatus according to the present invention is used in a machine translation system and a translation support system.
10:機械翻訳システム 12:原言語テキスト文入力部
14:翻訳メモリ装置 16:例文パターンベース翻訳装置
18:単語直訳翻訳装置 20:目的言語テキスト出力部
22:翻訳不適切文自動回収部 24:学習装置
26a:単語対訳辞書 26b:例文対訳辞書
26c:例文パターン対訳辞書 200:単語アライメント装置
202:入力部 204:形態素解析部
206:前処理部 208:単語対訳辞書
210:辞書ベースアライメント部 212:中国語簡繁文字変換部
214:単語表記ベースアライメント部 216:記憶部
218:多対多アライメント部 220:BGMベースアライメント部
222:出力部
700:入力装置 702:表示装置
704:主記憶装置 706:記憶装置
708:中央処理装置(CPU) 710:バス
10: machine translation system 12: source language text sentence input unit 14: translation memory device 16: example sentence pattern base translation device 18: word direct translation translation device 20: target language text output unit 22: automatic translation inappropriate sentence collection unit 24: learning Device 26a: Word parallel translation dictionary 26b: Example sentence parallel translation dictionary 26c: Example sentence pattern parallel translation dictionary 200: Word alignment device 202: Input unit 204: Morphological analysis unit 206: Preprocessing unit 208: Word parallel translation dictionary 210: Dictionary base alignment unit 212: China Simplified Chinese character conversion unit 214: word notation base alignment unit 216: storage unit 218: many-to-many alignment unit 220: BGM base alignment unit 222: output unit 700: input device 702: display device 704: main storage device 706: storage Device 708: Central processing unit (CPU) 710: Bus
Claims (18)
第1言語の単語とその対訳である第2言語の単語、第1言語の単語についての第2言語の単語の対訳が存在しないときの解説訳文、および第2言語の単語についての第1言語の単語の対訳が存在しないときの解説訳文の対応関係を記憶する単語対訳辞書と、
第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、
前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、
前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が前記単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメント手段と、
前記第1のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の解説訳文の対応関係が前記単語対訳辞書に含まれているとき、当該第1言語の単語のすべての解説訳文の集合から、前記抽出された第2言語の単語に共通しかつ他とアライメントされていない部分文字列を特定し、当該特定された部分文字列を第1言語の単語にアライメントする第2のアライメント手段と、
を有する単語アライメント装置。 A word alignment device that performs alignment between words included in each example sentence of a second language that is a translation of the example sentence of the first language and the example sentence,
A first language word and its translation, a second language word, a commentary translation when there is no second language word translation for the first language word, and a first language word for the second language word A word bilingual dictionary that memorizes the correspondence of commentary translations when there is no word translation,
An input means for inputting an example sentence in the first language and an example sentence in the second language that is a translation of the example sentence;
Word extraction means for extracting words of the first language and the second language from the inputted example sentences of the first language and the second language, respectively;
When the correspondence relationship between the extracted first language word and the extracted second language word is included in the word parallel translation dictionary, the extracted second language word is extracted from the extracted second language word. First alignment means for aligning with words in the language;
For a word in the first language that is not aligned by the first alignment means, when the correspondence relationship between the word in the first language and the commentary translation in the second language is included in the word bilingual dictionary, the first language words from the set of all commentary translation of words to identify a substring that is not common and the other with alignment to a word of the second language as the extraction, the partial character string that particular first language Second alignment means for aligning with
A word alignment apparatus.
前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントする第5のアライメント手段と、を有する請求項1ないし5いずれか1つに記載の単語アライメント装置。 The word alignment apparatus further stores a part-of-speech connection table indicating a connection relationship between parts of speech of two consecutive words using information in which alignment is given in advance for words in the first language and words between the second language. Storage means;
When the extracted first language word is aligned with a part of the extracted second language consecutive words and the remaining words are not aligned, the consecutive words are 6. A fifth alignment means for aligning the extracted first language word with a plurality of consecutive words in the second language when included in the part-of-speech connection table. The word alignment apparatus as described in.
前記抽出された第1言語の単語が前記アライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントする第6のアライメント手段とを有する請求項1ないし8いずれか1つに記載の単語アライメント装置。 The word alignment device further includes an alignment dictionary that stores correspondence relationships between one word in the first language and a plurality of non-consecutive words in the second language that are translations thereof.
The extracted words in the first language are included in the alignment dictionary, and a plurality of non-consecutive words in the second language that are parallel translations of the words in the first language are included in the example sentences in the second language. The word alignment apparatus according to claim 1, further comprising: a sixth alignment unit that aligns the extracted words in the first language with the discontinuous words in the second language. .
第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、
入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、
前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメントステップと、
第1のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語についての第2言語の単語の対訳が存在しないときの解説訳文の対応関係が単語対訳辞書に含まれているとき、当該第1言語の単語のすべての解説訳文の集合から、前記抽出された第2言語の単語に共通しかつ他とアライメントされていない部分文字列を特定し、当該特定された部分文字列を第1言語の単語にアライメントする、第2のアライメントするステップと、
第2のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の解説訳文の対応関係が単語対訳辞書に含まれているとき、分割された単語を、分割された単語のすべての解説訳文の集合に含まれかつアライメントされていない第2言語の単語にアライメントする第3のアライメントステップと、
を有する単語アライメントプログラム。 A word alignment program executed by a word alignment device that performs alignment between words included in each example sentence in a second language that is a translation of the example sentence in the first language,
Inputting an example sentence in the first language and an example sentence in the second language that is a translation of the example sentence;
Extracting words of the first language and the second language from the input example sentences of the first language and the second language, respectively;
When the correspondence relationship between the extracted first language word and the extracted second language word is included in the word bilingual dictionary, the extracted first language word is converted to the extracted second language. A first alignment step that aligns to a word of
For a word in the first language that has not been aligned in the first alignment step, the word bilingual dictionary includes the correspondence relationship of the commentary translation when there is no parallel translation of the second language word for the first language word. are time, the the set of all commentary translation of words in the first language, identifying a substring that is not common and the other with alignment to a word of the second language as the extraction, the identified portion character A second aligning step to align the sequence with words in a first language;
For words in the first language that are not aligned in the second alignment step, the words in the first language are divided, and the correspondence between the divided words and the commentary translations in the second language is included in the word bilingual dictionary. A third alignment step of aligning the divided words with the unaligned second language words that are included in the set of all commentary translations of the divided words ;
A word alignment program.
第3のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語と前記抽出された第2言語の単語の表記が一致するとき、当該第1言語の単語を前記抽出された第2言語の単語にアライメントする第4のアライメントステップを有する、請求項14に記載の単語アライメントプログラム。 The word alignment program
For words in the first language that are not aligned in the third alignment step, the words in the first language are extracted when the notation of the words in the first language and the extracted words in the second language match. The word alignment program according to claim 14, further comprising a fourth alignment step for aligning words in a second language.
例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択するステップと、
選択された例文対訳組相互間の共通部分の組を抽出するステップと、
前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出するステップと、
算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするステップと、
を有する請求項16または17に記載の単語アライメントプログラム。 The word alignment program
Selecting from the example sentence parallel translation dictionary an example sentence including a plurality of consecutive words in the extracted first language and its parallel translation;
Extracting a pair of common parts between the selected example sentence parallel translation pairs;
Calculating a degree of support of the extracted common part for the plurality of consecutive words;
Aligning the plurality of consecutive words with a plurality of words that are common parts of the second language based on the calculated support;
The word alignment program according to claim 16 or 17, comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810133966.7 | 2008-07-18 | ||
CN200810133966A CN101630313A (en) | 2008-07-18 | 2008-07-18 | Device and method for aligning word and example sentence paginal translation dictionary |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010027020A JP2010027020A (en) | 2010-02-04 |
JP5439776B2 true JP5439776B2 (en) | 2014-03-12 |
Family
ID=41575423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008238736A Expired - Fee Related JP5439776B2 (en) | 2008-07-18 | 2008-09-17 | Word alignment device and word alignment program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5439776B2 (en) |
CN (1) | CN101630313A (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733657B (en) * | 2017-04-17 | 2022-10-28 | 北京搜狗科技发展有限公司 | Attention parameter correction method and device in neural machine translation and electronic equipment |
CN109685059B (en) * | 2018-11-06 | 2024-06-28 | 平安科技(深圳)有限公司 | Text image labeling method, text image labeling device and computer readable storage medium |
CN114742078A (en) * | 2022-04-18 | 2022-07-12 | 新译信息科技(北京)有限公司 | Contrast display method, terminal device and computer-readable storage medium |
CN116436987B (en) * | 2023-06-12 | 2023-08-22 | 深圳舜昌自动化控制技术有限公司 | IO-Link master station data message transmission processing method and system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4054035B2 (en) * | 2005-09-08 | 2008-02-27 | 日本電信電話株式会社 | Database construction apparatus, database construction method, database construction program, and recording medium |
JP4961755B2 (en) * | 2006-01-23 | 2012-06-27 | 富士ゼロックス株式会社 | Word alignment device, word alignment method, word alignment program |
-
2008
- 2008-07-18 CN CN200810133966A patent/CN101630313A/en active Pending
- 2008-09-17 JP JP2008238736A patent/JP5439776B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010027020A (en) | 2010-02-04 |
CN101630313A (en) | 2010-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4961755B2 (en) | Word alignment device, word alignment method, word alignment program | |
CN106844368B (en) | Method for man-machine conversation, neural network system and user equipment | |
US9176936B2 (en) | Transliteration pair matching | |
Wolf et al. | Joint word2vec Networks for Bilingual Semantic Representations. | |
JP5915326B2 (en) | Machine translation apparatus, machine translation method, and machine translation program | |
CN105068997B (en) | The construction method and device of parallel corpora | |
JP2014078132A (en) | Machine translation device, method, and program | |
JP5439776B2 (en) | Word alignment device and word alignment program | |
JP4266222B2 (en) | WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM | |
Li et al. | Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding | |
Hall et al. | Large-scale cognate recovery | |
JP2009289219A (en) | Translation-memory translation device and translation program | |
JP5194920B2 (en) | Example sentence set-based translation device, method and program, and phrase translation device including the translation device | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
Malik et al. | Urdu to English machine translation using bilingual evaluation understudy | |
JP5428199B2 (en) | Parallel translation extraction apparatus and parallel translation extraction method | |
Fawi et al. | Italian-Arabic domain terminology extraction from parallel corpora | |
Jäger et al. | Statistical and computational elaborations of the classical comparative method | |
JP5302784B2 (en) | Machine translation method and system | |
JP4881399B2 (en) | Bilingual information creation device, machine translation device, and program | |
JP5544518B2 (en) | Machine translation apparatus, machine translation method, and program thereof | |
Huang et al. | Input method for human translators: a novel approach to integrate machine translation effectively and imperceptibly | |
JP2006024114A (en) | Mechanical translation device and mechanical translation computer program | |
JP5207016B2 (en) | Machine translation evaluation apparatus and method | |
JP2013156815A (en) | Document consistency evaluation system, document consistency evaluation method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5439776 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |