JP5298834B2 - Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus - Google Patents
Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus Download PDFInfo
- Publication number
- JP5298834B2 JP5298834B2 JP2008326704A JP2008326704A JP5298834B2 JP 5298834 B2 JP5298834 B2 JP 5298834B2 JP 2008326704 A JP2008326704 A JP 2008326704A JP 2008326704 A JP2008326704 A JP 2008326704A JP 5298834 B2 JP5298834 B2 JP 5298834B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- example sentence
- language
- phrase
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、例文対訳辞書を利用した例文集合ベース翻訳装置、方法およびプログラム、並びに該例文集合ベース翻訳装置を含んで構成された句翻訳装置に関する。 The present invention relates to an example sentence set base translation apparatus, method and program using an example sentence parallel translation dictionary, and a phrase translation apparatus including the example sentence set base translation apparatus.
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)統計ベース機械翻訳方式、3)例文ベース機械翻訳方式に大別することができる。 Machine translation is the conversion from one language to another using a computer, and such research and development has been conducted all over the world for half a century. Machine translation systems can be broadly divided into 1) analysis-based machine translation systems, 2) statistical-based machine translation systems, and 3) example sentence-based machine translation systems.
解析ベース機械翻訳方式は、第1言語の解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。 The analysis-based machine translation system is a technique for performing analysis of a first language (morpheme analysis, syntax / semantic analysis, etc.), converting the analysis result to a second language, and further generating a translation of the second language. Since natural language analysis technology is still immature, there are limits to the practical application of analysis-based machine translation systems. Furthermore, since it cannot be learned, it has the disadvantage that it becomes difficult to improve and improve the translation engine.
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。 The statistical-based machine translation method is a technique for constructing a translation model using a language model and a statistical model. This method is limited in practical use because learning data (corpus) necessary for the configuration of each model is limited.
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。 The example-based machine translation method is to translate a new document by referring to a translation example sentence that has already been learned by imitating a mechanism in which a human learns a foreign language. This translation system was proposed in the 1980s, and research and development have been actively conducted since then. Example sentence-based machine translation technology includes translation memory translation technology, translation technology that uses bilingual example sentences with word alignment, translation technology that uses sentence patterns, etc. There is.
図1は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム10は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム10は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。 FIG. 1 is a diagram illustrating an example of the overall configuration of a machine translation system according to an example sentence-based machine translation system. The machine translation system 10 is configured to shift from a simpler translation to a more complicated translation, thereby speeding up translation. In addition, the machine translation system 10 has a learning function that automatically collects portions that cannot be translated and gives an accurate parallel translation.
機械翻訳システム10は、原言語テキスト文入力部12から入力された文単位の文を翻訳する翻訳メモリ装置14、翻訳メモリ装置14において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された単語等の例文パターンを翻訳する例文パターンベース翻訳装置16と、例文パターンベース翻訳装置16で翻訳できなかった単語を不適切な単語として入力し、この単語を翻訳する単語直訳翻訳装置18と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部20を有している。
The machine translation system 10 translates a sentence unit sentence inputted from the source language text
さらに機械翻訳システム10は、例文パターンベース翻訳装置16によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部22と、翻訳不適切文自動回収部22により作成された翻訳のチェックや修正を行う学習装置24と、翻訳辞書26とを備えている。翻訳辞書26は、第1の言語の単語とその対訳である第2の言語の単語を格納する単語対訳辞書26a、第1の言語の例文とその対訳である第2の言語の例文を格納する例文対訳辞書26b、第1の言語の例文パターンとその対訳である第2の言語の例文パターンを格納する例文パターン対訳辞書26cを含んでいる。翻訳辞書26は、翻訳メモリ装置14、例文パターンベース翻訳装置16、単語直訳翻訳装置18において利用される。なお、図1の機械翻訳システムは、一つの構成例であって、さらに他のチャンクベース等の翻訳エンジンを含むものもある。
Further, the machine translation system 10 collects a sentence that could not be translated by the example sentence pattern-based
図2は、図1における例文パターンベース翻訳装置16の構成を示すブロック図である。例文パターンベース翻訳装置16は、入力文を形態素解析する形態素解析部26、形態素解析された文に対して例文パターン対訳辞書30を用いて写像変換を行う写像変換部28、写像変換された文における各名詞句などの句を翻訳する句翻訳部32、および句翻訳部32で翻訳された句を写像変換された文に適用して最終的な訳文を生成する訳文生成部34を備えて構成される。例文パターン対訳辞書30には、文中の二つ以上の単語からなる句を一般化した多数の例文パターンとその対訳文が組となって格納されている。写像変換部28は、入力文における句を一般化した文を生成し、例文パターン対訳辞書30に対して検索を実行してこれと同じ例文パターンおよびその対訳文の組を抽出する。
FIG. 2 is a block diagram showing the configuration of the example sentence pattern-based
図3は、例文パターンベース翻訳装置16における具体的な翻訳処理のプロセスを示した概念図である。ここでは日本語を第1言語として入力し、第2言語として中国語の訳文を得る例を示している。例文パターンベース翻訳装置16に入力された日本語文は、形態素解析部26で形態素解析され(図中の数字は各形態素に与えられる品詞のID)、写像変換部28に与えられる。写像変換部28では、形態素解析された文中の句(フレーズ)を一般化(図中のNP1、NP2、NP3)した文を生成し、これに一致する例文パターンを例文パターン対訳辞書30から抽出する。そしてその中国語対訳例文パターンを特定する。次に、写像変換部28でNP1〜NP3として一般化された句を、句翻訳部32に入力して、それらの対訳句を得る。訳文生成部34において、このようにして得られた対訳例文パターンに対訳句が埋め込まれ、入力された日本語文に対する中国語訳文が生成される。なお、句翻訳部32における句の翻訳精度は、最終的な翻訳文における翻訳精度に重大な影響を与える。
FIG. 3 is a conceptual diagram showing a specific translation process in the example sentence pattern-based
前述のような機械翻訳技術に関連するものとして、特許文献1〜4並びに非特許文献1および2が存在する。特許文献1には、連体修飾節を有する第1言語文を第2言語文に翻訳する際に、第2言語の翻訳辞書に連体修飾節の語順に関する情報を付与し、その情報を利用して第2言語の文法規則に従って第2言語文を生成することにより、正しい語順の名詞句を持つ翻訳結果を得ることが開示されている。特許文献2には、機械翻訳装置における並列名詞句処理において、正しい並列名詞句の処理を行なえるようにした並列名詞句処理方式が開示されている。特許文献3は、構造解析して複雑な構造を有する名詞句を抽出し、主名詞とそれ以外の構成要素に分割し、文法規則中の変換・生成規則を用いて訳文を生成する技術が開示されている。特許文献4は、例文対訳辞書を用いて、入力された句を含む例文とその訳文を抽出し、ユーザが抽出された情報から訳文を選択する技術が開示されている。
Patent Documents 1 to 4 and Non-Patent Documents 1 and 2 exist as related to the machine translation technology as described above. In Patent Document 1, when a first language sentence having a combination modification clause is translated into a second language sentence, information regarding the word order of the combination modification clause is given to a translation dictionary of the second language, and the information is used. It is disclosed that a translation result having a noun phrase in the correct word order is obtained by generating a second language sentence according to the grammatical rules of the second language. Patent Document 2 discloses a parallel noun phrase processing system that can perform correct parallel noun phrase processing in parallel noun phrase processing in a machine translation device.
また、非特許文献1は、第1言語の例文とその例文の第2言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献2は、第1言語の例文とその例文の第2言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う技術を報告している。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。 Further, Non-Patent Document 1 shows that an example sentence and a translation sentence are each subjected to morphological analysis for an example sentence pair consisting of an example sentence in the first language and a translation sentence in the second language of the example sentence. We have reported a technique for extracting and extracting word translations that constitute an example sentence from a word bilingual dictionary, and collating the extracted translations with the translation words. Non-Patent Document 2 reports a technique for performing alignment using a statistical model between a word and a translation word composed of a set of example sentence pairs including an example sentence in the first language and a translation sentence in the second language of the example sentence. For example, the statistical model is a DICE coefficient, X2, mutual information, T-score, and the like.
しかしながら前記特許文献1〜3に開示の技術は、その翻訳精度が言語の解析技術に大きく依存しており、その解析精度が十分でない現状においては、その翻訳精度は要求されている水準には達していないという問題がある。また、特許文献4に開示の技術は翻訳支援技術であって、句の訳文を自動的に抽出する技術ではない。
However, the techniques disclosed in Patent Documents 1 to 3 are largely dependent on the language analysis technology, and in the current situation where the analysis accuracy is not sufficient, the translation accuracy reaches the required level. There is no problem. The technique disclosed in
また、非特許文献1に開示の技術は、単語アライメント技術を用いたものであるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献2に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。 Further, the technique disclosed in Non-Patent Document 1 uses a word alignment technique, but this technique has a very low recall rate and cannot process unregistered words that do not exist in the word bilingual dictionary. Furthermore, if the translation has ambiguity, it will be unclear which should be selected. In addition, as disclosed in Non-Patent Document 2, when the word alignment is performed by calculating the parameters in which the example sentences and the translation sentences co-occur with a statistical model utilizing the example sentence parallel translation dictionary, the accuracy is improved if the words have ambiguity. And the optimal alignment cannot be guaranteed.
本発明は、上記従来の課題を解決するものであり、機械翻訳システムにおける例文パターン翻訳装置に実装しうる高性能な句翻訳装置を提供するものであり、この句翻訳装置は、二つ以上の単語からなる句を高速、高精度に翻訳可能として、機械翻訳システムにおける最終的な翻訳文の翻訳精度を向上させることを目的としている。 The present invention solves the above-described conventional problems, and provides a high-performance phrase translation apparatus that can be implemented in an example sentence pattern translation apparatus in a machine translation system. The phrase translation apparatus includes two or more phrase translation apparatuses. The purpose is to improve the translation accuracy of the final translation sentence in the machine translation system by making it possible to translate a phrase composed of words at high speed and with high accuracy.
なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。言語学上、文が節、句を含み、節が句を含む、句が句を含まない。本明細書には、句の定義が言語学上の定義ではない、二つ以上の単語からなる単語列、かつ、句が句を含んでもよいと定義する。例文パターンベースの翻訳装置には、例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して、句の翻訳を簡易に実現する。 In this document, the term “phrase” includes a phrase composed of two or more words and a phrase that includes the phrase. Linguistically, a sentence includes a clause, a phrase, a clause includes a phrase, and a phrase does not include a phrase. In the present specification, it is defined that a phrase is not a linguistic definition, a word string including two or more words, and a phrase may include a phrase. Since the example sentence pattern-based translation device includes an example sentence parallel translation dictionary and an example sentence parallel translation dictionary, phrase translation can be easily realized by making maximum use of these language resources.
本発明の請求項1に係る例文集合ベース翻訳装置は、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書を検索して得られる入力句を含む例文対訳組を保持する保持手段と、前記入力句と前記例文とが一致するかどうかを判断する判断手段と、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書と、前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する検索手段と、前記保持手段で保持された例文対訳組の第1言語の例文と前記検索手段で検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、前記判断手段で一致すると判断された場合、入力句の訳文として前記対訳例文を出力し、前記判断手段で一致しないと判断された場合、前記抽出手段で抽出された入力句の訳文を出力する出力手段と、を備えたものである。 An example sentence set-based translation device according to claim 1 of the present invention provides an input phrase obtained by searching a first dictionary that stores example sentences in a first language and parallel translation example sentences in a second language as an example sentence parallel translation set. Holding means for holding an example sentence bilingual pair including a judgment means for judging whether the input phrase matches the example sentence , a first language example sentence pattern, and a second language parallel translation example sentence pattern A second dictionary for storing as an example sentence pattern parallel translation set; a search means for searching an example sentence pattern parallel translation set corresponding to the example sentence parallel translation set including the input phrase held in the holding means; and the holding means. The first language example sentence of the example sentence parallel translation set and the example sentence pattern of the first language of the example sentence pattern translation set searched by the search means, and the second language example sentence and the example sentence pattern translation in the example sentence parallel translation set In pairs And matching means for performing matching between 2 language sentence patterns, the extracting means for extracting a translation of input phrase based on the matching means matching results, if it is determined that coincides with the determination means, as the translation of the input phrase And output means for outputting the translated example sentence and outputting the translated sentence of the input phrase extracted by the extracting means when the judging means judges that they do not match .
本発明の請求項2に係る例文集合ベース翻訳装置は、請求項1記載の構成に対して、前記抽出手段が、第1言語の例文内の入力句が第1言語の例文パターンでの特定の可変部分に対応し、第1言語の例文パターンでの特定の可変部分が第2言語の例文パターンでの特定の可変部分に対応し、第2言語の例文パターンでの特定の可変部分が第1言語の例文に対応することにより、入力句の訳文として、当該第2言語の例文パターンでの特定の可変部分に対応する第1言語の例文の部分を抽出することを特徴とするものである。 The example sentence set base translation device according to claim 2 of the present invention is the configuration according to claim 1, wherein the extraction unit is configured to specify an input phrase in an example sentence in the first language as an example sentence pattern in the first language. Corresponding to the variable part, the specific variable part in the example sentence pattern in the first language corresponds to the specific variable part in the example sentence pattern in the second language, and the specific variable part in the example sentence pattern in the second language is the first By corresponding to an example sentence in the language, a part of the example sentence in the first language corresponding to a specific variable part in the example sentence pattern in the second language is extracted as a translated sentence of the input phrase.
本発明の請求項3に係る句翻訳装置は、請求項1または2に記載の例文マッチング翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成したものである。
A phrase translation apparatus according to
本発明の請求項4に係る句翻訳装置は、請求項3に記載の前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、請求項1または2に記載の例文マッチング翻訳装置からなる例文マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、例文集合ベース翻訳方式による例文集合ベース翻訳部と、例文ベース翻訳方式による例文ベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成されたものである。
The phrase translation device according to
本発明の請求項5に係る例文マッチング翻訳プログラムは、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書、および第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書を利用した例文マッチング翻訳プログラムであって、前記第1の辞書を検索して得られる入力句を含む例文対訳組を保持する第1のステップと、前記入力句と前記例文とが一致するかどうかを判断する第2のステップと、第1のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する第3のステップと、第1のステップで保持された例文対訳組の第1言語の例文と第3のステップで検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行う第4のステップと、第4のステップのマッチング結果に基づいて入力句の訳文を抽出する第5のステップと、第2のステップで一致すると判断された場合、入力句の訳文として前記対訳例文を出力し、第2のステップで一致しないと判断された場合、第5のステップで抽出された入力句の訳文を出力する第6のステップと、をコンピュータに実行させるためのものである。 An example sentence matching translation program according to claim 5 of the present invention includes a first dictionary that stores an example sentence in the first language and a parallel example sentence in the second language, which is a translation of the example sentence, and an example sentence pattern in the first language. An example sentence matching translation program using a second dictionary that stores the parallel translation example sentence pattern of the second language that is the translation as an example sentence pattern translation set, and includes an input phrase obtained by searching the first dictionary Corresponding to a first step of holding a parallel translation set, a second step of determining whether the input phrase and the example sentence match, and an example sentence parallel translation set including the input phrase held in the first step third step and, first and sentence of retained sentence translation pair of the first language in step third searched example sentence pattern translation in retrieving example sentence pattern translation pair from the second dictionary The first inter-language sentence patterns, and a fourth step and a fourth step of performing matching between the second language sentence pattern in the second language sentence and the example sentence pattern translation pairs in the sentence translation sets of When it is determined that the second step and the fifth step of extracting the translated sentence of the input phrase based on the matching result of the first and second steps match, the bilingual example sentence is output as the translated sentence of the input phrase, and the second step does not match If it is determined, the computer executes the sixth step of outputting the translated sentence of the input phrase extracted in the fifth step .
請求項1の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。 According to the configuration of the first aspect, the translation accuracy is extremely high and the calculation suitable for high-speed processing in the information processing apparatus is performed, so that translation can be performed at high speed.
請求項2の構成によれば、比較的容易にマッチング結果に基づいて容易に入力句の訳文を抽出できる。 According to the configuration of the second aspect, the translation of the input phrase can be extracted relatively easily based on the matching result.
請求項3の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、翻訳の高速化および高精度化が図られる。 According to the configuration of the third aspect, the translation units are arranged so as to shift from a simpler basic translation to a more complicated translation, so that the translation can be speeded up and highly accurate.
請求項4の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、既存技術も含めて比較的容易に翻訳の高速化および高精度化が図られる。 According to the configuration of the fourth aspect, since each translation unit is arranged so as to shift from a simpler basic translation to a more complicated translation, it is relatively easy to increase the speed and increase the translation including the existing technology. Accuracy is achieved.
請求項5の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。 According to the configuration of the fifth aspect, the translation accuracy is extremely high, and an operation suitable for high-speed processing in the information processing apparatus is performed.
以下本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。 The best mode for carrying out the present invention will be described below with reference to the embodiments shown in the drawings.
本実施例は、図1に示した機械翻訳システム10に用いられる例文パターンベース翻訳装置16に実装しうる句翻訳装置に係る。図4は、本実施例の句翻訳装置の構成を示すブロック図である。図に示すように句翻訳装置40は、異なる翻訳方式に基づく複数段の翻訳部44〜56、およびそれらで用いられる複数の対訳辞書60〜66を備えており、これは入力部42に入力される第1言語の句が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。つまり、前段の翻訳部において適切に翻訳された句は次段移行の翻訳部における翻訳を受けることなく出力部58から出力され、適切に翻訳されなかった句のみが次段の翻訳部に入力されるように構成されている。
The present embodiment relates to a phrase translation apparatus that can be implemented in the example sentence pattern
具体的には、入力部に入力された第1言語の句は、最初に辞書ベース翻訳部44による翻訳処理に掛けられ、ここで適切な翻訳句が得られなかった場合に、次段の例文マッチング翻訳部47での翻訳処理に掛けられる。次いで例文マッチング翻訳部47においても適切な翻訳句が得られない場合、入力された句は形態素解析部48において形態素解析され、次段の単語アライメント例文ベース翻訳部50による翻訳処理に掛けられる。更に、単語アライメント例文ベース翻訳部50において適切な翻訳句が得られない場合、入力された句は例文集合ベース翻訳部52の翻訳処理に掛けられる。そして、例文集合ベース翻訳部52においても適切な翻訳句が得られない場合には、例文ベース翻訳部54の翻訳処理に掛けられ、ここでも適切な翻訳句が得られない場合に最終段のルールベース翻訳部56の翻訳処理に掛けられ、その結果は出力部58から出力される。
Specifically, the phrase in the first language input to the input unit is first subjected to translation processing by the dictionary-based
次に、各翻訳部44〜56の具体的な構成および処理手順について説明する。
Next, a specific configuration and processing procedure of each
辞書ベース翻訳部44は、入力された句に対して、単語/句対訳辞書60を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語/句対訳辞書60内には、第1言語による単語あるいは句をキーとし、第2言語によるその対訳語あるいは句を値とする辞書セットと、第2言語による単語あるいは句をキーとし、第1言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部44は、基本的には2段階の処理を行い、最初に第1言語による単語/句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第2言語による単語/句をキーとして検索を行ってその対訳句の抽出を行う。
The dictionary
図5は、辞書ベース翻訳部44における翻訳処理の手順を示したフローチャートである。図に示すように、入力された句Pに対して、最初のステップS501において、言語1から言語2への単語/句対訳辞書のセットが検索される。そして、この辞書セットに該当単語あるいは句が存在する場合、処理はステップS502からステップS503に移り、その該当単語あるいは句の対訳語あるいは対訳句が、入力された句Pの訳語として抽出され、出力部58から出力される。
FIG. 5 is a flowchart showing the procedure of translation processing in the dictionary
一方、ステップS502で、この辞書セットに該当単語あるいは句が存在しないと判断された場合は、言語2から言語1への単語/句対訳辞書のセットが検索される。そして、この辞書セットにおける対訳データにおいて該当単語あるいは句が存在する場合、処理はステップS505からステップS506に移り、その該当単語あるいは句の原語が、入力された句Pの訳語として抽出され、出力部58から出力される。前記2つの辞書セットのいずれからも該当単語/句が得られない場合には、入力された句Pは次段の翻訳部である例文マッチング翻訳部46へ渡され、そこでの処理に掛けられる。
On the other hand, if it is determined in step S502 that the corresponding word or phrase does not exist in this dictionary set, a word / phrase bilingual dictionary set from language 2 to language 1 is searched. If the corresponding word or phrase exists in the bilingual data in this dictionary set, the process proceeds from step S505 to step S506, and the original word of the corresponding word or phrase is extracted as the translated word of the input phrase P, and the
図6は、単語/句対訳辞書60のデータ構造の一例を示した図である。この例では、第1言語として日本語、第2言語として中国語を想定した場合の辞書を例としており、日本語を原語、中国語を訳語として構成された第1の辞書セット60a、中国語を原語、日本語を訳語として構成された第2の辞書セット60bが示されている。句翻訳装置40に入力された句Pが日本語である場合、最初に第1の辞書セット60aの原語のカラムが検索されて、該当フィールドの対応する中国語の訳語が句Pの訳語として抽出される。第1の辞書セット60aによる検索が失敗した場合、次に、第2の辞書セット60bの訳語のカラムが検索されて、該当フィールドの対応する中国語の原語が句Pの訳語として抽出される。
FIG. 6 is a diagram showing an example of the data structure of the word / phrase
前記辞書ベース翻訳部44において、入力された句に対する訳語が得られなかった場合、その入力された句は例文マッチング翻訳部47の処理の対象になる。例文マッチング翻訳部47は、第1言語と言語2間の例文を対応させた例文対訳辞書62を用いて、入力された句Pと完全マッチングした例文があれば、その例文の訳文をPの第2言語の訳文として出力する.完全にマッチングした例文が存在しない場合は,入力された句Pを含む例文があれば,その対訳例文ペアと対応している対訳パターンペアを例文パターン対訳辞書63から取り出し、取り出した対訳パターンペアを用いて、句Pを翻訳する。この例文マッチング翻訳部47の詳細構成および動作については後述する。
When the dictionary-based
次に、単語アライメント例文ベース翻訳部50の機能について説明する。例文マッチング翻訳部47で適切に翻訳できなかった句は、形態素解析部48において形態素解析、つまり、入力された句に含まれる単語と品詞をそれぞれ抽出してそれぞれに意味属性を与えられ、これが単語アライメント例文ベース翻訳部50の入力データとなる。単語アライメント例文ベース翻訳部50は、形態素解析された句に対する訳文候補を単語アライメント対訳辞書64を参照して得る。
Next, the function of the word alignment example sentence
単語アライメント対訳辞書64は、第1言語による例文とその第2言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第1言語の例文における各単語と第2言語の対訳文における各単語の対応付け情報が付加されている。具体的な単語アライメント情報の生成方法については、ここでは説明しないが、既存の各種の単語アライメント情報の生成方法が本実施例においても利用できる。
The word alignment
図7は、単語アライメント例文ベース翻訳部50における翻訳処理の手順を示すフローチャートである。図のステップS701において、単語アライメント対訳辞書64の最初の例文ペアが抽出され、ステップS702でその第1言語の例文中に形態素解析された句Pが含まれているか判断される。この処理は句Pが含まれている例文ペアが出現するまで辞書内の全ての例文ペアに対して行われる。すなわち、抽出された例文ペアに句Pが含まれていないと判断された場合、ステップS703で辞書内の全ての例文ペアを取り出したかが判断され、取り出されていない場合には、ステップS704で次の例文ペアを取り出して、句Pとの対比を行う。
FIG. 7 is a flowchart showing a translation processing procedure in the word alignment example sentence
ステップS702において、抽出された例文ペアに句Pが含まれている判断された場合には、処理はステップS705に移り、その例文ペアの単語アライメント情報を参照して、例文中の句Pに該当する部分に対応する、訳文中の部分を、句Pの訳文候補として抽出する。次いで、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含むか判断される(ステップS706)。そして、そのような単語がない場合、すなわち、例文の句Pに該当する部分と訳文候補とのアライメントが完全に一致しているか、あるいは、訳文候補中に他の単語が含まれているがその単語は例文中の他の部分の単語とアライメントしないもの(空対応)である場合には、この訳文候補を、本翻訳部における句Pの訳文として出力する(ステップS707)。 If it is determined in step S702 that the extracted example sentence pair includes the phrase P, the process proceeds to step S705, and the word alignment information of the example sentence pair is referred to, and the phrase P in the example sentence is matched. The part in the translation corresponding to the part to be extracted is extracted as a translation candidate for the phrase P. Next, it is determined whether the word in the extracted translation candidate includes a word aligned with a portion other than the portion corresponding to the phrase P in the original example sentence (step S706). If there is no such word, that is, the alignment of the part corresponding to the phrase P in the example sentence and the translation candidate match completely, or other words are included in the translation candidate. If the word is not aligned with other words in the example sentence (empty correspondence), this translated sentence candidate is output as a translated sentence of phrase P in the present translation unit (step S707).
一方、ステップS707において、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含んでいると判断された場合には、これを最終的な訳文とするのは不適切であると判断して、処理をステップS703に戻し、次の候補を検索する。全ての例文ペアとの対比が終了し、結果として対応訳文が得られなかった場合には、入力された句は、次段の翻訳部、すなわち例文集合ベース翻訳部52へ渡され、そこでの翻訳処理の対象となる。
On the other hand, if it is determined in step S707 that the word in the extracted translation candidate includes a word aligned with a part other than the part corresponding to the phrase P in the original example sentence, The final translation is determined to be inappropriate, and the process returns to step S703 to search for the next candidate. When the comparison with all example sentence pairs is completed and no corresponding translation is obtained as a result, the input phrase is passed to the next translation unit, ie, the example sentence set
図8〜図10は、図7のステップS707における具体的な判断の例を示した図である。図8および図9の例は句Pの対応訳文が得られる例を示しており、図10は得られない場合を示している。図8は、図中の入力された句Pに対して例文e1とその対応訳文t1のペアが抽出された例であり、ここでは、例文e1中の入力された句Pに該当する部分に対し、訳文t1中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1、p2、p3とアライメントするtg1、tg2、tg3のみによって構成されており、結果、図7のステップS707において、訳文のTg部分が最終的な訳文として出力されることとなる。 8 to 10 are diagrams showing examples of specific determination in step S707 of FIG. The examples of FIGS. 8 and 9 show examples in which the corresponding translation of the phrase P is obtained, and FIG. 10 shows the case where the corresponding translation is not obtained. FIG. 8 is an example in which a pair of the example sentence e1 and its corresponding translation t1 is extracted from the inputted phrase P in the figure. Here, for the part corresponding to the inputted phrase P in the example sentence e1 The Tg portion in the translation t1 is extracted as a translation candidate. In this example, the translation candidate Tg is composed only of tg1, tg2, and tg3 that are aligned with the words p1, p2, and p3 constituting the inputted phrase P. As a result, in step S707 of FIG. Will be output as the final translation.
また、図9は、図中の入力された句Pに対して例文e2とその対応訳文t2のペアが抽出された例であり、ここでは、例文e2中の入力された句Pに該当する部分に対し、訳文t2中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p4とアライメントするtg1〜tg4以外にtg5を含んでいる。しかし、tg5は例文e2の他の部分とアライメントしない(空対応)ので、結果、図7のステップS707において、訳文のTg部分が最終的な訳文として出力されることとなる。 FIG. 9 is an example in which a pair of the example sentence e2 and its corresponding translation sentence t2 is extracted from the inputted phrase P in the figure. Here, a portion corresponding to the inputted phrase P in the example sentence e2 On the other hand, the Tg portion in the translation t2 is extracted as a translation candidate. In this example, the translation candidate Tg includes tg5 in addition to tg1 to tg4 that align with the words p1 to p4 constituting the input phrase P. However, since tg5 is not aligned with the other part of the example sentence e2 (empty correspondence), as a result, the Tg part of the translated sentence is output as the final translated sentence in step S707 of FIG.
図10は、図中の入力された句Pに対して例文e3とその対応訳文t3のペアが抽出された例であり、ここでは、例文e3中の入力された句Pに該当する部分に対し、訳文t3中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p3とアライメントするtg1〜tg3以外にtg4およびtg5を含んでいる。ここで、tg4は例文e3の他の部分とアライメントしない(空対応)が、tg5は例文e3の他の部分の単語p4とアライメントするので、結果、図7のステップS707において、訳文のTg部分は訳文としては出力されない。 FIG. 10 is an example in which a pair of the example sentence e3 and its corresponding translation sentence t3 is extracted from the inputted phrase P in the figure. Here, for the part corresponding to the inputted phrase P in the example sentence e3, FIG. The Tg portion in the translation t3 is extracted as a translation candidate. In this example, the translation candidate Tg includes tg4 and tg5 in addition to tg1 to tg3 aligned with the words p1 to p3 constituting the inputted phrase P. Here, tg4 is not aligned with the other part of the example sentence e3 (empty correspondence), but tg5 is aligned with the word p4 of the other part of the example sentence e3. As a result, in step S707 of FIG. It is not output as a translation.
次に、例文集合ベース翻訳部52の機能について説明する。単語アライメント例文ベース翻訳部50で適切に翻訳できなかった句は、例文集合ベース翻訳部52の入力データとなる。例文集合ベース翻訳部52は、入力された句に対する訳文候補を例文対訳辞書66を参照して得る。例文対訳辞書66には、第1言語による例文とその第2言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書66に登録しておくことが好ましい。
Next, the function of the example sentence set
図11は、例文集合ベース翻訳部52の内部構成を機能的に示すブロック図である。図において、例文集合ベース翻訳部52は、例文対訳辞書66から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部1102と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部1104と、抽出された複数の共通部分の組の、入力された句に対する支持度合を算出する支持度算出部1106と、前記算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部1108を備えている。
FIG. 11 is a block diagram functionally showing the internal configuration of the example sentence set
前記例文対訳ペア選択部1102は、入力された句がPである場合に、例文対訳辞書66における第1言語の例文群を検索して、この句Pを含む例文とその対訳文の組を全て選択する。前記句ペア抽出部1104は、例文対訳ペア選択部1102で選択された各例文対訳組を相互に照合し、それらの共通部分の組を抽出する。具体的には、各例文対訳組における第1言語による例文同士を照合してその共通部分を抽出すると共に、第2言語による訳文同士を照合してその共通部分を抽出する。各例文対訳組中に複数の共通部分が存在する場合は、各共通部分の長さを比較し最長のものを対象とする。また、文例中に含まれる助詞などの汎用的に用いられる文字は、それらを禁止用文字集合として登録しておき、抽出すべき共通部分からは除外する。
When the inputted phrase is P, the example sentence parallel translation
前記支持度算出部1106は、前記抽出された共通部分の入力された句に対する支持度を算出する。具体的には、抽出された各第1言語による例文の組み合わせにおける共通部分と、入力された句の一致度合いを見て、それらが完全一致する場合(以下、これを強支持と呼ぶ)には、その対応訳文における共通部分を訳文候補とし、その支持度を加算していく。また、それらが完全一致しない場合で、共通部分が入力された句を含んでおり、かつその対応訳文における共通部分が訳文候補となっている場合(以下、これを弱支持と呼ぶ)にも、その対応訳文における共通部分を訳文候補とし、その支持度を加算する。この演算を、抽出された全ての共通部分に対して実施し、各共通部分の、入力された句に対する支持度を積算していく。このようにして、訳文候補の出現回数が計数される。
The support
前記訳文選択部1108は、支持度算出部1106での演算結果に対して、所定の基準値に従って複数の訳文候補の中から出力すべき最終的な訳文を選択する。具体的には、支持度が最も高かった2つの訳文候補を抽出し、以下の基準に従ってその決定を行う。ここで、2つの訳文候補をT1、T2とし、それらの支持度をx, y(但し、x > y)とする。
The
(1)x < θ1 の場合、適切な候補が存在しないとして、翻訳不適切を出力する
(2)x >= θ1 かつ x - y > θ2 の場合、T1を訳文として出力する
(3)x >= θ1 かつ x / y > θ3の場合、T1を訳文として出力する
但し、θ1、θ2、θ3は非負の実数である。
(1) If x <θ1, there is no appropriate candidate and output inappropriate translation. (2) If x> = θ1 and x-y> θ2, output T1 as a translation. (3) x> When T = θ1 and x / y> θ3, T1 is output as a translation. However, θ1, θ2, and θ3 are non-negative real numbers.
次に、例文集合ベース翻訳部52における処理の手順について説明する。図12は、例文集合ベース翻訳部52における翻訳処理の手順を示すフローチャートである。例文集合ベース翻訳部52は、前段の翻訳部で適切な翻訳ができなかったとして出力された句を入力すると、例文対訳辞書66にアクセスし、そこから入力された句を含む複数の例文対訳組を選択する(ステップS1201)。
(ステップS1206)。また、訳文候補が所定の基準を満たさない場合は、本翻訳部における訳文は得られなかったとして、入力された句を次段の翻訳部に出力する。
Next, a processing procedure in the example sentence set
(Step S1206). If the translation candidate does not satisfy a predetermined criterion, the translated phrase is not obtained in the present translation section, and the input phrase is output to the next translation section.
次に、例文集合ベース翻訳部52における翻訳処理を数学的記述に従って説明する。以下では、例文対訳辞書66に収められた例文とその対訳文をそれぞれCSとJSと、例文対訳ペアをS=CS<->JSと、選択された対訳例文ペアの候補群をBSと表記する。ここで、例文CSと訳文JSは、文字の順序付き文字列で表現される。
Next, the translation process in the example sentence set
入力された句をPで表す。ここでPも文字の順序付き文字列で表現される。 The input phrase is represented by P. Here, P is also expressed as an ordered character string.
また、任意の例文対訳ペアをSk、Shとすると、これは次のように定義される。 If an arbitrary example sentence parallel translation pair is Sk and Sh, this is defined as follows.
そして、その共通部分は次のように定義される。 And the common part is defined as follows.
ここで、以下の各条件が満たされる。なお、CWSTOPは第1言語の禁止用文字列集合、JWSTOPは第2言語の禁止用文字列集合を表す。 Here, the following conditions are satisfied. CWSTOP represents a set of prohibited character strings in the first language, and JWSTOP represents a set of prohibited character strings in the second language.
次に、入力された句の言語が第1言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを強支持すると表現し、この場合、TgはPの訳文候補となる。 Next, when the language of the input phrase is the first language and the common part of Sh and Sk is as follows, it is expressed that Sh and Sk strongly support P <-> Tg. Tg is a candidate for translation of P.
ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがP<->Tgを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(P<->Tg) = x と表現される。そして、支持度SV(P<->Tg)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。 Here, if x example sentence pairs support P <-> Tg in the candidate sentence group BS of the parallel translation example pair, it is defined that the support level that is the translation candidate of the phrase P in which Tg is input is x. , SV (P <-> Tg) = x. Then, the translated sentence Tg having the maximum support degree SV (P <-> Tg) is taken as the translated sentence of the inputted phrase P, and is expressed as follows.
ここで、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを弱支持すると表現し、この場合も、TgはPの訳文候補となる。 Here, if the common part of Sh and Sk is as follows, it is expressed that Sh and Sk weakly support P <-> Tg. Also in this case, Tg is a candidate for translation of P.
なお、入力された句の言語が第2言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを強支持すると表現し、この場合、TgはPの訳文候補となる。 When the language of the input phrase is the second language and the common part of Sh and Sk is as follows, it is expressed that Sh and Sk strongly support Tg <-> P. In this case, Tg Is a translation candidate for P.
ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがTg<->Pを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(Tg<->P) = x と表現される。そして、支持度SV(Tg<->P)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。 Here, if x example sentence pairs support Tg <-> P in the candidate sentence group BS of parallel translation example sentence pairs, it is defined that the support level that is the translation sentence candidate of the phrase P in which Tg is input is x. , SV (Tg <-> P) = x. Then, the translated sentence Tg having the maximum support degree SV (Tg <-> P) is taken as the translated sentence of the inputted phrase P, and is expressed as follows.
ここで、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを弱支持すると表現し、この場合も、TgはPの訳文候補となる。 Here, if the common part of Sh and Sk is as follows, it is expressed that Sh and Sk weakly support Tg <-> P. In this case, Tg is also a candidate for translation of P.
次に、例文集合ベース翻訳部52における翻訳処理の具体的な例を示す。例では、入力された中国語の句を日本語に翻訳する場合を示す。図13〜図16は、例文集合ベース翻訳部52において実施される具体的な翻訳処理を示した例である。
Next, a specific example of translation processing in the example sentence set
図13には、中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例(S1,S2,S3,S4,S5,...)が示されている。各例文対訳ペアの例文C1,C2,C3,C4,C5,...には、入力された句Pが含まれていることが分かる。 FIG. 13 shows an example of selecting example sentence parallel translation pairs (S1, S2, S3, S4, S5,...) When a Chinese phrase P is input to the example sentence set base translation unit. It can be seen that the input phrase P is included in the example sentences C1, C2, C3, C4, C5,.
図14は、選択された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。 FIG. 14 shows a specific example of calculating the support level in the common part of the selected example sentence parallel translation pair. The support level in the common part of each example sentence parallel translation pair is determined, and as a result, the support level of the corresponding translated sentence is added.
図15は、前記支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。 FIG. 15 shows the result of the support level as a table. As a result, the degree of support for each translated sentence candidate is known.
図16では、前記支持度の集計結果から、支持度の高かった2つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的な訳文として決定されている。 In FIG. 16, two translation candidates with high support are extracted from the result of the support, and finally, it is determined that T1 exceeds a predetermined standard, and the final translation is determined. Yes.
図4に戻り、例文集合ベース翻訳部52で適切に翻訳されなかった句は、次段の例文ベース翻訳部54へ渡され、ここでの翻訳処理を受ける。例文ベース翻訳部54は、例文対訳辞書66を検索して、入力された句に一致する例文を抽出して、その対訳文を入力された句の訳文として出力するものである。例文ベース翻訳部54の具体的な翻訳手法については、従来の各種の翻訳手法を採用することができる。
Returning to FIG. 4, the phrase that has not been properly translated by the example sentence set
例文ベース翻訳部54で適切に翻訳されなかった句は、次段のルールベース翻訳部56へ渡され、ここでの翻訳処理を受ける。ルールベース翻訳部56は、第1言語の解析(形態素解析、構文・意味解析など)を行い、人手によって作成された大量のルールをベースとして、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成するものである。本実施例においてルールベース翻訳部56の具体的手法については、従来の各種の翻訳手法を採用することができる。
Phrases that have not been properly translated by the example sentence
次に、図17を参照して例文マッチング翻訳部47の詳細構成について説明する。同図に示すように、例文マッチング翻訳部47は、例文対訳辞書62および例文パターン対訳辞書63を用いて入力された句について翻訳を行う。まず、これらの辞書のデータ構造について説明する。
Next, the detailed configuration of the example sentence matching
図18に例文対訳辞書62のデータ構造例を示す。複数のレコードから成り、各レコードは、第1言語の例文T1と、この例文T1の訳文となる第2言語の例文T2とを含む。
FIG. 18 shows an example of the data structure of the example sentence
次に例文パターン対訳辞書63のデータ構造について説明する。図19に例文パターンのデータ構造例を示す。同図において、例文パターンPEは、例文SE1から4を類別するパターンである。
Next, the data structure of the example sentence pattern
例文パターンPEは、類別される例文に共通な単語、又は節で構成される固定部分PFと、固定部分PFではない単語又は節であるが、類別される例文間で品詞が共通する単語又は節で構成される可変部分PVとで構成される。可変部分PVは、それらの品詞が共通する単語又は節を、例えば、V1及びV2といった記号を用いて表す。 The example sentence pattern PE is a fixed part PF composed of words or clauses common to the classified example sentences and a word or clause that is not the fixed part PF, but has a common part of speech between the classified example sentences. It is comprised with the variable part PV comprised by this. The variable part PV represents a word or a phrase having a common part of speech using symbols such as V1 and V2.
よって、例文パターンPEは類別される例文に共通な文字列で構成され、可変部分PVは類別される例文に共通しない文字列を表す記号(以下単に、非共通文字列という)で構成される。つまり、非共通文字列は、例文パターンを構成する共通文字列以外の文字列をいう。 Therefore, the example sentence pattern PE is composed of a character string common to the categorized example sentences, and the variable portion PV is composed of a symbol representing a character string not common to the categorized example sentences (hereinafter simply referred to as a non-common character string). That is, the non-common character string refers to a character string other than the common character string constituting the example sentence pattern.
ここで、節とは、文法上、従位接続詞や関係詞が導く文であって、主語と述語とが一組になり完結した文をいう。しかし本実施例では、動詞、形容詞、及び形容動詞である単語とそれらに付随して使用される助詞、助動詞、及び補助動詞である単語とを合わせて節といい、それぞれ動詞節、形容詞節、及び形容動詞節という。また、節の品詞とは、動詞節、形容詞節、及び形容動詞節のいずれかへ節を分類した区分けをいう。 Here, a clause is a sentence derived by a follower conjunction and a relative phrase in terms of grammar, and is a sentence in which a subject and a predicate are paired and completed. However, in this embodiment, the words that are verbs, adjectives, and adjective verbs, and the particles that are used in conjunction with the words, auxiliary verbs, and auxiliary verbs are referred to as clauses. And adjective verb clauses. Moreover, the part of speech of a clause means the division which classified the clause into any of a verb clause, an adjective clause, and an adjective verb clause.
具体的には、図19に示すように、「渡してください」という節SC1から4及びPCは、「渡す」という動詞である単語、「て」という接助詞である単語、及び「くださる」という補助動詞である単語で構成される。 Specifically, as shown in FIG. 19, the clauses SC1 to SC4 “PC” and PC are words that are verbs “pass”, words that are particle “TE”, and “please” Consists of words that are auxiliary verbs.
また、動詞である単語「渡す」とそれに付随して使用される単語「て」及び「くださる」とで構成される節SC1から4及びPCの品詞を動詞節という。 Moreover, the parts SC1 to SC4 composed of the word “pass” as a verb and the words “te” and “please” used accompanying the word “pass” and the part of speech of the PC are called a verb clause.
固定部分PFは、例文に共通な単語又は節のみならず、その同義語を表すFIX内容情報、可変部分であるか固定部分であるかを表すTYPE情報、並びに固定部分を構成する単語の品詞を表す品詞情報、固定部分を構成する単語が属している語彙体系を表す情報である言語体系属性名等で構成される。 The fixed part PF includes not only words or clauses common to example sentences, but also FIX content information indicating synonyms thereof, TYPE information indicating whether the part is a variable part or a fixed part, and parts of speech of words constituting the fixed part. It consists of part-of-speech information to be represented, language system attribute names that are information representing the vocabulary system to which the words constituting the fixed part belong.
可変部分PVは、共通する品詞を表す情報である変数名情報、及び可変部分であるか固定部分であるかを表すTYPE情報、可変部分の語彙体系属性名等で構成される。語彙体系の言語としては、日本語語彙体系(J)、中国語語彙体系(C)などのように、挙げられる。 The variable part PV includes variable name information that is information representing a common part of speech, TYPE information indicating whether the part is a variable part or a fixed part, a lexical system attribute name of the variable part, and the like. Examples of vocabulary languages include Japanese vocabulary (J) and Chinese vocabulary (C).
本記実施例において、変数名情報は、共通する品詞が名詞であることを表す名詞フレーズ(例えば、名詞句の変数名;NP、変数名ID;1)、形容詞であることを表す形容詞フレーズ(例えば、形容詞句の変数名;AP、変数名ID;2)、及び副詞であることを表す副詞フレーズ(例えば、副詞句の変数名;DP、変数名ID;3)を含む。 In this embodiment, the variable name information includes a noun phrase indicating that the common part of speech is a noun (for example, a variable name of a noun phrase; NP, a variable name ID; 1), and an adjective phrase indicating an adjective ( For example, a variable name of an adjective phrase; AP, a variable name ID; 2), and an adverb phrase indicating that it is an adverb (for example, a variable name of an adverb phrase; DP, a variable name ID; 3).
また、本実施例において、可変部分PVは、類別される例文間で品詞が共通する単語又は節で構成されるとして説明したが、これに限定される訳ではなく、共通する性質の内容を表す単語又は節で構成される実施例を採用できる。共通する性質の内容を表す単語又は節の具体例としては、例えば、時間、数量、地名、又は人名を表す単語又は節を挙げることができる。 In the present embodiment, the variable part PV has been described as being composed of words or clauses whose parts of speech are common among categorized example sentences. However, the present invention is not limited to this, and represents the contents of common properties. Embodiments composed of words or clauses can be employed. As a specific example of a word or a clause representing the content of the common property, for example, a word or a clause representing time, quantity, place name, or personal name can be cited.
次に例文パターン対訳辞書63のデータ構造例について図20を参照して説明する。同図に示すように、例文パターン対訳辞書63は、レコード1からnで構成される。レコード1からnは、第1言語で表された例文パターンT1と、例文パターンT1を第2言語に翻訳した訳文パターンとしての例文パターンT2と、例文パターンT1及び例文パターンT2のペア(組)を識別するIDと、例文パターンT1及びT2を構成する単語等である文字列の対応関係を表す対応関係情報F2とを関連付けて保存する。
Next, an example data structure of the example sentence pattern
レコード1からnが保存する対応関係情報F2について説明する。ここでは、例文パターンT1が単語等である5つの文字列 a1 から a5 で構成され、かつ例文パターンT2が単語等である6つの文字列 b1 から b6 で構成されている場合を例に挙げて説明を行う。 The correspondence information F2 stored by records 1 to n will be described. Here, an example will be described in which the example sentence pattern T1 is composed of five character strings a1 to a5 such as words, and the example sentence pattern T2 is composed of six character strings b1 to b6 such as words. I do.
対応関係情報F2は、文字列が例文パターンT1及び対訳としての例文パターンT2において使用される順番を用いて文字列の対応関係を表す。 The correspondence relationship information F2 represents the correspondence relationship between character strings using the order in which the character strings are used in the example sentence pattern T1 and the example sentence pattern T2 as a translation.
具体的には、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じである場合には、対応関係を「(n:m)」として表す。 Specifically, if the meaning represented by the nth character string an used in the example sentence pattern T1 and the meaning represented by the character string bm used in the mth example sentence pattern T2 are the same, Is represented as “(n: m)”.
また、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n:m,m+1)」として表す。 Also, when the meaning represented by the nth character string an used in the example sentence pattern T1 and the meanings represented by the two character strings used in the mth and m + 1th letters in the example sentence pattern T2 represent the same meaning Is represented as “(n: m, m + 1)”.
逆に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、対訳例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じ意味を表す場合には、「(n,n+1:m)」として表す。 Conversely, the meaning represented by the two character strings an and an + 1 used in the nth and n + 1th in the example sentence pattern T1, and the meaning represented by the character string bm used in the mth sentence in the parallel example sentence pattern T2. Are represented as “(n, n + 1: m)”.
同様に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n,n+1:m,m+1)」として表す。 Similarly, the meanings represented by the two character strings an and an + 1 used in the nth and n + 1th in the example sentence pattern T1, and the two characters used in the mth and m + 1th in the example sentence pattern T2. When the meaning represented by the column represents the same meaning, it is represented as “(n, n + 1: m, m + 1)”.
本実施例では、例文パターンT1で使用される1つの文字列と例文パターンT2で使用される1つの文字列とが同じ意味を表す場合、1つの文字列と2つの文字列とが同じ意味を表す場合、2つの文字列と1つの文字列とが同じ意味を表す場合、2つの文字列と2つの文字列とが同じ意味を表す場合の対応関係を表す表記方法について説明したが、これに限定される訳ではない。 In this embodiment, when one character string used in the example sentence pattern T1 and one character string used in the example sentence pattern T2 represent the same meaning, one character string and two character strings have the same meaning. In the case of representing two character strings and one character string representing the same meaning, the description method for expressing the correspondence when two character strings and two character strings represent the same meaning has been explained. It is not limited.
例えば、j個(j>=1)の文字列とk個(k>=1)の文字列とが同じ意味を表す場合には、一般的に、「(n,n+1,…,n+j:m,m+1,…,m+k)」として表す構成を採用できる。 For example, when j (j> = 1) character strings and k (k> = 1) character strings have the same meaning, generally, “(n, n + 1,..., N” + j: m, m + 1,..., m + k) ”can be adopted.
更に、例文パターンT1で n 番目に使用される文字列 an が表す意味と同じ意味を表す文字列が例文パターンT2で使用されない場合には、「(n:0)」として表す。また逆に、例文パターンT2で m 番目に使用される文字列 bm が表す意味と同じ意味を表す文字列が例文パターンT1で使用されない場合には、「(0:m)」として表す。 Furthermore, when a character string having the same meaning as that represented by the nth character string an used in the example sentence pattern T1 is not used in the example sentence pattern T2, it is represented as “(n: 0)”. Conversely, if a character string having the same meaning as the m-th character string bm used in the example sentence pattern T2 is not used in the example sentence pattern T1, it is represented as “(0: m)”.
図20に示す具体な対応関係情報
F2(T1,T2) = { (1:1),(2:3),(3:4,5),(5:6),(4:0),(0:2) }
について説明する。対応関係情報 F2(T1,T2) は、例文パターンT1で1番目に使用される文字列 a1 の表す意味が例文パターンT2で1番目に使用される文字列 b1 の意味と同じであり、これらは対応する。同様に、例文パターンT1で2番目に使用される文字列 a2 の表す意味が例文パターンT2で3番目に使用される文字列 b3 の意味と同じであり、例文パターンT1で3番目に使用される文字列 a3 の表す意味が例文パターンT2で4番目及び5番目に使用される文字列 b4 及び b5 の意味と同じであり、例文パターンT1で5番目に使用される文字列 a5 の表す意味が例文パターンT2で6番目に使用される文字列 b6 の意味と同じであり、それぞれ対応する。さらに例文パターンT1で4番目に使用されるa4 と同じ意味を表す文字列が例文パターンT2で使用されず、かつ例文パターンT2で2番目に使用される文字列 b2 と同じ意味を表す文字列が例文パターンT1で使用されないという対応関係を表す。対応関係さえ表現できれば、どのような表現でもよく、本発明に係る翻訳装置等は、以上述べた表現に限定されない。
Specific correspondence information shown in FIG.
F2 (T1, T2) = {(1: 1), (2: 3), (3: 4,5), (5: 6), (4: 0), (0: 2)}
Will be described. Correspondence information F2 (T1, T2) has the same meaning as the first character string b1 used in the example sentence pattern T2 in the meaning of the first character string a1 used in the example sentence pattern T1. Correspond. Similarly, the meaning of the character string a2 used second in the example sentence pattern T1 is the same as the meaning of the character string b3 used third in the example sentence pattern T2, and is used third in the example sentence pattern T1. The meaning of the character string a3 is the same as the meanings of the fourth and fifth character strings b4 and b5 used in the example sentence pattern T2, and the meaning of the fifth character string a5 used in the example sentence pattern T1 is the example sentence. The meaning of the character string b6 used in the sixth in the pattern T2 is the same as that of the character string b6. In addition, a character string having the same meaning as a4 used in the fourth example pattern T1 is not used in the example pattern T2, and a character string having the same meaning as the second character string b2 used in the example pattern T2. This represents a correspondence that is not used in the example sentence pattern T1. Any expression may be used as long as the correspondence relationship can be expressed, and the translation apparatus according to the present invention is not limited to the expression described above.
図17に示すように、例文マッチング翻訳部47は、例文部分マッチング翻訳部72が、例文対訳辞書62を参照して入力部71から入力される句を含む第1言語例文(対訳例文候補)を検索して保持部621に保持し、判断部73で入力句と例文が完全に一致するどうかを判断する前段部分と、一致しない場合に例文パターン対訳辞書63を参照して翻訳を行う後段部分とを含んで構成される。判断部73で、完全に一致する場合は、その対訳例文候補の第2言語例文を入力句Pの訳文として出力部78より出力される。後段部分は、対訳例文候補を保持する第1保持部621、例文パターン対訳辞書63、対訳例文パターンペア候補を保持する第2保持部631、例文パターン検索部75、例文パターンマッチング部76訳文抽出部77および出力部78を含んで構成される。
As shown in FIG. 17, the example sentence matching
判断部73で、一致しない場合に、形態素解析部74で入力句を形態素解析した入力句Pに対して、保持部621で保持された対訳例文候補を用いて、例文パターン検索部75が例文パターン対訳辞書63を検索し、入力句Pを含む対訳例文パターンペア候補を取得し、保持部631に格納する。例文パターンマッチング部76が、対訳例文候補および対訳例文パターンペア候補を用いてマッチングを行い、訳文抽出部77がその結果を使って訳文を抽出し、訳文を出力部78により出力する。なお、図17では、便宜上、形態素解析部74は内部に記載されているが、入力部71に入力される前などに形態素解析されるように外部にあってもよい。
When the
次に、上述のように構成された例文マッチング翻訳部47の翻訳処理動作について図21および図22のフローチャートを参照して説明する。
Next, the translation processing operation of the example sentence matching
例文部分マッチング部72は、前述のように第1言語の例文とその訳文である第2言語の例文のペア(組)からなる対訳例文が格納された例文対訳辞書62に対して、入力部71から入力された句Pを含む対訳例文候補Eset(P)を検索し、保持部621に保持する(S1)。判断部73は対訳例文候補Eset(P)が空(NULL)かどうかを判断し、空であれば、その結果を出力部78から出力する(S2、S4)。空でなければ、対訳例文候補Eset(P)に入力句Pと等しい第1言語の例文Aがあるか判断し、あれば、第1言語の例文Aの対訳としての第2言語例文を入力句Pの翻訳結果として出力部78より出力する(S3、S5)。ステップS3でなければ、次の後段部分での処理に進む。
As described above, the example sentence
例文パターン検索部75は、保持部621に格納された対訳例文候補Eset(P)から一つの例文ペア(SC,SJ)を取り出し、第1言語の例文SCを用いて,例文パターン対訳辞書から対訳パターンペア候補Pset(P)を検索し、保持部631に保持する(S6、S7)。対訳パターンペア候補Pset(P)が空かどうかを例文パターンマッチング部76が判断し、空でなければ、対訳パターンペア候補Pset(P)から一つの対訳パターンペア(AC,AJ)を取り出す(S8、S11)。例文パターンマッチング部76は、例文と例文パターンのマッチングとして、第1言語の例文SCと対訳パターンペアの第1言語のパターンAC間のマッチングと、第2言語の例文SJと対訳パターンペアの第2言語のパターンAJ間のマッチングをそれぞれ求める(S12)。次に、第1言語の例文SCに含まれている句Pは対訳パターンペアの第1言語のパターンACの項目ACi,ACi+1,…ACi+hにマッチングしているか(h>=0)かどうかを判断する(S13)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、第1言語のパターンACの項目ACi,ACi+1,…ACi+hは第2言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチングしている(k>=0)かを判断する(S14)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、第2言語のパターンAJの項目AJj,AJj+1,…AJj+kは第2言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチングしている(s>=0)か判断する(S15)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、訳文抽出部77に処理を渡す。訳文抽出部77では、第1言語の例文SCに含まれている入力句Pについて、対訳パターンペアの第1言語のパターンACの項目ACi,ACi+1,…ACi+hへのマッチング情報、第1言語のパターンACの項目ACi,ACi+1,…ACi+hについて第2言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチング情報、および第2言語のパターンAJの項目AJj,AJj+1,…AJj+kについて第2言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチング情報を用いて、入力句Pの訳文を求める(S16)。訳文抽出部77により、SJtからSJt+sまでの文字列が入力句Pの訳文として出力部78から出力される(S16)。
The example sentence
例文パターンマッチング部76は、スッテプS8で対訳パターンペア候補Pset(P)が空と判断した場合には、対訳例文候補Eset(P)が空かどうか判断する(S9)。空でなければ、別の対訳例文ペアについてステップS6に戻って上述の処理を繰り返す。対訳例文候補Eset(P)が空の場合には、空の結果を訳文抽出部77を介して出力部78より出力する(S10)。
When it is determined in step S8 that the parallel translation pattern pair candidate Pset (P) is empty, the example sentence
次に具体例で上述の句翻訳処理について説明する。まず、入力句として、中国語から日本語へ翻訳する例について図23を参照して説明する。入力句は、「FXの田中部長」を意味する中国語「FX的田中部▲長▼」である。スッテプ(1)で、例文対訳辞書62から入力句を含む例文ペアを検索し抽出する。同図のE1およびE2が抽出結果である。ここでは、説明の簡単のためE1を使って翻訳できた場合について述べる。スッテプ(2)で、第1言語の例文SC1を用いて、例文パターン対訳辞書63から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SC1,AC) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第1言語の例文SC1と、対訳パターンペアの第1言語例文パターンACとがマッチングが取られる。第1言語の例文SC1に含まれた句Pが第1言語例文パターンACの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第2言語の例文SJ1と対訳パターンペアの第2言語例文パターンAJ間のマッチングを求める。ステップ(3)において、第1言語の例文SC1の句Pが第1言語例文パターンACのNP2にマッチングしている。第1言語例文パターンACのNP2が第2言語例文パターンAJのNP2にマッチングしている。第2言語例文パターンAJのNP2が第2言語の例文SJ1の“FXの田中部長 ”にマッチングしている。これらより、入力句Pの訳文は第2言語の例文SJ1にある“FXの田中部長”である。
Next, the phrase translation process described above will be described using a specific example. First, an example of translating from Chinese to Japanese as an input phrase will be described with reference to FIG. The input phrase is Chinese “FX-like Tanaka ▲ long ▼” which means “FX's General Manager Tanaka”. In step (1), an example sentence pair including an input phrase is retrieved from the example sentence
次に、入力句として、日本語から中国語へ翻訳する例について図24を参照して説明する。入力句は「子供が食べ残したリンゴ」である。スッテプ(1)で、例文対訳辞書62から入力句を含む例文ペアを検索し抽出する。同図のE1およびE2が抽出結果である。ここでも、E1を使って翻訳できた場合について述べる。スッテプ(2)で、第1言語の例文SJ1を用いて、例文パターン対訳辞書63から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SJ1,AJ) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第1言語の例文SJ1と、対訳パターンペアの第1言語例文パターンAJとがマッチングが取られる。第1言語の例文SJ1に含まれた句Pが第1言語例文パターンAJの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第2言語の例文SC1と対訳パターンペアの第2言語例文パターンAC間のマッチングを求める。ステップ(3)において、第1言語の例文SJ1の句Pが第1言語例文パターンAJのNP2にマッチングしている。第1言語例文パターンAJのNP2が第2言語例文パターンACのNP2にマッチングしている。第2言語例文パターンACのNP2が第2言語の例文SC1の中国語“孩子吃剩下的苹果”にマッチングしている。これらより、入力句Pの訳文は第2言語の例文SC1にある“孩子吃剩下的苹果”である。
Next, an example of translating from Japanese to Chinese as an input phrase will be described with reference to FIG. The input phrase is “apple left over by the child”. In step (1), an example sentence pair including an input phrase is retrieved from the example sentence
このように、例文マッチング翻訳部47は、句翻訳装置40が利用される例文パターンベース翻訳装置16には,例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して,特別な辞書を設けることなく、句の翻訳を比較的容易に実現することができる。
As described above, the example sentence matching
例文マッチング翻訳部47の説明の最後に、例文と例文パターンのマッチグ手段の一例について触れる。このようなマッチグ手段について図25乃至図28を参照して説明する。図25の翻訳システム10aの構成に含む翻訳装置1001は、例文と例文パターンのマッチグ処理を行っている。図26は翻訳装置1001の主要部の構成を示す詳細ブロック図である。
At the end of the description of the example sentence matching
まず、解析部1200は、入力装置3000から入力された第1言語の文書情報を形態素解析し、入力文を構成する単語を切り分け,単語の品詞を付与するなどの処理をする。
First, the
検索部1300は、解析部1200の解析結果および記憶部1100の記憶内容を参照して、入力文と類似な第1言語の例文パターン候補(1または複数ある)を抽出する。
The
変換部1401は、第1言語の入力文と抽出された第1言語の例文パターンの候補を用いて,入力文の節を求める。第1言語入力文を第1言語例文パターンとの間の相違を求めるために,第1言語例文パターンに基づいて第1言語入力文を変換する。第1の実施例の変換部1400との相違点は、後述する。
The
算出部1500は変換部1401で変換された第1言語入力文の単語/節の列と第1言語例文パターンの候補間の相違として距離を求める。最小な相違を決める第1言語入力文の単語/節の列と、抽出された第1言語の例文パターン候補間の変換写像を求める。ここで,最小な相違値としての距離値を与える例文パターン候補が複数ある場合があるし、最小な相違値を決める例文パターン候補と入力文の単語/節の列間の変換写像が複数ある場合もある。
The
抽出部1600は、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係(写像)を求める。抽出部1600は、内部構成として、実抽出部1610(図示せず)、関係特定部1620(図示せず)および関係選択部1630を含む。実抽出部1610は、検索部1300が検索した例文パターンから1つのパターンを抽出し、算出部1500が計算した第2の指標である入力文と例文パターンとの距離が、最も近い例文パターンを抽出する。関係特定部1620は、入力文S’を構成する変換後の文字列と入力文Sを類別する例文パターンAを構成する文字列との対応関係を特定する。最終段の関係選択部1630は第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係が複数ある場合は,適切な対応関係を選択する。即ち、関係特定部1620から、対応関係集合を取得すると共に、変換された入力文、例文パターン、対訳例文パターン、及び対応関係情報を取得する。取得した対応関係情報から、割り当てたスコアが最大の値をとる対応関係情報を選択する。
The
判定修正部1800は、判定部1810、修正部1820および最適関係選択部1830を含んで構成される。判定修正部1800は、関係選択部1630の選択結果および記憶部1100の記憶内容を参照して、選択結果を判定し、修正が必要な場合は、修正して算出部1500に戻すことにより、再度対応関係を得るものである。
The
判定部1810は、関係選択部1630の選択結果について、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を再計算するかどうかを判定する。
The
修正部1820は、第1言語入力文の単語/節の列を修正して,修正後の第1言語入力文の単語/節の列と第1言語例文パターン間の相違をもう一度計算し,新しい距離値を定めるために第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。
The
最適関係選択部1830は、すべての例文パターンの候補と第1言語入力文の単語/節の列間の対応関係集合から,最適な対訳関係選択する。この選択により求められた例文パターン対訳ベアの番号と第1言語入力文の単語/節の列と抽出された第1言語の例文パターン間の対応関係を出力する。
The optimal
記憶部1100は、第1の実施例と同様なデータ構成を有し、記憶内容としては、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している.これを例文パターン対訳ペアと呼ぶ。
The
翻訳部1700は、最適関係選択部1830で選択された第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語/節の列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。
The
次に図27および図28のフローチャートを参照して、翻訳装置1001の要部の動作を説明する。
Next, operations of main parts of the
形態素解析済みの入力文Sが検索部1300に入力されと、検索部1300は、入力文sに対応する例文パターン候補Aset、即ち、Dmin, F1set(S),F1set(S’), F1set(S’,A)などを初期化する(S301、S302)。更に例文パターン候補Asetから例文パターン候補Aが取り出され、変換部1401により、パターンAに対応する入力文SをS’とする(S303、S304)。この入力文S’とAの間の距離D1を算出部1500により求める。求めた距離D1がDmin最小値より小さいかどうか判断する(S306)。小さい場合には、F1set(S’,A)およびF1set(S’)をヌル値(NULL)即ち空値とし、D1をDminとした後、抽出部1600で文S’と例文パターンAの間の対応関係(写像)を求める(S307、S309)。
When the input sentence S that has been subjected to morphological analysis is input to the
更に、求めた距離値Dimを定める写像をF1set(S’,A)に格納する。選択部1630で、F1set(S’,A)にある不適切な写像を削除する(S310)。得られたF1set(S’,A)をF1set(S’)に入れる。
即ち、F1set(S’)= F1set(S’)+F1set(S’,A)
Further, a map for determining the obtained distance value Dim is stored in F1set (S ′, A). The
That is, F1set (S ′) = F1set (S ′) + F1set (S ′, A)
その後、または、ステップS306で大きいと判断した場合には、Asetの候補をすべて処理したかどうかを判断し、未処理があれば、候補Aを取り出し上記処理を行い、すべて処理済みであれば、次のステップに進む。 Thereafter, or when it is determined in step S306 that it is large, it is determined whether or not all candidates for Aset have been processed. If there is any unprocessed, candidate A is extracted and the above processing is performed. Proceed to the next step.
次に、判定部1810で、F1set(S’)の中から一つの写像F1i(S’,A)を取り出し、F1i(S’,A)に対して,再計算する必要があるかどうかを判定する(S311、S312)。再計算する必要がある場合には、修正部1820で、F1i(S’,A)と候補Aを参考して、文S’を修正し、これを修正後の文S’’とする(S313)。
即ち、F1set(S’,A)=F1set(S’,A)-F1i(S’,A)
Next, the
That is, F1set (S ′, A) = F1set (S ′, A) −F1i (S ′, A)
修正後の文S’’と候補Aの間の相違を算出部1500で求める(S314)。求めた相違としての距離値をD2とする。距離値D2が最小値Dminより小さいかどうかを判断する(S315)。小さい場合には、文S’’と候補Aの間の対応関係(写像)F1set(S’’,A)を求める(S316)。その後、Dmin=D2であれば、F1set(S)=F1set(S)+F1set(S’’,A)とし、Dmin>D2であれば、F1set(S)=F1set(S’,A)およびDmin=D2とする(S317)。 The difference between the corrected sentence S ″ and the candidate A is obtained by the calculation unit 1500 (S314). The distance value as the obtained difference is defined as D2. It is determined whether the distance value D2 is smaller than the minimum value Dmin (S315). If it is smaller, the correspondence (mapping) F1set (S ″, A) between the sentence S ″ and the candidate A is obtained (S316). After that, if Dmin = D2, set F1set (S) = F1set (S) + F1set (S '', A), and if Dmin> D2, F1set (S) = F1set (S ', A) and Dmin = D2 (S317).
ステップS317の処理の終了後、ステップS315で、大きいと判断した場合、およびステップS312で再計算の必要がないと判断した場合には、F1set(S’)の写像をすべて処理したかどうかを判断する(S318)。未処理があれば、ステップS312に戻り処理を行う。処理済であれば、F1set(S)がNULLであれば、F1set(S)= F1set(S’,A)とした後、最適関係選択部1830で、F1set(S)から最適な写像(対応関係)を求め、求めた写像をF1res(S,A)に入れる(S319、S320)。 After the process of step S317 is completed, if it is determined in step S315 that it is large, or if it is determined in step S312 that recalculation is not necessary, it is determined whether all mappings of F1set (S ′) have been processed. (S318). If unprocessed, the process returns to step S312 to perform the process. If processed, if F1set (S) is NULL, set F1set (S) = F1set (S ′, A), and then select the optimum mapping (corresponding relationship) from F1set (S) by the optimum relationship selection unit 1830. ) And the obtained mapping is put into F1res (S, A) (S319, S320).
以上述べたように、句翻訳装置40(図4参照)において、入力部42に入力された句は、その翻訳が得られるまで、順次翻訳部44〜56に段階的に入力されてそれらの翻訳処理を受けることとなる。各翻訳部の順位は、基本的により簡単な翻訳からより複雑な翻訳へ移行するよう配列されているので、翻訳の高速化および高精度化が図られる。
As described above, in the phrase translation device 40 (see FIG. 4), phrases input to the
図29は、句翻訳装置の一ハードウエア構成を示すブロック図である。句翻訳装置は、好ましくは、入力装置1700、表示装置1702、主記憶装置1704、記憶装置1706、中央処理装置(CPU)1708、これらを接続するバス1710を含んで構成される。
FIG. 29 is a block diagram showing one hardware configuration of the phrase translation apparatus. The phrase translation device preferably includes an
入力装置1700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置1702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置1704は、ROMまたはRAMを含み、図4に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置1706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書60〜66等のデータを格納する。中央処理装置1708は、主記憶装置1704に記憶されたプログラムに従い各部を制御する。
The
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the specific embodiments according to the present invention, and various modifications can be made within the scope of the gist of the present invention described in the claims. Deformation / change is possible.
本発明に係る句翻訳装置は、機械翻訳システムにおける例文パターン翻訳装置において利用される。 The phrase translation apparatus according to the present invention is used in an example sentence pattern translation apparatus in a machine translation system.
10:機械翻訳システム 12:原言語テキスト文入力部
14:翻訳メモリ装置 16:例文パターンベース翻訳装置
18:単語直訳翻訳装置 20:目的言語テキスト出力部
22:翻訳不適切文自動回収部 24:学習装置
26c:例文パターン対訳辞書 26a:単語対訳辞書
26b:例文対訳辞書 26:形態素解析部
26:翻訳辞書 28:写像変換部
30:例文パターン対訳辞書 32:句翻訳部
34:訳文生成部 40:句翻訳装置
42:入力部 44:辞書ベース翻訳部
47:例文マッチング翻訳部 48,74:形態素解析部
50:単語アライメント例文ベース翻訳部 52:例文集合ベース翻訳部
54:例文ベース翻訳部 56:ルールベース翻訳部
58:出力部 60:単語/句対訳辞書
62:例文対訳辞書 621:第1保持部
63:例文パターン対訳辞書 631:第2保持部
64:単語アライメント対訳辞書
66:例文対訳辞書 72:例文部分マッチング翻訳部
73:判断部 75:例文パターン検索部
76:例文パターンマッチング部 77:訳文抽出部
1102:例文対訳ペア選択部
1104:句ペア抽出部 1106:支持度算出部
1108:訳文選択部 1700:入力装置
1702:表示装置 1704:主記憶装置
1706:記憶装置 1708:中央処理装置(CPU)
1710:バス
10: machine translation system 12: source language text sentence input unit 14: translation memory device 16: example sentence pattern base translation device 18: word direct translation translation device 20: target language text output unit 22: automatic translation inappropriate sentence collection unit 24: learning Device 26c: Example sentence pattern parallel translation dictionary 26a: Word parallel translation dictionary 26b: Example sentence parallel translation dictionary 26: Morphological analysis section 26: Translation dictionary 28: Mapping conversion section 30: Example sentence pattern parallel translation dictionary 32: Phrase translation section 34: Translation sentence generation section 40: Phrase Translation device 42: input unit 44: dictionary base translation unit 47: example sentence matching translation unit 48, 74: morpheme analysis unit 50: word alignment example sentence base translation unit 52: example sentence set base translation unit 54: example sentence base translation unit 56: rule base Translation unit 58: Output unit 60: Word / phrase parallel translation dictionary 62: Example sentence parallel translation dictionary 6211: First holding unit 63: Example sentence translation Turn bilingual dictionary 631: Second holding unit 64: Word alignment bilingual dictionary 66: Example sentence parallel translation dictionary 72: Example sentence part matching translation unit 73: Judgment unit 75: Example sentence pattern search unit 76: Example sentence pattern matching unit 77: Translation sentence extraction unit 1102: Example sentence parallel translation pair selection unit 1104: Phrase pair extraction unit 1106: Support level calculation unit 1108: Translation sentence selection unit 1700: Input device 1702: Display device 1704: Main storage device 1706: Storage device 1708: Central processing unit (CPU)
1710: Bus
Claims (5)
前記入力句と前記例文とが一致するかどうかを判断する判断手段と、
第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書と、
前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する検索手段と、
前記保持手段で保持された例文対訳組の第1言語の例文と前記検索手段で検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行うマッチング手段と、
前記マッチング手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、
前記判断手段で一致すると判断された場合、入力句の訳文として前記対訳例文を出力し、前記判断手段で一致しないと判断された場合、前記抽出手段で抽出された入力句の訳文を出力する出力手段と、
を備えた例文マッチング翻訳装置。 Holding means for holding an example sentence parallel translation set including an input phrase obtained by searching a first dictionary for storing a first language example sentence and a second language parallel translation example sentence as an example sentence parallel translation set;
Determining means for determining whether the input phrase and the example sentence match;
A second dictionary that stores example sentence patterns of the first language and parallel translation example sentence patterns of the second language, which are translations thereof, as example sentence pattern translation sets;
Search means for searching an example sentence pattern parallel translation set corresponding to the example sentence parallel translation set including the input phrase held in the holding means;
A first language example sentence of the example sentence parallel translation set held by the holding means and an example sentence pattern of the first language of the example sentence pattern parallel translation set searched by the search means, and an example sentence of the second language in the example sentence parallel translation set; Matching means for performing matching between example sentence patterns of the second language in the example sentence pattern parallel translation set;
Extraction means for extracting a translation of input phrase based on the matching result of the match in g unit,
When the judgment means determines that they match, the bilingual example sentence is output as a translation of the input phrase, and when it is determined that the judgment means does not match, the output of the input phrase extracted by the extraction means is output Means,
Example sentence matching translation device.
前記第1の辞書を検索して得られる入力句を含む例文対訳組を保持する第1のステップと、
前記入力句と前記例文とが一致するかどうかを判断する第2のステップと、
第1のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する第3のステップと、
第1のステップで保持された例文対訳組の第1言語の例文と第3のステップで検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行う第4のステップと、
第4のステップのマッチング結果に基づいて入力句の訳文を抽出する第5のステップと、
第2のステップで一致すると判断された場合、入力句の訳文として前記対訳例文を出力し、第2のステップで一致しないと判断された場合、第5のステップで抽出された入力句の訳文を出力する第6のステップと、
をコンピュータに実行させるための例文マッチング翻訳プログラム。 A first dictionary that stores example sentences in the first language and their parallel translation example sentences in the second language as an example sentence parallel translation set, and example sentence patterns in the first language example sentence patterns and their parallel translation example sentence patterns in the second language An example sentence matching translation program using a second dictionary stored as a parallel translation set,
A first step of holding an example sentence parallel translation set including an input phrase obtained by searching the first dictionary;
A second step of determining whether the input phrase matches the example sentence;
A third step of searching for an example sentence pattern translation pair from the second dictionary corresponding to the example sentence translation pair comprising been input phrase held in a first step,
The first language example sentence of the example sentence parallel translation set held in the first step and the example sentence pattern in the first language of the example sentence pattern translation set searched in the third step, and the second language in the example sentence parallel translation set A fourth step of matching between an example sentence and an example sentence pattern of the second language in the example sentence pattern parallel translation set;
A fifth step of extracting a translation of the input phrase based on the matching result of the fourth step ;
When it is determined that they match in the second step, the bilingual example sentence is output as a translation of the input phrase, and when it is determined that they do not match in the second step, the translation of the input phrase extracted in the fifth step is output. A sixth step of outputting;
Example sentence matching translation program to make computer execute .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008326704A JP5298834B2 (en) | 2008-12-23 | 2008-12-23 | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008326704A JP5298834B2 (en) | 2008-12-23 | 2008-12-23 | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010152420A JP2010152420A (en) | 2010-07-08 |
JP5298834B2 true JP5298834B2 (en) | 2013-09-25 |
Family
ID=42571479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008326704A Expired - Fee Related JP5298834B2 (en) | 2008-12-23 | 2008-12-23 | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5298834B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5747508B2 (en) * | 2011-01-05 | 2015-07-15 | 富士ゼロックス株式会社 | Bilingual information search device, translation device, and program |
TWI613554B (en) * | 2017-03-24 | 2018-02-01 | Zhuang Shi Cheng | Translation assistance system |
CN111931524B (en) * | 2020-07-15 | 2023-08-08 | 北京百度网讯科技有限公司 | Method, apparatus, device and storage medium for outputting information |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3669870B2 (en) * | 1999-06-28 | 2005-07-13 | 株式会社サン・フレア | Optimal template pattern search method, search device, and recording medium |
US7124073B2 (en) * | 2002-02-12 | 2006-10-17 | Sunflare Co., Ltd | Computer-assisted memory translation scheme based on template automaton and latent semantic index principle |
JP2008065395A (en) * | 2006-09-04 | 2008-03-21 | Fuji Xerox Co Ltd | Translation device, translation method and translation program |
-
2008
- 2008-12-23 JP JP2008326704A patent/JP5298834B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010152420A (en) | 2010-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906356B2 (en) | Syntax analysis method and apparatus | |
US5895446A (en) | Pattern-based translation method and system | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
CN110378409A (en) | It is a kind of based on element association attention mechanism the Chinese get over news documents abstraction generating method | |
WO2005073874A1 (en) | Other language text generation method and text generation device | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
JP2002215619A (en) | Translation sentence extracting method from translated document | |
JP2010519655A (en) | Name matching system name indexing | |
JP2018055670A (en) | Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system | |
Kettunen et al. | Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods | |
JP3831357B2 (en) | Parallel translation information creation device and parallel translation information search device | |
Khairova et al. | The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme. | |
Wax | Automated grammar engineering for verbal morphology | |
Aswani et al. | A hybrid approach to align sentences and words in English-Hindi parallel corpora | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
Bakari et al. | Logic-based approach for improving Arabic question answering | |
JP5194920B2 (en) | Example sentence set-based translation device, method and program, and phrase translation device including the translation device | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
CN116306594A (en) | Medical OCR recognition error correction method | |
Astuti et al. | Code-Mixed Sentiment Analysis using Transformer for Twitter Social Media Data | |
Stehouwer | Statistical language models for alternative sequence selection | |
Naeem et al. | Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning | |
Lohar | Machine translation of user-generated content | |
Chen et al. | Semi-supervised dependency parsing | |
Gupta et al. | Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5298834 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |