JP2007072927A - Translation apparatus and computer program - Google Patents
Translation apparatus and computer program Download PDFInfo
- Publication number
- JP2007072927A JP2007072927A JP2005261609A JP2005261609A JP2007072927A JP 2007072927 A JP2007072927 A JP 2007072927A JP 2005261609 A JP2005261609 A JP 2005261609A JP 2005261609 A JP2005261609 A JP 2005261609A JP 2007072927 A JP2007072927 A JP 2007072927A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- hypothesis
- hypotheses
- language
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は機械翻訳に関し、特に、貪欲デコードアルゴリズムを用いた統計的機械翻訳(Statistical Machine Translation:SMT)に関する。 The present invention relates to machine translation, and more particularly, to statistical machine translation (SMT) using a greedy decoding algorithm.
[統計的機械翻訳のための貪欲デコーディング]
統計的機械翻訳(SMT)のフレームワークは、ソース言語Sの文をターゲット言語Tへと翻訳する問題を、以下のように条件付確率の最大化問題として定式化する。
[Greedy decoding for statistical machine translation]
The Statistical Machine Translation (SMT) framework formulates the problem of translating source language S sentences into target language T as a conditional probability maximization problem as follows.
LMとTMとの確率はそれぞれ、モノリンガルコーパス及びバイリンガルコーパスから自動的にトレーニング(学習)される。これらは、ソース言語の単語シーケンスをターゲット言語にマッピングするのに用いられる一般的な翻訳知識を表す。 The probabilities of LM and TM are automatically trained (learned) from a monolingual corpus and a bilingual corpus, respectively. These represent general translation knowledge used to map source language word sequences to target languages.
英語(E)の単語シーケンスを日本語(J)にマッピングする例を図9に示す。 An example of mapping an English (E) word sequence to Japanese (J) is shown in FIG.
従来のSMTのアプローチでは、生成された翻訳文候補の全てを、翻訳モデル(ファーティリティ(fertility))、NULL生成、辞書(lexicon)、ディストーション(distortion)及び言語モデルの確率に基づいてスコアリングする。TM*LMのスコアが最も高い翻訳文候補が、翻訳出力として選択される。 In the conventional SMT approach, all of the generated translation sentences are scored based on the probabilities of the translation model (fertility), NULL generation, lexicon, distortion, and language model. . The translation sentence candidate having the highest TM * LM score is selected as the translation output.
翻訳出力は、検索を開始するための初期翻訳仮説に依存するが、これは、局所最適な翻訳文には導くであろうが、大域最適な翻訳文には必ずしも導かない。 The translation output depends on the initial translation hypothesis to initiate the search, which will lead to a locally optimal translation, but not necessarily a global optimal translation.
この問題を解決するために、これまでの対策は、入力又は入力に類似した文を予備的に翻訳した文を、初期翻訳仮説として用いることを提案している(非特許文献4を参照されたい。)。 In order to solve this problem, the conventional measures have proposed using a sentence obtained by preliminary translation of input or a sentence similar to the input as an initial translation hypothesis (see Non-Patent Document 4). .)
この方法では、ソース部分が入力文と類似する翻訳用例をバイリンガルコーパスから取出して用いる。各用例のターゲット部分をわずかに修正して、各対が実際の翻訳になるようにする。この用例ベースのアプローチの利点は、良い翻訳文の検索を、推測した翻訳文からではなく、検索された翻訳用例から開始するので、検索誤差が少ないということである。 In this method, a translation example whose source part is similar to an input sentence is extracted from a bilingual corpus and used. The target part of each example is slightly modified so that each pair is an actual translation. The advantage of this example-based approach is that the search for good translations starts with the searched translation example rather than with the guessed translation, so the search error is small.
しかし、この方法は基本の方法と同じ貪欲検索アルゴリズムを用いるので、検索誤差を完全に回避することはできない。 However, since this method uses the same greedy search algorithm as the basic method, the search error cannot be completely avoided.
貪欲検索の局部最適の問題を克服して最良の翻訳文を得るために、非特許文献2に開示の方法では多数の検索エンジンによって生成された多様な開始点を用いる。これらの開始点となる翻訳文を「初期翻訳仮説」または「シード」と呼ぶ。
In order to overcome the local optimization problem of greedy search and obtain the best translation, the method disclosed in Non-Patent
互いに異なった辞書、互いに異なった文法及び互いに異なった翻訳規則を用い、独立して開発された翻訳エンジンによって初期翻訳仮説が生成されるため、きわめて多様な初期翻訳仮説が得られる。従って、貪欲検索アルゴリズムでは、検索空間のより広い部分を探索することができ、大域最適解が得られる可能性が増大する。 Since initial translation hypotheses are generated by an independently developed translation engine using different dictionaries, different grammars, and different translation rules, a great variety of initial translation hypotheses can be obtained. Therefore, the greedy search algorithm can search a wider part of the search space, increasing the possibility of obtaining a global optimal solution.
貪欲検索の間に生成された翻訳中の最良の翻訳が、編集距離を用いた再スコアリング法によって選択される。これは、生成された翻訳候補の各々の統計的スコアを、初期翻訳仮説がデコーディングの間にどれほど修正されたかの情報によって訂正するものである。 The best translation among the translations generated during the greedy search is selected by a rescoring method using edit distance. This corrects the statistical score of each of the generated translation candidates with information on how much the initial translation hypothesis was modified during decoding.
この方法は、非特許文献4等の、統計的モデルのみに基づく貪欲デコーディングによるアプローチより優れた性能を発揮する。
This method exhibits performance superior to an approach based on greedy decoding based only on a statistical model, such as Non-Patent
しかし、このアプローチの欠点は、全ての初期翻訳仮説にデコーダを適用しなければならないことである。このため、最適な翻訳文を特定するために高い計算コストがかかる。 However, the drawback of this approach is that the decoder must be applied to all initial translation hypotheses. For this reason, a high calculation cost is required to specify an optimal translated sentence.
従って、この発明の目的は、計算コストを減じつつ、貪欲デコードアルゴリズムを用いる翻訳装置を提供することである。 Accordingly, an object of the present invention is to provide a translation apparatus that uses a greedy decoding algorithm while reducing the calculation cost.
この発明の別の目的は、翻訳結果の品質を維持し、計算コストを減じつつ、貪欲デコードアルゴリズムを用いる翻訳装置を提供することである。 Another object of the present invention is to provide a translation apparatus using a greedy decoding algorithm while maintaining the quality of the translation result and reducing the calculation cost.
この発明の一局面に係る翻訳装置は、第1の言語の文を第2の言語の文に翻訳するための翻訳装置であって、第1の言語の文を第2の言語の複数個の仮説に翻訳するための手段と、統計的根拠に基づいて、複数個の仮説の中から、予め定められたアルゴリズムによってより良い仮説を生じさせるものを選択するための手段と、予め定められたアルゴリズムを用いて、選択するための手段によって選択された仮説から翻訳文を生成するための手段とを含む。 A translation device according to one aspect of the present invention is a translation device for translating a sentence in a first language into a sentence in a second language, wherein the sentence in the first language is converted into a plurality of sentences in the second language. A means for translating into a hypothesis, a means for selecting a plurality of hypotheses from which a better hypothesis is generated by a predetermined algorithm based on a statistical basis, and a predetermined algorithm And means for generating a translation from the hypothesis selected by the means for selecting.
翻訳するための手段は、第1の言語の文を第2の言語の複数個の仮説に翻訳する。選択するための手段は、仮説の中から、予め定められたアルゴリズムによって処理するとより良い仮説を生じさせるものを選択する。生成するための手段は、選択された仮説を初期仮説として用い、予め定められたアルゴリズムによって翻訳文を生成する。生成するための手段によって、好ましい仮説が予め定められたアルゴリズム中で用いられているので、結果は選択された初期の仮説より良質であると期待される。予め定められたアルゴリズムで用いられる初期仮説の数が実質的に削減されるので、生成するための手段の計算コストは低くなる。 The means for translating translates the sentence in the first language into a plurality of hypotheses in the second language. The means for selecting selects a hypothesis that produces a better hypothesis when processed by a predetermined algorithm. The means for generating uses the selected hypothesis as an initial hypothesis, and generates a translation sentence by a predetermined algorithm. The result is expected to be better than the selected initial hypothesis because the preferred hypothesis is used in a predetermined algorithm by means for generating. Since the number of initial hypotheses used in the predetermined algorithm is substantially reduced, the computational cost of the means for generating is low.
好ましくは、選択するための手段は、第2の言語の複数個の仮説を、統計的根拠に基づいて複数個のクラスに分類し、複数個の仮説のそれぞれのスコアを統計的根拠に基づいて計算するための手段を含む。複数個のクラスは第1のクラスと第2のクラスとを含む。選択するための手段はさらに、分類するための手段によって計算されたスコアに基づき、第1のクラスに分類された仮説のうち一つを選択するための手段を含む。 Preferably, the means for selecting classifies the plurality of hypotheses of the second language into a plurality of classes based on a statistical basis, and the respective scores of the plurality of hypotheses are based on the statistical basis. Including means for calculating. The plurality of classes includes a first class and a second class. The means for selecting further includes means for selecting one of the hypotheses classified into the first class based on the score calculated by the means for classifying.
より好ましくは、分類するための手段が、第1の言語の文とそれらに対応する仮説との対と、さらに当該仮説から予め定められたアルゴリズムによって得られる結果とによりトレーニングされる決定木分類器を含む。 More preferably, the decision tree classifier wherein the means for classifying is trained by pairs of sentences in the first language and their corresponding hypotheses, and further results obtained from the hypotheses by a predetermined algorithm. including.
さらに好ましくは、第1の言語のトレーニング用文の組と、このトレーニング用文の組から得られるトレーニング用仮説の組と、トレーニング用仮説の組から予め定められたアルゴリズムによって得られる第2の言語の文の組であって、かつ各文が良い翻訳文と悪い翻訳文とに分類されている組とを用いて、選択するための手段をトレーニングするための手段をさらに含む。 More preferably, a set of training sentences in the first language, a set of training hypotheses obtained from the set of training sentences, and a second language obtained by a predetermined algorithm from the set of training hypotheses Means for training means for selecting using a set of sentences, each sentence being classified into a good translation sentence and a bad translation sentence.
この発明の第2の局面に係るコンピュータプログラムは、コンピュータに、上述の翻訳装置のいずれかの全ての機能を行わせる。 A computer program according to the second aspect of the present invention causes a computer to perform all the functions of any of the above translation apparatuses.
以下のシステムは日本語から英語への翻訳に関するが、この発明はそのような言語の組合せに限定されるものではない。その言語の組合せについてバイリンガルコーパスが利用可能であれば、どのような組合せ、及びどのような翻訳方向を用いることもできる。 The following system relates to translation from Japanese to English, but the invention is not limited to such language combinations. Any combination and any translation direction can be used as long as a bilingual corpus is available for that language combination.
<システムの概要>
この発明の第1の実施の形態に係る翻訳システム30の全体のブロック図を図1に示す。翻訳システム30は日本語の文を英語の文に翻訳する。
<System overview>
FIG. 1 shows an overall block diagram of a
翻訳システム30は日本語の文と英語の文とが前もってアライメントされているバイリンガルコーパス40と、バイリンガルコーパス40のトレーニングデータセットから導出される、英語から日本語への統計的翻訳モデル及び英語の統計的言語モデル70と連携して動作する。翻訳モデルの翻訳方向は、翻訳システムの翻訳方向(日本語から英語)とは逆であることに注意されたい。
The
翻訳システム30は二つの動作フェーズで動作する。トレーニングフェーズと動作フェーズである。翻訳システム30は外部の動作モード信号78に従って、トレーニングフェーズ又は動作フェーズで動作する。
翻訳システム30は、トレーニングフェーズにおいてバイリンガルコーパス40からトレーニング文44を読出すための読出モジュール42と、動作モードに従って、トレーニング文44または入力文46を選択するための入力選択部48と、入力選択部48によって選択された文を翻訳して、入力選択部48からの各文に対し予め定められた数の仮説56を出力するためのMTエンジン52の組とを含む。MTエンジン52の組は、m個のMTエンジンを含み、MTエンジン52は入力選択部48からの各文に対しm個の仮説を出力する。
The
翻訳システム30はさらに、動作モードに従ってトレーニング文44又は入力文46を選択するための選択部50と、所与の入力文と仮説との対が貪欲デコーディングを用いるアプローチによって改良されうるか否かを判断する決定木(Decision Tree:DT)分類器58とを含む。DT分類器58は、バイリンガルコーパス40からのトレーニングデータを用いてトレーニングフェーズの間に得られた統計的根拠に基づき、仮説を分類する。
The
翻訳システム30はさらに、統計とDT分類器58の分類結果の信頼性の値とに基づいて、仮説の一つを選択する仮説選択部74と、二つの入力が仮説選択部74の出力と仮説56とを受けるようにそれぞれ接続された出力選択部66と、非特許文献2に示された貪欲アルゴリズムを用いて出力選択部66の出力をデコードし、編集距離を用いた再スコアリング法に従って最良の翻訳結果を選択するためのデコーダ68とを含む。翻訳結果はデコーダ出力72として出力される。
The
DT分類器58をトレーニングする目的で、翻訳システム30はさらに、仮説56中の各仮説対とそれに対応するデコーダ出力72に対し自動評価スコアリング方式(「単語誤り率」、Word Error Rate(略してWER)を用いる。)を適用して、その対に「良」又は「不良」の属性を割当てるためのDT属性抽出モジュール64と、入力−仮説の各組を分析して、DT分類器58をトレーニングするのに必要な特徴量を抽出するためのDT特徴量抽出モジュール54と、DT特徴量抽出モジュール54によって抽出された特徴量及びDT属性抽出モジュール64によって抽出された属性を用いて、DT分類器58をトレーニングするためのDT分類器学習部62と、動作モードに従って、DT特徴量抽出モジュール54の出力とDT分類器学習部62の出力とを選択的にDT分類器58に接続するための選択部60と、を含む。
For the purpose of training the
翻訳システム30はさらに、入力選択部48、50、60及び66、DT分類器58、並びに読出モジュール42を制御して、トレーニングフェーズと動作フェーズとで翻訳システム30を以下のように動作させるための動作フェーズ制御部76を含む。
The
I.トレーニングフェーズ
トレーニングフェーズでは、動作フェーズ制御部76は選択部48、50、60及び66を制御して、図2に示すように翻訳システム30がDT分類器58をトレーニングするように設定する。
I. Training Phase In the training phase, the
トレーニングフェーズでは、動作フェーズ制御部76が翻訳システム30を以下のように制御する。読出モジュール42がバイリンガルコーパス40中の日本語のトレーニング文の各々を読出し、トレーニング文44を入力選択部48(図1)に与える。入力選択部48はトレーニング文44を選択し、トレーニング文の各々をMTエンジン52に与える。MTエンジン52はトレーニング文44の各々を翻訳し、トレーニング文44の各々についてm個の仮説56を出力する。
In the training phase, the operation
選択部50(図1)はトレーニング文44を選択し、トレーニング文44をDT特徴量抽出モジュール54に与える。MTエンジン52中の各MTエンジンについて、それぞれの入力−仮説対の組がDT特徴量抽出モジュール54によって分析され、DT分類器58をトレーニングするのに必要な特徴量が抽出され、この特徴量がDT分類器学習部62に与えられる。
The selection unit 50 (FIG. 1) selects the
出力選択部66(図1)はMTエンジン52の出力(仮説56)を選択し、仮説の各々をデコーダ68に与える。デコーダ68は与えられた仮説をデコードする、すなわち、与えられた仮説をシードとして用いて貪欲アルゴリズムにより翻訳文を検索し、編集距離を用いた再スコアリング方式に従って最良の翻訳文を選択し、与えられた仮説の各々についてデコーダ出力72を生成する。
The output selection unit 66 (FIG. 1) selects the output (hypothesis 56) of the
仮説56中の仮説とデコーダ68からのその対応の出力との各対に、DT属性抽出モジュール64が自動評価スコアリング方式を適用してその対に「良」又は「不良」の属性を割当て、その属性をDT分類器学習部62に与える。
For each pair of hypothesis in
選択部60(図1)はDT分類器学習部62の出力をDT分類器58のトレーニング入力に接続する。DT特徴量抽出モジュール54からの抽出特徴量とDT属性抽出モジュール64からの属性とがDT分類器学習部62の入力となり、この結果、DT分類器58は、所与の入力−仮説対が貪欲デコーディングを用いたアプローチによって改良可能か否かを判断することになる。DT分類器58は決定木分類器であり、DT分類器58の葉ノードの各々について、信頼性尺度が計算される。信頼性尺度はDT分類器58による判断(「良」又は「不良」)の可能性が正しいか否かを、トレーニングフェーズで得られた統計的確率の形で示す。
The selector 60 (FIG. 1) connects the output of the DT
II.動作フェーズ
動作フェーズにおいては、動作フェーズ制御部76は選択部48、50、60及び66を制御して、翻訳システム30が図3に示すように設定されるようにする。このフェーズでは、所与の入力文46がMTエンジン52を用いて翻訳され、m個の初期仮説56が生成される。入力−仮説対の各々にDT分類器を適用し、「不良」と分類された入力−仮説対は全て初期仮説56の組から削除される。
II. Operation Phase In the operation phase, the operation
統計的スコア及び分類結果の信頼性の値に基づいて、単一の入力−仮説対が仮説選択部74によって選択され、貪欲デコーダ68の入力として用いられ、ここで結果として得られる最良の翻訳文(デコーダ出力72)が編集距離ベースの再スコアリング法に従って選択される。
Based on the statistical score and the confidence value of the classification result, a single input-hypothesis pair is selected by the
この実施の形態では、MTエンジン52として5個のMTエンジンを用いた。2個は用例ベースのMT(Example Based MT:EBMT)であり、これらは貪欲デコーダ68と同じトレーニングセットによってトレーニングされた。残り3個は市販の規則ベースのMT(Rule Based MT:RBMT)システムであり、辞書、文法及び翻訳規則に基づいている。
In this embodiment, five MT engines are used as the
決定木分類器の学習のために、市販のデータマイニングツールを用いた。このようなツールの一例は非特許文献3にある。初期の入力−仮説対の組からDT特徴量抽出モジュール54によって抽出される特徴量は以下の通りである。
A commercially available data mining tool was used to learn the decision tree classifier. An example of such a tool is in
(1)異なるMTエンジンによって生成された初期の翻訳仮説間の「類似性特徴量」、これは、以下を含む。 (1) “Similarity features” between initial translation hypotheses generated by different MT engines, including:
−初期翻訳仮説のうち同一のものの数
−所与の仮説と他のMTエンジンのものとの平均編集距離(edit−distance:ED)。編集距離は挿入(INS)、削除(DEL)、及び置換(SUB)動作のコストの合計、ED=INS+DEL+SUBとして定義される。
-Number of identical initial translation hypotheses-Average edit distance (ED) between a given hypothesis and that of other MT engines. The edit distance is defined as the sum of the costs of insert (INS), delete (DEL), and replace (SUB) operations, ED = INS + DEL + SUB.
−最短/最長の初期翻訳仮説からの文の長さの相違。 -Sentence length differences from shortest / longest initial translation hypotheses.
(2)トレーニングコーパスから抽出された「統計的特徴量」。これは以下を含む。 (2) “Statistical features” extracted from the training corpus. This includes:
−TM*LM統計モデルスコア
−特定のソース言語及びターゲット言語の単語の頻度。
TM * LM statistical model score-frequency of words in specific source and target languages.
(3)トリグラム言語モデルに基づいて計算された、ソース言語入力と初期翻訳仮説との「言語パープレキシティ」特徴量。 (3) “Language perplexity” feature quantity of source language input and initial translation hypothesis calculated based on trigram language model.
(4)「言語学的特徴量」、これは以下を含む。 (4) “Linguistic features”, which includes:
−文の長さ
−文の種類
−文の構造(構文解析木でのノードの数等)
−構成要素のサイズ
−密度特徴量、すなわち、機能語と内容語との比率
−内容語の意味論的カテゴリー。
-Sentence length-Sentence type-Sentence structure (number of nodes in the parse tree, etc.)
-The size of the component-Density features, ie the ratio of function words to content words-Semantic categories of content words.
図4はこの実施の形態のDT特徴量抽出部54によって抽出された特徴量の組の例として表90を示す。図4において、「INPUT」は入力文を意味し、「HYP」は「INPUT」に対応する仮説を表す。
FIG. 4 shows a table 90 as an example of a set of feature amounts extracted by the DT feature
図5は特徴量の組の例として表100を示す。ここで「INPUT」と一個のMTエンジン52(MT1)との対について抽出されたものを組110で示し、「INPUT」と別のMTエンジン52(MT2)との対について抽出されたものを組112で示す。
FIG. 5 shows a table 100 as an example of a set of feature amounts. Here, a pair extracted with respect to a pair of “INPUT” and one MT engine 52 (MT1) is shown as a
DT属性(「良」又は「不良」)、すなわち分類器のトレーニングに用いられる特徴量は以下のように決定される。 The DT attribute (“good” or “bad”), that is, the feature quantity used for training of the classifier is determined as follows.
バイリンガルコーパス40中の文をMTエンジン52を用いて翻訳し、初期仮説の組56を生成する。これらの初期仮説の組56は編集距離ベースの再スコアリングによりデコードされる。デコーダ68の出力の各々に自動評価スコアリング法(WER)を適用して、以下の翻訳品質を判断する。
Sentences in the
(a) MTエンジンによって生成された初期仮説
(b) デコーダ出力。
(A) Initial hypothesis generated by MT engine (b) Decoder output.
入力−仮説の各対についての属性(「良」又は「不良」)は以下のように割当てられる。 The attributes (“good” or “bad”) for each input-hypothesis pair are assigned as follows:
−翻訳品質が改良されていれば、すなわち、WER(デコーダ出力)<WER(初期仮説)であれば「良」。 -If the translation quality is improved, i.e. WER (decoder output) <WER (initial hypothesis), "good".
−それ以外は「不良」。 -Otherwise it is "bad".
DT分類器58は、入力−仮説の各対についてDT特徴量抽出モジュール54とDT属性抽出モジュール64とによってそれぞれ抽出された特徴量と属性とによってトレーニングされる。
The
図6を参照して、トレーニングされたDT分類器58は、入力−仮説の対の特徴量に関する質問を含む、ノード140、142、144、150、152、160、162、180、182、200、210、212、230、232、240、242、260及び262を含む。ノードルート140から開始して、特徴量が真であるか否かに従って決定木を辿っていき、分類結果を含む葉に至る。例えば、葉ノードには、
−分類された属性(「良」又は「不良」)と数値によるスコア、及び
−タグ170、190、192、220、250、270及び272で示される、分類結果の信頼性(決定木の同じパスを用いた場合に正確に分類されたトレーニングサンプルのパーセンテージ)を割当てることができる。
Referring to FIG. 6, the trained
A classified attribute (“good” or “bad”) and a numerical score; and a reliability of the classification result indicated by the
例えば、タグ170は、ツリーを辿ってノード160に至った場合、属性は「不良」でありその信頼性の値が1.0であることを示す。これは、この葉ノード160に至る全ての仮説が、トレーニングフェーズで全く改良を示さなかったことを表す。
For example, when the
動作時には、所与の入力−仮説対がDT分類器58で分類される。所与の入力−仮説対が「不良」であると分類されれば、これは初期仮説の組から除外される。
In operation, a given input-hypothesis pair is classified by the
仮説選択部74はDT分類器58によって選択された入力−仮説対から単一の入力−仮説対を、翻訳及び言語モデル70を用いて計算された統計的モデルに基づくスコア(TM・LM)の情報と、決定木分類結果の信頼性の値(CONF)とに基づいて選択する。
The
仮説選択部74は、DT分類器58によって選択された仮説を、CONF、TM及びLMの関数であるCONF・TM・LMスコアによって再スコアリングする。
CONF・TM・LM score=func(CONF,TM,LM)
仮説選択部74によって用いられる基準は次のようなものである。
The
CONF / TM / LM score = func (CONF, TM, LM)
The criteria used by the
−統計的モデルスコアTM・LMが高いほど、翻訳の品質は高いと考えられる。 -The higher the statistical model score TM · LM, the higher the quality of translation.
−分類結果から導出される信頼性のスコアが高いほど、良い開始点が見出されたと思われる。 -The higher the confidence score derived from the classification results, the better the starting point may have been found.
CONF・TM・LMスコアが最も高い入力−仮説対が、デコーダ68によるデコードのために選択される。
The input-hypothesis pair with the highest CONF.TM.LM score is selected for decoding by
上述の実施の形態では、以下のスコアリング関数が用いられる。 In the above-described embodiment, the following scoring function is used.
DT属性抽出モジュール64における属性抽出では、トレーニングフェーズにおいてデコーダ68の出力の各々に以下の基準に従ったランクが割当てられる。
In attribute extraction in the DT
ランクは、英語を母国語とする人によって決定される。ABCスコアが次のように計算される。
The rank is determined by a person whose native language is English. The ABC score is calculated as follows:
トレーニングフェーズでのトレーニング文の一例「えと 名前 が タナカ ヨシコ と 申し ます それ で 予約 御 願い し ます」。この文をMTエンジン52に与える。MT1及びMT2がこの入力文(INPUT)を翻訳し、以下の二個の仮説HYP1及びHYP2をそれぞれ生成する。
An example of the training text in the training phase, “My name is Yoshiko Tanaka, so please make a reservation.” This sentence is given to the
例:動作フェーズ(日本語から英語への翻訳)
動作フェーズでは、以下の文が翻訳システム30に与えられるものとする。
Example: Operation phase (Translation from Japanese to English)
In the operation phase, the following sentence is given to the
INPUT:「はい 使え ます どこ の カード を お持ち です か」
MTエンジン52は、以下の表に示す仮説56を、それぞれのTM・LMスコアとともに出力する。
INPUT: “Yes, what cards do you have?”
The
DT分類器58は以下の表に示されるように仮説を分類した。この表からわかるように、仮説HYP2及びHYP3は「不良」と分類されるため、削除される。仮説HYP1、HYP4及びHYP5のみが仮説選択部74に与えられる。
The
デコードされた出力OUT1からOUT5に対する主観的な評価を行った。結果は以下の通りである。 A subjective evaluation of the decoded outputs OUT1 to OUT5 was performed. The results are as follows.
<実験結果>
発明者らは実験を行った。翻訳方向は日本語から英語である。テストデータの組は500個の文を含んでいた。
<Experimental result>
The inventors conducted experiments. The translation direction is from Japanese to English. The test data set contained 500 sentences.
(1)翻訳の正確さ
(a)MTエンジン
(1) Accuracy of translation (a) MT engine
上述の実施の形態の仮説選択部74は仮説1個を選択するのみであるが、この発明はそのような実施の形態に限定されない。仮説選択部74は選択される仮説の数が初期仮説56の数より少ない限り、2個以上の仮説を選択してもよい。上述の実施の形態に比べ、計算コストは高くなるが、それでも先行技術よりは依然として低い。
Although the
上述の実施の形態では、デコーディングのための仮説を選択するのに決定木を用いている。しかし、仮説の選択は、貪欲デコーダのより良好な出力が得られると思われる仮説を判断できるよう学習可能であるかぎり、他の方策によって行われても良い。決定木に代えて、サポートベクトルマシン(Support Vector Machine:SVM)、神経回路網(Neural Networks:NN)又は多層パーセプトロン(Multi−layer Perceptron:MLP)を用いてもよい。 In the above-described embodiment, a decision tree is used to select a hypothesis for decoding. However, the selection of hypotheses may be done by other strategies as long as it can be learned to determine the hypotheses that would yield a better output of the greedy decoder. Instead of the decision tree, a support vector machine (Support Vector Machine: SVM), a neural network (NN), or a multi-layer perceptron (MLP) may be used.
図7は上述のプログラムを実行しこの実施の形態の翻訳システム30を実現するコンピュータシステム330の外観を示し、図8はシステム330の構造をブロック図で示す。
FIG. 7 shows the appearance of a
図7を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read Only Memory)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
Referring to FIG. 7, the
図8を参照して、コンピュータ340はさらに、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)358と、CPU356に接続されアプリケーションプログラムの命令を一時的に記憶するとともに、一時記憶領域を提供するRAM(Random Access Memory)360と、アプリケーションプログラム、システムプログラム及びデータを記憶するためのハードディスク354とを含む。ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(Local Area Network:LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Referring to FIG. 8, in addition to FD drive 352 and CD-
コンピュータシステム330にこの実施の形態の翻訳システム30の機能を実行させるプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送されてもよい。これに代えて、プログラムは図示しないネットワークを介して送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接RAM360にロードされてもよい。
A program for causing the
プログラムは、コンピュータ340にこの実施の形態の翻訳システム30の機能を実行させるための複数の命令を含む。必要とされる基本的機能のいくつかはコンピュータ340上で実行されるオペレーティングシステム(OS)又はサードパーティプログラム、もしくはコンピュータ340にインストールされるモジュールによって提供されるので、プログラムは必ずしもこの実施の形態の翻訳システム30を実現するために必要とされる基本的機能の全てを含む必要はない。プログラムは、所望の結果が得られるように制御された様態で適切な機能を呼出すような命令の部分のみを含んでいればよい。コンピュータシステム330の一般的な動作は周知であり、従ってここでは繰返さない。
The program includes a plurality of instructions for causing the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 翻訳システム
40 バイリンガルコーパス
52 MTエンジン
54 DT特徴量抽出モジュール
56 仮説
58 DT分類器
62 DT分類器学習部
64 DT属性抽出モジュール
68 デコーダ
70 翻訳及び言語モデル
72 デコーダ出力
74 仮説選択モジュール
30
Claims (5)
前記第1の言語の文を前記第2の言語の複数個の仮説に翻訳するための手段と、
統計的根拠に基づいて、前記複数個の仮説の中から、初期仮説から仮説を生成するための予め定められたアルゴリズムによってより良い仮説を生じさせるものを選択するための手段と、
前記予め定められたアルゴリズムを用いて、前記選択するための手段によって選択された仮説から翻訳文を生成するための手段とを含む、翻訳装置。 A translation device for translating a sentence in a first language into a sentence in a second language,
Means for translating the sentence in the first language into a plurality of hypotheses in the second language;
Means for selecting, based on statistical evidence, a plurality of hypotheses that produce a better hypothesis by a predetermined algorithm for generating a hypothesis from an initial hypothesis;
Means for generating a translated sentence from a hypothesis selected by the means for selecting using the predetermined algorithm.
前記第2の言語の前記複数個の仮説を、統計的根拠に基づいて複数個のクラスに分類し、前記複数個の仮説のそれぞれのスコアを前記統計的根拠に基づいて計算するための手段を含み、前記複数個のクラスは第1のクラスと第2のクラスとを含み、
前記選択するための手段はさらに、前記分類するための手段によって計算されたスコアに基づき、前記第1のクラスに分類された仮説のうち一つを選択するための手段を含む、請求項1に記載の翻訳装置。 The means for selecting comprises:
Means for classifying the plurality of hypotheses of the second language into a plurality of classes based on a statistical basis, and calculating a score of each of the plurality of hypotheses based on the statistical basis; The plurality of classes includes a first class and a second class;
The means for selecting further comprises means for selecting one of hypotheses classified into the first class based on the score calculated by the means for classifying. The translation device described.
A computer program that, when executed on a computer, causes the computer to perform all of the functions according to any one of claims 1 to 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261609A JP2007072927A (en) | 2005-09-09 | 2005-09-09 | Translation apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261609A JP2007072927A (en) | 2005-09-09 | 2005-09-09 | Translation apparatus and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007072927A true JP2007072927A (en) | 2007-03-22 |
Family
ID=37934293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005261609A Pending JP2007072927A (en) | 2005-09-09 | 2005-09-09 | Translation apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007072927A (en) |
-
2005
- 2005-09-09 JP JP2005261609A patent/JP2007072927A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Sequence-to-sequence models can directly translate foreign speech | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
US9176936B2 (en) | Transliteration pair matching | |
JP4961755B2 (en) | Word alignment device, word alignment method, word alignment program | |
US11942076B2 (en) | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
US20170199867A1 (en) | Dialogue control system and dialogue control method | |
US20100088085A1 (en) | Statistical machine translation apparatus and method | |
KR20180114781A (en) | Apparatus and method for converting dialect into standard language | |
US8874433B2 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
Nishimura et al. | Multi-source neural machine translation with missing data | |
CN104462072A (en) | Input method and device oriented at computer-assisting translation | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
US20200211417A1 (en) | Two-language free dialogue system and method for language learning | |
KR20160133349A (en) | Method for generating a phase table and method for machine translation using the phase table | |
KR20230009564A (en) | Learning data correction method and apparatus thereof using ensemble score | |
JP2006338261A (en) | Translation device, translation method and translation program | |
KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
JP2007323476A (en) | Mechanical translation device and computer program | |
Sridhar et al. | Enriching spoken language translation with dialog acts | |
JP2007072927A (en) | Translation apparatus and computer program | |
JP2006024114A (en) | Mechanical translation device and mechanical translation computer program | |
CN117094329B (en) | Voice translation method and device for solving voice ambiguity | |
JP5500624B2 (en) | Transliteration device, computer program and recording medium | |
Zhang | Text Normalization for Text-to-Speech | |
Charoenpornsawat et al. | Improving word segmentation for Thai speech translation |