JP2009059123A - Unit and method for predicting human assessment of translation quality - Google Patents
Unit and method for predicting human assessment of translation quality Download PDFInfo
- Publication number
- JP2009059123A JP2009059123A JP2007225037A JP2007225037A JP2009059123A JP 2009059123 A JP2009059123 A JP 2009059123A JP 2007225037 A JP2007225037 A JP 2007225037A JP 2007225037 A JP2007225037 A JP 2007225037A JP 2009059123 A JP2009059123 A JP 2009059123A
- Authority
- JP
- Japan
- Prior art keywords
- binary
- translation
- classifiers
- classifier
- encoding matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は機械翻訳の評価に関し、特に、機械翻訳(machine translation:MT)品質の人による評定を予測する方法及び装置に関する。 The present invention relates to machine translation evaluation, and more particularly, to a method and apparatus for predicting machine translation (MT) quality human ratings.
MT品質の人による評価にはコストと時間がかかる。MT出力をより安価かつ迅速に評価するための様々な自動評価の対策が提案されてきた。最近のニューズワイヤMT評価(NIST(National Institute of Standards and Technology)、http://www.nist.gov/speech/tests/mt)及び旅行データ評価(IWSLT(the International Workshop on Spoken Language Translation)、http//www.slc.art.jp/IWSLT2006)での評価キャンペーンは、これら評価のための指標が人の判断とどの程度良好な相関があるかを調査している。この結果、MTシステムの出力を文書レベルでランク付けすると、いくつかの指標では人の判断と高い相関が得られることが示された。しかし、各々の自動指標は翻訳出力の異なる局面に焦点をあてており、人による判断との相関は人による評定の種類(例えば流暢さ又は充分性)に依存する。さらに、どの自動指標も、単一の翻訳文の翻訳品質を予測するには満足でないことがわかった。 Evaluation by MT quality personnel is costly and time consuming. Various automatic evaluation measures have been proposed to evaluate MT output more cheaply and quickly. Recent Newswire MT assessment (NIST (National Institute of Standards and Technology), http://www.nist.gov/spec/test/mt) and travel data assessment (IWSLT (the International pound). //Www.slc.art.jp/IWSLT2006) is investigating how well the indicators for these evaluations correlate with human judgment. As a result, it was shown that when the output of the MT system was ranked at the document level, some indicators were highly correlated with human judgment. However, each automatic indicator focuses on a different aspect of the translation output, and the correlation with human judgment depends on the type of human rating (eg fluency or sufficiency). Furthermore, none of the automatic indicators proved satisfactory for predicting the translation quality of a single translation.
翻訳品質をどのように評定するかについて、様々な方策が提案されてきた。そのほとんどは翻訳の流暢さ、充分性及び受容可能性に関する翻訳品質の人による評定に焦点をあてている。流暢さとは、評価セグメントが英語を母国語とする人にどれだけ自然に聞こえるか、を示す。充分性については、評価者には元となる言語入力のほかに、「基準訳」(gold standard)の翻訳が与えられ、翻訳文中に、元の翻訳からの情報がどの程度表出されているかを判断しなければならない。受容可能性では、翻訳文の理解がどの程度容易かを判断する。流暢さ、充分性及び受容可能性の判断は、以下のテーブル1に挙げる等級のいずれかから成る。 Various strategies have been proposed for how to assess translation quality. Most of them focus on human assessment of translation quality for fluency, sufficiency and acceptability of translation. Fluency refers to how natural the evaluation segment sounds to people whose native language is English. For sufficiency, the evaluator is given a “standard translation” in addition to the original language input, and how much information from the original translation is expressed in the translation. Must be judged. Acceptability determines how easy it is to understand the translation. The judgment of fluency, sufficiency and acceptability consists of any of the grades listed in Table 1 below.
非特許文献3に記載の研究では、単語/語句レベルで信頼度を推定する統計的尺度を用い、翻訳プロセス自体のシステム固有の特徴量を収集して2値分類器をトレーニングしている。自動評価スコアに対し経験によるしきい値を利用して、良い翻訳と悪い翻訳とを区別する。非特許文献3はまた、技術文献のドメインにおける非常に小さいデータセットについて、マルチクラス分類問題への様々な学習方策の利用可能性を検討している。
In the research described in Non-Patent
非特許文献1は多数の編集距離特徴量でトレーニングされたDT分類器を利用しており、ここでは語彙(語幹、単語、品詞)と語義(シソーラスベースの意味的クラス)との組合せの一致を用いてMTシステムの出力と基準翻訳とを比較し、人による受容可能性を直接近似している。
Non-Patent
非特許文献5は人の判断を直接予測することに代えて、ニューズワイヤの「人が作った」翻訳と「機械で生成した」翻訳とを区別するために、自動スコアリング特徴量に基づく2値SVM分類器をトレーニングしている。
以前に提案された方策では、翻訳品質の人による評定を予測するために教師あり学習を利用している。しかし、このようなマルチクラス分類器は主に、MTシステム内部の、かつ言語依存の多数の特徴量でトレーニングされており、これらはMTエンジン又は言語が変わるたびに調整しなければならない。さらに、以前の方策では人の判断(マルチクラスタスク)を直接予測しようとしていた。このような直接的な分類タスクは大量のトレーニングデータを必要とする傾向があり、また、トレーニングしたとしても、翻訳品質を予測するには不安定であるか、又はあまり精密でない。 Previously proposed strategies use supervised learning to predict human ratings of translation quality. However, such multi-class classifiers are primarily trained with a number of features that are internal to the MT system and language dependent, which must be adjusted each time the MT engine or language changes. In addition, previous strategies have attempted to directly predict human judgment (multi-class tasks). Such direct classification tasks tend to require large amounts of training data and, even if trained, are unstable or less precise in predicting translation quality.
従って、この発明の目的の一つは、機械翻訳品質の人による評定を安定して予測する方法及び装置を提供することである。 Accordingly, one of the objects of the present invention is to provide a method and apparatus for stably predicting a human translation quality rating.
この発明の別の目的は機械翻訳の人による評定を高い精度をもって安定して予測する方法及び装置を提供することである。 Another object of the present invention is to provide a method and an apparatus for stably predicting a human translation rating with high accuracy.
この発明のさらなる目的は、機械翻訳品質の人による評定を安定して予測する、システム及び言語に依存しない方法及び装置を提供することである。 It is a further object of the present invention to provide a system and language independent method and apparatus for stably predicting human rating of machine translation quality.
この発明は、符号化マトリクスを用いた2値分類器の組合せに基づいて機械翻訳品質の人による評定を予測又は推定する装置及び方法に関する。マルチクラスカテゴリー化の問題を2値問題の組に還元し、これらを、多数自動評価指標の結果でトレーニングした標準分類学習アルゴリズムで解く。2値分類器はBLEU、METEOR等の多数自動評価指標の特徴量でトレーニングされる。学習済みの判断モデルがMT出力に1文ごとに適用され、文レベルでの翻訳品質の2値指標を生成する。マルチクラス分類問題はその後、符号化マトリクスを用いて、2値分類器の結果を組合せることで解決される。 The present invention relates to an apparatus and a method for predicting or estimating a human translation quality rating based on a combination of binary classifiers using an encoding matrix. The multi-class categorization problem is reduced to a set of binary problems, and these are solved with a standard classification learning algorithm trained on the results of many automatic evaluation indices. The binary classifier is trained with features of multiple automatic evaluation indexes such as BLEU and METEOR. The learned judgment model is applied to the MT output for each sentence, and a binary index of translation quality at the sentence level is generated. The multi-class classification problem is then solved by combining the binary classifier results using an encoding matrix.
特に、この発明の第1の局面は、機械翻訳品質の人による評定を推定するための装置に関する。人による評定は予め規定された等級によって与えられる。装置は、所与の翻訳の予め定められた特徴量の組を計算するための手段と、各々が、特徴量の組の中で選択された特徴量に従って、所与の翻訳を予め規定された2値クラスの一方に分類するための、1組の2値分類器と、等級の各々が2値分類器の組の分類結果の行と関連付けられる、符号化マトリクスを記憶するための手段と、2値分類器による2値分類の結果と符号化マトリクスとに従って、所与の翻訳の等級を決定するための手段と、を含む。 In particular, the first aspect of the present invention relates to an apparatus for estimating a human translation quality rating. Human ratings are given by a pre-defined grade. The apparatus predetermines a given translation according to a means for calculating a predetermined set of features for a given translation, each according to a feature selected in the set of features A set of binary classifiers for classifying into one of the binary classes, and means for storing an encoding matrix in which each of the grades is associated with a row of classification results for the set of binary classifiers; Means for determining the grade of a given translation according to the result of the binary classification by the binary classifier and the encoding matrix.
好ましくは、2値分類器の組の出力は、2値ベクトルを規定し、その要素の各々は第1の値又は第1の値と異なる第2の値である。符号化マトリクスの行はそれぞれ3値ベクトルを規定し、その各々は第1の値、第2の値、又は第1及び第2の値とは異なる第3の値であってもよい。第1及び第2の値は所与の翻訳が2値分類器の組の対応するものによってそれぞれ第1及び第2のクラスに分類されるべきことを示す。第3の値は、所与の翻訳が2値分類器の組の対応するものによって分類されないことを示す。決定するための手段は、2値ベクトルと3値ベクトルの各々との距離を計算するための手段と、距離において2値ベクトルと最も近い符号化マトリクスの行を見出すための手段と、2値ベクトルと最も近い行に対応する等級を、所与の翻訳の品質に対する推定される人による評定として選択するための手段と、を含む。 Preferably, the output of the set of binary classifiers defines a binary vector, each of its elements being a first value or a second value different from the first value. Each row of the encoding matrix defines a ternary vector, each of which may be a first value, a second value, or a third value different from the first and second values. The first and second values indicate that a given translation should be classified into the first and second classes, respectively, by the corresponding pair of binary classifiers. The third value indicates that a given translation is not classified by the corresponding one of the set of binary classifiers. Means for determining means for calculating a distance between the binary vector and each of the ternary vectors, means for finding the row of the encoding matrix closest to the binary vector in the distance, and the binary vector; And means for selecting the grade corresponding to the closest row as an estimated human rating for a given translation quality.
より好ましくは、距離を計算するための手段は、2値ベクトルと各3値ベクトルとの間のハミング距離を計算するための手段を含む。 More preferably, the means for calculating the distance includes means for calculating a Hamming distance between the binary vector and each ternary vector.
予め定められた特徴量の組を計算するための手段は、各々が、等級の組による、機械翻訳の品質の人による評定を自動的に評価するための、複数の予め選択された自動マルチクラス評価手段を含んでもよい。 The means for calculating the set of predetermined features is a plurality of preselected automatic multiclasses, each for automatically evaluating a human rating of machine translation quality by a set of grades. Evaluation means may be included.
好ましくは、予め定められた特徴量の組を計算するための手段は、予め定められた内部指標特徴値を計算するための自動評価手段をさらに含む。 Preferably, the means for calculating a predetermined feature amount set further includes an automatic evaluation means for calculating a predetermined internal index feature value.
この発明の第2の局面は、機械翻訳品質の人による評定を推定するためのコンピュータ化された方法に関する。人による評定は予め規定された等級によって与えられる。この方法は、所与の翻訳の予め定められた特徴量の組を計算するステップと、特徴量の組の中で選択された特徴量に従って、1組の2値分類器の各々によって所与の翻訳を予め規定された2値クラスの一方に分類するステップと、等級の各々が分類するステップで行われる分類結果の行と関連付けられる符号化マトリクスを、記憶部に記憶するステップと、分類するステップの2値分類結果の組と符号化マトリクスとに従って、所与の翻訳の等級を決定するステップと、を含む。 A second aspect of the invention relates to a computerized method for estimating human translation grades of machine translation quality. Human ratings are given by a pre-defined grade. The method includes the steps of calculating a predetermined feature set for a given translation and according to a feature selected in the feature set, by each of a set of binary classifiers. A step of classifying the translation into one of the predefined binary classes; a step of storing in the storage unit an encoding matrix associated with a row of the classification result performed in the step of classifying each of the grades; and a step of classifying Determining a grade for a given translation according to the set of binary classification results and the encoding matrix.
この発明の第3の局面は、コンピュータ上で実行されると、コンピュータを、所与の翻訳の予め定められた特徴量の組を計算するための手段と、各々が、特徴量の組の中で選択された特徴量に従って、所与の翻訳を予め規定された2値クラスの一方に分類するための、1組の2値分類器と、等級の各々が2値分類器の組の分類結果の行と関連付けられる、符号化マトリクスを記憶するための手段と、2値分類器による2値分類の結果と符号化マトリクスとに従って、所与の翻訳の等級を決定するための手段と、として機能させる、コンピュータプログラムに関する。 A third aspect of the invention, when executed on a computer, causes the computer to calculate a predetermined feature set for a given translation, each of which is included in the feature set. A set of binary classifiers for classifying a given translation into one of the predefined binary classes according to the feature quantity selected in, and the classification results of each class of binary classifiers Means for storing an encoding matrix associated with a row of the data, and means for determining a grade of a given translation according to the result of the binary classification by the binary classifier and the encoding matrix A computer program.
大規模な人による注釈つきの評価コーパスを用いた実験結果では、2値分類器への分解によって、マルチクラスのカテゴリー化問題よりも高い分類精度が達成されることが示された。加えて、提案された方法は、標準評価尺度に比べ、文レベルでの人の判断とより高い相関を達成する。 Experimental results using a large-scale annotated evaluation corpus showed that decomposition into a binary classifier achieves higher classification accuracy than multiclass categorization problems. In addition, the proposed method achieves a higher correlation with human judgment at the sentence level than the standard rating scale.
[第1の実施の形態]
概要
この発明の第1の実施の形態に従った、翻訳品質の人による評定を予測する装置を以下で説明する。以下の説明では、同じ部分は同じ参照符号で示す。それらの名称及び機能もまた同じである。従って、詳細な説明は繰返さない。
[First Embodiment]
Summary An apparatus for predicting translation quality assessment by a person according to a first embodiment of the present invention will be described below. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description will not be repeated.
この実施の形態のシステムは、翻訳品質の人による評定の予測に教師あり学習を利用するが、以下の2つの局面で先行技術のシステムと異なる。 The system of this embodiment uses supervised learning to predict a rating by a person with translation quality, but differs from the prior art system in the following two aspects.
(1)分類のパープレキシティの還元
マルチクラスの分類タスクの分解を、2値分類の組に還元する。これは学習タスクの複雑さを減じ、この結果、分類精度が高くなる。
(1) Reduction of classification perplexity The decomposition of multi-class classification tasks is reduced to a set of binary classifications. This reduces the complexity of the learning task, resulting in higher classification accuracy.
(2)特徴量の組
2値分類器は多数の自動評価指標(テーブル2を参照)の結果でトレーニングされ、このため、指標の各々が扱う翻訳品質の種々の局面を考慮することになる。この方法は、特定のMTシステム又は目的言語に依存しない。これは基準翻訳が利用可能であるかぎり、どのような翻訳又は目的言語に対しても、修正なしで適用することができる。
(2) Set of feature quantities The binary classifier is trained on the results of a number of automatic evaluation indices (see Table 2), and therefore considers various aspects of translation quality handled by each of the indices. This method is independent of the specific MT system or target language. This can be applied to any translation or target language without modification, as long as a reference translation is available.
この実施の形態に従った予測方法は、3段階に分割される。すなわち、(1)人と機械によって評価されるMTシステム出力のデータベースから抽出された特徴量の組によって、2値分類器がトレーニングされる学習段階、(2)開発セット上での、再組合せステップの分類精度を最大にする2値分類器の最適な組を選択する分解段階、(3)2値分類器を見たことのない文に適用し、2値分類器の結果を、最適化された符号化マトリクスを用いて組合せて人によるスコアを予測する、適用ステップ。 The prediction method according to this embodiment is divided into three stages. (1) A learning stage in which a binary classifier is trained by a set of feature values extracted from a database of MT system output evaluated by a person and a machine. (2) A recombination step on the development set. A decomposition stage that selects an optimal set of binary classifiers that maximizes the classification accuracy of (3), applying the binary classifier to a sentence that has never seen the binary classifier, and optimizing the result of the binary classifier An application step of predicting a human score in combination using the encoded matrices.
−学習段階
マルチクラス及び2値分類の問題に対する判断モデルが、標準学習アルゴリズムを用いて獲得される。提案に係る方法は、特定の分類学習方法に限定されるものではない。以下で説明する実験のためには、決定木(非特許文献4)の標準的な実現例を利用した。
-Learning stage Decision models for multi-class and binary classification problems are obtained using standard learning algorithms. The method according to the proposal is not limited to a specific classification learning method. For the experiment described below, a standard implementation example of a decision tree (Non-Patent Document 4) was used.
特徴量の組は、テーブル2に列挙した7種の自動評価指標のスコアから成る。全ての自動評価指標は英語MT出力からなる入力データセットに適用され、その翻訳品質が、テーブル1で紹介された指標を用いて人によってマニュアルで評定される。指標のスコアに加えて、指標の内部特徴量、例えば、nグラム精度スコア、基準とMT出力との長さ比率等もまた利用され、この結果、54個のトレーニング用特徴量が得られる。 The set of feature amounts is composed of scores of seven types of automatic evaluation indexes listed in Table 2. All automatic evaluation indices are applied to the input data set consisting of English MT output, and the translation quality is manually evaluated by the person using the indices introduced in Table 1. In addition to the index score, an internal feature quantity of the index, for example, an n-gram accuracy score, a length ratio between the reference and the MT output, and the like are also used, resulting in 54 training feature quantities.
−分解段階
マルチクラス問題をいくつかの2値分類問題に分解するには多くの方法がある。最もよく知られた方策は、1値対他(one−against−all)、及び全ペア(all−pairs)の方法である。1値対他の方策では、あるクラスの分類器をトレーニングするために、そのクラスに属するトレーニング例全てが肯定的な例として用いられ、それ以外は否定的な例とされる。全ペアの方策では、分類器はクラスの対ごとにトレーニングされ、問題とされるクラスのいずれにも属さないトレーニング例は全て無視される。
-Decomposition stage There are many ways to decompose a multi-class problem into several binary classification problems. The best known strategies are one-against-all and all-pairs methods. In one-value vs. other strategies, to train a class of classifiers, all training examples belonging to that class are used as positive examples, otherwise they are negative examples. In the all-pair strategy, the classifier is trained for each class pair, and any training examples that do not belong to any of the classes in question are ignored.
このようなマルチクラス問題の分解は、マルチクラス問題のクラスcが2値分類器bの行と関連付けられるような符号化マトリクスMで表される。もしkをクラスの数とし、lを2値分類問題の数とすれば、この符号化マトリクスは以下のように定義される。 Such decomposition of the multiclass problem is represented by an encoding matrix M in which the class c of the multiclass problem is associated with the row of the binary classifier b. If k is the number of classes and l is the number of binary classification problems, this encoding matrix is defined as follows:
この実施の形態は、1値対他及び全ペアの2値分類器を利用する。加えて、トレーニングセット全体で、境界分類器をトレーニングする。この場合、問題となっているクラスより以上のクラスに分類された全てのトレーニング例は肯定的な例として用いられ、他の全てのトレーニング例は否定的な例とされる。テーブル3は背景技術の説明の欄で紹介された人による評定の問題を分解するのに利用される17個の2値分類問題を列挙する。 This embodiment utilizes a binary classifier of one value vs. other and all pairs. In addition, train boundary classifiers throughout the training set. In this case, all training examples classified into classes higher than the class in question are used as positive examples, and all other training examples are negative examples. Table 3 lists the 17 binary classification problems that are used to resolve the rating problem by a person introduced in the background section.
−適用段階
入力例が与えられると、全ての2値分類器が符号化マトリクスの各列について一度ずつ適用され、この結果、l個の2値分類結果のベクトルvが得られる。マルチクラスのラベルは、符号化マトリクスMの対応の行rが「最も近い」ことを表す、ラベルcと予測される。
Application stage Given an input example, all binary classifiers are applied once for each column of the coding matrix, resulting in a vector v of l binary classification results. The multi-class label is predicted as label c, which represents that the corresponding row r of the encoding matrix M is “closest”.
非特許文献2では、rとvとの距離を(a)対応するベクトル間で異なる位置の数を計数する一般化されたハミング距離と、(b)2値分類器スコアの大きさを考慮した、損失による復号化(デコーディング)とによって計算する。どちらも有効であり、この実施の形態ではハミング距離の方策を用いる。
In
受容可能性を予測するための構造
図1は、翻訳品質を予測する上述の方法を実現する、コーパス40を利用したこの実施の形態の翻訳品質予測システム30の全体構造を示す。図1を参照して、システム30は、機械翻訳72によってソーステキスト70から翻訳された翻訳済テキスト74の、人による評定を予測し、その評価86を出力するためのアプリケーションユニット32と、コーパス40を利用して、アプリケーションユニット32で用いられる符号化マトリクス56と2値分類器54との組を生成するための分類器準備ユニット34とを含む。コーパス40は多数の学習用翻訳セットを含む。学習用翻訳セットの各々は、ソーステキスト、その機械翻訳テキスト、及び特徴量パラメータの組を含む。コーパス40、2値分類器54及び符号化マトリクス56の詳細は後述する。
Structure for Predicting Acceptability FIG. 1 shows the overall structure of a translation
この実施の形態のアプリケーションユニット32は翻訳済テキスト74の受容可能性の人によるスコアを、テーブル1に示す5等級(5、4、3、2、1)で予測する。以下の説明から明らかになるように、図1に示したのと同様の構造で、流暢さ又は充分性について予測するシステムを実現することができる。
The
分類器準備ユニット34は、2値分類器46をトレーニングするための学習モジュール44と、開発セット52の予測精度が最高になるように、2値分類器46を最適化された2値分類器54へと最適化させる最適化モジュール50と、を含む。
The
分解段階42の結果として、符号化マトリクス48が準備される。後述するように、符号化マトリクス48の各行は3値ベクトルを形成する。2値分類器46を最適化するにあたって、最適化モジュール50は2値分類器46のいくつかを削除し、これに従って符号化マトリクス48を最適化された符号化マトリクス56に最適化する。
As a result of the
アプリケーションユニット32は、翻訳済テキスト74から所定の特徴量の組78を抽出するための特徴量抽出モジュール76と、特徴量の組78の所定部分を受けるように接続され2値決定値80を出力するための2値分類器54と、を含む。2値決定値80は2値ベクトル82を形成する。
The
アプリケーションユニット32はさらに、2値ベクトル82を符号化マトリクス56の各行と比較して、ハミング距離でどの行が2値ベクトル82に最も近いかを判断する比較モジュール84を含む。最も近い行に対応するクラスが、翻訳済テキスト74のマルチクラス評価86として選択される。
The
図2はコーパス40の詳細を示す。図2を参照して、コーパス40は多数の学習用翻訳セット100を含み、その各々はソーステキスト110、ソーステキスト110の機械翻訳112、及び特徴量の組114を含む。
FIG. 2 shows details of the
特徴量の組114は、人によるスコア(スコア1から5のいずれか)120、自動評価スコア122の組、及び内部指標特徴量124を含む。
The feature amount set 114 includes a human score (one of
自動評価スコア122は複数個の自動評価スコア130、132、…134を含む。この実施の形態で用いられる自動評価スコアは、テーブル2に示す7種の指標を含む。
The
内部指標特徴量124は、nグラム精度スコア150、基準とMT出力との長さ比率等を含む。翻訳の品質を示すものとして知られる特徴量はいずれも、内部指標特徴量124の要素として用いることができる。
The internal
図3は学習用翻訳セット100がどのように準備されるかを示す。図3を参照して、ソーステキスト110が何らかのソースから収集される。ソーステキスト110を何らかの種類の翻訳機械に供給することによって、機械翻訳112が得られる。
FIG. 3 shows how the learning translation set 100 is prepared. Referring to FIG. 3,
人によるスコア120は、機械翻訳112の人による評定170によって準備される。もし複数の人間により人による評定を提示すべきであれば、それらのスコアの平均を人によるスコア120として用いる。
The
自動評価スコア122及び内部指標特徴量124は、それぞれの自動評価システム172、174、…、180によって準備される。
The
図4はこの実施の形態で用いられる2値分類器の分解の機構を示す。図4を参照して、2値分類器46は3種類に分けられる。上述した、1値対他、全ペア、及び境界である。
FIG. 4 shows the decomposition mechanism of the binary classifier used in this embodiment. Referring to FIG. 4, the
1値対他の分類器は、5対他、4対他、3対他、2対他及び1対他、を含む。 One-value vs. other classifiers include 5 vs. Other, 4 vs. Other, 3 vs. Other, 2 vs. Other and 1 vs. Other.
1値対他の方策では、クラスの各々に対し、あるクラスの分類器のトレーニングでは、そのクラスに属する全てのトレーニング例はトレーニングでは肯定的な例として用いられその他の例は全て否定的な例とされる。例えば、5対他分類器は、クラス「5」に属する全てのトレーニング例が肯定的な例として用いられ、他の全てが否定的な例として用いられるようなトレーニング例でトレーニングされる。この結果、特徴量の組78により、翻訳済テキスト74がクラス「5」に属すると示されるときは、5対他は+1を出力し、そうでなければ−1を出力する。
For one-value vs. other strategies, for each class, in the training of a class of classifiers, all training examples belonging to that class are used as positive examples in training and all other examples are negative examples It is said. For example, a 5-to-other classifier is trained with a training example in which all training examples belonging to class “5” are used as positive examples and all others are used as negative examples. As a result, when the translated
全ペアの方策では、分類器はクラスの対ごとにトレーニングされるが、このとき、問題となるクラスのいずれにも属さないトレーニング例は全て無視される。この実施の形態の全ペア分類器は、5_4、5_3、5_2、5_1、4_3、4_2、4_1、3_2、3_1及び2_1分類器を含む。 In the all-pair strategy, the classifier is trained for each pair of classes, but all training examples that do not belong to any of the problematic classes are ignored. The all-pair classifier of this embodiment includes 5_4, 5_3, 5_2, 5_1, 4_3, 4_2, 4_1, 3_2, 3_1, and 2_1 classifiers.
例えば、5_4分類器のトレーニングでは、クラス「5」に属するすべてのトレーニング例が肯定的な例、クラス「4」に属する例が否定的な例、として用いられ、その他のトレーニング例は無視される。 For example, in 5_4 classifier training, all training examples belonging to class “5” are used as positive examples, examples belonging to class “4” are used as negative examples, and other training examples are ignored. .
境界アプローチでは、分類器はトレーニングセット全体でトレーニングされる。この場合、問題となるクラス以上の良好なクラスの評釈が付けられた全てのトレーニング例は肯定的な例として用いられ、その他のトレーニング例は全て否定的な例とされる。この実施の形態の境界分類器は54_321及び543_21分類器を含む。 In the boundary approach, the classifier is trained on the entire training set. In this case, all training examples with a good class comment above the class in question are used as positive examples and all other training examples are negative examples. The boundary classifier of this embodiment includes 54_321 and 543_21 classifiers.
例えば、54_321分類器のトレーニングでは、クラス「5」及び「4」の全ての例が肯定的な例として用いられ、クラス「3」、「2」又は「1」である他の全ての例が否定的な例として用いられる。 For example, in the 54_321 classifier training, all examples of classes “5” and “4” are used as positive examples, and all other examples of class “3”, “2” or “1” are used. Used as a negative example.
図5(A)は5対他の分類器をトレーニングするための例202がどのように生成されるかを示す。図5(A)を参照して、トレーニングデータ生成200のためにコーパス40内の全データが用いられる。生成された例202は各々2値ラベル204(人によるスコアが「5」なら+1、そうでなければ−1)と、特徴量206と、を含む。特徴量206は、図3に示すように、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 5A shows how an example 202 for
図5(B)は3対他分類器のトレーニングのための例212がどのように生成されるかを示す。図5(B)を参照して、トレーニングデータ生成210のために、コーパス40内の全データを用いる。生成された例212は各々、2値ラベル214(人によるスコアが「3」なら+1、それ以外は−1)と、特徴量216と、を含む。特徴量216は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 5B shows how an example 212 for training a three-to-other classifier is generated. With reference to FIG. 5B, all data in the
図6(A)は5_4分類器のトレーニングのための例224がどのように生成されるかを示す。図6(A)を参照して、人によるスコアが「5」又は「4」である例がデータ抽出プロセス220によって抽出され、その後、抽出されたデータを、トレーニングデータ生成222のために用いる。生成された例224は各々2値ラベル226(人によるスコアが「5」なら+1、人によるスコアが「4」なら−1)と、特徴量228と、を含む。特徴量228は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 6A shows how an example 224 for training a 5_4 classifier is generated. With reference to FIG. 6A, an example where the human score is “5” or “4” is extracted by the
図6(B)は5_2分類器のトレーニングのための例234がどのように生成されるかを示す。図6(B)を参照して、人によるスコアが「5」又は「2」である例がデータ抽出プロセス230によって抽出される。抽出されたデータを、トレーニングデータ生成232のために用いる。生成された例232は各々2値ラベル236(人によるスコアが「5」なら+1、人によるスコアが「2」なら−1)と、特徴量238と、を含む。特徴量238は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 6B shows how an example 234 for training a 5_2 classifier is generated. With reference to FIG. 6B, an example in which a human score is “5” or “2” is extracted by the
図7(A)は3_2分類器のトレーニングのための例244がどのように生成されるかを示す。図7(A)を参照して、人によるスコアが「3」又は「2」である例がデータ抽出プロセス240によって抽出され、その後、抽出されたデータを、トレーニングデータ生成242のために用いる。生成された例244は各々2値ラベル246(人によるスコアが「3」なら+1、人によるスコアが「2」なら−1)と、特徴量248と、を含む。特徴量248は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 7A shows how an example 244 for training a 3_2 classifier is generated. With reference to FIG. 7A, an example where the human score is “3” or “2” is extracted by the
図7(B)は3_1分類器のトレーニングのための例254がどのように生成されるかを示す。図7(B)を参照して、人によるスコアが「3」又は「1」である例がデータ抽出プロセス250によって抽出される。抽出されたデータを、トレーニングデータ生成252のために用いる。生成された例254は各々2値ラベル256(人によるスコアが「3」なら+1、人によるスコアが「1」なら−1)と、特徴量258と、を含む。特徴量258は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 7B shows how an example 254 for training the 3_1 classifier is generated. With reference to FIG. 7B, an example in which a human score is “3” or “1” is extracted by the
図8(A)は54_321境界分類器のトレーニングのための例262がどのように生成されるかを示す。図8(A)を参照して、トレーニングデータ生成260のため、コーパス40内の全ての例を用いる。生成された例262は各々2値ラベル264(人によるスコアが「5」又は「4」なら+1、それ以外は−1)と、特徴量266と、を含む。特徴量266は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 8A shows how an example 262 for training the 54_321 boundary classifier is generated. With reference to FIG. 8A, all examples in the
図8(B)は543_21境界分類器のトレーニングのための例272がどのように生成されるかを示す。図8(B)を参照して、トレーニングデータ生成270のため、コーパス40内の全ての例を用いる。生成された例272は各々2値ラベル274(人によるスコアが「5」、「4」又は「3」なら+1、それ以外は−1)と、特徴量276と、を含む。特徴量276は、自動評価スコア122と、内部指標特徴量124とを含む。
FIG. 8B shows how an example 272 for training the 543_21 boundary classifier is generated. With reference to FIG. 8B, all examples in the
図9はこの実施の形態で用いられる符号化マトリクス48を示す。図9を参照して、クラス(クラス「1」から「5」)が左端の列に配置され、2値分類器は最上部の行に配列される。左端の2番目から6番目の列(「5」から「1」)はそれぞれ、5、4、3、2及び1対他の分類器をそれぞれ示す。
FIG. 9 shows an
図9からわかるように、符号化マトリクス48の各行は3値ベクトルを形成する。これらベクトルの要素は+1、−1又は0である。もしある特定のクラスに属するトレーニング例が2値分類器の肯定的な例と考えられるならば、そのクラスとその分類器との組合せに対応する要素が「+1」で示される。同様に、もし要素が「−1」なら、そのクラスのトレーニング例は、その分類器のトレーニングのためには否定的な例として用いられている。「0」の要素は、それぞれのトレーニング例が対応する分類器のトレーニングには用いられていないことを示す。
As can be seen from FIG. 9, each row of the
図10はコンピュータプログラムの形で実現された最適化モジュール50のフローである。図1からわかるように、分解段階42の結果として、2値分類器46と符号化マトリクス48とが準備される。なお、以下のプロセスは、図1に示す開発セット52に対して行われる。
FIG. 10 is a flow of the
図10を参照して、プログラムは2値分類器46の各々の精度を計算するステップ290と、ステップ290に続いて、2値分類器46をそれらの分類精度に従って順序付けするステップ292と、を含む。
Referring to FIG. 10, the program includes a
プログラムはさらに、残りの2値分類器がアプリケーションユニット32で2値分類器54として用いられる場合に、マルチクラス精度を評価するステップ294と、これに続いて、2値分類器の中から最も性能の悪い2値分類器を除外するステップ296と、最も性能の悪い2値分類器を除外した「後」の符号化マトリクスの精度が除外「前」の符号化マトリクスのそれよりも低いか否かを判断し、その結果に応じて分岐するステップ298と、を含む。もしステップ298の結果がNOであれば、制御はステップ294に戻り、そうでなければ制御は次のステップに進む。
The program further includes a
プログラムはさらに、ステップ298での判断がYESであった場合に行われる、繰返しステップ294から298の間に現れた組の中で最も性能のよい2値分類器の組を選択するステップ300と、ステップ300で選択された2値分類器の組に従って符号化マトリクスを再構成するステップ302と、を含む。
The program further includes a
図11は上述の最適化プロセスの結果を例示する。図11を参照して、2値分類器46は横軸の底部に順序付けられ、最も性能の悪い組(全部)が最も左に位置する。横軸上の分類器の名称は、繰返しの間に除外されたものを示す。繰返されたステップ294で評価されたマルチクラス精度を縦軸に示す。
FIG. 11 illustrates the result of the optimization process described above. Referring to FIG. 11,
例えば、全ての2値分類器46を用いると、精度は約56%である。ステップ292で最も悪い性能を示した3_2、2_1、4_1、4_3及び4_2をこの順で除外すると、精度は約56%にとどまる。しかし、5_4を除外すると、精度は62%まで上昇し、さらに分類器を除外しても結果は向上しない。従って、この例では、1対他、543_21、3_1、54_321、5対他、4対他、5_2、5_1、5_3、2対他及び3対他の分類器が最適な分類器の組であると結論づけることができる。図11では、3対他の分類器は分類器の組から除外されていないため、図には表れない。
For example, using all
最適化された2値分類器54の詳細を図12に示す。図12を参照して、2値分類器54は、5、4、3、2、1値対他それぞれの分類器320、322、324、326及び328と、5_3、5_2、5_1、及び3_1対分類器342、344、346及び382と、54_321及び543_21境界分類器400及び402と、を含む。他の分類器340、360、362、364、380及び390は、この例では用いられない。
Details of the optimized
分類器の精度はコーパス40と分解段階42とに依存することに注目されたい。同様に、全体的なマルチクラスの精度もコーパス40と分解段階42とに依存する。従って、コーパス又は分解段階が異なれば、最適化された2値分類器54の構成は図12に示したものとは異なるであろう。
Note that the accuracy of the classifier depends on the
最適化された符号化マトリクス56の構成を図13に示す。図13からわかるように、符号化マトリクス56では、5_4、4_3、4_2、4_1、3_2、及び2_1分類器は除外され、5、4、3、2及び1対他の分類器と、5_3、5_2、5_1、3_1、54_321及び543_21分類器が残っている。列の数が少ないため、2値ベクトル82での計算コストが削減される。
The configuration of the optimized
図14は図1に示す特徴量抽出モジュール76で行われる特徴量抽出のスキームを示す。図14を参照して、ソーステキストと翻訳済テキスト74とが与えられると、自動評価器410はそれぞれ翻訳済テキスト74の品質を評価し、内部指標特徴量のための特徴量抽出部412がそれぞれの特徴量を計算する。特徴量の組78は、自動評価器410の出力それぞれが記憶される、自動スコアのためのフィールド430、432、…434と、特徴量抽出部412のそれぞれの出力が記憶される内部指標特徴量のためのフィールド440、442、…とを含む。この特徴量の組78は、図1に示す2値分類器54に与えられる。
FIG. 14 shows a scheme of feature quantity extraction performed by the feature
動作
この実施の形態のシステム30は以下のように動作する。始めに、2値分類器46が学習モジュール44によってトレーニングされる。マルチクラス分類を2値分類器46に分解するにあたって、符号化マトリクス48もまた準備される。
Operation The
最適化モジュール50が以下のように2値分類器46を最適化する。始めに、開発セット52での2値分類器46の精度が計算され、2値分類器46はそれらの精度に従って順序づけられる。
The
完全な符号化マトリクス(ALL)から始めて、マルチクラス評価が行われ、次の世代では最も性能の悪い分類が除外される。このプロセスを繰返す。図11の破線の四角310は、例示の開発セット評価で利用された符号化マトリクスのために選択された2値分類器のサブセットを示す。このサブセットは図1で2値分類器54として示したもので、アプリケーションユニット32に組入れられている。同時に、最適化モジュール50は最適化された2値分類器54に従って、符号化マトリクス48を最適化する。最適化された符号化マトリクス56はアプリケーションユニット32の比較モジュール84によって用いられる。
Starting with a complete coding matrix (ALL), a multiclass evaluation is performed and the worst performing classification is excluded in the next generation. Repeat this process. The dashed
アプリケーション段階では、ソーステキスト70と、ソーステキスト70の機械翻訳72による翻訳である翻訳済テキスト74とが特徴量抽出モジュール76に与えられる。特徴量抽出モジュール76はソーステキスト70及び翻訳済テキスト74から特徴量の組を計算するか又は抽出して、結果として得られる特徴量の組78を2値分類器54に供給する。
At the application stage, the
2値分類器46の最適化されたバージョンである2値分類器54は2値判断80を出力し、これが2値ベクトル82を形成する。
A
比較モジュール84は符号化マトリクス56の行から成る3値ベクトルの各々と2値ベクトルとを比較し、ハミング距離でどの3値ベクトル(行)が2値ベクトル82に最も近いかを判断する。比較モジュール84は最も近い行に対応するクラス識別子を、評価86として出力する。結果として得られる出力は翻訳済テキスト74の推定された、又は予測された等級を示す。
The
流暢さ及び充分性
この発明の上述の実施の形態は、流暢さ又は充分性といった、人による他の評定にも適用可能である。図15は、流暢さ(図15(A))及び充分性(図15(B))の実験における最適化プロセスの間のシステム性能(マルチクラス精度)の例を示す。
Fluency and Sufficiency The above-described embodiments of the invention are applicable to other human ratings such as fluency or sufficiency. FIG. 15 shows an example of system performance (multi-class accuracy) during the optimization process in experiments with fluency (FIG. 15A) and sufficiency (FIG. 15B).
図15は流暢さ(図15(A))と充分性(図15(B))について例示の開発セット52を用いた2値分類組合せを繰返し評価したもののまとめである。完全な符号化マトリクス(全部)から始めて、次の繰返しでは最も性能の悪い2値分類が除外される。破線の四角450及び452はそれぞれ流暢さと充分性とのテストセットの比較に利用された符号化マトリクスのために選択された、2値分類器サブセットを示す。
FIG. 15 is a summary of repeated evaluations of binary classification combinations using the exemplary development set 52 for fluency (FIG. 15A) and sufficiency (FIG. 15B). Starting with a complete coding matrix (all), the next iteration will eliminate the worst performing binary classification. Dashed
評価
この実施の形態の評価は出願人によりコーパス40として集積された基本旅行表現コーパス(Basic Travel Expression Corpus:BTEC))を用いて行われた。BTECは、外国への旅行者向け慣用句集でよく見られるものと同様の旅行関連の文を含む。合計で3,524個の日本語の入力文が様々な種類のMTシステムで翻訳され、82,406個の英訳文が生成された。54,302個の翻訳文に、受容性についての人によるスコアの注釈が付けられ、36,302個の翻訳文に、充分性/流暢さについての人によるスコアの注釈が付けられた。所与の翻訳に対する人によるスコアの分布を図16にまとめた。単一の翻訳出力に対し多数の人による判断がなされた場合には、この実験では、それぞれの人によるスコアの中央値を用いた。
Evaluation The evaluation of this embodiment was performed using the basic travel expression corpus (Basic Travel Expression Corpus (BTEC)) integrated as the
注釈を付されたコーパスは、3つのデータセットに分割された。(1)充分性/流暢さに関する25,988個の翻訳と受容可能性に関する49,516個のMT出力とから成るトレーニングセット、(2)3つの指標全部に対する、2,024個の文(506個の入力文の各々に対し4個のMT出力)から成る開発セット、(3)IWSLT評価キャンペーン(CSTAR03 データセット、506入力文。「CSTAR」はConsortium for Speech Translation Advanced Research:音声翻訳先端研究コンソーシアム、の略である。)から採られたテストセット、である。流暢さと充分性とについては、7,590個のテスト文と各々に対する15個のMT出力とが利用可能であった。受容可能性については、3,036個の文と各々に対する6個のMT出力とが評価に用いられた。 The annotated corpus was divided into three data sets. (1) Training set consisting of 25,988 translations for sufficiency / fluency and 49,516 MT outputs for acceptability, (2) 2,024 sentences (506 for all three indicators) (3) IWSLT evaluation campaign (CSTAR03 data set, 506 input sentence. “CSTAR” is Consortium for Speech Translation Research: Speech Translation Advanced Research Consortium) Is a test set taken from. For fluency and sufficiency, 7,590 test sentences and 15 MT outputs for each were available. For acceptability, 3,036 sentences and 6 MT outputs for each were used in the evaluation.
−符号化マトリクスの最適化
符号化マトリクスは、まず分解段階で作成され、その後、2値分類器の最適化を反映して最適化モジュール50によって最適化される。
-Optimization of the encoding matrix The encoding matrix is first created in the decomposition stage and then optimized by the
−分類精度
マルチクラス分類タスクのベースラインは、トレーニング用データセットで最も頻繁に起こるクラスとして定義される。テーブル4は、3個の主観的評価指標全てについてのベースライン性能をまとめたものである。
Classification accuracy The baseline of a multi-class classification task is defined as the most frequently occurring class in the training data set. Table 4 summarizes the baseline performance for all three subjective metrics.
この実施の形態の分類精度は流暢さに関して55.2%、充分性に関して62.6%、受容可能性に関して62.3%であった。従って、この実施の形態は、全ての主観的評価指標について、ベースライン及びマルチクラス分類クラスよりも良好な性能を発揮し、ベースライン/マルチクラス性能と比較して流暢さについて22.7%/6.0%、充分性について31.5%/6.6%、受容可能性について19.3%/1.2%の利得を達成した。 The classification accuracy of this embodiment was 55.2% for fluency, 62.6% for sufficiency, and 62.3% for acceptability. Thus, this embodiment provides better performance than baseline and multi-class classification classes for all subjective metrics and 22.7% / fluency compared to baseline / multi-class performance. Gains of 6.0%, 31.5% / 6.6% for sufficiency and 19.3% / 1.2% for acceptability were achieved.
さらに、2値分類器の性能は、分類タスク及び評価指標に依存して大きく変化する。全部対1の分類器では80%から90%の精度が達成されるが、境界分類器では75%から81%であり、全ペア分類器では55%から91%であった。 Furthermore, the performance of the binary classifier varies greatly depending on the classification task and the evaluation index. An accuracy of 80% to 90% is achieved for the all-to-one classifier, but 75% to 81% for the boundary classifier and 55% to 91% for the all-pair classifier.
−人による評定との相関
この実施の形態に従った指標の、文レベルでの人の判断に対する相関を調べるため、得られた結果についてスペアマン(Spearman)ランク相関係数を計算した。加えて、テーブル2に列挙した自動評価指標とマルチクラス分類器とを用いて、テスト文をランク付けし、人による評定に対するそのスペアマンランク相関を計算した。その相関係数を図18に要約する。
-Correlation with rating by person In order to examine the correlation of the index according to this embodiment to the judgment of the person at the sentence level, the Spearman rank correlation coefficient was calculated for the obtained results. In addition, the test sentences were ranked using the automatic evaluation index and the multi-class classifier listed in Table 2, and their Spareman rank correlation with respect to human ratings was calculated. The correlation coefficients are summarized in FIG.
結果から、この実施の形態は他の全ての指標より高い性能を発揮したことが示され、流暢さ/充分性/受容可能性についての相関係数はそれぞれ0.632/0.759/0.769であった。 The results show that this embodiment performed better than all other indicators, and the correlation coefficients for fluency / sufficiency / acceptability were 0.632 / 0.759 / 0. 769.
コンピュータによる実現
上述の実施の形態は、コンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図19はこの実施の形態で用いられるコンピュータシステム650の外観を示し、図20はコンピュータシステム650のブロック。ここで示すコンピュータシステム650は単なる例示であって、さまざまな他の構成が利用可能である。
Realization by Computer The above-described embodiment can be realized by a computer system and a computer program executed on the system. FIG. 19 shows an appearance of a
図19を参照して、コンピュータシステム650は、コンピュータ660と、いずれもコンピュータ660に接続された、モニター662と、キーボード666と、マウス668と、スピーカー692と、マイクロフォン690とを含む。さらに、コンピュータ660は、DVD(Digital Versatile Disc)ドライブ670及び半導体メモリポート672を含む。
Referring to FIG. 19, a
図20を参照して、コンピュータ660はさらに、DVD670及び半導体メモリポート672に接続されたバス686と、上述した装置を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)676と、コンピュータ660のブートアッププログラムを記憶するROM(Read−Only Memory)678と、CPU676によって使用される作業領域及びCPU676によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)680と、コーパス40(図1を参照)、ソーステキスト70、翻訳済テキスト74、ソーステキスト70を翻訳するための機械翻訳プログラム、特徴量抽出モジュール76で用いられる他の機械翻訳プログラム、機械翻訳で必要とされる全てのデータ、2値分類器54及び符号化マトリクス56を記憶するハードディスクドライブ(Hard Disk Drive:HDD)674と、を含む。これらの要素は全てバス686を介してCPU676に接続される。
Referring to FIG. 20, a
コンピュータ660が分類器準備ユニット34として用いられる場合、HDD674はさらに、学習モジュール44及び最適化モジュール50と、2値分類器46及び54と、符号化マトリクス48及び56と、2値分類器及び符号化マトリクスの最適化に用いられる開発セット52と、のためのプログラムを記憶する。
When
コンピュータ660はさらに、コンピュータ660のネットワーク652への接続を提供するための、バス686に接続されたネットワークインターフェース(I/F)696を含む。
上述の実施の形態のシステムを実現するソフトウェアはDVD682又は半導体メモリ684等の記憶媒体に記憶されたオブジェクトコードの形で流通し、DVDドライブ670又は半導体メモリポート672等の読出装置を介してコンピュータ660に提供され、HDD674に記憶される。CPU676がプログラムを実行する際には、プログラムはHDD674から読出されてRAM680に記憶される。CPU676の図示しないプログラムカウンタによって指定されたアドレスからCPU676へ命令がフェッチされ、その命令が実行される。CPU676はCPU676内のレジスタ、RAM680、又はHDD674から処理すべきデータを読出し、処理の結果をCPU676内のレジスタ、RAM680、又はHDD674に記憶する。
Software that implements the system of the above-described embodiment is distributed in the form of an object code stored in a storage medium such as the
コンピュータシステム650の一般的動作は周知であるので、ここでは詳細な説明は行なわない。
The general operation of
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワーク652に接続された別のコンピュータからコンピュータ660に送信されてもよい。ソフトウェアの一部がHDD674に記憶され、ソフトウェアの残りの部分をネットワークを介してHDD674に取込み、実行の際に統合する様にしてもよい。
Regarding the software distribution method, the software does not necessarily have to be fixed on a storage medium. For example, the software may be transmitted to
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様でこれら機能を実行する。従って、OS又は第3者から提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。 Typically, modern computers utilize common functions provided by a computer operating system (OS) and perform these functions in a controlled manner according to the desired purpose. Therefore, even if the program does not include a general function that can be provided by the OS or a third party and specifies only a combination of execution order of the general function, the program achieves a desired purpose as a whole. As long as it has a structure, it is clear that the program is included in the scope of the present invention.
可能な変形例
上述の実施の形態は日本語から英語への翻訳品質に関するものであったが、この発明はこれに限定されるものではない。コーパス40として使用できるコーパスが入手できるかぎり、この発明はどのような言語の組合せにも適用可能である。
Possible Modifications The embodiment described above relates to the translation quality from Japanese to English, but the present invention is not limited to this. As long as a corpus that can be used as the
上述の実施の形態では、最初に全ての分類器を使用し、最悪の性能の分類器を除いていくことによって、最適化モジュール50が2値分類器46を2値分類器54へと最適化する。この発明はこのような最適化スキームに限定されるものではない。最適化の結果得られる分類器54が、他の分類器の組合せよりも良好な性能を発揮するのであれば、どのような最適化スキームを用いてもよい。例えば、2値分類器の可能な組合せ全てを調査し、最高の性能が得られる組合せを2値分類器の最適化された組として選択してもよい。これに代えて、開発セット52での2値分類器46の性能を最初に計算し、所定のしきい値より高い精度の2値分類器のみを最適化された2値分類器54として用いてもよい。
In the embodiment described above, the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 翻訳品質予測システム
32 アプリケーションユニット
34 分類器準備ユニット
40 コーパス
44 学習モジュール
46、54 2値分類器
48、50 符号化マトリクス
50 最適化モジュール
52 開発セット
70 ソーステキスト
74 翻訳済テキスト
76 特徴量抽出モジュール
78 特徴量の組
80 2値決定値
82 2値ベクトル
84 比較モジュール
30 translation
Claims (7)
所与の翻訳の予め定められた特徴量の組を計算するための手段と、
各々が、前記特徴量の組の中で選択された特徴量に従って、前記所与の翻訳を予め規定された2値クラスの一方に分類するための、1組の2値分類器と、
前記等級の各々が前記2値分類器の組の分類結果の行と関連付けられる、符号化マトリクスを記憶するための手段と、
前記2値分類器による2値分類の結果と前記符号化マトリクスとに従って、前記所与の翻訳の等級を決定するための手段と、を含む、装置。 A device for estimating a machine translation quality rating by a person, the rating being given by a pre-defined grade;
Means for calculating a predetermined set of features for a given translation;
A set of binary classifiers, each for classifying the given translation into one of the predefined binary classes according to a feature selected in the set of features;
Means for storing an encoding matrix, wherein each of the classes is associated with a row of classification results of the set of binary classifiers;
Means for determining a grade of the given translation according to the result of binary classification by the binary classifier and the encoding matrix.
前記符号化マトリクスの行はそれぞれ3値ベクトルを規定し、その各々は前記第1の値、前記第2の値、又は前記第1及び第2の値とは異なる第3の値であり、
前記第1及び第2の値は前記所与の翻訳が前記2値分類器の組の対応するものによってそれぞれ第1及び第2のクラスに分類されるべきことを示し、
前記第3の値は、前記所与の翻訳が前記2値分類器の組の対応するものによって分類されないことを示し、
前記決定するための手段は、
前記2値ベクトルと前記行の各々との距離を計算するための手段と、
前記距離において2値ベクトルと最も近い前記符号化マトリクスの行を見出すための手段と、
2値ベクトルと最も近い行に対応する等級を、前記所与の翻訳の品質に対する推定される人による評定として選択するための手段と、を含む、請求項1に記載の装置。 The output of the set of binary classifiers defines a binary vector, each of its elements being a first value or a second value different from the first value;
Each row of the encoding matrix defines a ternary vector, each of which is the first value, the second value, or a third value different from the first and second values;
The first and second values indicate that the given translation should be classified into first and second classes, respectively, by the corresponding one of the set of binary classifiers;
The third value indicates that the given translation is not classified by the corresponding one of the set of binary classifiers;
The means for determining is
Means for calculating a distance between the binary vector and each of the rows;
Means for finding a row of the encoding matrix closest to a binary vector at the distance;
Means for selecting a grade corresponding to a row closest to a binary vector as an estimated human rating for the quality of the given translation.
所与の翻訳の予め定められた特徴量の組を計算するステップと、
前記特徴量の組の中で選択された特徴量に従って、1組の2値分類器の各々によって前記所与の翻訳を予め規定された2値クラスの一方に分類するステップと、
前記等級の各々が前記分類するステップで行われる前記分類結果の行と関連付けられる符号化マトリクスを、記憶部に記憶するステップと、
前記分類するステップの2値分類結果の組と前記符号化マトリクスとに従って、前記所与の翻訳の等級を決定するステップと、を含む、方法。 A computerized method for estimating a human rating of machine translation quality, wherein the human rating is given by a predefined grade, the method comprising:
Calculating a predetermined set of features for a given translation;
Classifying the given translation into one of a predefined binary class by each of a set of binary classifiers according to a feature selected in the set of features;
Storing in the storage unit an encoding matrix associated with each classification result row performed in the classifying step of each of the classes;
Determining the grade of the given translation according to the set of binary classification results of the classifying step and the encoding matrix.
所与の翻訳の予め定められた特徴量の組を計算するための手段と、
各々が、前記特徴量の組の中で選択された特徴量に従って、前記所与の翻訳を予め規定された2値クラスの一方に分類するための、1組の2値分類器と、
前記等級の各々が前記2値分類器の組の分類結果の行と関連付けられる、符号化マトリクスを記憶するための手段と、
前記2値分類器による2値分類の結果と前記符号化マトリクスとに従って、前記所与の翻訳の等級を決定するための手段と、として機能させる、コンピュータプログラム。 When executed on a computer, the computer is
Means for calculating a predetermined set of features for a given translation;
A set of binary classifiers, each for classifying the given translation into one of the predefined binary classes according to a feature selected in the set of features;
Means for storing an encoding matrix, wherein each of the classes is associated with a row of classification results of the set of binary classifiers;
A computer program that functions as means for determining a grade of the given translation according to a result of binary classification by the binary classifier and the encoding matrix.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007225037A JP2009059123A (en) | 2007-08-31 | 2007-08-31 | Unit and method for predicting human assessment of translation quality |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007225037A JP2009059123A (en) | 2007-08-31 | 2007-08-31 | Unit and method for predicting human assessment of translation quality |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009059123A true JP2009059123A (en) | 2009-03-19 |
Family
ID=40554805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007225037A Pending JP2009059123A (en) | 2007-08-31 | 2007-08-31 | Unit and method for predicting human assessment of translation quality |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009059123A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079107A (en) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Translation quality automatic evaluation device and its method, and word order optimization machine translation learning device and program |
JP2014241069A (en) * | 2013-06-12 | 2014-12-25 | ヤフー株式会社 | Translation quality model generation device, translation quality value calculation device, translation quality model generation method, translation quality value calculation method, translation quality model generation program and translation quality value calculation program |
CN110769777A (en) * | 2017-06-16 | 2020-02-07 | 阿莱恩技术有限公司 | Automatic detection of tooth type and eruption status |
CN113609875A (en) * | 2021-08-06 | 2021-11-05 | 科大讯飞股份有限公司 | Translation quality evaluation method and device, electronic equipment and storage medium |
-
2007
- 2007-08-31 JP JP2007225037A patent/JP2009059123A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079107A (en) * | 2010-10-01 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Translation quality automatic evaluation device and its method, and word order optimization machine translation learning device and program |
JP2014241069A (en) * | 2013-06-12 | 2014-12-25 | ヤフー株式会社 | Translation quality model generation device, translation quality value calculation device, translation quality model generation method, translation quality value calculation method, translation quality model generation program and translation quality value calculation program |
CN110769777A (en) * | 2017-06-16 | 2020-02-07 | 阿莱恩技术有限公司 | Automatic detection of tooth type and eruption status |
CN113609875A (en) * | 2021-08-06 | 2021-11-05 | 科大讯飞股份有限公司 | Translation quality evaluation method and device, electronic equipment and storage medium |
CN113609875B (en) * | 2021-08-06 | 2024-02-20 | 中国科学技术大学 | Translation quality evaluation method, device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907672B2 (en) | Machine-learning natural language processing classifier for content classification | |
US20120262461A1 (en) | System and Method for the Normalization of Text | |
JP6832501B2 (en) | Meaning generation method, meaning generation device and program | |
Krasnowska-Kieraś et al. | Empirical linguistic study of sentence embeddings | |
Orašan | Aggressive language identification using word embeddings and sentiment features | |
US11157707B2 (en) | Natural language response improvement in machine assisted agents | |
CN111401084A (en) | Method and device for machine translation and computer readable storage medium | |
CN111753082A (en) | Text classification method and device based on comment data, equipment and medium | |
WO2014073206A1 (en) | Information-processing device and information-processing method | |
KR20230061001A (en) | Apparatus and method for correcting text | |
WO2021001517A1 (en) | Question answering systems | |
JP2009059123A (en) | Unit and method for predicting human assessment of translation quality | |
Blanco et al. | Exploiting ICD Hierarchy for Classification of EHRs in Spanish through multi-task Transformers | |
JP5565827B2 (en) | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. | |
CN112200674B (en) | Stock market emotion index intelligent calculation information system | |
Zhang et al. | A textcnn based approach for multi-label text classification of power fault data | |
JP4054046B2 (en) | Opinion determination database creation method and apparatus and program, opinion determination method and apparatus and program, and computer-readable recording medium | |
JP5500636B2 (en) | Phrase table generator and computer program therefor | |
JP2011028638A (en) | Summary sentence creation apparatus, summary sentence creation method and program | |
CN114548117A (en) | Cause-and-effect relation extraction method based on BERT semantic enhancement | |
KR102215259B1 (en) | Method of analyzing relationships of words or documents by subject and device implementing the same | |
Paul et al. | Reducing human assessment of machine translation quality to binary classifiers | |
JP2013089116A (en) | Optimal translation sentence selection device, translation sentence selection model learning device, method, and program | |
Soisalon-Soininen et al. | Cross-family similarity learning for cognate identification in low-resource languages | |
JP2015210342A (en) | Utterance generation method learning device, utterance generation method selection device, utterance generation method leaning method, utterance generation method selection method, and program |