JP7122341B2

JP7122341B2 - 翻訳品質を評価するための方法と装置

Info

Publication number: JP7122341B2
Application number: JP2020098690A
Authority: JP
Inventors: ション・ハオ; ヂャン・ルイチン; リ・ジュンジエ; ホ・ヂョンジュン; リ・ヂ; ウー・フア; ワン・ハイフェン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-12-05
Filing date: 2020-06-05
Publication date: 2022-08-19
Anticipated expiration: 2040-06-05
Also published as: JP2021089705A; US20210174033A1; CN111027331A; KR20210070891A; US11481562B2; EP3832519A1; CN111027331B; KR102401942B1

Description

本開示の実施例は、コンピュータ技術分野に関し、具体的に翻訳品質を評価するための方法と装置に関する。

従来の、翻訳品質を自動的に評価する方法は、一般的にＢＬＥＵ（ｂｉｌｉｎｇｕａｌｅｖａｌｕａｔｉｏｎｕｎｄｅｒｓｔｕｄｙ、対訳品質補助ツール）、ＭＥＴＥＯＲ（ＡｎＡｕｔｏｍａｔｉｃＭｅｔｒｉｃｆｏｒＭＴＥｖａｌｕａｔｉｏｎｗｉｔｈＩｍｐｒｏｖｅｄＣｏｒｒｅｌａｔｉｏｎｗｉｔｈＨｕｍａｎＪｕｄｇｍｅｎｔｓ、人工裁断との関連度を改善した、機械翻訳を自動的に評価する方法）等の指標を使用して訳文を評価するので、原テキストと目標参照訳文との間のマッチングの度合いを重点として考察し、例えば、ＢＬＥＵは連続文字列、即ちｎ－ｇｒａｍのマッチング度合いを重点として考察する。ＭＥＴＥＯＲ等の指標は、ＢＬＥＵに基づいて補足を行い、テキストが同じである文字列をマッチングできるだけではなく、また別のリソースを導入することで、テキストが異なるが語義表現が同じである文字列を識別できる。

しかし、通訳のシナリオにおいて、翻訳の目的は話者の内容にぴったりするように通訳することではない。場合によっては、遅延の低減及び地元文化の適応のため、訳者は一般的には、話者がしゃべった内容の一部を削減し、情報量が少ない訳文を削減し、リスナへキー情報をできるだけ、リアルタイムに伝える。この状況で、従来の自動評価方法を使用する場合、通訳訳文において漏れ翻訳の情報が多すぎ、得点が低い、評価結果が正確ではない状況を招く。例えば、従来の方法により評価する場合、数年間の経験を積んだ通訳者の翻訳の完成度はわずかの７０％ぐらいであり、翻訳した訳文の受容度は８５％より低い。

従来の、翻訳品質を評価する方法による人件費が高く、それに人工評価は、異なる人工評価者の翻訳水準に制限され、評価の結果の変動が大きい。通訳シナリオについて参照訳文の単独構築を行う必要があり、それに、従来の方法も訳文の中のキー情報を判別できなく、完全に忠実度により訳文品質を評価することができない。

本開示の実施例は翻訳品質を評価するための方法と装置を提出する。
第１の方面において、本開示の実施例は、翻訳品質を評価するための方法を提供し、当該方法は、評価対象となる訳文と参照訳文とを取得するステップと、前記評価対象となる訳文と前記参照訳文を事前訓練された復唱コーディングモデルに入力し、前記評価対象となる訳文と前記参照訳文との語義類似度を取得するステップであって、前記復唱コーディングモデルは、一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークである、ステップと、前記評価対象となる訳文と前記参照訳文をそれぞれ２本の構文ツリーとして分析するステップと、前記２本の構文ツリーの類似度を算出して、前記評価対象となる訳文と前記参照訳文のテキスト類似度とするステップと、前記語義類似度と前記テキスト類似度との重み付けの和を翻訳品質の得点とするステップと、を含む。

いくつかの実施例において、当該方法は、評価対象となる訳文を事前訓練された自動問答モデル入力し、少なくとも１セットの質問と解答を取得するステップであって、前記自動問答モデルはテキスト中の問答と解答を抽出するためのニューラルネットワークである、ステップと、前記少なくとも１セットの質問と解答における正解の割合を確定し、問答の得点とするステップと、前記自動問答モデルにより標準訳文に対して解答結果分析を行って取得した標準得点を取得するステップと、前記標準得点によって前記問答の得点を補正して、前記評価対象となる訳文の分かりやすさの得点を取得するステップと、前記語義類似度、前記テキスト類似度及び前記分かりやすさの得点の重み付けの和を翻訳品質の得点とするステップと、をさらに含む。

いくつかの実施例において、当該方法は、評価対象となる訳文からキー情報を識別するステップと、識別されたキー情報と人工マークによるキー情報とを比較し、キー情報の正確率及びリコール率の総合得点を算出するステップと、前記総合得点によって前記翻訳品質の得点を補正するステップと、をさらに含む。

いくつかの実施例において、標準得点によって前記問答の得点を補正するステップは、事前設定された定数を設置して前記標準得点と前記問答の得点の間の差をスムーズにするステップと、
を含む。

いくつかの実施例において、復唱コーディングモデルは、言語が前記評価対象となる訳文と同じである第１の言語の原文集合を取得するステップと、前記第１の言語の原文集合中の各第１の言語の原文に対して、第１の翻訳モデルにより当該第１の言語の原文を第２の言語の訳文に翻訳し、第２の翻訳モデルにより前記第２の言語の訳文を第１の言語の復唱センテンスに翻訳し、当該第１の言語の原文と復唱センテンスを復唱センテンスのペアとして組み合わせ、一つのセンテンスをランダムに選出して当該第１の言語の原文と非復唱センテンスのペアとして組み合わせるステップと、復唱センテンスのペアの集合をプラスサンプルとして、非復唱センテンスのペアをマイナスサンプルとして、機械学習方法を利用してクラシファイアを訓練して復唱コーディングモデルを取得するステップと、により訓練される。

いくつかの実施例において、当該方法は、第１の翻訳モデルと前記第２の翻訳モデルの単語テーブルの大きさを制御し、多様化の復唱センテンスのペアを生成するステップをさらに含む。

いくつかの実施例において、復唱コーディングモデルの訓練サンプル集合は、第１の翻訳モデルの訓練サンプル集合と異なり、第２の翻訳モデルの訓練サンプル集合とも異なる。

いくつかの実施例において、評価対象となる訳文が事前設定された主流の言語である場合、ＢＥＲＴモデルを使用して復唱コーディングモデルとする。

第２の方面において、本開示の実施例は、翻訳品質を評価するための装置を提供し、当該装置は、評価対象となる訳文と参照訳文とを取得するように構成される取得手段と、前記評価対象となる訳文と前記参照訳文を事前訓練された復唱コーディングモデルに入力し、前記評価対象となる訳文と前記参照訳文との語義類似度を取得するように構成される語義評価手段であって、前記復唱コーディングモデルは、一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークである、語義評価手段と、前記評価対象となる訳文と前記参照訳文をそれぞれ２本の構文ツリーとして分析するように構成される構文分析手段と、前記２本の構文ツリーの類似度を算出して、前記評価対象となる訳文と前記参照訳文のテキスト類似度とするように構成される構文評価手段と、前記語義類似度と前記テキスト類似度との重み付けの和を翻訳品質の得点とするように構成される算出手段と、を備える。

いくつかの実施例において、当該装置は、分かりやすさ評価手段をさらに備え、当該分かりやすさ評価手段は、前記評価対象となる訳文を事前訓練された自動問答モデル入力し、少なくとも１セットの質問と解答を取得することであり、前記自動問答モデルはテキストにおける問答と解答を抽出するためのニューラルネットワークである、ことと、前記少なくとも１セットの質問と解答における正解の割合を確定し、問答の得点とすることと、前記自動問答モデルにより標準訳文に対して解答結果分析を行って取得した標準得点を取得することと、前記標準得点によって前記問答の得点を補正して、前記評価対象となる訳文の分かりやすさの得点を取得することと、前記語義類似度、前記テキスト類似度及び前記分かりやすさの得点の重み付けの和を翻訳品質の得点とすることと、を行うように構成される。

いくつかの実施例において、当装置は、キー情報評価手段をさらに備え、当該キー情報評価手段は、前記評価対象となる訳文からキー情報を識別することと、識別されたキー情報と人工マークによるキー情報とを比較し、キー情報の正確率及びリコール率の総合得点を算出することと、前記総合得点によって前記翻訳品質の得点を補正することと、を行うように構成される。

いくつかの実施例において、分かりやすさ評価手段は、事前設定された定数を設置して前記標準得点と前記問答の得点の間の差をスムーズにするようにさらに構成される。

いくつかの実施例において、当該装置は、訓練手段をさらに備え、当該訓練手段は、言語が前記評価対象となる訳文と同じである第１の言語の原文集合を取得することと、前記第１の言語の原文集合中の各第１の言語の原文に対して、第１の翻訳モデルにより当該第１の言語の原文を第２の言語の訳文に翻訳し、第２の翻訳モデルにより前記第２の言語の訳文を第１の言語の復唱センテンスに翻訳し、当該第１の言語の原文と復唱センテンスを復唱センテンスのペアとして組み合わせ、一つのセンテンスをランダムに選出して当該第１の言語の原文と非復唱センテンスのペアとして組み合わせることと、復唱センテンスのペアの集合をプラスサンプルとして、非復唱センテンスのペアをマイナスサンプルとして、機械学習方法を利用してクラシファイアを訓練して復唱コーディングモデルを取得することと、を行うように構成される。

いくつかの実施例において、訓練手段は、第１の翻訳モデルと前記第２の翻訳モデルの単語テーブル大きさを制御し、多様化の復唱センテンスのペアを生成するようにさらに構成される。

第３の方面において、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、１つまたが複数のプログラムが１つまたは複数のプロセッサによって実行される場合、１つまたは複数のプロセッサに第１の方面のいずれか１項に記載の方法を実現させる電子機器を提供する。

第４の方面において、コンピュータプログラムが記憶されているコンピュータ可読媒体であって、プログラムがプロセッサによって実行される時、第１の方面のいずれか１項に記載の方法を実現するコンピュータ可読媒体を提供する。

本開示の実施例により提供された翻訳品質を評価するための方法と装置は、複数の新しい評価指標を提出した。

（１）復唱ペア訳文を使用して語義類似度を評価する。
（２）文法ツリーを使用して訳文に対して文法構成類似度を評価する。

（３）自動問答を使用して訳文に対して情報の分かりやすさを評価する。
（４）キーポイントを使用し、例えば、名前付きエンティティ、重点実単語の翻訳正確率を使用して評価する。

上記のいくつかの指標の得点を組み合わせることにより、現在の訳文の語義、構文、単語の構成法及び整体情報の分かりやすさに関する方面を反映し、総合評価を行い、自動評価の得点が高いが分かりさすさが低い場合を回避することができる。例えば、大量のａ、ａｎ、ｔｈｅ等の機能語の翻訳が正確であるが、非機能語の翻訳が間違うこと、コンテキストが不連続であること等の問題を回避する。

本開示の一実施形態を適用可能なシステム構成例である。本発明に係る翻訳品質を評価する方法の第１実施形態を示すフローチャートである。本発明に係る翻訳品質を評価する方法の第２実施形態を示すフローチャートである。本発明に係る翻訳品質を評価する方法の第３実施形態を示すフローチャートである。本発明に係る翻訳品質を評価する方法の第４実施形態を示すフローチャートである。本発明に係る翻訳品質評価装置の一実施形態を示す概略構成図である。本開示の一実施形態に係る電子機器を実現するコンピュータシステムの構成を示す図である。

以下は図面及び実施例を参照して本出願についてさらに詳細に説明する。ここに記載される具体的な実施形態は、本出願を限定するものではなく、関連する発明を説明するためのものに過ぎないことを理解されたい。また、説明の便宜上、発明に関連する部分のみが図面に示されている。

なお、衝突しない場合に本出願における実施例及び実施例における特徴は互いに組み合わせることができる。以下では図面と実施例を参照して本出願について詳細に説明する。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、サーバ１０５を備えることができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ装置１０５との間で通信リンクを提供するための媒体である。ネットワーク１０４には、有線や無線の通信リンク、光ファイバケーブル等の各種の接続方式がある。

ユーザは、端末機器１０１、１０２、１０３を用いて、ネットワーク１０４を介してサーバ１０５との情報のやり取りを行い、メッセージ等を送受信することができる。端末機器１０１、１０２、１０３には様々な通信クライアントアプリケーションがインストールされ、例えば翻訳アプリケーション、音声認識アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、リアルタイム通信ツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされる。

端末機器１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末機器１０１、１０２、１０３がハードウェアである場合、ディスプレイを有し、ウェブページを閲覧することができる各種の電子機器であればよく、例えば、スマートフォン、タブレット、電子書籍リーダ、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ）プレーヤー、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ノートパソコン及びデスクトップパソコンなどが含まれているが特に限定されない。端末機器１０１、１０２、１０３がソフトウェアである場合、上述した電子機器にインストールされることができる。それは複数のソフトウェア又はソフトウェアモジュールとして実現されることができ（例えば分散サービスを提供するために用いられる）、また単一のソフトウェア又はソフトウェアモジュールとして実現されることもできる。ここでは特に限定されない。

サーバ１０５は各種のサービスを提供するサーバであってよく、例えば端末機器１０１、１０２、１０３によりアップロードされる訳文について翻訳品質を評価するバックグラウンド評価サーバ。バックグラウンド評価サーバは受信した評価リクエスト等のデータに対して分析等の処理を行い、処理の結果（例えば翻訳品質分数）を端末機器にフィードバックする。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバで構成される分散サーバクラスタとして実現されてよいし、単一のサーバとして実現されてもよい。サーバ１０５はソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば分散サービスを提供するために用いられる）として実現されてよいし、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定されない。

なお、本出願の実施例により提供される翻訳品質を評価するための方法は端末機器１０１、１０２、１０３で実行してもよく、サーバ１０５で実行してもよい。したがって、翻訳品質を評価するための装置は端末機器１０１、１０２、１０３に設置してよいし、サーバ装置１０５に設置してもよい。ここでは特に限定されない。

なお、図１における端末機器、ネットワーク及びサーバの数は例示のみである。また、実現の必要に応じて、任意の数の端末機器、ネットワーク、サーバ等を備えてもよい。

続いて図２を参照し、本開示に係る、翻訳品質を評価するための方法の一実施例の流れ２００を示す。当該翻訳品質を評価するための方法は以下のステップを備える。

ステップ２０１において、評価対象となる訳文と参照訳文を取得する。
本実施例において、翻訳品質を評価するための方法の実行主体（例えば、図１に示すサーバ）は、有線接続方式または無線接続方式により端末から評価対象となる訳文と参照訳文を受信でき、該端末はユーザにより利用されて翻訳品質評価を行うものである。評価対象となる訳文は音声の形態即ち通訳結果であってよく、テキストの形態であってもよい。通訳の訳文の場合、音声識別技術によりテキスト形態の訳文に転換する必要がある。参照訳文は専門家により翻訳と校正を行った標準訳文であり、テキスト形態である。評価対象となる訳文は段落全体である場合、センテンスに分割して評価すればよい。そして、各センテンスの評価得点の平均値を段落全体の評価得点とする。音声識別の場合、一時停止の時間により段落全体をセンテンスに分割することができる。

ステップ２０２において、評価対象となる訳文及び参照訳文を事前訓練された復唱コーディングモデルに入力し、評価対象となる訳文及び参照訳文の意味類似度を取得する。

本実施例において、復唱コーディングモデルは、一対のセンテンスが復唱センテンスである確率（即ち、２つのセンテンスの語義類似度）を算出するためのニューラルネットワークである。復唱コーディングモデルは、簡単なＤｉｃｈｏｔｏｍｙｔｙｐｅモデルであってよく、入力された２つのセンテンスが同一種類である確率を判断するためのものであり、同じ語義を有するか否かを判断するものと同じである。もし評価対象となる訳文が段落全体であれば、センテンスを１ずつ復唱コーディングモデルに入力し、各センテンスの語義類似度を取得する。その後、各センテンスの語義類似度の平均値を算出し、段落全体の語義類似度とする。

まず、復唱コーディングモデルを構築する必要があり、英語の復唱コーディングモデルの構築を例として説明する。今、主流の方法は訓練済みの機械翻訳モデルを利用して訓練センテンスのペアを再びデコードする。例えば、訓練済みの中英翻訳モデルを利用して訓練センテンスのペア中の中国語に対して自動翻訳を行い、取得された訳文及び原文としての英語により復唱センテンスのペアが構築されることができる。しかし、該方法は、生成した訳文が原文の英語とよく類似する可能性があるという欠陥がある。２つの方法を使用して改善を行う。ａ方法について、まず、英語モデルを用いて訓練センテンスのペアの中の英語を中国語に翻訳し、その後、中英翻訳モデルを利用して英語に翻訳する。同時に、上記過程において、翻訳モデルにより使用される単語表の大きさを制御することにより、生成された訳語が単語表の内容のみで表現されるように限定されることができ、ある程度で多様な訳語を生成することができる。ｂ方法について、翻訳モデルを構築する時に、異なるコーパスによって訓練を行う。例えば、しゃべりの復唱センテンスのペアを構築する時、本発明の翻訳モデルは他の一つの訓練集合のダブルセンテンスのペアを使用し、同一の訓練集合の過度なフィッティングを回避する。上記の２つの方法は、同時に使用することができ、生成された訳文と参照訳文ができるだけ類似する上に表現が異なることを果たす。上記復唱センテンスのペアを取得した後、例えば復唱した１つの一対のセンテンスはＡであり、他の１つのセンテンスはＢである。復唱されたセンテンスは中国語、英語などのいくつかの主流言語であれば、ＢＥＲＴ（ＢｉｄｉｉｎｅｒＥｎｃｏｄｅｒＴｒａｎｓｆｅｒｍｅｔａｌＴｒａｎｓｆｅｒｍｅｔａｌＴｒａｎｓｆｅｒＰｒｏｆｉｌｅｓｙｓｔｅｍ）を使用して該訓練集合に基づいて微調整を行い、最後はＢＥＲＴの出力層を使用して意味表現とする。いくつかの珍しい少数言語について、ＢＥＲＴの事前訓練モデルの構築コストが高く、簡単な分類モデルを設計してタスクを完成することができる。

復唱センテンスのペアに含まれるのが全てプラスサンプルであるため、１つのセンテンスについて、ランダムに他のセンテンスを選出してマイナスサンプルとして訓練する。訓練済みのモデルを利用して通訳の出力結果と参照訳文をそれぞれＡとＢとして入力し、ｓｏｆｔｍａｘ分類が１である確率を最後の語義類似度の得点として出力する。

ステップ２０３において、評価対象となる訳文と参照訳文をそれぞれ２本の構文ツリーとして分析する。

本実施例において、段落全体訳文をセンテンスに分割した後、構文の分析を行う。そして、各センテンスに対して分析と計算を行った後で取得した類似度を平均化して段落全体訳文のテキスト類似度とする。構文分析器を使用して入力された訳文を一本の構文ツリーとして分析する。構文ツリーは文法ツリーとも呼ばれる。構文ツリーを評価する方法はより簡単であり、モデルの出力訳文と参照訳文のそれぞれに対して構文分析モデルを利用して自動構文ツリーの生成を行う。２本の構文ツリーを取得した後、テキストの方式でこの２本の構文ツリーの類似度を算出することができる。また、単語を含むノードを削除し、ｔｒｅｅｋｅｒｎｅｌ（ツリーコア、ツリーから文字列への翻訳モデル）を利用してより微細化の得点を算出することもできる。例えば、２本の構文ツリー：
ＮＰ（ＮＮ（明さん）（小明））（ＶＰＶＢ（食べる）（吃）ＮＮリンゴ（苹果））
ＮＰ（ＮＮ（リンゴ）（苹果））（ＶＰＰＰ（によって）（被）ＮＮ（明さん）（小明）ＶＢ（食べる）（吃了））
上記２つのセンテンスは実際に表現した語義が類似であるが、構文ツリーの構成は少し異なり、２つの異なる文法表現を反映し、前者は能動態であり、後者は受動態である。一般的なテキスト方式を利用してマッチングする場合、両者の構文の類似度が低い。ｔｒｅｅｋｅｒｎｅｌを利用した後、単語ノードを削除し、各センテンスのサブツリーを列挙し、その後、類似度の採点を行う。例えば最上層の文法ツリー及び２つのセンテンスの構成は同じＮＰ（ＮＮＶＰ）である。

異なるのは第１のＶＰの構成がＶＰ（ＶＢＮＮ）であり、第２のＶＰの構成がＶＰ（ＰＰＮＮＶＢ）である。

従って、ｔｒｅｅｋｅｒｎｅｌにより計算すれば、２本の構文ツリーの類似度０ではなく、算出する場合はより微細化になる。

１つのルールを１つの特徴ベクトルに示し、畳み込みツリーコアにより異なるルールの間の類似度を算出する。ルールテーブルにおいてルールの数は巨大であるため、全てのルールの間の類似度を算出することは難しいので、まず、いくつかの制限により１つの候補ルール集合を生成し、その後、集合内部において畳み込みツリーコアにより類似度を算出する。

ステップ２０４において、２本の構文ツリーの類似度を算出して評価対象となる訳文と参照訳文とのテキスト類似度とする。

本実施例において、余弦類似度等の類似度算出方法によりセンテンスサブツリーの間の類似度を算出する。類似度算出方法は従来技術であり、ここで説明を省略する。

ステップ２０５において、語義類似度とテキスト類似度の重み付けの和を翻訳品質の得点とする。

本実施例において、２つの方法で算出した類似度の重み付けの和を翻訳品質の得点とする。該翻訳品質の評価結果は語義類似度を考慮する上に構文構成の類似度を考慮した。翻訳品質をより正確に評価することができる。具体的に、重みの設置について必要があるにより設置でき、例えば、語義の正確さを重視する場合、語義類似度の重みをテキスト類似度の重みより高く設置する。

続いて図３を参照し、翻訳品質を評価するための方法の第２の実施例の流れ３００を示す。該翻訳品質を評価するための方法の流れ３００は、以下のステップを備える。

ステップ３０１において、評価対象となる訳文と参照訳文とを取得する。
ステップ３０２において、評価対象となる訳文と参照訳文を事前訓練された復唱コーディングモデルに入力し、評価対象となる訳文と参照訳文の語義類似度を取得する。

ステップ３０３において、評価対象となる訳文と参照訳文をそれぞれ２本の構文ツリーとして分析する。

ステップ３０４において、２本の構文ツリーの類似度を算出して評価対象となる訳文と参照訳文とのテキスト類似度とする。

ステップ３０１－３０４は、ステップ２０１－２０４と大体同じであるので、説明を省略する。

ステップ３０５において、評価対象となる訳文を事前訓練された自動問答モデルに入力し、少なくとも１セットの質問と解答を取得する。

本実施例において、自動問答モデルはテキストの中の問答と解答を抽出するためのニューラルネットワーク。自動問答方式を使用して評価するのは本発明の一つの重要な創造。一般的に、自動問答は、モデルにより段落の内容が正しく理解されたか否かを評価することに適用する。自動問答の読解分野における運用を参照し、翻訳した訳文が有効な情報を完全に含むか否かを評価するために自動問答を使用する。

例えば：

左側は一部の文章、右側は人工マークによるいくつかの問答。自動問答モデルは左側のテキストを読むことにより、右側のいくつかの質問を解答する。品質がより良い従来の自動問答モデルは普通はＢＥＲＴを利用して事前訓練を行い、その後、所定の問答コーパスに基づいてｆｉｎｅｔｕｎｅを行い、もっと良い性能を果たす。今、性能の一番良い自動問答モデルについて性能は所定集合により人間の水準に達したので、このモデルを利用し、評価方式の一種として訳文を評価する。

具体的な方案は以下になる。
Ａ、テストの必要がある通訳文章のそれぞれに対して、自動問答コーパスを構築する。

Ｂ、自動問答コーパスを訓練サンプルとし、標準訳文の文章を読む上に、自動問答コーパスにより高い得点Ａを達するように、高性能の自動問答モデル訓練する。

Ｃ、自動問答モデルを利用して評価対象となる訳文を読んで少なくとも１セットの質問と解答を取得する。

ステップ３０６において、少なくとも１セットの質問と解答における、正解の割合を確定し、問答の得点とする。

本実施例において、自動問答モデルにより抽出された質問と解答が正確ではない可能性があるため、正解の割合を統計して問答の得点Ｂとする必要がある。例えば、１０件の質問がある場合、８件は正解であれば、問答の得点は０．８になる。

ステップ３０７において、自動問答モデルが標準訳文に対して解答結果分析を行って取得した標準得点を取得する。

本実施例において、自動質問モデルに対する訓練が完成した後、標準訳文を使って性能を検証し、標準得点Ａを取得する。

ステップ３０８において、標準得点により問答の得点を補正し、評価対象となる訳文の分かりやすさの得点を取得する。

本実施例において、得点の（Ａ－Ｂ＋Ｃ）／Ａを計算することによる自動問答の得点は分かりやすさを評価するためのものであり、一般的に、Ｃは定数であり、例えば５０であり、ＣはＡとＢとの間の得点差をスムーズにするためのものである。

ステップ３０９において、語義類似度、テキスト類似度と分かりやすさの得点の重み付けの和を翻訳品質の得点とする。

本実施例において、３種類の方式により取得した得点の重み付けの和を翻訳品質の得点とする。具体的な重みの設置は必要に応じて設置してよく、例えば、分かりやすさを重視する場合、分かりやすさの得点の重みを他の項目の重みより高く設置してよい。

さらに図４を参照し、翻訳品質を評価するための方法の第３の実施例の流れ４００を示す。該翻訳品質を評価するための方法の流れ４００は、以下のステップを備える。

ステップ４０１において、評価対象となる訳文と参照訳文を取得する。
ステップ４０２において、評価対象となる訳文と参照訳文を事前訓練された復唱コーディングモデルに入力し、評価対象となる訳文と参照訳文の語義類似度を取得する。

ステップ４０３において、評価対象となる訳文と参照訳文をそれぞれ２本の構文ツリーに分析する。

ステップ４０４において、２本の構文ツリーの類似度を算出して評価対象となる訳文と参照訳文とのテキスト類似度とする。

ステップ４０１－４０４は、ステップ２０１－２０４とほぼ同じ、説明を省略する。
ステップ４０５において、評価対象となる訳文からキー情報を識別する。

本実施例において、キー情報は実体、要約等を備えることができる。事前に評価対象となる訳文の中のキー情報に対して人工マークを行うことができる。例えば、訳文の中の名前付きエンティティをマークする必要があり、名前付きエンティティは時間、日付、場所、名前等を含む。次は、訳文の中の重要内容の段落をマークする必要があり、該重要内容の段落は要約情報と類似する。すると、ＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、名前付きエンティティ識別）技術により訳文中の実体を識別して人工標準の実体に比較することができる。要約生成ツールにより訳文の要約を抽出する。

ステップ４０６において、識別されたキー情報と人工マークによるキー情報とを比較し、キー情報の正確率とリコール率の総合得点を算出する。

本実施例において、ＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、名前付きエンティティ識別）技術により訳文中の実体を識別し、人工標準の実体と比較する。要約生成ツールにより訳文の要約を抽出し、人工マークの要約と比較する。機会で識別されたキー情報の正確率とリコール率を算出する。得点を計算する場合、標準のＦ値すなわち訳文と標準訳文との間のキー情報の正確率とリコール率を評価するものを使用する。最終得点を総合得点とする。

ステップ４０７において、語義類似度、テキスト類似度及び総合得点の重み付けの和を翻訳品質の得点とする。

本実施例において、上記３項の得点の重み付けの和を翻訳品質の得点とする。
続いて図５を参照し、翻訳品質を評価するための方法の第４の実施例の流れ５００を示す。該翻訳品質を評価するための方法の流れ５００は以下ステップを備える。

ステップ５０１において、評価対象となる訳文と参照訳文を取得する。
ステップ５０２において、評価対象となる訳文と参照訳文を事前訓練された復唱コーディングモデルに入力し、評価対象となる訳文と参照訳文の語義類似度を取得する。

ステップ５０３において、評価対象となる訳文と参照訳文をそれぞれ２本の構文ツリーとして分析する。

ステップ５０４において、２本の構文ツリーの類似度を算出して評価対象となる訳文と参照訳文とのテキスト類似度とする。

ステップ５０５において、評価対象となる訳文を事前訓練された自動問答モデルに入力し、少なくとも１セットの質問と解答を取得する。

ステップ５０６において、少なくとも１セットの質問と解答の中の正解の割合を確定して問答の得点とする。

ステップ５０７において、自動問答モデルは標準訳文に対して解答結果分析を行って取得した標準得点を取得する。

ステップ５０８において、標準得点により問答の得点を補正して評価対象となる訳文の分かりやすさの得点を取得する。

ステップ５０１－５０８は、ステップ３０１－３０８とほぼ同じ、説明を省略する。
ステップ５０９において、前記評価対象となる訳文からキー情報を識別する。

ステップ５１０において、識別されたキー情報と人工マークによるキー情報を比較し、キー情報の正確率とリコール率の総合得点を算出する。

ステップ５０９－５１０は、ステップ４０５－４０６とほぼ同じ、説明を省略する。
ステップ５１１において、語義類似度、テキスト類似度、分かりやすさの得点及び総合得点の重み付けの和を翻訳品質の得点とする。

本実施例において、４種類の得点重み付けの和を翻訳品質の得点とする。上記４種類の指標の得点を利用し、複数の角度に基づいて訳文を評価することができ、実際の運用において必要に応じて異なる角度を選んで異なるシステムを選ぶ。

さらに図６を参照し、上記各図に示す方法の実現として、本開示は翻訳品質を評価するための装置の一実施例を提供し、該装置実施例は図２に示す方法の実施例に対応し、該装置は具体的に各種の電子機器に適用できる。

図６に示すように、本実施例の翻訳品質を評価するための装置６００は、取得手段６０１、語義評価手段６０２、構文分析手段６０３、構文評価手段６０４及び算出手段６０５を備える。ここで、取得手段６０１は、評価対象となる訳文と参照訳文を取得するように構成される。語義評価手段６０２は、評価対象となる訳文と参照訳文を事前訓練された復唱コーディングモデルに入力し、評価対象となる訳文と参照訳文の語義類似度を取得するように構成され、ここで、復唱コーディングモデルは一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークである。構文分析手段６０３は、評価対象となる訳文と参照訳文をそれぞれ２本の構文ツリーとして分析するように構成される。構文評価手段６０４は、２本の構文ツリーの類似度を算出して評価対象となる訳文と参照訳文とのテキスト類似度とするように構成される。算出手段６０５は、語義類似度とテキスト類似度の重み付けの和を翻訳品質の得点とするように構成される。

本実施例において、翻訳品質を評価するための装置６００の取得手段６０１、語義評価手段６０２、構文分析手段６０３、構文評価手段６０４及び算出手段６０５の具体的な処理について図２を参照して実施例の中のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４及びステップ２０５に対応することができる。

本実施例のいくつかの選択可能な実施形態において、装置６００はさらに分かりやすさ評価手段（附図中未示す）を備えるように構成される。評価対象となる訳文を事前訓練された自動問答モデルに入力し、少なくとも１セットの質問と解答を取得し、ここで、自動問答モデルはテキストの中の問答と解答を抽出するためのニューラルネットワークである。少なくとも１セットの質問と解答の中の正解の割合を確定して問答の得点とする。自動問答モデルが標準訳文に対して解答結果分析を行って取得した標準得点を取得する。標準得点により問答の得点を補正し、評価対象となる訳文の分かりやすさの得点を取得する。語義類似度、テキスト類似度及び分かりやすさの得点の重み付けの和を翻訳品質の得点とする。

本実施例のいくつかの選択可能な実施形態において、装置６００はさらに、キー情報評価手段（図示せず）を備えるように構成される。評価対象となる訳文からキー情報を識別し、識別されたキー情報と人工マークによるキー情報を比較し、キー情報の正確率とリコール率の総合得点を算出する。総合得点により翻訳品質の得点を補正する。

本実施例のいくつかの選択可能な実施形態において、分かりやすさ評価手段はさらに、事前設定された定数を設置して標準得点と問答の得点の間の差をスムーズにするように構成される。

本実施例のいくつかの選択可能な実施形態において、装置６００はさらに訓練手段（附図未示す）を備えるように構成される。評価対象となる訳文と同じ言語の第１の言語の原文集合を取得する。第１の言語の原文集合の中の各第１の言語の原文に対して、第１の翻訳モデルにより該第１の言語の原文を第２の言語の訳文に翻訳し、また第２の翻訳モデルにより第２の言語の訳文を第１の言語の復唱センテンスに翻訳し、該第１の言語の原文と復唱センテンスとを復唱センテンスのペアに組み合わせて、ランダムに１つのセンテンスを選出して該第１の言語の原文に組み合わせて非復唱センテンスのペアとする。復唱センテンスのペア集合はプラスサンプルとし、非復唱センテンスのペアはマイナスサンプルとし、機械学習装置を利用してクラシファイアを訓練して復唱コーディングモデルを取得する。

本実施例のいくつかの選択可能な実施形態において、訓練手段はさらに第１の翻訳モデルと第２の翻訳モデルの単語テーブル大きさを制御し、多様化の復唱センテンスのペアを生成するように構成される。

本実施例のいくつかの選択可能な実施形態において、復唱コーディングモデルの訓練サンプル集は第１の翻訳モデルの訓練サンプル集と異なり、第２の翻訳モデルの訓練サンプル集とも異なる。

本実施例のいくつかの選択可能な実施形態において、評価対象となる訳文は事前設定された主流の言語であれば、ＢＥＲＴモデルを使用して復唱コーディングモデルをとする。

続いて図７を参照し、本開示の実施例の実施を適用する電子機器（例えば、図１におけるサーバや端末機器）７００の構成概略図を示す。本開示の実施例における端末機器は例えば携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレットパソコン）、ＰＭＰ（携帯マルチメディアプレイヤー）、車載端末（車載端末）等の携帯端末、及びデジタルＴＶ、デスクトップパソコン等の固定端末を含むがこれに限定されない。図７に示した電子機器は例示のみであり、本出願の実施形態の機能や使用範囲を制限するものではない。

図７に示すように、電子機器７００は、ＲＯＭ７０２（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）に格納されたプログラムや、記憶装置７０８からＲＡＭ７０３（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）にロードされたプログラムに基づき、各種の適当な動作や処理を実行することができる処理装置７０１（例えば、中央処理装置、グラフィックプロセッサ等）を備える。ＲＡＭ７０３には、電子機器７００の操作に必要な各種プログラムやデータが記憶される。処理装置７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して相互に接続されている。バス７０４には、入出力（Ｉ／Ｏ）インタフェース７０５も接続されている。

一般的には、Ｉ／Ｏインタフェース７０５には、入力装置７０６、出力装置７０７、記憶装置７０８、通信装置７０９が接続されることができ、入力装置７０６は例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含み、出力装置７０７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、スピーカ、バイブレータなどを含み、記憶装置７０８は例えば、磁気テープ、ハードディスクなどを含む。通信装置７０９により、電子機器７００と他の装置との無線または有線の通信ができるので、データを送受信することができる。なお、図７は、各種の装置を備えた電子機器７００を示したが、示された全ての装置を備えることや、実施することが要求されないことを理解されたい。代わりに、装置がもっと多いまたはもっと少ないものを実施することや、備えることができる。図７に示す各ブロックは１つの装置を代表してもよいし、必要に基づいて複数の装置を代表してもよい。

特に、本開示の実施例に基づき、上述のフローチャートを参照して説明した過程は、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本開示の実施例は、コンピュータ可読媒体に記録されたプログラムを備えるコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示す方法を実施するためのプログラムコードを備える。このような実施例において、このコンピュータプログラムは、通信装置７０９を介してネットワークからダウンロードされ、またはインストールされてよいし、記憶装置７０８からインストールされてよいし、ＲＯＭ７０２からインストールされてもよい。該コンピュータプログラムが処理装置７０１により実行された時、本開示の実施例の方法で限定される上述した機能が実行される。なお、本開示に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読媒体やこれらの両者の任意の組み合わせであってもよい。コンピュータ可読媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、或いは半導体システム、装置や機器、又はそれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読媒体のより具体的な例には、１本又は複数本の導線により電気的に接続された、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。本開示の実施例では、コンピュータ可読媒体はプログラムを備えるか又は格納する任意の有形の媒体であってもよいが、このコンピュータ可読媒体はコマンド実行システム、装置、又は機器によって使用されてもよく、それらに組み込まれて使用されてもよい。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンドで伝播されるか、又は転送波の一部として伝播されるデータ信号を含んでもよく、コンピュータ可読プログラムコードが担持されている。そのような伝播されたデータ信号は様々な形態をとることができ、電磁気信号、光信号、又は上記のものの任意の適切な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体はまた、コンピュータ可読媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、コマンド実行システム、装置、又は機器によって使用されるか、又はそれらに組み込まれて使用されるプログラムを送信、伝搬、又は伝送してもよい。コンピュータ可読媒体に含まれているプログラムコードは任意の適切な媒体を使用して伝送することができ、この媒体は無線、有線、光ケーブル、無線周波数など、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。

上記のコンピュータ可読媒体は説明した機器に含まれ取得するものであってよいし、単独で存在して該電子機器にインストールされないものであってもよい。上記コンピュータ可読媒体には１つ又は複数のプログラムが記録され、上記１つ又は複数のプログラムが該電子機器に実行される時に、該電子機器は、評価対象となる訳文と参照訳文とを取得することと、前記評価対象となる訳文と前記参照訳文を事前訓練された復唱コーディングモデルに入力し、前記評価対象となる訳文と前記参照訳文との語義類似度を取得することであって、ここで、前記復唱コーディングモデルは一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークであることと、前記評価対象となる訳文と前記参照訳文をそれぞれ２本の構文ツリーとして分析することと、前記２本の構文ツリーの類似度を算出して、前記評価対象となる訳文と前記参照訳文のテキスト類似度とすることと、前記語義類似度と前記テキスト類似度との重み付けの和を翻訳品質の得点とすることと、を備える翻訳品質を評価するための方法。

なお、本出願の操作を実行するためのプログラムコードは、１つまたは複数のプログラミング言語またはこれらの組み合わせで作成されることができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語が含まれているが、「Ｃ」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語も含まれている。プログラムコードは、完全にユーザのコンピュータで実行されることも、ユーザのコンピュータで部分的に実行されることも、独立のソフトウェアパッケージとして実行されることも、一部がユーザのコンピュータで実行されながら、他の一部がリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバーで実行されることも可能である。リモートコンピューターの場合、リモートコンピューターは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、または（例えば、インターネットサービスプロバイダによるインターネットサービスを介して）外部のコンピュータに接続されることもできる。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例のシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、操作を示す。これに関して、フローチャートまたはブロック図の各ブロックはそれぞれ、モジュール、プログラムセグメント、またはコードの一部を表すことができ、このモジュール、プログラムセグメント、またはコードの一部は指定されたロジック機能を実現するための１つまたは複数の実行可能なコマンドを備える。また、いくつかの代替としての実施態様においては、ブロックに示されている機能は、図面に示されているものと異なる順序で実行できる。たとえば、連続して示される２つのブロックは、実際にはほぼ並行して実行されることができ、これらは逆の順序で実行される場合もあり、関連する機能によって決められる。また、ブロック図および／またはフローチャートの各ブロック、ブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定された機能または操作を実行する、専用の、ハードウェアに基づくシステムによって実現されることができ、専用のハードウェアとコンピューターコマンドの組み合わせで実現することもできる。

本開示の実施例に係る手段は、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。説明された手段は、プロセッサに設置されることができ、例えば、「プロセッサは取得手段、判断手段、確定手段及び生成手段を備える」と記載されてもよい。これらのうち、これらの手段の名称は、手段その自体に対する限定ではなく、例えば、取得手段は、「目標テキストを取得する手段」と記載されてもよい。

上記の説明は、本出願の好ましい実施例および適用される技術的原理の説明にすぎない。当業者であれば、本出願に含まれている発明の範囲について、上記の技術的特徴の特定の組み合わせからなる技術的解決策に限定されず、上記の発明の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴を任意に組み合わせることにより形成されるその他の解決策も含まれているべきであることを理解すべきである。例えば、上記の特徴と、本出願に開示された類似の機能を有する技術的特徴（それらに限られない）とを互いに置き換えてなる解決策が該当する。

Claims

翻訳品質を評価するための装置により実行される方法であって、
評価対象となる訳文と参照訳文とを取得するステップと、
前記評価対象となる訳文と前記参照訳文を事前訓練された復唱コーディングモデルに入力し、前記評価対象となる訳文と前記参照訳文との語義類似度を取得するステップであって、前記復唱コーディングモデルは、一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークであり、前記一対のセンテンスが復唱センテンスであるとは、前記一対のセンテンスの一方と他方とが同じ語義を有することである、ステップと、
前記評価対象となる訳文と前記参照訳文をそれぞれ２本の構文ツリーとして分析するステップと、
前記２本の構文ツリーの類似度を算出して、前記評価対象となる訳文と前記参照訳文のテキスト類似度とするステップと、
前記評価対象となる訳文を事前訓練された自動問答モデル入力し、少なくとも１セットの質問と解答を取得するステップであって、前記自動問答モデルはテキスト中の問答と解答を抽出するためのニューラルネットワークである、ステップと、
前記少なくとも１セットの質問と解答における正解の割合を確定し、問答の得点とするステップと、
前記自動問答モデルにより参照訳文に対して解答結果分析を行って取得した標準得点を取得するステップと、
前記標準得点によって前記問答の得点を補正して、前記評価対象となる訳文の分かりやすさの得点を取得するステップと、
前記語義類似度と前記テキスト類似度と前記分かりやすさの得点との重み付けの和を翻訳品質の得点とするステップと、
を含む翻訳品質を評価するための方法。
前記方法は、
前記評価対象となる訳文からキー情報を識別するステップと、
識別されたキー情報と人工マークによるキー情報とを比較し、キー情報の正確率及びリコール率の総合得点を算出するステップと、
前記総合得点によって前記翻訳品質の得点を補正するステップと、
をさらに含む請求項１に記載の方法。
前記標準得点によって前記問答の得点を補正するステップは、
事前設定された定数を設置して前記標準得点と前記問答の得点の間の差をスムーズにするステップと、
を含む請求項１に記載の方法。
前記復唱コーディングモデルは、
言語が前記評価対象となる訳文と同じである第１の言語の原文集合を取得するステップと、
前記第１の言語の原文集合中の各第１の言語の原文に対して、第１の翻訳モデルにより当該第１の言語の原文を第２の言語の訳文に翻訳し、第２の翻訳モデルにより前記第２の言語の訳文を第１の言語の復唱センテンスに翻訳し、当該第１の言語の原文と復唱センテンスを復唱センテンスのペアとして組み合わせ、前記第１の言語の原文集合から当該第１の言語の原文以外の一つのセンテンスをランダムに選出して当該第１の言語の原文と非復唱センテンスのペアとして組み合わせるステップと、
復唱センテンスのペアの集合をプラスサンプルとして、非復唱センテンスのペアをマイナスサンプルとして、機械学習方法を利用してクラシファイアを訓練して復唱コーディングモデルを取得するステップと、
により訓練される請求項１に記載の方法。
前記方法は、
前記第１の翻訳モデルと前記第２の翻訳モデルの単語テーブルの大きさを制御し、多様化の復唱センテンスのペアを生成するステップをさらに含み、前記単語テーブルは、関連する翻訳モデルが訳語の生成時に単語表の内容のみで表現するように制限するために用いられる、請求項４に記載の方法。
前記復唱コーディングモデルの訓練サンプル集合は、第１の翻訳モデルの訓練サンプル集合と異なり、第２の翻訳モデルの訓練サンプル集合とも異なる請求項４または５に記載の方法。
前記評価対象となる訳文が事前設定された主流の言語である場合、ＢＥＲＴモデルを使用して復唱コーディングモデルとする請求項４または５に記載の方法。
翻訳品質を評価するための装置であり、
評価対象となる訳文と参照訳文とを取得するように構成される取得手段と、
前記評価対象となる訳文と前記参照訳文を事前訓練された復唱コーディングモデルに入力し、前記評価対象となる訳文と前記参照訳文との語義類似度を取得するように構成される語義評価手段であって、前記復唱コーディングモデルは、一対のセンテンスが復唱センテンスである確率を算出するためのニューラルネットワークであり、前記一対のセンテンスが復唱センテンスであるとは、前記一対のセンテンスの一方と他方とが同じ語義を有することである、語義評価手段と、
前記評価対象となる訳文と前記参照訳文をそれぞれ２本の構文ツリーとして分析するように構成される構文分析手段と、
前記２本の構文ツリーの類似度を算出して、前記評価対象となる訳文と前記参照訳文のテキスト類似度とするように構成される構文評価手段と、
分かりやすさ評価手段であって、
前記評価対象となる訳文を事前訓練された自動問答モデル入力し、少なくとも１セットの質問と解答を取得することであり、前記自動問答モデルはテキストにおける問答と解答を抽出するためのニューラルネットワークである、ことと、
前記少なくとも１セットの質問と解答における正解の割合を確定し、問答の得点とすることと、
前記自動問答モデルにより訳文に対して解答結果分析を行って取得した標準得点を取得することと、
前記標準得点によって前記問答の得点を補正して、前記評価対象となる訳文の分かりやすさの得点を取得することと、を実行するように構成される分かりやすさ評価手段と、
前記語義類似度と前記テキスト類似度と分かりやすさの得点との重み付けの和を翻訳品質の得点とするように構成される算出手段と、
を備える翻訳品質を評価するための装置。
前記装置は、キー情報評価手段をさらに備え、当該キー情報評価手段は、
前記評価対象となる訳文からキー情報を識別することと、
識別されたキー情報と人工マークによるキー情報とを比較し、キー情報の正確率及びリコール率の総合得点を算出することと、
前記総合得点によって前記翻訳品質の得点を補正することと、を行うように構成される請求項８に記載の装置。
前記分かりやすさ評価手段は、
事前設定された定数を設置して前記標準得点と前記問答の得点の間の差をスムーズにするようにさらに構成される請求項８に記載の装置。
前記装置は、訓練手段をさらに備え、当該訓練手段は、
言語が前記評価対象となる訳文と同じである第１の言語の原文集合を取得することと、
前記第１の言語の原文集合中の各第１の言語の原文に対して、第１の翻訳モデルにより当該第１の言語の原文を第２の言語の訳文に翻訳し、第２の翻訳モデルにより前記第２の言語の訳文を第１の言語の復唱センテンスに翻訳し、当該第１の言語の原文と復唱センテンスを復唱センテンスのペアとして組み合わせ、前記第１の言語の原文集合から当該第１の言語の原文以外の一つのセンテンスをランダムに選出して当該第１の言語の原文と非復唱センテンスのペアとして組み合わせることと、
復唱センテンスのペアの集合をプラスサンプルとして、非復唱センテンスのペアをマイナスサンプルとして、機械学習方法を利用してクラシファイアを訓練して復唱コーディングモデルを取得することと、を行うように構成される請求項８に記載の装置。
前記訓練手段は、
前記第１の翻訳モデルと前記第２の翻訳モデルの単語テーブル大きさを制御し、多様化の復唱センテンスのペアを生成するようにさらに構成され、前記単語テーブルは、関連する翻訳モデルが訳語の生成時に単語表の内容のみで表現するように制限するために用いられる、請求項１１に記載の装置。
前記復唱コーディングモデルの訓練サンプル集合は、第１の翻訳モデルの訓練サンプル集合と異なり、第２の翻訳モデルの訓練サンプル集合とも異なる請求項１１または１２に記載の装置。
前記評価対象となる訳文が事前設定された主流の言語である場合、ＢＥＲＴモデルを使用して復唱コーディングモデルとする請求項１１または１２に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行される場合、前記１つまたは複数のプロセッサに請求項１ないし７のいずれか１項に記載の方法を実現させる電子機器。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記プログラムがプロセッサによって実行される時、請求項１ないし７のいずれか１項に記載の方法を実現するコンピュータ可読媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１ないし７のいずれか１項に記載の方法を実現させるコンピュータプログラム。