JP7203153B2

JP7203153B2 - 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP7203153B2
Application number: JP2021099159A
Authority: JP
Inventors: ジャン，ルイキン; ジャン，チャンキアン; リウ，ジキアン; フー，ゾンジュン; リー，ジー; ウー，フア
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2021-06-15
Publication date: 2023-01-12
Anticipated expiration: 2041-06-15
Also published as: EP3926516A1; US20210200963A1; CN111859995B; JP2021197188A; KR20210156223A; CN111859995A; KR102641398B1

Description

本開示はコンピュータ技術分野に関し、特に自然言語処理技術分野に関し、具体的に機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体に関する。

自然言語処理（Natural Language Processing；NLP）では、既存の機械翻訳モデルをあらゆる分野で共通化し、あらゆる分野における言語材料の翻訳を実現することができる。したがって、このような機械翻訳モデルは共通分野の機械翻訳モデルと呼ぶことができる。

実際の応用では、共通分野の機械翻訳モデルを訓練する際に、各分野のバイリンガル訓練サンプルを採取して訓練を行う。更に、様々な分野への適用を容易にするために、収集された様々な分野のバイリンガル訓練サンプルは共通性を有し、一般に様々な分野で識別可能な訓練サンプルである。しかし、訓練された機械翻訳モデルを用いてある目標分野の言語材料を翻訳する場合、その共通分野の機械翻訳モデルが訓練時にその目標分野の特殊な言語材料を学習していないため、その目標分野の言語材料を識別できず、正確な翻訳ができない可能性がある。この技術的問題を克服するために、従来技術では、教師付き訓練方法を採用し、目標分野における人工的に標識されたバイリンガル訓練サンプルを収集した後、共通分野の機械翻訳モデル上で微調整訓練を行って目標分野の機械翻訳モデルを得る。

しかし、既存の目標分野の機械翻訳モデルの訓練では、目標分野のデータが少ないため、バイリンガル訓練サンプルの標識に多くの人的コストがかかるため、目標分野の機械翻訳モデルの訓練に時間と労力がかかり、訓練効率が悪い。

上述した技術的課題を解決するために、本開示は、機械翻訳モデルの訓練方法、装置、電子デバイス、および記憶媒体を提供する。

本開示の一態様によれば、パラレルコーパスから、翻訳品質が予め設定された要求を満たし、かつ、共通分野の特徴および/または目標分野の特徴を有する一セットのサンプルを選択して第1訓練サンプルセットを構成し、前記パラレルコーパスから、翻訳品質が予め設定された要求を満たし、共通分野の特徴と目標分野の特徴を備えていない一セットのサンプルを選択して第2訓練サンプルセットを構成し、前記第1訓練サンプルセットおよび前記第2訓練サンプルセットをそれぞれ使用して、目標分野の機械翻訳モデルのエンコーダ、および、前記エンコーダの各符号化層に配置された訓練時に入力されたサンプルが属する分野を識別する判別器と、前記目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練する、ことを含む目標分野の機械翻訳モデルの訓練方法を提供する。

本開示の別の態様によれば、パラレルコーパスから翻訳品質が予め設定された要件を満たし、且つ共通分野の特徴および/または目標分野の特徴を有する一セットのサンプルを選択して第1訓練サンプルセットを構成する第1選択モジュールと、前記パラレルコーパスから翻訳品質が予め設定された要件を満たし、且つ共通分野の特徴及び目標分野の特徴を有しない一セットのサンプルを選択して第2訓練サンプルセットを構成する第2選択モジュールと、前記第1訓練サンプルセットおよび前記第2訓練サンプルセットをそれぞれ使用して、目標分野の機械翻訳モデルのエンコーダ、および、前記エンコーダの各符号化層に配置された訓練時に入力されたサンプルが属する分野を識別する判別器と、前記目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練する訓練モジュールとを備える目標分野の機械翻訳モデルの訓練装置を提供する。

本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能ばコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。

本開示の別の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本開示の技術によれば、従来技術の目標分野の機械翻訳モデルの訓練方法と比べて、時間、労力を省き、かつ、目標分野の機械翻訳モデルの訓練効率を効果的に向上させることができる。また、本開示の訓練方法を用いることにより、目標分野と共通分野におけるサンプルの分布を参照して、目標分野の機械翻訳モデルを自己適応的に訓練調整することが可能となり、目標分野の機械翻訳モデルの正確度を効果的に向上させることができる。

理解すべきなのは、本セクションで説明された内容は、本開示の実施形態の肝心または重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。

図面は、本技術案をより良く理解するためのものであり、本開示に制限されない。ここで、
本開示の第1実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本実施形態の目標分野の機械翻訳モデルの訓練アーキテクチャ図である。本実施形態におけるサンプル確率分布の概略図である。本開示の第3実施形態に係る概略図である。本開示の第4実施形態に係る概略図である。本開示の実施形態における目標分野の機械翻訳モデルの訓練方法を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態は、目標分野の機械翻訳モデルの訓練方法を提供し、具体的に以下のステップを含むことができる。

S101において、パラレルコーパスから翻訳品質が予め設定された要求を満たし、且つ共通分野の特徴及び/又は目標分野の特徴を有する一セットのサンプルを選択して第1訓練サンプルセットを構成する。

S102において、パラレルコーパスから翻訳品質が予め設定された要求を満たし、且つ共通分野の特徴と目標分野の特徴を具備していない一セットのサンプルを選択して第2訓練サンプルセットを構成する。

S103において、第1訓練サンプルセットと第2訓練サンプルセットをそれぞれ用いて、目標分野の機械翻訳モデルのエンコーダ、及びエンコーダの各符号化層に配置された判別器と、目標分野の機械翻訳モデルのエンコーダとデコーダとを順次に訓練する。判別器は、第1訓練サンプルセットにおける各サンプルが属する分野を識別する。

本実施形態の目標分野の機械翻訳モデルの訓練方法の実行主体は、目標分野の機械翻訳モデルの訓練方法である。当該目標分野の機械翻訳モデルの訓練方法は、コンピュータに類似した電子エンティティであってもよく、目標分野の機械翻訳モデルを訓練するために、使用時にコンピュータ装置上で動作するソフトウェア統合を採用するアプリケーションであってもよい。

本実施形態のパラレルコーパスには、複数のサンプルが含まれて良い。各サンプルにはソース文とターゲット文が含まれており、ソース文とターゲット文は語種の異なる言語に属する。機械翻訳モデルは、何れかのサンプルに対して、各サンプル中のソース文をターゲット文に翻訳する際に、このターゲット文に翻訳される翻訳確率が同時に出力される。この翻訳確率の大きさは翻訳の品質を示すことができ、翻訳確率が大きいほど、現在の機械翻訳モデルがソース文xをyに翻訳する確率が高く、翻訳の品質が良いことを示し、その逆も同様である。

本実施形態の共通分野とは、特定の分野に限定せず、一般的にNLPにおける全ての分野で共通することを意味する。一方、目標分野とは、口語分野のような特殊な分野のことである。例えば、共通分野の機械翻訳モデルが訓練する際に、パラレルコーパスに含まれているものはすべて各分野で規範的に記述されたサンプルであるため、通常分野の機械翻訳モデルも規範的な言語材料を翻訳する能力を学習した。例えば、規範的な記述は一般的に「食事をしましたか」であり、共通分野の機械翻訳モデルはこの言語材料をうまく翻訳することができる。しかし、口語分野では、言語材料の表現方法は「食べたか」のように非常に簡潔であるが、この場合、共通分野の機械翻訳モデルはこのような言語材料の翻訳を学習していない可能性があるため、翻訳ミスを招くことになる。

上記の状況を鑑み、背景技術において既存の目標分野の機械翻訳モデルの訓練過程に時間、労力がかかり、非効率であるという技術的問題を更に考慮した上で、本実施形態は、目標分野の機械翻訳モデルの訓練スキームを提供する。

本実施形態では、パラレルコーパスから翻訳品質が予め設定された要件を満たす第1訓練サンプルセットおよび第2訓練サンプルセットを選出する。ここで、第1訓練サンプルセットのサンプルは、翻訳品質が予め設定された要件を満たし、且つ共通分野の特徴および/または目標分野の特徴を有する。すなわち、第1訓練サンプルセットのサンプルは、翻訳品質が十分に高いだけでなく、共通分野または目標分野の特性を備えており、明らかに共通分野のサンプルまたは目標分野のサンプルに属する。

一方、第2訓練サンプルセットのサンプルは、翻訳品質が予め設定された要求を満たし、且つ共通分野の特徴と目標分野の特徴を備えていない。すなわち、第2訓練サンプルセットのサンプルは、翻訳品質が予め設定された要求を満たしており、十分に高いが、明らかな共通分野と目標分野の特性を備えておらず、即ちサンプルは明らかな分野の分類情報を持たない。

本実施形態における第1訓練サンプルセットに含まれるサンプルの数および第2訓練サンプルセットに含まれるサンプルの数は、1つ、2つ、または複数であってもよい。具体的には、実際の必要に応じてN個のサンプルを1つのbatchとして設定して対応する訓練サンプルセットを構成してよいが、ここでは限定しない。

本実施形態では、まず第1訓練サンプルセットを用いて、目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器（Discriminator）を訓練する。その目的は、敵対的学習により、目標分野の機械翻訳モデルのエンコーダが表層表現で分野に関連する特徴を学習する一方で、上層の特徴で分野に関係のない特徴を学習できるようにすることである。具体的には、下位層の判別器には正確な判別結果を生じさせ、上位層の判別器には不正確な判別結果を生じさせることにより達成される。ここで、判別器の下位層は、入力層に近い符号化層である下位層の符号化層に接続された判別器を指す。上位層の判別器は、復号化層に近い符号化層である上位層の符号化層に接続された判別器である。

さらに、第2訓練サンプルセットを用いて、目標分野の機械翻訳モデルのエンコーダおよびデコーダを訓練する。この第2訓練サンプルセットのサンプルは、以下の特徴を有する。A）現在の目標分野の機械翻訳モデルを用いた翻訳結果が良好であり、すなわち、目標分野の機械翻訳モデルの翻訳確率が予め設定された翻訳確率閾値よりも大きい。例えば、

B）判別器は、当該サンプルがどの分野に属するかを正確に判断することができない。即ち、

この訓練の過程は、翻訳結果が良く、且つ所属分野の区別が困難なサンプルを選択して目標分野の翻訳モデルを訓練することにより、目標分野の分布に適応するように翻訳モデルをよりよく調整できるようにすることである。

本実施形態では、訓練過程において、予め設定された訓練回数に達するまで、または、全体としてモデル構造の損失関数が収束するまで、上記ステップS101～S103を繰り返し実行することができる。

以上のことから分かるように、本実施形態の目標分野の機械翻訳モデルの訓練過程では、その目標分野の機械翻訳モデルを個別に訓練することではなく、当該目標分野の機械翻訳モデルのエンコーダの各層に、サンプルの所属分野を判別するための判別器を配置することにより、サンプルの分野を参照して、当該目標分野の機械翻訳モデルを対象とした訓練を行うことで、目標分野の機械翻訳モデルをより適切に調整し、目標分野の分布に適応し、目標分野の機械翻訳モデルの正確度を向上させることができる。

本実施形態の目標分野の機械翻訳モデルの訓練方法は、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴および/または目標分野の特徴を備えた一セットのサンプルを選択して第1訓練サンプルセットを構成し、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴と目標分野の特徴を備えない一セットのサンプルを選択して第2訓練サンプルセットを構成し、第1訓練サンプルセットおよび第2訓練サンプルセットをそれぞれ用いて、目標分野の機械翻訳モデルのエンコーダおよびエンコーダの各符号化層に配置された、第1訓練サンプルセットにおける各サンプルが属する分野を判別する判別器と、目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練することにより、従来技術の目標分野の機械翻訳モデルの訓練方法に比べて、時間、労力を節約し、しかも目標分野の機械翻訳モデルの訓練効率を効果的に高めることができる。また、本実施形態の訓練方法を用いることにより、目標分野と共通分野におけるサンプルの分布を参照して、目標分野の機械翻訳モデルを自己適応的に訓練調整することが可能となり、目標分野の機械翻訳モデルの正確度を効果的に向上させることができる。

図2は本開示の第2実施形態に係る概略図である。図2に示すように、本実施形態の目標分野における機械翻訳モデルの訓練方法は、上述した図1に示す実施形態の技術案に加えて、本開示の技術案をより詳細に紹介する。図2に示すように、本実施形態の目標分野の機械翻訳モデルの訓練方法は、具体的には以下のステップを含むことができる。

S201において、判別器により、パラレルコーパスにおける各サンプルが共通分野と目標分野のうち共通分野または目標分野に属する確率を識別する。

S202において、パラレルコーパスから、確率が第1確率閾値よりも小さく、および/または確率が第2確率閾値よりも大きく、且つ翻訳確率が予め設定された確率閾値よりも大きい一セットのサンプルを選択して、第1訓練サンプルセットを構成する。

上述したステップS201およびステップS202は、上述した図1に示された実施形態のステップS101の1つの具体的な実施形態である。本実施形態では、判別器により各サンプルが共通分野または目標分野に属する確率を識別して、当該サンプルが共通分野の特徴を備えているか、目標分野の特徴を備えているかを標識する。例えば、本実施形態では、判別器を用いてサンプルが目標分野と共通分野のうち共通分野に属する確率を統一的に識別してもよい。当該サンプルが共通分野に属する確率が高いほど、当該サンプルが共通分野に属することを示す一方、共通分野に属する確率が低いほど、当該サンプルが目標分野に属することを示す。

図3は本実施形態の目標分野の機械翻訳モデルの訓練アーキテクチャ図である。図3に示すように、本実施形態の目標分野の機械翻訳モデルは、エンコーダとデコーダという2つの部分から構成される。ここで、エンコーダは、符号化層1、符号化層2、…、符号化層Nを含み、デコーダは、復号化層1、復号化層2、…、復号化層Nを含む。ここで、Nの数は2以上の任意の正整数であってもよく、具体的には実際の必要に応じて設定される。本実施形態では、目標分野の機械翻訳モデルの正確度を向上させるために、符号化層ごとにサンプルが分野に属する確率、例えば共通分野に属する確率を判別する判別器を配置する。

説明すべきなのは、本実施形態では、訓練すべき目標分野の機械翻訳モデルは、ディープラーニング技術に基づいて予め訓練された共通分野の機械翻訳モデルであってよい。すなわち、訓練前に、ディープラーニング技術に基づいて予め訓練された共通分野の機械翻訳モデルを目標分野の機械翻訳モデルとして取得しておくことができる。

例えば、本実施形態では、エンコーダは表層よりも深層における語義表現能力が高いため、目標分野の機械翻訳モデルのエンコーダの最上層の符号化層に配置された判別器を用いて、パラレルコーパス中の各サンプルが共通分野または目標分野に属する確率を判別することが好ましいが、同様に、本実施形態では、共通分野に属する確率を統一的に用いて表現することができる。

本実施形態の第2確率閾値は、第1確率閾値よりも大きい。第1確率閾値および第2確率閾値の具体的な数値は、実際の必要に応じて設定することができる。例えば、本実施形態では、第2確率閾値よりも大きく設定されたものを共通分野に属するサンプルとみなし、第1確率閾値よりも小さいものを目標分野のサンプルとみなす。図4は、本実施形態におけるサンプル確率分布の概略図である。図4に示すように、横軸としてサンプルの翻訳確率を用い、縦軸は判別器がそのサンプルが共通分野に属すると識別する確率である。翻訳確率は、サンプル中のソース文xをターゲット文yに翻訳する確率を示し、NMT（x）がyである確率として表すことができる。図4に示すように、図中の「Δ」の形は目標分野のサンプルを示し、「□」の形は共通分野のサンプルを示す。パラレルコーパスにおいて、翻訳効果が良い、即ち翻訳確率が翻訳確率閾値T_NMTよりも大きいサンプルを選択することができる。当該翻訳確率閾値の大きさは、0.7、0.8、または0.5より大きく1より小さい他の数値のように、実際の必要の大きさに基づいて設定することができる。そして、翻訳確率が翻訳確率閾値T_NMTより大きいサンプルのうち、共通分野に属する確率をさらに3つの分野に分けた。図3の最上層の横破線が第2確率閾値の境界線であり、その下の横破線が第1確率閾値の境界線である。図4では、第1確率閾値が0.5である場合を例にするが、実際の応用では他の数値に設定することも可能である。第2確率閾値は、第1確率閾値より大きく、例えば、0.7、0.8、または0.5より大きく1より小さい他の数値であってもよい。これにより、図4に示すように、翻訳確率が予め設定された確率閾値よりも高いサンプルを3つの分野に分割することができる。図4に示す第（１）領域は共通分野のサンプル領域であり、共通分野のサンプルが多く含まれている。第（３）領域は、目標分野のサンプル領域であり、目標分野のサンプルが多く含まれている。一方、第（２）領域では共通分野と目標分野を明らかに区別することができず、共通分野のサンプルも目標分野のサンプルも多く含まれている。上述したステップS202で説明したように、第（１）領域および/または第（３）領域の一セットのサンプルを選択して第1訓練サンプルセットを構成する。

S203において、パラレルコーパスから、確率が第1確率閾値以上かつ第2確率閾値以下であり、かつ、翻訳確率が予め設定された確率閾値よりも大きい一セットのサンプルを選択して、第2訓練サンプルセットを構成する。

同様に、上述した図4の説明を参照すればわかるように、このステップS203は、第（２）領域の一セットのサンプルを選択して第2訓練サンプルセットを構成することである。

S204において、目標分野の機械翻訳モデルのデコーダを固定し、第1訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器とを訓練する。

本実施形態では、まず第1訓練サンプルセットを用いて、図3に示す目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器とを訓練し、その際に対応して、図3に示す目標分野の機械翻訳モデルのデコーダを固定し、すなわちデコーダのパラメータを固定して訓練時の調整に関与させないようにする。

この訓練の目的は、a）下位層のエンコーダがいくつかの分野の特殊な特徴、例えば口語の中に特有の語気語、表現方法などを学習ことができること、 b）上位層のエンコーダが分野の細部に注目することなく、共通的な言葉、文の表現を学習し、文全体の意味を把握することができることにある。本実施形態では、下位層のエンコーダは入力層に近いエンコーダであり、上位層のエンコーダはデコーダに近いエンコーダである。

第1訓練サンプルセットにおけるサンプルが共通分野の機械翻訳モデルでスコアが高く、所属分野に対する信頼度が高いことを考慮した上で、この訓練により、上位層のエンコーダが共通分野の表現（目標分野の特別な表現ではない）を学習できるようにし、即ち所属分野について高い信頼性を有する判断、すなわち、ここでサンプルを最適化することを望まない。したがって、このステップでは、共通分野の特徴および/または目標分野の特徴を備えた一セットのサンプルを選択して構成された第1訓練サンプルセットを訓練する。

説明すべきなのは、本実施形態では、各エンコーダ層は、分野カテゴリを判別するために判別器が導入されるため、分野識別能力を有する特徴、すなわち分野に固有の特別な特徴を学習することになる。これは、上記の目的a）の要求に適合しているが、目的b）の要求、即ち上位層のエンコーダで共通的な文表現を習得することに適合できない。この問題に対して、バックプロパゲーションを用いて分野に依存しない共通的な特徴を学習することができる。例えば、ここでのバックプロパゲーションは、Domain-adversarial training of neural networksに関する知識を参照することができ、ここでは再度言及しない。

S205において、エンコーダの各符号化層に配置された判別器を固定し、第2訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダとデコーダを訓練する。

第2訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダとデコーダを訓練する場合、第二訓練サンプルセットにおけるサンプルは、共通分野の特徴と目標分野の特徴を持たないサンプルである。この部分のサンプルの翻訳効果は良好であるが、所属分野が共通分野か目標分野かを区別することは困難である。これを用いて機械翻訳モデルを訓練することにより、目標分野の分布に適応するように機械翻訳モデルをよりよく調整できるようにする。

上述のステップS204とS205の2つのステップの訓練を経て、モデルは、下位層のエンコーダがいくつかの分野の特殊な特徴、例えば口語に特有の語気語、表現方法などを学習することができ、上位層のエンコーダが分野の細部に注目することなく、共通的な言葉や文の表現を学び、文全体の意味を把握することができることを段階的に実現することができる。また、目標分野の機械翻訳モデルのエンコーダとデコーダの構造は、目標分野の翻訳精度を向上させるために分布を段階的に調整する。

図3に示すように、ステップS204の訓練過程において、全体モデルの損失関数は、翻訳損失（1）と判別損失（2）の2つの部分を含む。2つの損失を重ね合わせてネットワークの総損失関数とし、モデル訓練過程では最急降下法を用いて総損失関数が収束する方向にパラメータを調整する。つまり、各ステップの訓練において、損失関数が収束する方向に低下するように、目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器のパラメータを調整する。

同様に、ステップS205においても、モデル訓練過程では最急降下法を用いて総損失関数が収束する方向にパラメータを調整する。すなわち、各ステップの訓練において、損失関数が収束する方向に低下するように、目標分野の機械翻訳モデルのエンコーダとデコーダのパラメータを調整する。

本実施形態の訓練過程では、総損失関数が収束するまで、上述のステップS201～S205を繰り返して実行して、訓練が完了することができる。このときに判別器のパラメータと目標分野の機械翻訳モデルのエンコーダおよびデコーダのパラメータを確定し、さらに判別器および目標分野の機械翻訳モデルを確定する。しかし、目標分野の翻訳利用では、訓練された目標分野の機械翻訳モデルのエンコーダとデコーダからなる目標分野の機械翻訳モデルのみを用いて、目標分野の翻訳を実現する。上述の実施形態に記載されているように、本実施形態の目標分野は口語分野であってもよく、他の特殊な分野であってもよいが、具体的には本実施形態の訓練方式を用いて対応する目標分野の機械翻訳モデルを訓練できる。

本実施形態の目標分野の機械翻訳モデルの訓練方法は、上述の技術案を採用することにより、判別器により識別されたサンプルが分野に属する確率を用いてサンプルの分野特徴を区別することができ、更に第1訓練サンプルセットと第2訓練サンプルセットとを正確に取得し、目標分野の機械翻訳モデルのデコーダを固定し、第1訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器を訓練し、エンコーダの各符号化層に配置される判別器を固定し、第2訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダとデコーダを訓練することにより、目標分野の機械翻訳モデルに対する自己適応的な訓練調整を実現し、目標分野の機械翻訳モデルの正確度を効果的に向上させることができる。従来技術の目標分野の機械翻訳モデルの訓練方法と比べて、時間と労力を節約し、しかも目標分野の機械翻訳モデルの訓練効率を効果的に高めることができる。

図5は本開示の第3実施形態に係る概略図である。図5に示すように、本実施形態は、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴および/または目標分野の特徴を有する一セットのサンプルを選択して第1訓練サンプルセットを構成する第1選択モジュール501と、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴及び目標分野の特徴を備えていない一セットのサンプルを選択して第2訓練サンプルセットを構成する第2選択モジュール502と、第1訓練サンプルセットおよび第2訓練サンプルセットをそれぞれ使用して、目標分野の機械翻訳モデルのエンコーダ、および、エンコーダの各符号化層に配置された訓練時に入力されたサンプルが属する分野を識別する判別器と、目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練する訓練モジュール503とを備える目標分野の機械翻訳モデルの訓練装置500を提供する。

本実施形態の目標分野の機械翻訳モデルの訓練装置500は、上記モジュールを用いて目標分野の機械翻訳モデルの訓練を実現する実現原理及び技術的効果は、上記関連方法の実施形態と同様である。詳細は上記関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

図6は本開示の第4実施形態に係る概略図である。図6に示すように、本実施形態の目標分野の機械翻訳モデルの訓練装置500は、上述の図5に示す実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。

図6に示すように、本実施形態の目標分野の機械翻訳モデルの訓練装置500において、第1選択モジュール501は、判別器を用いてパラレルコーパスにおける各サンプルが共通分野と目標分野とのうち共通分野または目標分野に属する確率を識別する確率識別ユニット5011と、パラレルコーパスから確率が第1確率閾値よりも低く、および/または確率が第1確率閾値よりも大きい第2確率閾値よりも高く、且つ翻訳確率が予め設定された確率閾値よりも高い一セットのサンプルを選択して第1訓練サンプルセットを構成する選択ユニット5012とを備える。

さらにオプションとして、第2選択モジュール502は、パラレルコーパスから確率が第1確率閾値以上かつ第2確率閾値以下であり、且つ翻訳確率が予め設定された確率閾値よりも大きい一セットのサンプルを選択して第2訓練サンプルセットを構成する。

さらにオプションとして、確率識別ユニット5011は、目標分野の機械翻訳モデルのエンコーダの最上位の符号化層に配置された判別器を用いて、パラレルコーパスにおける各サンプルが共通分野または目標分野に属する確率を識別する。

さらに、図6に示すように、本実施形態の目標分野の機械翻訳モデルの訓練装置500において、訓練モジュール503は、目標分野の機械翻訳モデルのデコーダを固定し、第1訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器とを訓練する第1訓練ユニット5031と、エンコーダの各符号化層に配置された判別器を固定し、第2訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダ及びデコーダを訓練する第2訓練ユニット5032とを備える。

さらにオプションとして、図6に示すように、本実施形態の目標分野の機械翻訳モデルの訓練装置500は、ディープラーニング技術に基づいて予め訓練された共通分野の機械翻訳モデルを、目標分野の機械翻訳モデルとして取得する取得モジュール504を更に備える。

本実施形態の目標分野の機械翻訳モデルの訓練装置500は、上記モジュールを用いて目標分野の機械翻訳モデルの訓練を実現する実現原理及び技術的効果は、上記関連方法の実施形態と同様であり、詳細は上記関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

本開示の実施形態によれば、本開示は更に電子デバイスおよび可読記憶媒体を提供する。

図7は、本開示の実施形態に係る目標分野の機械翻訳モデルの訓練方法を実現するための電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図7に示すように、この電子デバイスは、一つ又は複数のプロセッサ701、メモリ702、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図7において、一つのプロセッサ701を例とする。

メモリ702は、本開示で提供される非一時的なコンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本開示に提供された目標分野の機械翻訳モデルの訓練方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本開示に提供された目標分野の機械翻訳モデルの訓練方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ702は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータに実行可能なプログラム、モジュール、例えば、本開示の実施例における目標分野の機械翻訳モデルの訓練方法に対応するプログラムコマンド/モジュール（例えば、図5および図6に示される関連モジュール）を記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における目標分野の機械翻訳モデルの訓練方法を実現する。

メモリ702は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は目標分野の機械翻訳モデルの訓練方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ702は、プロセッサ701に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して目標分野の機械翻訳モデルの訓練方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

目標分野の機械翻訳モデルの訓練方法を実現する電子デバイスは、更に、入力装置703と出力装置704とを備えても良い。プロセッサ701、メモリ702、入力装置703及び出力装置704は、バス又は他の手段により接続されても良く、図7においてバスによる接続を例とする。

入力装置703は、入力された数字又はキャラクタ情報を受信し、目標分野の機械翻訳モデルの訓練方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

本開示の実施形態の技術案によれば、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴および/または目標分野の特徴を備えた一セットのサンプルを選択して第1訓練サンプルセットを構成し、パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴と目標分野の特徴を備えない一セットのサンプルを選択して第2訓練サンプルセットを構成し第1訓練サンプルセットおよび第2訓練サンプルセットをそれぞれ用いて、目標分野の機械翻訳モデルのエンコーダ、および、エンコーダの各符号化層に配置された第1訓練サンプルセットの各サンプルが属する分野を識別する判別器と、目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練することにより、従来技術の目標分野の機械翻訳モデルの訓練方法に比べて、時間、労力を節約し、しかも目標分野の機械翻訳モデルの訓練効率を効果的に高めることができる。また、本開示の実施形態の訓練方法を用いることにより、目標分野及び共通分野におけるサンプルの分布を参照して、目標分野の機械翻訳モデルを適応的に訓練調整することが可能となり、目標分野の機械翻訳モデルの正確度を効果的に向上させることができる。

本開示の実施形態の技術案によれば、上記の技術案を採用することにより、判別器で識別されたサンプルが分野に属する確率を用いてサンプルの分野特徴を区別することができ、更に第1訓練サンプルセットおよび第2訓練サンプルセットを正確に取得し、目標分野の機械翻訳モデルのデコーダを固定し、第1訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダと、エンコーダの各符号化層に配置された判別器を訓練し、エンコーダの各符号化層に配置される判別器を固定し、第2訓練サンプルセットを用いて目標分野の機械翻訳モデルのエンコーダとデコーダを訓練することにより、目標分野の機械翻訳モデルに対する適応的な訓練調整を実現し、目標分野の機械翻訳モデルの正確度を効果的に向上させることができる。従来技術の目標分野の機械翻訳モデルの訓練方法と比べて、時間と労力を節約し、しかも目標分野の機械翻訳モデルの訓練効率を効果的に高めることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

コンピュータにより実行される目標分野の機械翻訳モデルの訓練方法であって、
パラレルコーパスから、翻訳品質が予め設定された要求を満たし、且つ共通分野の特徴および／または目標分野の特徴を有する一セットのサンプルを選択して第１訓練サンプルセットを構成し、目標分野の特徴を有するサンプルが共通分野に属する確率は特定の第１確率閾値よりも低く、共通分野の特徴を有するサンプルが共通分野に属する確率は特定の第２確率閾値よりも高く、
前記パラレルコーパスから、翻訳品質が予め設定された要求を満たし、共通分野の特徴と目標分野の特徴を備えていない一セットのサンプルを選択して第２訓練サンプルセットを構成し、目標分野の特徴を備えていないサンプルが共通分野に属する確率は前記第１確率閾値以上であり、共通分野の特徴を備えていないサンプルが共通分野に属する確率は前記第２確率閾値以下であり、前記第１訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダと、前記エンコーダの各符号化層に配置され訓練時に入力されたサンプルが属する分野を識別する判別器とを訓練し、前記第２訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダ及び判別器を訓練する、
ことを含む方法。
パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴および／または目標分野の特徴を有する一セットのサンプルを選択して第１訓練サンプルセットを構成することは、
前記判別器を用いて前記パラレルコーパスにおける各前記サンプルが共通分野と目標分野とのうち前記共通分野または目標分野に属する確率を識別し、
前記パラレルコーパスから、確率が前記第１確率閾値よりも低くおよび／または確率が前記第１確率閾値よりも大きい前記第２確率閾値よりも高く、且つ翻訳確率が予め設定された確率閾値よりも高い一セットのサンプルを選択して前記第１訓練サンプルセットを構成する、
ことを含む請求項１に記載の方法。
前記パラレルコーパスから翻訳品質が予め設定された要求を満たし、共通分野の特徴及び目標分野の特徴を備えない一セットのサンプルを選択して第２訓練サンプルセットを構成することは、
前記パラレルコーパスから、確率が前記第１確率閾値以上かつ前記第２確率閾値以下であり、且つ翻訳確率が予め設定された確率閾値よりも大きい一セットのサンプルを選択して前記第２訓練サンプルセットを構成する、
ことを含む請求項２に記載の方法。
前記判別器を用いて前記パラレルコーパスにおける各前記サンプルが共通分野と目標分野とのうち前記共通分野または目標分野に属する確率を識別することは、
前記目標分野の機械翻訳モデルのエンコーダの最上位層の符号化層に配置された前記判別器を用いて、前記パラレルコーパスにおける各前記サンプルが前記共通分野または目標分野に属する確率を識別する、
ことを含む請求項２に記載の方法。
前記第１訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダと、前記エンコーダの各符号化層に配置され訓練時に入力されたサンプルが属する分野を識別する判別器とを訓練し、前記第２訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダ及び判別器を訓練することは、
前記目標分野の機械翻訳モデルのデコーダを固定し、前記第１訓練サンプルセットを用いて前記目標分野の機械翻訳モデルのエンコーダ、及び前記エンコーダの各符号化層に配置された前記判別器を訓練し、
前記エンコーダの各符号化層に配置された前記判別器を固定し、前記第２訓練サンプルセットを用いて前記目標分野の機械翻訳モデルのエンコーダおよびデコーダを訓練する、
ことを含む請求項１に記載の方法。
前記第１訓練サンプルセットおよび前記第２訓練サンプルセットをそれぞれ使用して、目標分野の機械翻訳モデルのエンコーダおよび前記エンコーダの各符号化層に配置された判別器と、前記目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練する前に、
ディープラーニング技術に基づいて予め訓練された共通分野の機械翻訳モデルを前記目標分野の機械翻訳モデルとして取得する、
ことを含む請求項１～５のいずれか１項に記載の方法。
目標分野の機械翻訳モデルの訓練装置であって、
パラレルコーパスから、翻訳品質が予め設定された要求を満たし、共通分野の特徴および／または目標分野の特徴を有する一セットのサンプルを選択して第１訓練サンプルセットを構成し、目標分野の特徴を有するサンプルが共通分野に属する確率は特定の第１確率閾値よりも低く、共通分野の特徴を有するサンプルが共通分野に属する確率は特定の第２確率閾値よりも高い第１選択モジュールと、
前記パラレルコーパスから、翻訳品質が予め設定された要求を満たし、共通分野の特徴及び目標分野の特徴を備えていない一セットのサンプルを選択して第２訓練サンプルセットを構成し、目標分野の特徴を備えていないサンプルが共通分野に属する確率は前記第１確率閾値以上であり、共通分野の特徴を備えていないサンプルが共通分野に属する確率は前記第２確率閾値以下である第２選択モジュールと、
前記第１訓練サンプルセットおよび前記第２訓練サンプルセットをそれぞれ使用して、目標分野の機械翻訳モデルのエンコーダ、および、前記エンコーダの各符号化層に配置された訓練時に入力されたサンプルが属する分野を識別する判別器と、前記目標分野の機械翻訳モデルのエンコーダおよびデコーダとを順次に訓練し、前記第１訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダと、前記エンコーダの各符号化層に配置され訓練時に入力されたサンプルが属する分野を識別する判別器とを訓練し、前記第２訓練サンプルセットを使用して目標分野の機械翻訳モデルのエンコーダ及び判別器を訓練する訓練モジュールと、
を備える装置。
前記第１選択モジュールは、
前記判別器を用いて、前記パラレルコーパスにおける各前記サンプルが共通分野と目標分野とのうち前記共通分野又は前記目標分野に属する確率を識別する確率識別ユニットと、
前記パラレルコーパスから、確率が前記第１確率閾値よりも低くおよび／または確率が前記第１確率閾値よりも大きい前記第２確率閾値よりも高く、且つ翻訳確率が予め設定された確率閾値よりも高い一セットのサンプルを選択して前記第１訓練サンプルセットを構成する選択ユニットと
を備える請求項７に記載の装置。
前記第２選択モジュールは、
前記パラレルコーパスから、確率が前記第１確率閾値以上かつ前記第２確率閾値以下であり、且つ翻訳確率が予め設定された確率閾値よりも大きい一セットのサンプルを選択して前記第２訓練サンプルセットを構成する、
請求項８に記載の装置。
前記確率識別ユニットは、
前記目標分野の機械翻訳モデルのエンコーダの最上位層の符号化層に配置された前記判別器を用いて、前記パラレルコーパスにおける各前記サンプルが前記共通分野または目標分野に属する確率を識別する、
請求項８に記載の装置。
前記訓練モジュールは、
前記目標分野の機械翻訳モデルのデコーダを固定し、前記第１訓練サンプルセットを用いて前記目標分野の機械翻訳モデルのエンコーダと、前記エンコーダの各符号化層に配置された前記判別器とを訓練する第１訓練ユニットと、
前記エンコーダの各符号化層に配置された前記判別器を固定し、前記第２訓練サンプルセットを用いて前記目標分野の機械翻訳モデルのエンコーダ及びデコーダを訓練する第２訓練ユニットと、
を備える請求項７に記載の装置。
ディープラーニング技術に基づいて予め訓練された共通分野の機械翻訳モデルを前記目標分野の機械翻訳モデルとして取得する取得モジュールを備える、
請求項７～１１のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～６のいずれか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項１～６のいずれか１項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～６のいずれか１項に記載の方法を実行させるためのプログラム。