JP2021093113A - 機械翻訳モデルのトレーニング方法、装置およびシステム - Google Patents

機械翻訳モデルのトレーニング方法、装置およびシステム Download PDF

Info

Publication number
JP2021093113A
JP2021093113A JP2020087105A JP2020087105A JP2021093113A JP 2021093113 A JP2021093113 A JP 2021093113A JP 2020087105 A JP2020087105 A JP 2020087105A JP 2020087105 A JP2020087105 A JP 2020087105A JP 2021093113 A JP2021093113 A JP 2021093113A
Authority
JP
Japan
Prior art keywords
training
translation
corpus
similarity
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020087105A
Other languages
English (en)
Other versions
JP6918181B2 (ja
Inventor
ジァリアン ジァン
Jialiang Jiang
ジァリアン ジァン
シャン リー
Xiang Li
シャン リー
ジァンウェイ ツイ
Jianwei Cui
ジァンウェイ ツイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Publication of JP2021093113A publication Critical patent/JP2021093113A/ja
Application granted granted Critical
Publication of JP6918181B2 publication Critical patent/JP6918181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】機械翻訳モデルのトレーニング方法、装置および媒体を提供する。【解決手段】方法は、双方向翻訳モデルおよびソースコーパスおよびターゲットコーパスを含むトレーニングデータを取得することと、双方向翻訳モデルに対して各ラウンドがソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳および擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳を含むNラウンドのトレーニングを実行することと、ターゲットコーパスと擬似ターゲットコーパスの類似度である順方向翻訳類似度およびソースコーパスと擬似ソースコーパスの類似度である逆方向翻訳類似度を取得することと、順方向翻訳類似度と逆方向翻訳類似度の和が収束すると、双方向翻訳モデルのトレーニングが完了したと決定することと、を含む。【選択図】図1

Description

本願は、2019年12月10日に中国特許局に提出された、出願番号がCN201911259415.Xである中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、機械翻訳に関し、特に、機械翻訳モデルのトレーニング方法、装置およびシステムに関する。
機械翻訳アプリケーションでは、機械翻訳モデルをトレーニングする必要がある。機械翻訳モデルは、トレーニング時に、トレーニングデータとして大量のバイリンガル対訳コーパスを必要とする。しかしながら、マイナー言語に関する機械翻訳シナリオなど、多くの適用シナリオでは、大量のバイリンガル対訳コーパスリソースがなくて、トレーニングコーパスの不足のため、機械翻訳モデルが目的の翻訳効果を満たすことが困難である。これは主に、バイリンガル対訳コーパスを取得する難易度が高く、コストが高いため、多くのマイナー言語は、数十万または数万の対訳コーパスしかない。さらに、マイナー言語の数はメジャー言語よりもはるかに多いため、マイナー言語とメジャー言語またはマイナー言語とマイナー言語の言語ペアごとに大量のバイリンガル対訳コーパスを構築するためのコストは受け入れ難い。
したがって、リソースが少ない場合に機械翻訳モデルをトレーニングする方法が必要である。
関連技術に存在する問題を解決するために、本開示は、機械翻訳モデルのトレーニング方法、装置およびシステムを提供する。
本開示の実施例の第1の態様によれば、機械翻訳モデルのトレーニング方法を提供し、前記方法は、
トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得することであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むことと、
前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行することであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むことと、
順方向翻訳類似度および逆方向翻訳類似度を取得することであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であることと、
前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定することとを含む。
ここで、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
前記双方向翻訳モデルに再構成器を設置し、前記再構成器を介して前記逆方向翻訳プロセスを実現することを含む。
ここで、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得することを含む。
ここで、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得することと、
i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整することとをさらに含む。
ここで、前記微分可能なサンプリング関数はGumbel−Softmax関数を含む。
ここで、前記順方向翻訳類似度および逆方向翻訳類似度を取得することは、
前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得することを含む。
ここで、前記トレーニングデータには、第1の言語タグまたは第2の言語タグが設定され、ここで、前記第1の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第2の言語タグが設定されたトレーニングデータはターゲットコーパスであり、または、前記第2の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第1の言語タグが設定されたトレーニングデータはターゲットコーパスである。
本開示の実施例の第2の態様によれば、機械翻訳モデルのトレーニング装置を提供し、前記装置は、
トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得するように構成されるモデルおよびデータ取得モジュールであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むモデルおよびデータ取得モジュールと、
前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行するように構成されるトレーニングモジュールであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むトレーニングモジュールと、
順方向翻訳類似度および逆方向翻訳類似度を取得するように構成される類似度取得モジュールであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度である類似度取得モジュールと、
前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定するように構成される決定モジュールとを含む。
ここで、前記トレーニングモジュールは再構成器をさらに含み、前記再構成器を介して前記逆方向翻訳プロセスを実現する。
ここで、前記トレーニングモジュールは、さらに、
前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得するように構成される。
ここで、前記トレーニングモジュールは、さらに、
i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得し、
i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整するように構成される。
ここで、前記微分可能なサンプリング関数はGumbel−Softmax関数を含む。
ここで、前記類似度取得モジュールは、さらに、
前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得するように構成される。
ここで、前記モデルおよびデータ取得モジュールは、さらに、
前記トレーニングデータに第1の言語タグまたは第2の言語タグを設定するように構成され、前記第1の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第2の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用し、または、前記第2の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第1の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用する。
本開示の実施例の第3の態様によれば、機械翻訳モデルのトレーニング装置を提供し、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリを含み、
ここで、前記プロセッサは、
トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得し、ここで、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含み、
前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行し、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含み、
順方向翻訳類似度および逆方向翻訳類似度を取得し、ここで、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であり、
前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定するように構成される。
本開示の実施例の第4の態様によれば、非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記記憶媒体の命令が端末のプロセッサによって実行される時に、端末が機械翻訳モデルのトレーニング方法を実行することができるようにし、前記方法は、
トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得することであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むことと、
前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行することであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むことと、
順方向翻訳類似度および逆方向翻訳類似度を取得することであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であることと、
前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定することとを含む。
本開示は、マイナー言語に対する機械翻訳モデルのトレーニング方法を提案する。ここで、双方向翻訳モデルを本開示の機械翻訳モデルとして使用する。トレーニングプロセスの各ラウンドでは、ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを実行し、順方向翻訳プロセスにおける順方向翻訳類似度と逆方向翻訳プロセスにおける逆方向翻訳類似度の和が収束するかどうかを判断することによって、機械翻訳モデルのトレーニングが完了したかどうかを決定する。ここで、再構成器を介して前記逆方向翻訳プロセスを実現する。
前記方法を使用して、トレーニングに逆方向翻訳コーパスを導入すると、コーパスの豊富さが増し、それにより、リソースが少ない場合にモデルのトレーニング効果を改善する。さらに、双方向翻訳の方法を導入して、逆方向翻訳モデルを同時にトレーニングするため、従来の逆方向翻訳方法では高品質な逆方向翻訳モデルを取得し難いという問題を解決する。
上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明であり、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本発明と一致する実施例を示し、明細書とともに本発明の原理を説明するために使用される。
一例示的な実施例によって示された機械翻訳モデルのトレーニング方法のフローチャートである。 一例示的な実施例によって示された機械翻訳モデルのトレーニング方法のフローチャートである。 一例示的な実施例によって示された機械翻訳モデルのトレーニング装置のブロック図である。 一例示的な実施例によって示された装置のブロック図である。 一例示的な実施例によって示された装置のブロック図である。
ここで、例示的な実施例を詳細に説明し、その例は添付の図面に示す。別の指示がない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似な要素を表す。以下の例示的な実施例で説明される実施形態は、本発明と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されるように、本発明の特定の態様と一致する装置および方法の例である。
マイナー言語の機械翻訳シナリオでは、機械翻訳モデルをトレーニングする時に、マイナー言語のバイリンガル対訳コーパスを取得する難易度が高く、コストが高いため、多くのマイナー言語は、数十万または数万の対訳コーパスしかない。
現在では、逆方向翻訳に基づいて大量の単言語コーパスで擬似対訳コーパスを構築する方法がある。即ち、単言語コーパスを取得する難易度がバイリンガル対訳コーパスよりはるかに低いため、大量のターゲット側の単一コーパスを取得することによって、さらに、1つの逆方向翻訳のモデルを介して単一なコーパスを対応するソース側訳文に翻訳し、最終的に、構築された擬似コーパスを使用してモデルをトレーニングすることができる。しかし、この方法では、逆方向翻訳の方法は、追加で導入された逆方向翻訳モデルに依存し、逆方向翻訳モデルに対する品質要件が高い。さらに、リソースが少ない場合、逆方向翻訳モデルの品質が高いという前提を満たすことは難しい。
本開示は、マイナー言語に対する機械翻訳モデルのトレーニング方法を提案する。ここで、双方向翻訳モデルを本開示の機械翻訳モデルとして使用する。トレーニングプロセスの各ラウンドでは、ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを実行し、順方向翻訳プロセスにおける順方向翻訳類似度と逆方向翻訳プロセスにおける逆方向翻訳類似度の和が収束するかどうかを判断することによって、機械翻訳モデルのトレーニングが完了したかどうかを決定する。ここで、再構成器を介して前記逆方向翻訳プロセスを実現する。
前記方法を使用すると、トレーニングに逆方向翻訳コーパスが導入され、コーパスの豊富さが増し、それにより、リソースが少ない場合でモデルのトレーニング効果を改善する。さらに、双方向翻訳的方法が導入されたため、同時に、逆方向翻訳モデルをトレーニングし、従来の逆方向翻訳方法では高品質な逆方向翻訳モデルを取得することが難しいという問題が解決される。
以下、本開示に係る機械翻訳モデルのトレーニング方法を詳細に説明する。
図1は、一例示的な実施例によって示された機械翻訳モデルのトレーニング方法のフローチャートであり、図1に示されたように、次のステップを含む。
ステップ101において、トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得し、ここで、トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含む。
ステップ102において、双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行し、トレーニングプロセスの各ラウンドは、ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含む。
ステップ103において、順方向翻訳類似度および逆方向翻訳類似度を取得し、ここで、順方向翻訳類似度は、ターゲットコーパスと擬似ターゲットコーパスの類似度であり、逆方向翻訳類似度は、ソースコーパスと擬似ソースコーパスの類似度である。
ステップ104において、順方向翻訳類似度と逆方向翻訳類似度の和が収束すると、双方向翻訳モデルのトレーニングが完了したと決定する。
ステップ101において、トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得する。本方法では、順方向翻訳プロセスおよび逆方向翻訳プロセスを実行する必要があるため、トレーニングされる機械翻訳モデルは双方向翻訳モデルを使用する。即ち、前記翻訳モデルは、順方向翻訳モデルとして使用されてもよく、逆方向翻訳モデルとして使用されてもよい。ここで、双方向翻訳モデルは、現在本技術分野で一般的に使用される双方向翻訳モデルを使用することができる。
ステップ102において、双方向翻訳モデルに対するトレーニングプロセスの各ラウンドはすべて順方向翻訳プロセスおよび逆方向翻訳プロセスを含む。順方向翻訳プロセスは、ソースコーパスを入力として使用し、取得された出力は擬似ターゲットコーパスである。逆方向翻訳プロセスは、順方向翻訳プロセスによって出力された擬似ターゲットコーパスを入力として取得された出力は擬似ソースコーパスである。
ステップ103において、順方向翻訳類似度および逆方向翻訳類似度を取得する。ここで、順方向翻訳類似度および逆方向翻訳類似度を取得する目的を説明するために、まず、従来のトレーニング方法における類似度の適用を説明する。
一方向の翻訳モデルを使用する従来のトレーニング方法において、入力端はソースコーパスであり、出力端はモデル翻訳の訳文である。この場合、両方の類似度を計算するなど、モデル翻訳の訳文を前記ソースコーパスに対応するターゲットコーパスと比較する。その類似度がとても大きい(収束など)場合、一方向の翻訳モデルのトレーニングが完了したと決定し、一方向の翻訳モデルの最適化を実現する。
本開示の方法では、逆方向翻訳プロセスのコーパスを使用してトレーニングコーパスの数を増やすため、トレーニングする時、逆方向翻訳モデルを同時にトレーニングし、即ち、順方向翻訳モデルおよび逆方向翻訳モデルを同時に最適化する必要がある。したがって、順方向翻訳類似度および逆方向翻訳類似度、即ち、ターゲットコーパスと擬似ターゲットコーパスの類似度、ソースコーパスと擬似ソースコーパスの類似度を取得する必要がある。
ステップ104において、順方向翻訳類似度と逆方向翻訳類似度の和が収束したと決定した時に、双方向翻訳モデルのトレーニングが完了したと決定する。ここで、収束は、複数ラウンドのトレーニング後、2つの類似度の和が1つの値に近づくことを示し、即ち、2つの類似度の和が基本的に最大値に達することを示す。
前記方法において、双方向翻訳モデルを使用してトレーニングして、逆方向翻訳プロセスのコーパスを介してトレーニングコーパスの数を増やす目的を実現する。さらに、トレーニングプロセスは、順方向翻訳プロセスのトレーニングも含み、逆方向翻訳プロセスのトレーニングも含むため、モデルを最適化する時、順方向翻訳能力と逆方向翻訳能力の両方も最適化される。
代替実施形態において、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
前記双方向翻訳モデルに再構成器を設置し、前記再構成器を介して前記逆方向翻訳プロセスを実現することを含む。
ここで、再構成器は、当業者に知られている再構成器を使用することができるため、再構成器の具体的な構造に関して再び説明しない。
本方法では、再構成器を使用するため、同じ機械翻訳モデルを使用して順方向翻訳プロセスおよび逆方向翻訳プロセスを同時に実現する。即ち、再構成器の作用で、まず、ソースコーパスを擬似ターゲットコーパスに翻訳し、次に、擬似ターゲットコーパスを擬似ソースコーパスに翻訳する。したがって、順方向翻訳プロセスのトレーニングであろうと逆方向翻訳プロセスのトレーニングであろうと、前記機械翻訳モデルのトレーニング、即ち最適化を実現する。
代替実施形態において、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得するように構成される。
従来の機械翻訳モデルのトレーニング方法において、ソースコーパスの翻訳結果を出力する時、即ち、デコードする時に、通常、argmax関数を使用して、出力結果の確率が最も高い単語(翻訳プロセスでは、ソースコーパスが翻訳される可能性のある各単語の確率を生成する)を選択して、擬似ターゲットコーパスを取得する。しかし、この従来の方法では、デコードプロセスにおけるargmax関数を導出することができないため、逆方向翻訳をする時、ソースコーパスを擬似ターゲットコーパスに翻訳する誤差を、擬似ターゲットコーパスを擬似ソースコーパスに翻訳するプロセスに伝達することができない。しかし、本方法では、翻訳モデルに対して順方向翻訳トレーニングおよび逆方向翻訳トレーニングを同時に実行する必要があり、それにより、逆方向翻訳プロセスで順方向翻訳の誤差を考慮する必要がある。
したがって、本方法では、微分可能なサンプリング関数をargmax関数の代わりに使用する。前記サンプリング関数は、1つの微分可能な公式をargmax関数の代わりに使用して、確率が最も高い方法を直接に選択し、最終の出力結果はargmax関数を使用する場合と類似するが、順方向翻訳の誤差の逆方向翻訳プロセスへの伝達が実現される。
代替実施形態において、前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得することと、
i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整することとをさらに含む。
モデルをトレーニングするプロセスでは、モデルのトレーニングパラメータを調整して、モデルを継続的に最適化する必要がある。本方法では、ターゲットコーパスと擬似ターゲットコーパスの間の誤差に基づいて、モデルのトレーニングパラメータを調整することができる。
代替実施形態において、前記微分可能なサンプリング関数はGumbel−Softmax関数を含む。
本方法では、Gumbel−Softmax関数をargmax関数の代わりに使用する。Gumbel−softmaxは、離散変数の分布をシミュレートして、1つの微分可能な公式をargmax関数の代わりに使用して確率が最も高い方法を直接に選択することにより、微分可能な方法を使用して、argmax方法とほぼ一致するデコード結果を取得することを保証する。
代替実施形態において、前記順方向翻訳類似度および逆方向翻訳類似度を取得することは、
前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得することを含む。
順方向翻訳類似度は、ターゲットコーパスと擬似ターゲットコーパスの対数尤度関数値であってもよく、逆方向翻訳類似度は、ソースコーパスと擬似ソースコーパスの対数尤度関数値であってもよい。したがって、双方向翻訳モデルをトレーニングする目的は、2つの対数尤度関数値の和を基本的に最大化し、即ち、収束を達成するようにすることである。
対数尤度関数は、log−likelihoodで示すことができる。でソースコーパスを示し、でターゲットコーパスを示し、s′で擬似ターゲットコーパスを示し、t′で擬似ターゲットコーパスを示すと、ターゲットコーパスと擬似ターゲットコーパスの対数尤度関数値は、log−likelihood(t,t′)として示され、ソースコーパスと擬似ソースコーパスの対数尤度関数値は、log−likelihood(s,s′)として示される。
双方向翻訳を書き取るトレーニングプロセスは、複数のトレーニングデータを採用して実行する場合を含み、上記では、例として1つのトレーニングデータのみを使用して説明したことを留意されたい。これらのトレーニングデータを使用するトレーニング原理はすべて同じである。
代替実施形態において、前記トレーニングデータには、第1の言語タグまたは第2の言語タグが設定され、ここで、前記第1の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第2の言語タグが設定されたトレーニングデータはターゲットコーパスであり、または前記第2の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第1の言語タグが設定されたトレーニングデータはターゲットコーパスである。
双方向翻訳モデル自体がソースコーパスおよびターゲットコーパスの言語を定義するため、トレーニングデータに言語タグを設定した後、即ち、前記言語タグに基づいて、前記トレーニングデータを双方向翻訳モデルのどの入力端に入力するかを決定することができる。
例を挙げると、中国語と英語の間の翻訳など、双方向翻訳モデルが中国語から英語に、また、英語から中国語に翻訳することができる。そのため、トレーニングデータにソースコーパスおよびターゲットコーパスを設定する場合、一方向の翻訳モデルほど制限されない。ここで、双方向翻訳モデルをトレーニングする場合、中国語データをソースコーパスとして使用し、英語データをターゲットコーパスとして使用してもよく、英語データをソースコーパスとして使用し、中国語データをターゲットコーパスとして使用してもよい。
Figure 2021093113
Figure 2021093113
データに言語タグを付ける方式を介して、同じデータは順方向および逆方向の2つのデータになり、この2つのデータを、同時に、トレーニングセットに入れてトレーニングすることができ、コーパスの豊富さを高める効果もある。トレーニング時に言語タグを追加する作用と同様に、双方向翻訳モデルがデコードする時にも、言語タグを付ける方式を介して翻訳モデルが翻訳する必要がある言語を指示しなければならないことを理解することができる。
図2に示されたように、本開示に係る一具体的な実施例を示す。前記実施例における双方向翻訳モデルはニューラル機械翻訳モデルである。前記実施例の方法は、次のステップを含む。
ステップ201において、トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得し、ここで、トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含む。
ステップ202において、双方向翻訳モデルに再構成器を設置する。
ステップ203において、双方向翻訳モデルに対して順方向翻訳トレーニングプロセスを実行し、ここで、順方向翻訳プロセスでは、Gumbel−Softmax関数を介して擬似ターゲットコーパスを取得する。
ステップ204において、双方向翻訳モデルに対して逆方向翻訳トレーニングプロセスを実行し、前記プロセスは再構成器を介して実現される。
ステップ205において、順方向翻訳類似度および逆方向翻訳類似度を取得し、順方向翻訳類似度と逆方向翻訳類似度の和が収束するかどうかを判断する。
ステップ206において、順方向翻訳類似度と逆方向翻訳類似度の和が収束しない場合、Gumbel−Softmax関数を介してターゲットコーパスと擬似ターゲットコーパスの間の誤差を取得し、前記誤差を介して次のラウンドのトレーニングのパラメータを調整し、ステップ203に進んで次のラウンドのトレーニングを続行する。
ステップ207において、順方向翻訳類似度と逆方向翻訳類似度の和が収束すると、双方向翻訳モデルのトレーニングが完了したと決定する。
図3は、一例示的な実施例によって示された機械翻訳モデルのトレーニング装置のブロック図である。図3に示されたように、前記装置は、
トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得するように構成されるモデルおよびデータ取得モジュール301であって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むモデルおよびデータ取得モジュール301と、
前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行するように構成されるトレーニングモジュール302であって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むトレーニングモジュール302と、
順方向翻訳類似度および逆方向翻訳類似度を取得するように構成される類似度取得モジュール303であって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度である類似度取得モジュール303と、
前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定するように構成される決定モジュール304とを含む。
代替実施形態において、前記トレーニングモジュール302は再構成器をさらに含み、前記再構成器を介して前記逆方向翻訳プロセスを実現する。
代替実施形態において、前記トレーニングモジュール302は、さらに、
前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得するように構成される。
代替実施形態において、前記トレーニングモジュール302は、さらに、
i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得し、
i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整するように構成される。
代替実施形態において、前記微分可能なサンプリング関数はGumbel−Softmax関数を含む。
代替実施形態において、前記類似度取得モジュール303は、さらに、
前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得するように構成される。
代替実施形態において、前記モデルおよびデータ取得モジュールは、さらに、
前記トレーニングデータに第1の言語タグまたは第2の言語タグを設定するように構成され、前記第1の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第2の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用し、または、前記第2の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第1の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用する。
上記の実施形態の装置に関して、ここで、各モジュールが動作を実行する具体的な方法は、既に、前記方法に関する実施例で詳細に説明されており、ここでは詳細に説明しない。
本開示は、双方向翻訳モデルを本開示の機械翻訳モデルとして使用する。トレーニングプロセスの各ラウンドでは、ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを実行し、順方向翻訳プロセスにおける順方向翻訳類似度と逆方向翻訳プロセスにおける逆方向翻訳類似度の和が収束するかどうかを判断することによって、機械翻訳モデルのトレーニングが完了したかどうかを決定する。ここで、再構成器を介して前記逆方向翻訳プロセスを実現する。
前記方法を使用して、トレーニングに逆方向翻訳コーパスを導入することにより、コーパスの豊富さが増し、それにより、リソースが少ない場合にモデルのトレーニング効果を改善する。さらに、双方向翻訳の方法を導入して、逆方向翻訳モデルを同時にトレーニングするため、従来の逆方向翻訳方法では高品質な逆方向翻訳モデルを取得し難いという問題を解決する。
図4は、一例示的な実施例によって示された機械翻訳モデルのトレーニング装置400のブロック図である。例えば、装置400は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。
図4を参照すれば、装置400は、処理コンポーネント402、メモリ404、電力コンポーネント406、マルチメディアコンポーネント408、オーディオコンポーネント410、入力/出力(I/O)インターフェース412、センサコンポーネント414、及び通信コンポーネント416のうちの1つまたは複数のコンポーネットを含むことができる。
処理コンポーネント402は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置400の全般的な操作を制御する。処理コンポーネント402は、前記方法のステップの全てまたは一部を完了するために、1つまたは複数のプロセッサ420を含んで命令を実行することができる。加えて、処理コンポーネント402は、処理コンポーネント402と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント402は、マルチメディアコンポーネント408と処理コンポーネント402の間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ404は、機器400での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置400で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ404は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせで実装することができる。
電力コンポーネント406は、装置400の様々なコンポーネントに電力を提供する。電力コンポーネント406は、電力管理システム、1つまたは複数の電源、及び装置400の電力の生成、管理および分配に関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント408は、前記装置400とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む時、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして具現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサが含まれる。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出する。いくつかの実施例において、マルチメディアコンポーネント408は、一つのフロントカメラ及び/またはリアカメラを含む。機器400が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント410は、オーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント410は、1つのマイクロフォン(MIC)を含み、装置400が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ404にさらに格納されてもよく、または通信コンポーネント416を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント410は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース412は、処理コンポーネント402と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
センサコンポーネント414は、装置400に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント414は、機器400のオン/オフ状態と、装置400のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント414は、装置400または装置400のコンポーネントの位置の変化、ユーザとの装置400の接触の有無、装置400の向きまたは加速/減速、及び装置400の温度の変化も検出することができる。センサコンポーネント414は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント414は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント414は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント416は、装置400と他の装置の間の有線または無線通信を容易にするように構成される。装置400は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント416は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント416は、短距離通信を促進するために、近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
例示的な実施例において、装置400は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって実現することができる。
例示的な実施例において、命令を含むメモリ404などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置400のプロセッサ420によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピディスクおよび光学データ記憶装置などであり得る。
非一時的なコンピュータ読み取り可能な記憶媒体は、前記記憶媒体の命令が端末のプロセッサによって実行される時に、端末が機械翻訳モデルのトレーニング方法を実行することができるようにし、前記方法は、トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得することであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むことと、前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行することであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むことと、順方向翻訳類似度および逆方向翻訳類似度を取得することであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であることと、前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定することとを含む。
図5は、一例示的な実施例によって示された機械翻訳モデルのトレーニング装置500のブロック図である。例えば、装置500は、サーバとして提供されることができる。図5を参照すると、装置500は、1つまたは複数のプロセッサを含む処理コンポーネント522、およびアプリケーションプログラムなど、処理コンポーネント522によって実行可能な命令を記憶するように構成される、メモリ532によって表されるメモリリソースを含む。メモリ532に記憶されたアプリケーションプログラムは、それぞれが1セットの命令に対応する1つまたは1つ以上のモジュールを含み得る。なお、処理コンポーネント522は、命令を実行して、トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得し、ここで、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含み、前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行し、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含み、順方向翻訳類似度および逆方向翻訳類似度を取得し、ここで、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であり、前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定する方法を実行するように構成される。
装置500は、装置500の電源管理を実行するように構成される1つの電力コンポーネント526、装置500をネットワークに接続させるように構成される1つの有線または無線ネットワークインターフェース550、および1つの入力/出力(I/O)インターフェース558をさらに含み得る。装置500は、メモリ532に記憶されたWindows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)TM、FreeBSDTMまたは類似なものなどの操作システムに基づいて操作されることができる。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本発明の他の実施形態を容易に想到し得るであろう。本出願は、本発明のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本発明の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本発明の真の範囲および思想は添付の特許請求の範囲によって示される。
本発明は、前述に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (16)

  1. 機械翻訳モデルのトレーニング方法であって、
    トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得することであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むことと、
    前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行することであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むことと、
    順方向翻訳類似度および逆方向翻訳類似度を取得することであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であることと、
    前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定することとを含むことを特徴とする、前記機械翻訳モデルのトレーニング方法。
  2. 前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
    前記双方向翻訳モデルに再構成器を設置し、前記再構成器を介して前記逆方向翻訳プロセスを実現することを含むことを特徴とする、
    請求項1に記載の機械翻訳モデルのトレーニング方法。
  3. 前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
    前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得することを含むことを特徴とする、
    請求項2に記載の機械翻訳モデルのトレーニング方法。
  4. 前記双方向翻訳モデルに対してNラウンドのトレーニングプロセスを実行することは、
    i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得することと、
    i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整することとをさらに含むことを特徴とする、
    請求項3に記載の機械翻訳モデルのトレーニング方法。
  5. 前記微分可能なサンプリング関数はGumbel−Softmax関数を含むことを特徴とする、
    請求項3または4に記載の機械翻訳モデルのトレーニング方法。
  6. 前記順方向翻訳類似度および逆方向翻訳類似度を取得することは、
    前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得することを含むことを特徴とする、
    請求項1に記載の機械翻訳モデルのトレーニング方法。
  7. 前記トレーニングデータには、第1の言語タグまたは第2の言語タグが設定され、前記第1の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第2の言語タグが設定されたトレーニングデータはターゲットコーパスであり、または、前記第2の言語タグが設定されたトレーニングデータはソースコーパスであり、前記第1の言語タグが設定されたトレーニングデータはターゲットコーパスであることを特徴とする、
    請求項1に記載の機械翻訳モデルのトレーニング方法。
  8. 機械翻訳モデルのトレーニング装置であって、
    トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得するように構成されるモデルおよびデータ取得モジュールであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むモデルおよびデータ取得モジュールと、
    前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行するように構成されるトレーニングモジュールであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むトレーニングモジュールと、
    順方向翻訳類似度および逆方向翻訳類似度を取得するように構成される類似度取得モジュールであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度である類似度取得モジュールと、
    前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定するように構成される決定モジュールとを含むことを特徴とする、前記機械翻訳モデルのトレーニング装置。
  9. 前記トレーニングモジュールは再構成器をさらに含み、前記再構成器を介して前記逆方向翻訳プロセスを実現することを特徴とする、
    請求項8に記載の機械翻訳モデルのトレーニング装置。
  10. 前記トレーニングモジュールは、さらに、
    前記順方向翻訳プロセスでは、微分可能なサンプリング関数を介して前記擬似ターゲットコーパスを取得するように構成されることを特徴とする、
    請求項9に記載の機械翻訳モデルのトレーニング装置。
  11. 前記トレーニングモジュールは、さらに、
    i(iは1より大きいか等しいかつNより小さい正の整数)ラウンド目のトレーニングプロセスでは、前記微分可能なサンプリング関数を介して前記ターゲットコーパスと前記擬似ターゲットコーパスの間の誤差を取得し、
    i+1ラウンド目のトレーニングプロセスでは、前記iラウンド目のトレーニングプロセスで取得された前記誤差に基づいて、前記双方向翻訳モデルのトレーニングパラメータを調整するように構成されることを特徴とする、
    請求項10に記載の機械翻訳モデルのトレーニング装置。
  12. 前記微分可能なサンプリング関数はGumbel−Softmax関数を含むことを特徴とする、
    請求項10または11に記載の機械翻訳モデルのトレーニング装置。
  13. 前記類似度取得モジュールは、さらに、
    前記ターゲットコーパスと前記擬似ターゲットコーパスの対数尤度関数値、および前記ソースコーパスと前記擬似ソースコーパスの対数尤度関数値を取得するように構成されることを特徴とする、
    請求項8に記載の機械翻訳モデルのトレーニング装置。
  14. 前記モデルおよびデータ取得モジュールは、さらに、
    前記トレーニングデータに第1の言語タグまたは第2の言語タグを設定するように構成され、前記第1の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第2の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用し、または、前記第2の言語タグが設定されたトレーニングデータをソースコーパスとして使用し、前記第1の言語タグが設定されたトレーニングデータをターゲットコーパスとして使用することを特徴とする、
    請求項8に記載の機械翻訳モデルのトレーニング装置。
  15. 機械翻訳モデルのトレーニング装置であって、
    プロセッサと、
    プロセッサによって実行可能な命令を記憶するように構成されるメモリを含み、
    前記プロセッサは、
    トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得し、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含み、
    前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行し、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含み、
    順方向翻訳類似度および逆方向翻訳類似度を取得し、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であり、
    前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定するように構成されることを特徴とする、前記機械翻訳モデルのトレーニング装置。
  16. 非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記記憶媒体の命令が端末のプロセッサによって実行される時に、端末が機械翻訳モデルのトレーニング方法を実行することができるようにし、前記方法は、
    トレーニングされる双方向翻訳モデルおよびトレーニングデータを取得することであって、前記トレーニングデータは、ソースコーパスおよび対応するターゲットコーパスを含むことと、
    前記双方向翻訳モデルに対してN(Nは1より大きい正の整数)ラウンドのトレーニングプロセスを実行することであって、トレーニングプロセスの各ラウンドは、前記ソースコーパスを擬似ターゲットコーパスに翻訳する順方向翻訳プロセスおよび前記擬似ターゲットコーパスを擬似ソースコーパスに翻訳する逆方向翻訳プロセスを含むことと、
    順方向翻訳類似度および逆方向翻訳類似度を取得することであって、前記順方向翻訳類似度は、前記ターゲットコーパスと前記擬似ターゲットコーパスの類似度であり、前記逆方向翻訳類似度は、前記ソースコーパスと前記擬似ソースコーパスの類似度であることと、
    前記順方向翻訳類似度と前記逆方向翻訳類似度の和が収束すると、前記双方向翻訳モデルのトレーニングが完了したと決定することとを含むことを特徴とする、前記非一時的なコンピュータ読み取り可能な記憶媒体。
JP2020087105A 2019-12-10 2020-05-19 機械翻訳モデルのトレーニング方法、装置およびシステム Active JP6918181B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911259415.XA CN110941966A (zh) 2019-12-10 2019-12-10 机器翻译模型的训练方法、装置及系统
CN201911259415.X 2019-12-10

Publications (2)

Publication Number Publication Date
JP2021093113A true JP2021093113A (ja) 2021-06-17
JP6918181B2 JP6918181B2 (ja) 2021-08-11

Family

ID=69910507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020087105A Active JP6918181B2 (ja) 2019-12-10 2020-05-19 機械翻訳モデルのトレーニング方法、装置およびシステム

Country Status (5)

Country Link
US (1) US11734521B2 (ja)
EP (1) EP3835998A1 (ja)
JP (1) JP6918181B2 (ja)
KR (1) KR102338918B1 (ja)
CN (1) CN110941966A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507114B (zh) * 2020-04-10 2023-04-18 思必驰科技股份有限公司 基于反向翻译的口语文本增强方法及系统
US11686650B2 (en) 2020-12-31 2023-06-27 Robert Bosch Gmbh Dynamic spatiotemporal beamforming
US20220205451A1 (en) * 2020-12-31 2022-06-30 Robert Bosch Gmbh Sensing via signal to signal translation
US20220318523A1 (en) * 2021-03-31 2022-10-06 International Business Machines Corporation Clause extraction using machine translation and natural language processing
CN113139391B (zh) * 2021-04-26 2023-06-06 北京有竹居网络技术有限公司 翻译模型的训练方法、装置、设备和存储介质
CN113591492B (zh) * 2021-06-30 2023-03-24 北京百度网讯科技有限公司 语料生成方法、装置、电子设备以及存储介质
CN113807106B (zh) * 2021-08-31 2023-03-07 北京百度网讯科技有限公司 翻译模型的训练方法、装置、电子设备及存储介质
CN114757214B (zh) * 2022-05-12 2023-01-31 北京百度网讯科技有限公司 用于优化翻译模型的样本语料的选取方法、相关装置
CN115130481A (zh) * 2022-06-16 2022-09-30 京东科技信息技术有限公司 一种模型训练、机器翻译方法、装置、设备及存储介质
CN117688176A (zh) * 2023-12-04 2024-03-12 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多语言预训练大模型的伪语言族聚类方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
JP2019153023A (ja) * 2018-03-02 2019-09-12 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1894125A4 (en) * 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
JP2016022483A (ja) 2014-07-16 2016-02-08 株式会社ディスコ チャックテーブル及びレーザー切断装置
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
US9836457B2 (en) * 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
JP2016224483A (ja) 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム
US9898460B2 (en) * 2016-01-26 2018-02-20 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
JP6870076B2 (ja) * 2016-09-26 2021-05-12 グーグル エルエルシーGoogle LLC ニューラル機械翻訳システム
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型
KR102458244B1 (ko) 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
CN109062907B (zh) * 2018-07-17 2022-07-12 苏州大学 融入依存关系的神经机器翻译方法
KR20200044201A (ko) * 2018-10-10 2020-04-29 한국전자통신연구원 번역 성능 개선을 위한 신경망번역 모델 학습 방법 및 장치
CN109858042B (zh) * 2018-11-20 2024-02-20 科大讯飞股份有限公司 一种翻译质量的确定方法及装置
CN109558605B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109918568B (zh) * 2019-03-13 2021-06-01 百度在线网络技术(北京)有限公司 个性化学习方法、装置、电子设备及存储介质
CN111241855B (zh) * 2019-03-25 2021-03-16 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110069790B (zh) * 2019-05-10 2022-12-06 东北大学 一种通过译文回译对照原文的机器翻译系统及方法
CN110287498B (zh) * 2019-05-30 2023-04-07 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质
CN110334361B (zh) * 2019-07-12 2022-11-22 电子科技大学 一种面向小语种语言的神经机器翻译方法
US11599986B2 (en) * 2020-06-16 2023-03-07 The Boeing Company Synthetic image generation for surface anomaly detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121241A (ja) * 2018-01-09 2019-07-22 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
JP2019153023A (ja) * 2018-03-02 2019-09-12 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IMANKULOVA AIZHAN 他2名: "逆翻訳による高品質な大規模擬似対訳コーパスの作成", 言語処理学会第23回年次大会 発表論文集 [ONLINE], JPN6021027557, 6 March 2017 (2017-03-06), JP, pages 210 - 213, ISSN: 0004550738 *
今村 賢治 他1名: "疑似原文生成によるニューラル機械翻訳への単言語コーパスの導入", 言語処理学会第23回年次大会 発表論文集[ONLINE], JPN6021027556, 6 March 2017 (2017-03-06), JP, pages 1026 - 1029, ISSN: 0004550739 *

Also Published As

Publication number Publication date
JP6918181B2 (ja) 2021-08-11
KR20210073431A (ko) 2021-06-18
CN110941966A (zh) 2020-03-31
EP3835998A1 (en) 2021-06-16
US20210174019A1 (en) 2021-06-10
US11734521B2 (en) 2023-08-22
KR102338918B1 (ko) 2021-12-10

Similar Documents

Publication Publication Date Title
JP6918181B2 (ja) 機械翻訳モデルのトレーニング方法、装置およびシステム
WO2021077529A1 (zh) 神经网络模型压缩方法、语料翻译方法及其装置
CN104951335B (zh) 应用程序安装包的处理方法及装置
CN109359056B (zh) 一种应用程序测试方法及装置
US20210204001A1 (en) Method and terminal device for video recording
WO2021031308A1 (zh) 音频处理方法、装置及存储介质
CN107564526B (zh) 处理方法、装置和机器可读介质
WO2016061930A1 (zh) 网页编码识别方法及装置
EP3734472A1 (en) Method and device for text processing
CN109471919B (zh) 零代词消解方法及装置
CN111104807B (zh) 一种数据处理方法、装置和电子设备
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112116095B (zh) 一种多任务学习模型训练的方法及相关装置
CN112036195A (zh) 机器翻译方法、装置及存储介质
WO2019242278A1 (zh) 内容描述生成模型的损失值获取方法及装置
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
EP2963561A1 (en) Method and device for updating user data
US20230267282A1 (en) Poetry generation
CN111324214B (zh) 一种语句纠错方法和装置
CN111461151A (zh) 一种多元组样本构建方法及装置
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN113591495A (zh) 语音翻译方法、装置及存储介质
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN113035189A (zh) 一种文档演示的控制方法、装置和设备
CN110245358B (zh) 一种机器翻译方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210720

R150 Certificate of patent or registration of utility model

Ref document number: 6918181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150