JP7222162B2 - 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体 - Google Patents

機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP7222162B2
JP7222162B2 JP2020192793A JP2020192793A JP7222162B2 JP 7222162 B2 JP7222162 B2 JP 7222162B2 JP 2020192793 A JP2020192793 A JP 2020192793A JP 2020192793 A JP2020192793 A JP 2020192793A JP 7222162 B2 JP7222162 B2 JP 7222162B2
Authority
JP
Japan
Prior art keywords
sample
samples
model
semantic similarity
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020192793A
Other languages
English (en)
Other versions
JP2021197131A (ja
Inventor
ジャン、ルイキン
ジャン、チュアンキアン
ヘ、ジョンジュン
リ、ジ
ウ、フア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021197131A publication Critical patent/JP2021197131A/ja
Application granted granted Critical
Publication of JP7222162B2 publication Critical patent/JP7222162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピュータ技術の分野に関し、特に、自然言語処理の技術分野、及び深層学習の技術分野に関し、具体的に、機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体に関する。
自然言語処理(Natural Language Processing、NLP)では、よく機械翻訳に関し、現在、主に、深層学習技術に基づいて予めトレーニングされた機械翻訳モデルを採用してセンテンスを翻訳する。ただし、場合によって、1つのソースセンテンスについて、同じ表意を持つ異なる翻訳結果が存在し得、それらは全てソースセンテンスの翻訳結果とすることができる。例えば、この場合、語意類似度モデルを採用して翻訳結果が類似するかどうかを測定することができる。
従来の機械翻訳分野の語意類似度モデルはパラレルコーパスを採用してトレーニングすることができる。パラレルコーパスには、複数のサンプルを含み、各サンプルが1つのセンテンスペア(x,y)を含み、xがソースセンテンスであり、yが翻訳後のターゲットセンテンスであり、ソースセンテンスとターゲットセンテンスとが異なる言語を採用する。語意類似度モデルは、ソース言語及びターゲット言語を同一の表示空間(emb)にマッピングすることができる。具体的に、パラレルコーパスにおける各センテンスペア(x,y)について、トレーニングの目的は、(x,y)間の類似度sim(x,y)を、xとトレーニングサンプルグループ(batch)における任意の他のサンプルに対応するターゲットセンテンスy'との類似度sim(x,y')よりも大きくすることである。目的関数に応じて、(x,y)をポジティブサンプル、(x,y')をネガティブサンプルと称する。目的関数はmin(sim(x,y')-sim(x,y))として示され得、トレーニングの場合、目的関数を最小収束にする。
ただし、サンプルグループの他のサンプルのターゲットセンテンスをトレーニングすると、y'の表意と非常に類似することがあり、例えば、「一撃必殺」や「弾無虚発」は、実際にx: 「One shot, one kill」の翻訳とすることができるが、語意類似度モデルは、xとy'よりもxとyの類似度が高いことを強制的に要求し、これは不合理である。それに基づいて、従来の語意類似度モデルが機械翻訳モデルによって翻訳された表意が同じターゲットセンテンスを認識する正確性は、非常に低いことがわかる。
上記の技術問題を解決するために、本出願は、機械翻訳におけるモデルトレーニング方法、装置、電子機器、及び記憶媒体を提供する。
本出願の一局面によれば、機械翻訳におけるモデルトレーニング方法を提供し、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成し、
第1のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングし、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成し、
第2のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングすることを含む。
本出願の他の局面によれば、機械翻訳におけるモデルトレーニング装置を提供し、装置は、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成するための第1の作成モジュールと、
第1のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングするための第1のトレーニングモジュールと、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成するための第2の作成モジュールと、
第2のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングするための第2のトレーニングモジュールと、を含む。
本出願のさらなる局面によれば、電子装置を提供し、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されるメモリとを含んでおり、
メモリには、少なくとも1つのプロセッサに実行可能なコマンドが記憶されており、少なくとも1つのプロセッサが上記に記載の方法を実行できるように、コマンドが少なくとも1つのプロセッサによって実行される。
本出願のさらに他の局面によれば、上記に記載の方法をコンピュータに実行させるためのコンピュータコマンドを記憶している非一時的コンピュータ可読記憶媒体を提供する。
本出願の技術によれば、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。
この部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を標識することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。
図面はこの方案をよりよく理解するためのものであり、本出願の制限を構成するものではない。
本出願の第1の実施例による模式図である。 本出願の第2の実施例による模式図である。 本出願のループ反復のトレーニング方式の模式図である。 本出願の第3の実施例による模式図である。 本出願の第4の実施例による模式図である。 本出願の実施例にかかる機械翻訳におけるモデルトレーニング方法を実現するための電子装置のブロック図である。
以下、図面に基づいて、本出願の例示的な実施例を記述する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。明らか、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は、本出願の第1の実施例による模式図であり、図1に示すように、本出願は、機械翻訳におけるモデルトレーニング方法を提供し、具体的に、以下のステップを含むことができる。
S101において、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成する。
本実施例にかかる機械翻訳におけるモデルトレーニング方法の実行本体は、機械翻訳におけるモデルトレーニング装置であってもよく、機械翻訳におけるモデルトレーニング装置は、独立した電子エンティティであってもよく、例えば、コンピュータのようなハードウェア装置であってもよい。又は、ソフトウェアを採用して集積するアプリケーションであってもよく、使用中、コンピュータ装置上で実行され、機械翻訳分野におけるモデルをトレーニングする。
S102において、第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングする。
S103において、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成する。
S104において、第2のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングする。
本実施例では、モデルトレーニングの場合、機械翻訳モデルと語意類似度モデルとの二つのモデルに係り、本実施例も、微調整のために、この二つのモデルの再トレーニングを実現するために用いられ、語意類似度モデルは、その性能を高めることができ、同じ表意を持つターゲットセンテンスを正確に認識することができる。即ち、同じ表意を持つ二つのターゲットセンテンスに対して高いスコアを付けることができる。
なお、本実施例にかかるトレーニングの前に、本実施例にかかる機械翻訳モデル及び語意類似度モデルは、また、それぞれ、深層学習技術に基づいて個別に独立してトレーニングされる。例えば、機械翻訳モデルは、パラレルコーパスを採用してトレーニングされることができ、パラレルコーパスにおける各サンプルの翻訳知識を学習できる。語意類似度モデルも背景技術の関連知識に従ってトレーニングされる。ただし、従来技術にかかる機械翻訳モデル及び語意類似度モデルは、いずれも個別に独立してトレーニングされる。従って、語意類似度モデルは翻訳後に同じ表意を持つターゲットセンテンスを正確に認識することができず、同じ表意を持つターゲットセンテンスを全部で翻訳のターゲットセンテンスとすることができない。それに基づいて、本実施例で採用されるトレーニング方法は、上記の技術を基に、本実施例の技術案を採用して、個別にプレトレーニングされた機械翻訳モデル及び語意類似度モデルを共同でトレーニングし、語意類似度モデルは同じ表意を持つターゲットセンテンスを正確に認識することができ、このようにして、語意類似度モデルの判断を参照し、機械翻訳モデルの翻訳結果を豊富にし、同じ表意を持つターゲットセンテンスを増加することができる。
具体的に、本実施例にかかるモデルのトレーニングは、具体的に、機械翻訳モデルをトレーニングするステップと語意類似度モデルをトレーニングするステップの2つの主要なステップに分けられており、本実施例において、共同トレーニングを実現するので、機械翻訳モデルをトレーニングする場合には、語意類似度モデルのパラメータを固定し、トレーニングプロセスの調整に関与しないと見なすことができる。同様に、意味的類似性モデルをトレーニングする場合には、機械翻訳モデルのパラメータを固定し、トレーニングプロセスの調整に関与しないと見なすことができる。
対象を絞ってトレーニングするために、トレーニングの各ステップの前に、相応するトレーニングデータセットを作成し、例えば、第1のトレーニングサンプルセットを作成し、機械翻訳モデルをトレーニングする。実施例において、目的は、機械翻訳モデルにサンプルの同じ表意を持つ異なる翻訳結果を学習させることであり、従って、本実施例において、第1のトレーニングサンプルセットを作成する場合に、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成することができる。即ち、第1のトレーニングサンプルセットには、1グループのサンプル、及び該当するグループのサンプル内の各サンプルのソースセンテンスに対応する類似ターゲットセンテンスを含んでいる。第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングすることにより、機械翻訳モデルは、サンプルにおけるソースセンテンスをターゲットセンテンスに翻訳することを学習するだけでなく、同時にサンプルにおけるソースセンテンスを類似ターゲットセンテンスに翻訳する能力を学習することができる。
機械翻訳モデルをトレーニングした後に、続いて語意類似度モデルをトレーニングし、語意類似度モデルをトレーニングする前に、第2のトレーニングサンプルセットを作成する必要がある。第2のトレーニングサンプルセットにはパラレルコーパスから選択した1グループのサンプルを含み、該当するグループのサンプル内の各サンプルのネガティブサンプルをマイニングする。即ち、パラレルコーパスから選択したサンプルは全てポジティブサンプルであり、マイニングされるものがネガティブサンプルである。第2のトレーニングサンプルセットを採用して語意類似度モデルをトレーニングすることにより、語意類似度モデルによるポジティブサンプルに対するスコアをネガティブサンプルよりも高くすることができ、語意類似度モデルの認識正確性をさらに向上させる。
なお、本実施例において、トレーニングプロセスにおいて、二つのモデルが収束するまで、上記のステップS101~S104を繰り返して実行し、機械翻訳モデル及び語意類似度モデルをループ反復してトレーニングする。
本実施例にかかる機械翻訳におけるモデルトレーニング方法によれば、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルにより、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成し、第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングし、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成し、第2のサンプルトレーニングセットを採用して語意類似度モデルをトレーニングすることにより、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。
そして、本実施例にかかる語意類似度モデルをトレーニングする場合に、入力されるデータは機械翻訳モデルの予測結果であり、従来技術のように、多くのトレーニングにおいて手動でラベリングされる翻訳結果を採用することはなく、トレーニング及び予測中にサンプルの分布が一致しないことを招き、モデルが予測中に機械翻訳結果に遭遇して認識できないという問題が発生する。本実施例の技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。
図2は、本出願の第2の実施例による模式図であり、図2に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング方法は、上記の図1に示された実施例の技術案を基に、本出願の技術案をより詳細に説明する。図2に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング方法は、具体的に、以下のステップを含むことができる。
S201において、パラレルコーパスから、1グループのサンプルを抽出する。
S202において、該当するグループのサンプルの各サンプルについて、機械翻訳モデル及び語意類似度モデルによって、各サンプルの類似ターゲットセンテンスをマイニングする。
本実施例において、パラレルコーパスのいずれかのサンプルにおけるソースセンテンスは同じ表意を持つ二つのターゲットセンテンスを有することができると想定できる。この場合、パラレルコーパスから1グループのサンプルをランダムに抽出することができる。1グループのサンプルの数は、1つ、2つ、又はそれ以上にすることができ、具体的な数は、トレーニングの各ステップで必要なサンプルの数に応じて設置できる。
抽出された該当するグループのサンプル内の各サンプルについて、そのサンプルにおけるソースセンテンスの翻訳後の対応するターゲットセンテンス以外の別の類似ターゲットセンテンスをマイニングする。例えば、具体的に、以下のように、各サンプルの類似ターゲットセンテンスをマイニングする。
(1)該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、及び複数の候補ターゲットセンテンスを取得する。
なお、各サンプルにおけるソースセンテンスを機械翻訳モデルに入力し、機械翻訳モデルは該当するソースセンテンスに対する全ての翻訳センテンスを出力でき、サンプルにおけるターゲットセンテンス及び複数の候補ターゲットセンテンスを含み、同時に、各ターゲットセンテンスの翻訳確率をさらに出力する。機械翻訳モデルはパラレルコーパスを採用してプレトレーニングされるので、ターゲットセンテンスの翻訳確率は最も高く、その他の候補ターゲットセンテンスの翻訳確率は相対的に低い。
(2)語意類似度モデルを採用して、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出する。
本実施例にかかる語意類似度モデルも予めトレーニングされ、該当するサンプルにおけるソースセンテンス及び各候補ターゲットセンテンスを一つの拡張サンプルとして、語意類似度モデルに入力し、語意類似度モデルは拡張サンプルの語意類似度を出力することもできる 。
(3)複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、サンプルの類似ターゲットセンテンスとして取得する。
本実施例において、複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、該当するサンプルの類似ターゲットセンテンスとして、即ち、該当するサンプルにおけるソースセンテンスに対応する、ターゲットセンテンスを除く別の類似ターゲットセンテンスとして選択することができる。
S203において、該当するグループのサンプルの各サンプルについて、サンプルのソースセンテンス及び類似ターゲットセンテンスを拡張サンプルとして、サンプルとともにサンプルペアを構成し、第1のトレーニングサンプルセットに追加する。
パラレルコーパスにおけるサンプル(x,y)について、本実施例の形態を採用すると、拡張して拡張サンプル(x,y')を得ることができ、y'とyとは表意が類似し、両方ともxの翻訳とすることができる。その後、(x,y)及び(x,y')をサンプルペアとして、それらを第1のトレーニングサンプルセットに追加する。同様に、第1のトレーニングサンプルセットに1グループのサンプルペアに追加することができる。
ステップS201~S203は上記の図1に示された実施例のステップS101の実現形態である。
また、任意選択で、本実施例において、第1のトレーニングサンプルセットをマイニングする場合には、パラレルコーパスの各サンプルに対して、上記の実施例のように、類似ターゲットセンテンス、及び類似ターゲットセンテンスの語意類似度を取得することもできる。次に、各サンプルの類似ターゲットセンテンスの語意類似度に基づいて、語意類似度が最も大きい1グループのサンプル、及び各サンプルに対応する類似ターゲットセンテンスを取得し、両方ともサンプルペアを構成し、第1のトレーニングデータセットに追加する。
S204において、語意類似度モデルのパラメータを固定し、第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングする。
該当するステップのトレーニングにおいて、語意類似度モデルのパラメータが固定され、第1のトレーニングサンプルセットのみを採用して機械翻訳モデルのパラメータを調整する。第1のトレーニングサンプルセットにおいて選択されるサンプルペアは、語意類似度に応じて選択された類似度が最も高いサンプルであるので、第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングすることは、機械翻訳モデルの翻訳結果の多様性を高め、及び対応する類似ターゲットセンテンスの翻訳信頼度を向上することを目的とする。
本実施例における語意類似度モデル及び機械翻訳モデルは個別に独立してトレーニングされたので、本実施例にかかるトレーニングは、従来のトレーニングされたモデルを基に、機械翻訳モデルのパラメータを微調整し、その翻訳結果の多様性を高め、及び類似ターゲットセンテンスの翻訳信頼度を向上させると見なすことができる。
S205において、パラレルコーパスから、1グループのサンプルを抽出する。
任意選択で、抽出方式は上記ステップS201と同じで、ランダムに選択できる。
S206において、該当するグループのサンプルの各サンプルについて、機械翻訳モデル及び語意類似度モデルによって、各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングする。
該当するステップのマイニングは、翻訳確率がプリセット確率閾値よりも低いが、語意類似度が依然として良好であり、予め設定された類似度閾値以上であり得るネガティブサンプルを取得するために用いられる。このようにして、高い語意類似度のネガティブサンプルを選択することを回避することができ、さらに、トレーニングサンプルと予測サンプルとの分布が一致しないという問題を回避することもできる。
例えば、以下のように、各サンプルに対応するネガティブサンプルをマイニングすることができる。
(A)該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び各候補ターゲットセンテンスの翻訳確率を取得する。
(B)各候補ターゲットセンテンスの翻訳確率に応じて、複数の候補ターゲットセンテンスから、翻訳確率が予め設定された翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択する。
つまり、本実施例において、好ましくは、翻訳確率が低い候補ターゲットセンテンスでネガティブサンプルを生成し、高い語意類似度のネガティブサンプルを選択することを回避する。
(C)語意類似度モデルを採用してソースセンテンスと各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出する。
(D)複数のバックアップターゲットセンテンスから、語意類似度が予め設定された類似度閾値以上であるバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして取得し、サンプルのソースセンテンスとともにネガティブサンプルを構成する。
例えば、好ましくは、語意類似度が語意類似度閾値よりも大きく、且つ語意類似度閾値に最も近いバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして選択し、高い語意類似度のネガティブサンプルを選択することを回避する。
S207において、該当するグループのサンプルの各サンプルについて、サンプルをネガティブサンプルとともにサンプルペアを構成し、第2のトレーニングサンプルセットに追加する。
ステップS205~S207は上記の図1に示された実施例のステップS103の実現形態である。
また、任意選択で、第2のトレーニングサンプルセットの選択中に、パラレルコーパスにおける各サンプルに対して上記の処理を行って、各サンプルに対応するネガティブサンプル、及びネガティブサンプルに対応する語意類似度を取得することができる。その後、その中から、ネガティブサンプルの語意類似度が予め設定された類似度閾値に最も近い1グループのサンプルを選択し、一緒に第2のトレーニングサンプルセットを構成する。上記方式で作成される第2のトレーニングサンプルセットは、高い語意類似度のネガティブサンプルを選択することを効果的に回避することもできる。
S208において、機械翻訳モデルのパラメータを固定し、第2のトレーニングサンプルセットを採用して、語意類似度モデルをトレーニングする。
該当するステップのトレーニングを経って、語意類似度モデルに、第2のトレーニングセットにおける各サンプルペアのうちポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くすることを学習させることができる。第2のトレーニングサンプルセットにおいて、既に、ネガティブサンプルがポジティブサンプルの高い語意類似度のサンプルであるのを回避することを保証したので、高い語意類似度のネガティブサンプルは、語意類似度モデルのトレーニングに影響を与えるために選択されない。このようにトレーニングされた語意類似度モデルは、同じ表意を持つポジティブサンプルとネガティブサンプルのペアを選択して語意類似度モデルをトレーニングすることはないため、語意類似度モデルが同じ表意を持つサンプルを認識する性能を高めることができる。そして、該当するステップのトレーニングにおいて、第2のトレーニングサンプルセットにおけるネガティブサンプルは、すべて、マシン翻訳モデルの実際の翻訳結果であり、手動でラベル付けせず、語意類似度モデルのトレーニングデータの有効性と真実性を効果的に保証することができ、ひいては、使用中に、語意類似度モデルの正確性と安定性を確保することができる。予測サンプルとトレーニングサンプルとの分布が一致せず、認識できないという問題が存在しない。
また、なお、本実施例において、二つのモデルが収束するまで、ステップS201-S208を繰り返して実行し、図3に示された実施例のループ反復のトレーニングのように、機械翻訳モデル及び語意類似度モデルを一緒にループ反復してトレーニングし、互いに最適化することができる。ただし、本実施例にかかるトレーニングプロセスにおいて、機械翻訳モデルを使用し、機械翻訳モデルもトレーニングしたが、機械翻訳モデルを最適化することはその付随する効果に過ぎない。機械翻訳モデルの翻訳の多様性を豊富にするとともに、機械翻訳モデルの正確性を保証することができないためである。機械翻訳モデルの正確性は語意類似度モデルで検証される必要があるため、最終的な効果は、語意類似度モデルの性能を高めることであり、機械翻訳モデルは、語意類似度モデルのトレーニングを支援するためにのみ使用される。従って、本実施例にかかる共同トレーニングされた後の語意類似度モデルは、類似ターゲットセンテンスを認識することができ、類似ターゲットセンテンスが相応する高スコアを有することを保証し、その性能を高めることもできる。
本実施例にかかる機械翻訳におけるモデルトレーニング方法によれば、上記の技術案を採用し、二つのモデルを共同でトレーニングすることにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。そして、本実施例にかかる技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。
図4は、本出願の第3の実施例による模式図であり、図4に示すように、本実施例は、機械翻訳におけるモデルトレーニング装置400を提供し、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成するための第1の作成モジュール401と、
第1のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングするための第1のトレーニングモジュール402と、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成するための第2の作成モジュール403と、
第2のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングするための第2のトレーニングモジュール404と、を含む。
本実施例にかかる機械翻訳におけるモデルトレーニング装置400は、上記モジュールを採用して機械翻訳におけるモデルトレーニングを実現する実現原理及び技術効果は、上記の関連する方法実施例の実現と同じであり、詳細は、上記の関連する方法実施例の記載を参照でき、ここで再度説明されない。
図5は本出願の第4の実施例による模式図であり、図5に示すように、本実施例は機械翻訳におけるモデルトレーニング装置400を提供し、上記の図4に示された実施例の技術案を基に、本出願の技術案をより詳細を説明する。
図5に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング装置400において、第1の作成モジュール401は、
パラレルコーパスから、1グループのサンプルを抽出するための第1の抽出ユニット4011と、
該当するグループのサンプルの各サンプルについて、機械翻訳モデル、及び語意類似度モデルによって、各サンプルの類似ターゲットセンテンスをマイニングするための第1のマイニングユニット4012と、
該当するグループのサンプルの各サンプルについて、サンプルのソースセンテンス及び類似ターゲットセンテンスを拡張サンプルとして、サンプルとともにサンプルペアを構成し、第1のトレーニングサンプルセットに追加するための第1の処理ユニット4013とを含む。
さらに、任意選択で、第1のマイニングユニット4012は、
該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、及び複数の候補ターゲットセンテンスを取得し、
語意類似度モデルを採用して、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、サンプルの類似ターゲットセンテンスとして取得するために用いられる。
さらに、任意選択で、図5に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング装置400において、第2の作成モジュール403は、
パラレルコーパスから、1グループのサンプルを抽出するための第2の抽出ユニット4031と、
該当するグループのサンプル内の各サンプルについて、機械翻訳モデル、及び語意類似度モデルによって、各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングするための第2のマイニングユニット4032と、
該当するグループのサンプル内の各サンプルについて、サンプルをネガティブサンプルとともにサンプルペアを構成し、第2のトレーニングサンプルセットに追加するための第2の処理ユニット4033とを含む。
さらに、第2のマイニングユニット4032は、
該当するグループのサンプル内の各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び各候補ターゲットセンテンスの翻訳確率を取得し、
各候補ターゲットセンテンスの翻訳確率に応じて、複数の候補ターゲットセンテンスから、翻訳確率が予め設定された翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
語意類似度モデルを採用して、ソースセンテンスと各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
複数のバックアップターゲットセンテンスから、語意類似度が予め設定された類似度閾値以上であるバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして取得し、サンプルのソースセンテンスとともにネガティブサンプルを構成するために用いられる。
本実施例にかかる機械翻訳におけるモデルトレーニング装置400は、上記のモジュールを採用して機械翻訳におけるモデルトレーニングを実現する実現原理及び技術効果は、上記の関連する方法実施例の実現と同じであり、詳細は、上記の関連する方法実施例の記載を参照でき、ここで再度説明されない。
本出願の実施例によれば、本出願は、さらに、電子機器、及び可読記憶媒体を提供する。
図6に示すように、本出願の実施例にかかる機械翻訳におけるモデルトレーニング方法を実現する電子装置のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子機器は、様々な形式のモバイル装置、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。明細書で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本出願の実現を限定することが意図されない。
図6に示すように、この電子機器は、一つ又は複数のプロセッサ601、メモリ602、及び各構成要素に接続するためのインターフェースを含み、高速インターフェース及び低速インターフェースを含む。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子機器内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子機器が接続されてもよく、それぞれの装置が必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図6において、一つのプロセッサ601を例にとる。
メモリ602は、本出願で提供される非一時的コンピュータ可読記録媒体である。なお、メモリ記憶装置には、少なくとも1つのプロセッサが本出願で提供される機械翻訳におけるモデルトレーニング方法を実行するように、少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記録媒体は、本出願で提供される機械翻訳におけるモデルトレーニング方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ602は、非一時的コンピュータ可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における機械翻訳におけるモデルトレーニング方法に対応するプログラムコマンド/ユニット(例えば、図4及び図5に示された関連するモジュール)を記憶するために用いられる。プロセッサ601は、メモリ602に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における機械翻訳におけるモデルトレーニング方法を実現する。
メモリ602は、記憶プログラム領域及び記憶データ領域を含んでもよく、記憶プログラム領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は機械翻訳におけるモデルトレーニング方法を実現する電子機器の使用により作成されたデータなどを記憶してもよい。また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ602は、プロセッサ601に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して機械翻訳におけるモデルトレーニング方法を実現する電子機器に接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
機械翻訳におけるモデルトレーニング方法を実現する電子装置は、入力装置603及び出力装置604をさらに含むことができる。プロセッサ601、メモリ602、入力装置603、及び出力装置604は、バス又は他の方式で接続されてもよく、図6に、バスで接続されることを例にとる。
入力装置603は、入力された数字又はキャラクタ情報を受信し、機械翻訳におけるモデルトレーニング方法を実現する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。 いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラム可能なシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械コマンドを含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械コマンドを受け取る機械可読媒体を含むプログラマブルプロセッサに機械コマンド及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械コマンド及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であり得、ユーザからの入力は、任意の形態で(音響、発話、又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術的実施形態は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、グラフィカルユーザインターフェースもしくはウェブブラウザを通じて本明細書で説明されるシステムと技術的実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。ステムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワーク、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係にあるコンピュータプログラムによって生じる。
本出願の実施例の技術案によれば、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルにより、1グループのサンプルの類似ターゲットセンテンスをマイニングし、第1のトレーニングサンプルセットを作成し、第1のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングし、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第2のトレーニングサンプルセットを作成し、第2のサンプルトレーニングセットを採用して語意類似度モデルをトレーニングすることにより、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。
本出願の実施例の技術案によれば、語意類似度モデルをトレーニングする場合に、入力されるデータは機械翻訳モデルの予測結果であり、従来技術のように、多くのトレーニングにおいて手動でラベリングされる翻訳結果を採用することはなく、トレーニング及び予測中にサンプルの分布が一致しないことを招き、モデルが予測中に機械翻訳結果に遭遇して認識できないという問題が発生する。本実施例の技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. 機械翻訳におけるモデルトレーニング方法であって、
    パラレルコーパスから1グループのサンプルを抽出し、機械翻訳モデル及び語意類似度モデルを採用して、当該1グループのサンプルにおける各サンプルの拡張サンプルをマイニングし、各サンプルとその拡張サンプルで第1のトレーニングサンプルセットを作成し、
    前記第1のトレーニングサンプルセットを採用して、前記機械翻訳モデルをトレーニングし、
    前記パラレルコーパスから1グループのサンプルを抽出し、前記機械翻訳モデル及び前記語意類似度モデルを採用して、当該1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、各サンプルとそのネガティブサンプルで第2のトレーニングサンプルセットを作成し、
    前記第2のトレーニングサンプルセットを採用して、前記語意類似度モデルによるポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くするように、前記語意類似度モデルをトレーニングすることを含み、
    前記機械翻訳モデルは、ソースセンテンスを翻訳して、ターゲットセンテンスと、翻訳確率が前記ターゲットセンテンスより小さい複数の候補ターゲットセンテンスを得るモデルであり、
    前記語意類似度モデルは、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出するモデルであり、
    前記類似ターゲットセンテンスは、前記複数の候補ターゲットセンテンスにおけるソースセンテンスとの語意類似度が最も大きい候補センテンスであ
    前記拡張サンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する語意類似度が最も高い候補ターゲットセンテンスからなり、
    前記ネガティブサンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく語意類似度が予め設定された類似度閾値以上である候補ターゲットセンテンスからなる、方法。
  2. 前記第1のトレーニングサンプルセットを作成することは、
    前記パラレルコーパスから、1グループのサンプルを抽出し、
    前記1グループのサンプルの各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルの類似ターゲットセンテンスをマイニングし、
    前記1グループのサンプルの前記各サンプルについて、前記サンプルのソースセンテンス及び前記類似ターゲットセンテンスを拡張サンプルとして、前記サンプルとともにサンプルペアを構成し、前記第1のトレーニングサンプルセットに追加することを含む請求項1に記載の方法。
  3. 前記各サンプルの類似ターゲットセンテンスをマイニングすることは、
    前記1グループのサンプルの前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおける複数の候補ターゲットセンテンスを取得し、
    前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
    前記複数の候補ターゲットセンテンスから、ソースセンテンスとの語意類似度が最も大きい候補ターゲットセンテンスを、前記サンプルの類似ターゲットセンテンスとして取得することを含む請求項2に記載の方法。
  4. 前記第2のトレーニングサンプルセットを作成することは、
    前記パラレルコーパスから、1グループのサンプルを抽出し、
    前記1グループのサンプル内の前記各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングし、
    前記1グループの前記サンプル内の前記各サンプルについて、前記サンプルと前記ネガティブサンプルとでサンプルペアを構成し、前記第2のトレーニングサンプルセットに追加することを含む請求項1~3のいずれか一項に記載の方法。
  5. 前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングすることは、
    前記1グループの前記サンプル内の前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスの翻訳確率を取得し、
    前記各候補ターゲットセンテンスの翻訳確率に応じて、前記複数の候補ターゲットセンテンスから、翻訳確率が前記翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
    前記語意類似度モデルを採用して、前記サンプルにおける前記ソースセンテンスと前記複数のバックアップターゲットセンテンスにおける各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
    前記複数のバックアップターゲットセンテンスから、前記語意類似度が前記類似度閾値以上であるバックアップターゲットセンテンスを、前記ネガティブサンプルのターゲットセンテンスとして取得し、前記サンプルにおける前記ソースセンテンスとともに前記ネガティブサンプルを構成することを含む請求項4に記載の方法。
  6. 機械翻訳におけるモデルトレーニング装置であって、
    パラレルコーパスから1グループのサンプルを抽出し、機械翻訳モデル及び語意類似度モデルを採用して、当該1グループのサンプルにおける各サンプルの拡張サンプルをマイニングし、各サンプルとその拡張サンプルで第1のトレーニングサンプルセットを作成する第1の作成モジュールと、
    前記第1のトレーニングサンプルセットを採用して、前記語意類似度モデルによるポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くするように、前記機械翻訳モデルをトレーニングする第1のトレーニングモジュールと、
    前記パラレルコーパスから1グループのサンプルを抽出し、前記機械翻訳モデル及び前記語意類似度モデルを採用して、当該1グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、各サンプルとそのネガティブサンプルで第2のトレーニングサンプルセットを作成する第2の作成モジュールと、
    前記第2のトレーニングサンプルセットを採用して、前記語意類似度モデルをトレーニングする第2のトレーニングモジュールと、
    を含み、
    前記機械翻訳モデルは、ソースセンテンスを翻訳して、ターゲットセンテンスと、翻訳確率が前記ターゲットセンテンスより小さい複数の候補ターゲットセンテンスを得るモデルであり、
    前記語意類似度モデルは、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出するモデルであり、
    前記類似ターゲットセンテンスは、前記複数の候補ターゲットセンテンスにおけるソースセンテンスとの語意類似度が最も大きい候補センテンスであ
    前記拡張サンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する語意類似度が最も高い候補ターゲットセンテンスからなり、
    前記ネガティブサンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく語意類似度が予め設定された類似度閾値以上である候補ターゲットセンテンスからなる、モデルトレーニング装置。
  7. 前記第1の作成モジュールは、
    前記パラレルコーパスから、1グループのサンプルを抽出する第1の抽出ユニットと、
    前記1グループの前記サンプルの各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルの類似ターゲットセンテンスをマイニングする第1のマイニングユニットと、
    前記1グループの前記サンプルの前記各サンプルについて、前記サンプルのソースセンテンス及び前記類似ターゲットセンテンスを拡張サンプルとして、前記サンプルとともにサンプルペアを構成し、前記第1のトレーニングサンプルセットに追加する第1の処理ユニットと、
    を含む請求項6に記載のモデルトレーニング装置。
  8. 前記第1のマイニングユニットは、
    前記1グループの前記サンプルの前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおける複数の候補ターゲットセンテンスを取得し、
    前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
    前記複数の候補ターゲットセンテンスから、ソースセンテンスとの語意類似度が最も大きい候補ターゲットセンテンスを、前記サンプルの類似ターゲットセンテンスとして取得する、請求項7に記載のモデルトレーニング装置。
  9. 前記第2の作成モジュールは、
    前記パラレルコーパスから、1グループのサンプルを抽出する第2の抽出ユニットと、
    前記1グループのサンプル内の各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングする第2のマイニングユニットと、
    前記1グループの前記サンプル内の各前記サンプルについて、前記サンプルと前記ネガティブサンプルとでサンプルペアを構成し、前記第2のトレーニングサンプルセットに追加する第2の処理ユニットと、
    を含む請求項6~8のいずれか一項に記載のモデルトレーニング装置。
  10. 前記第2のマイニングユニットは、
    前記1グループの前記サンプル内の前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスの翻訳確率を取得し、
    前記各候補ターゲットセンテンスの翻訳確率に応じて、前記複数の候補ターゲットセンテンスから、翻訳確率が前記翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
    前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数のバックアップターゲットセンテンスにおける各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
    前記複数のバックアップターゲットセンテンスから、前記語意類似度が前記類似度閾値以上であるバックアップターゲットセンテンスを、前記ネガティブサンプルのターゲットセンテンスとして取得し、前記サンプルのソースセンテンスとともに前記ネガティブサンプルを構成する、請求項9に記載のモデルトレーニング装置。
  11. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されており、前記少なくとも1つのプロセッサが請求項1~5のいずれか一項に記載の方法を実行できるように、前記コマンドが前記少なくとも1つのプロセッサによって実行される電子機器。
  12. 請求項1~5のいずれか一項に記載の方法をコンピュータに実行させるコンピュータコマンドを記憶している非一時的コンピュータ可読記憶媒体。
  13. 請求項1~5のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
JP2020192793A 2020-06-16 2020-11-19 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体 Active JP7222162B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010550591.5 2020-06-16
CN202010550591.5A CN111859997B (zh) 2020-06-16 2020-06-16 机器翻译中的模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021197131A JP2021197131A (ja) 2021-12-27
JP7222162B2 true JP7222162B2 (ja) 2023-02-15

Family

ID=72987286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020192793A Active JP7222162B2 (ja) 2020-06-16 2020-11-19 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体

Country Status (5)

Country Link
US (1) US11704498B2 (ja)
EP (1) EP3926513A1 (ja)
JP (1) JP7222162B2 (ja)
KR (1) KR102554758B1 (ja)
CN (1) CN111859997B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329475B (zh) * 2020-11-03 2022-05-20 海信视像科技股份有限公司 语句处理方法及装置
CN112417895A (zh) * 2020-12-15 2021-02-26 广州博冠信息科技有限公司 弹幕数据处理方法、装置、设备以及存储介质
CN113609863B (zh) * 2021-02-04 2024-05-07 腾讯科技(深圳)有限公司 一种训练、使用数据转换模型的方法、装置及计算机设备
CN114282551B (zh) * 2021-11-15 2023-02-24 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质
CN114548261A (zh) * 2022-02-18 2022-05-27 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN114757203A (zh) * 2022-04-27 2022-07-15 北京智谱华章科技有限公司 基于对比学习的中文句子精简方法和系统
CN114757214B (zh) * 2022-05-12 2023-01-31 北京百度网讯科技有限公司 用于优化翻译模型的样本语料的选取方法、相关装置
CN115081462A (zh) * 2022-06-15 2022-09-20 京东科技信息技术有限公司 翻译模型训练、翻译方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN105808530B (zh) * 2016-03-23 2019-11-08 苏州大学 一种统计机器翻译中的翻译方法和装置
US10504004B2 (en) * 2016-09-16 2019-12-10 General Dynamics Mission Systems, Inc. Systems and methods for deep model translation generation
CN108304390B (zh) * 2017-12-15 2020-10-16 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、训练装置、翻译方法及存储介质
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
US11151334B2 (en) * 2018-09-26 2021-10-19 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
US11037028B2 (en) * 2018-12-31 2021-06-15 Charles University Faculty of Mathematics and Physics Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN110110337B (zh) * 2019-05-08 2023-04-18 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110210041B (zh) * 2019-05-23 2023-04-18 北京百度网讯科技有限公司 互译句对齐方法、装置及设备
CN110674260B (zh) * 2019-09-27 2022-05-24 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
CN110807332B (zh) * 2019-10-30 2024-02-27 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
TWI753325B (zh) * 2019-11-25 2022-01-21 國立中央大學 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
CN110941964B (zh) * 2019-12-11 2023-08-15 北京小米移动软件有限公司 双语语料筛选方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mandy Guo 他10名,Effective Parallel Corpus Mining using Bilingual Sentence Embeddings[online],2018年08月02日,(検索日2022年01月25日),URL:https://arxiv.org/pdf/1807.11906/pdf

Also Published As

Publication number Publication date
US11704498B2 (en) 2023-07-18
EP3926513A1 (en) 2021-12-22
KR20210156202A (ko) 2021-12-24
CN111859997B (zh) 2024-01-26
US20210390266A1 (en) 2021-12-16
CN111859997A (zh) 2020-10-30
KR102554758B1 (ko) 2023-07-11
JP2021197131A (ja) 2021-12-27

Similar Documents

Publication Publication Date Title
JP7222162B2 (ja) 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7126542B2 (ja) データセット処理方法、装置、電子機器及び記憶媒体
JP7214954B2 (ja) 言語モデルのトレーニング方法、装置、電子機器、プログラム及び可読記憶媒体
US11574133B2 (en) Method, electronic device, and storage medium for training text generation model
JP7267342B2 (ja) 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
US20210248484A1 (en) Method and apparatus for generating semantic representation model, and storage medium
US20210200949A1 (en) Pre-training method for sentiment analysis model, and electronic device
US11410084B2 (en) Method and apparatus for training machine reading comprehension model, and storage medium
US11443100B2 (en) Method and apparatus for correcting character errors, electronic device and storage medium
CN111079945B (zh) 端到端模型的训练方法及装置
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN112633017A (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
US11461549B2 (en) Method and apparatus for generating text based on semantic representation, and medium
JP7308903B2 (ja) ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
JP2023027194A (ja) 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム
CN113160822A (zh) 语音识别处理方法、装置、电子设备以及存储介质
CN111310481B (zh) 语音翻译方法、装置、计算机设备和存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
JP7216133B2 (ja) 対話生成方法、装置、電子機器及び記憶媒体
JP7268113B2 (ja) 音声認識方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230111

R150 Certificate of patent or registration of utility model

Ref document number: 7222162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150