JP7222162B2

JP7222162B2 - 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体

Info

Publication number: JP7222162B2
Application number: JP2020192793A
Authority: JP
Inventors: ジャン、ルイキン; ジャン、チュアンキアン; ヘ、ジョンジュン; リ、ジ; ウ、フア
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-11-19
Publication date: 2023-02-15
Anticipated expiration: 2040-11-19
Also published as: CN111859997B; JP2021197131A; KR20210156202A; CN111859997A; KR102554758B1; US20210390266A1; EP3926513A1; US11704498B2

Description

本出願は、コンピュータ技術の分野に関し、特に、自然言語処理の技術分野、及び深層学習の技術分野に関し、具体的に、機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体に関する。

自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）では、よく機械翻訳に関し、現在、主に、深層学習技術に基づいて予めトレーニングされた機械翻訳モデルを採用してセンテンスを翻訳する。ただし、場合によって、１つのソースセンテンスについて、同じ表意を持つ異なる翻訳結果が存在し得、それらは全てソースセンテンスの翻訳結果とすることができる。例えば、この場合、語意類似度モデルを採用して翻訳結果が類似するかどうかを測定することができる。

従来の機械翻訳分野の語意類似度モデルはパラレルコーパスを採用してトレーニングすることができる。パラレルコーパスには、複数のサンプルを含み、各サンプルが１つのセンテンスペア（ｘ，ｙ）を含み、ｘがソースセンテンスであり、ｙが翻訳後のターゲットセンテンスであり、ソースセンテンスとターゲットセンテンスとが異なる言語を採用する。語意類似度モデルは、ソース言語及びターゲット言語を同一の表示空間（ｅｍｂ）にマッピングすることができる。具体的に、パラレルコーパスにおける各センテンスペア（ｘ，ｙ）について、トレーニングの目的は、（ｘ，ｙ）間の類似度ｓｉｍ（ｘ，ｙ）を、ｘとトレーニングサンプルグループ（ｂａｔｃｈ）における任意の他のサンプルに対応するターゲットセンテンスｙ'との類似度ｓｉｍ（ｘ，ｙ'）よりも大きくすることである。目的関数に応じて、（ｘ，ｙ）をポジティブサンプル、（ｘ，ｙ'）をネガティブサンプルと称する。目的関数はｍｉｎ（ｓｉｍ（ｘ，ｙ'）－ｓｉｍ（ｘ，ｙ））として示され得、トレーニングの場合、目的関数を最小収束にする。

ただし、サンプルグループの他のサンプルのターゲットセンテンスをトレーニングすると、ｙ'の表意と非常に類似することがあり、例えば、「一撃必殺」や「弾無虚発」は、実際にｘ：「Ｏｎｅｓｈｏｔ，ｏｎｅｋｉｌｌ」の翻訳とすることができるが、語意類似度モデルは、ｘとｙ'よりもｘとｙの類似度が高いことを強制的に要求し、これは不合理である。それに基づいて、従来の語意類似度モデルが機械翻訳モデルによって翻訳された表意が同じターゲットセンテンスを認識する正確性は、非常に低いことがわかる。

上記の技術問題を解決するために、本出願は、機械翻訳におけるモデルトレーニング方法、装置、電子機器、及び記憶媒体を提供する。

本出願の一局面によれば、機械翻訳におけるモデルトレーニング方法を提供し、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成し、
第１のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングし、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成し、
第２のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングすることを含む。

本出願の他の局面によれば、機械翻訳におけるモデルトレーニング装置を提供し、装置は、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成するための第１の作成モジュールと、
第１のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングするための第１のトレーニングモジュールと、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成するための第２の作成モジュールと、
第２のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングするための第２のトレーニングモジュールと、を含む。

本出願のさらなる局面によれば、電子装置を提供し、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサと通信接続されるメモリとを含んでおり、
メモリには、少なくとも１つのプロセッサに実行可能なコマンドが記憶されており、少なくとも１つのプロセッサが上記に記載の方法を実行できるように、コマンドが少なくとも１つのプロセッサによって実行される。

本出願のさらに他の局面によれば、上記に記載の方法をコンピュータに実行させるためのコンピュータコマンドを記憶している非一時的コンピュータ可読記憶媒体を提供する。

本出願の技術によれば、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。

この部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を標識することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。

図面はこの方案をよりよく理解するためのものであり、本出願の制限を構成するものではない。
本出願の第１の実施例による模式図である。本出願の第２の実施例による模式図である。本出願のループ反復のトレーニング方式の模式図である。本出願の第３の実施例による模式図である。本出願の第４の実施例による模式図である。本出願の実施例にかかる機械翻訳におけるモデルトレーニング方法を実現するための電子装置のブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を記述する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。明らか、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は、本出願の第１の実施例による模式図であり、図１に示すように、本出願は、機械翻訳におけるモデルトレーニング方法を提供し、具体的に、以下のステップを含むことができる。

Ｓ１０１において、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成する。

本実施例にかかる機械翻訳におけるモデルトレーニング方法の実行本体は、機械翻訳におけるモデルトレーニング装置であってもよく、機械翻訳におけるモデルトレーニング装置は、独立した電子エンティティであってもよく、例えば、コンピュータのようなハードウェア装置であってもよい。又は、ソフトウェアを採用して集積するアプリケーションであってもよく、使用中、コンピュータ装置上で実行され、機械翻訳分野におけるモデルをトレーニングする。

Ｓ１０２において、第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングする。

Ｓ１０３において、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成する。

Ｓ１０４において、第２のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングする。

本実施例では、モデルトレーニングの場合、機械翻訳モデルと語意類似度モデルとの二つのモデルに係り、本実施例も、微調整のために、この二つのモデルの再トレーニングを実現するために用いられ、語意類似度モデルは、その性能を高めることができ、同じ表意を持つターゲットセンテンスを正確に認識することができる。即ち、同じ表意を持つ二つのターゲットセンテンスに対して高いスコアを付けることができる。

なお、本実施例にかかるトレーニングの前に、本実施例にかかる機械翻訳モデル及び語意類似度モデルは、また、それぞれ、深層学習技術に基づいて個別に独立してトレーニングされる。例えば、機械翻訳モデルは、パラレルコーパスを採用してトレーニングされることができ、パラレルコーパスにおける各サンプルの翻訳知識を学習できる。語意類似度モデルも背景技術の関連知識に従ってトレーニングされる。ただし、従来技術にかかる機械翻訳モデル及び語意類似度モデルは、いずれも個別に独立してトレーニングされる。従って、語意類似度モデルは翻訳後に同じ表意を持つターゲットセンテンスを正確に認識することができず、同じ表意を持つターゲットセンテンスを全部で翻訳のターゲットセンテンスとすることができない。それに基づいて、本実施例で採用されるトレーニング方法は、上記の技術を基に、本実施例の技術案を採用して、個別にプレトレーニングされた機械翻訳モデル及び語意類似度モデルを共同でトレーニングし、語意類似度モデルは同じ表意を持つターゲットセンテンスを正確に認識することができ、このようにして、語意類似度モデルの判断を参照し、機械翻訳モデルの翻訳結果を豊富にし、同じ表意を持つターゲットセンテンスを増加することができる。

具体的に、本実施例にかかるモデルのトレーニングは、具体的に、機械翻訳モデルをトレーニングするステップと語意類似度モデルをトレーニングするステップの２つの主要なステップに分けられており、本実施例において、共同トレーニングを実現するので、機械翻訳モデルをトレーニングする場合には、語意類似度モデルのパラメータを固定し、トレーニングプロセスの調整に関与しないと見なすことができる。同様に、意味的類似性モデルをトレーニングする場合には、機械翻訳モデルのパラメータを固定し、トレーニングプロセスの調整に関与しないと見なすことができる。

対象を絞ってトレーニングするために、トレーニングの各ステップの前に、相応するトレーニングデータセットを作成し、例えば、第１のトレーニングサンプルセットを作成し、機械翻訳モデルをトレーニングする。実施例において、目的は、機械翻訳モデルにサンプルの同じ表意を持つ異なる翻訳結果を学習させることであり、従って、本実施例において、第１のトレーニングサンプルセットを作成する場合に、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成することができる。即ち、第１のトレーニングサンプルセットには、１グループのサンプル、及び該当するグループのサンプル内の各サンプルのソースセンテンスに対応する類似ターゲットセンテンスを含んでいる。第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングすることにより、機械翻訳モデルは、サンプルにおけるソースセンテンスをターゲットセンテンスに翻訳することを学習するだけでなく、同時にサンプルにおけるソースセンテンスを類似ターゲットセンテンスに翻訳する能力を学習することができる。

機械翻訳モデルをトレーニングした後に、続いて語意類似度モデルをトレーニングし、語意類似度モデルをトレーニングする前に、第２のトレーニングサンプルセットを作成する必要がある。第２のトレーニングサンプルセットにはパラレルコーパスから選択した１グループのサンプルを含み、該当するグループのサンプル内の各サンプルのネガティブサンプルをマイニングする。即ち、パラレルコーパスから選択したサンプルは全てポジティブサンプルであり、マイニングされるものがネガティブサンプルである。第２のトレーニングサンプルセットを採用して語意類似度モデルをトレーニングすることにより、語意類似度モデルによるポジティブサンプルに対するスコアをネガティブサンプルよりも高くすることができ、語意類似度モデルの認識正確性をさらに向上させる。

なお、本実施例において、トレーニングプロセスにおいて、二つのモデルが収束するまで、上記のステップＳ１０１～Ｓ１０４を繰り返して実行し、機械翻訳モデル及び語意類似度モデルをループ反復してトレーニングする。

本実施例にかかる機械翻訳におけるモデルトレーニング方法によれば、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルにより、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成し、第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングし、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成し、第２のサンプルトレーニングセットを採用して語意類似度モデルをトレーニングすることにより、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。

そして、本実施例にかかる語意類似度モデルをトレーニングする場合に、入力されるデータは機械翻訳モデルの予測結果であり、従来技術のように、多くのトレーニングにおいて手動でラベリングされる翻訳結果を採用することはなく、トレーニング及び予測中にサンプルの分布が一致しないことを招き、モデルが予測中に機械翻訳結果に遭遇して認識できないという問題が発生する。本実施例の技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。

図２は、本出願の第２の実施例による模式図であり、図２に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング方法は、上記の図１に示された実施例の技術案を基に、本出願の技術案をより詳細に説明する。図２に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング方法は、具体的に、以下のステップを含むことができる。

Ｓ２０１において、パラレルコーパスから、１グループのサンプルを抽出する。

Ｓ２０２において、該当するグループのサンプルの各サンプルについて、機械翻訳モデル及び語意類似度モデルによって、各サンプルの類似ターゲットセンテンスをマイニングする。

本実施例において、パラレルコーパスのいずれかのサンプルにおけるソースセンテンスは同じ表意を持つ二つのターゲットセンテンスを有することができると想定できる。この場合、パラレルコーパスから１グループのサンプルをランダムに抽出することができる。１グループのサンプルの数は、１つ、２つ、又はそれ以上にすることができ、具体的な数は、トレーニングの各ステップで必要なサンプルの数に応じて設置できる。

抽出された該当するグループのサンプル内の各サンプルについて、そのサンプルにおけるソースセンテンスの翻訳後の対応するターゲットセンテンス以外の別の類似ターゲットセンテンスをマイニングする。例えば、具体的に、以下のように、各サンプルの類似ターゲットセンテンスをマイニングする。

（１）該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、及び複数の候補ターゲットセンテンスを取得する。
なお、各サンプルにおけるソースセンテンスを機械翻訳モデルに入力し、機械翻訳モデルは該当するソースセンテンスに対する全ての翻訳センテンスを出力でき、サンプルにおけるターゲットセンテンス及び複数の候補ターゲットセンテンスを含み、同時に、各ターゲットセンテンスの翻訳確率をさらに出力する。機械翻訳モデルはパラレルコーパスを採用してプレトレーニングされるので、ターゲットセンテンスの翻訳確率は最も高く、その他の候補ターゲットセンテンスの翻訳確率は相対的に低い。

（２）語意類似度モデルを採用して、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出する。
本実施例にかかる語意類似度モデルも予めトレーニングされ、該当するサンプルにおけるソースセンテンス及び各候補ターゲットセンテンスを一つの拡張サンプルとして、語意類似度モデルに入力し、語意類似度モデルは拡張サンプルの語意類似度を出力することもできる。

（３）複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、サンプルの類似ターゲットセンテンスとして取得する。

本実施例において、複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、該当するサンプルの類似ターゲットセンテンスとして、即ち、該当するサンプルにおけるソースセンテンスに対応する、ターゲットセンテンスを除く別の類似ターゲットセンテンスとして選択することができる。

Ｓ２０３において、該当するグループのサンプルの各サンプルについて、サンプルのソースセンテンス及び類似ターゲットセンテンスを拡張サンプルとして、サンプルとともにサンプルペアを構成し、第１のトレーニングサンプルセットに追加する。

パラレルコーパスにおけるサンプル（ｘ，ｙ）について、本実施例の形態を採用すると、拡張して拡張サンプル（ｘ，ｙ'）を得ることができ、ｙ'とｙとは表意が類似し、両方ともｘの翻訳とすることができる。その後、（ｘ，ｙ）及び（ｘ，ｙ'）をサンプルペアとして、それらを第１のトレーニングサンプルセットに追加する。同様に、第１のトレーニングサンプルセットに１グループのサンプルペアに追加することができる。

ステップＳ２０１～Ｓ２０３は上記の図１に示された実施例のステップＳ１０１の実現形態である。

また、任意選択で、本実施例において、第１のトレーニングサンプルセットをマイニングする場合には、パラレルコーパスの各サンプルに対して、上記の実施例のように、類似ターゲットセンテンス、及び類似ターゲットセンテンスの語意類似度を取得することもできる。次に、各サンプルの類似ターゲットセンテンスの語意類似度に基づいて、語意類似度が最も大きい１グループのサンプル、及び各サンプルに対応する類似ターゲットセンテンスを取得し、両方ともサンプルペアを構成し、第１のトレーニングデータセットに追加する。

Ｓ２０４において、語意類似度モデルのパラメータを固定し、第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングする。

該当するステップのトレーニングにおいて、語意類似度モデルのパラメータが固定され、第１のトレーニングサンプルセットのみを採用して機械翻訳モデルのパラメータを調整する。第１のトレーニングサンプルセットにおいて選択されるサンプルペアは、語意類似度に応じて選択された類似度が最も高いサンプルであるので、第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングすることは、機械翻訳モデルの翻訳結果の多様性を高め、及び対応する類似ターゲットセンテンスの翻訳信頼度を向上することを目的とする。

本実施例における語意類似度モデル及び機械翻訳モデルは個別に独立してトレーニングされたので、本実施例にかかるトレーニングは、従来のトレーニングされたモデルを基に、機械翻訳モデルのパラメータを微調整し、その翻訳結果の多様性を高め、及び類似ターゲットセンテンスの翻訳信頼度を向上させると見なすことができる。

Ｓ２０５において、パラレルコーパスから、１グループのサンプルを抽出する。

任意選択で、抽出方式は上記ステップＳ２０１と同じで、ランダムに選択できる。

Ｓ２０６において、該当するグループのサンプルの各サンプルについて、機械翻訳モデル及び語意類似度モデルによって、各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングする。

該当するステップのマイニングは、翻訳確率がプリセット確率閾値よりも低いが、語意類似度が依然として良好であり、予め設定された類似度閾値以上であり得るネガティブサンプルを取得するために用いられる。このようにして、高い語意類似度のネガティブサンプルを選択することを回避することができ、さらに、トレーニングサンプルと予測サンプルとの分布が一致しないという問題を回避することもできる。

例えば、以下のように、各サンプルに対応するネガティブサンプルをマイニングすることができる。
（Ａ）該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び各候補ターゲットセンテンスの翻訳確率を取得する。
（Ｂ）各候補ターゲットセンテンスの翻訳確率に応じて、複数の候補ターゲットセンテンスから、翻訳確率が予め設定された翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択する。
つまり、本実施例において、好ましくは、翻訳確率が低い候補ターゲットセンテンスでネガティブサンプルを生成し、高い語意類似度のネガティブサンプルを選択することを回避する。
（Ｃ）語意類似度モデルを採用してソースセンテンスと各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出する。
（Ｄ）複数のバックアップターゲットセンテンスから、語意類似度が予め設定された類似度閾値以上であるバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして取得し、サンプルのソースセンテンスとともにネガティブサンプルを構成する。

例えば、好ましくは、語意類似度が語意類似度閾値よりも大きく、且つ語意類似度閾値に最も近いバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして選択し、高い語意類似度のネガティブサンプルを選択することを回避する。

Ｓ２０７において、該当するグループのサンプルの各サンプルについて、サンプルをネガティブサンプルとともにサンプルペアを構成し、第２のトレーニングサンプルセットに追加する。

ステップＳ２０５～Ｓ２０７は上記の図１に示された実施例のステップＳ１０３の実現形態である。

また、任意選択で、第２のトレーニングサンプルセットの選択中に、パラレルコーパスにおける各サンプルに対して上記の処理を行って、各サンプルに対応するネガティブサンプル、及びネガティブサンプルに対応する語意類似度を取得することができる。その後、その中から、ネガティブサンプルの語意類似度が予め設定された類似度閾値に最も近い１グループのサンプルを選択し、一緒に第２のトレーニングサンプルセットを構成する。上記方式で作成される第２のトレーニングサンプルセットは、高い語意類似度のネガティブサンプルを選択することを効果的に回避することもできる。

Ｓ２０８において、機械翻訳モデルのパラメータを固定し、第２のトレーニングサンプルセットを採用して、語意類似度モデルをトレーニングする。

該当するステップのトレーニングを経って、語意類似度モデルに、第２のトレーニングセットにおける各サンプルペアのうちポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くすることを学習させることができる。第２のトレーニングサンプルセットにおいて、既に、ネガティブサンプルがポジティブサンプルの高い語意類似度のサンプルであるのを回避することを保証したので、高い語意類似度のネガティブサンプルは、語意類似度モデルのトレーニングに影響を与えるために選択されない。このようにトレーニングされた語意類似度モデルは、同じ表意を持つポジティブサンプルとネガティブサンプルのペアを選択して語意類似度モデルをトレーニングすることはないため、語意類似度モデルが同じ表意を持つサンプルを認識する性能を高めることができる。そして、該当するステップのトレーニングにおいて、第２のトレーニングサンプルセットにおけるネガティブサンプルは、すべて、マシン翻訳モデルの実際の翻訳結果であり、手動でラベル付けせず、語意類似度モデルのトレーニングデータの有効性と真実性を効果的に保証することができ、ひいては、使用中に、語意類似度モデルの正確性と安定性を確保することができる。予測サンプルとトレーニングサンプルとの分布が一致せず、認識できないという問題が存在しない。

また、なお、本実施例において、二つのモデルが収束するまで、ステップＳ２０１－Ｓ２０８を繰り返して実行し、図３に示された実施例のループ反復のトレーニングのように、機械翻訳モデル及び語意類似度モデルを一緒にループ反復してトレーニングし、互いに最適化することができる。ただし、本実施例にかかるトレーニングプロセスにおいて、機械翻訳モデルを使用し、機械翻訳モデルもトレーニングしたが、機械翻訳モデルを最適化することはその付随する効果に過ぎない。機械翻訳モデルの翻訳の多様性を豊富にするとともに、機械翻訳モデルの正確性を保証することができないためである。機械翻訳モデルの正確性は語意類似度モデルで検証される必要があるため、最終的な効果は、語意類似度モデルの性能を高めることであり、機械翻訳モデルは、語意類似度モデルのトレーニングを支援するためにのみ使用される。従って、本実施例にかかる共同トレーニングされた後の語意類似度モデルは、類似ターゲットセンテンスを認識することができ、類似ターゲットセンテンスが相応する高スコアを有することを保証し、その性能を高めることもできる。

本実施例にかかる機械翻訳におけるモデルトレーニング方法によれば、上記の技術案を採用し、二つのモデルを共同でトレーニングすることにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。そして、本実施例にかかる技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。

図４は、本出願の第３の実施例による模式図であり、図４に示すように、本実施例は、機械翻訳におけるモデルトレーニング装置４００を提供し、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成するための第１の作成モジュール４０１と、
第１のトレーニングサンプルセットを採用して、機械翻訳モデルをトレーニングするための第１のトレーニングモジュール４０２と、
パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成するための第２の作成モジュール４０３と、
第２のサンプルトレーニングセットを採用して、語意類似度モデルをトレーニングするための第２のトレーニングモジュール４０４と、を含む。

本実施例にかかる機械翻訳におけるモデルトレーニング装置４００は、上記モジュールを採用して機械翻訳におけるモデルトレーニングを実現する実現原理及び技術効果は、上記の関連する方法実施例の実現と同じであり、詳細は、上記の関連する方法実施例の記載を参照でき、ここで再度説明されない。

図５は本出願の第４の実施例による模式図であり、図５に示すように、本実施例は機械翻訳におけるモデルトレーニング装置４００を提供し、上記の図４に示された実施例の技術案を基に、本出願の技術案をより詳細を説明する。

図５に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング装置４００において、第１の作成モジュール４０１は、
パラレルコーパスから、１グループのサンプルを抽出するための第１の抽出ユニット４０１１と、
該当するグループのサンプルの各サンプルについて、機械翻訳モデル、及び語意類似度モデルによって、各サンプルの類似ターゲットセンテンスをマイニングするための第１のマイニングユニット４０１２と、
該当するグループのサンプルの各サンプルについて、サンプルのソースセンテンス及び類似ターゲットセンテンスを拡張サンプルとして、サンプルとともにサンプルペアを構成し、第１のトレーニングサンプルセットに追加するための第１の処理ユニット４０１３とを含む。

さらに、任意選択で、第１のマイニングユニット４０１２は、
該当するグループのサンプルの各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、及び複数の候補ターゲットセンテンスを取得し、
語意類似度モデルを採用して、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
複数の候補ターゲットセンテンスから、語意類似度が最も大きい候補ターゲットセンテンスを、サンプルの類似ターゲットセンテンスとして取得するために用いられる。

さらに、任意選択で、図５に示すように、本実施例にかかる機械翻訳におけるモデルトレーニング装置４００において、第２の作成モジュール４０３は、
パラレルコーパスから、１グループのサンプルを抽出するための第２の抽出ユニット４０３１と、
該当するグループのサンプル内の各サンプルについて、機械翻訳モデル、及び語意類似度モデルによって、各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングするための第２のマイニングユニット４０３２と、
該当するグループのサンプル内の各サンプルについて、サンプルをネガティブサンプルとともにサンプルペアを構成し、第２のトレーニングサンプルセットに追加するための第２の処理ユニット４０３３とを含む。

さらに、第２のマイニングユニット４０３２は、
該当するグループのサンプル内の各サンプルについて、機械翻訳モデルによって、機械翻訳モデルがサンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び各候補ターゲットセンテンスの翻訳確率を取得し、
各候補ターゲットセンテンスの翻訳確率に応じて、複数の候補ターゲットセンテンスから、翻訳確率が予め設定された翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
語意類似度モデルを採用して、ソースセンテンスと各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
複数のバックアップターゲットセンテンスから、語意類似度が予め設定された類似度閾値以上であるバックアップターゲットセンテンスを、ネガティブサンプルのターゲットセンテンスとして取得し、サンプルのソースセンテンスとともにネガティブサンプルを構成するために用いられる。

本実施例にかかる機械翻訳におけるモデルトレーニング装置４００は、上記のモジュールを採用して機械翻訳におけるモデルトレーニングを実現する実現原理及び技術効果は、上記の関連する方法実施例の実現と同じであり、詳細は、上記の関連する方法実施例の記載を参照でき、ここで再度説明されない。

本出願の実施例によれば、本出願は、さらに、電子機器、及び可読記憶媒体を提供する。

図６に示すように、本出願の実施例にかかる機械翻訳におけるモデルトレーニング方法を実現する電子装置のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子機器は、様々な形式のモバイル装置、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。明細書で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図６に示すように、この電子機器は、一つ又は複数のプロセッサ６０１、メモリ６０２、及び各構成要素に接続するためのインターフェースを含み、高速インターフェース及び低速インターフェースを含む。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子機器内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子機器が接続されてもよく、それぞれの装置が必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図６において、一つのプロセッサ６０１を例にとる。

メモリ６０２は、本出願で提供される非一時的コンピュータ可読記録媒体である。なお、メモリ記憶装置には、少なくとも１つのプロセッサが本出願で提供される機械翻訳におけるモデルトレーニング方法を実行するように、少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記録媒体は、本出願で提供される機械翻訳におけるモデルトレーニング方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ６０２は、非一時的コンピュータ可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施例における機械翻訳におけるモデルトレーニング方法に対応するプログラムコマンド／ユニット（例えば、図４及び図５に示された関連するモジュール）を記憶するために用いられる。プロセッサ６０１は、メモリ６０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における機械翻訳におけるモデルトレーニング方法を実現する。

メモリ６０２は、記憶プログラム領域及び記憶データ領域を含んでもよく、記憶プログラム領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は機械翻訳におけるモデルトレーニング方法を実現する電子機器の使用により作成されたデータなどを記憶してもよい。また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ６０２は、プロセッサ６０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して機械翻訳におけるモデルトレーニング方法を実現する電子機器に接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

機械翻訳におけるモデルトレーニング方法を実現する電子装置は、入力装置６０３及び出力装置６０４をさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バス又は他の方式で接続されてもよく、図６に、バスで接続されることを例にとる。

入力装置６０３は、入力された数字又はキャラクタ情報を受信し、機械翻訳におけるモデルトレーニング方法を実現する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラム可能なシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械コマンドを含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械コマンドを受け取る機械可読媒体を含むプログラマブルプロセッサに機械コマンド及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械コマンド及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であり得、ユーザからの入力は、任意の形態で（音響、発話、又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術的実施形態は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、グラフィカルユーザインターフェースもしくはウェブブラウザを通じて本明細書で説明されるシステムと技術的実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。ステムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワーク、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係にあるコンピュータプログラムによって生じる。

本出願の実施例の技術案によれば、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルにより、１グループのサンプルの類似ターゲットセンテンスをマイニングし、第１のトレーニングサンプルセットを作成し、第１のトレーニングサンプルセットを採用して機械翻訳モデルをトレーニングし、パラレルコーパスに基づいて、機械翻訳モデル及び語意類似度モデルを採用して、１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、第２のトレーニングサンプルセットを作成し、第２のサンプルトレーニングセットを採用して語意類似度モデルをトレーニングすることにより、二つのモデルの共同トレーニングにより、語意類似度モデルをトレーニングするとともに、機械翻訳モデルを最適化し、語意類似度モデルにフィードバックすることができ、語意類似度モデルの正確性をさらに向上させる。

本出願の実施例の技術案によれば、語意類似度モデルをトレーニングする場合に、入力されるデータは機械翻訳モデルの予測結果であり、従来技術のように、多くのトレーニングにおいて手動でラベリングされる翻訳結果を採用することはなく、トレーニング及び予測中にサンプルの分布が一致しないことを招き、モデルが予測中に機械翻訳結果に遭遇して認識できないという問題が発生する。本実施例の技術案を採用すると、トレーニング中及びその後の予測中に語意類似度モデルが遭遇するサンプルが機械翻訳モデルの翻訳結果であることを保証し、語意類似度モデルの正確性及び安定性をさらに向上させることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、本出願の保護範囲内に含まれるべきである。

Claims

機械翻訳におけるモデルトレーニング方法であって、
パラレルコーパスから１グループのサンプルを抽出し、機械翻訳モデル及び語意類似度モデルを採用して、当該１グループのサンプルにおける各サンプルの拡張サンプルをマイニングし、各サンプルとその拡張サンプルで第１のトレーニングサンプルセットを作成し、
前記第１のトレーニングサンプルセットを採用して、前記機械翻訳モデルをトレーニングし、
前記パラレルコーパスから１グループのサンプルを抽出し、前記機械翻訳モデル及び前記語意類似度モデルを採用して、当該１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、各サンプルとそのネガティブサンプルで第２のトレーニングサンプルセットを作成し、
前記第２のトレーニングサンプルセットを採用して、前記語意類似度モデルによるポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くするように、前記語意類似度モデルをトレーニングすることを含み、
前記機械翻訳モデルは、ソースセンテンスを翻訳して、ターゲットセンテンスと、翻訳確率が前記ターゲットセンテンスより小さい複数の候補ターゲットセンテンスを得るモデルであり、
前記語意類似度モデルは、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出するモデルであり、
前記類似ターゲットセンテンスは、前記複数の候補ターゲットセンテンスにおけるソースセンテンスとの語意類似度が最も大きい候補センテンスであり、
前記拡張サンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する語意類似度が最も高い候補ターゲットセンテンスからなり、
前記ネガティブサンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく語意類似度が予め設定された類似度閾値以上である候補ターゲットセンテンスからなる、方法。
前記第１のトレーニングサンプルセットを作成することは、
前記パラレルコーパスから、１グループのサンプルを抽出し、
前記１グループのサンプルの各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルの類似ターゲットセンテンスをマイニングし、
前記１グループのサンプルの前記各サンプルについて、前記サンプルのソースセンテンス及び前記類似ターゲットセンテンスを拡張サンプルとして、前記サンプルとともにサンプルペアを構成し、前記第１のトレーニングサンプルセットに追加することを含む請求項１に記載の方法。
前記各サンプルの類似ターゲットセンテンスをマイニングすることは、
前記１グループのサンプルの前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおける複数の候補ターゲットセンテンスを取得し、
前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
前記複数の候補ターゲットセンテンスから、ソースセンテンスとの語意類似度が最も大きい候補ターゲットセンテンスを、前記サンプルの類似ターゲットセンテンスとして取得することを含む請求項２に記載の方法。
前記第２のトレーニングサンプルセットを作成することは、
前記パラレルコーパスから、１グループのサンプルを抽出し、
前記１グループのサンプル内の前記各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングし、
前記１グループの前記サンプル内の前記各サンプルについて、前記サンプルと前記ネガティブサンプルとでサンプルペアを構成し、前記第２のトレーニングサンプルセットに追加することを含む請求項１～３のいずれか一項に記載の方法。
前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングすることは、
前記１グループの前記サンプル内の前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスの翻訳確率を取得し、
前記各候補ターゲットセンテンスの翻訳確率に応じて、前記複数の候補ターゲットセンテンスから、翻訳確率が前記翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
前記語意類似度モデルを採用して、前記サンプルにおける前記ソースセンテンスと前記複数のバックアップターゲットセンテンスにおける各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
前記複数のバックアップターゲットセンテンスから、前記語意類似度が前記類似度閾値以上であるバックアップターゲットセンテンスを、前記ネガティブサンプルのターゲットセンテンスとして取得し、前記サンプルにおける前記ソースセンテンスとともに前記ネガティブサンプルを構成することを含む請求項４に記載の方法。
機械翻訳におけるモデルトレーニング装置であって、
パラレルコーパスから１グループのサンプルを抽出し、機械翻訳モデル及び語意類似度モデルを採用して、当該１グループのサンプルにおける各サンプルの拡張サンプルをマイニングし、各サンプルとその拡張サンプルで第１のトレーニングサンプルセットを作成する第１の作成モジュールと、
前記第１のトレーニングサンプルセットを採用して、前記語意類似度モデルによるポジティブサンプルに対するスコアがネガティブサンプルに対するスコアよりも高くするように、前記機械翻訳モデルをトレーニングする第１のトレーニングモジュールと、
前記パラレルコーパスから１グループのサンプルを抽出し、前記機械翻訳モデル及び前記語意類似度モデルを採用して、当該１グループのサンプル内の各サンプルのネガティブサンプルをマイニングし、各サンプルとそのネガティブサンプルで第２のトレーニングサンプルセットを作成する第２の作成モジュールと、
前記第２のトレーニングサンプルセットを採用して、前記語意類似度モデルをトレーニングする第２のトレーニングモジュールと、
を含み、
前記機械翻訳モデルは、ソースセンテンスを翻訳して、ターゲットセンテンスと、翻訳確率が前記ターゲットセンテンスより小さい複数の候補ターゲットセンテンスを得るモデルであり、
前記語意類似度モデルは、ソースセンテンスと各候補ターゲットセンテンスとの語意類似度をそれぞれ算出するモデルであり、
前記類似ターゲットセンテンスは、前記複数の候補ターゲットセンテンスにおけるソースセンテンスとの語意類似度が最も大きい候補センテンスであり、
前記拡張サンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する語意類似度が最も高い候補ターゲットセンテンスからなり、
前記ネガティブサンプルは、対応するサンプルのソースセンテンス、及び、当該ソースセンテンスに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく語意類似度が予め設定された類似度閾値以上である候補ターゲットセンテンスからなる、モデルトレーニング装置。
前記第１の作成モジュールは、
前記パラレルコーパスから、１グループのサンプルを抽出する第１の抽出ユニットと、
前記１グループの前記サンプルの各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルの類似ターゲットセンテンスをマイニングする第１のマイニングユニットと、
前記１グループの前記サンプルの前記各サンプルについて、前記サンプルのソースセンテンス及び前記類似ターゲットセンテンスを拡張サンプルとして、前記サンプルとともにサンプルペアを構成し、前記第１のトレーニングサンプルセットに追加する第１の処理ユニットと、
を含む請求項６に記載のモデルトレーニング装置。
前記第１のマイニングユニットは、
前記１グループの前記サンプルの前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおける複数の候補ターゲットセンテンスを取得し、
前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスとの語意類似度をそれぞれ算出し、
前記複数の候補ターゲットセンテンスから、ソースセンテンスとの語意類似度が最も大きい候補ターゲットセンテンスを、前記サンプルの類似ターゲットセンテンスとして取得する、請求項７に記載のモデルトレーニング装置。
前記第２の作成モジュールは、
前記パラレルコーパスから、１グループのサンプルを抽出する第２の抽出ユニットと、
前記１グループのサンプル内の各サンプルについて、前記機械翻訳モデル、及び前記語意類似度モデルによって、前記各サンプルに対応する翻訳確率が予め設定された翻訳確率閾値よりも小さく、語意類似度が予め設定された類似度閾値以上であるネガティブサンプルをマイニングする第２のマイニングユニットと、
前記１グループの前記サンプル内の各前記サンプルについて、前記サンプルと前記ネガティブサンプルとでサンプルペアを構成し、前記第２のトレーニングサンプルセットに追加する第２の処理ユニットと、
を含む請求項６～８のいずれか一項に記載のモデルトレーニング装置。
前記第２のマイニングユニットは、
前記１グループの前記サンプル内の前記各サンプルについて、前記機械翻訳モデルによって、前記機械翻訳モデルが前記サンプルにおけるソースセンテンスを翻訳して得られたサンプルにおけるターゲットセンテンス、複数の候補ターゲットセンテンス及び前記複数の候補ターゲットセンテンスにおける各候補ターゲットセンテンスの翻訳確率を取得し、
前記各候補ターゲットセンテンスの翻訳確率に応じて、前記複数の候補ターゲットセンテンスから、翻訳確率が前記翻訳確率閾値よりも小さい複数のバックアップターゲットセンテンスを選択し、
前記語意類似度モデルを採用して、前記ソースセンテンスと前記複数のバックアップターゲットセンテンスにおける各バックアップターゲットセンテンスとの語意類似度をそれぞれ算出し、
前記複数のバックアップターゲットセンテンスから、前記語意類似度が前記類似度閾値以上であるバックアップターゲットセンテンスを、前記ネガティブサンプルのターゲットセンテンスとして取得し、前記サンプルのソースセンテンスとともに前記ネガティブサンプルを構成する、請求項９に記載のモデルトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されており、前記少なくとも１つのプロセッサが請求項１～５のいずれか一項に記載の方法を実行できるように、前記コマンドが前記少なくとも１つのプロセッサによって実行される電子機器。
請求項１～５のいずれか一項に記載の方法をコンピュータに実行させるコンピュータコマンドを記憶している非一時的コンピュータ可読記憶媒体。
請求項１～５のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。