JP2023073951A - 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体 - Google Patents

翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP2023073951A
JP2023073951A JP2022116365A JP2022116365A JP2023073951A JP 2023073951 A JP2023073951 A JP 2023073951A JP 2022116365 A JP2022116365 A JP 2022116365A JP 2022116365 A JP2022116365 A JP 2022116365A JP 2023073951 A JP2023073951 A JP 2023073951A
Authority
JP
Japan
Prior art keywords
translation
sentence
training
model
translating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022116365A
Other languages
English (en)
Other versions
JP7472421B2 (ja
Inventor
ジャン、ルイキン
Ruiqing Zhang
ワン、シヤン
Xiyang Wang
リウ、フイ
Hui Liu
ヘ、ジョンジュン
Zhongjun He
リ、ジ
Zhi Li
ウ、フア
Hua Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023073951A publication Critical patent/JP2023073951A/ja
Application granted granted Critical
Publication of JP7472421B2 publication Critical patent/JP7472421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】翻訳の正確性を効果的に向上させる翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】方法は、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳することに対応する重みを取得し、各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳する。【選択図】図2

Description

本開示は、コンピュータ技術の分野に関し、具体的には、機械学習及び情報処理のような人工知能技術の分野に関し、特に、翻訳方法、モデル訓練方法、装置、電子デバイス、及び記憶媒体に関する。
翻訳は非常に技術的で専門性の高い仕事である。従来技術では、翻訳は専門の翻訳者に依頼されている。
近年の人工知能の発展により、人工知能による翻訳モデルは翻訳の効率を飛躍的に向上させることができるようになった。翻訳モデルはニューラルネットワークモデルを用いて実現することができる。使用時には、人工で注釈された訓練データを用いて翻訳モデルに教師あり訓練を行うことができる。使用時には、翻訳すべき文を翻訳モデルに入力する。当該翻訳モデルは翻訳された文を出力可能とする。
本発明は、翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体を提供する。
本開示の一態様によれば、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳することに対応する重みを取得し、各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳することを含む翻訳方法が提供される。
本開示の別の態様によれば、訓練文を収集し、前記訓練文と、予め訓練された少なくとも2つの翻訳モデルと、予め設定されたランダム重み分配器とに基づいて重み付けモデルを訓練することを含むモデル訓練方法が提供される。
本開示の別の態様によれば、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳することに対応する重みを取得する重み取得モジュールと、各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳する翻訳モジュールとを備える翻訳装置が提供される。
本開示の別の態様によれば、訓練文を収集する収集モジュールと、前記訓練文、予め訓練された少なくとも2つの翻訳モデル、及び予め設定されたランダム重み分配器に基づいて、重み付けモデルを訓練する訓練モジュールとを備えるモデル訓練装置が提供される。
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述した態様及び可能な実現方式のいずれか一つを実行させる電子デバイスが提供される。
本開示の別の態様によれば、コンピュータに上述した態様及び可能な実現方式のいずれか一つを実行させるためのコンピュータコマンドを格納した非一時的なコンピュータ可読記憶媒体が提供される。
本開示の別の態様によれば、プロセッサにより実行されると、上述した態様及び可能な実現方式のいずれか一つを実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
本開示の技術によれば、翻訳の精度を効果的に向上させることができる。
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
本開示により提供される機械翻訳の概略図である。 本開示による第1実施形態の概略図である。 本開示による第2実施形態の概略図である。 本実施形態により提供される翻訳方法の構成図である。 本開示による第3実施形態の概略図である。 本開示による第4実施形態の概略図である。 本実施形態により提供されるモデル訓練方法の構成図である。 本実施形態により提供される重み付けモデルの原理図である。 本開示による第5実施形態の概略図である。 本開示による第6実施形態の概略図である。 本開示の実施形態に係る上述した方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
明らかに、記載された実施形態は、本開示の一部の実施形態であり、全ての実施形態ではない。本開示の実施形態に基づいて、当業者が創造的な労働をしていないという前提の下で得た他のすべての実施形態は、本開示の保護の範囲に属する。
説明すべきなのは、本開示の実施形態に係る端末装置は、携帯電話、携帯情報端末(Personal Digital Assistant、PDA)、無線ハンドヘルドデバイス、タブレット(Tablet Computer)などのスマートデバイスを含むことができるが、これらに限定されない。表示装置は、パーソナルコンピュータ、テレビ等の表示機能を有する装置を含むことができるが、これらに限定されない。
さらに、本明細書における用語「及び/又は」は、単に関連オブジェクトを記述する関連関係であり、3つの関係が存在し得ると意味する。例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという三つの状況を意味することができる。また、本明細書における文字「/」は、一般的に前後の関連オブジェクトが「又は」の関係にあることを意味する。
機械翻訳(Machine Translation:MT)モデルのタスクは、n個の文字を含むソース言語文
Figure 2023073951000002
を入力とし、Xに対応する翻訳結果
Figure 2023073951000003
を出力とするように記述することができる。yはターゲット側で翻訳されたi番目の単語を表し、ニューラルネットワークモデルではi番目のtokenとも呼ぶことができる。
自己回帰の推論方式は、次のように表すことができる。
Figure 2023073951000004
すなわち、ターゲット翻訳結果におけるt番目の単語の生成は、ソース言語文Xと、ターゲット側でそのt番目の単語の前に生成されたt-1個の単語に依存する。
MTモデルの翻訳効果を向上させるためには、複数のMTモデルを訓練し、モデル統合(ensemble)によってデバイス全体の翻訳効果を実現することが一般的である。
図1は本開示により提供される機械翻訳の概略図である。図1に示すように、翻訳装置に3つの翻訳モデルMT1、MT2、MT3が含まれているとする。MT1、MT2、MT3のそれぞれによる単独の翻訳結果は不正確であるが、モデル統合により正しい翻訳結果を生成することができる。図1に示すように、ソース言語文「whenever did you find time to do all that cooking?」について、MT1的翻訳結果は「貴方はいつ時間がある?これらの食事を作りましょう」であり、MT2的翻訳結果は「貴方はいつ時間を作ってすべての料理を作るか?」であり、MT3的翻訳結果は「貴方はいつこれらの時間を探してこれらの食事を作るか?」である。一方、モデルによりensembleされた翻訳結果は、「貴方はいつ時間を作ってこれらの料理を作るか?」である。比較すればわかるように、モデル統合後の翻訳結果の方が正確である。
同一の翻訳アーキテクチャにおける異なるモデルであってもよいし、異なる翻訳アーキテクチャに属してもよいK個のMTモデルが翻訳装置に統合されていると仮定する。このうち、翻訳アーキテクチャは、循環ニューラルネットワーク(Recurrent Neural Network;RNN)、畳み込みニューラルネットワーク(Convolutional Neural Networks;CNN)、又はTransformerネットワークであって良い。
モデル推論の際には、K個のモデルを同時にグラフィックスプロセッサ(Graphics Processing Unit;GPU)にロードする。翻訳過程では、t番目の目標語のような目標語が生成されるたびに、次の式(2)を用いてK個のモデルの推論確率の平均を計算し、推論確率の平均が最大となる単語を当該位置の目標語とする。
Figure 2023073951000005
以上のように、翻訳装置において各MTモデルが統合された場合、各MTモデル確率は同じであり、上記式(2)に示すように1/Kである。これは、短いqueryに適したモデルがあったり、長いqueryに適したモデルがあったりするモデル間の差異が無視されており、それぞれのモデルが得意とする翻訳分野が異なる可能性もあるため、当該統合方式により翻訳装置の翻訳結果が不正確なままになる可能性がある。
図2は本開示による第1実施形態の概略図である。図2に示すように、本実施形態は、MTの翻訳装置に適用可能な翻訳方法を提供し、具体的には、以下のステップを含むことができる。
S101において、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが特定文を翻訳することに対応する重みを取得する。
S102において、各翻訳モデルが特定文を翻訳する重みに基づいて、少なくとも2つの翻訳モデルを用いて特定文を翻訳する。
本実施形態の翻訳方法が適用される翻訳装置のアーキテクチャには、少なくとも2つの翻訳モデル及び1つの重み付けモデルが含まれていてもよい。このうち、翻訳モデルの数は、実際のニーズに基づいて設定することができ、2つ、3つ、その他の数とすることができる。
異なる文を翻訳する場合、重み付けモデルは、少なくとも2つの翻訳モデルの各々に異なる重みを与える。すなわち、重み付けモデルが具体的にどのように各翻訳モデルに重みを配置するかは、翻訳すべき文を参照する必要がある。
例えば、本開示の一実施形態では、重み付けモデルは、長い文の翻訳に強い利点を有する幾つかの翻訳モデルに高い重みを与える一方、長い文の翻訳にあまり得意でない幾つかの翻訳モデルに低い重みを与えることができる。これは、各翻訳モデルはあらかじめ訓練されているからである。
さらに、例えば、本開示の一実施形態では、各翻訳モデルは、翻訳の得意分野が異なる場合がある。重み付けモデルは、得意分野の文の翻訳である場合に当該翻訳モデルに高い重みを与える一方、あまり得意でない分野の翻訳である場合に当該翻訳モデルに低い重みを与えることができる。
具体的に使用する場合には、翻訳すべき特定文を予め訓練された重み付けモデルに入力する。当該重み付けモデルは、翻訳すべき特定文に基づいて、少なくとも2つの翻訳モデルのそれぞれが当該特定文を翻訳する重みを出力することができる。具体的には、重み付けモデルの出力は、各翻訳モデルの対応する重みを含む1つの重みベクトルとすることができる。そして、各翻訳モデルが特定文を翻訳する重みに基づいて、少なくとも2つの翻訳モデルを用いて特定文を翻訳することができる。
本実施形態の翻訳方法は、前記技術案を採用することにより、重み付けモデルに基づいて、少なくとも2つの翻訳モデルのそれぞれに対して特定文を翻訳する重みを設定することができ、更に少なくとも2つの翻訳モデルに設定された重みに基づいて特定文を翻訳させることができる。重みが異なるため、特定文の翻訳に有利な翻訳モデルの方は翻訳結果に与える影響が大きくなり、さらに、翻訳の正確性を向上させることができる。
図3は本開示による第2実施形態の概略図である。図3に示すように、本実施形態の翻訳方法は、上述した図2に示す実施形態の技術構成に加えて、本開示の技術案をさらに詳細に説明する。図3に示すように、本実施形態の翻訳方法は、具体的には、以下のステップを含むことができる。
S301において、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが特定文を翻訳することに対応する重みを取得する。
S302において、各翻訳モデルが特定文を翻訳する重みに基づいて、少なくとも2つの翻訳モデルが特定文を翻訳する過程で生成される各位置の目標語を取得する。
本実施形態では、少なくとも2つの翻訳モデルは、特定文を翻訳する際に、前からの順番で目標語について一つずつ生成する。いずれかの位置kにおける目標語を決定するプロセスについて、少なくとも2つの翻訳モデルのそれぞれにより当該k番目の位置における1つ、2つ又はそれ以上の候補語が最初に生成されて良い。ここで、各候補語は辞書におけるいずれかの単語であってもよい。次に、少なくとも2つの翻訳モデルが当該特定文を翻訳する重みを合わせて当該k番目の位置における目標語が決定される。
例えば、各位置に対応する目標語の生成方式は、具体的には次のような手順で実現することができる。
(1)各位置について、少なくとも2つの翻訳モデルのそれぞれが特定文を翻訳する過程で予測される当該位置における複数の候補語と各候補語に対応する確率を取得する。
例えば、k番目の位置について、各翻訳モデルは、当該位置に出現しうる辞書におけるいずれか1つ、2つ又はそれ以上の候補語と、各候補語に対応する確率を予測して出力することができる。本実施形態では、各翻訳モデルが予測する各位置の複数の候補語の数は、1つ、2つ、又はそれ以上であっても良く、ここでは限定されない。
また、異なる翻訳モデルが予測した同一位置の複数の候補語の間には交差があってもよいが、完全に同一でなくてもよい。例えば、1番目の翻訳モデルによって予測されるk番目の位置の候補語は、「ある」で確率が0.8であっても良く、「する」で確率が0.2であっても良く、その他の確率が小さいものは省略してもよい。すなわち、本実施形態では、各翻訳モデルが予測する各位置の候補語について、確率が予め設定された確率閾値より大きい候補語のみを考慮し、確率が小さい候補については考慮しないようにしてもよい。ここで、当該予め設定された確率閾値は、実際の経験に基づいて選択することができ、0.1、0.05、又は他の確率値として良い。
あるいは、各翻訳モデルが予測する各位置の候補語について、確率が上位N個の候補語のみを考慮してもよい。すなわち、確率の大小にかかわらず、当該翻訳モデルが予測する当該位置の候補語として上位N個の候補語を取る。
(2)当該位置における各候補語について、少なくとも2つの翻訳モデルのそれぞれの翻訳時に予測される候補語に対応する確率と、各翻訳モデルが特定文を翻訳する重みとに基づいて、候補語の位置における推論確率を計算する。
例えば、当該位置における各候補語について、候補語の位置における推論確率として、各翻訳モデルの翻訳時に予測される候補語に対応する確率と、対応する翻訳モデルが特定文を翻訳する重みの積の和を取ることができ、具体的に次式(3)で表される。
Figure 2023073951000006
この式は、少なくとも2つの翻訳モデルの数をKとし、ここで、wは当該重み付けモデルがk番目の翻訳モデルに与える重みを表す。
(3)当該位置にある複数の候補語のそれぞれの当該位置における推論確率に基づいて、当該位置の目標語を決定する。
例えば、当該位置の複数の候補語の中から推論確率が最も高い候補語をその位置の目標語として取得する。
本実施形態の上述方式によれば、各位置の目標語を正確に決定することができる。
S303において、各位置の目標語を、前から後の順にスプライシングして特定文の翻訳を生成する。
すべての位置の目標語が得られた後、各位置の目標語を前から順にスプライシングすることは、特定文の翻訳である。
本実施形態のステップS302~S303は、上述した図1に示した実施形態のステップS102の一実施形態である。当該実施形態において、特定文に対する各翻訳モデルの重みが、各位置の目標語の生成に直接に影響する。オプションとして、実際の応用において、各翻訳モデルの特定文に対する重みは、特定文全体の翻訳に直接に影響を与えることも可能であるが、ここでは限定しない。
例えば、図4は、本実施形態が提供する翻訳方法の構成図である。図4に示すように、翻訳装置にMT、MTとMTという3つの翻訳モデルが統合されていることを例とし、p(θ|x)は重み付けモデルである。p(θ|x)は、ソース言語文xに応じてこれら3つの翻訳モデルの重みベクトルθを与えることができる。図4に示すようにθは(0.5,0.2,0.3)とし、最終的に得られる翻訳結果は
Figure 2023073951000007
として表現することができる。したがって、各翻訳モデルは推論の際に、差異化の重みに基づいて推論を行うことができ、翻訳の正確性を効果的に向上することができる。
本実施形態の翻訳方法は、上述した技術案を採用することにより、各翻訳モデルが特定文を翻訳する重みを十分に利用し、特定文の翻訳における各位置の目標語をより正確に生成し、さらに特定文の翻訳を生成することができ、翻訳の正確性を効果的に向上させることができる。
図5は本開示による第3実施形態の概略図である、図5に示すように、本実施形態は、モデル訓練装置に適用可能なモデル訓練方法を提供し、具体的に以下のステップを含むことができる。
S501において、訓練文を収集する。
S502において、訓練文と、予め訓練された少なくとも2つの翻訳モデルと、予め設定されたランダム重み分配器とに基づいて、重み付けモデルを訓練する。
本実施形態の訓練文は、翻訳すべき文のいずれかである。
本実施形態の重み付けモデルは、予め訓練された少なくとも2つの翻訳モデルに対して訓練文を翻訳する重みを設定するために使用される。ランダム重み付け分配器は、少なくとも2つの翻訳モデルに対して訓練文を翻訳する重みをランダムに設定する。ランダム重み分配器と訓練文とに基づいて、重み付けモデルの訓練を実現することができる。
本実施形態のモデル訓練方法は、重み付けモデルが少なくとも2つの翻訳モデルに対して重みを正確かつ合理的に設定することができるように、重み付けモデルを訓練することを実現することができる。
図6は本発明による第4実施形態の概略図である。図6に示すように、本実施形態のモデル訓練方法は、上述した図5に示す実施形態の技術案に加えて、本開示の技術案をさらに詳細に説明する。図6に示すように、本実施形態のモデル訓練方法は、具体的に以下のステップを含むことができる。
S601において、複数の訓練文を収集する。
S602において、複数の訓練文の中から1つの訓練文を選択し、重み付けモデルの訓練の開始を準備する。
具体的には、一つの訓練文を順番に選択しても良く、一つの訓練文をランダムに選択しても良い。
S603において、重み付けモデルに基づいて、少なくとも2つの翻訳モデルにより訓練文を翻訳して得られた第1翻訳結果を取得する。
例えば、具体的には、まず重み付けモデルを使用して少なくとも2つの翻訳モデルに訓練文を翻訳するための第1重みを設定し、次に少なくとも2つの翻訳モデルの第1重みに基づいて、複数の翻訳を用いて訓練文を翻訳して第1翻訳結果を得てよい。
ここで、重み付けモデルが少なくとも2つの翻訳モデルに設定した訓練文を翻訳する第1重みは、各翻訳モデルに対応する重みを含む1つのベクトルとしてベクトル形式をとることができる。ここで、少なくとも2つの翻訳モデルの第1重みに基づいて複数の翻訳を用いて訓練文を翻訳して第1翻訳結果を得るプロセスは、上述した図3に示された実施形態の方法を参照することができるため、ここでは説明しない。
S504において、ランダム重み分配器に基づいて、少なくとも2つの翻訳モデルが訓練文を翻訳して得られた第2翻訳結果を取得する。
同様に、まずランダム重み分配器を使用して少なくとも2つの翻訳モデルに訓練文を翻訳するための第2重み付けを設定し、次に少なくとも2つの翻訳モデルの第2重みに基づいて、複数の翻訳を用いて訓練文を翻訳して第2翻訳結果を得て良い。
本実施形態のランダム重み分配器は、少なくとも2つの翻訳モデルに対して、訓練文を翻訳する重みをランダムに分配することに適している。この第2重みの表現方式は、第1重みと同じである。同様に、少なくとも2つの翻訳モデルの第2重みに基づいて、複数の翻訳を用いて訓練文を翻訳して第2翻訳結果を得るプロセスも、上述した図3に示す実施形態の方式を参照することができるため、ここでは説明しない。
S605において、第1翻訳結果の品質スコアと第2翻訳結果の品質スコアをそれぞれ取得する。
本実施形態では、第1翻訳結果の品質スコアと第2翻訳結果の品質スコアは、ニューラルネットワークに基づいて構築されたスコアモデルを用いて実現することができる。例えば、スコアモデルに2つの翻訳結果と訓練文を入力し、当該スコアモデルによりこれら2つの翻訳結果の品質の高さを評価することができる。この場合に、スコアモデルは、具体的な点数を与えても良く、具体的な点数を与えずに2つの翻訳結果の品質の高さだけを与えてもよい。例えば、区別できるように高い翻訳結果に1、低い翻訳結果に0を与えれば良い。
あるいは、本開示の一実施形態では、第1翻訳結果及び第2翻訳結果をプロの翻訳者に提示してもよい。プロの翻訳者により第1翻訳結果の品質スコアと第2翻訳結果の品質スコアが与えられる。同様に、真のスコアではなく、二つの翻訳結果の品質の高さだけを与えれば良い。
S606において、第2翻訳結果の品質スコアが第1翻訳結果の品質スコアよりも高いか否かを検出し、肯定の場合にステップS607を実行し、否定の場合にステップS608を実行する。
S607において、ランダム重み分配器が訓練文に基づいて少なくとも2つの翻訳モデルに重みを割り当てた結果を重み付けモデルに学習させ、ステップS602に戻り、次の訓練文を取得して訓練を継続する。
第2翻訳結果の品質スコアが第1翻訳結果の品質スコアよりも高い場合には、ランダム重み分配器により割り当てられた重みがより合理的であり、より正確な翻訳結果を得ることができることを意味する。この場合には、ランダム重み分配器がこの訓練文に基づいて少なくとも2つの翻訳モデルに割り当てられた重みの結果を学習するように、重み付けモデルを制御することができる。具体的に、学習過程で、重み付けモデルのパラメータを調整することにより、訓練文に基づいて少なくとも2つの翻訳モデルに重みを設定する際に、重み付けモデルにランダム重み分配器が今回設定した重みを設定させ、更にランダム重み分配器の今回の重みの設定を学習させることができる。
S608において、予め設定された回数の連続した訓練において、第2翻訳結果の品質スコアが常に第1翻訳結果の品質スコア以下であるか否かを検出し、肯定の場合に訓練を終了し、重み付けモデルのパラメータを決定し、否定の場合に、ステップS602に戻り、次の訓練文を取得して訓練を継続する。
当該ステップS608は訓練終了条件である。ここで、予め設定された回数は、実際のシーンに応じて設定することができ、例えば、10、20、30、50、その他の回数とすることができる。 具体的には、上記のように訓練を重ねていくことで、予め設定された回数の連続した訓練において、第2翻訳結果の品質スコアが第1翻訳結果の品質スコアよりも常に高くない場合には、重み付けモデルが少なくとも2つの翻訳モデルに設定した重みがより合理的であり、より高いスコアが得られることを意味し、この場合に重み付けモデルが訓練済みであると考えられる。
例えば、図7は、本実施形態が提供するモデル訓練方法の構成図である。図7に示すように、本実施形態のアーキテクチャでは、図4と同様に、3つの機械翻訳モデルMT、MTとMTを翻訳装置に統合したことを例とし、p(θ|x)は重み付けモデルである。第1重みθは(0.5,0.2,0.3)であり、第1翻訳結果は
Figure 2023073951000008
である。Randomはランダム重み分配器θを表し、この例では、ランダム重み分配器が3つの翻訳モデルに割り当てる第2重みθは、θ=(0.1,0.7,0.2)として表すことができる。第2重みθに基づいて、3つの機械翻訳モデルにより翻訳された第2翻訳結果は、
Figure 2023073951000009
として表すことができ、score1は第1翻訳結果の品質スコアを表し、score2は第2翻訳結果の品質スコアを表す。
図8は本実施形態で提供される重み付けモデルの概略図である。図8に示すように、ソース言語文「whenever did you find time to do all that cooking?」を例として、重み付けモデルの実現原理を説明する。本実施形態の重み付けモデルp(θ|x)は、エンコーダ(encoder)でxを符号化してn*dの符号化結果を得る分類モデルであってよい。本実施形態のd次元は、128、256、512等の次元を選択することができる。次に符号化結果を系列次元ごとに平均してd次元の文表現を得、このd次元ベクトルを全連結層でKクラス分類し、softmax層でK個のMTモデルの重みθに対応するKクラス分類の確率を求める。たとえば、図7に示す翻訳装置に対して、重み付けモデルp(θ|x)により割り当てられた第1重みは(0.5,0.2,0.3)である。第2翻訳結果の品質スコアscore2が第1翻訳結果の品質スコアscore1よりも高い場合、score 2に対応する重みを教師情報として重み付けモデルを学習させる。ここで、損失関数はL2回帰lossを採用することができ、即ち、重み付けモデルの出力をscore 2に対応するθに当てはめることができる。
本実施形態のモデル訓練方法は、前記方法を採用することにより、ランダム重み分配器によって割り当てられた重みに対応する翻訳結果の品質がより高い場合に、重み付けモデルがランダム重み分配器によって割り当てられた重みを十分に学習することができ、さらに、重み付けモデルが翻訳装置に統合された翻訳モデルに対してより正確に重みを配置することができ、さらに、少なくとも2つの翻訳モデルを統合した翻訳装置の翻訳の正確性をさらに向上させることができる。
図9は本開示による第5実施形態の概略図である。図9に示すように、本実施形態は、翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが特定文を翻訳することに対応する重みを取得する重み取得モジュール9001と、各翻訳モデルが特定文を翻訳する重みに基づいて、少なくとも2つの翻訳モデルを用いて特定文を翻訳する翻訳モジュール902とを備える翻訳装置900を提供する。
本実施形態の翻訳装置900は、上記モジュールを用いて翻訳を実現する実現原理及び技術的効果は、上記関連の方法実施例の実現と同様である。詳細は上記関連の方法実施例の記載を参照することができ、ここでは詳しく説明しない。
さらにオプションとして、本開示の一実施形態では、翻訳モジュール902は、各翻訳モデルが特定文を翻訳する重みに基づいて少なくとも2つの翻訳モデルが特定文を翻訳する過程で生成される各位置の目標語を取得し、各位置の目標語を、前から後の順にスプライシングして特定文の翻訳を生成する。
さらにオプションとして、本開示の一実施形態では、翻訳モジュール902は、各位置について、少なくとも2つの翻訳モデルのそれぞれが特定文を翻訳する過程において、予測された位置における複数の候補語と、各候補語に対応する確率とを取得し、位置における各候補語について、少なくとも2つの翻訳モデルのそれぞれが翻訳した場合に予測される候補語に対応する確率と、各翻訳モデルが特定文を翻訳する重みとに基づいて、候補語の位置における推論確率を計算し、位置における複数の候補語のうち、各候補語の位置における推論確率に基づいて、位置の目標語を決定する。
さらにオプションとして、本開示の一実施形態では、翻訳モジュール902は、位置における各候補語について、各翻訳モデルが翻訳した場合に予測される候補語に対応する確率と、対応する翻訳モデルが特定文を翻訳する重みとの積の和を、候補語の位置における推論確率とする。
図10は本開示による第6実施形態の概略図である。図10に示すように、本実施形態は、訓練文を取得する取得モジュール1001と、訓練文と、予め訓練された少なくとも2つの翻訳モデルと、予め設定されたランダム重み分配器とに基づいて、重み付けモデルを訓練する訓練モジュール1002とを備えるモデル訓練装置1000を提供する。
本実施形態のモデル訓練装置1000は、上記モジュールを用いて翻訳を実現する実現原理及び技術的効果は、上記関連の方法実施形態の実現と同様である。詳細は上記関連の方法実施形態の記載を参照することができるため、ここでは詳しく説明しない。
さらにオプションとして、本開示の一実施形態では、訓練モジュール1002は、重み付けモデルに基づいて、少なくとも2つの翻訳モデルで訓練文を翻訳して得られた第1翻訳結果を取得し、ランダム重み分配器に基づいて、少なくとも2つの翻訳モデルで訓練文を翻訳して得られた第2翻訳結果を取得し、第1翻訳結果の品質スコアと第2翻訳結果の品質スコアとをそれぞれ取得し、第2翻訳結果の品質スコアが第1翻訳結果の品質スコアよりも高いか否かを検出し、肯定の場合に、ランダム重み分配器が訓練文に基づいて少なくとも2つの翻訳モデルに重みを割り当てた結果を、重み付けモデルに学習させる。
さらにオプションとして、本開示の一実施形態では、訓練モジュール1002は、重み付けモデルを使用して、訓練文を翻訳する第1重みを少なくとも2つの翻訳モデルに設定し、少なくとも2つの翻訳モデルの第1重みに基づいて複数の翻訳を用いて訓練文を翻訳して第1翻訳結果を得る。
さらにオプションとして、本開示の一実施形態では、訓練モジュール1002は、ランダム重み分配器を使用して、少なくとも2つの翻訳モデルに訓練文を翻訳する第2重みを設定し、少なくとも2つの翻訳モデルの第2重みに基づいて複数の翻訳を用いて訓練文を翻訳して第2翻訳結果を得る。
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
図11は、本開示の実施形態を実施可能な例示的な電子デバイス1100の概略的なブロック図を示した。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
図11に示すように、デバイス1100は、読み取り専用メモリ(ROM)1102に記憶されたコンピュータプログラム、又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段1101を含む。RAM1103には、デバイス1100の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段1101、ROM1102及びRAM1103は、バス1104を介して接続されている。入出力(I/O)インターフェース1105もバス1104に接続されている。
例えばキーボード、マウス等の入力手段1106と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段1107と、例えば磁気ディスク、光ディスク等の記憶手段1108と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段1109を含むデバイス1100の複数の構成要素は、I/Oインターフェース1105に接続される。通信手段1109は、デバイス1100が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
演算手段1101は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段1101のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段1101は、上述した様々な方法及び処理、例えば本開示の前記方法を実行する。例えば、幾つかの実施形態では、本開示の前記方法は、例えば記憶手段1108のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM1102及び/又は通信手段1109を介してデバイス1100にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1103にロードされ、演算手段1101により実行されると、前記本開示の上記方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段1101は、本開示の前記方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであっても良く、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳することに対応する重みを取得することと、
    各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳することと、を含む、
    翻訳方法。
  2. 各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳することは、
    各前記翻訳モデルが前記特定文を翻訳する重みに基づいて前記少なくとも2つの翻訳モデルが前記特定文を翻訳する過程で生成された各位置の目標語を取得し、
    前記各位置の目標語を前から後の順にスプライシングして前記特定文の翻訳を生成する、
    ことを含む請求項1に記載の翻訳方法。
  3. 各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルが前記特定文を翻訳する過程で生成される各位置の目標語を取得することは、
    前記各位置について、前記少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳する過程において、予測された位置における複数の候補語と、各前記複数の候補語に対応する確率とを取得し、
    前記位置における各前記複数の候補語について、前記少なくとも2つの翻訳モデルのそれぞれが翻訳する場合に予測される前記複数の候補語に対応する前記確率と、各前記翻訳モデルが前記特定文を翻訳する重みとに基づいて、前記複数の候補語の前記位置における推論確率を計算し、
    前記位置における前記複数の候補語のそれぞれの前記位置における推論確率に基づいて、前記位置の目標語を決定する、
    ことを含む請求項2に記載の翻訳方法。
  4. 前記各位置における各前記複数の候補語について、前記少なくとも2つの翻訳モデルのそれぞれが翻訳する場合に予測される前記複数の候補語に対応する前記確率と、各前記翻訳モデルが前記特定文を翻訳する重みとに基づいて、前記複数の候補語の前記各位置における推論確率を計算することは、
    前記各位置における各前記複数の候補語について、各前記翻訳モデルが翻訳する場合に予測される前記複数の候補語に対応する前記確率と、対応する前記翻訳モデルが前記特定文を翻訳する重みとの積の和を前記複数の候補語の前記各位置における推論確率とする、
    ことを含む請求項3に記載の翻訳方法。
  5. モデル訓練方法であって、
    訓練文を収集することと、
    前記訓練文、予め訓練された少なくとも2つの翻訳モデル、及び予め設定されたランダム重み分配器とに基づいて重み付けモデルを訓練することと、を含む、
    方法。
  6. 前記訓練文と、予め訓練された少なくとも2つの翻訳モデルと、予め設定されたランダム重み分配器とに基づいて、重み付けモデルを訓練することは、
    前記重み付けモデルに基づいて、前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第1翻訳結果を取得し、
    前記ランダム重み分配器に基づいて、前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第2翻訳結果を取得し、
    前記第1翻訳結果の品質スコア及び前記第2翻訳結果の品質スコアをそれぞれ取得し、
    前記第2翻訳結果の品質スコアが前記第1翻訳結果の品質スコアよりも高いか否かを検出し、
    肯定の場合に、前記ランダム重み分配器が前記訓練文に基づいて前記少なくとも2つの翻訳モデルに重みを割り当てた結果を、前記重み付けモデルに学習させる、
    ことを含む請求項5に記載のモデル訓練方法。
  7. 前記重み付けモデルに基づいて前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第1翻訳結果を取得することは、
    前記重み付けモデルを使用して、前記少なくとも2つの翻訳モデルに前記訓練文を翻訳する第1重みを設定し、
    前記少なくとも2つの翻訳モデルの第1重みに基づいて、複数の翻訳を用いて前記訓練文を翻訳して前記第1翻訳結果を得る、
    ことを含む請求項6に記載のモデル訓練方法。
  8. 前記ランダム重み分配器に基づいて、前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第2翻訳結果を取得することは、
    前記ランダム重み分配器を使用して、前記少なくとも2つの翻訳モデルに前記訓練文を翻訳する第2重みを設定し、
    前記少なくとも2つの翻訳モデルの第2重みに基づいて、複数の翻訳を用いて前記訓練文を翻訳して前記第2翻訳結果を得る、
    ことを含む請求項6に記載のモデル訓練方法。
  9. 翻訳すべき特定文と予め訓練された重み付けモデルとに基づいて、予め訓練された少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳することに対応する重みを取得する重み取得モジュールと、
    各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルを用いて前記特定文を翻訳する翻訳モジュールと、
    を備える翻訳装置。
  10. 前記翻訳モジュールは、
    各前記翻訳モデルが前記特定文を翻訳する重みに基づいて、前記少なくとも2つの翻訳モデルが前記特定文を翻訳する過程で生成された各位置の目標語を取得し、
    前記各位置の目標語を、前から後の順にスプライシングして前記特定文の翻訳を生成する、
    請求項9に記載の翻訳装置。
  11. 前記翻訳モジュールは、
    前記各位置について、前記少なくとも2つの翻訳モデルのそれぞれが前記特定文を翻訳する過程において、予測された位置における複数の候補語と、各前記複数の候補語に対応する確率とを取得し、
    前記位置における各前記複数の候補語について、前記少なくとも2つの翻訳モデルのそれぞれが翻訳する場合に予測される前記複数の候補語に対応する前記確率と、各前記翻訳モデルが前記特定文を翻訳する重みとに基づいて、前記複数の候補語の前記位置における推論確率を計算し、
    前記位置における前記複数の候補語のそれぞれの前記位置における推論確率に基づいて、前記位置の目標語を決定する、
    請求項10に記載の翻訳装置。
  12. 前記翻訳モジュールは、
    前記各位置における各前記複数の候補語について、各前記翻訳モデルが翻訳する場合に予測される前記複数の候補語に対応する前記確率と、対応する前記翻訳モデルが前記特定文を翻訳する重みとの積の和を、前記複数の候補語の前記位置における推論確率とする、
    請求項11に記載の翻訳装置。
  13. モデル訓練装置であって、
    訓練文を収集する収集モジュールと、
    前記訓練文、予め訓練された少なくとも2つの翻訳モデル、及び予め設定されたランダム重み分配器に基づいて、重み付けモデルを訓練する訓練モジュールと、
    を備えるモデル訓練装置。
  14. 前記訓練モジュールは、
    前記重み付けモデルに基づいて、前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第1翻訳結果を取得し、
    前記ランダム重み分配器に基づいて、前記少なくとも2つの翻訳モデルで前記訓練文を翻訳して得られた第2翻訳結果を取得し、
    前記第1翻訳結果の品質スコア及び前記第2翻訳結果の品質スコアをそれぞれ取得し、
    前記第2翻訳結果の品質スコアが前記第1翻訳結果の品質スコアよりも高いか否かを検出し、
    肯定の場合に、前記ランダム重み分配器が前記訓練文に基づいて前記少なくとも2つの翻訳モデルに重みを割り当てた結果を、前記重み付けモデルに学習させる、
    請求項13に記載のモデル訓練装置。
  15. 前記訓練モジュールは、
    前記重み付けモデルを使用して、前記少なくとも2つの翻訳モデルに前記訓練文を翻訳する第1重みを設定し、
    前記少なくとも2つの翻訳モデルの第1重みに基づいて、複数の翻訳を用いて前記訓練文を翻訳して前記第1翻訳結果を得る、
    請求項14に記載のモデル訓練装置。
  16. 前記訓練モジュールは、
    前記ランダム重み分配器を使用して、前記少なくとも2つの翻訳モデルに前記訓練文を翻訳する第2重みを設定し、
    前記少なくとも2つの翻訳モデルの第2重みに基づいて、複数の翻訳を用いて前記訓練文を翻訳して前記第2翻訳結果を得る、
    請求項14に記載のモデル訓練装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドを記憶しており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~4のいずれか1項に記載の翻訳方法、又は5~8のいずれか1項に記載のモデル訓練方法を実行させる電子デバイス。
  18. コンピュータに請求項1~4のいずれか1項に記載の翻訳方法又は5~8のいずれか1項に記載のモデル訓練方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
  19. プロセッサにより実行されると、請求項1~4のいずれか1項に記載の翻訳方法又は5~8のいずれか1項に記載のモデル訓練方法を実現するコンピュータプログラム。
JP2022116365A 2021-11-16 2022-07-21 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体 Active JP7472421B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111353074.X 2021-11-16
CN202111353074.XA CN114239608B (zh) 2021-11-16 2021-11-16 翻译方法、模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023073951A true JP2023073951A (ja) 2023-05-26
JP7472421B2 JP7472421B2 (ja) 2024-04-23

Family

ID=80749496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022116365A Active JP7472421B2 (ja) 2021-11-16 2022-07-21 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体

Country Status (3)

Country Link
US (1) US20230153543A1 (ja)
JP (1) JP7472421B2 (ja)
CN (1) CN114239608B (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064051A (ja) 2007-09-04 2009-03-26 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
CN108304390B (zh) * 2017-12-15 2020-10-16 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、训练装置、翻译方法及存储介质
CN109829550B (zh) * 2019-02-01 2022-03-04 北京金山数字娱乐科技有限公司 模型评价方法和装置、模型评价系统及其训练方法和装置
CN109960814B (zh) * 2019-03-25 2023-09-29 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN110162800B (zh) * 2019-05-08 2021-02-05 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN112329482A (zh) * 2020-10-28 2021-02-05 北京嘀嘀无限科技发展有限公司 机器翻译方法、装置、电子设备和可读存储介质
CN112733552B (zh) * 2020-12-30 2024-04-12 中国科学技术大学 机器翻译模型构建方法、装置以及设备

Also Published As

Publication number Publication date
CN114239608B (zh) 2022-11-25
JP7472421B2 (ja) 2024-04-23
CN114239608A (zh) 2022-03-25
US20230153543A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
US11308405B2 (en) Human-computer dialogue method and apparatus
JP7250052B2 (ja) 自然言語及び知識グラフに基づく表現学習方法及び装置
US20210342549A1 (en) Method for training semantic analysis model, electronic device and storage medium
JP7318159B2 (ja) テキスト誤り訂正方法、装置、電子デバイス及び可読記憶媒体
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
KR20220005416A (ko) 다항 관계 생성 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
JP2022003539A (ja) テキスト誤り訂正方法、装置、電子機器及び記憶媒体
KR102524766B1 (ko) 자연어 및 지식 그래프 기반 표현 학습 방법 및 장치
US20220083868A1 (en) Neural network training method and apparatus, and electronic device
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN111079945B (zh) 端到端模型的训练方法及装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
JP7285977B2 (ja) ニューラルネットワークトレーニング方法、装置、電子機器、媒体及びプログラム製品
CN114202076A (zh) 深度学习模型的训练方法、自然语言处理方法和装置
JP2023072022A (ja) マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置
CN111241838A (zh) 文本实体的语义关系处理方法、装置及设备
US20230013796A1 (en) Method and apparatus for acquiring pre-trained model, electronic device and storage medium
JP2023007366A (ja) 分子構造取得方法、装置、電子デバイス及び記憶媒体
JP2021108178A (ja) マルチラウンド対話の検索方法、装置、記憶媒体および電子機器
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
JP2020008836A (ja) 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体
CN112507705A (zh) 一种位置编码的生成方法、装置及电子设备
JP2023073951A (ja) 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7472421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150