JP2023509031A

JP2023509031A - マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム

Info

Publication number: JP2023509031A
Application number: JP2022540553A
Authority: JP
Inventors: 凡▲東▼ 孟; 永▲競▼ 尹; ▲勁▼松 ▲蘇▼; 杰周
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-20
Filing date: 2021-04-29
Publication date: 2023-03-06
Also published as: US20220245365A1; WO2021233112A1; CN111597830A

Abstract

マルチモーダル機械学習に基づく翻訳方法を開示し、人工知能の技術分野に関する。該方法は、ｎ個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソースステートメントの間のセマンティック関連付けを十分に表現する。続いてセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。

Description

本願は人工知能の技術分野に関し、特にマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体に関する。

本願は、２０２０年５月２０日に提出された出願番号が第２０２０１０４３２５９７２号であり、発明の名称が「マルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体」である中国特許出願の優先権を要求し、その全部の内容は援用によって本願に組み込まれている。

機械翻訳はコンピュータを利用して１種類の自然言語を他の種類の自然言語に変換するプロセスである。

いくつかの応用シーンにおいて、機械翻訳モデルにより複数種類の異なる表現形式のソース言語を目標言語に翻訳することができ、即ちマルチモーダルソース言語を目標言語に翻訳することができる。例示的には、ピクチャ及び対応する英語注釈を獲得し、機械翻訳モデルによりそれぞれピクチャ及び英語注釈に対して特徴抽出を行い、その後、抽出された特徴を融合し、更に融合後の特徴に基づいて翻訳し、ピクチャ及び英語注釈に対応するフランス語注釈を得る。

本願の実施例はマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体を提供し、特徴符号化のプロセスにおいて、複数のモーダルのソース言語に対して十分なセマンティック融合を行うことができ、符号化ベクトルにより復号された目標ステートメントをソース言語により表される内容及び感情等に一層接近させる。前記技術的手段は以下のとおりである。

本願の一態様によれば、コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法を提供し、該方法は、
異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を構築するステップであって、前記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、前記セマンティックノードは１種類のモーダルにおける前記ソースステートメントの１つのセマンティックユニットを示すことに用いられ、ｎは１よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第１ワードベクトルを抽出するステップと、
前記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得するステップと、
前記ｎ個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む。

本願の他の態様によれば、マルチモーダル機械学習に基づく翻訳装置を提供し、該装置は、
異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、前記セマンティックノードは１種類のモーダルにおける前記ソースステートメントの１つのセマンティックユニットを示すことに用いられ、ｎは１よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第１ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記ｎ個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む。

本願の他の態様によれば、コンピュータ機器を提供し、該コンピュータ機器は、
メモリと、
メモリに接続されるプロセッサと、を含み、
プロセッサは実行可能命令をロードし且つ実行することにより上記１つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される。

本願の他の態様によれば、コンピュータ可読記憶媒体を提供し、上記コンピュータ可読記憶媒体に少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセット又は命令セットが記憶され、上記少なくとも１つの命令、少なくとも１セグメントのプログラム、コードセット又は命令セットはプロセッサによりロードされ且つ実行されることにより上記１つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現する。

本願の実施例における技術的手段をより明確に説明するために、以下に実施例の記述に使用する必要のある図面を簡単に紹介するが、明らかなように、以下に記述される図面は単に本願のいくつかの実施例に過ぎない。当業者であれば、創造的な労力を要することなく、更にこれらの図面に基づき他の図面を獲得することができる。

図１は本願の１つの例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。図２は本願の１つの例示的な実施例が提供するコンピュータシステムの構造模式図である。図３は本願の１つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。図４は本願の１つの例示的な実施例が提供するセマンティック関連図を構築するフローチャートである。図５は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。図６は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。図７は本願の他の例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。図８は本願の１つの例示的な実施例が提供するモデルテスト結果の曲線図である。図９は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。図１０は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。図１１は本願の１つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置のブロック図である。図１２は本願の１つの例示的な実施例が提供するサーバの構造模式図である。

本願の目的、技術的手段及び利点をより明確にするために、以下に図面を参照しながら本願の実施形態を更に詳しく記述する。

本願に関わる名詞を以下のように解釈する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）：デジタルコンピュータ又はデジタルコンピュータにより制御される機械を利用して人の知能を模倣、拡大及び拡張し、環境を感知し、又は知識を獲得し且つ知識を使用して最適な結果を獲得する理論、方法、技術及び応用システムの技術科学である。換言すれば、人工知能はコンピュータ科学の１つの総合的な技術であり、それは知能の本質を理解し、且つ人間の知能に類似する方式で反応できる新しいインテリジェント機器を生産するように意図されている。人工知能とは、各種のインテリジェント機器の設計原理及び実現方法を研究し、機器に感知、推理及び意思決定の機能を有させるものである。

人工知能技術は１つの総合的な学科であり、関連する分野が広く、ハードウェアレベルの技術及びソフトウェアレベルの技術を含む。人工知能の基礎技術は一般的に例えばセンサ、専用の人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング／インタラクティブシステムシステム、及びメカトロニクス等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習等のいくつかの大きな方向を含む。

ここで、自然言語処理（ＮａｔｕｒｅＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）はコンピュータ科学分野及び人工知能分野における１つの重要な方向である。それは人とコンピュータとが自然言語により効果的な通信を行うことを実現できる各種の理論及び方法について研究する。自然言語処理は言語学、コンピュータ科学、及び数学を一体に合わせる１つの科学である。従って、この分野の研究は自然言語、即ち人々が日常に使用している言語に関する。従って、それは言語学の研究と密接に関係している。自然言語処理技術は一般的にテキスト処理、セマンティック理解、機械翻訳、ロボット問答、及びナレッジグラフ等の技術を含む。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は複数の分野が交差する１つの学科であり、確率論、統計学、近似理論、凸解析、及びアルゴリズム複雑性理論等の複数の学科に関する。コンピュータが人間の学習行動をどのように模倣又は実現することにより新しい知識又はスキルを獲得し、既存の知識構造を改めて組織して自体の性能を絶えず改善するかについて、専門に研究している。機械学習は人工知能のコアであり、コンピュータに知能を持たせる根本的な方法であり、その応用は人工知能の各分野にわたっている。機械学習及び深層学習は一般的に人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習、及び類推学習等の技術を含む。

本願においてはマルチモーダル機械翻訳モデルを提供し、ｎ個の異なるモーダルのソースステートメントを目標ステートメントに正確に翻訳することができる。ここで、モーダルとは言語の表現形式を指し、例えば、ステートメントはグラフ表現又は文字表現等の方式を用いてもよい。ソースステートメントとは翻訳対象ステートメントを指し、翻訳対象ステートメントはテキスト形式の第１言語類の翻訳対象センテンス及び非テキスト形式の翻訳対象言語を含む。目標ステートメントとはテキスト形式の第２言語類の翻訳済みセンテンスを指し、第２言語類は第１言語類と異なる。例示的には、ソースステートメントは英語ステートメント及び該英語ステートメントのイラストを含み、マルチモーダル機械翻訳モデルにより上記英語ステートメント及びそのイラストに対応する中国語ステートメントを翻訳により取得することができる。

図１のように、本願における１つの例示的な実施例が提供するマルチモーダル機械翻訳モデル１００の構造模式図を示す。該マルチモーダル機械翻訳モデル１００はマルチモーダルグラフ表現層１０１、第１ワードベクトル層１０２、マルチモーダル融合エンコーダ１０３及びデコーダ１０４を含み、
マルチモーダルグラフ表現層１０１は、ｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得することに用いられる。該セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、ｎは１よりも大きな正の整数である。ここで、１つのセマンティックノードは１種類のモーダルにおけるソースステートメントの１つのセマンティックユニットを示すことに用いられる。英語を例とすると、１つのセマンティックノードは１つの単語に対応し、中国語を例とすると、１つのセマンティックノードは１つの漢字に対応する。

第１ワードベクトル層１０２は、セマンティック関連図から複数の第１ワードベクトルを抽出することに用いられ、
マルチモーダル融合エンコーダ１０３は、該複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得することに用いられ、
デコーダ１０４は、ｎ個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得することに用いられる。

いくつかの選択可能な実施例において、マルチモーダルグラフ表現層１０１は、ｎ組のセマンティックノードを獲得することであって、１組のセマンティックノードが１つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか２つの上記セマンティックノードの間に上記第１結合辺を追加し、異なるモーダルのいずれか２つの上記セマンティックノードの間に上記第２結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。

いくつかの選択可能な実施例において、マルチモーダルグラフ表現層１０１は、各々のモーダルのソース言語からセマンティックノードを抽出して、ｎ個のモーダルのソース言語に対応するｎ組のセマンティックノードを取得することに用いられ、
マルチモーダルグラフ表現層１０１は、第１結合辺を用いてｎ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第２結合辺を用いてｎ組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することに用いられる。

いくつかの選択可能な実施例において、ｎ個のモーダルのソースステートメントにはテキスト形式の第１ソースステートメント及び非テキスト形式の第２ソースステートメントが含まれ、ｎ組のセマンティックノードは第１セマンティックノード及び第２セマンティックノードを含み、
マルチモーダルグラフ表現層１０１は、上記第１セマンティックノードを獲得することであって、上記第１セマンティックノードは上記第１ソースステートメントを処理して取得したものである、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードは上記第２ソースステートメントを処理して取得したものである、ことと、上記候補セマンティックノードの第１確率分布を獲得することであって、上記第１確率分布は上記第１セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算して取得したものである、ことと、上記候補セマンティックノードから上記第２セマンティックノードを決定することであって、上記第２セマンティックノードは上記マルチモーダルグラフ表現層が上記第１確率分布に基づき決定したものであることと、に用いられる。

いくつかの選択可能な実施例において、マルチモーダルグラフ表現層１０１は、第１ソースステートメントから第１セマンティックノードを抽出し、且つ第２ソースステートメントから候補セマンティックノードを抽出することと、第１セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第１確率分布を計算することと、第１確率分布に基づき候補セマンティックノードから第２セマンティックノードを決定することと、に用いられる。

いくつかの選択可能な実施例において、マルチモーダルグラフ表現層１０１は、第ｉ組のセマンティックノードにおいて同一モーダル内のいずれか２つのセマンティックノードの間に第ｉ種類の第１結合辺を追加することに用いられ、上記第ｉ種類の第１結合辺が第ｉ番目のモーダルに対応し、ｉはｎ以下の正の整数である。

つまり、マルチモーダルグラフ表現層１０１は、第ｉ番目のモーダルに対応する第ｉ種類の第１結合辺を決定し、第ｉ種類の第１結合辺を用いて第ｉ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、ｉはｎ以下の正の整数である。

いくつかの選択可能な実施例において、ｎ個の符号化特徴ベクトルは、上記複数の第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、上記符号化特徴ベクトルを取得するというプロセスにより獲得される。ここで、上記モーダル内融合とは同一モーダル内の上記第１ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第１ワードベクトルの間でセマンティック融合を行うことを指す。ここで、ｅは正の整数である。

いくつかの選択可能な実施例において、マルチモーダル融合エンコーダ１０３は直列接続されているｅ個の符号化モジュール１０３１を含み、各々の符号化モジュール１０３１はいずれもｎ個のモーダルに１対１で対応するｎ個のモーダル内融合層１１及びｎ個のモーダル間融合層１２を含み、ｅは正の整数であり、
１番目の符号化モジュール１０３１は、第１ワードベクトルをそれぞれ１番目の符号化モジュールにおけるｎ個のモーダル内融合層１１に入力し、ｎ個のモーダル内融合層１１によりそれぞれ第１ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、ｎ個の第１隠れ層ベクトルを取得することに用いられ、１つの上記第１隠れ層ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１隠れ層ベクトルを取得し、
１番目の符号化モジュール１０３１は、ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおける各々のモーダル間融合層１２に入力し、各々のモーダル間融合層１２により上記ｎ個の第１隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、ｎ個の第１中間ベクトルを取得することに用いられ、１つの上記中間ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１中間ベクトルを取得し、
第ｊ番目の符号化モジュール１０３１は、ｎ個の第１中間ベクトルに対してｊ回目の符号化処理を行い、最後の１つの符号化モジュールがｎ個の符号化特徴ベクトルを出力するまで続けることに用いられ、１つの上記符号化特徴ベクトルが１つのモーダルに対応し、つまり、最後の１つの符号化モジュールがｎ個のモーダルに１対１で対応するｎ個の符号化特徴ベクトルを出力するまで続け、ｊは１よりも大きく且つｅ以下の正の整数である。

いくつかの選択可能な実施例において、各々の符号化モジュール１０３１は更にｎ個の第１ベクトル変換層１３を含み、上記１つのベクトル変換層は１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１ベクトル変換層１３であり、
符号化モジュール１０３１は更に、ｎ個の第１中間ベクトルをそれぞれ所属するモーダルに対応するｎ個の第１ベクトル変換層１３に入力して非線形変換を行って、非線形変換後のｎ個の第１中間ベクトルを取得することに用いられる。

いくつかの選択可能な実施例において、直列接続されているｅ個の符号化モジュール１０３１のうちの各々の符号化モジュール１０３１における階層構造は同じである。

いくつかの選択可能な実施例において、異なるモーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なるモーダル間融合層に異なる又は同じ特徴融合関数が設定される。

いくつかの選択可能な実施例において、該マルチモーダル機械翻訳モデル１００は更に第２ワードベクトル層１０５及び分類器１０６を含み、且つデコーダ１０４は直列接続されているｄ個の復号モジュール１０４２を含み、ｄは正の整数であり、
第２ワードベクトル層１０５は、第１目標語句を獲得することであって、第１目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第１目標語句に対して特徴抽出を行って、第２ワードベクトルを取得することと、に用いられ、
デコーダ１０４は、直列接続されているｄ個の復号モジュール１０４２により第２ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することに用いられ、
分類器１０６は、復号特徴ベクトルに対応する確率分布を決定し、且つ確率分布に基づき第１目標語句の後の第２目標語句を決定することに用いられる。

いくつかの選択可能な実施例において、直列接続されているｄ個の復号モジュール１０４２のうちの各々の復号モジュール１０４２はいずれも第１自己注意層２１及び第２自己注意層２２を含み、
１番目の復号モジュール１０４２は、第２ワードベクトルを１番目の復号モジュール１０４２における第１自己注意層２１に入力し、第１自己注意層２１により第２ワードベクトルに対して特徴抽出を行って、第２隠れ層ベクトルを取得することに用いられ、
１番目の復号モジュール１０４２は、第２隠れ層ベクトル及び符号化特徴ベクトルを１番目の復号モジュール１０４２における第２自己注意層２２に入力し、第２自己注意層２２により第２隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第２中間ベクトルを取得することに用いられ、
第ｋ番目の復号モジュールは、第２中間ベクトルを第ｋ番目の復号モジュール１０４２に入力して第ｋ回目の復号処理を行い、最後の１つの復号モジュールが復号特徴ベクトルを出力するまで続けることに用いられ、ｋは１よりも大きく且つｄ以下の正の整数である。

いくつかの選択可能な実施例において、各々の復号モジュール１０４２は更に第２ベクトル変換層２３を含み、
復号モジュール１０４２は、第２中間ベクトルを第２ベクトル変換層２３に入力して非線形変換を行って、非線形変換後の第２中間ベクトルを取得することに用いられる。

以上のように、本実施例が提供するマルチモーダル機械翻訳モデルは、マルチモーダルグラフ表現層によりｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得する。セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得する。更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。

図２に参照されるように、本願の１つの例示的な実施例が提供するコンピュータシステムの構造模式図を示し、該コンピュータシステムは端末２２０及びサーバ２４０を含む。

端末２２０にオペレーティングシステムがインストールされ、該オペレーティングシステムにアプリケーションプログラムがインストールされ、該アプリケーションプログラムはマルチモーダルソース言語の翻訳機能をサポートする。例示的には、上記アプリケーションプログラムはインスタントメッセージングソフトウェア、金融ソフトウェア、ゲームソフトウェア、ショッピングソフトウェア、ビデオ再生ソフトウェア、コミュニティーサービスソフトウェア、オーディオソフトウェア、教育ソフトウェア、支払いソフトウェア及び翻訳ソフトウェア等を含んでもよく、上記アプリケーションプログラムに上記マルチモーダルソース言語の翻訳機能が統合されている。

端末２２０とサーバ２４０とは有線又は無線ネットワーク経由で互いに結合されている。サーバ２４０は１台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム及び仮想化センターのうちの少なくとも１つを含む。例示的には、サーバ２４０はプロセッサ及びメモリを含む。ここで、メモリにコンピュータプログラムが記憶され、プロセッサは上記コンピュータプログラムを読み取り且つ実行してマルチモーダルソース言語の翻訳機能を実現することができる。

選択肢として、サーバ２４０は主な計算作業を担い、端末２２０は副次的な計算作業を担う。又は、サーバ２４０は副次的な計算作業を担い、端末２２０は主な計算作業を担う。又は、サーバ２４０と端末２２０との両方の間は分散型計算アーキテクチャを用いて協調計算を行う。

いくつかの選択可能な実施例において、上記マルチモーダル言語の翻訳機能を実現するプロセスにおいて、サーバ２４０は端末２２０におけるアプリケーションプログラムにバックグラウンドサービスを提供する。例示的には、端末２２０はｎ個のモーダルのソースステートメントを収集し、上記ｎ個のモーダルのソースステートメントをサーバ２４０に送信し、サーバ２４０により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、ｎは１よりも大きな正の整数である。

例示的には、端末２２０にはデータ伝送制御部材が含まれ、端末２２０は上記データ伝送制御部材により翻訳対象ステートメント及び翻訳対象ステートメントにマッチングする画像のこの２つの異なるモーダルのソースステートメントをサーバ２４０にアップロードする。サーバ２４０により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、２つのモーダルのソースステートメントを目標ステートメントに翻訳する。

いくつかの選択可能な実施例において、ソースステートメントは音声信号を含んでもよい。ｎ個のモーダルのソースステートメントに音声信号が含まれる場合、ｎ個のモーダルのソースステートメントを翻訳する前に、端末２２０又はサーバ２４０はまず音声信号を文字テキストに変換する。例示的には、端末２２０はマイクロホンにより音声信号を収集し、又は、端末２２０は他の端末から送信された音声信号を受信する。

上記マルチモーダル機械学習に基づく翻訳方法はマルチメディアニュース翻訳シーンに応用できる。例示的には、端末２２０は文字と画像とを含むマルチメディアニュースをサーバ２４０にアップロードし、サーバ２４０により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、マルチメディアニュースにおける第１言語類の文字を第２言語類の文字に翻訳する。

上記マルチモーダル機械学習に基づく翻訳方法は外国語文献翻訳シーンに応用できる。例示的には、端末２２０は外国語文献における文字及び文字に対応する挿絵をサーバ２４０にアップロードし、サーバ２４０により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語文献における第１言語類の文字を第２言語類の文字に翻訳する。

上記マルチモーダル機械学習に基づく翻訳方法は外国語ウェブサイト翻訳シーンに応用できる。例示的には、端末２２０は外国語ウェブサイトにおける文字及び文字イラストを収集し、上記文字及び文字イラストをサーバ２４０にアップロードし、サーバ２４０により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語ウェブサイトにおける第１言語類の文字を第２言語類の文字に翻訳し、更に外国語ウェブサイトに対する翻訳を実現する。

いくつかの選択可能な実施例において、端末２２０が翻訳された文字を展示する方式は音声形式又は文字形式を含む。

説明する必要があるように、いくつかの選択可能な実施例において、端末２２０は本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、更にｎ個のモーダルのソースステートメントを翻訳する。

端末２２０は一般的に複数の端末のうちの１つを指してもよく、本実施例は端末２２０のみを例として説明する。該端末２２０はスマートフォン、タブレットコンピュータ、電子ブックリーダー、ＭＰＥＧオーディオレイヤー３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ＭＰ３）プレーヤー、ＭＰＥＧオーディオレイヤー４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ＭＰ４）プレーヤー、ラップトップポケットコンピュータ、デスクトップコンピュータ、及びノートパソコンのうちの少なくとも１つを含んでもよい。以下の実施例は端末２２０がスマートフォン及びパーソナルコンピュータ機器を含む場合を例として説明する。

当業者であれば分かるように、上記端末２２０の数はより多く又はより少なくてもよい。例えば、上記端末は１つのみであってもよく、又は上記端末は数十個若しくは数百個、若しくはより多くの数である。本願の実施例は端末２２０の数及び機器タイプを限定しない。

図３に参照されるように、本願の１つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートを示す。該方法は図２に示されるコンピュータ機器に応用され、該コンピュータ機器は端末又はサーバを含み、該方法は以下を含む。

ステップ３０１：コンピュータ機器はｎ個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築する。

上記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、ｎは１よりも大きな正の整数である。

１つのモーダルのソースステートメントを例とすると、該ソースステートメントは１組のセマンティックノードに対応し、該１組のセマンティックノードはソースステートメントにおけるセマンティックユニットを示すことに用いられる少なくとも１つのセマンティックノードを含む。

該コンピュータ機器にマルチモーダル融合エンコーダ及びデコーダが設定され、コンピュータ機器はマルチモーダルグラフ表現層により各々のモーダルのソースステートメントからセマンティックノードを抽出して、ｎ個のモーダルのソースステートメントに対応するｎ組のセマンティックノードを取得し、マルチモーダルグラフ表現層により第１結合辺を用いてｎ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、同一モーダルのいずれか２つのセマンティックノードの間に第１結合辺を追加し、且つ第２結合辺を用いてｎ組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行う。つまり、異なるモーダルのセマンティックノードの間に第２結合辺を追加して、セマンティック関連図を取得する。

選択肢として、ｎ個のモーダルのソースステートメントにはテキスト形式の第１ソースステートメント及び非テキスト形式の第２ソースステートメントが含まれる。ｎ組のセマンティックノードは第１セマンティックノード及び第２セマンティックノードを含む。コンピュータ機器は、マルチモーダルグラフ表現層により第１ソースステートメントから第１セマンティックノードを抽出し、且つ第２ソースステートメントから候補セマンティックノードを抽出し、マルチモーダルグラフ表現層を呼び出し、第１セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第１確率分布を計算し、マルチモーダルグラフ表現層を呼び出し、第１確率分布に基づき候補セマンティックノードから第２セマンティックノードを決定する。

ここで、テキスト形式の第１ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第１ソースステートメントに対して単語分割処理を行って、単語分割後のｍ個の語句を取得し、ｍ個の語句が第１ソースステートメントにおける第１セマンティックノードに対応し、ｍは正の整数であり、
非テキスト形式の第２ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第２ソースステートメントからｍ個の語句のうちの少なくとも１つの語句のセマンティックに対応する目標を抽出し、該目標が第２ソースステートメントにおける第２セマンティックノードである。

例示的には、図４のように、２つのモーダルのソースステートメントは翻訳対象画像３１及び翻訳対象ステートメント３２を含み、翻訳対象ステートメント３２の内容は「Ｔｗｏｂｏｙｓａｒｅｐｌａｙｉｎｇｗｉｔｈａｔｏｙｃａｒ．」を含む。各々の英語単語が１つの第１セマンティックノードに対応し、それぞれＶｘ１、Ｖｘ２、Ｖｘ３、Ｖｘ４、Ｖｘ５、Ｖｘ６、Ｖｘ７及びＶｘ８である。コンピュータ機器はセマンティックノードのセマンティックに基づいて翻訳対象画像３１から候補画像を切り取り、セマンティックノードと候補画像とのセマンティック関連付けに基づき第１確率分布を算出し、第１確率分布に基づき候補画像からＶｘ１及びＶｘ２のセマンティックに対応する目標画像１及び目標画像２、並びにＶｘ６、Ｖｘ７及びＶｘ８のセマンティックに対応する目標画像３を決定する。目標画像１、目標画像２及び目標画像３にそれぞれ対応するＶｏ１、Ｖｏ２及びＶｏ３は翻訳対象画像３１における３つの第２セマンティックノードである。コンピュータ機器はＶｘ１、Ｖｘ２、Ｖｘ３、Ｖｘ４、Ｖｘ５、Ｖｘ６、Ｖｘ７及びＶｘ８の２つごとの間に第１結合辺（実線）を用いてモーダル内セマンティック結合を行い、Ｖｏ１、Ｖｏ２及びＶｏ３の２つごとの間に第１結合辺を用いてモーダル内セマンティック結合を行い、第１セマンティックノードと第２セマンティックノードとの間に第２結合辺（破線）を用いてモーダル間セマンティック結合を行う。

選択肢として、異なるモーダルには異なる第１結合辺が対応して設定される。コンピュータ機器はセマンティックノードに対してモーダル内結合を行うときに、マルチモーダルグラフ表現層により第ｉ番目のモーダルに対応する第ｉ種類の第１結合辺を決定し、第ｉ種類の第１結合辺を用いて第ｉ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、第ｉ組のセマンティックノードにおけるいずれか２つのセマンティックノードの間に第ｉ種類の第１結合辺を追加し、ｉはｎ以下の正の整数である。

選択肢として、２つのモーダルのソースステートメントを翻訳するに際し、２つのモーダルのソースステートメントがそれぞれ文字及び画像である場合、コンピュータ機器は視覚グラウンディング（ｖｉｓｕａｌｇｒｏｕｎｄｉｎｇ）ツールにより２つのモーダルのソースステートメントの間のセマンティック関連付けを確立し、セマンティック関連図を構築する。

ステップ３０２：コンピュータ機器はセマンティック関連図から複数の第１ワードベクトルを抽出する。

例示的には、コンピュータ機器はワード埋め込み方式を用いてセマンティック関連図を処理して、複数の第１ワードベクトルを取得する。ワード埋め込みとは単語をワードベクトルにマッピングすることを指し、選択肢として、ワード埋め込み方法は、
ニューラルネットワークモデルによりワード埋め込みを行うこと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うこと、
確率モデルによりワード埋め込みを行うこと、及び
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うこと、の４種類のうちの少なくとも１種類を含む。

例えば、ワンホットエンコーディング（Ｏｎｅ－ＨｏｔＥｎｃｏｄｉｎｇ）によりテキスト形式のソースステートメントにおける単語を表現し、続いて埋め込み行列によりワード埋め込みを行う。

ステップ３０３：コンピュータ機器は複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得する。

コンピュータ機器はマルチモーダル融合エンコーダにより第１ワードベクトルに対してモーダル内の特徴抽出を行い、続いて特徴抽出により取得されたベクトルに対してモーダル間の特徴融合を行う。

例示的に、ｎの値が３である場合を例とする。マルチモーダル融合エンコーダには第１モーダルに対応する第１特徴抽出関数、第２モーダルに対応する第２特徴抽出関数、及び第３モーダルに対応する第３特徴抽出関数が含まれる。コンピュータ機器は第１特徴抽出関数により第１ワードベクトルに対して第１モーダル内の特徴抽出を行い、第２特徴抽出関数により第１ワードベクトルに対して第２モーダル内の特徴抽出を行い、第３特徴抽出関数により第１ワードベクトルに対して第３モーダル内の特徴抽出を行って、最終的に３つの隠れ層関数を取得する。マルチモーダル融合エンコーダには第１モーダルに対応する第１特徴融合関数、第２モーダルに対応する第２特徴融合関数、及び第３モーダルに対応する第３特徴融合関数が更に含まれる。コンピュータ機器は第１特徴融合関数により上記３つの隠れ層関数に対してモーダル間の特徴融合を行い、第２特徴融合関数により上記３つの隠れ層関数に対してモーダル間の特徴融合を行い、第３特徴融合関数により上記３つの隠れ層関数に対してモーダル間の特徴融合を行って、３つの特徴融合後の隠れ層ベクトル、即ち符号化特徴ベクトルを取得する。

ステップ３０４：コンピュータ機器はｎ個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。

コンピュータ機器はデコーダを呼び出してｎ個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。該目標ステートメントがｎ個のモーダルのソースステートメントを指定された言語類に翻訳して取得したステートメントである。

以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりｎ個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソースステートメントの間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。

図３に基づいて、マルチモーダル融合エンコーダは直列接続されているｅ個の符号化モジュールを含み、各々の符号化モジュールはいずれもｎ個のモーダルに１対１で対応するｎ個のモーダル内融合層及びｎ個のモーダル間融合層を含み、ｅは正の整数である。従って、ステップ３０３はステップ３０３１を含んでもよく、図５のように、ステップは、以下の通りである。
ステップ３０３１：コンピュータ機器は直列接続されているｅ個の符号化モジュールにより複数の第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、ｎ個の符号化特徴ベクトルを取得する。

ここで、モーダル内融合とは同一モーダル内の第１ワードベクトルの間でセマンティック融合を行うことを指し、モーダル間融合とは異なるモーダルの第１ワードベクトルの間でセマンティック融合を行うことを意味する。

例示的には、上記符号化特徴ベクトルのモーダル内及びモーダル間融合は以下のステップにより実現され得る。

１）第１ワードベクトルをそれぞれ１番目の符号化モジュールにおけるｎ個のモーダル内融合層に入力し、ｎ個のモーダル内融合層によりそれぞれ第１ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、ｎ個の第１隠れ層ベクトルを取得する。１つの上記第１隠れ層ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１隠れ層ベクトルを取得する。

例示的には、コンピュータ機器は第１ワードベクトルを１番目の符号化モジュールにおける１番目のモーダル内融合層に入力し、１番目のモーダル内融合層により第１ワードベクトルに対してモーダル内のセマンティック融合を行って１番目の第１隠れ層ベクトルを取得し、第１ワードベクトルを１番目の符号化モジュールにおける２番目のモーダル内融合層に入力し、２番目のモーダル内融合層により第１ワードベクトルに対してモーダル内のセマンティック融合を行って２番目の第１隠れ層ベクトルを取得し、…、第１ワードベクトルを１番目の符号化モジュールにおけるｎ番目のモーダル内融合層に入力し、ｎ番目のモーダル内融合層により第１ワードベクトルに対してモーダル内のセマンティック融合を行ってｎ番目の第１隠れ層ベクトルを取得する。

モーダル内融合層内には特徴抽出関数が設定され、選択肢として、特徴抽出関数は自己注意関数を含む。選択肢として、異なるモーダル内融合層内に異なる又は同じ自己注意関数が設定される。説明する必要があるように、自己注意関数が異なるとは関数内のパラメータが異なることを指し、異なるモーダルに対応する自己注意関数が異なれば、異なるモーダルに対応する関数内のパラメータは異なる。

２）ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、ｎ個の第１中間ベクトルを取得する。１つの上記中間ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１中間ベクトルを取得する。

例示的には、コンピュータ機器は、ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおける１番目のモーダル間融合層に入力し、１番目のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対してモーダル間のセマンティック融合を行って１番目のモーダルに対応する１番目の第１中間ベクトルを取得し、ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおける２番目のモーダル間融合層に入力し、２番目のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対してモーダル間のセマンティック融合を行って２番目のモーダルに対応する２番目の第１中間ベクトルを取得し、…、ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおけるｎ番目のモーダル間融合層に入力し、ｎ番目のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対してモーダル間のセマンティック融合を行ってｎ番目のモーダルに対応するｎ番目の第１中間ベクトルを取得する。

モーダル間融合層には特徴融合関数が設定され、選択肢として、異なるモーダル間融合層内に設定される特徴融合関数は異なる又は同じである。説明する必要があるように、特徴融合関数が異なるとは関数内のパラメータが異なることを指し、又は、関数の計算方式が異なることを意味する。

選択肢として、各々の符号化モジュールは、ｎ個のモーダルに１対１で対応するｎ個の第１ベクトル変換層を更に含む。ｎ個の第１中間ベクトルを取得した後に、コンピュータ機器は更にｎ個の第１中間ベクトルをそれぞれ所属するモーダルに対応するｎ個の第１ベクトル変換層に入力して非線形変換を行って、非線形変換後のｎ個の第１中間ベクトルを取得する。

３）ｎ個の第１中間ベクトルを第ｊ番目の符号化モジュールに入力してｊ回目の符号化処理を行い、これを最後の１つの符号化モジュールがｎ個の符号化特徴ベクトルを出力するまで続ける。１つの上記符号化特徴ベクトルが１つのモーダルに対応し、つまり、最後の１つの符号化モジュールがｎ個のモーダルに１対１で対応するｎ個の符号化特徴ベクトルを出力するまで続ける。

コンピュータ機器は、ｎ個の中間ベクトルを２番目の符号化モジュールに入力して２回目の符号化処理を行って、改めて符号化されたｎ個の第１中間ベクトルを取得し、…、改めて符号化されたｎ個の第１中間ベクトルを第ｊ番目の符号化モジュールに入力してｊ回目の符号化処理を行って、改めて符号化されたｎ個の第１中間ベクトルを取得し、…、改めて符号化されたｎ個の第１中間ベクトルをｅ番目の符号化モジュールに入力してｅ回目の符号化処理を行って、ｎ個の符号化特徴ベクトルを取得する。ここで、ｊは１よりも大きく且つｅ以下の正の整数である。選択肢として、直列接続されているｅ個の符号化モジュールのうちの上記各々の符号化モジュールにおける階層構造は同じである。即ち、第ｊ番目の符号化モジュールは１番目の符号化モジュールが第１中間ベクトルを符号化するステップに従って処理し、最後の１つの符号化モジュールが符号化特徴ベクトルを出力するまで続ける。

例示的には、本実施例において自己注意メカニズムを用いて同じモーダル内部のセマンティック情報をモデリングする。そうすると、第ｊ番目の符号化モジュールはテキストステートメントに対応する第１隠れ層ベクトル［数１］を計算し、式は、
［数２］であり、
ここで、［数３］はテキストステートメントに対応する第１ワードベクトル又は（ｊ－１）番目の符号化モジュールが出力する第１中間ベクトルを指し、ｘはテキストステートメントのセマンティックノード、及びテキストステートメントのセマンティックノードにより計算して取得されたベクトルをマークすることに用いられ、ＭｕｌｔｉＨｅａｄ（Ｑ，Ｋ，Ｖ）は多重注意メカニズムモデリング関数であり、トリプレット（Ｑｕｅｒｉｅｓ，Ｋｅｙ，Ｖａｌｕｅｓ）を入力とし、Ｑがクエリ行列であり、Ｋがキー行列であり、Ｖが値行列であり、ここで、Ｑ、Ｋ及びＶが［数４］及びパラメータベクトルから計算して取得したものである。

第ｊ番目のマルチモーダル融合エンコーダは画像に対応する第１隠れ層ベクトル［数５］を計算し、式は、
［数６］であり、

ここで、［数７］は画像に対応する第１ワードベクトル又は（ｊ－１）番目の符号化モジュールが出力する第１中間ベクトルを指し、

本実施例において更にゲーティングメカニズムに基づくクロスモーダル融合メカニズムを用いてマルチモーダル間のセマンティック融合をモデリングし、そうすると、第ｊ番目の符号化モジュールはテキストステートメントに対応する第１中間ベクトル又は符号化特徴ベクトル［数８］を計算し、式は、
［数９］、
［数１０］であり、

ここで、Ａは集合を示す。対応して、［数１１］は第１セマンティックノード［数１２］のセマンティック関連図における近傍ノードの集合である。［数１３］はテキストステートメントのｕ番目のセマンティックノードを示し、ｕは正の整数である。［数１４］は第ｊ番目の符号化モジュールにおける画像のｓ番目のセマンティックノードのセマンティック表現ベクトルであり、［数１５］は第ｊ番目の符号化モジュールにおけるテキストステートメントのｕ番目のセマンティックノードのセマンティック表現ベクトルである。［数１６］と［数１７］はパラメータ行列であり、［数１８］は否定排他的論理和演算を示し、Ｓｉｇｍｏｉｄ（）はｓ曲線型関数である。ｏは画像のセマンティックノード、及び画像のセマンティックノードにより計算して取得されたベクトルをマークすることに用いられる。更に同じ計算方式によって画像に対応する第１中間ベクトル又は符号化特徴ベクトル［数１９］を計算し、ここで再び詳しく説明しない。

マルチモーダル間融合を経た後に、本実施例において更にフィードフォワードニューラルネットワーク（ＦｅｅｄＦｏｒｗａｒｄＮｅｕｒａｌ、ＦＦＮ）を用いて最終的な符号化特徴ベクトルを生成し、テキストステートメントに対応する符号化特徴ベクトル及び画像に対応する符号化特徴ベクトルはそれぞれ、
［数２０］、
［数２１］であり、

ここで、［数２２］であり、｛｝は集合を示し、［数２３］は第ｊ番目の符号化モジュールにおけるテキストステートメントのｕ番目のセマンティックノードに対応する符号化特徴ベクトルを示し、［数２４］は第ｊ番目の符号化モジュールにおける画像のｓ番目のセマンティックノードに対応する符号化特徴ベクトルを示す。

以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。

該方法においてマルチモーダル融合エンコーダには直列接続されているｅ個の符号化モジュールが含まれる。各々の符号化モジュールはいずれもモーダル内融合層及びモーダル間融合層を含み、モーダル内及びモーダル間の特徴融合を複数回交互に行うことによりセマンティック融合がより完全な符号化特徴ベクトルを取得し、更にｎ個のモーダルのソース言語に対応するより正確な目標ステートメントを復号することができる。

図３に基づいて、デコーダは直列接続されているｄ個の復号モジュールを更に含み、ｄは正の整数である。従って、ステップ３０４はステップ３０４１～ステップ３０４４を含んでもよく、図６に示すように、これらステップは以下のとおりである。

ステップ３０４１：コンピュータ機器は第２ワードベクトル層により第１目標語句を獲得する。

ここで、第１目標語句は目標ステートメントにおける翻訳済み語句である。コンピュータ機器は目標ステートメントにおける語句を１つずつ翻訳し、目標ステートメントにおけるｒ番目の語句を翻訳した後に、ｒ番目の語句を第１目標語句とし、ｒ＋１番目の語句を翻訳することに用いる。言い換えれば、コンピュータ機器はｒ番目の語句を第２ワードベクトル層に入力し、ｒは負ではない整数である。

ステップ３０４２：コンピュータ機器は第２ワードベクトル層により第１目標語句に対して特徴抽出を行って、第２ワードベクトルを取得する。

例示的には、コンピュータ機器は第２ベクトル層により第１目標語句に対してワード埋め込みを行って、第２ワードベクトルを取得する。ワード埋め込みは、単語をベクトル空間において実数ベクトルとして表現する技術であり、本実施例においてワード埋め込みとは単語をワードベクトルにマッピングすることを指す。例えば、「わたし」をマッピングしてワードベクトル（０．１，０．５，５）を取得すれば、すなわち（０．１，０．５，５）は「わたし」に対してワード埋め込みを行った後のワードベクトルである。

ステップ３０４３：コンピュータ機器は直列接続されているｄ個の復号モジュールにより第２ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する。

コンピュータ機器は直列接続されているｄ個の復号モジュールを呼び出して注意メカニズムに基づいて符号化特徴ベクトル及び第２ワードベクトルを処理して、復号特徴ベクトルを抽出する。

選択肢として、直列接続されているｄ個の復号モジュールのうちの各々の復号モジュールはいずれも１つの第１自己注意層、１つの第２自己注意層及び１つの第２ベクトル変換層を含む。復号特徴ベクトルの抽出については、コンピュータ機器は第２ワードベクトルを１番目の復号モジュールにおける第１自己注意層に入力し、第１自己注意層により第２ワードベクトルに対して特徴抽出を行って、第２隠れ層ベクトルを取得し、第２隠れ層ベクトル及び符号化特徴ベクトルを１番目の復号モジュールにおける第２自己注意層に入力し、第２自己注意層により第２隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第２中間ベクトルを取得し、第２中間ベクトルを第ｋ番目の復号モジュールに入力してｋ回目の復号処理を行い、これを最後の１つの復号モジュールが復号特徴ベクトルを出力するまで続け、ｋは１よりも大きく且つｄ以下の正の整数である。

ここで、第１自己注意層は自己注意メカニズムに基づいて第２ワードベクトルを処理して、第２隠れ層ベクトルを抽出することに用いられ、第２自己注意層は注意メカニズムに基づいて目標ステートメントの言語類を用いて第２隠れ層ベクトル及び符号化特徴ベクトルを処理して、第２中間ベクトルを取得することに用いられる。第１自己注意層に第１自己注意関数が含まれ、第２自己注意層に第２自己注意関数が含まれ、第１自己注意関数と第２自己注意関数のパラメータは異なる。

選択肢として、各々の復号モジュールは更に第２ベクトル変換層を含み、第２中間ベクトルを計算して取得した後に、コンピュータ機器は更に第２中間ベクトルを第２ベクトル変換層に入力して非線形変換を行って、非線形変換後の第２中間ベクトルを取得する。

ステップ３０４４：コンピュータ機器は復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第１目標語句の後の第２目標語句を決定する。

選択肢として、分類器に正規化（ｓｏｆｔｍａｘ）関数が含まれ、コンピュータ機器はｓｏｆｔｍａｘ関数により復号特徴ベクトルに対応する確率分布を計算し、且つ復号特徴ベクトルに対応する確率分布に基づき第１目標語句の後の第２目標語句を決定する。

以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。

該方法は更にｄ個の復号モジュールにより目標ステートメントの言語類を用いて符号化特徴ベクトル及び第２隠れ層ベクトルに対して注意を繰り返し行って、より正確な目標ステートメントを復号する。

更に説明する必要があるように、本願が提供するマルチモーダル機械翻訳モデルと以前のマルチモーダルニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ、ＮＭＴ）とに対してテスト比較を行ったところ、本願が提供するマルチモーダル機械翻訳モデルの翻訳効果が最も高いことが明らかになった。例示的に、入力データが画像及びテキストの２種類のソース言語であることを例として、上記テスト比較を以下のように詳しく説明する。

本願が提供するマルチモーダル機械翻訳モデルは注意のコーデックフレームワークに基づいて構築されたものであり、訓練データの対数尤度の最大化を目標関数とする。本質的に、本願が提供するマルチモーダル融合エンコーダは１つのマルチモーダル拡張グラフニューラルネットワーク（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ、ＧＮＮ）として見なされてもよい。マルチモーダル融合エンコーダを構築するために、入力された画像及びテキストを１つのマルチモーダルグラフ（即ちセマンティック関連図）として対応付けて表現し、その後、上記マルチモーダルグラフに基づいて複数のマルチモーダル融合層を重ね合わせてノード（即ちセマンティックノード）表現を学習し、デコーダに注意に基づくコンテキストベクトルを提供する。

一、マルチモーダルグラフの構築については、形式的にマルチモーダルグラフは無向であり、Ｇ＝（Ｖ，Ｅ）に形式化することができる。ここで、ノードセットＶにおいて、個々のノードはテキスト語句又は視覚オブジェクトを示す。ここでテキストに対応するノードはセマンティックノードと称され、視覚オブジェクトに対応するノードは視覚ノードと称され、且つ以下のポリシーを用いてノードの間のセマンティック関連付けを構築する。

１、ノードの抽出
（１）テキスト情報を十分に利用するために、テキストにおけるすべての単語を個別のテキストノードとする。例えば、図４においてマルチモーダルグラフは合計８つのテキストノードを含み、個々のテキストノードが入力ステートメント（即ち翻訳対象ステートメント）における１つの単語に対応する。（２）スタンフォードパーサ（Ｓｔａｎｆｏｒｄｐａｒｓｅｒ）を使用して入力ステートメントにおけるすべての名詞フレーズを識別し、次に視覚グラウンディングツールキットを応用して個々の名詞フレーズの入力画像（即ち翻訳対象画像）における対応する境界ボックス（視覚オブジェクト）を識別する。その後、検出されたすべての視覚オブジェクトはいずれも独立した視覚ノードとされる。例えば、図４においてテキストノードＶｘ１及びＶｘ２は視覚ノードＶｏ１及びＶｏ２に対応し、テキストノードＶｘ６、Ｖｘ７及びＶｘ８は視覚ノードＶｏ３に対応する。

２、マルチモーダルセマンティックユニットの間の各種のセマンティック関連付けを捕獲するために、２種類のエッジ（即ち結合辺）を用いてセマンティックノードを結合する。エッジセットＥにおける２種類のエッジは、（１）同一モーダルにおけるいずれか２つのセマンティックノードがいずれも１つのモーダル内エッジ（第１結合辺）により結合されることと、（２）いかなるテキストノード及び相応の視覚ノードがいずれも１つのモーダル間エッジ（第２結合辺）により結合されることと、を含む。例示的には、図４のように、Ｖｏ１とＶｏ２との間にモーダル内エッジ（実線）を用いて結合し、Ｖｏ１とＶｘ１との間にモーダル間エッジ（実線）を用いて結合する。

二、埋め込み層については、マルチモーダルグラフを積層したマルチモーダル融合層に入力する前に、１つのワード埋め込み層を導入してノードの状態を初期化する必要がある。個々のテキストノードＶｘｕについては、その初期状態Ｈｘｕをワード埋め込みと位置埋め込みとの和として定義する。視覚ノードＶｏｓの初期状態Ｈｏｓについては、Ｆａｓｔｅｒ－ＲＣＮＮにおける関心領域プール（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔｐｏｏｌｉｎｇ、ＲＯＩプール）層の全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）により視覚特徴を抽出し、次に線形整流関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）を活性化関数とする多層パーセプトロンを使用して視覚特徴をテキスト表現と同じ空間に投影する必要がある。

ここで、ＲＣＣＮは精確な物体検出及びセマンティックセグメンテーションに用いられる豊富な特徴階層構造（Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）である。

三、図７のように、左側部分にエンコーダを示し、埋め込み層４０２の頂部にｅ層のグラフに基づくマルチモーダル融合層がスタックされ、それにより上記マルチモーダルグラフを符号化する。マルチモーダル融合層において、モーダル内及びモーダル間融合を順次行って、すべてのノード状態を更新する。このように、最終的なノード状態は同一モーダルにおけるコンテキスト情報及びクロスモーダルセマンティック情報を同時に符号化したものである。特に、視覚ノード及びテキストノードは異なるモード情報を含む２種類のセマンティックユニットであるため、操作が類似するがパラメータが異なる関数を用いてノードの状態更新プロセスをモデリングする。

例示的には、ｊ個のマルチモーダル融合層において、テキストノード状態［数２５］及び視覚ノード状態［数２６］の更新は主に以下のステップに関する。

ステップ１：モーダル内融合。このステップにおいて、自己注意を使用して同一モーダル内の隣接ノードの間の情報融合を行って、個々のノードのコンテキスト表現を生成する。形式的に、すべてのテキストノードのコンテキスト表現［数２７］の計算式は、
［数２８］であり、

ここで、ＭｕｌｔｉＨｅａｄ（Ｑ，Ｋ，Ｖ）は多重注意メカニズムモデリング関数（マルチヘッド自己注意関数とも称される）であり、クエリ行列Ｑ、キー行列Ｋ及び値行列Ｖを入力とする。同様に、すべての視覚ノードのコンテキスト表現［数２９］の計算式は、
［数３０］である。

特に、視覚オブジェクトの初期状態は、深層学習アルゴリズム（ｄｅｅｐＣＮＮｓ）により抽出されたものであり、従って、１つの簡略化されたマルチヘッド自己注意を応用して視覚オブジェクトの初期状態を表現する。ここで、獲得された線形項目値及び最終的な出力を削除する。

ステップ２：モーダル間融合。マルチモーダルの間に特徴融合を行うときに、要素操作特性を有する一種のクロスモーダルゲーティング制御メカニズムを用いて、個々のノードのクロスモーダル近傍領域のセマンティック情報を学習する。具体的に、テキストノードＶｘｕの状態表現［数３１］を生成する方式は、
［数３２］、
［数３３］であり、

ここで、［数３４］はノードＶｘｕのマルチモーダルグラフにおける近傍ノードの集合であり、［数３５］と［数３６］はパラメータ行列である。同様に、テキストノードＶｏｓの状態表現［数３７］を生成する方式は、
［数３８］、
［数３９］であり、

ここで、［数４０］はノードＶｏｓのマルチモーダルグラフにおける近傍ノードの集合であり、［数４１］と［数４２］はパラメータ行列である。

上記マルチモーダル融合プロセスを経た後に、フィードフォワードニューラルネットワークを用いて最終的なデル隠れ層表現を生成する。テキストノード状態［数４３］及び画像ノード状態［数４４］の計算プロセスは、
［数４５］、
［数４６］であり、

ここで、［数４７］は全部のテキストノード状態及び画像ノード状態が更新されたことを示す。

四、デコーダについては、従来のトランスフォーマ（Ｔｒａｎｓｆｏｒｍｅｒ）デコーダと類似する。視覚情報が既に複数のグラフに基づくマルチモーダル融合層によりすべてのテキストノードに融合されているため、デコーダがテキストノード状態のみに注目してマルチモーダルコンテキストを動的に利用することは許容されており、即ちテキストノード状態のみをデコーダに入力する。

図７の右側部分に示すように、ｄ個の同じ層を重ね合わせて目標側隠れ状態を生成する。ここで、個々の層は３つのサブ層により構成される。具体的に、上位２つのサブ層はそれぞれマスキング自己注意Ｅｊ及びコーデック注意Ｔｊであり、それにより目標及びソース言語側コンテキストを統合し、
［数４８］、
［数４９］であり、

ここで、Ｓ（ｊ－１）は第ｊ－１層における目標側隠れ状態を示す。特に、Ｓ（０）は入力された目標語句の埋め込みベクトルであり、［数５０］はデコーダにおける最上層の隠れ状態である。次に、１つの位置方向の全結合フィードフォワードニューラルネットワークはＳ（ｊ）を生成することに用いられ、式は、
［数５１］であり、

最後に、ｓｏｆｔｍａｘ層を利用して目標ステートメントを生成する確率分布を定義し、該層は最上層の隠れ状態［数５２］を入力とし、
［数５３］であり、

ここで、Ｘは入力された翻訳対象ステートメントであり、Ｉは入力された翻訳対象画像であり、Ｙは目標ステートメント（即ち翻訳ステートメント）であり、Ｗとｂはｓｏｆｔｍａｘ層のパラメータである。

実験プロセスにおいて、英語をフランス語及びドイツ語に翻訳することを翻訳タスクとし、データセットはＭｕｌｔｉ３０Ｋデータセットを用いる。ここで、データセットにおける各画像は、英語の記述、並びに人間が翻訳したドイツ語、及びフランス語に対応してペアになる。訓練、検証及びテストセットはそれぞれ２９０００個、１０１４個及び１０００個の実例を含む。この他に、更にＷＭＴ１７テストセットにおける各種のモデル及びファジーＭＳＣＯＣＯテストセットを評価するが、それらはそれぞれ１０００個及び４６１個の実例を含む。本実験において、前処理されたステートメントを直接使用して、バイトペア符号化及び１００００個の合併操作により単語をサブ単語に分割する。

視覚特徴：まずスタンフォード（Ｓｔａｎｆｏｒｄ）パーサを用いて個々のソースステートメントから名詞フレーズを識別し、次に視覚グラウンディングツールキットを使用して識別された名詞フレーズの関連視覚オブジェクトを検出する。個々のフレーズについては、その対応する視覚オブジェクトの予測確率を最も高く維持することにより、豊富な視覚オブジェクトの悪影響を軽減する。個々のセンテンスにおいて、物体及び単語の平均数はそれぞれ３．５及び１５．０程度である。最後に、予め訓練されたＲｅｓＮｅｔ－１００ＦａｓｔｅｒＲＣＮＮを使用してこれらのオブジェクトの２０４８次元特徴を計算する。

設定：トランスフォーマを基礎として使用する。訓練コーパスが比較的小さいため、訓練後のモデルは過度にフィッティングする傾向があり、まず１つの小さなグリッド検索を行って、１組の英語からドイツ語への翻訳検証セットにおけるハイパーパラメータを獲得する。具体的には、ワード埋め込み次元数及び隠れサイズはそれぞれ１２８及び２５６である。デコーダは４層を有し、注意のヘッド数は４である。ドロップアウト率を０．５として設定する。各ロットは約２０００個のソースコードシンボル及び目標トークンにより構成される。所定の学習率を有するＡｄａｍオプティマイザを応用して各種のモデルを最適化し、且つそれと同じ他の設定を使用する。最後に、バイリンガル評価アンダースタディ（ＢｉｌｉｎｇｕａｌＥｖａＬｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙ、ＢＬＥＵ）指標及びＭＥＴＥＯＲ指標を使用して翻訳の品質を評価する。説明する必要があるように、個々の実験においてすべてのモデルに対して３回の動作をさせ、且つ平均結果を報告した。

基礎モデル：テキストに基づくトランスフォーマ（ＴｒａｎｓＦｏｒｍｅｒ、ＴＦ）以外に、更に視覚特徴を利用し、幾つか種類の効果的な方法を用いて変換を行い、且つ本願の実施例が提供するモデルをトランスフォーマと比較した。

１、ＯｂｊｅｃｔＡｓＴｏｋｅｎ（ＴＦ）。これはトランスフォーマの１つのバリエーションであり、すべての視覚オブジェクトはいずれも付加的なソースコードシンボルとして見なされ、且つ入力ステートメントの前に置かれる。

２、Ｅｎｃ－ａｔｔ（ＴＦ）。トランスフォーマにおいてエンコーダに基づく画像注意メカニズムを用いており、個々のソース注釈及び注意に基づく視覚特徴ベクトルを追加ししている。

３、Ｄｏｕｂｌｙ－ａｔｔ（ＴＦ）。これは１つの二重注意のトランスフォーマである。個々の復号層において、全結合フィードフォロード層の前に１つのクロスモーダルマルチヘッド注意サブ層を挿入し、それにより視覚特徴に基づいて視覚コンテキストベクトルを生成する。

それに対応して、更に幾つか種類の主なマルチモーダルニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ、ＮＭＴ）モデルの性能、例えばＤｏｕｂｌｙ－ａｔｔ（ＲＮＮ）、Ｓｏｆｔ－ａｔｔ（ＲＮＮ）、Ｓｔｏｃｈａｓｔｌｃ－ａｔｔ（ＲＮＮ）、Ｆｕｓｉｏｎ－ｃｏｎｖ（ＲＮＮ）、Ｔｒｇ－ｍｕｌ（ＲＮＮ）、ＶＭＭＴ（ＲＮＮ）及びＤｅｌｌｂｅｒａｔｉｏｎＮｅｔｗｏｒｋ（ＴＦ）が展開されている。ここで、ＲＮＮは再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｄ）である。

マルチモーダル融合層の数ｅは１つの重要なハイパーパラメータであり、エンコーダにおける細粒度セマンティック融合の程度を直接決める。従って、まずそれが英語からドイツ語への翻訳検証セットに与える影響を検査する。図８には実験結果を示しており、ｅが３であるときに、モデルは最適なｐ形態に達した。従って、すべての後続の実験においてｅ＝３を使用した。

［表１］には英語からドイツ語への翻訳タスクの主な結果を示した。ＭＥＴＥＯＲにおいてＦｕｓｉｏｎ－ｃｏｎｖ（ＲＮＮ）及びＴｒｇ－ｍｕｌ（ＲＮＮ）と比較し、本願の実施例が提供するモデルの性能はほとんどの以前のモデルよりも優れている。２組の結果はＷＭＴ２０１７テストセットにおけるシステム状態によって決められており、該ＷＭＴ２０１７テストセットはＭＥＴＥＯＲに基づいて選択したものである。基礎モデルと比較して、以下の結論を得ることができる。

まず、本願の実施例が提供するモデルはＯｂｊｅｃｔＡｓＴｏｋｅｎ（ＴＦ）よりも優れている。該モデルは領域視覚特徴とテキストとを一体に結合して、注目可能シーケンスを形成し、且つ自己注意メカニズムを利用してマルチモーダル融合を行う。その基本的な理由は２つの点を含み、第１としては、異なるモーダルのセマンティックユニットの間のセマンティック対応関係をモデリングしたことであり、第２としては、異なるモーダルのモデルパラメータを区別したことである。

次に、本願の実施例が提供するモデルもＥｎｃ－ａｔｔ（ＴＦ）よりも著しく優れている。ここで、Ｅｎｃ－ａｔｔ（ＴＦ）は単層セマンティック融合エンコーダとして見なされてもよい。セマンティック対応関係をモデリングする利点以外に、多層マルチモーダルセマンティックインタラクションもＮＭＴに有利であると更に推量される。

第３としては、注意メカニズムだけを利用して視覚情報を抽出するＤｏｕｂｌｙ－ａｔｔ（ＴＦ）に比べて、エンコーダにおいて十分なマルチモーダル融合を提供するため、本願の実施例が提供するモデルは著しく改良されている。

また、ソース文の長さ及び名詞フレーズの数に基づきテストセットを異なるグループに分け、次に各グループのテストセットにおける異なるモデルの性能を比較する。図９及び図１０には上記グループのＢＬＥＵスコアが示されている。まとめて言えば、本願の実施例が提供するモデルは依然としてすべてのグループにおいて常に最適な性能に達する。従って、本願の実施例が提供するモデルの有効性及び汎用性は再び実証されたといえる。注意する必要があるように、フレーズが比較的多いセンテンスにおいては、一般的にセンテンスが長くなり、本願の実施例が提供するモデルは基礎モデルの改良よりと比べてより深い意義を有する。長いセンテンスには比較的多く多義的なワードが含まれる場合が多いと推測される。従って、短いセンテンスに比べて、長いセンテンスは視覚情報を補充情報としてより良く利用する必要がある可能性があり、これは本願の実施例が提供するモデルのマルチモーダルセマンティックインタラクションにより実現され得る。

更に、［表４］には更に本願の実施例が提供するモデル及び基礎モデルの訓練及び復号速度を示す。訓練プロセスにおいて、本願の実施例が提供するモデルは１秒あたりに約１．１Ｋのトークンを処理することができ、これは他のマルチモーダルモデルに相当する。復号プロセスに関する場合、本願の実施例が提供するモデルは１秒あたりに約１６．７句を翻訳し、トランスフォーマに比べて、速度が少々低下した。この他は、本願の実施例が提供するモデルは少量の付加的なパラメータを導入したのみで、より良い性能を獲得している。

異なる成分の有効性を研究するために、更に実験を行い、本願の実施例が提供するモデルと［表２］における以下のバリエーションとを比較した。

（１）モーダル間融合。このバリエーションにおいて、２つの独立したトランスフォーマフォーマエンコーダを使用してそれぞれ単語及び視覚オブジェクトのセマンティック表現を学習し、次に二重注意デコーダを使用してテキスト及び視覚コンテキストをデコーダに合併する。［表２］における第３行の結果は、モーダル間融合をなくすと性能の顕著な低下をもたらすことを表している。これは、マルチモーダルセマンティックユニットの間のセマンティックインタラクションがマルチモーダル表現学習にとって有用であることを表している。

（２）視覚グラウンディングから全結合まで。単語及び視覚オブジェクトを一体に完全に結合し、モーダル間の対応関係を確立する。［表２］における第４行の結果は、この変化が性能の顕著な低下をもたらすことを表明している。その根本的な理由は、完全に結合しているセマンティックの対応は本願の実施例が提供するモデルに非常に大きなノイズをもたらすことにある。

（３）異なるパラメータから統一パラメータまで。このバリエーションを構築するときに、統一パラメータを割り当てて異なるモードにおけるノード状態を更新する。明らかなようにに、［表２］における第５行が報告する性能低下は、異なるパラメータを使用する方法の有効性も証明した。

（４）視覚ノード注意。テキストノードのみを考慮するモデルと異なり、このバリエーションのデコーダが二重注意デコーダを使用してこの２種類のタイプのノードを考慮することは許容されている。［表２］における第６行の結果から観察できるように、すべてのノードを考慮することは更なる改良をもたらすことがない。上記結果はもとの仮定を実証しており、即ち、視覚情報は既に完全にエンコーダにおけるテキストノードに取り入れられているといえる。

（５）テキストノード注意及び視覚ノード注意。しかしながら、視覚ノードのみを考慮するときには、モデルの性能が急激に低下するが、これは［表２］における第７行に示されている。これは、視覚ノードの数がテキストノードよりも遥かに少ないが、テキストノードが十分な翻訳コンテキストを生成できないためである。

例示的に、更に英語からフランス語への翻訳データセットにおいて実験を行う。［表３］からわかるように、すべての以前のモデルに比べて、本願の実施例が提供するモデルは依然としてより良い性能を獲得する。これは、マルチモーダルＮＭＴにおいて本願の実施例が提供するモデルは異なる言語に対して有効及び汎用的なものであることを再び証明している。

［表２］において、関連するマルチモーダルＮＭＴシステム及び本願の実施例が提供するマルチモーダルＮＭＴシステムにおいて提供する機械翻訳モデルと比較を行っている。ＢＬＥＵ及びＭＥＴＥＯＲ指標から明らかなように、英語とフランス語との間の翻訳に対しても、本願が提供する機械翻訳モデルはより良い効果を獲得し、４つの指標値のうち３つはいずれも最高値（太字の数字）であった。

図１１に参照されるように、本願の１つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置を示している。該装置はソフトウェア、ハードウェア又はそれらの組み合わせによりコンピュータ機器の一部又は全部となり、該装置はセマンティック関連付けモジュール５０１と、特徴抽出モジュール５０２と、ベクトル符号化モジュール５０３と、ベクトル復号モジュール５０４と、を含む。

セマンティック関連付けモジュール５０１は、異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を獲得することに用いられる。上記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、上記セマンティックノードは１種類のモーダルにおける上記ソースステートメントの１つのセマンティックユニットを示すことに用いられ、ｎは１よりも大きな正の整数である。

選択肢として、マルチモーダルグラフ表現層によりｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築することに用いられ、セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、ｎは１よりも大きな正の整数であり、
特徴抽出モジュール５０２は、上記セマンティック関連図から複数の第１ワードベクトルを抽出することに用いられ、選択肢として、第１ワードベクトル層によりセマンティック関連図から第１ワードベクトルを抽出し、
ベクトル符号化モジュール５０３は、上記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得することに用いられ、選択肢として、マルチモーダル融合エンコーダにより第１ワードベクトルを符号化して、符号化特徴ベクトルを取得し、
ベクトル復号モジュール５０４は、上記ｎ個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられ、選択肢として、デコーダを呼び出して符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。

いくつかの選択可能な実施例において、セマンティック関連付けモジュール５０１は、ｎ組のセマンティックノードを獲得することであって、１組のセマンティックノードが１つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか２つの上記セマンティックノードの間に上記第１結合辺を追加し、異なるモーダルのいずれか２つの上記セマンティックノードの間に上記第２結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。選択肢として、セマンティック関連付けモジュール５０１は、マルチモーダルグラフ表現層により各々のモーダルのソース言語からセマンティックノードを抽出して、ｎ個のモーダルのソース言語に対応するｎ組のセマンティックノードを取得することと、マルチモーダルグラフ表現層により第１結合辺を用いてｎ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第２結合辺を用いてｎ組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することと、に用いられる。

いくつかの選択可能な実施例において、ｎ個のモーダルのソース言語にはテキスト形式の第１ソース言語及び非テキスト形式の第２ソース言語が含まれ、ｎ組のセマンティックノードは第１セマンティックノード及び第２セマンティックノードを含み、
セマンティック関連付けモジュール５０１は、上記第１セマンティックノードを獲得することであって、上記第１セマンティックノードはマルチモーダルグラフ表現層が上記第１ソースステートメントを処理することにより取得される、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードはマルチモーダルグラフ表現層が上記第２ソースステートメントを処理することにより取得される、ことと、上記候補セマンティックノードの第１確率分布を獲得することであって、上記第１確率分布は上記マルチモーダルグラフ表現層が上記第１セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ことと、上記候補セマンティックノードから上記第２セマンティックノードを決定することであって、上記第２セマンティックノードは上記マルチモーダルグラフ表現層が上記第１確率分布に基づき決定したものである、ことと、に用いられる。

選択肢として、セマンティック関連付けモジュール５０１は、マルチモーダルグラフ表現層により第１ソースステートメントから第１セマンティックノードを抽出し、且つ第２ソース言語から候補セマンティックノードを抽出することと、マルチモーダルグラフ表現層を呼び出して第１セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第１確率分布を計算することと、マルチモーダルグラフ表現層を呼び出して第１確率分布に基づき候補セマンティックノードから第２セマンティックノードを決定することと、に用いられる。

いくつかの選択可能な実施例において、セマンティック関連付けモジュール５０１は、第ｉ組のセマンティックノードにおいて同一モーダル内のいずれか２つのセマンティックノードの間に第ｉ種類の第１結合辺を追加することに用いられ、上記第ｉ種類の第１結合辺が第ｉ番目のモーダルに対応し、ｉはｎ以下の正の整数である。

選択肢として、セマンティック関連付けモジュール５０１は、マルチモーダルグラフ表現層により第ｉ番目のモーダルに対応する第ｉ種類の第１結合辺を決定し、第ｉ種類の第１結合辺を用いて第ｉ組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、ｉはｎ以下の正の整数である。

いくつかの選択可能な実施例において、ベクトル符号化モジュール５０３は、上記複数の第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、上記ｎ個の符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第１ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第１ワードベクトルの間でセマンティック融合を行うことを指し、ここで、ｅは正の整数である。

選択肢として、マルチモーダル融合エンコーダは直列接続されているｅ個の符号化モジュールを含み、ｅは正の整数であり、
ベクトル符号化モジュール５０３は、直列接続されているｅ個の符号化モジュールにより第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第１ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第１ワードベクトルの間でセマンティック融合を行うことを指す。
いくつかの選択可能な実施例において、各々の符号化モジュールはいずれもｎ個のモーダルに１対１で対応するｎ個のモーダル内融合層及びｎ個のモーダル間融合層を含み、
ベクトル符号化モジュール５０３は、第１ワードベクトルをそれぞれ１番目の符号化モジュールにおけるｎ個のモーダル内融合層に入力し、ｎ個のモーダル内融合層によりそれぞれ第１ワードベクトルに対して同じモーダル内部のセマンティック融合を行ってｎ個の第１隠れ層ベクトルを取得することであって、１つの上記第１隠れ層ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１隠れ層ベクトルを取得する、ことと、
ｎ個の第１隠れ層ベクトルを１番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行ってｎ個の第１中間ベクトルを取得することであって、１つの上記中間ベクトルが１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１中間ベクトルを取得する、ことと、
ｎ個の第１中間ベクトルを第ｊ番目の符号化モジュールに入力して第ｊ回目の符号化処理を行い、これを最後の１つの符号化モジュールがｎ個の符号化特徴ベクトルを出力するまで続けることであって、１つの上記符号化特徴ベクトルが１つのモーダルに対応し、つまり、最後の１つの符号化モジュールがｎ個のモーダルに１対１で対応するｎ個の符号化特徴ベクトルを出力するまで続け、ｊは１よりも大きく且つｅ以下の正の整数である、ことと、に用いられる。

いくつかの選択可能な実施例において、各々の符号化モジュールは更にｎ個の第１ベクトル変換層を含み、上記１つのベクトル変換層が１つのモーダルに対応し、つまり、ｎ個のモーダルに１対１で対応するｎ個の第１ベクトル変換層であり、
ベクトル符号化モジュール５０３は更に、ｎ個の第１中間ベクトルをそれぞれ所属するモーダルに対応するｎ個の第１ベクトル変換層に入力して非線形変換を行って、非線形変換後のｎ個の第１中間ベクトルを取得することに用いられる。

いくつかの選択可能な実施例において、直列接続されているｅ個の符号化モジュールのうちの各々の符号化モジュールにおける階層構造は同じである。

いくつかの選択可能な実施例において、ベクトル復号モジュール５０４は、第１目標語句に対して特徴抽出を行って第２ワードベクトルを取得することであって、上記第１目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第２ワードベクトルを上記符号化特徴ベクトルと組み合わせて特徴抽出を行って復号特徴ベクトルを取得することと、上記復号特徴ベクトルに対応する確率分布を決定し、且つ上記確率分布に基づき上記第１目標語句の後の第２目標語句を決定することと、に用いられる。

選択肢として、デコーダは直列接続されているｄ個の復号モジュールを含み、ｄは正の整数であり、
ベクトル復号モジュール５０４は、第２ワードベクトル層により第１目標語句を獲得することであって、第１目標語句が目標ステートメントにおける翻訳済み語句である、ことと、第２ワードベクトル層により第１目標語句に対して特徴抽出を行って、第２ワードベクトルを取得することと、
直列接続されているｄ個の復号モジュールにより第２ワードベクトルを符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することと、復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第１目標語句の後の第２目標語句を決定することと、に用いられる。

いくつかの選択可能な実施例において、直列接続されているｄ個の復号モジュールのうちの各々の復号モジュールはいずれも第１自己注意層及び第２自己注意層を含み、
ベクトル復号モジュール５０４は、第２ワードベクトルを１番目の復号モジュールにおける第１自己注意層に入力し、第１自己注意層により第２ワードベクトルに対して特徴抽出を行って、第２隠れ層ベクトルを取得することと、
第２隠れ層ベクトル及び符号化特徴ベクトルを１番目の復号モジュールにおける第２自己注意層に入力し、第２自己注意層により第２隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第２中間ベクトルを取得することと、
第２中間ベクトルを第ｋ番目の復号モジュールに入力してｋ回目の復号処理を行い、最後の１つの復号モジュールが復号特徴ベクトルを出力するまで続けることであって、ｋは１よりも大きく且つｄ以下の正の整数である、ことと、に用いられる。

いくつかの選択可能な実施例において、各々の復号モジュールは更に第２ベクトル変換層を含み、
ベクトル復号モジュール５０４は更に、第２中間ベクトルを第２ベクトル変換層に入力して非線形変換を行って、非線形変換後の第２中間ベクトルを取得することに用いられる。

以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳装置は、マルチモーダルグラフ表現層によりｎ個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第１結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第２結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。

図１２に参照されるように、本願の１つの実施例が提供するサーバの構造模式図を示す。該サーバは上記実施例において提供するマルチモーダル機械学習に基づく翻訳方法のステップを実施することに用いられる。具体的には、
上記サーバ６００はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）６０１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）６０２及びＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、読み出し専用メモリ）６０３を含むシステムメモリ６０４と、システムメモリ６０４と中央処理ユニット６０１とを結合するシステムバス６０５と、を含む。上記サーバ６００はコンピュータ内の各デバイスの間で情報を伝送することを支援する基本Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）システム６０６と、オペレーティングシステム６１３、アプリケーションプログラム６１４及び他のプログラムモジュール６１５を記憶することに用いられる大容量記憶機器６０７とを更に含む。

上記基本入力／出力システム６０６は情報を表示することに用いられるディスプレイ６０８と、ユーザーが情報を入力することに用いられる例えばマウス、キーボード等のような入力機器６０９とを含む。ここで上記ディスプレイ６０８及び入力機器６０９はいずれもシステムバス６０５に結合される入力出力コントローラ６１０により中央処理ユニット６０１に結合される。上記基本入力／出力システム６０６は更に入力出力コントローラ６１０を含んでもよく、それによりキーボード、マウス又は電子スタイラス等の複数の他の機器からの入力を受信及び処理することに用いられる。同様に、入力出力コントローラ６１０は更にディスプレイスクリーン、プリンタ又は他のタイプの出力機器に出力を提供する。

上記大容量記憶機器６０７はシステムバス６０５に結合される大容量記憶コントローラ（図示せず）により中央処理ユニット６０１に結合される。上記大容量記憶機器６０７及びその関連するコンピュータ可読媒体はサーバ６００に不揮発性記憶を提供する。言い換えれば、上記大容量記憶機器６０７は例えばハードディスク又はＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、コンパクトディスクリードオンリーメモリ）ドライバ等のようなコンピュータ可読媒体（図示せず）を含んでもよい。

一般性を失うことなく、上記コンピュータ可読媒体はコンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は例えばコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶することに用いられるいかなる方法又は技術により実現される揮発性及び不揮発性、移動可能及び移動不可能媒体を含む。コンピュータ記憶媒体はＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、消去可能プログラマブル読み出し専用メモリ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、電気的消去可能プログラマブル読み出し専用メモリ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）若しくは他のソリッドステートメモリ技術、ＣＤ－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、デジタル多用途ディスク）若しくは他の光学記憶、テープカセット、磁気テープ、磁気ディスク記憶若しくは他の磁気記憶機器を含む。当然ながら、当業者であれば明らかなように、上記コンピュータ記憶媒体は上記幾つか種類に限定されるものではない。上記システムメモリ６０４及び大容量記憶機器６０７はメモリと総称されてもよい。

本願の各種の実施例に基づき、上記サーバ６００は更に例えばインターネット等のネットワーク経由でネットワークにおけるリモートコンピュータに結合して動作することができる。即ち、サーバ６００は上記システムバス６０５に結合されるネットワークインターフェースユニット６１１によりネットワーク６１２に結合されてもよく、又は、ネットワークインターフェースユニット６１１を使用して他のタイプのネットワーク又はリモートコンピュータシステム（図示せず）に結合されてもよい。

例示的な実施例において、コンピュータ可読記憶媒体を含むもの、例えば、命令を含むメモリ６０２を更に提供し、上記命令はサーバ６００のプロセッサ６０１により実行されることで上記マルチモーダル機械学習に基づく翻訳方法を完了することができる。選択肢として、コンピュータ可読記憶媒体は非一時的記憶媒体であってもよく、例えば、上記非一時的記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク及び光データ記憶機器等であってもよい。

例示的な実施例において、コンピュータプログラム製品を更に提供し、これはコンピュータプログラムを含み、該コンピュータプログラムは電子機器のプロセッサにより実行されてもよく、それにより上記マルチモーダル機械学習に基づく翻訳方法を実現する。

当業者であれば理解できるように、上記実施例を実現する全部又は一部のステップはハードウェアにより完了してもよく、プログラムが関連するハードウェアに命令を出すことにより完了してもよく、上記プログラムは一種のコンピュータ可読記憶媒体に記憶されてもよく、上記言及した記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。

以上の説明は単に本願の選択可能な実施例に過ぎず、本願を制限するためのものではない。本願の趣旨及び原則内において行われたいかなる修正、均等物への置換又は改良等は、いずれも本願の保護範囲内に含まれるべきである。

１１モーダル内融合層
１２モーダル間融合層
１３第１ベクトル変換層
２１第１自己注意層
２２第２自己注意層
２３第２ベクトル変換層
３１翻訳対象画像
３２翻訳対象ステートメント
１００マルチモーダル機械翻訳モデル
１０１マルチモーダルグラフ表現層
１０２第１ワードベクトル層
１０３マルチモーダル融合エンコーダ
１０４デコーダ
１０５第２ワードベクトル層
１０６分類器
２２０端末
２４０サーバ
５０２特徴抽出モジュール
５０３ベクトル符号化モジュール
５０４ベクトル復号モジュール
６００サーバ
６０１中央処理ユニット
６０１プロセッサ
６０２メモリ
６０４システムメモリ
６０５システムバス
６０６出力システム
６０７大容量記憶機器
６０８ディスプレイ
６０９入力機器
６１０入力出力コントローラ
６１１ネットワークインターフェースユニット
６１２ネットワーク
６１３オペレーティングシステム
６１４アプリケーションプログラム
６１５プログラムモジュール
１０３１符号化モジュール
１０４２復号モジュール

Claims

コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法であって、前記方法は、
異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を獲得するステップであって、前記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含むものであり、前記セマンティックノードは１種類のモーダルにおける前記ソースステートメントの１つのセマンティックユニットを示すことに用いられ、ｎは１よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第１ワードベクトルを抽出するステップと、
前記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得するステップと、
ｎ個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む、マルチモーダル機械学習に基づく翻訳方法。
異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を獲得する前記ステップは、
ｎ組のセマンティックノードを獲得するステップであって、１組のセマンティックノードが１つのモーダルのソースステートメントに対応する、ステップと、
同一モーダルのいずれか２つの前記セマンティックノードの間に前記第１結合辺を追加し、異なるモーダルのいずれか２つの前記セマンティックノードの間に前記第２結合辺を追加して、前記セマンティック関連図を取得するステップと、を含む、請求項１に記載の方法。
ｎ個のモーダルのソースステートメントにはテキスト形式の第１ソースステートメント及び非テキスト形式の第２ソースステートメントが含まれ、ｎ組のセマンティックノードは第１セマンティックノード及び第２セマンティックノードを含み、
ｎ組のセマンティックノードを獲得する前記ステップは、
前記第１セマンティックノードを獲得するステップであって、前記第１セマンティックノードはマルチモーダルグラフ表現層が前記第１ソースステートメントを処理することにより取得される、ステップと、
候補セマンティックノードを獲得するステップであって、前記候補セマンティックノードはマルチモーダルグラフ表現層が前記第２ソースステートメントを処理することにより取得される、ステップと、
前記候補セマンティックノードの第１確率分布を獲得するステップであって、前記第１確率分布は前記マルチモーダルグラフ表現層が前記第１セマンティックノードと前記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ステップと、
前記候補セマンティックノードから前記第２セマンティックノードを決定するステップであって、前記第２セマンティックノードは前記マルチモーダルグラフ表現層が前記第１確率分布に基づき決定したものである、ステップと、を含む、請求項２に記載の方法。
同一モーダルのいずれか２つの前記セマンティックノードの間に前記第１結合辺を追加する前記ステップは、
第ｉ組のセマンティックノードにおいて同一モーダル内のいずれか２つのセマンティックノードの間に第ｉ種類の第１結合辺を追加するステップであって、前記第ｉ種類の第１結合辺が第ｉ番目のモーダルに対応し、ｉはｎ以下の正の整数である、ステップを含む、請求項２に記載の方法。
前記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、ｎ個の符号化特徴ベクトルを取得するステップであって、前記モーダル内融合とは同一モーダル内の前記第１ワードベクトルの間でセマンティック融合を行うことを指し、前記モーダル間融合とは異なるモーダルの前記第１ワードベクトルの間でセマンティック融合を行うことを指し、ｅは正の整数である、ステップを含む、請求項１～４のいずれか一項に記載の方法。
マルチモーダル融合エンコーダは直列接続されているｅ個の符号化モジュールを含み、
各々の前記符号化モジュールはいずれもｎ個のモーダルに１対１で対応するｎ個のモーダル内融合層及びｎ個のモーダル間融合層を含み、
前記複数の第１ワードベクトルに対してモーダル内融合及びモーダル間融合をｅ回行って、ｎ個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第１ワードベクトルをそれぞれ１番目の前記符号化モジュールにおけるｎ個のモーダル内融合層に入力し、ｎ個のモーダル内融合層によりそれぞれ前記複数の第１ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、ｎ個の第１隠れ層ベクトルを取得するステップであって、１つの前記第１隠れ層ベクトルが１つのモーダルに対応する、ステップと、
ｎ個の第１隠れ層ベクトルを前記１番目の符号化モジュールにおける各々のモーダル間融合層に入力し、前記各々のモーダル間融合層によりｎ個の第１隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、ｎ個の第１中間ベクトルを取得するステップであって、１つの前記第１中間ベクトルが１つのモーダルに対応する、ステップと、
ｎ個の第１中間ベクトルを第ｊ番目の符号化モジュールに入力して第ｊ回目の符号化処理を行い、最後の１つの符号化モジュールがｎ個の符号化特徴ベクトルを出力するまで続けるステップであって、１つの前記符号化特徴ベクトルが１つのモーダルに対応し、ｊは１よりも大きく且つｅ以下の正の整数である、ステップと、を含む、請求項５に記載の方法。
前記各々の符号化モジュールは更にｎ個の第１ベクトル変換層を含み、１つの前記第１ベクトル変換層が１つのモーダルに対応し、
前記方法は更に、
ｎ個の第１中間ベクトルをそれぞれ所属するモーダルに対応するｎ個の第１ベクトル変換層に入力して非線形変換を行って、非線形変換後のｎ個の第１中間ベクトルを取得するステップを含む、請求項６に記載の方法。
前記直列接続されているｅ個の符号化モジュールのうちの前記各々の符号化モジュールにおける階層構造は同じである、請求項６に記載の方法。
異なる前記モーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なる前記モーダル間融合層に異なる又は同じ特徴融合関数が設定される、請求項６に記載の方法。
ｎ個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得する前記ステップは、
第１目標語句に対して特徴抽出を行って、第２ワードベクトルを取得するステップであって、前記第１目標語句が前記目標ステートメントにおける翻訳済み語句である、ステップと、
前記第２ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得するステップと、
前記復号特徴ベクトルに対応する確率分布を決定し、且つ前記確率分布に基づき前記第１目標語句の後の第２目標語句を決定するステップと、を含む、請求項１～４のいずれか一項に記載の方法。
デコーダは直列接続されているｄ個の復号モジュールを含み、ｄは正の整数であり、前記直列接続されているｄ個の復号モジュールのうちの各々の復号モジュールはいずれも第１自己注意層及び第２自己注意層を含み、
前記第２ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する前記ステップは、
前記第２ワードベクトルを１番目の復号モジュールにおける第１自己注意層に入力し、前記第１自己注意層により前記第２ワードベクトルに対して特徴抽出を行って、第２隠れ層ベクトルを取得するステップと、
前記第２隠れ層ベクトル及び前記符号化特徴ベクトルを前記１番目の復号モジュールにおける第２自己注意層に入力し、前記第２自己注意層により前記第２隠れ層ベクトルと前記符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第２中間ベクトルを取得するステップと、
前記第２中間ベクトルを第ｋ番目の復号モジュールに入力して第ｋ回目の復号処理を行い、最後の１つの復号モジュールが前記復号特徴ベクトルを出力するまで続けるステップであって、ｋは１よりも大きく且つｄ以下の正の整数である、ステップと、を含む、請求項１０に記載の方法。
前記各々の復号モジュールは更に第２ベクトル変換層を含み、
前記方法は更に、
前記第２中間ベクトルを前記第２ベクトル変換層に入力して非線形変換を行って、非線形変換後の第２中間ベクトルを取得するステップを含む、請求項１１に記載の方法。
マルチモーダル機械学習に基づく翻訳装置であって、前記装置は、
異なるモーダルに属するｎ個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、ｎ種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第１結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第２結合辺とを含み、前記セマンティックノードは１種類のモーダルにおける前記ソースステートメントの１つのセマンティックユニットを示すことに用いられ、ｎは１よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第１ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第１ワードベクトルを符号化して、ｎ個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む、マルチモーダル機械学習に基づく翻訳装置。
コンピュータ機器であって、前記コンピュータ機器は、
メモリと、
前記メモリに接続されるプロセッサと、を含み、
前記プロセッサは実行可能命令をロードし且つ実行することにより請求項１～１２のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される、コンピュータ機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体に少なくとも１セグメントのプログラムが記憶され、前記少なくとも１セグメントのプログラムはプロセッサによりロードされ且つ実行されることにより請求項１～１２のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現する、コンピュータ可読記憶媒体。