JP2023509031A - マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム - Google Patents

マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム Download PDF

Info

Publication number
JP2023509031A
JP2023509031A JP2022540553A JP2022540553A JP2023509031A JP 2023509031 A JP2023509031 A JP 2023509031A JP 2022540553 A JP2022540553 A JP 2022540553A JP 2022540553 A JP2022540553 A JP 2022540553A JP 2023509031 A JP2023509031 A JP 2023509031A
Authority
JP
Japan
Prior art keywords
semantic
modal
vector
fusion
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022540553A
Other languages
English (en)
Inventor
凡▲東▼ 孟
永▲競▼ 尹
▲勁▼松 ▲蘇▼
杰 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023509031A publication Critical patent/JP2023509031A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

マルチモーダル機械学習に基づく翻訳方法を開示し、人工知能の技術分野に関する。該方法は、n個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソースステートメントの間のセマンティック関連付けを十分に表現する。続いてセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。

Description

本願は人工知能の技術分野に関し、特にマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体に関する。
本願は、2020年5月20日に提出された出願番号が第2020104325972号であり、発明の名称が「マルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体」である中国特許出願の優先権を要求し、その全部の内容は援用によって本願に組み込まれている。
機械翻訳はコンピュータを利用して1種類の自然言語を他の種類の自然言語に変換するプロセスである。
いくつかの応用シーンにおいて、機械翻訳モデルにより複数種類の異なる表現形式のソース言語を目標言語に翻訳することができ、即ちマルチモーダルソース言語を目標言語に翻訳することができる。例示的には、ピクチャ及び対応する英語注釈を獲得し、機械翻訳モデルによりそれぞれピクチャ及び英語注釈に対して特徴抽出を行い、その後、抽出された特徴を融合し、更に融合後の特徴に基づいて翻訳し、ピクチャ及び英語注釈に対応するフランス語注釈を得る。
本願の実施例はマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体を提供し、特徴符号化のプロセスにおいて、複数のモーダルのソース言語に対して十分なセマンティック融合を行うことができ、符号化ベクトルにより復号された目標ステートメントをソース言語により表される内容及び感情等に一層接近させる。前記技術的手段は以下のとおりである。
本願の一態様によれば、コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法を提供し、該方法は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築するステップであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出するステップと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む。
本願の他の態様によれば、マルチモーダル機械学習に基づく翻訳装置を提供し、該装置は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む。
本願の他の態様によれば、コンピュータ機器を提供し、該コンピュータ機器は、
メモリと、
メモリに接続されるプロセッサと、を含み、
プロセッサは実行可能命令をロードし且つ実行することにより上記1つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される。
本願の他の態様によれば、コンピュータ可読記憶媒体を提供し、上記コンピュータ可読記憶媒体に少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶され、上記少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセット又は命令セットはプロセッサによりロードされ且つ実行されることにより上記1つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現する。
本願の実施例における技術的手段をより明確に説明するために、以下に実施例の記述に使用する必要のある図面を簡単に紹介するが、明らかなように、以下に記述される図面は単に本願のいくつかの実施例に過ぎない。当業者であれば、創造的な労力を要することなく、更にこれらの図面に基づき他の図面を獲得することができる。
図1は本願の1つの例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。 図2は本願の1つの例示的な実施例が提供するコンピュータシステムの構造模式図である。 図3は本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。 図4は本願の1つの例示的な実施例が提供するセマンティック関連図を構築するフローチャートである。 図5は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。 図6は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。 図7は本願の他の例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。 図8は本願の1つの例示的な実施例が提供するモデルテスト結果の曲線図である。 図9は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。 図10は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。 図11は本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置のブロック図である。 図12は本願の1つの例示的な実施例が提供するサーバの構造模式図である。
本願の目的、技術的手段及び利点をより明確にするために、以下に図面を参照しながら本願の実施形態を更に詳しく記述する。
本願に関わる名詞を以下のように解釈する。
人工知能(Artificial Intelligence、AI):デジタルコンピュータ又はデジタルコンピュータにより制御される機械を利用して人の知能を模倣、拡大及び拡張し、環境を感知し、又は知識を獲得し且つ知識を使用して最適な結果を獲得する理論、方法、技術及び応用システムの技術科学である。換言すれば、人工知能はコンピュータ科学の1つの総合的な技術であり、それは知能の本質を理解し、且つ人間の知能に類似する方式で反応できる新しいインテリジェント機器を生産するように意図されている。人工知能とは、各種のインテリジェント機器の設計原理及び実現方法を研究し、機器に感知、推理及び意思決定の機能を有させるものである。
人工知能技術は1つの総合的な学科であり、関連する分野が広く、ハードウェアレベルの技術及びソフトウェアレベルの技術を含む。人工知能の基礎技術は一般的に例えばセンサ、専用の人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクティブシステムシステム、及びメカトロニクス等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習等のいくつかの大きな方向を含む。
ここで、自然言語処理(Nature Language Processing、NLP)はコンピュータ科学分野及び人工知能分野における1つの重要な方向である。それは人とコンピュータとが自然言語により効果的な通信を行うことを実現できる各種の理論及び方法について研究する。自然言語処理は言語学、コンピュータ科学、及び数学を一体に合わせる1つの科学である。従って、この分野の研究は自然言語、即ち人々が日常に使用している言語に関する。従って、それは言語学の研究と密接に関係している。自然言語処理技術は一般的にテキスト処理、セマンティック理解、機械翻訳、ロボット問答、及びナレッジグラフ等の技術を含む。
機械学習(Machine Learning、ML)は複数の分野が交差する1つの学科であり、確率論、統計学、近似理論、凸解析、及びアルゴリズム複雑性理論等の複数の学科に関する。コンピュータが人間の学習行動をどのように模倣又は実現することにより新しい知識又はスキルを獲得し、既存の知識構造を改めて組織して自体の性能を絶えず改善するかについて、専門に研究している。機械学習は人工知能のコアであり、コンピュータに知能を持たせる根本的な方法であり、その応用は人工知能の各分野にわたっている。機械学習及び深層学習は一般的に人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習、及び類推学習等の技術を含む。
本願においてはマルチモーダル機械翻訳モデルを提供し、n個の異なるモーダルのソースステートメントを目標ステートメントに正確に翻訳することができる。ここで、モーダルとは言語の表現形式を指し、例えば、ステートメントはグラフ表現又は文字表現等の方式を用いてもよい。ソースステートメントとは翻訳対象ステートメントを指し、翻訳対象ステートメントはテキスト形式の第1言語類の翻訳対象センテンス及び非テキスト形式の翻訳対象言語を含む。目標ステートメントとはテキスト形式の第2言語類の翻訳済みセンテンスを指し、第2言語類は第1言語類と異なる。例示的には、ソースステートメントは英語ステートメント及び該英語ステートメントのイラストを含み、マルチモーダル機械翻訳モデルにより上記英語ステートメント及びそのイラストに対応する中国語ステートメントを翻訳により取得することができる。
図1のように、本願における1つの例示的な実施例が提供するマルチモーダル機械翻訳モデル100の構造模式図を示す。該マルチモーダル機械翻訳モデル100はマルチモーダルグラフ表現層101、第1ワードベクトル層102、マルチモーダル融合エンコーダ103及びデコーダ104を含み、
マルチモーダルグラフ表現層101は、n個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得することに用いられる。該セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数である。ここで、1つのセマンティックノードは1種類のモーダルにおけるソースステートメントの1つのセマンティックユニットを示すことに用いられる。英語を例とすると、1つのセマンティックノードは1つの単語に対応し、中国語を例とすると、1つのセマンティックノードは1つの漢字に対応する。
第1ワードベクトル層102は、セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられ、
マルチモーダル融合エンコーダ103は、該複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、
デコーダ104は、n個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得することに用いられる。
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、n組のセマンティックノードを獲得することであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか2つの上記セマンティックノードの間に上記第1結合辺を追加し、異なるモーダルのいずれか2つの上記セマンティックノードの間に上記第2結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、各々のモーダルのソース言語からセマンティックノードを抽出して、n個のモーダルのソース言語に対応するn組のセマンティックノードを取得することに用いられ、
マルチモーダルグラフ表現層101は、第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することに用いられる。
いくつかの選択可能な実施例において、n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
マルチモーダルグラフ表現層101は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードは上記第1ソースステートメントを処理して取得したものである、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードは上記第2ソースステートメントを処理して取得したものである、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算して取得したものである、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものであることと、に用いられる。
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソースステートメントから候補セマンティックノードを抽出することと、第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算することと、第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定することと、に用いられる。
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加することに用いられ、上記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である。
つまり、マルチモーダルグラフ表現層101は、第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、iはn以下の正の整数である。
いくつかの選択可能な実施例において、n個の符号化特徴ベクトルは、上記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、上記符号化特徴ベクトルを取得するというプロセスにより獲得される。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指す。ここで、eは正の整数である。
いくつかの選択可能な実施例において、マルチモーダル融合エンコーダ103は直列接続されているe個の符号化モジュール1031を含み、各々の符号化モジュール1031はいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層11及びn個のモーダル間融合層12を含み、eは正の整数であり、
1番目の符号化モジュール1031は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層11に入力し、n個のモーダル内融合層11によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得することに用いられ、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得し、
1番目の符号化モジュール1031は、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層12に入力し、各々のモーダル間融合層12により上記n個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得することに用いられ、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得し、
第j番目の符号化モジュール1031は、n個の第1中間ベクトルに対してj回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることに用いられ、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である。
いくつかの選択可能な実施例において、各々の符号化モジュール1031は更にn個の第1ベクトル変換層13を含み、上記1つのベクトル変換層は1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1ベクトル変換層13であり、
符号化モジュール1031は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層13に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
いくつかの選択可能な実施例において、直列接続されているe個の符号化モジュール1031のうちの各々の符号化モジュール1031における階層構造は同じである。
いくつかの選択可能な実施例において、異なるモーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なるモーダル間融合層に異なる又は同じ特徴融合関数が設定される。
いくつかの選択可能な実施例において、該マルチモーダル機械翻訳モデル100は更に第2ワードベクトル層105及び分類器106を含み、且つデコーダ104は直列接続されているd個の復号モジュール1042を含み、dは正の整数であり、
第2ワードベクトル層105は、第1目標語句を獲得することであって、第1目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、に用いられ、
デコーダ104は、直列接続されているd個の復号モジュール1042により第2ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することに用いられ、
分類器106は、復号特徴ベクトルに対応する確率分布を決定し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することに用いられる。
いくつかの選択可能な実施例において、直列接続されているd個の復号モジュール1042のうちの各々の復号モジュール1042はいずれも第1自己注意層21及び第2自己注意層22を含み、
1番目の復号モジュール1042は、第2ワードベクトルを1番目の復号モジュール1042における第1自己注意層21に入力し、第1自己注意層21により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することに用いられ、
1番目の復号モジュール1042は、第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュール1042における第2自己注意層22に入力し、第2自己注意層22により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することに用いられ、
第k番目の復号モジュールは、第2中間ベクトルを第k番目の復号モジュール1042に入力して第k回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることに用いられ、kは1よりも大きく且つd以下の正の整数である。
いくつかの選択可能な実施例において、各々の復号モジュール1042は更に第2ベクトル変換層23を含み、
復号モジュール1042は、第2中間ベクトルを第2ベクトル変換層23に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
以上のように、本実施例が提供するマルチモーダル機械翻訳モデルは、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得する。更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。
図2に参照されるように、本願の1つの例示的な実施例が提供するコンピュータシステムの構造模式図を示し、該コンピュータシステムは端末220及びサーバ240を含む。
端末220にオペレーティングシステムがインストールされ、該オペレーティングシステムにアプリケーションプログラムがインストールされ、該アプリケーションプログラムはマルチモーダルソース言語の翻訳機能をサポートする。例示的には、上記アプリケーションプログラムはインスタントメッセージングソフトウェア、金融ソフトウェア、ゲームソフトウェア、ショッピングソフトウェア、ビデオ再生ソフトウェア、コミュニティーサービスソフトウェア、オーディオソフトウェア、教育ソフトウェア、支払いソフトウェア及び翻訳ソフトウェア等を含んでもよく、上記アプリケーションプログラムに上記マルチモーダルソース言語の翻訳機能が統合されている。
端末220とサーバ240とは有線又は無線ネットワーク経由で互いに結合されている。サーバ240は1台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム及び仮想化センターのうちの少なくとも1つを含む。例示的には、サーバ240はプロセッサ及びメモリを含む。ここで、メモリにコンピュータプログラムが記憶され、プロセッサは上記コンピュータプログラムを読み取り且つ実行してマルチモーダルソース言語の翻訳機能を実現することができる。
選択肢として、サーバ240は主な計算作業を担い、端末220は副次的な計算作業を担う。又は、サーバ240は副次的な計算作業を担い、端末220は主な計算作業を担う。又は、サーバ240と端末220との両方の間は分散型計算アーキテクチャを用いて協調計算を行う。
いくつかの選択可能な実施例において、上記マルチモーダル言語の翻訳機能を実現するプロセスにおいて、サーバ240は端末220におけるアプリケーションプログラムにバックグラウンドサービスを提供する。例示的には、端末220はn個のモーダルのソースステートメントを収集し、上記n個のモーダルのソースステートメントをサーバ240に送信し、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、nは1よりも大きな正の整数である。
例示的には、端末220にはデータ伝送制御部材が含まれ、端末220は上記データ伝送制御部材により翻訳対象ステートメント及び翻訳対象ステートメントにマッチングする画像のこの2つの異なるモーダルのソースステートメントをサーバ240にアップロードする。サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、2つのモーダルのソースステートメントを目標ステートメントに翻訳する。
いくつかの選択可能な実施例において、ソースステートメントは音声信号を含んでもよい。n個のモーダルのソースステートメントに音声信号が含まれる場合、n個のモーダルのソースステートメントを翻訳する前に、端末220又はサーバ240はまず音声信号を文字テキストに変換する。例示的には、端末220はマイクロホンにより音声信号を収集し、又は、端末220は他の端末から送信された音声信号を受信する。
上記マルチモーダル機械学習に基づく翻訳方法はマルチメディアニュース翻訳シーンに応用できる。例示的には、端末220は文字と画像とを含むマルチメディアニュースをサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、マルチメディアニュースにおける第1言語類の文字を第2言語類の文字に翻訳する。
上記マルチモーダル機械学習に基づく翻訳方法は外国語文献翻訳シーンに応用できる。例示的には、端末220は外国語文献における文字及び文字に対応する挿絵をサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語文献における第1言語類の文字を第2言語類の文字に翻訳する。
上記マルチモーダル機械学習に基づく翻訳方法は外国語ウェブサイト翻訳シーンに応用できる。例示的には、端末220は外国語ウェブサイトにおける文字及び文字イラストを収集し、上記文字及び文字イラストをサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語ウェブサイトにおける第1言語類の文字を第2言語類の文字に翻訳し、更に外国語ウェブサイトに対する翻訳を実現する。
いくつかの選択可能な実施例において、端末220が翻訳された文字を展示する方式は音声形式又は文字形式を含む。
説明する必要があるように、いくつかの選択可能な実施例において、端末220は本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、更にn個のモーダルのソースステートメントを翻訳する。
端末220は一般的に複数の端末のうちの1つを指してもよく、本実施例は端末220のみを例として説明する。該端末220はスマートフォン、タブレットコンピュータ、電子ブックリーダー、MPEGオーディオレイヤー3(Moving Picture Experts Group Audio Layer III、MP3)プレーヤー、MPEGオーディオレイヤー4(Moving Picture Experts Group Audio Layer IV、MP4)プレーヤー、ラップトップポケットコンピュータ、デスクトップコンピュータ、及びノートパソコンのうちの少なくとも1つを含んでもよい。以下の実施例は端末220がスマートフォン及びパーソナルコンピュータ機器を含む場合を例として説明する。
当業者であれば分かるように、上記端末220の数はより多く又はより少なくてもよい。例えば、上記端末は1つのみであってもよく、又は上記端末は数十個若しくは数百個、若しくはより多くの数である。本願の実施例は端末220の数及び機器タイプを限定しない。
図3に参照されるように、本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートを示す。該方法は図2に示されるコンピュータ機器に応用され、該コンピュータ機器は端末又はサーバを含み、該方法は以下を含む。
ステップ301:コンピュータ機器はn個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築する。
上記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数である。
1つのモーダルのソースステートメントを例とすると、該ソースステートメントは1組のセマンティックノードに対応し、該1組のセマンティックノードはソースステートメントにおけるセマンティックユニットを示すことに用いられる少なくとも1つのセマンティックノードを含む。
該コンピュータ機器にマルチモーダル融合エンコーダ及びデコーダが設定され、コンピュータ機器はマルチモーダルグラフ表現層により各々のモーダルのソースステートメントからセマンティックノードを抽出して、n個のモーダルのソースステートメントに対応するn組のセマンティックノードを取得し、マルチモーダルグラフ表現層により第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、同一モーダルのいずれか2つのセマンティックノードの間に第1結合辺を追加し、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行う。つまり、異なるモーダルのセマンティックノードの間に第2結合辺を追加して、セマンティック関連図を取得する。
選択肢として、n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれる。n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含む。コンピュータ機器は、マルチモーダルグラフ表現層により第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソースステートメントから候補セマンティックノードを抽出し、マルチモーダルグラフ表現層を呼び出し、第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算し、マルチモーダルグラフ表現層を呼び出し、第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定する。
ここで、テキスト形式の第1ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第1ソースステートメントに対して単語分割処理を行って、単語分割後のm個の語句を取得し、m個の語句が第1ソースステートメントにおける第1セマンティックノードに対応し、mは正の整数であり、
非テキスト形式の第2ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第2ソースステートメントからm個の語句のうちの少なくとも1つの語句のセマンティックに対応する目標を抽出し、該目標が第2ソースステートメントにおける第2セマンティックノードである。
例示的には、図4のように、2つのモーダルのソースステートメントは翻訳対象画像31及び翻訳対象ステートメント32を含み、翻訳対象ステートメント32の内容は「Two boys are playing with a toy car.」を含む。各々の英語単語が1つの第1セマンティックノードに対応し、それぞれVx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7及びVx8である。コンピュータ機器はセマンティックノードのセマンティックに基づいて翻訳対象画像31から候補画像を切り取り、セマンティックノードと候補画像とのセマンティック関連付けに基づき第1確率分布を算出し、第1確率分布に基づき候補画像からVx1及びVx2のセマンティックに対応する目標画像1及び目標画像2、並びにVx6、Vx7及びVx8のセマンティックに対応する目標画像3を決定する。目標画像1、目標画像2及び目標画像3にそれぞれ対応するVo1、Vo2及びVo3は翻訳対象画像31における3つの第2セマンティックノードである。コンピュータ機器はVx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7及びVx8の2つごとの間に第1結合辺(実線)を用いてモーダル内セマンティック結合を行い、Vo1、Vo2及びVo3の2つごとの間に第1結合辺を用いてモーダル内セマンティック結合を行い、第1セマンティックノードと第2セマンティックノードとの間に第2結合辺(破線)を用いてモーダル間セマンティック結合を行う。
選択肢として、異なるモーダルには異なる第1結合辺が対応して設定される。コンピュータ機器はセマンティックノードに対してモーダル内結合を行うときに、マルチモーダルグラフ表現層により第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、第i組のセマンティックノードにおけるいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加し、iはn以下の正の整数である。
選択肢として、2つのモーダルのソースステートメントを翻訳するに際し、2つのモーダルのソースステートメントがそれぞれ文字及び画像である場合、コンピュータ機器は視覚グラウンディング(visual grounding)ツールにより2つのモーダルのソースステートメントの間のセマンティック関連付けを確立し、セマンティック関連図を構築する。
ステップ302:コンピュータ機器はセマンティック関連図から複数の第1ワードベクトルを抽出する。
例示的には、コンピュータ機器はワード埋め込み方式を用いてセマンティック関連図を処理して、複数の第1ワードベクトルを取得する。ワード埋め込みとは単語をワードベクトルにマッピングすることを指し、選択肢として、ワード埋め込み方法は、
ニューラルネットワークモデルによりワード埋め込みを行うこと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うこと、
確率モデルによりワード埋め込みを行うこと、及び
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うこと、の4種類のうちの少なくとも1種類を含む。
例えば、ワンホットエンコーディング(One-Hot Encoding)によりテキスト形式のソースステートメントにおける単語を表現し、続いて埋め込み行列によりワード埋め込みを行う。
ステップ303:コンピュータ機器は複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得する。
コンピュータ機器はマルチモーダル融合エンコーダにより第1ワードベクトルに対してモーダル内の特徴抽出を行い、続いて特徴抽出により取得されたベクトルに対してモーダル間の特徴融合を行う。
例示的に、nの値が3である場合を例とする。マルチモーダル融合エンコーダには第1モーダルに対応する第1特徴抽出関数、第2モーダルに対応する第2特徴抽出関数、及び第3モーダルに対応する第3特徴抽出関数が含まれる。コンピュータ機器は第1特徴抽出関数により第1ワードベクトルに対して第1モーダル内の特徴抽出を行い、第2特徴抽出関数により第1ワードベクトルに対して第2モーダル内の特徴抽出を行い、第3特徴抽出関数により第1ワードベクトルに対して第3モーダル内の特徴抽出を行って、最終的に3つの隠れ層関数を取得する。マルチモーダル融合エンコーダには第1モーダルに対応する第1特徴融合関数、第2モーダルに対応する第2特徴融合関数、及び第3モーダルに対応する第3特徴融合関数が更に含まれる。コンピュータ機器は第1特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行い、第2特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行い、第3特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行って、3つの特徴融合後の隠れ層ベクトル、即ち符号化特徴ベクトルを取得する。
ステップ304:コンピュータ機器はn個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。
コンピュータ機器はデコーダを呼び出してn個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。該目標ステートメントがn個のモーダルのソースステートメントを指定された言語類に翻訳して取得したステートメントである。
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソースステートメントの間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。
図3に基づいて、マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、各々の符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、eは正の整数である。従って、ステップ303はステップ3031を含んでもよく、図5のように、ステップは、以下の通りである。
ステップ3031:コンピュータ機器は直列接続されているe個の符号化モジュールにより複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する。
ここで、モーダル内融合とは同一モーダル内の第1ワードベクトルの間でセマンティック融合を行うことを指し、モーダル間融合とは異なるモーダルの第1ワードベクトルの間でセマンティック融合を行うことを意味する。
例示的には、上記符号化特徴ベクトルのモーダル内及びモーダル間融合は以下のステップにより実現され得る。
1)第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得する。1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得する。
例示的には、コンピュータ機器は第1ワードベクトルを1番目の符号化モジュールにおける1番目のモーダル内融合層に入力し、1番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行って1番目の第1隠れ層ベクトルを取得し、第1ワードベクトルを1番目の符号化モジュールにおける2番目のモーダル内融合層に入力し、2番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行って2番目の第1隠れ層ベクトルを取得し、…、第1ワードベクトルを1番目の符号化モジュールにおけるn番目のモーダル内融合層に入力し、n番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行ってn番目の第1隠れ層ベクトルを取得する。
モーダル内融合層内には特徴抽出関数が設定され、選択肢として、特徴抽出関数は自己注意関数を含む。選択肢として、異なるモーダル内融合層内に異なる又は同じ自己注意関数が設定される。説明する必要があるように、自己注意関数が異なるとは関数内のパラメータが異なることを指し、異なるモーダルに対応する自己注意関数が異なれば、異なるモーダルに対応する関数内のパラメータは異なる。
2)n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得する。1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得する。
例示的には、コンピュータ機器は、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける1番目のモーダル間融合層に入力し、1番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行って1番目のモーダルに対応する1番目の第1中間ベクトルを取得し、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける2番目のモーダル間融合層に入力し、2番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行って2番目のモーダルに対応する2番目の第1中間ベクトルを取得し、…、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおけるn番目のモーダル間融合層に入力し、n番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行ってn番目のモーダルに対応するn番目の第1中間ベクトルを取得する。
モーダル間融合層には特徴融合関数が設定され、選択肢として、異なるモーダル間融合層内に設定される特徴融合関数は異なる又は同じである。説明する必要があるように、特徴融合関数が異なるとは関数内のパラメータが異なることを指し、又は、関数の計算方式が異なることを意味する。
選択肢として、各々の符号化モジュールは、n個のモーダルに1対1で対応するn個の第1ベクトル変換層を更に含む。n個の第1中間ベクトルを取得した後に、コンピュータ機器は更にn個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得する。
3)n個の第1中間ベクトルを第j番目の符号化モジュールに入力してj回目の符号化処理を行い、これを最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続ける。1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続ける。
コンピュータ機器は、n個の中間ベクトルを2番目の符号化モジュールに入力して2回目の符号化処理を行って、改めて符号化されたn個の第1中間ベクトルを取得し、…、改めて符号化されたn個の第1中間ベクトルを第j番目の符号化モジュールに入力してj回目の符号化処理を行って、改めて符号化されたn個の第1中間ベクトルを取得し、…、改めて符号化されたn個の第1中間ベクトルをe番目の符号化モジュールに入力してe回目の符号化処理を行って、n個の符号化特徴ベクトルを取得する。ここで、jは1よりも大きく且つe以下の正の整数である。選択肢として、直列接続されているe個の符号化モジュールのうちの上記各々の符号化モジュールにおける階層構造は同じである。即ち、第j番目の符号化モジュールは1番目の符号化モジュールが第1中間ベクトルを符号化するステップに従って処理し、最後の1つの符号化モジュールが符号化特徴ベクトルを出力するまで続ける。
例示的には、本実施例において自己注意メカニズムを用いて同じモーダル内部のセマンティック情報をモデリングする。そうすると、第j番目の符号化モジュールはテキストステートメントに対応する第1隠れ層ベクトル[数1]を計算し、式は、
[数2]であり、
ここで、[数3]はテキストステートメントに対応する第1ワードベクトル又は(j-1)番目の符号化モジュールが出力する第1中間ベクトルを指し、xはテキストステートメントのセマンティックノード、及びテキストステートメントのセマンティックノードにより計算して取得されたベクトルをマークすることに用いられ、MultiHead(Q,K,V)は多重注意メカニズムモデリング関数であり、トリプレット(Queries,Key,Values)を入力とし、Qがクエリ行列であり、Kがキー行列であり、Vが値行列であり、ここで、Q、K及びVが[数4]及びパラメータベクトルから計算して取得したものである。
Figure 2023509031000002
Figure 2023509031000003
Figure 2023509031000004
Figure 2023509031000005
第j番目のマルチモーダル融合エンコーダは画像に対応する第1隠れ層ベクトル[数5]を計算し、式は、
[数6]であり、
Figure 2023509031000006
Figure 2023509031000007
ここで、[数7]は画像に対応する第1ワードベクトル又は(j-1)番目の符号化モジュールが出力する第1中間ベクトルを指し、
Figure 2023509031000008
本実施例において更にゲーティングメカニズムに基づくクロスモーダル融合メカニズムを用いてマルチモーダル間のセマンティック融合をモデリングし、そうすると、第j番目の符号化モジュールはテキストステートメントに対応する第1中間ベクトル又は符号化特徴ベクトル[数8]を計算し、式は、
[数9]、
[数10]であり、
Figure 2023509031000009
Figure 2023509031000010
Figure 2023509031000011
ここで、Aは集合を示す。対応して、[数11]は第1セマンティックノード[数12]のセマンティック関連図における近傍ノードの集合である。[数13]はテキストステートメントのu番目のセマンティックノードを示し、uは正の整数である。[数14]は第j番目の符号化モジュールにおける画像のs番目のセマンティックノードのセマンティック表現ベクトルであり、[数15]は第j番目の符号化モジュールにおけるテキストステートメントのu番目のセマンティックノードのセマンティック表現ベクトルである。[数16]と[数17]はパラメータ行列であり、[数18]は否定排他的論理和演算を示し、Sigmoid()はs曲線型関数である。oは画像のセマンティックノード、及び画像のセマンティックノードにより計算して取得されたベクトルをマークすることに用いられる。更に同じ計算方式によって画像に対応する第1中間ベクトル又は符号化特徴ベクトル[数19]を計算し、ここで再び詳しく説明しない。
Figure 2023509031000012
Figure 2023509031000013
Figure 2023509031000014
Figure 2023509031000015
Figure 2023509031000016
Figure 2023509031000017
Figure 2023509031000018
Figure 2023509031000019
Figure 2023509031000020
マルチモーダル間融合を経た後に、本実施例において更にフィードフォワードニューラルネットワーク(FeedForward Neural、FFN)を用いて最終的な符号化特徴ベクトルを生成し、テキストステートメントに対応する符号化特徴ベクトル及び画像に対応する符号化特徴ベクトルはそれぞれ、
[数20]、
[数21]であり、
Figure 2023509031000021
Figure 2023509031000022
ここで、[数22]であり、{}は集合を示し、[数23]は第j番目の符号化モジュールにおけるテキストステートメントのu番目のセマンティックノードに対応する符号化特徴ベクトルを示し、[数24]は第j番目の符号化モジュールにおける画像のs番目のセマンティックノードに対応する符号化特徴ベクトルを示す。
Figure 2023509031000023
Figure 2023509031000024
Figure 2023509031000025
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
該方法においてマルチモーダル融合エンコーダには直列接続されているe個の符号化モジュールが含まれる。各々の符号化モジュールはいずれもモーダル内融合層及びモーダル間融合層を含み、モーダル内及びモーダル間の特徴融合を複数回交互に行うことによりセマンティック融合がより完全な符号化特徴ベクトルを取得し、更にn個のモーダルのソース言語に対応するより正確な目標ステートメントを復号することができる。
図3に基づいて、デコーダは直列接続されているd個の復号モジュールを更に含み、dは正の整数である。従って、ステップ304はステップ3041~ステップ3044を含んでもよく、図6に示すように、これらステップは以下のとおりである。
ステップ3041:コンピュータ機器は第2ワードベクトル層により第1目標語句を獲得する。
ここで、第1目標語句は目標ステートメントにおける翻訳済み語句である。コンピュータ機器は目標ステートメントにおける語句を1つずつ翻訳し、目標ステートメントにおけるr番目の語句を翻訳した後に、r番目の語句を第1目標語句とし、r+1番目の語句を翻訳することに用いる。言い換えれば、コンピュータ機器はr番目の語句を第2ワードベクトル層に入力し、rは負ではない整数である。
ステップ3042:コンピュータ機器は第2ワードベクトル層により第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得する。
例示的には、コンピュータ機器は第2ベクトル層により第1目標語句に対してワード埋め込みを行って、第2ワードベクトルを取得する。ワード埋め込みは、単語をベクトル空間において実数ベクトルとして表現する技術であり、本実施例においてワード埋め込みとは単語をワードベクトルにマッピングすることを指す。例えば、「わたし」をマッピングしてワードベクトル(0.1,0.5,5)を取得すれば、すなわち(0.1,0.5,5)は「わたし」に対してワード埋め込みを行った後のワードベクトルである。
ステップ3043:コンピュータ機器は直列接続されているd個の復号モジュールにより第2ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する。
コンピュータ機器は直列接続されているd個の復号モジュールを呼び出して注意メカニズムに基づいて符号化特徴ベクトル及び第2ワードベクトルを処理して、復号特徴ベクトルを抽出する。
選択肢として、直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも1つの第1自己注意層、1つの第2自己注意層及び1つの第2ベクトル変換層を含む。復号特徴ベクトルの抽出については、コンピュータ機器は第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、第1自己注意層により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得し、第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュールにおける第2自己注意層に入力し、第2自己注意層により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得し、第2中間ベクトルを第k番目の復号モジュールに入力してk回目の復号処理を行い、これを最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続け、kは1よりも大きく且つd以下の正の整数である。
ここで、第1自己注意層は自己注意メカニズムに基づいて第2ワードベクトルを処理して、第2隠れ層ベクトルを抽出することに用いられ、第2自己注意層は注意メカニズムに基づいて目標ステートメントの言語類を用いて第2隠れ層ベクトル及び符号化特徴ベクトルを処理して、第2中間ベクトルを取得することに用いられる。第1自己注意層に第1自己注意関数が含まれ、第2自己注意層に第2自己注意関数が含まれ、第1自己注意関数と第2自己注意関数のパラメータは異なる。
選択肢として、各々の復号モジュールは更に第2ベクトル変換層を含み、第2中間ベクトルを計算して取得した後に、コンピュータ機器は更に第2中間ベクトルを第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得する。
ステップ3044:コンピュータ機器は復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定する。
選択肢として、分類器に正規化(softmax)関数が含まれ、コンピュータ機器はsoftmax関数により復号特徴ベクトルに対応する確率分布を計算し、且つ復号特徴ベクトルに対応する確率分布に基づき第1目標語句の後の第2目標語句を決定する。
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
該方法は更にd個の復号モジュールにより目標ステートメントの言語類を用いて符号化特徴ベクトル及び第2隠れ層ベクトルに対して注意を繰り返し行って、より正確な目標ステートメントを復号する。
更に説明する必要があるように、本願が提供するマルチモーダル機械翻訳モデルと以前のマルチモーダルニューラル機械翻訳(Neural Machine Translation、NMT)とに対してテスト比較を行ったところ、本願が提供するマルチモーダル機械翻訳モデルの翻訳効果が最も高いことが明らかになった。例示的に、入力データが画像及びテキストの2種類のソース言語であることを例として、上記テスト比較を以下のように詳しく説明する。
本願が提供するマルチモーダル機械翻訳モデルは注意のコーデックフレームワークに基づいて構築されたものであり、訓練データの対数尤度の最大化を目標関数とする。本質的に、本願が提供するマルチモーダル融合エンコーダは1つのマルチモーダル拡張グラフニューラルネットワーク(Graph Neural Network、GNN)として見なされてもよい。マルチモーダル融合エンコーダを構築するために、入力された画像及びテキストを1つのマルチモーダルグラフ(即ちセマンティック関連図)として対応付けて表現し、その後、上記マルチモーダルグラフに基づいて複数のマルチモーダル融合層を重ね合わせてノード(即ちセマンティックノード)表現を学習し、デコーダに注意に基づくコンテキストベクトルを提供する。
一、マルチモーダルグラフの構築については、形式的にマルチモーダルグラフは無向であり、G=(V,E)に形式化することができる。ここで、ノードセットVにおいて、個々のノードはテキスト語句又は視覚オブジェクトを示す。ここでテキストに対応するノードはセマンティックノードと称され、視覚オブジェクトに対応するノードは視覚ノードと称され、且つ以下のポリシーを用いてノードの間のセマンティック関連付けを構築する。
1、ノードの抽出
(1)テキスト情報を十分に利用するために、テキストにおけるすべての単語を個別のテキストノードとする。例えば、図4においてマルチモーダルグラフは合計8つのテキストノードを含み、個々のテキストノードが入力ステートメント(即ち翻訳対象ステートメント)における1つの単語に対応する。(2)スタンフォードパーサ(Stanford parser)を使用して入力ステートメントにおけるすべての名詞フレーズを識別し、次に視覚グラウンディングツールキットを応用して個々の名詞フレーズの入力画像(即ち翻訳対象画像)における対応する境界ボックス(視覚オブジェクト)を識別する。その後、検出されたすべての視覚オブジェクトはいずれも独立した視覚ノードとされる。例えば、図4においてテキストノードVx1及びVx2は視覚ノードVo1及びVo2に対応し、テキストノードVx6、Vx7及びVx8は視覚ノードVo3に対応する。
2、マルチモーダルセマンティックユニットの間の各種のセマンティック関連付けを捕獲するために、2種類のエッジ(即ち結合辺)を用いてセマンティックノードを結合する。エッジセットEにおける2種類のエッジは、(1)同一モーダルにおけるいずれか2つのセマンティックノードがいずれも1つのモーダル内エッジ(第1結合辺)により結合されることと、(2)いかなるテキストノード及び相応の視覚ノードがいずれも1つのモーダル間エッジ(第2結合辺)により結合されることと、を含む。例示的には、図4のように、Vo1とVo2との間にモーダル内エッジ(実線)を用いて結合し、Vo1とVx1との間にモーダル間エッジ(実線)を用いて結合する。
二、埋め込み層については、マルチモーダルグラフを積層したマルチモーダル融合層に入力する前に、1つのワード埋め込み層を導入してノードの状態を初期化する必要がある。個々のテキストノードVxuについては、その初期状態Hxuをワード埋め込みと位置埋め込みとの和として定義する。視覚ノードVosの初期状態Hosについては、Faster-RCNNにおける関心領域プール(Region Of Interest pooling、ROIプール)層の全結合層(fully-connected layer)により視覚特徴を抽出し、次に線形整流関数(Rectified Linear Unit、ReLU)を活性化関数とする多層パーセプトロンを使用して視覚特徴をテキスト表現と同じ空間に投影する必要がある。
ここで、RCCNは精確な物体検出及びセマンティックセグメンテーションに用いられる豊富な特徴階層構造(Rich feature hierarchies for accurate object detection and semantic segmentation)である。
三、図7のように、左側部分にエンコーダを示し、埋め込み層402の頂部にe層のグラフに基づくマルチモーダル融合層がスタックされ、それにより上記マルチモーダルグラフを符号化する。マルチモーダル融合層において、モーダル内及びモーダル間融合を順次行って、すべてのノード状態を更新する。このように、最終的なノード状態は同一モーダルにおけるコンテキスト情報及びクロスモーダルセマンティック情報を同時に符号化したものである。特に、視覚ノード及びテキストノードは異なるモード情報を含む2種類のセマンティックユニットであるため、操作が類似するがパラメータが異なる関数を用いてノードの状態更新プロセスをモデリングする。
例示的には、j個のマルチモーダル融合層において、テキストノード状態[数25]及び視覚ノード状態[数26]の更新は主に以下のステップに関する。
Figure 2023509031000026
Figure 2023509031000027
ステップ1:モーダル内融合。このステップにおいて、自己注意を使用して同一モーダル内の隣接ノードの間の情報融合を行って、個々のノードのコンテキスト表現を生成する。形式的に、すべてのテキストノードのコンテキスト表現[数27]の計算式は、
[数28]であり、
Figure 2023509031000028
Figure 2023509031000029
ここで、MultiHead(Q,K,V)は多重注意メカニズムモデリング関数(マルチヘッド自己注意関数とも称される)であり、クエリ行列Q、キー行列K及び値行列Vを入力とする。同様に、すべての視覚ノードのコンテキスト表現[数29]の計算式は、
[数30]である。
Figure 2023509031000030
Figure 2023509031000031
特に、視覚オブジェクトの初期状態は、深層学習アルゴリズム(deep CNNs)により抽出されたものであり、従って、1つの簡略化されたマルチヘッド自己注意を応用して視覚オブジェクトの初期状態を表現する。ここで、獲得された線形項目値及び最終的な出力を削除する。
ステップ2:モーダル間融合。マルチモーダルの間に特徴融合を行うときに、要素操作特性を有する一種のクロスモーダルゲーティング制御メカニズムを用いて、個々のノードのクロスモーダル近傍領域のセマンティック情報を学習する。具体的に、テキストノードVxuの状態表現[数31]を生成する方式は、
[数32]、
[数33]であり、
Figure 2023509031000032
Figure 2023509031000033
Figure 2023509031000034
ここで、[数34]はノードVxuのマルチモーダルグラフにおける近傍ノードの集合であり、[数35]と[数36]はパラメータ行列である。同様に、テキストノードVosの状態表現[数37]を生成する方式は、
[数38]、
[数39]であり、
Figure 2023509031000035
Figure 2023509031000036
Figure 2023509031000037
Figure 2023509031000038
Figure 2023509031000039
Figure 2023509031000040
ここで、[数40]はノードVosのマルチモーダルグラフにおける近傍ノードの集合であり、[数41]と[数42]はパラメータ行列である。
Figure 2023509031000041
Figure 2023509031000042
Figure 2023509031000043
上記マルチモーダル融合プロセスを経た後に、フィードフォワードニューラルネットワークを用いて最終的なデル隠れ層表現を生成する。テキストノード状態[数43]及び画像ノード状態[数44]の計算プロセスは、
[数45]、
[数46]であり、
Figure 2023509031000044
Figure 2023509031000045
Figure 2023509031000046
Figure 2023509031000047
ここで、[数47]は全部のテキストノード状態及び画像ノード状態が更新されたことを示す。
Figure 2023509031000048
四、デコーダについては、従来のトランスフォーマ(Transformer)デコーダと類似する。視覚情報が既に複数のグラフに基づくマルチモーダル融合層によりすべてのテキストノードに融合されているため、デコーダがテキストノード状態のみに注目してマルチモーダルコンテキストを動的に利用することは許容されており、即ちテキストノード状態のみをデコーダに入力する。
図7の右側部分に示すように、d個の同じ層を重ね合わせて目標側隠れ状態を生成する。ここで、個々の層は3つのサブ層により構成される。具体的に、上位2つのサブ層はそれぞれマスキング自己注意Ej及びコーデック注意Tjであり、それにより目標及びソース言語側コンテキストを統合し、
[数48]、
[数49]であり、
Figure 2023509031000049
Figure 2023509031000050
ここで、S(j-1)は第j-1層における目標側隠れ状態を示す。特に、S(0)は入力された目標語句の埋め込みベクトルであり、[数50]はデコーダにおける最上層の隠れ状態である。次に、1つの位置方向の全結合フィードフォワードニューラルネットワークはS(j)を生成することに用いられ、式は、
[数51]であり、
Figure 2023509031000051
Figure 2023509031000052
最後に、softmax層を利用して目標ステートメントを生成する確率分布を定義し、該層は最上層の隠れ状態[数52]を入力とし、
[数53]であり、
Figure 2023509031000053
Figure 2023509031000054
ここで、Xは入力された翻訳対象ステートメントであり、Iは入力された翻訳対象画像であり、Yは目標ステートメント(即ち翻訳ステートメント)であり、Wとbはsoftmax層のパラメータである。
実験プロセスにおいて、英語をフランス語及びドイツ語に翻訳することを翻訳タスクとし、データセットはMulti30Kデータセットを用いる。ここで、データセットにおける各画像は、英語の記述、並びに人間が翻訳したドイツ語、及びフランス語に対応してペアになる。訓練、検証及びテストセットはそれぞれ29000個、1014個及び1000個の実例を含む。この他に、更にWMT17テストセットにおける各種のモデル及びファジーMSCOCOテストセットを評価するが、それらはそれぞれ1000個及び461個の実例を含む。本実験において、前処理されたステートメントを直接使用して、バイトペア符号化及び10000個の合併操作により単語をサブ単語に分割する。
視覚特徴:まずスタンフォード(Stanford)パーサを用いて個々のソースステートメントから名詞フレーズを識別し、次に視覚グラウンディングツールキットを使用して識別された名詞フレーズの関連視覚オブジェクトを検出する。個々のフレーズについては、その対応する視覚オブジェクトの予測確率を最も高く維持することにより、豊富な視覚オブジェクトの悪影響を軽減する。個々のセンテンスにおいて、物体及び単語の平均数はそれぞれ3.5及び15.0程度である。最後に、予め訓練されたResNet-100 Faster RCNNを使用してこれらのオブジェクトの2048次元特徴を計算する。
設定:トランスフォーマを基礎として使用する。訓練コーパスが比較的小さいため、訓練後のモデルは過度にフィッティングする傾向があり、まず1つの小さなグリッド検索を行って、1組の英語からドイツ語への翻訳検証セットにおけるハイパーパラメータを獲得する。具体的には、ワード埋め込み次元数及び隠れサイズはそれぞれ128及び256である。デコーダは4層を有し、注意のヘッド数は4である。ドロップアウト率を0.5として設定する。各ロットは約2000個のソースコードシンボル及び目標トークンにより構成される。所定の学習率を有するAdamオプティマイザを応用して各種のモデルを最適化し、且つそれと同じ他の設定を使用する。最後に、バイリンガル評価アンダースタディ(Bilingual EvaLuation Understudy、BLEU)指標及びMETEOR指標を使用して翻訳の品質を評価する。説明する必要があるように、個々の実験においてすべてのモデルに対して3回の動作をさせ、且つ平均結果を報告した。
基礎モデル:テキストに基づくトランスフォーマ(TransFormer、TF)以外に、更に視覚特徴を利用し、幾つか種類の効果的な方法を用いて変換を行い、且つ本願の実施例が提供するモデルをトランスフォーマと比較した。
1、ObjectAsToken(TF)。これはトランスフォーマの1つのバリエーションであり、すべての視覚オブジェクトはいずれも付加的なソースコードシンボルとして見なされ、且つ入力ステートメントの前に置かれる。
2、Enc-att(TF)。トランスフォーマにおいてエンコーダに基づく画像注意メカニズムを用いており、個々のソース注釈及び注意に基づく視覚特徴ベクトルを追加ししている。
3、Doubly-att(TF)。これは1つの二重注意のトランスフォーマである。個々の復号層において、全結合フィードフォロード層の前に1つのクロスモーダルマルチヘッド注意サブ層を挿入し、それにより視覚特徴に基づいて視覚コンテキストベクトルを生成する。
それに対応して、更に幾つか種類の主なマルチモーダルニューラル機械翻訳(Neural Machine Translation、NMT)モデルの性能、例えばDoubly-att(RNN)、Soft-att(RNN)、Stochastlc-att(RNN)、Fusion-conv(RNN)、Trg-mul(RNN)、VMM T(RNN)及びDellberation Network(TF)が展開されている。ここで、RNNは再帰型ニューラルネットワーク(Recurrent Neural Netword)である。
マルチモーダル融合層の数eは1つの重要なハイパーパラメータであり、エンコーダにおける細粒度セマンティック融合の程度を直接決める。従って、まずそれが英語からドイツ語への翻訳検証セットに与える影響を検査する。図8には実験結果を示しており、eが3であるときに、モデルは最適なp形態に達した。従って、すべての後続の実験においてe=3を使用した。
Figure 2023509031000055
[表1]には英語からドイツ語への翻訳タスクの主な結果を示した。METEORにおいてFusion-conv(RNN)及びTrg-mul(RNN)と比較し、本願の実施例が提供するモデルの性能はほとんどの以前のモデルよりも優れている。2組の結果はWMT2017テストセットにおけるシステム状態によって決められており、該WMT2017テストセットはMETEORに基づいて選択したものである。基礎モデルと比較して、以下の結論を得ることができる。
まず、本願の実施例が提供するモデルはObjectAsToken(TF)よりも優れている。該モデルは領域視覚特徴とテキストとを一体に結合して、注目可能シーケンスを形成し、且つ自己注意メカニズムを利用してマルチモーダル融合を行う。その基本的な理由は2つの点を含み、第1としては、異なるモーダルのセマンティックユニットの間のセマンティック対応関係をモデリングしたことであり、第2としては、異なるモーダルのモデルパラメータを区別したことである。
次に、本願の実施例が提供するモデルもEnc-att(TF)よりも著しく優れている。ここで、Enc-att(TF)は単層セマンティック融合エンコーダとして見なされてもよい。セマンティック対応関係をモデリングする利点以外に、多層マルチモーダルセマンティックインタラクションもNMTに有利であると更に推量される。
第3としては、注意メカニズムだけを利用して視覚情報を抽出するDoubly-att(TF)に比べて、エンコーダにおいて十分なマルチモーダル融合を提供するため、本願の実施例が提供するモデルは著しく改良されている。
Figure 2023509031000056
また、ソース文の長さ及び名詞フレーズの数に基づきテストセットを異なるグループに分け、次に各グループのテストセットにおける異なるモデルの性能を比較する。図9及び図10には上記グループのBLEUスコアが示されている。まとめて言えば、本願の実施例が提供するモデルは依然としてすべてのグループにおいて常に最適な性能に達する。従って、本願の実施例が提供するモデルの有効性及び汎用性は再び実証されたといえる。注意する必要があるように、フレーズが比較的多いセンテンスにおいては、一般的にセンテンスが長くなり、本願の実施例が提供するモデルは基礎モデルの改良よりと比べてより深い意義を有する。長いセンテンスには比較的多く多義的なワードが含まれる場合が多いと推測される。従って、短いセンテンスに比べて、長いセンテンスは視覚情報を補充情報としてより良く利用する必要がある可能性があり、これは本願の実施例が提供するモデルのマルチモーダルセマンティックインタラクションにより実現され得る。
更に、[表4]には更に本願の実施例が提供するモデル及び基礎モデルの訓練及び復号速度を示す。訓練プロセスにおいて、本願の実施例が提供するモデルは1秒あたりに約1.1Kのトークンを処理することができ、これは他のマルチモーダルモデルに相当する。復号プロセスに関する場合、本願の実施例が提供するモデルは1秒あたりに約16.7句を翻訳し、トランスフォーマに比べて、速度が少々低下した。この他は、本願の実施例が提供するモデルは少量の付加的なパラメータを導入したのみで、より良い性能を獲得している。
Figure 2023509031000057
異なる成分の有効性を研究するために、更に実験を行い、本願の実施例が提供するモデルと[表2]における以下のバリエーションとを比較した。
(1)モーダル間融合。このバリエーションにおいて、2つの独立したトランスフォーマフォーマエンコーダを使用してそれぞれ単語及び視覚オブジェクトのセマンティック表現を学習し、次に二重注意デコーダを使用してテキスト及び視覚コンテキストをデコーダに合併する。[表2]における第3行の結果は、モーダル間融合をなくすと性能の顕著な低下をもたらすことを表している。これは、マルチモーダルセマンティックユニットの間のセマンティックインタラクションがマルチモーダル表現学習にとって有用であることを表している。
(2)視覚グラウンディングから全結合まで。単語及び視覚オブジェクトを一体に完全に結合し、モーダル間の対応関係を確立する。[表2]における第4行の結果は、この変化が性能の顕著な低下をもたらすことを表明している。その根本的な理由は、完全に結合しているセマンティックの対応は本願の実施例が提供するモデルに非常に大きなノイズをもたらすことにある。
(3)異なるパラメータから統一パラメータまで。このバリエーションを構築するときに、統一パラメータを割り当てて異なるモードにおけるノード状態を更新する。明らかなようにに、[表2]における第5行が報告する性能低下は、異なるパラメータを使用する方法の有効性も証明した。
(4)視覚ノード注意。テキストノードのみを考慮するモデルと異なり、このバリエーションのデコーダが二重注意デコーダを使用してこの2種類のタイプのノードを考慮することは許容されている。[表2]における第6行の結果から観察できるように、すべてのノードを考慮することは更なる改良をもたらすことがない。上記結果はもとの仮定を実証しており、即ち、視覚情報は既に完全にエンコーダにおけるテキストノードに取り入れられているといえる。
(5)テキストノード注意及び視覚ノード注意。しかしながら、視覚ノードのみを考慮するときには、モデルの性能が急激に低下するが、これは[表2]における第7行に示されている。これは、視覚ノードの数がテキストノードよりも遥かに少ないが、テキストノードが十分な翻訳コンテキストを生成できないためである。
例示的に、更に英語からフランス語への翻訳データセットにおいて実験を行う。[表3]からわかるように、すべての以前のモデルに比べて、本願の実施例が提供するモデルは依然としてより良い性能を獲得する。これは、マルチモーダルNMTにおいて本願の実施例が提供するモデルは異なる言語に対して有効及び汎用的なものであることを再び証明している。
[表2]において、関連するマルチモーダルNMTシステム及び本願の実施例が提供するマルチモーダルNMTシステムにおいて提供する機械翻訳モデルと比較を行っている。BLEU及びMETEOR指標から明らかなように、英語とフランス語との間の翻訳に対しても、本願が提供する機械翻訳モデルはより良い効果を獲得し、4つの指標値のうち3つはいずれも最高値(太字の数字)であった。
Figure 2023509031000058
図11に参照されるように、本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置を示している。該装置はソフトウェア、ハードウェア又はそれらの組み合わせによりコンピュータ機器の一部又は全部となり、該装置はセマンティック関連付けモジュール501と、特徴抽出モジュール502と、ベクトル符号化モジュール503と、ベクトル復号モジュール504と、を含む。
セマンティック関連付けモジュール501は、異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得することに用いられる。上記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、上記セマンティックノードは1種類のモーダルにおける上記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である。
選択肢として、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築することに用いられ、セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数であり、
特徴抽出モジュール502は、上記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられ、選択肢として、第1ワードベクトル層によりセマンティック関連図から第1ワードベクトルを抽出し、
ベクトル符号化モジュール503は、上記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、選択肢として、マルチモーダル融合エンコーダにより第1ワードベクトルを符号化して、符号化特徴ベクトルを取得し、
ベクトル復号モジュール504は、上記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられ、選択肢として、デコーダを呼び出して符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。
いくつかの選択可能な実施例において、セマンティック関連付けモジュール501は、n組のセマンティックノードを獲得することであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか2つの上記セマンティックノードの間に上記第1結合辺を追加し、異なるモーダルのいずれか2つの上記セマンティックノードの間に上記第2結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により各々のモーダルのソース言語からセマンティックノードを抽出して、n個のモーダルのソース言語に対応するn組のセマンティックノードを取得することと、マルチモーダルグラフ表現層により第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することと、に用いられる。
いくつかの選択可能な実施例において、n個のモーダルのソース言語にはテキスト形式の第1ソース言語及び非テキスト形式の第2ソース言語が含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
セマンティック関連付けモジュール501は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードはマルチモーダルグラフ表現層が上記第1ソースステートメントを処理することにより取得される、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードはマルチモーダルグラフ表現層が上記第2ソースステートメントを処理することにより取得される、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記マルチモーダルグラフ表現層が上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものである、ことと、に用いられる。
選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソース言語から候補セマンティックノードを抽出することと、マルチモーダルグラフ表現層を呼び出して第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算することと、マルチモーダルグラフ表現層を呼び出して第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定することと、に用いられる。
いくつかの選択可能な実施例において、セマンティック関連付けモジュール501は、第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加することに用いられ、上記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である。
選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、iはn以下の正の整数である。
いくつかの選択可能な実施例において、ベクトル符号化モジュール503は、上記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、上記n個の符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指し、ここで、eは正の整数である。
選択肢として、マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、eは正の整数であり、
ベクトル符号化モジュール503は、直列接続されているe個の符号化モジュールにより第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指す。
いくつかの選択可能な実施例において、各々の符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
ベクトル符号化モジュール503は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行ってn個の第1隠れ層ベクトルを取得することであって、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得する、ことと、
n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行ってn個の第1中間ベクトルを取得することであって、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得する、ことと、
n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、これを最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることであって、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である、ことと、に用いられる。
いくつかの選択可能な実施例において、各々の符号化モジュールは更にn個の第1ベクトル変換層を含み、上記1つのベクトル変換層が1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1ベクトル変換層であり、
ベクトル符号化モジュール503は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
いくつかの選択可能な実施例において、直列接続されているe個の符号化モジュールのうちの各々の符号化モジュールにおける階層構造は同じである。
いくつかの選択可能な実施例において、異なるモーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なるモーダル間融合層に異なる又は同じ特徴融合関数が設定される。
いくつかの選択可能な実施例において、ベクトル復号モジュール504は、第1目標語句に対して特徴抽出を行って第2ワードベクトルを取得することであって、上記第1目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第2ワードベクトルを上記符号化特徴ベクトルと組み合わせて特徴抽出を行って復号特徴ベクトルを取得することと、上記復号特徴ベクトルに対応する確率分布を決定し、且つ上記確率分布に基づき上記第1目標語句の後の第2目標語句を決定することと、に用いられる。
選択肢として、デコーダは直列接続されているd個の復号モジュールを含み、dは正の整数であり、
ベクトル復号モジュール504は、第2ワードベクトル層により第1目標語句を獲得することであって、第1目標語句が目標ステートメントにおける翻訳済み語句である、ことと、第2ワードベクトル層により第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、
直列接続されているd個の復号モジュールにより第2ワードベクトルを符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することと、復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することと、に用いられる。
いくつかの選択可能な実施例において、直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも第1自己注意層及び第2自己注意層を含み、
ベクトル復号モジュール504は、第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、第1自己注意層により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することと、
第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュールにおける第2自己注意層に入力し、第2自己注意層により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することと、
第2中間ベクトルを第k番目の復号モジュールに入力してk回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることであって、kは1よりも大きく且つd以下の正の整数である、ことと、に用いられる。
いくつかの選択可能な実施例において、各々の復号モジュールは更に第2ベクトル変換層を含み、
ベクトル復号モジュール504は更に、第2中間ベクトルを第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳装置は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
図12に参照されるように、本願の1つの実施例が提供するサーバの構造模式図を示す。該サーバは上記実施例において提供するマルチモーダル機械学習に基づく翻訳方法のステップを実施することに用いられる。具体的には、
上記サーバ600はCPU(Central Processing Unit、中央処理装置)601と、RAM(Random Access Memory、ランダムアクセスメモリ)602及びROM(Read-Only Memory、読み出し専用メモリ)603を含むシステムメモリ604と、システムメモリ604と中央処理ユニット601とを結合するシステムバス605と、を含む。上記サーバ600はコンピュータ内の各デバイスの間で情報を伝送することを支援する基本I/O(Input /Output、入力/出力)システム606と、オペレーティングシステム613、アプリケーションプログラム614及び他のプログラムモジュール615を記憶することに用いられる大容量記憶機器607とを更に含む。
上記基本入力/出力システム606は情報を表示することに用いられるディスプレイ608と、ユーザーが情報を入力することに用いられる例えばマウス、キーボード等のような入力機器609とを含む。ここで上記ディスプレイ608及び入力機器609はいずれもシステムバス605に結合される入力出力コントローラ610により中央処理ユニット601に結合される。上記基本入力/出力システム606は更に入力出力コントローラ610を含んでもよく、それによりキーボード、マウス又は電子スタイラス等の複数の他の機器からの入力を受信及び処理することに用いられる。同様に、入力出力コントローラ610は更にディスプレイスクリーン、プリンタ又は他のタイプの出力機器に出力を提供する。
上記大容量記憶機器607はシステムバス605に結合される大容量記憶コントローラ(図示せず)により中央処理ユニット601に結合される。上記大容量記憶機器607及びその関連するコンピュータ可読媒体はサーバ600に不揮発性記憶を提供する。言い換えれば、上記大容量記憶機器607は例えばハードディスク又はCD-ROM(Compact Disc Read-Only Memory、コンパクトディスクリードオンリーメモリ)ドライバ等のようなコンピュータ可読媒体(図示せず)を含んでもよい。
一般性を失うことなく、上記コンピュータ可読媒体はコンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は例えばコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶することに用いられるいかなる方法又は技術により実現される揮発性及び不揮発性、移動可能及び移動不可能媒体を含む。コンピュータ記憶媒体はRAM、ROM、EPROM(Erasable Programmable Read-Only Memory、消去可能プログラマブル読み出し専用メモリ)、EEPROM(Electrically Erasable Programmable Read-Only Memory、電気的消去可能プログラマブル読み出し専用メモリ)、フラッシュメモリ(Flash Memory)若しくは他のソリッドステートメモリ技術、CD-ROM、DVD(Digital Versatile Disc、デジタル多用途ディスク)若しくは他の光学記憶、テープカセット、磁気テープ、磁気ディスク記憶若しくは他の磁気記憶機器を含む。当然ながら、当業者であれば明らかなように、上記コンピュータ記憶媒体は上記幾つか種類に限定されるものではない。上記システムメモリ604及び大容量記憶機器607はメモリと総称されてもよい。
本願の各種の実施例に基づき、上記サーバ600は更に例えばインターネット等のネットワーク経由でネットワークにおけるリモートコンピュータに結合して動作することができる。即ち、サーバ600は上記システムバス605に結合されるネットワークインターフェースユニット611によりネットワーク612に結合されてもよく、又は、ネットワークインターフェースユニット611を使用して他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に結合されてもよい。
例示的な実施例において、コンピュータ可読記憶媒体を含むもの、例えば、命令を含むメモリ602を更に提供し、上記命令はサーバ600のプロセッサ601により実行されることで上記マルチモーダル機械学習に基づく翻訳方法を完了することができる。選択肢として、コンピュータ可読記憶媒体は非一時的記憶媒体であってもよく、例えば、上記非一時的記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク及び光データ記憶機器等であってもよい。
例示的な実施例において、コンピュータプログラム製品を更に提供し、これはコンピュータプログラムを含み、該コンピュータプログラムは電子機器のプロセッサにより実行されてもよく、それにより上記マルチモーダル機械学習に基づく翻訳方法を実現する。
当業者であれば理解できるように、上記実施例を実現する全部又は一部のステップはハードウェアにより完了してもよく、プログラムが関連するハードウェアに命令を出すことにより完了してもよく、上記プログラムは一種のコンピュータ可読記憶媒体に記憶されてもよく、上記言及した記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。
以上の説明は単に本願の選択可能な実施例に過ぎず、本願を制限するためのものではない。本願の趣旨及び原則内において行われたいかなる修正、均等物への置換又は改良等は、いずれも本願の保護範囲内に含まれるべきである。
11 モーダル内融合層
12 モーダル間融合層
13 第1ベクトル変換層
21 第1自己注意層
22 第2自己注意層
23 第2ベクトル変換層
31 翻訳対象画像
32 翻訳対象ステートメント
100 マルチモーダル機械翻訳モデル
101 マルチモーダルグラフ表現層
102 第1ワードベクトル層
103 マルチモーダル融合エンコーダ
104 デコーダ
105 第2ワードベクトル層
106 分類器
220 端末
240 サーバ
502 特徴抽出モジュール
503 ベクトル符号化モジュール
504 ベクトル復号モジュール
600 サーバ
601 中央処理ユニット
601 プロセッサ
602 メモリ
604 システムメモリ
605 システムバス
606 出力システム
607 大容量記憶機器
608 ディスプレイ
609 入力機器
610 入力出力コントローラ
611 ネットワークインターフェースユニット
612 ネットワーク
613 オペレーティングシステム
614 アプリケーションプログラム
615 プログラムモジュール
1031 符号化モジュール
1042 復号モジュール

Claims (15)

  1. コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法であって、前記方法は、
    異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得するステップであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含むものであり、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
    前記セマンティック関連図から複数の第1ワードベクトルを抽出するステップと、
    前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
    n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む、マルチモーダル機械学習に基づく翻訳方法。
  2. 異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得する前記ステップは、
    n組のセマンティックノードを獲得するステップであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ステップと、
    同一モーダルのいずれか2つの前記セマンティックノードの間に前記第1結合辺を追加し、異なるモーダルのいずれか2つの前記セマンティックノードの間に前記第2結合辺を追加して、前記セマンティック関連図を取得するステップと、を含む、請求項1に記載の方法。
  3. n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
    n組のセマンティックノードを獲得する前記ステップは、
    前記第1セマンティックノードを獲得するステップであって、前記第1セマンティックノードはマルチモーダルグラフ表現層が前記第1ソースステートメントを処理することにより取得される、ステップと、
    候補セマンティックノードを獲得するステップであって、前記候補セマンティックノードはマルチモーダルグラフ表現層が前記第2ソースステートメントを処理することにより取得される、ステップと、
    前記候補セマンティックノードの第1確率分布を獲得するステップであって、前記第1確率分布は前記マルチモーダルグラフ表現層が前記第1セマンティックノードと前記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ステップと、
    前記候補セマンティックノードから前記第2セマンティックノードを決定するステップであって、前記第2セマンティックノードは前記マルチモーダルグラフ表現層が前記第1確率分布に基づき決定したものである、ステップと、を含む、請求項2に記載の方法。
  4. 同一モーダルのいずれか2つの前記セマンティックノードの間に前記第1結合辺を追加する前記ステップは、
    第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加するステップであって、前記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である、ステップを含む、請求項2に記載の方法。
  5. 前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得する前記ステップは、
    前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得するステップであって、前記モーダル内融合とは同一モーダル内の前記第1ワードベクトルの間でセマンティック融合を行うことを指し、前記モーダル間融合とは異なるモーダルの前記第1ワードベクトルの間でセマンティック融合を行うことを指し、eは正の整数である、ステップを含む、請求項1~4のいずれか一項に記載の方法。
  6. マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、
    各々の前記符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
    前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する前記ステップは、
    前記複数の第1ワードベクトルをそれぞれ1番目の前記符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ前記複数の第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得するステップであって、1つの前記第1隠れ層ベクトルが1つのモーダルに対応する、ステップと、
    n個の第1隠れ層ベクトルを前記1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、前記各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得するステップであって、1つの前記第1中間ベクトルが1つのモーダルに対応する、ステップと、
    n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けるステップであって、1つの前記符号化特徴ベクトルが1つのモーダルに対応し、jは1よりも大きく且つe以下の正の整数である、ステップと、を含む、請求項5に記載の方法。
  7. 前記各々の符号化モジュールは更にn個の第1ベクトル変換層を含み、1つの前記第1ベクトル変換層が1つのモーダルに対応し、
    前記方法は更に、
    n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得するステップを含む、請求項6に記載の方法。
  8. 前記直列接続されているe個の符号化モジュールのうちの前記各々の符号化モジュールにおける階層構造は同じである、請求項6に記載の方法。
  9. 異なる前記モーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なる前記モーダル間融合層に異なる又は同じ特徴融合関数が設定される、請求項6に記載の方法。
  10. n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得する前記ステップは、
    第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得するステップであって、前記第1目標語句が前記目標ステートメントにおける翻訳済み語句である、ステップと、
    前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得するステップと、
    前記復号特徴ベクトルに対応する確率分布を決定し、且つ前記確率分布に基づき前記第1目標語句の後の第2目標語句を決定するステップと、を含む、請求項1~4のいずれか一項に記載の方法。
  11. デコーダは直列接続されているd個の復号モジュールを含み、dは正の整数であり、前記直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも第1自己注意層及び第2自己注意層を含み、
    前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する前記ステップは、
    前記第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、前記第1自己注意層により前記第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得するステップと、
    前記第2隠れ層ベクトル及び前記符号化特徴ベクトルを前記1番目の復号モジュールにおける第2自己注意層に入力し、前記第2自己注意層により前記第2隠れ層ベクトルと前記符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得するステップと、
    前記第2中間ベクトルを第k番目の復号モジュールに入力して第k回目の復号処理を行い、最後の1つの復号モジュールが前記復号特徴ベクトルを出力するまで続けるステップであって、kは1よりも大きく且つd以下の正の整数である、ステップと、を含む、請求項10に記載の方法。
  12. 前記各々の復号モジュールは更に第2ベクトル変換層を含み、
    前記方法は更に、
    前記第2中間ベクトルを前記第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得するステップを含む、請求項11に記載の方法。
  13. マルチモーダル機械学習に基づく翻訳装置であって、前記装置は、
    異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
    前記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
    前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
    前記符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む、マルチモーダル機械学習に基づく翻訳装置。
  14. コンピュータ機器であって、前記コンピュータ機器は、
    メモリと、
    前記メモリに接続されるプロセッサと、を含み、
    前記プロセッサは実行可能命令をロードし且つ実行することにより請求項1~12のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される、コンピュータ機器。
  15. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体に少なくとも1セグメントのプログラムが記憶され、前記少なくとも1セグメントのプログラムはプロセッサによりロードされ且つ実行されることにより請求項1~12のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現する、コンピュータ可読記憶媒体。
JP2022540553A 2020-05-20 2021-04-29 マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム Pending JP2023509031A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010432597.2A CN111597830A (zh) 2020-05-20 2020-05-20 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN202010432597.2 2020-05-20
PCT/CN2021/091114 WO2021233112A1 (zh) 2020-05-20 2021-04-29 基于多模态机器学习的翻译方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023509031A true JP2023509031A (ja) 2023-03-06

Family

ID=72187523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022540553A Pending JP2023509031A (ja) 2020-05-20 2021-04-29 マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220245365A1 (ja)
JP (1) JP2023509031A (ja)
CN (1) CN111597830A (ja)
WO (1) WO2021233112A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597830A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN112015955B (zh) * 2020-09-01 2021-07-30 清华大学 一种多模态数据关联方法和装置
CN112418450A (zh) * 2020-10-30 2021-02-26 济南浪潮高新科技投资发展有限公司 一种基于多模态机器学习的设备预测性维护的方法
CN113569584B (zh) * 2021-01-25 2024-06-14 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备及计算机可读存储介质
CN112800782B (zh) * 2021-01-29 2023-10-03 中国科学院自动化研究所 融合文本语义特征的语音翻译方法、系统、设备
CN112989977B (zh) * 2021-03-03 2022-09-06 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN112800785B (zh) * 2021-04-13 2021-07-27 中国科学院自动化研究所 多模态机器翻译方法、装置、电子设备和存储介质
CN113052257B (zh) * 2021-04-13 2024-04-16 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
EP4113285A1 (en) 2021-06-29 2023-01-04 Tata Consultancy Services Limited Method and system for translation of codes based on semantic similarity
CN113469094B (zh) * 2021-07-13 2023-12-26 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113515960B (zh) * 2021-07-14 2024-04-02 厦门大学 一种融合句法信息的翻译质量自动评估方法
CN114118111B (zh) * 2021-11-26 2024-05-24 昆明理工大学 融合文本和图片特征的多模态机器翻译方法
CN114139637B (zh) * 2021-12-03 2022-11-04 哈尔滨工业大学(深圳) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN115130435B (zh) * 2022-06-27 2023-08-11 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
CN115080766B (zh) * 2022-08-16 2022-12-06 之江实验室 基于预训练模型的多模态知识图谱表征系统及方法
CN115759199B (zh) * 2022-11-21 2023-09-26 山东大学 基于层次化图神经网络的多机器人环境探索方法及系统
CN115994177B (zh) * 2023-03-23 2023-06-02 山东文衡科技股份有限公司 基于数据湖的知识产权管理方法及其系统
CN116089619B (zh) * 2023-04-06 2023-06-06 华南师范大学 情感分类方法、装置、设备以及存储介质
CN116151263B (zh) * 2023-04-24 2023-06-30 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116934754B (zh) * 2023-09-18 2023-12-01 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN117113281B (zh) * 2023-10-20 2024-01-26 光轮智能(北京)科技有限公司 多模态数据的处理方法、设备、智能体和介质
CN117474019B (zh) * 2023-12-27 2024-05-24 天津大学 一种视觉引导的目标端未来语境翻译方法
CN117809150B (zh) * 2024-02-27 2024-04-30 广东工业大学 基于跨模态注意力机制的多模态错误信息检测方法及系统
CN118035435B (zh) * 2024-04-15 2024-06-11 南京信息工程大学 一种新闻摘要生成方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123358A1 (en) * 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US20140236570A1 (en) * 2013-02-18 2014-08-21 Microsoft Corporation Exploiting the semantic web for unsupervised spoken language understanding
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355481A (ja) * 2003-05-30 2004-12-16 Konica Minolta Medical & Graphic Inc 医用画像処理装置
CN102262624A (zh) * 2011-08-08 2011-11-30 中国科学院自动化研究所 基于多模态辅助的实现跨语言沟通系统及方法
US9400848B2 (en) * 2012-09-26 2016-07-26 Google Inc. Techniques for context-based grouping of messages for translation
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
KR102357322B1 (ko) * 2016-05-06 2022-02-08 이베이 인크. 인공신경망 기계 번역시 메타 정보를 이용하는 기법
CN106980664B (zh) * 2017-03-21 2020-11-10 苏州大学 一种双语可比较语料挖掘方法及装置
CN108647705B (zh) * 2018-04-23 2019-04-05 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置
CN110489761B (zh) * 2018-05-15 2021-02-02 科大讯飞股份有限公司 一种篇章级文本翻译方法及装置
US11138392B2 (en) * 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models
US20200242146A1 (en) * 2019-01-24 2020-07-30 Andrew R. Kalukin Artificial intelligence system for generating conjectures and comprehending text, audio, and visual data using natural language understanding
CN110245364B (zh) * 2019-06-24 2022-10-28 中国科学技术大学 零平行语料多模态神经机器翻译方法
CN110457718B (zh) * 2019-08-21 2020-11-24 腾讯科技(深圳)有限公司 一种文本生成方法、装置、计算机设备及存储介质
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
CN111597830A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060123358A1 (en) * 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US20140236570A1 (en) * 2013-02-18 2014-08-21 Microsoft Corporation Exploiting the semantic web for unsupervised spoken language understanding
US20180314689A1 (en) * 2015-12-22 2018-11-01 Sri International Multi-lingual virtual personal assistant
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents

Also Published As

Publication number Publication date
US20220245365A1 (en) 2022-08-04
WO2021233112A1 (zh) 2021-11-25
CN111597830A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
Torfi et al. Natural language processing advancements by deep learning: A survey
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN111444709B (zh) 文本分类方法、装置、存储介质及设备
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
EP3399460A1 (en) Captioning a region of an image
US11769018B2 (en) System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
US11900518B2 (en) Interactive systems and methods
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN114339450B (zh) 视频评论生成方法、系统、设备及存储介质
CN115329779A (zh) 一种多人对话情感识别方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN116432019A (zh) 一种数据处理方法及相关设备
Manshu et al. CCHAN: An end to end model for cross domain sentiment classification
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN112668347B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240619