JP2023509031A - マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム - Google Patents
マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023509031A JP2023509031A JP2022540553A JP2022540553A JP2023509031A JP 2023509031 A JP2023509031 A JP 2023509031A JP 2022540553 A JP2022540553 A JP 2022540553A JP 2022540553 A JP2022540553 A JP 2022540553A JP 2023509031 A JP2023509031 A JP 2023509031A
- Authority
- JP
- Japan
- Prior art keywords
- semantic
- modal
- vector
- fusion
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000013519 translation Methods 0.000 title claims abstract description 82
- 238000010801 machine learning Methods 0.000 title claims abstract description 40
- 238000004590 computer program Methods 0.000 title description 6
- 239000013598 vector Substances 0.000 claims abstract description 358
- 230000004927 fusion Effects 0.000 claims abstract description 163
- 238000010586 diagram Methods 0.000 claims abstract description 71
- 230000006870 function Effects 0.000 claims description 55
- 238000000605 extraction Methods 0.000 claims description 42
- 230000009466 transformation Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000008451 emotion Effects 0.000 abstract description 7
- 239000010410 layer Substances 0.000 description 205
- 230000000007 visual effect Effects 0.000 description 42
- 238000005516 engineering process Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000001323 posttranslational effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
Description
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築するステップであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出するステップと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む。
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む。
メモリと、
メモリに接続されるプロセッサと、を含み、
プロセッサは実行可能命令をロードし且つ実行することにより上記1つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される。
マルチモーダルグラフ表現層101は、n個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得することに用いられる。該セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数である。ここで、1つのセマンティックノードは1種類のモーダルにおけるソースステートメントの1つのセマンティックユニットを示すことに用いられる。英語を例とすると、1つのセマンティックノードは1つの単語に対応し、中国語を例とすると、1つのセマンティックノードは1つの漢字に対応する。
マルチモーダル融合エンコーダ103は、該複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、
デコーダ104は、n個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得することに用いられる。
マルチモーダルグラフ表現層101は、第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することに用いられる。
マルチモーダルグラフ表現層101は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードは上記第1ソースステートメントを処理して取得したものである、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードは上記第2ソースステートメントを処理して取得したものである、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算して取得したものである、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものであることと、に用いられる。
1番目の符号化モジュール1031は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層11に入力し、n個のモーダル内融合層11によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得することに用いられ、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得し、
1番目の符号化モジュール1031は、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層12に入力し、各々のモーダル間融合層12により上記n個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得することに用いられ、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得し、
第j番目の符号化モジュール1031は、n個の第1中間ベクトルに対してj回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることに用いられ、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である。
符号化モジュール1031は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層13に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
第2ワードベクトル層105は、第1目標語句を獲得することであって、第1目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、に用いられ、
デコーダ104は、直列接続されているd個の復号モジュール1042により第2ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することに用いられ、
分類器106は、復号特徴ベクトルに対応する確率分布を決定し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することに用いられる。
1番目の復号モジュール1042は、第2ワードベクトルを1番目の復号モジュール1042における第1自己注意層21に入力し、第1自己注意層21により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することに用いられ、
1番目の復号モジュール1042は、第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュール1042における第2自己注意層22に入力し、第2自己注意層22により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することに用いられ、
第k番目の復号モジュールは、第2中間ベクトルを第k番目の復号モジュール1042に入力して第k回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることに用いられ、kは1よりも大きく且つd以下の正の整数である。
復号モジュール1042は、第2中間ベクトルを第2ベクトル変換層23に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
非テキスト形式の第2ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第2ソースステートメントからm個の語句のうちの少なくとも1つの語句のセマンティックに対応する目標を抽出し、該目標が第2ソースステートメントにおける第2セマンティックノードである。
ニューラルネットワークモデルによりワード埋め込みを行うこと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うこと、
確率モデルによりワード埋め込みを行うこと、及び
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うこと、の4種類のうちの少なくとも1種類を含む。
ステップ3031:コンピュータ機器は直列接続されているe個の符号化モジュールにより複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する。
[数2]であり、
ここで、[数3]はテキストステートメントに対応する第1ワードベクトル又は(j-1)番目の符号化モジュールが出力する第1中間ベクトルを指し、xはテキストステートメントのセマンティックノード、及びテキストステートメントのセマンティックノードにより計算して取得されたベクトルをマークすることに用いられ、MultiHead(Q,K,V)は多重注意メカニズムモデリング関数であり、トリプレット(Queries,Key,Values)を入力とし、Qがクエリ行列であり、Kがキー行列であり、Vが値行列であり、ここで、Q、K及びVが[数4]及びパラメータベクトルから計算して取得したものである。
[数6]であり、
[数9]、
[数10]であり、
[数20]、
[数21]であり、
(1)テキスト情報を十分に利用するために、テキストにおけるすべての単語を個別のテキストノードとする。例えば、図4においてマルチモーダルグラフは合計8つのテキストノードを含み、個々のテキストノードが入力ステートメント(即ち翻訳対象ステートメント)における1つの単語に対応する。(2)スタンフォードパーサ(Stanford parser)を使用して入力ステートメントにおけるすべての名詞フレーズを識別し、次に視覚グラウンディングツールキットを応用して個々の名詞フレーズの入力画像(即ち翻訳対象画像)における対応する境界ボックス(視覚オブジェクト)を識別する。その後、検出されたすべての視覚オブジェクトはいずれも独立した視覚ノードとされる。例えば、図4においてテキストノードVx1及びVx2は視覚ノードVo1及びVo2に対応し、テキストノードVx6、Vx7及びVx8は視覚ノードVo3に対応する。
[数28]であり、
[数30]である。
[数32]、
[数33]であり、
[数38]、
[数39]であり、
[数45]、
[数46]であり、
[数48]、
[数49]であり、
[数51]であり、
[数53]であり、
特徴抽出モジュール502は、上記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられ、選択肢として、第1ワードベクトル層によりセマンティック関連図から第1ワードベクトルを抽出し、
ベクトル符号化モジュール503は、上記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、選択肢として、マルチモーダル融合エンコーダにより第1ワードベクトルを符号化して、符号化特徴ベクトルを取得し、
ベクトル復号モジュール504は、上記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられ、選択肢として、デコーダを呼び出して符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。
セマンティック関連付けモジュール501は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードはマルチモーダルグラフ表現層が上記第1ソースステートメントを処理することにより取得される、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードはマルチモーダルグラフ表現層が上記第2ソースステートメントを処理することにより取得される、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記マルチモーダルグラフ表現層が上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものである、ことと、に用いられる。
ベクトル符号化モジュール503は、直列接続されているe個の符号化モジュールにより第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指す。
いくつかの選択可能な実施例において、各々の符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
ベクトル符号化モジュール503は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行ってn個の第1隠れ層ベクトルを取得することであって、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得する、ことと、
n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行ってn個の第1中間ベクトルを取得することであって、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得する、ことと、
n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、これを最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることであって、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である、ことと、に用いられる。
ベクトル符号化モジュール503は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
ベクトル復号モジュール504は、第2ワードベクトル層により第1目標語句を獲得することであって、第1目標語句が目標ステートメントにおける翻訳済み語句である、ことと、第2ワードベクトル層により第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、
直列接続されているd個の復号モジュールにより第2ワードベクトルを符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することと、復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することと、に用いられる。
ベクトル復号モジュール504は、第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、第1自己注意層により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することと、
第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュールにおける第2自己注意層に入力し、第2自己注意層により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することと、
第2中間ベクトルを第k番目の復号モジュールに入力してk回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることであって、kは1よりも大きく且つd以下の正の整数である、ことと、に用いられる。
ベクトル復号モジュール504は更に、第2中間ベクトルを第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
上記サーバ600はCPU(Central Processing Unit、中央処理装置)601と、RAM(Random Access Memory、ランダムアクセスメモリ)602及びROM(Read-Only Memory、読み出し専用メモリ)603を含むシステムメモリ604と、システムメモリ604と中央処理ユニット601とを結合するシステムバス605と、を含む。上記サーバ600はコンピュータ内の各デバイスの間で情報を伝送することを支援する基本I/O(Input /Output、入力/出力)システム606と、オペレーティングシステム613、アプリケーションプログラム614及び他のプログラムモジュール615を記憶することに用いられる大容量記憶機器607とを更に含む。
12 モーダル間融合層
13 第1ベクトル変換層
21 第1自己注意層
22 第2自己注意層
23 第2ベクトル変換層
31 翻訳対象画像
32 翻訳対象ステートメント
100 マルチモーダル機械翻訳モデル
101 マルチモーダルグラフ表現層
102 第1ワードベクトル層
103 マルチモーダル融合エンコーダ
104 デコーダ
105 第2ワードベクトル層
106 分類器
220 端末
240 サーバ
502 特徴抽出モジュール
503 ベクトル符号化モジュール
504 ベクトル復号モジュール
600 サーバ
601 中央処理ユニット
601 プロセッサ
602 メモリ
604 システムメモリ
605 システムバス
606 出力システム
607 大容量記憶機器
608 ディスプレイ
609 入力機器
610 入力出力コントローラ
611 ネットワークインターフェースユニット
612 ネットワーク
613 オペレーティングシステム
614 アプリケーションプログラム
615 プログラムモジュール
1031 符号化モジュール
1042 復号モジュール
Claims (15)
- コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法であって、前記方法は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得するステップであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含むものであり、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出するステップと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む、マルチモーダル機械学習に基づく翻訳方法。 - 異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得する前記ステップは、
n組のセマンティックノードを獲得するステップであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ステップと、
同一モーダルのいずれか2つの前記セマンティックノードの間に前記第1結合辺を追加し、異なるモーダルのいずれか2つの前記セマンティックノードの間に前記第2結合辺を追加して、前記セマンティック関連図を取得するステップと、を含む、請求項1に記載の方法。 - n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
n組のセマンティックノードを獲得する前記ステップは、
前記第1セマンティックノードを獲得するステップであって、前記第1セマンティックノードはマルチモーダルグラフ表現層が前記第1ソースステートメントを処理することにより取得される、ステップと、
候補セマンティックノードを獲得するステップであって、前記候補セマンティックノードはマルチモーダルグラフ表現層が前記第2ソースステートメントを処理することにより取得される、ステップと、
前記候補セマンティックノードの第1確率分布を獲得するステップであって、前記第1確率分布は前記マルチモーダルグラフ表現層が前記第1セマンティックノードと前記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ステップと、
前記候補セマンティックノードから前記第2セマンティックノードを決定するステップであって、前記第2セマンティックノードは前記マルチモーダルグラフ表現層が前記第1確率分布に基づき決定したものである、ステップと、を含む、請求項2に記載の方法。 - 同一モーダルのいずれか2つの前記セマンティックノードの間に前記第1結合辺を追加する前記ステップは、
第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加するステップであって、前記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である、ステップを含む、請求項2に記載の方法。 - 前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得するステップであって、前記モーダル内融合とは同一モーダル内の前記第1ワードベクトルの間でセマンティック融合を行うことを指し、前記モーダル間融合とは異なるモーダルの前記第1ワードベクトルの間でセマンティック融合を行うことを指し、eは正の整数である、ステップを含む、請求項1~4のいずれか一項に記載の方法。 - マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、
各々の前記符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第1ワードベクトルをそれぞれ1番目の前記符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ前記複数の第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得するステップであって、1つの前記第1隠れ層ベクトルが1つのモーダルに対応する、ステップと、
n個の第1隠れ層ベクトルを前記1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、前記各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得するステップであって、1つの前記第1中間ベクトルが1つのモーダルに対応する、ステップと、
n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けるステップであって、1つの前記符号化特徴ベクトルが1つのモーダルに対応し、jは1よりも大きく且つe以下の正の整数である、ステップと、を含む、請求項5に記載の方法。 - 前記各々の符号化モジュールは更にn個の第1ベクトル変換層を含み、1つの前記第1ベクトル変換層が1つのモーダルに対応し、
前記方法は更に、
n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得するステップを含む、請求項6に記載の方法。 - 前記直列接続されているe個の符号化モジュールのうちの前記各々の符号化モジュールにおける階層構造は同じである、請求項6に記載の方法。
- 異なる前記モーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なる前記モーダル間融合層に異なる又は同じ特徴融合関数が設定される、請求項6に記載の方法。
- n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得する前記ステップは、
第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得するステップであって、前記第1目標語句が前記目標ステートメントにおける翻訳済み語句である、ステップと、
前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得するステップと、
前記復号特徴ベクトルに対応する確率分布を決定し、且つ前記確率分布に基づき前記第1目標語句の後の第2目標語句を決定するステップと、を含む、請求項1~4のいずれか一項に記載の方法。 - デコーダは直列接続されているd個の復号モジュールを含み、dは正の整数であり、前記直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも第1自己注意層及び第2自己注意層を含み、
前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する前記ステップは、
前記第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、前記第1自己注意層により前記第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得するステップと、
前記第2隠れ層ベクトル及び前記符号化特徴ベクトルを前記1番目の復号モジュールにおける第2自己注意層に入力し、前記第2自己注意層により前記第2隠れ層ベクトルと前記符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得するステップと、
前記第2中間ベクトルを第k番目の復号モジュールに入力して第k回目の復号処理を行い、最後の1つの復号モジュールが前記復号特徴ベクトルを出力するまで続けるステップであって、kは1よりも大きく且つd以下の正の整数である、ステップと、を含む、請求項10に記載の方法。 - 前記各々の復号モジュールは更に第2ベクトル変換層を含み、
前記方法は更に、
前記第2中間ベクトルを前記第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得するステップを含む、請求項11に記載の方法。 - マルチモーダル機械学習に基づく翻訳装置であって、前記装置は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む、マルチモーダル機械学習に基づく翻訳装置。 - コンピュータ機器であって、前記コンピュータ機器は、
メモリと、
前記メモリに接続されるプロセッサと、を含み、
前記プロセッサは実行可能命令をロードし且つ実行することにより請求項1~12のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される、コンピュータ機器。 - コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体に少なくとも1セグメントのプログラムが記憶され、前記少なくとも1セグメントのプログラムはプロセッサによりロードされ且つ実行されることにより請求項1~12のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現する、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432597.2A CN111597830A (zh) | 2020-05-20 | 2020-05-20 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
CN202010432597.2 | 2020-05-20 | ||
PCT/CN2021/091114 WO2021233112A1 (zh) | 2020-05-20 | 2021-04-29 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023509031A true JP2023509031A (ja) | 2023-03-06 |
Family
ID=72187523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022540553A Pending JP2023509031A (ja) | 2020-05-20 | 2021-04-29 | マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220245365A1 (ja) |
JP (1) | JP2023509031A (ja) |
CN (1) | CN111597830A (ja) |
WO (1) | WO2021233112A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597830A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
CN112015955B (zh) * | 2020-09-01 | 2021-07-30 | 清华大学 | 一种多模态数据关联方法和装置 |
CN112418450A (zh) * | 2020-10-30 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 一种基于多模态机器学习的设备预测性维护的方法 |
CN113569584B (zh) * | 2021-01-25 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、电子设备及计算机可读存储介质 |
CN112800782B (zh) * | 2021-01-29 | 2023-10-03 | 中国科学院自动化研究所 | 融合文本语义特征的语音翻译方法、系统、设备 |
CN112989977B (zh) * | 2021-03-03 | 2022-09-06 | 复旦大学 | 一种基于跨模态注意力机制的视听事件定位方法及装置 |
CN112800785B (zh) * | 2021-04-13 | 2021-07-27 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN113052257B (zh) * | 2021-04-13 | 2024-04-16 | 中国电子科技集团公司信息科学研究院 | 一种基于视觉转换器的深度强化学习方法及装置 |
EP4113285A1 (en) | 2021-06-29 | 2023-01-04 | Tata Consultancy Services Limited | Method and system for translation of codes based on semantic similarity |
CN113469094B (zh) * | 2021-07-13 | 2023-12-26 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113515960B (zh) * | 2021-07-14 | 2024-04-02 | 厦门大学 | 一种融合句法信息的翻译质量自动评估方法 |
CN114118111B (zh) * | 2021-11-26 | 2024-05-24 | 昆明理工大学 | 融合文本和图片特征的多模态机器翻译方法 |
CN114139637B (zh) * | 2021-12-03 | 2022-11-04 | 哈尔滨工业大学(深圳) | 多智能体信息融合方法、装置、电子设备及可读存储介质 |
CN115130435B (zh) * | 2022-06-27 | 2023-08-11 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN115080766B (zh) * | 2022-08-16 | 2022-12-06 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
CN115759199B (zh) * | 2022-11-21 | 2023-09-26 | 山东大学 | 基于层次化图神经网络的多机器人环境探索方法及系统 |
CN115994177B (zh) * | 2023-03-23 | 2023-06-02 | 山东文衡科技股份有限公司 | 基于数据湖的知识产权管理方法及其系统 |
CN116089619B (zh) * | 2023-04-06 | 2023-06-06 | 华南师范大学 | 情感分类方法、装置、设备以及存储介质 |
CN116151263B (zh) * | 2023-04-24 | 2023-06-30 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
CN116934754B (zh) * | 2023-09-18 | 2023-12-01 | 四川大学华西第二医院 | 基于图神经网络的肝脏影像识别方法及装置 |
CN117113281B (zh) * | 2023-10-20 | 2024-01-26 | 光轮智能(北京)科技有限公司 | 多模态数据的处理方法、设备、智能体和介质 |
CN117474019B (zh) * | 2023-12-27 | 2024-05-24 | 天津大学 | 一种视觉引导的目标端未来语境翻译方法 |
CN117809150B (zh) * | 2024-02-27 | 2024-04-30 | 广东工业大学 | 基于跨模态注意力机制的多模态错误信息检测方法及系统 |
CN118035435B (zh) * | 2024-04-15 | 2024-06-11 | 南京信息工程大学 | 一种新闻摘要生成方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060123358A1 (en) * | 2004-12-03 | 2006-06-08 | Lee Hang S | Method and system for generating input grammars for multi-modal dialog systems |
US20140236570A1 (en) * | 2013-02-18 | 2014-08-21 | Microsoft Corporation | Exploiting the semantic web for unsupervised spoken language understanding |
US20180314689A1 (en) * | 2015-12-22 | 2018-11-01 | Sri International | Multi-lingual virtual personal assistant |
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355481A (ja) * | 2003-05-30 | 2004-12-16 | Konica Minolta Medical & Graphic Inc | 医用画像処理装置 |
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通系统及方法 |
US9400848B2 (en) * | 2012-09-26 | 2016-07-26 | Google Inc. | Techniques for context-based grouping of messages for translation |
US11397462B2 (en) * | 2012-09-28 | 2022-07-26 | Sri International | Real-time human-machine collaboration using big data driven augmented reality technologies |
KR102357322B1 (ko) * | 2016-05-06 | 2022-02-08 | 이베이 인크. | 인공신경망 기계 번역시 메타 정보를 이용하는 기법 |
CN106980664B (zh) * | 2017-03-21 | 2020-11-10 | 苏州大学 | 一种双语可比较语料挖掘方法及装置 |
CN108647705B (zh) * | 2018-04-23 | 2019-04-05 | 北京交通大学 | 基于图像和文本语义相似度的图像语义消歧方法和装置 |
CN110489761B (zh) * | 2018-05-15 | 2021-02-02 | 科大讯飞股份有限公司 | 一种篇章级文本翻译方法及装置 |
US11138392B2 (en) * | 2018-07-26 | 2021-10-05 | Google Llc | Machine translation using neural network models |
US20200242146A1 (en) * | 2019-01-24 | 2020-07-30 | Andrew R. Kalukin | Artificial intelligence system for generating conjectures and comprehending text, audio, and visual data using natural language understanding |
CN110245364B (zh) * | 2019-06-24 | 2022-10-28 | 中国科学技术大学 | 零平行语料多模态神经机器翻译方法 |
CN110457718B (zh) * | 2019-08-21 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 一种文本生成方法、装置、计算机设备及存储介质 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN111597830A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于多模态机器学习的翻译方法、装置、设备及存储介质 |
-
2020
- 2020-05-20 CN CN202010432597.2A patent/CN111597830A/zh active Pending
-
2021
- 2021-04-29 WO PCT/CN2021/091114 patent/WO2021233112A1/zh active Application Filing
- 2021-04-29 JP JP2022540553A patent/JP2023509031A/ja active Pending
-
2022
- 2022-04-12 US US17/719,170 patent/US20220245365A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060123358A1 (en) * | 2004-12-03 | 2006-06-08 | Lee Hang S | Method and system for generating input grammars for multi-modal dialog systems |
US20140236570A1 (en) * | 2013-02-18 | 2014-08-21 | Microsoft Corporation | Exploiting the semantic web for unsupervised spoken language understanding |
US20180314689A1 (en) * | 2015-12-22 | 2018-11-01 | Sri International | Multi-lingual virtual personal assistant |
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
Also Published As
Publication number | Publication date |
---|---|
US20220245365A1 (en) | 2022-08-04 |
WO2021233112A1 (zh) | 2021-11-25 |
CN111597830A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023509031A (ja) | マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム | |
Torfi et al. | Natural language processing advancements by deep learning: A survey | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
EP3399460A1 (en) | Captioning a region of an image | |
US11769018B2 (en) | System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system | |
US11900518B2 (en) | Interactive systems and methods | |
CN113205817A (zh) | 语音语义识别方法、系统、设备及介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
Manshu et al. | CCHAN: An end to end model for cross domain sentiment classification | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
Xue et al. | Lcsnet: End-to-end lipreading with channel-aware feature selection | |
CN112668347B (zh) | 文本翻译方法、装置、设备及计算机可读存储介质 | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240619 |