JP7313558B2 - 対話応答生成システムのためのシステムおよび方法 - Google Patents

対話応答生成システムのためのシステムおよび方法 Download PDF

Info

Publication number
JP7313558B2
JP7313558B2 JP2022528410A JP2022528410A JP7313558B2 JP 7313558 B2 JP7313558 B2 JP 7313558B2 JP 2022528410 A JP2022528410 A JP 2022528410A JP 2022528410 A JP2022528410 A JP 2022528410A JP 7313558 B2 JP7313558 B2 JP 7313558B2
Authority
JP
Japan
Prior art keywords
encoder decoder
multimodal
multimodal encoder
decoder
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022528410A
Other languages
English (en)
Other versions
JP2022539620A (ja
Inventor
智織 堀
チェリアン,アノープ
マークス,ティム
貴明 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022539620A publication Critical patent/JP2022539620A/ja
Application granted granted Critical
Publication of JP7313558B2 publication Critical patent/JP7313558B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、対話応答生成システムを訓練するためのシステムおよび方法に関し、特に、対話応答生成システムを訓練するための訓練システムおよび訓練方法、並びに訓練システムおよび訓練方法によって訓練された対話応答生成システムに関する。
対話を処理することができるヒューマンマシンインターフェイスは、スマートフォンデジタルアシスタント、カーナビゲーションシステム、音声制御スマートスピーカ、および人間型ロボットとの対話を革新してきた。さらに進む場合、このようなシステムは、様々なユーザコンテキストにおいて適切な応答を生成するために、または訓練時に利用できなかった新規状況を処理するために、視覚を含む他の入力モダリティに対応する能力を必要とする。しかしながら、現在の最先端の対話システムは、このような動的シーンの処理に必要とされるマルチモーダル感覚入力(例えば、視覚、音声およびテキスト)を処理するための効率的なモデルが欠けているため、対話時に適切な応答を生成することができない可能性がある。
ユーザ周辺の環境情報に関して人間と対話するために、システムは、環境の内容およびユーザによる自然言語の入力の両方を理解する必要がある。このようなシーン認識対話方法は、実世界アプリケーションのマン-マシンインターフェイスにとって必須である。人間の動作に反応するために、機械は、音声および映像などの任意の種類の物理信号(特徴)からなるマルチモーダル情報を用いて、シーンを理解する必要がある。自然言語でシーンを記述するマルチモーダル情報のセマンティック表現は、システム応答の生成に役立つ最も有効な方法である。したがって、マルチモーダルシーンの理解を介して対話応答生成の品質を向上させるための方法を開発する必要がある。
近年、AVSD(Audio-Visual Scene-aware Dialog)と呼ばれる、マルチモーダル情報処理を用いた新たな対話タスクが提案されている。AVSDは主に、提供された映像に関するユーザの質問に応答することを目的とした対話応答生成システムに基づく。このシステムは、映像内の音声映像情報およびユーザの最後の質問までの対話履歴を使用することができる。必要に応じて、映像クリップを説明する手動映像解説文も、システムへの入力として利用可能である。DSTC7(7th Dialog System Technology Challenge)に提案されたAVSDタスクに対する最新の手法は、音声情報、視覚情報およびテキスト情報のマルチモーダル融合が応答品質の向上に有効であることを示した。さらに、「手動」映像解説文から抽出されたテキスト特徴を適用することによって、最良の性能を達成することがわかった。しかしながら、このような手動映像解説文は、現実の世界では利用できず、使用には問題がある。
推論段階で手動映像解説文を使用せず、応答生成の性能を向上させるために、訓練時に手動映像解説文を適用した性能ゲインを転移することによって、より正確な応答を生成する新たな手法が必要である。
本発明のいくつかの態様によれば、対話応答生成システムを訓練するためのコンピュータ実施方法および対話応答生成システムが提供される。この方法は、第1の入力および第1の出力を含み、対話応答または映像解説を生成するための第1のマルチモーダルエンコーダデコーダを配置するステップを含み、第1のマルチモーダルエンコーダデコーダは、訓練映像解説文で音声映像データセットを訓練することによって予め訓練され、第2の入力および第2の出力を含み、対話応答を生成するための第2のマルチモーダルエンコーダデコーダを配置するステップと、対応する第1の映像解説文を含む第1の音声映像データセットを第1のマルチモーダルエンコーダデコーダの第1の入力に提供するステップとを含み、第1のエンコーダデコーダは、対応する第1の解説文を含む第1の音声映像データセットに基づいて、第1の出力値を生成し、対応する第1の映像解説文を除く第1の音声映像データセットを第2のマルチモーダルエンコーダデコーダに提供するステップを含む。この場合、第2のマルチモーダルエンコーダデコーダは、対応する第1の映像解説文を含まない第1の音声映像データセットに基づいて、第2の出力値を生成する。
場合によっては、第1のマルチモーダルエンコーダデコーダから出力された自動映像解説文は、対話応答を生成するための第2のマルチモーダルエンコーダデコーダに入力されてもよい。さらに、自動映像解説を生成するための第1のマルチモーダルエンコーダデコーダから抽出されたコンテキストベクトルである映像解説特徴を対話応答を生成するための第2のマルチモーダルエンコーダデコーダに埋め込むことによって、マルチモーダル情報のセマンティック表現を考慮して、自然言語を用いてシーンを解説することができる。
また、場合によっては、手動映像解説文を用いて、対話応答を生成するための第1のマルチモーダルエンコーダデコーダ(教師ネットワーク)を訓練する際に、第2のマルチモーダルエンコーダデコーダ(教師ネットワーク)を訓練することができる。これによって、対話応答を生成するための教師ネットワークで得られた性能ゲインを生徒ネットワークに転移することができる。
さらに、上述した映像解説を生成するための第1のマルチモーダルエンコーダデコーダから出力されたコンテキストベクトルを、対話応答を生成するための第2のマルチモーダルエンコーダデコーダに埋め込むことができる。この場合、手動解説文の代わりに、第1のマルチモーダルエンコーダデコーダから得られた自動映像解説文を使用することができる。したがって、上記の実施形態を組み合わせることによって、音声映像シーンの理解に基づいて、自動映像解説ネットワークの出力および出力の中間表現を用いて、より正確な対話応答を生成することができる。
以下、添付の図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも一定の縮尺で描かれていない。その代わりに、本開示の実施形態の原理を示すために、図面を強調する場合がある。
本開示のいくつかの実施形態に従って、マルチモーダル融合システムを示すブロック図である。 本開示の実施形態に従って、マルチモーダル融合方法を使用するAVSDシステムを示すブロック図である。 本発明のいくつかの実施形態に従って、AVSDシステムを訓練するための学生-教師学習システムを示すブロック図である。 本発明の一実施形態に従って、自動映像解説エンコーダデコーダを用いてAVSDシステムを訓練する方法を示す図である。 本発明のいくつかの実施形態に従って、映像シーン認識対話データセットの統計を示す図である。 本発明の実施形態に従って、単一の参照を含むAVSD試行推論セットの評価結果を示す図である。 本発明の実施形態に従って、各応答に対して6つの参照を含むAVSD公式推論セットの評価結果を示す図である。
上記の特定の図面は、本開示の実施形態を図示しているが、議論したように、他の実施形態も考えられる。本開示は、限定ではなく例示として、例示的な実施形態を提供する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多くの他の変形例および実施例を考案することができる。
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用または構成を制限することを意図していない。むしろ、以下の例示的な実施形態の説明は、1つ以上の例示的な実施形態の実施を可能にするための説明を当業者に与える。添付の特許請求の範囲に記載された主題の精神および範囲から逸脱することなく、要素の機能および配置に対する様々な変更が考えられる。
図1は、本発明のいくつかの実施形態に従って、マルチモーダル融合システムを示すブロック図である。
本開示は、複数のモダリティ211を含む入力データからコンテキストベクトル220を生成するマルチモーダル「融合」システム200に基づく。図2Aに示すように、場合によっては、マルチモーダル融合システム200は、テキスト特徴201、画像(映像)特徴202、音声特徴203、および映像特徴202から抽出された動作特徴を含む入力特徴を受信し、入力特徴211に関連する対話システム応答231を生成する。テキスト入力201は、手動映像解説209または自動映像解説391、質問208などのユーザ入力、および対話履歴207を含むことができる。
図3は、本発明の一実施形態に従って、自動映像解説エンコーダデコーダを用いてAVSDシステムを訓練する方法を示す図である。この図は、映像解説を生成するための第1のマルチモーダルエンコーダデコーダ350および対話応答を生成するための第2のマルチモーダルエンコーダデコーダ300を示している。この場合、入力は、マルチモーダル特徴303であり、出力は、自然言語341、391である。
本開示のいくつかの実施形態は、自動映像解説380のコンテキストベクトル、音声映像融合330、および対話システム応答335のコンテキストベクトルを生成することに基づく。図3に示すように、「マルチモダリティ」303を含む入力データからの音声映像コンテキストベクトル330は、質問331のコンテキストベクトル、対話履歴332および自動映像解説380の埋め込みコンテキストベクトルと組み合わせられる。場合によっては、モダリティは、テキスト特徴331、332および333、映像特徴(画像特徴)301、音声特徴302、および映像特徴301から抽出された動作特徴であってもよい。
図2Aに示すように、本開示は、複数のモダリティ211を含む入力データからコンテキストベクトル220を生成するマルチモーダル「融合」システム210に基づく。場合によっては、マルチモーダル融合システム210は、テキスト特徴201、画像(映像)特徴202、音声特徴203、および映像特徴202から抽出された動作特徴を含む入力特徴を受信し、入力特徴211に関連する対話システム応答231を生成する。
本開示のいくつかの実施形態は、自動映像解説を生成するための第1のマルチモーダルエンコーダデコーダ350から得られたコンテキストベクトル333を生成することに基づく。音声映像データセットに関連する手動映像解説文201の代わりに、自動映像解説文391は、テキスト特徴333として、対話応答を生成するための第2のマルチモーダルエンコーダデコーダ300に入力される。
また、映像解説を生成するための第1のマルチモーダルエンコーダデコーダ350のエンコーダからのコンテキストベクトル出力380は、対話応答を生成するための第2のマルチモーダルエンコーダデコーダ300のデコーダに入力される対話応答文335のコンテキストベクトルに埋め込まれてもよい。
さらに、本発明のいくつかの実施形態は、推論段階で欠落しているが訓練段階で利用可能である手動映像解説文を推論段階で適用することによって得られた性能ゲインを補償することによって、手動映像解説文を用いることなくシステム応答の品質を改善することができるシステムまたは方法を提供することができる。
図2Bに示すように、訓練段階で手動映像解説文を適用することによって得られた性能ゲインを推論段階に転移するために、学生-教師学習アプローチ290を介して、AVSDシステムを訓練することができる。まず、手動映像解説文を用いて、第1のマルチモーダルエンコーダデコーダに基づいた対話応答を生成するための教師モデル250を訓練し、次に、手動映像解説を使用せず、教師の出力281を模倣するように、対話応答を生成するための第2のマルチモーダルエンコーダデコーダに基づいた学生モデル210を訓練する。学生モデル210は、推論段階で使用される。このフレームワークは、学生-教師共同学習に拡張することができる。この場合、両方のモデルが同時に訓練されるため、コンテキストベクトル230および270の損失関数を低減すると共に、コンテキストベクトル230および270の隠し表現を同様にする。この学習において、教師モデル270のコンテキストベクトルが学生モデル230のコンテキストベクトルに近似するため、教師モデル250は、学生モデル210により模倣されやすいように更新される。したがって、学生-教師学習290を使用する新しいシステムは、手動映像解説文を使用することなく、より良い性能を達成することができ、手動映像解説文で訓練されたシステムに負けない。
さらに、図2Bに示すように、他の実施形態は、対話応答をそれぞれ生成するための第1のマルチモーダルエンコーダデコーダ210および第2のマルチモーダルエンコーダデコーダ250の対に基づく。1つは、手動映像解説文209を入力することによって訓練された教師ネットワーク250と名付けられ、もう1つは、手動映像解説文を使用せず訓練された学生ネットワーク210と名付けられる。手動映像解説文209を使用せず訓練された第2のマルチモーダルエンコーダデコーダ210は、対話応答の生成を推論するように適用される。
訓練方法
本開示のいくつかの実施形態によれば、対話応答生成システムを訓練するためのコンピュータ実施方法は、第1の入力および第1の出力を含み、映像解説または対話応答を生成するための第1のマルチモーダルエンコーダデコーダ350、250を配置するステップを含み、第1のマルチモーダルエンコーダデコーダは、映像解説文209を用いて音声映像データセットを訓練することによって予め訓練され、第2の入力および第2の出力を含み、対話応答を生成するための第2のマルチモーダルエンコーダデコーダ300、210を配置するステップと、対応する第1の映像解説文209を含む第1の音声映像データセットを第1のマルチモーダルエンコーダデコーダ350、250の第1の入力に提供するステップとを含み、1のエンコーダデコーダは、対応する第1の映像解説文209を含む第1の音声映像データセットに基づいて、第1の出力値を生成し、対応する第1の映像解説文209を除く第1の音声映像データセットを、対話応答を生成するための第2のマルチモーダルエンコーダデコーダ210に提供するステップを含み、第2のマルチモーダルエンコーダデコーダは、対応する第1の映像解説文209を含まない第1の音声映像データセットに基づいて、第2の出力値を生成し、最適化モジュールは、第1出力値と第2出力値との間の誤差が所定の範囲に低減するまで、第2マルチモーダルエンコーダデコーダの第2のネットワークパラメータを更新し、誤差は、損失関数に基づいて計算される。
訓練システム
また、本発明の他の実施形態は、対話応答生成システムを訓練するためのシステム(訓練システム)を提供することができる。訓練システムは、図1に示された推論システムと同じアーキテクチャを有する。訓練システムは、コンピュータ実施方法の命令を記憶するためのメモリ140および1つ以上の記憶装置130と、メモリ140および1つ以上の記憶装置130に接続された1つ以上のプロセッサ120とを備え、メモリ140および1つ以上の記憶装置130は、1つ以上のプロセッサ120によって実行されると、1つ以上のプロセッサ120に以下のステップを含む動作を実行させることが可能である。これらのステップは、110を経由する第1の入力および第1の出力を含み、映像解説または対話応答を生成するための第1のマルチモーダルエンコーダデコーダ210を配置するステップを含み、第1のマルチモーダルエンコーダデコーダ210は、訓練映像解説文195を用いて音声映像データセット195を訓練することによって予め訓練され、110を経由する第2の入力および第2の出力を含み、対話応答を生成するための第2のマルチモーダルエンコーダデコーダ210を配置するステップと、対応する第1の解説文195を含む第1の音声映像データセット195を第1のマルチモーダルエンコーダデコーダ210の第1の入力に提供するステップとを含み、第1のエンコーダデコーダ210は、対応する第1の解説文195を含む第1の音声映像データセット195に基づいて、第1の出力値を生成し、対応する第1の解説文195を除く第1の音声映像データセット195を第2のマルチモーダルエンコーダデコーダ210に提供するステップを含み、第2のマルチモーダルエンコーダデコーダ210は、対応する第1の解説文195を含まない第1の音声映像データセット195に基づいて、第2の出力値を生成し、最適化モジュールは、第1出力値と第2出力値との間の誤差が所定の範囲に低減するまで、第2マルチモーダルエンコーダデコーダ210の第2のネットワークパラメータを更新し、誤差は、損失関数に基づいて計算される。
推論システム
さらに、図1に示すように、本発明のいくつかの実施形態によれば、対話応答生成システム100が提供され得る。この場合、対話応答生成システムは、マルチモーダルエンコーダデコーダ210の命令を記憶するためのメモリ140および1つ以上の記憶装置130とを備え、マルチモーダルエンコーダデコーダ210は、130に記憶されたコンピュータ実施方法(図1に図示せず)によって訓練され、メモリ140および1つ以上のプロセッサ120に接続された1つ以上のプロセッサ120とを備え、メモリ130および1つ以上の記憶装置140は、1つ以上のプロセッサ120によって実行されると、1つ以上のプロセッサ120に以下のステップを含む動作を実行させることが可能である。これらのステップは、第1および第2の順次間隔に従って第1および第2の入力ベクトルを受信するステップと、130に記憶された第1の特徴抽出器および第2の特徴抽出器を用いて、第1の入力および第2の入力から、第1の特徴ベクトルおよび第2の特徴ベクトルをそれぞれ抽出するステップと、第1の特徴ベクトルと第2の特徴ベクトルとシーケンス生成器のプリステップコンテキストベクトルから、第1セットの重みおよび第2セットの重みをそれぞれ推定するステップと、第1セットの重みおよび第1特徴ベクトルから第1コンテキストベクトルを計算し、第2セットの重みおよび第2特徴ベクトルから第2コンテキストベクトルを計算するステップと、第1のコンテキストベクトルを、所定の次元を有する第1のモーダルコンテキストベクトルに変換し、第2のコンテキストベクトルを、所定の次元を有する第2のモーダルコンテキストベクトルに変換するステップと、プリステップコンテキストベクトルと第1のコンテキストベクトルと第2のコンテキストベクトルから、または第1のコンテキストベクトルおよび第2のコンテキストベクトルから、モーダルアテンション重みのセットを推定するステップと、モーダルアテンション重みのセットと第1のコンテキストベクトルと第2のコンテキストベクトルから、所定の次元を有する重み付きコンテキストベクトルを生成するステップと、ワードシーケンスを生成するための生成器を用いて、重み付きコンテキストベクトルから予測ワードを生成するステップとを含む。
実施形態に対する完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実施できることを理解することができる。例えば、不必要な詳細で実施形態を不明瞭にしないように、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の構成要素として示されてもよい。また、実施形態を不明瞭にしないように、周知のプロセス、構造、および技術は、不必要な詳細なしで示されてもよい。さらに、様々な図面において、同様の参照番号および名称は、同様の要素を示す。
また、各々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されることがある。フローチャートが動作を順次のプロセスとして説明しても、多くの動作は、並列にまたは同時に実行されてもよい。また、動作の順序は、変更されてもよい。プロセスの動作が完了したときに、プロセスを終了することができるが、このプロセスは、討論されていないまたは図示されていない追加のステップを含むことができる。さらに、具体的に記載されたプロセス内の全ての動作は、全ての実施形態に含まれる必要がない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどであってもよい。プロセスが関数である場合、関数の終了は、当該関数を呼び出し関数または主関数に復帰させることに対応する。
さらに、開示された主題の実施形態は、手動でまたは自動で、少なくとも部分的に実装されてもよい。手動または自動の実装は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせで実装されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。プロセッサは、必要なタスクを実行することができる。
図1は、本発明のいくつかの実施形態に従って、対話応答生成システム100を示すブロック図である。システム100は、キーボード111およびポインティングデバイス/メディア112に接続可能な入力/出力(I/O)インターフェイス付きヒューマンマシンインターフェイス(HMI)110、マイクロフォン113、レシーバ114、トランスミッタ115、3Dセンサ116、全地球測位システム(GPS)117、1つ以上のI/Oインターフェイス118、プロセッサ120、記憶装置130、メモリ140、ローカルエリアネットワークおよびインターネットネットワーク(図示せず)を含むネットワーク190に接続可能なネットワークインターフェイスコントローラ(NIC)150、ディスプレイデバイス165が接続されたディスプレイインターフェイス160、画像および音響特徴を有する/有さない動画(映像特徴)を取得できるカメラを含むイメージングデバイス175が接続可能なイメージングインターフェイス170、プリントデバイス185が接続可能なプリンタインターフェイス180を含むことができる。I/Oインターフェイス付きHMI110は、アナログ/デジタルコンバータおよびデジタル/アナログコンバータを含むことができる。I/Oインターフェイス付きHMI110は、複数の3Dポイントクラウドの構築を可能にするワイヤレスインターネット接続またはワイヤレスローカルエリアネットワークを介して、他の3Dポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができるワイヤレス通信インターフェイスを含む。システム100は、電源190を含むことができる。電源190は、I/Oインターフェイス118を介して、外部電源(図示せず)から充電可能なバッテリであってもよい。用途に応じて、電源190は、システム100の外部に配置されてもよい。
HMIおよびI/Oインターフェイス110とI/Oインターフェイス118とは、とりわけコンピュータモニタ、カメラ、テレビ、プロジェクタ、またはモバイルデバイスを含む別のディスプレイデバイス(図示せず)に接続するように構成されてもよい。
システム100は、NIC150に接続されたネットワーク190を介して、音声データを含む電子テキスト/イメージ文書195を受信することができる。記憶装置130は、シーケンス生成モデル131と、特徴抽出モデル132と、マルチモーダルエンコーダデコーダ200とを含む。シーケンス生成モデル131、特徴抽出モデル132およびマルチモーダルエンコーダデコーダ200のアルゴリズムは、プログラムコードデータとして記憶装置130に記憶される。モデル131、132および200のアルゴリズムは、コンピュータ可読記録媒体(図示せず)に記憶されてもよい。プロセッサ120は、その媒体からアルゴリズムをロードすることによって、モデル131、132およびマルチモーダルエンコーダデコーダ200のアルゴリズムを実行することができる。また、ポインティングデバイス/メディア112は、コンピュータ可読記録媒体に記憶されたプログラムを読み出して実行するモジュールを含んでもよい。
モデル131、132およびマルチモーダルエンコーダデコーダ200のアルゴリズムの実行を開始するために、キーボード111、ポインティングデバイス/メディア112を使用して、または他のコンピュータ(図示せず)に接続されたワイヤレスネットワークもしくはネットワーク190を介して、命令をシステム100に送信することができる。記憶装置130に記憶された予めインストールされた従来の音声認識プログラム(図示せず)を用いて、ディスプレイインターフェイス160またはネットワーク190を介して音響特徴または映像特徴を受信することに応答して、モデル131~132および200のアルゴリズムの実行を開始することができる。さらに、システム100は、ユーザがシステム100の動作の開始/停止を可能にするためのオン/オフスイッチ(図示せず)を含む。
HMIおよびI/Oインターフェイス110は、アナログ-デジタル(A/D)コンバータ、デジタル-アナログ(D/A)コンバータ、およびネットワーク190に接続するための無線信号アンテナを含むことができる。また、1つ以上のI/Oインターフェイス118は、ケーブルテレビ(TV)ネットワーク、光ファイバネットワーク、またはテレビ信号およびマルチモーダル情報信号を受信するための従来のテレビ(TV)アンテナに接続可能である。インターフェイス118を介して受信した信号は、デジタル画像および音声信号に変換されてもよい。これらのデジタル画像および音声信号は、プロセッサ120およびメモリ140に関連してモデル131、132および200のアルゴリズムに従って処理されてもよい。これによって、スピーカ19を介してテレビ信号の音声を出力すると共に、映像スクリプトが生成され、デジタル画像のピクチャフレームと共にディスプレイデバイス165に表示される。スピーカは、システム100に含まれてもよく、インターフェイス110またはI/Oインターフェイス118を介して外部のスピーカを接続してもよい。
プロセッサ120は、1つ以上のグラフィック処理ユニット(GPU)を含む複数のプロセッサであってもよい。記憶装置130は、マイクロフォン113を介して取得された音声信号を認識することができる音声認識アルゴリズム(図示せず)を含むことができる。
マルチモーダルエンコーダデコーダシステムモジュール200、シーケンス生成モデル131および特徴抽出モデル132は、ニューラルネットワークによって形成されてもよい。
本発明のいくつかの実施形態は、学生-教師学習が教師モデルの知識を学生モデルに転移する転移学習であり得るという認識に基づく。学生-教師学習を用いて、より高い予測精度を有する大きなモデルの出力を模倣するように小さなモデルを訓練するというモデル圧縮を行うことができる。学生-教師学習は、小さなモデルの利点、すなわち、低い計算コストおよび低いメモリ消費を維持すると共に、小さなモデルの性能を大きなモデルの性能に近づけることができる。
また、学生-教師学習を用いて、入力に欠落している情報を補償することができる。この場合、教師モデルは、付加情報を用いてターゲットラベルを予測するように訓練されるが、学生モデルは、付加情報なしで教師の出力を模倣するように訓練される。自動音声認識(ASR:automatic speech recognition)において、例えば、マイクアレイから得られた強化音声を用いて教師モデルを訓練する一方、単一チャンネルで記録された雑音のある音声を用いて、強化音声に対する教師モデルの出力を模倣するように学生モデルを訓練する。この方法によれば、学生モデルは、推論時にマイクアレイなしで性能を向上させることができる。また、この技術を用いて、子供音声と成人音声との間の領域適応を行うことができる。提案されたAVSDシステムは、このアプローチを利用して、欠落した映像解説を補償する。学生モデルは、解説特徴なしでより良い応答を生成することができる。我々は、学生モデルのより良い教師となるように教師モデルを改善する目的で、このフレームワークを学生-教師共同学習にさらに拡張する。
図2Aは、本開示の実施形態に従って、コンピュータに実装されたアテンションベースのマルチモーダルモデル(方法)200に基づいた音声映像シーン認識対話システム(アーキテクチャ)の構成を示すブロック図である。
システムは、複数のモダリティ211を含む入力データからコンテキストベクトル220を生成する。場合によっては、マルチモーダル融合システム200は、テキスト特徴201、画像(映像)特徴202、音声特徴203、および映像特徴202から抽出された動作特徴を含む入力特徴を受信し、入力特徴211に関連する対話システム応答231を生成する。テキスト入力201は、手動映像解説209または自動映像解説391、質問208などのユーザ入力、および対話履歴207を含むことができる。
この図面は、本発明の実施形態に従って、提案されたAVSDシステムのアーキテクチャの一例を示す。モデル(方法)200は、エンコーダデコーダ210および230を利用して、ネットワークが現在のコンテキストに依存して特定の時間フレームから特徴を強調することを可能にすることによって、次のワードをより正確に生成することを可能にする。アテンションモデルの有効性は、機械翻訳および映像解説などの多くの作業に示されている。
Figure 0007313558000001
Figure 0007313558000002
Figure 0007313558000003
Figure 0007313558000004
Figure 0007313558000005
Figure 0007313558000006
Figure 0007313558000007
Figure 0007313558000008
Figure 0007313558000009

学生-教師学習(図2Bのタグ番号を用いて説明してください)
図2Bは、本発明のいくつかの実施形態に従って、AVSDシステムの学生-教師学習を示すブロック図である。AVSDシステムは、学生ネットワーク210と、教師ネットワーク250とを含む。この図面は、AVSDシステムの学生-教師学習の概念を示す。このステップの目的は、映像解説テキストを使用して予め訓練された教師モデル250を模倣するように、映像解説テキストを使用せず訓練された学生モデル210を得ることである。したがって、学生モデル210を用いて、教師モデル250と同様の性能を達成しながら、解説テキストに依存することなくシステム応答を生成することができる。
DSTC7-AVSDトラックにおける最良のシステムに従って、各質問の先頭に解説テキスト209を挿入する。これは、ターゲット映像クリップに関する対話が変わる度に、常に新たな質問と共に同じ解説をエンコーダに提供することを意味する。教師ネットワーク250の出力をソフトターゲットとして、学生ネットワーク210の出力分布を教師モデル250の出力分布に近似させるように、学生ネットワーク210を訓練することによって、クロスエントロピー損失を低減することができる。
Figure 0007313558000010
Figure 0007313558000011
Figure 0007313558000012
図3は、自動映像解説を生成するための第1のマルチモーダルエンコーダデコーダ350から得られるコンテキストベクトル333を生成することに基づく本開示のいくつかの実施形態を示すブロック図である。自動映像解説文391は、音声映像データセットに関連する手動映像解説文201の代わりに、テキスト特徴333として対話応答を生成するための第2のマルチモーダルエンコーダデコーダ300に入力される。
また、映像解説を生成するための第1のマルチモーダルエンコーダデコーダ350のエンコーダからのコンテキストベクトル出力380は、第2の対話応答を生成するためのマルチモーダルエンコーダデコーダ300のデコーダに入力される対話応答文335のコンテキストベクトルに埋め込まれてもよい。
図4は、本発明のいくつかの実施形態に従って、映像シーン認識対話データセットの統計を示す。AVSDデータセットは、短い映像に関するテキスト対話の集合である。映像クリップは、未編集のマルチアクションデータセットであるジェスチャデータセットから得られる。このジェスチャデータセットは、11848個の映像を含む。これらの映像は、7985個の訓練用映像、1863個の検証用映像、および2000個の推論用映像に分けられる。このデータセットは、いくつかの細粒度の動作を有する157個の動作カテゴリを含む。また、このデータセットは、27847個のテキスト解説をこれらの映像に与える。各映像は、1~3個の文章で解説されている。ジェスチャデータセット内の各映像について、AVSDデータセットは、映像を議論する2人の間のテキスト対話を含む。
AVSDシステム
図2Aは、本発明の一実施形態に従って、AVSDシステムを訓練する方法を示すモデル200を示す図である。質問エンコーダは、ワード埋め込み層(200次元)と、2つのBLSTM層(各方向について256次元)とを含む。I3D-rgb(2048次元)、I3D-フロー(2048次元)およびVGGish(128次元)からなる音声映像特徴は、予め訓練された深層CNNを用いて映像フレームから抽出された。これらの特徴シーケンスは、その後、単一投影層を有するマルチモーダルエンコーダに提供される。このマルチモーダルエンコーダは、これらの特徴シーケンスを512次元ベクトル、512次元ベクトルおよび64次元ベクトルにそれぞれ変換した。履歴エンコーダは、ワード埋め込み層(200次元)と、質問-回答ペアを埋め込むための2つのLSTM層(256次元)と、履歴を埋め込むための1つのBLSTM層(各方向について256次元)とを含む。訓練のために、ADAM最適化ツールを使用した。妥当性困惑度が各エポック後に減少しなかった場合に、学習率を半分にし、訓練を20エポックまで継続した。ボキャブラリサイズは、3910であり、訓練セットにおいて少なくとも4回出現した単語のみを保持した。
図5Aは、本発明の実施形態に従って、単一の参照を含むAVSD試行推論セットの評価結果を示す。システム応答の品質は、参照と重複する単語の度合いに基づくBLEU、METEOR、ROUGE-L、およびCIDErなどの客観的スコアを用いて測定された。本発明の音声映像特徴と同じものを利用する単純なLSTM型エンコーダデコーダであるDSTC7-AVSDトラックオーガナイザによって提供されたベースラインシステムも評価された。AVSD最良システムの結果も示されている。このシステムは、本発明のシステムと類似するアーキテクチャを有するが、2つのエンコーダのみを含む。2つのエンコーダのうち、1つは、質問を処理するためのエンコーダであり、もう1つは、3DResNetによって得られた映像特徴を処理するためのエンコーダである。そのネットワークは、How2データセットを用いて予め訓練されたが、本発明のモデルは、AVSDデータセットのみを用いて訓練された。
本発明のシステムは、手動映像解説文を用いて訓練および推論の両方を行う場合(第2列の「手動、手動」)に、最良のAVSDシステムよりも優れた性能を示したが、推論段階に解説をネットワークに提供しなかった(「手動、-」)場合に、性能は著しく劣化した。手動解説の代わりに自動解説(「手動、自動」)を提供し、同じAVSDデータセットを用いて訓練された映像解説モデルを使用した場合、限られた改善は見られた。解説なしで(「-、-」)訓練されたモデルは、他の条件よりもわずかに良好であった。
Figure 0007313558000013
図5Bは、各応答に対して6つの参照を含むAVSD公式推論セットの評価結果を示す。図6Aと同様に、本発明のシステムは、最良のシステムDSTC7を含む他のシステムよりも優れたものであった。また、学生-教師フレームワークは、公式推論セットに対して有意なゲインを提供した。
上述したように、本発明に従ったいくつかの実施形態は、訓練時に利用可能であった映像解説特徴の欠落を推論時に補償するためのコンピュータ実施方法を提供することができる。本発明は、AVSD(Audio-Visual Scene-aware Dialog)のための学習フレームワークを提供することができる。本発明のAVSDシステムは、従来の方法よりも優れた性能を達成し、手動映像解説文で訓練されたシステムに負けず、最良のDSTC7-AVSDシステムよりも優れた性能を達成した。訓練されたモデルは、映像に関する音声情報、視覚情報およびテキスト情報を融合することによって映像コンテキストに関する質問を回答することができ、手動映像解説文に依存することなく高品質の応答を生成することができる。さらに、本発明の別の実施形態は、殆どの客観的メトリックにおいてさらなるゲインを達成することができる、学生-教師共同学習アプローチを提供することができる。
本開示のいくつかの実施形態において、上述のマルチモーダル融合モデルをコンピュータシステムにインストールすると、より少ない計算能力で映像スクリプトを効果的に生成することができる。したがって、マルチモーダル融合モデル方法またはシステムによって、中央処理ユニットの使用および電力消費を低減することができる。
さらに、本開示の実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供する。したがって、マルチモーダル融合モデルを使用する方法およびシステムによって、中央処理ユニット(CPU)の使用、電力消費、および/またはネットワーク帯域幅の使用を低減することができる。
上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。1つの集積回路要素は、1つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。
また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの的背うなプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。
また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、いくつかの動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第1、第2などの使用は、別の請求項要素に対する1つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、(順序用語を使用することによって)特定の名前を有する1つの請求項要素と同じ名前を有する別の要素とを区別させる。
いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。

Claims (12)

  1. 対話応答生成システムを訓練するためのコンピュータ実施方法であって、
    映像訓練解説を用いて音声映像データセットを訓練することによって、第1のマルチモーダルエンコーダデコーダを予め訓練するステップと、
    第1の入力および第1の出力を含む前記第1のマルチモーダルエンコーダデコーダを配置するステップを含み、
    第2の入力および第2の出力を含む第2のマルチモーダルエンコーダデコーダを配置するステップと、
    対応する第1の解説文を含む第1の音声映像データセットを前記第1のマルチモーダルエンコーダデコーダの前記第1の入力に提供するステップとを含み、アテンションベースの前記第1のマルチモーダルエンコーダデコーダは、前記対応する第1の解説文を含む前記第1の音声映像データセットに基づいて、第1の出力値を生成し、
    前記対応する第1の解説文を除く前記第1の音声映像データセットを前記第2のマルチモーダルエンコーダデコーダに提供するステップを含み、前記第2のマルチモーダルエンコーダデコーダは、前記対応する第1の解説文を含まない前記第1の音声映像データセットに基づいて、第2の出力値を生成し、最適化モジュールは、前記第1の出力値と前記第2の出力値との間の誤差が所定の範囲に低減するまで、前記第2のマルチモーダルエンコーダデコーダのネットワークパラメータを更新し、前記誤差は、損失関数に基づいて計算される、コンピュータ実施方法。
  2. 前記損失関数は、クロスエントロピー損失関数である、請求項1に記載のコンピュータ実施方法。
  3. 前記損失関数は、前記第1のマルチモーダルエンコーダデコーダのコンテキストベクトルと前記第2のマルチモーダルエンコーダデコーダのコンテキストベクトルとの間の平均二乗誤差を取り入れる、請求項2に記載のコンピュータ実施方法。
  4. 前記第1のマルチモーダルエンコーダデコーダのパラメータは、更新されない、請求項1に記載のコンピュータ実施方法。
  5. 前記最適化モジュールは、クロスエントロピー損失関数に基づいて、前記第1のマルチモーダルエンコーダデコーダのパラメータを更新する、請求項1に記載のコンピュータ実施方法。
  6. 前記最適化モジュールは、逆伝搬法を用いて、前記第2のマルチモーダルエンコーダデコーダの前記ネットワークパラメータを更新する、請求項1に記載のコンピュータ実施方法。
  7. 対話応答生成システムを訓練するためのシステムであって、
    1つ以上のプロセッサによって実行される命令を記憶するためのメモリおよび1つ以上の記憶装置と、
    前記メモリおよび前記1つ以上の記憶装置に接続された前記1つ以上のプロセッサとを備え、前記メモリおよび前記1つ以上の記憶装置は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに以下のステップを含む動作を実行させることが可能であり、前記ステップは、
    映像訓練解説を用いて音声映像データセットを訓練することによって、第1のマルチモーダルエンコーダデコーダを予め訓練するステップと、
    第1の入力および第1の出力を含む前記第1のマルチモーダルエンコーダデコーダを配置するステップを含み、
    第2の入力および第2の出力を含む第2のマルチモーダルエンコーダデコーダを配置するステップと、
    対応する第1の解説文を含む第1の音声映像データセットを前記第1のマルチモーダルエンコーダデコーダの前記第1の入力に提供するステップとを含み、アテンションベースの前記第1のマルチモーダルエンコーダデコーダは、前記対応する第1の解説文を含む前記第1の音声映像データセットに基づいて、第1の出力値を生成し、
    前記対応する第1の解説文を除く前記第1の音声映像データセットを前記第2のマルチモーダルエンコーダデコーダに提供するステップを含み、前記第2のマルチモーダルエンコーダデコーダは、前記対応する第1の解説文を含まない前記第1の音声映像データセットに基づいて、第2の出力値を生成し、最適化モジュールは、前記第1の出力値と前記第2の出力値との間の誤差が所定の範囲に低減するまで、前記第2のマルチモーダルエンコーダデコーダのネットワークパラメータを更新し、前記誤差は、損失関数に基づいて計算される、システム。
  8. 前記損失関数は、クロスエントロピー損失関数である、請求項に記載のシステム。
  9. 前記損失関数は、前記第1のマルチモーダルエンコーダデコーダのコンテキストベクトルと前記第2のマルチモーダルエンコーダデコーダのコンテキストベクトルとの間の平均二乗誤差を取り入れる、請求項に記載のシステム。
  10. 前記第1のマルチモーダルエンコーダデコーダのパラメータは、更新されない、請求項に記載のシステム。
  11. 前記最適化モジュールは、クロスエントロピー損失関数に基づいて、前記第1のマルチモーダルエンコーダデコーダのパラメータを更新する、請求項に記載のシステム。
  12. 前記最適化モジュールは、逆伝搬法を用いて、前記第2のマルチモーダルエンコーダデコーダの前記ネットワークパラメータを更新する、請求項に記載のシステム。
JP2022528410A 2019-09-13 2020-07-22 対話応答生成システムのためのシステムおよび方法 Active JP7313558B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/569,679 2019-09-13
US16/569,679 US11264009B2 (en) 2019-09-13 2019-09-13 System and method for a dialogue response generation system
PCT/JP2020/029373 WO2021049199A1 (en) 2019-09-13 2020-07-22 System and method for a dialogue response generation system

Publications (2)

Publication Number Publication Date
JP2022539620A JP2022539620A (ja) 2022-09-12
JP7313558B2 true JP7313558B2 (ja) 2023-07-24

Family

ID=72322507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528410A Active JP7313558B2 (ja) 2019-09-13 2020-07-22 対話応答生成システムのためのシステムおよび方法

Country Status (5)

Country Link
US (1) US11264009B2 (ja)
EP (1) EP3857459B1 (ja)
JP (1) JP7313558B2 (ja)
CN (1) CN114365121A (ja)
WO (1) WO2021049199A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104678A1 (en) * 2018-09-27 2020-04-02 Google Llc Training optimizer neural networks
JP7442631B2 (ja) * 2019-10-18 2024-03-04 グーグル エルエルシー エンドツーエンドのマルチスピーカ視聴覚自動音声認識
US11157554B2 (en) * 2019-11-05 2021-10-26 International Business Machines Corporation Video response generation and modification
US11562147B2 (en) * 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US11461681B2 (en) * 2020-10-14 2022-10-04 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining
US11601830B2 (en) * 2020-11-23 2023-03-07 Verizon Patent And Licensing Inc. Systems and methods for autonomous network management using deep reinforcement learning
KR20220086342A (ko) * 2020-12-16 2022-06-23 삼성전자주식회사 음성 입력의 응답 제공 방법 및 이를 지원하는 전자 장치
CN113868395B (zh) * 2021-10-11 2024-08-02 北京明略软件系统有限公司 多轮对话生成式模型建立方法、系统、电子设备及介质
CN114357968A (zh) * 2021-11-29 2022-04-15 阿里巴巴达摩院(杭州)科技有限公司 对话方法以及装置
US20230352002A1 (en) * 2022-04-28 2023-11-02 Dell Products L.P. Automatically extracting information from conversation text data using machine learning techniques
CN115098765A (zh) * 2022-05-20 2022-09-23 青岛海尔电冰箱有限公司 基于深度学习的信息推送方法、装置、设备及存储介质
CN115495568B (zh) * 2022-11-17 2023-08-22 苏州浪潮智能科技有限公司 一种对话模型的训练方法及装置、对话响应方法及装置
CN116091773B (zh) * 2023-02-02 2024-04-05 北京百度网讯科技有限公司 图像分割模型的训练方法、图像分割方法和装置
CN116721221B (zh) * 2023-08-08 2024-01-12 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN117290461B (zh) * 2023-11-24 2024-02-06 湖南君安科技有限公司 融合aspp模块与跨模态交互的多模态对话生成方法
CN118248132B (zh) * 2024-05-27 2024-07-19 云南师范大学 一种基于自适应音频上下文注意力的教学场景语音识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017534956A (ja) 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 多言語画像質問応答
WO2018051841A1 (ja) 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
WO2018124309A1 (en) 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568627B2 (en) * 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
CN109804383B (zh) * 2016-08-04 2024-03-26 谷歌有限责任公司 使用神经网络编码和重构输入
US10762425B2 (en) * 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
US20190341025A1 (en) * 2018-04-18 2019-11-07 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
KR102265703B1 (ko) * 2018-04-18 2021-06-17 모빌아이 비젼 테크놀로지스 엘티디. 카메라를 이용한 차량 환경 모델링
US10861483B2 (en) * 2018-11-29 2020-12-08 i2x GmbH Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person
US20200226675A1 (en) * 2019-01-15 2020-07-16 Adobe Inc. Utilizing machine learning to generate parametric distributions for digital bids in a real-time digital bidding environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017534956A (ja) 2015-05-21 2017-11-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC 多言語画像質問応答
WO2018051841A1 (ja) 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
WO2018124309A1 (en) 2016-12-30 2018-07-05 Mitsubishi Electric Corporation Method and system for multi-modal fusion model
JP2019535063A (ja) 2016-12-30 2019-12-05 三菱電機株式会社 マルチモーダルフュージョンモデルのための方法及びシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALAMRI, H et al.,"Audio-Visual Scene-Aware Dialog",arXiv.org [online],2019年05月,pp. 1-15,[retrieved on 2023.02.03], Retrieved from the Internet: <URL: https://arxiv.org/abs/1901.09107v2>,<DOI: 10.48550/arXiv.1901.09107>
HORI, C et al.,"End-to-end Audio Visual Scene-aware Dialog Using Multimodal Attention-based Video Features",ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) [online],IEEE,2019年05月,pp. 2352-2356,[retrieved on 2023.02.03], Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/8682583>,<DOI: 10.1109/ICASSP.2019.8682583>

Also Published As

Publication number Publication date
WO2021049199A1 (en) 2021-03-18
JP2022539620A (ja) 2022-09-12
EP3857459B1 (en) 2023-01-11
EP3857459A1 (en) 2021-08-04
CN114365121A (zh) 2022-04-15
US20210082398A1 (en) 2021-03-18
US11264009B2 (en) 2022-03-01

Similar Documents

Publication Publication Date Title
JP7313558B2 (ja) 対話応答生成システムのためのシステムおよび方法
US10388284B2 (en) Speech recognition apparatus and method
JP6719663B2 (ja) マルチモーダルフュージョンモデルのための方法及びシステム
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
US11200467B2 (en) Artificial intelligence apparatus and method for recognizing object included in image data
JP7170920B2 (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
KR102331675B1 (ko) 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
WO2022134894A1 (zh) 语音识别方法、装置、计算机设备及存储介质
KR20210047173A (ko) 오인식된 단어를 바로잡아 음성을 인식하는 인공 지능 장치 및 그 방법
KR102281600B1 (ko) 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
US11355101B2 (en) Artificial intelligence apparatus for training acoustic model
JP2005003926A (ja) 情報処理装置および方法、並びにプログラム
KR20190113693A (ko) 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR102408308B1 (ko) 센서 변환 집중 네트워크 모델
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
KR20240068704A (ko) 준지도 스피치 인식을 위한 대조 샴 네트워크
CN111161724B (zh) 中文视听结合语音识别方法、系统、设备及介质
CN117877125B (zh) 动作识别及其模型训练方法、装置、电子设备、存储介质
US20240104311A1 (en) Hybrid language translation on mobile devices
US20240265911A1 (en) Adaptive visual speech recognition
Zhu English Pronunciation Standards Based on Multimodal Acoustic Sensors
CN116978362A (zh) 槽位预测模型的训练与预测方法、装置、设备及存储介质
KR20240058737A (ko) 수어를 음성 신호로 변환하는 장치 및 방법
WO2024129789A1 (en) Semi-supervised training scheme for speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230711

R150 Certificate of patent or registration of utility model

Ref document number: 7313558

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150