JP7313558B2

JP7313558B2 - 対話応答生成システムのためのシステムおよび方法

Info

Publication number: JP7313558B2
Application number: JP2022528410A
Authority: JP
Inventors: 智織堀; チェリアン，アノープ; マークス，ティム; 貴明堀
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-13
Filing date: 2020-07-22
Publication date: 2023-07-24
Anticipated expiration: 2040-07-22
Also published as: WO2021049199A1; JP2022539620A; EP3857459B1; EP3857459A1; CN114365121A; US20210082398A1; US11264009B2

Description

本発明は、対話応答生成システムを訓練するためのシステムおよび方法に関し、特に、対話応答生成システムを訓練するための訓練システムおよび訓練方法、並びに訓練システムおよび訓練方法によって訓練された対話応答生成システムに関する。

対話を処理することができるヒューマンマシンインターフェイスは、スマートフォンデジタルアシスタント、カーナビゲーションシステム、音声制御スマートスピーカ、および人間型ロボットとの対話を革新してきた。さらに進む場合、このようなシステムは、様々なユーザコンテキストにおいて適切な応答を生成するために、または訓練時に利用できなかった新規状況を処理するために、視覚を含む他の入力モダリティに対応する能力を必要とする。しかしながら、現在の最先端の対話システムは、このような動的シーンの処理に必要とされるマルチモーダル感覚入力（例えば、視覚、音声およびテキスト）を処理するための効率的なモデルが欠けているため、対話時に適切な応答を生成することができない可能性がある。

ユーザ周辺の環境情報に関して人間と対話するために、システムは、環境の内容およびユーザによる自然言語の入力の両方を理解する必要がある。このようなシーン認識対話方法は、実世界アプリケーションのマン－マシンインターフェイスにとって必須である。人間の動作に反応するために、機械は、音声および映像などの任意の種類の物理信号（特徴）からなるマルチモーダル情報を用いて、シーンを理解する必要がある。自然言語でシーンを記述するマルチモーダル情報のセマンティック表現は、システム応答の生成に役立つ最も有効な方法である。したがって、マルチモーダルシーンの理解を介して対話応答生成の品質を向上させるための方法を開発する必要がある。

近年、ＡＶＳＤ（Audio-Visual Scene-aware Dialog）と呼ばれる、マルチモーダル情報処理を用いた新たな対話タスクが提案されている。ＡＶＳＤは主に、提供された映像に関するユーザの質問に応答することを目的とした対話応答生成システムに基づく。このシステムは、映像内の音声映像情報およびユーザの最後の質問までの対話履歴を使用することができる。必要に応じて、映像クリップを説明する手動映像解説文も、システムへの入力として利用可能である。ＤＳＴＣ７（7th Dialog System Technology Challenge）に提案されたＡＶＳＤタスクに対する最新の手法は、音声情報、視覚情報およびテキスト情報のマルチモーダル融合が応答品質の向上に有効であることを示した。さらに、「手動」映像解説文から抽出されたテキスト特徴を適用することによって、最良の性能を達成することがわかった。しかしながら、このような手動映像解説文は、現実の世界では利用できず、使用には問題がある。

推論段階で手動映像解説文を使用せず、応答生成の性能を向上させるために、訓練時に手動映像解説文を適用した性能ゲインを転移することによって、より正確な応答を生成する新たな手法が必要である。

本発明のいくつかの態様によれば、対話応答生成システムを訓練するためのコンピュータ実施方法および対話応答生成システムが提供される。この方法は、第１の入力および第１の出力を含み、対話応答または映像解説を生成するための第１のマルチモーダルエンコーダデコーダを配置するステップを含み、第１のマルチモーダルエンコーダデコーダは、訓練映像解説文で音声映像データセットを訓練することによって予め訓練され、第２の入力および第２の出力を含み、対話応答を生成するための第２のマルチモーダルエンコーダデコーダを配置するステップと、対応する第１の映像解説文を含む第１の音声映像データセットを第１のマルチモーダルエンコーダデコーダの第１の入力に提供するステップとを含み、第１のエンコーダデコーダは、対応する第１の解説文を含む第１の音声映像データセットに基づいて、第１の出力値を生成し、対応する第１の映像解説文を除く第１の音声映像データセットを第２のマルチモーダルエンコーダデコーダに提供するステップを含む。この場合、第２のマルチモーダルエンコーダデコーダは、対応する第１の映像解説文を含まない第１の音声映像データセットに基づいて、第２の出力値を生成する。

場合によっては、第１のマルチモーダルエンコーダデコーダから出力された自動映像解説文は、対話応答を生成するための第２のマルチモーダルエンコーダデコーダに入力されてもよい。さらに、自動映像解説を生成するための第１のマルチモーダルエンコーダデコーダから抽出されたコンテキストベクトルである映像解説特徴を対話応答を生成するための第２のマルチモーダルエンコーダデコーダに埋め込むことによって、マルチモーダル情報のセマンティック表現を考慮して、自然言語を用いてシーンを解説することができる。

また、場合によっては、手動映像解説文を用いて、対話応答を生成するための第１のマルチモーダルエンコーダデコーダ（教師ネットワーク）を訓練する際に、第２のマルチモーダルエンコーダデコーダ（教師ネットワーク）を訓練することができる。これによって、対話応答を生成するための教師ネットワークで得られた性能ゲインを生徒ネットワークに転移することができる。

さらに、上述した映像解説を生成するための第１のマルチモーダルエンコーダデコーダから出力されたコンテキストベクトルを、対話応答を生成するための第２のマルチモーダルエンコーダデコーダに埋め込むことができる。この場合、手動解説文の代わりに、第１のマルチモーダルエンコーダデコーダから得られた自動映像解説文を使用することができる。したがって、上記の実施形態を組み合わせることによって、音声映像シーンの理解に基づいて、自動映像解説ネットワークの出力および出力の中間表現を用いて、より正確な対話応答を生成することができる。

以下、添付の図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも一定の縮尺で描かれていない。その代わりに、本開示の実施形態の原理を示すために、図面を強調する場合がある。

本開示のいくつかの実施形態に従って、マルチモーダル融合システムを示すブロック図である。本開示の実施形態に従って、マルチモーダル融合方法を使用するＡＶＳＤシステムを示すブロック図である。本発明のいくつかの実施形態に従って、ＡＶＳＤシステムを訓練するための学生－教師学習システムを示すブロック図である。本発明の一実施形態に従って、自動映像解説エンコーダデコーダを用いてＡＶＳＤシステムを訓練する方法を示す図である。本発明のいくつかの実施形態に従って、映像シーン認識対話データセットの統計を示す図である。本発明の実施形態に従って、単一の参照を含むＡＶＳＤ試行推論セットの評価結果を示す図である。本発明の実施形態に従って、各応答に対して６つの参照を含むＡＶＳＤ公式推論セットの評価結果を示す図である。

上記の特定の図面は、本開示の実施形態を図示しているが、議論したように、他の実施形態も考えられる。本開示は、限定ではなく例示として、例示的な実施形態を提供する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多くの他の変形例および実施例を考案することができる。

以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用または構成を制限することを意図していない。むしろ、以下の例示的な実施形態の説明は、１つ以上の例示的な実施形態の実施を可能にするための説明を当業者に与える。添付の特許請求の範囲に記載された主題の精神および範囲から逸脱することなく、要素の機能および配置に対する様々な変更が考えられる。

図１は、本発明のいくつかの実施形態に従って、マルチモーダル融合システムを示すブロック図である。

本開示は、複数のモダリティ２１１を含む入力データからコンテキストベクトル２２０を生成するマルチモーダル「融合」システム２００に基づく。図２Ａに示すように、場合によっては、マルチモーダル融合システム２００は、テキスト特徴２０１、画像（映像）特徴２０２、音声特徴２０３、および映像特徴２０２から抽出された動作特徴を含む入力特徴を受信し、入力特徴２１１に関連する対話システム応答２３１を生成する。テキスト入力２０１は、手動映像解説２０９または自動映像解説３９１、質問２０８などのユーザ入力、および対話履歴２０７を含むことができる。

図３は、本発明の一実施形態に従って、自動映像解説エンコーダデコーダを用いてＡＶＳＤシステムを訓練する方法を示す図である。この図は、映像解説を生成するための第１のマルチモーダルエンコーダデコーダ３５０および対話応答を生成するための第２のマルチモーダルエンコーダデコーダ３００を示している。この場合、入力は、マルチモーダル特徴３０３であり、出力は、自然言語３４１、３９１である。

本開示のいくつかの実施形態は、自動映像解説３８０のコンテキストベクトル、音声映像融合３３０、および対話システム応答３３５のコンテキストベクトルを生成することに基づく。図３に示すように、「マルチモダリティ」３０３を含む入力データからの音声映像コンテキストベクトル３３０は、質問３３１のコンテキストベクトル、対話履歴３３２および自動映像解説３８０の埋め込みコンテキストベクトルと組み合わせられる。場合によっては、モダリティは、テキスト特徴３３１、３３２および３３３、映像特徴（画像特徴）３０１、音声特徴３０２、および映像特徴３０１から抽出された動作特徴であってもよい。

図２Ａに示すように、本開示は、複数のモダリティ２１１を含む入力データからコンテキストベクトル２２０を生成するマルチモーダル「融合」システム２１０に基づく。場合によっては、マルチモーダル融合システム２１０は、テキスト特徴２０１、画像（映像）特徴２０２、音声特徴２０３、および映像特徴２０２から抽出された動作特徴を含む入力特徴を受信し、入力特徴２１１に関連する対話システム応答２３１を生成する。

本開示のいくつかの実施形態は、自動映像解説を生成するための第１のマルチモーダルエンコーダデコーダ３５０から得られたコンテキストベクトル３３３を生成することに基づく。音声映像データセットに関連する手動映像解説文２０１の代わりに、自動映像解説文３９１は、テキスト特徴３３３として、対話応答を生成するための第２のマルチモーダルエンコーダデコーダ３００に入力される。

また、映像解説を生成するための第１のマルチモーダルエンコーダデコーダ３５０のエンコーダからのコンテキストベクトル出力３８０は、対話応答を生成するための第２のマルチモーダルエンコーダデコーダ３００のデコーダに入力される対話応答文３３５のコンテキストベクトルに埋め込まれてもよい。

さらに、本発明のいくつかの実施形態は、推論段階で欠落しているが訓練段階で利用可能である手動映像解説文を推論段階で適用することによって得られた性能ゲインを補償することによって、手動映像解説文を用いることなくシステム応答の品質を改善することができるシステムまたは方法を提供することができる。

図２Ｂに示すように、訓練段階で手動映像解説文を適用することによって得られた性能ゲインを推論段階に転移するために、学生－教師学習アプローチ２９０を介して、ＡＶＳＤシステムを訓練することができる。まず、手動映像解説文を用いて、第１のマルチモーダルエンコーダデコーダに基づいた対話応答を生成するための教師モデル２５０を訓練し、次に、手動映像解説を使用せず、教師の出力２８１を模倣するように、対話応答を生成するための第２のマルチモーダルエンコーダデコーダに基づいた学生モデル２１０を訓練する。学生モデル２１０は、推論段階で使用される。このフレームワークは、学生－教師共同学習に拡張することができる。この場合、両方のモデルが同時に訓練されるため、コンテキストベクトル２３０および２７０の損失関数を低減すると共に、コンテキストベクトル２３０および２７０の隠し表現を同様にする。この学習において、教師モデル２７０のコンテキストベクトルが学生モデル２３０のコンテキストベクトルに近似するため、教師モデル２５０は、学生モデル２１０により模倣されやすいように更新される。したがって、学生－教師学習２９０を使用する新しいシステムは、手動映像解説文を使用することなく、より良い性能を達成することができ、手動映像解説文で訓練されたシステムに負けない。

さらに、図２Ｂに示すように、他の実施形態は、対話応答をそれぞれ生成するための第１のマルチモーダルエンコーダデコーダ２１０および第２のマルチモーダルエンコーダデコーダ２５０の対に基づく。１つは、手動映像解説文２０９を入力することによって訓練された教師ネットワーク２５０と名付けられ、もう１つは、手動映像解説文を使用せず訓練された学生ネットワーク２１０と名付けられる。手動映像解説文２０９を使用せず訓練された第２のマルチモーダルエンコーダデコーダ２１０は、対話応答の生成を推論するように適用される。
訓練方法

本開示のいくつかの実施形態によれば、対話応答生成システムを訓練するためのコンピュータ実施方法は、第１の入力および第１の出力を含み、映像解説または対話応答を生成するための第１のマルチモーダルエンコーダデコーダ３５０、２５０を配置するステップを含み、第１のマルチモーダルエンコーダデコーダは、映像解説文２０９を用いて音声映像データセットを訓練することによって予め訓練され、第２の入力および第２の出力を含み、対話応答を生成するための第２のマルチモーダルエンコーダデコーダ３００、２１０を配置するステップと、対応する第１の映像解説文２０９を含む第１の音声映像データセットを第１のマルチモーダルエンコーダデコーダ３５０、２５０の第１の入力に提供するステップとを含み、１のエンコーダデコーダは、対応する第１の映像解説文２０９を含む第１の音声映像データセットに基づいて、第１の出力値を生成し、対応する第１の映像解説文２０９を除く第１の音声映像データセットを、対話応答を生成するための第２のマルチモーダルエンコーダデコーダ２１０に提供するステップを含み、第２のマルチモーダルエンコーダデコーダは、対応する第１の映像解説文２０９を含まない第１の音声映像データセットに基づいて、第２の出力値を生成し、最適化モジュールは、第１出力値と第２出力値との間の誤差が所定の範囲に低減するまで、第２マルチモーダルエンコーダデコーダの第２のネットワークパラメータを更新し、誤差は、損失関数に基づいて計算される。
訓練システム

また、本発明の他の実施形態は、対話応答生成システムを訓練するためのシステム（訓練システム）を提供することができる。訓練システムは、図１に示された推論システムと同じアーキテクチャを有する。訓練システムは、コンピュータ実施方法の命令を記憶するためのメモリ１４０および１つ以上の記憶装置１３０と、メモリ１４０および１つ以上の記憶装置１３０に接続された１つ以上のプロセッサ１２０とを備え、メモリ１４０および１つ以上の記憶装置１３０は、１つ以上のプロセッサ１２０によって実行されると、１つ以上のプロセッサ１２０に以下のステップを含む動作を実行させることが可能である。これらのステップは、１１０を経由する第１の入力および第１の出力を含み、映像解説または対話応答を生成するための第１のマルチモーダルエンコーダデコーダ２１０を配置するステップを含み、第１のマルチモーダルエンコーダデコーダ２１０は、訓練映像解説文１９５を用いて音声映像データセット１９５を訓練することによって予め訓練され、１１０を経由する第２の入力および第２の出力を含み、対話応答を生成するための第２のマルチモーダルエンコーダデコーダ２１０を配置するステップと、対応する第１の解説文１９５を含む第１の音声映像データセット１９５を第１のマルチモーダルエンコーダデコーダ２１０の第１の入力に提供するステップとを含み、第１のエンコーダデコーダ２１０は、対応する第１の解説文１９５を含む第１の音声映像データセット１９５に基づいて、第１の出力値を生成し、対応する第１の解説文１９５を除く第１の音声映像データセット１９５を第２のマルチモーダルエンコーダデコーダ２１０に提供するステップを含み、第２のマルチモーダルエンコーダデコーダ２１０は、対応する第１の解説文１９５を含まない第１の音声映像データセット１９５に基づいて、第２の出力値を生成し、最適化モジュールは、第１出力値と第２出力値との間の誤差が所定の範囲に低減するまで、第２マルチモーダルエンコーダデコーダ２１０の第２のネットワークパラメータを更新し、誤差は、損失関数に基づいて計算される。
推論システム

さらに、図１に示すように、本発明のいくつかの実施形態によれば、対話応答生成システム１００が提供され得る。この場合、対話応答生成システムは、マルチモーダルエンコーダデコーダ２１０の命令を記憶するためのメモリ１４０および１つ以上の記憶装置１３０とを備え、マルチモーダルエンコーダデコーダ２１０は、１３０に記憶されたコンピュータ実施方法（図１に図示せず）によって訓練され、メモリ１４０および１つ以上のプロセッサ１２０に接続された１つ以上のプロセッサ１２０とを備え、メモリ１３０および１つ以上の記憶装置１４０は、１つ以上のプロセッサ１２０によって実行されると、１つ以上のプロセッサ１２０に以下のステップを含む動作を実行させることが可能である。これらのステップは、第１および第２の順次間隔に従って第１および第２の入力ベクトルを受信するステップと、１３０に記憶された第１の特徴抽出器および第２の特徴抽出器を用いて、第１の入力および第２の入力から、第１の特徴ベクトルおよび第２の特徴ベクトルをそれぞれ抽出するステップと、第１の特徴ベクトルと第２の特徴ベクトルとシーケンス生成器のプリステップコンテキストベクトルから、第１セットの重みおよび第２セットの重みをそれぞれ推定するステップと、第１セットの重みおよび第１特徴ベクトルから第１コンテキストベクトルを計算し、第２セットの重みおよび第２特徴ベクトルから第２コンテキストベクトルを計算するステップと、第１のコンテキストベクトルを、所定の次元を有する第１のモーダルコンテキストベクトルに変換し、第２のコンテキストベクトルを、所定の次元を有する第２のモーダルコンテキストベクトルに変換するステップと、プリステップコンテキストベクトルと第１のコンテキストベクトルと第２のコンテキストベクトルから、または第１のコンテキストベクトルおよび第２のコンテキストベクトルから、モーダルアテンション重みのセットを推定するステップと、モーダルアテンション重みのセットと第１のコンテキストベクトルと第２のコンテキストベクトルから、所定の次元を有する重み付きコンテキストベクトルを生成するステップと、ワードシーケンスを生成するための生成器を用いて、重み付きコンテキストベクトルから予測ワードを生成するステップとを含む。

実施形態に対する完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実施できることを理解することができる。例えば、不必要な詳細で実施形態を不明瞭にしないように、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の構成要素として示されてもよい。また、実施形態を不明瞭にしないように、周知のプロセス、構造、および技術は、不必要な詳細なしで示されてもよい。さらに、様々な図面において、同様の参照番号および名称は、同様の要素を示す。

また、各々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されることがある。フローチャートが動作を順次のプロセスとして説明しても、多くの動作は、並列にまたは同時に実行されてもよい。また、動作の順序は、変更されてもよい。プロセスの動作が完了したときに、プロセスを終了することができるが、このプロセスは、討論されていないまたは図示されていない追加のステップを含むことができる。さらに、具体的に記載されたプロセス内の全ての動作は、全ての実施形態に含まれる必要がない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどであってもよい。プロセスが関数である場合、関数の終了は、当該関数を呼び出し関数または主関数に復帰させることに対応する。

さらに、開示された主題の実施形態は、手動でまたは自動で、少なくとも部分的に実装されてもよい。手動または自動の実装は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせで実装されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。プロセッサは、必要なタスクを実行することができる。

図１は、本発明のいくつかの実施形態に従って、対話応答生成システム１００を示すブロック図である。システム１００は、キーボード１１１およびポインティングデバイス／メディア１１２に接続可能な入力／出力（Ｉ／Ｏ）インターフェイス付きヒューマンマシンインターフェイス（ＨＭＩ）１１０、マイクロフォン１１３、レシーバ１１４、トランスミッタ１１５、３Ｄセンサ１１６、全地球測位システム（ＧＰＳ）１１７、１つ以上のＩ／Ｏインターフェイス１１８、プロセッサ１２０、記憶装置１３０、メモリ１４０、ローカルエリアネットワークおよびインターネットネットワーク（図示せず）を含むネットワーク１９０に接続可能なネットワークインターフェイスコントローラ（ＮＩＣ）１５０、ディスプレイデバイス１６５が接続されたディスプレイインターフェイス１６０、画像および音響特徴を有する／有さない動画（映像特徴）を取得できるカメラを含むイメージングデバイス１７５が接続可能なイメージングインターフェイス１７０、プリントデバイス１８５が接続可能なプリンタインターフェイス１８０を含むことができる。Ｉ／Ｏインターフェイス付きＨＭＩ１１０は、アナログ／デジタルコンバータおよびデジタル／アナログコンバータを含むことができる。Ｉ／Ｏインターフェイス付きＨＭＩ１１０は、複数の３Ｄポイントクラウドの構築を可能にするワイヤレスインターネット接続またはワイヤレスローカルエリアネットワークを介して、他の３Ｄポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができるワイヤレス通信インターフェイスを含む。システム１００は、電源１９０を含むことができる。電源１９０は、Ｉ／Ｏインターフェイス１１８を介して、外部電源（図示せず）から充電可能なバッテリであってもよい。用途に応じて、電源１９０は、システム１００の外部に配置されてもよい。

ＨＭＩおよびＩ／Ｏインターフェイス１１０とＩ／Ｏインターフェイス１１８とは、とりわけコンピュータモニタ、カメラ、テレビ、プロジェクタ、またはモバイルデバイスを含む別のディスプレイデバイス（図示せず）に接続するように構成されてもよい。

システム１００は、ＮＩＣ１５０に接続されたネットワーク１９０を介して、音声データを含む電子テキスト／イメージ文書１９５を受信することができる。記憶装置１３０は、シーケンス生成モデル１３１と、特徴抽出モデル１３２と、マルチモーダルエンコーダデコーダ２００とを含む。シーケンス生成モデル１３１、特徴抽出モデル１３２およびマルチモーダルエンコーダデコーダ２００のアルゴリズムは、プログラムコードデータとして記憶装置１３０に記憶される。モデル１３１、１３２および２００のアルゴリズムは、コンピュータ可読記録媒体（図示せず）に記憶されてもよい。プロセッサ１２０は、その媒体からアルゴリズムをロードすることによって、モデル１３１、１３２およびマルチモーダルエンコーダデコーダ２００のアルゴリズムを実行することができる。また、ポインティングデバイス／メディア１１２は、コンピュータ可読記録媒体に記憶されたプログラムを読み出して実行するモジュールを含んでもよい。

モデル１３１、１３２およびマルチモーダルエンコーダデコーダ２００のアルゴリズムの実行を開始するために、キーボード１１１、ポインティングデバイス／メディア１１２を使用して、または他のコンピュータ（図示せず）に接続されたワイヤレスネットワークもしくはネットワーク１９０を介して、命令をシステム１００に送信することができる。記憶装置１３０に記憶された予めインストールされた従来の音声認識プログラム（図示せず）を用いて、ディスプレイインターフェイス１６０またはネットワーク１９０を介して音響特徴または映像特徴を受信することに応答して、モデル１３１～１３２および２００のアルゴリズムの実行を開始することができる。さらに、システム１００は、ユーザがシステム１００の動作の開始／停止を可能にするためのオン／オフスイッチ（図示せず）を含む。

ＨＭＩおよびＩ／Ｏインターフェイス１１０は、アナログ－デジタル（Ａ／Ｄ）コンバータ、デジタル－アナログ（Ｄ／Ａ）コンバータ、およびネットワーク１９０に接続するための無線信号アンテナを含むことができる。また、１つ以上のＩ／Ｏインターフェイス１１８は、ケーブルテレビ（ＴＶ）ネットワーク、光ファイバネットワーク、またはテレビ信号およびマルチモーダル情報信号を受信するための従来のテレビ（ＴＶ）アンテナに接続可能である。インターフェイス１１８を介して受信した信号は、デジタル画像および音声信号に変換されてもよい。これらのデジタル画像および音声信号は、プロセッサ１２０およびメモリ１４０に関連してモデル１３１、１３２および２００のアルゴリズムに従って処理されてもよい。これによって、スピーカ１９を介してテレビ信号の音声を出力すると共に、映像スクリプトが生成され、デジタル画像のピクチャフレームと共にディスプレイデバイス１６５に表示される。スピーカは、システム１００に含まれてもよく、インターフェイス１１０またはＩ／Ｏインターフェイス１１８を介して外部のスピーカを接続してもよい。

プロセッサ１２０は、１つ以上のグラフィック処理ユニット（ＧＰＵ）を含む複数のプロセッサであってもよい。記憶装置１３０は、マイクロフォン１１３を介して取得された音声信号を認識することができる音声認識アルゴリズム（図示せず）を含むことができる。

マルチモーダルエンコーダデコーダシステムモジュール２００、シーケンス生成モデル１３１および特徴抽出モデル１３２は、ニューラルネットワークによって形成されてもよい。

本発明のいくつかの実施形態は、学生－教師学習が教師モデルの知識を学生モデルに転移する転移学習であり得るという認識に基づく。学生－教師学習を用いて、より高い予測精度を有する大きなモデルの出力を模倣するように小さなモデルを訓練するというモデル圧縮を行うことができる。学生－教師学習は、小さなモデルの利点、すなわち、低い計算コストおよび低いメモリ消費を維持すると共に、小さなモデルの性能を大きなモデルの性能に近づけることができる。

また、学生－教師学習を用いて、入力に欠落している情報を補償することができる。この場合、教師モデルは、付加情報を用いてターゲットラベルを予測するように訓練されるが、学生モデルは、付加情報なしで教師の出力を模倣するように訓練される。自動音声認識（ＡＳＲ：automatic speech recognition）において、例えば、マイクアレイから得られた強化音声を用いて教師モデルを訓練する一方、単一チャンネルで記録された雑音のある音声を用いて、強化音声に対する教師モデルの出力を模倣するように学生モデルを訓練する。この方法によれば、学生モデルは、推論時にマイクアレイなしで性能を向上させることができる。また、この技術を用いて、子供音声と成人音声との間の領域適応を行うことができる。提案されたＡＶＳＤシステムは、このアプローチを利用して、欠落した映像解説を補償する。学生モデルは、解説特徴なしでより良い応答を生成することができる。我々は、学生モデルのより良い教師となるように教師モデルを改善する目的で、このフレームワークを学生－教師共同学習にさらに拡張する。

図２Ａは、本開示の実施形態に従って、コンピュータに実装されたアテンションベースのマルチモーダルモデル（方法）２００に基づいた音声映像シーン認識対話システム（アーキテクチャ）の構成を示すブロック図である。

システムは、複数のモダリティ２１１を含む入力データからコンテキストベクトル２２０を生成する。場合によっては、マルチモーダル融合システム２００は、テキスト特徴２０１、画像（映像）特徴２０２、音声特徴２０３、および映像特徴２０２から抽出された動作特徴を含む入力特徴を受信し、入力特徴２１１に関連する対話システム応答２３１を生成する。テキスト入力２０１は、手動映像解説２０９または自動映像解説３９１、質問２０８などのユーザ入力、および対話履歴２０７を含むことができる。

この図面は、本発明の実施形態に従って、提案されたＡＶＳＤシステムのアーキテクチャの一例を示す。モデル（方法）２００は、エンコーダデコーダ２１０および２３０を利用して、ネットワークが現在のコンテキストに依存して特定の時間フレームから特徴を強調することを可能にすることによって、次のワードをより正確に生成することを可能にする。アテンションモデルの有効性は、機械翻訳および映像解説などの多くの作業に示されている。

学生－教師学習（図２Ｂのタグ番号を用いて説明してください）

図２Ｂは、本発明のいくつかの実施形態に従って、ＡＶＳＤシステムの学生－教師学習を示すブロック図である。ＡＶＳＤシステムは、学生ネットワーク２１０と、教師ネットワーク２５０とを含む。この図面は、ＡＶＳＤシステムの学生－教師学習の概念を示す。このステップの目的は、映像解説テキストを使用して予め訓練された教師モデル２５０を模倣するように、映像解説テキストを使用せず訓練された学生モデル２１０を得ることである。したがって、学生モデル２１０を用いて、教師モデル２５０と同様の性能を達成しながら、解説テキストに依存することなくシステム応答を生成することができる。

ＤＳＴＣ７－ＡＶＳＤトラックにおける最良のシステムに従って、各質問の先頭に解説テキスト２０９を挿入する。これは、ターゲット映像クリップに関する対話が変わる度に、常に新たな質問と共に同じ解説をエンコーダに提供することを意味する。教師ネットワーク２５０の出力をソフトターゲットとして、学生ネットワーク２１０の出力分布を教師モデル２５０の出力分布に近似させるように、学生ネットワーク２１０を訓練することによって、クロスエントロピー損失を低減することができる。

図３は、自動映像解説を生成するための第１のマルチモーダルエンコーダデコーダ３５０から得られるコンテキストベクトル３３３を生成することに基づく本開示のいくつかの実施形態を示すブロック図である。自動映像解説文３９１は、音声映像データセットに関連する手動映像解説文２０１の代わりに、テキスト特徴３３３として対話応答を生成するための第２のマルチモーダルエンコーダデコーダ３００に入力される。

また、映像解説を生成するための第１のマルチモーダルエンコーダデコーダ３５０のエンコーダからのコンテキストベクトル出力３８０は、第２の対話応答を生成するためのマルチモーダルエンコーダデコーダ３００のデコーダに入力される対話応答文３３５のコンテキストベクトルに埋め込まれてもよい。

図４は、本発明のいくつかの実施形態に従って、映像シーン認識対話データセットの統計を示す。ＡＶＳＤデータセットは、短い映像に関するテキスト対話の集合である。映像クリップは、未編集のマルチアクションデータセットであるジェスチャデータセットから得られる。このジェスチャデータセットは、１１８４８個の映像を含む。これらの映像は、７９８５個の訓練用映像、１８６３個の検証用映像、および２０００個の推論用映像に分けられる。このデータセットは、いくつかの細粒度の動作を有する１５７個の動作カテゴリを含む。また、このデータセットは、２７８４７個のテキスト解説をこれらの映像に与える。各映像は、１～３個の文章で解説されている。ジェスチャデータセット内の各映像について、ＡＶＳＤデータセットは、映像を議論する２人の間のテキスト対話を含む。
ＡＶＳＤシステム

図２Ａは、本発明の一実施形態に従って、ＡＶＳＤシステムを訓練する方法を示すモデル２００を示す図である。質問エンコーダは、ワード埋め込み層（２００次元）と、２つのＢＬＳＴＭ層（各方向について２５６次元）とを含む。Ｉ３Ｄ－ｒｇｂ（２０４８次元）、Ｉ３Ｄ－フロー（２０４８次元）およびＶＧＧｉｓｈ（１２８次元）からなる音声映像特徴は、予め訓練された深層ＣＮＮを用いて映像フレームから抽出された。これらの特徴シーケンスは、その後、単一投影層を有するマルチモーダルエンコーダに提供される。このマルチモーダルエンコーダは、これらの特徴シーケンスを５１２次元ベクトル、５１２次元ベクトルおよび６４次元ベクトルにそれぞれ変換した。履歴エンコーダは、ワード埋め込み層（２００次元）と、質問－回答ペアを埋め込むための２つのＬＳＴＭ層（２５６次元）と、履歴を埋め込むための１つのＢＬＳＴＭ層（各方向について２５６次元）とを含む。訓練のために、ＡＤＡＭ最適化ツールを使用した。妥当性困惑度が各エポック後に減少しなかった場合に、学習率を半分にし、訓練を２０エポックまで継続した。ボキャブラリサイズは、３９１０であり、訓練セットにおいて少なくとも４回出現した単語のみを保持した。

図５Ａは、本発明の実施形態に従って、単一の参照を含むＡＶＳＤ試行推論セットの評価結果を示す。システム応答の品質は、参照と重複する単語の度合いに基づくＢＬＥＵ、ＭＥＴＥＯＲ、ＲＯＵＧＥ－Ｌ、およびＣＩＤＥｒなどの客観的スコアを用いて測定された。本発明の音声映像特徴と同じものを利用する単純なＬＳＴＭ型エンコーダデコーダであるＤＳＴＣ７－ＡＶＳＤトラックオーガナイザによって提供されたベースラインシステムも評価された。ＡＶＳＤ最良システムの結果も示されている。このシステムは、本発明のシステムと類似するアーキテクチャを有するが、２つのエンコーダのみを含む。２つのエンコーダのうち、１つは、質問を処理するためのエンコーダであり、もう１つは、３ＤＲｅｓＮｅｔによって得られた映像特徴を処理するためのエンコーダである。そのネットワークは、Ｈｏｗ２データセットを用いて予め訓練されたが、本発明のモデルは、ＡＶＳＤデータセットのみを用いて訓練された。

本発明のシステムは、手動映像解説文を用いて訓練および推論の両方を行う場合（第２列の「手動、手動」）に、最良のＡＶＳＤシステムよりも優れた性能を示したが、推論段階に解説をネットワークに提供しなかった（「手動、－」）場合に、性能は著しく劣化した。手動解説の代わりに自動解説（「手動、自動」）を提供し、同じＡＶＳＤデータセットを用いて訓練された映像解説モデルを使用した場合、限られた改善は見られた。解説なしで（「－、－」）訓練されたモデルは、他の条件よりもわずかに良好であった。

図５Ｂは、各応答に対して６つの参照を含むＡＶＳＤ公式推論セットの評価結果を示す。図６Ａと同様に、本発明のシステムは、最良のシステムＤＳＴＣ７を含む他のシステムよりも優れたものであった。また、学生－教師フレームワークは、公式推論セットに対して有意なゲインを提供した。

上述したように、本発明に従ったいくつかの実施形態は、訓練時に利用可能であった映像解説特徴の欠落を推論時に補償するためのコンピュータ実施方法を提供することができる。本発明は、ＡＶＳＤ（Audio-Visual Scene-aware Dialog）のための学習フレームワークを提供することができる。本発明のＡＶＳＤシステムは、従来の方法よりも優れた性能を達成し、手動映像解説文で訓練されたシステムに負けず、最良のＤＳＴＣ７－ＡＶＳＤシステムよりも優れた性能を達成した。訓練されたモデルは、映像に関する音声情報、視覚情報およびテキスト情報を融合することによって映像コンテキストに関する質問を回答することができ、手動映像解説文に依存することなく高品質の応答を生成することができる。さらに、本発明の別の実施形態は、殆どの客観的メトリックにおいてさらなるゲインを達成することができる、学生－教師共同学習アプローチを提供することができる。

本開示のいくつかの実施形態において、上述のマルチモーダル融合モデルをコンピュータシステムにインストールすると、より少ない計算能力で映像スクリプトを効果的に生成することができる。したがって、マルチモーダル融合モデル方法またはシステムによって、中央処理ユニットの使用および電力消費を低減することができる。

さらに、本開示の実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供する。したがって、マルチモーダル融合モデルを使用する方法およびシステムによって、中央処理ユニット（ＣＰＵ）の使用、電力消費、および／またはネットワーク帯域幅の使用を低減することができる。

上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。１つの集積回路要素は、１つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。

また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの的背うなプログラミング言語および／またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。

また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、いくつかの動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第１、第２などの使用は、別の請求項要素に対する１つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、（順序用語を使用することによって）特定の名前を有する１つの請求項要素と同じ名前を有する別の要素とを区別させる。

いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。

Claims

対話応答生成システムを訓練するためのコンピュータ実施方法であって、
映像訓練解説を用いて音声映像データセットを訓練することによって、第１のマルチモーダルエンコーダデコーダを予め訓練するステップと、
第１の入力および第１の出力を含む前記第１のマルチモーダルエンコーダデコーダを配置するステップを含み、
第２の入力および第２の出力を含む第２のマルチモーダルエンコーダデコーダを配置するステップと、
対応する第１の解説文を含む第１の音声映像データセットを前記第１のマルチモーダルエンコーダデコーダの前記第１の入力に提供するステップとを含み、アテンションベースの前記第１のマルチモーダルエンコーダデコーダは、前記対応する第１の解説文を含む前記第１の音声映像データセットに基づいて、第１の出力値を生成し、
前記対応する第１の解説文を除く前記第１の音声映像データセットを前記第２のマルチモーダルエンコーダデコーダに提供するステップを含み、前記第２のマルチモーダルエンコーダデコーダは、前記対応する第１の解説文を含まない前記第１の音声映像データセットに基づいて、第２の出力値を生成し、最適化モジュールは、前記第１の出力値と前記第２の出力値との間の誤差が所定の範囲に低減するまで、前記第２のマルチモーダルエンコーダデコーダのネットワークパラメータを更新し、前記誤差は、損失関数に基づいて計算される、コンピュータ実施方法。
前記損失関数は、クロスエントロピー損失関数である、請求項１に記載のコンピュータ実施方法。
前記損失関数は、前記第１のマルチモーダルエンコーダデコーダのコンテキストベクトルと前記第２のマルチモーダルエンコーダデコーダのコンテキストベクトルとの間の平均二乗誤差を取り入れる、請求項２に記載のコンピュータ実施方法。
前記第１のマルチモーダルエンコーダデコーダのパラメータは、更新されない、請求項１に記載のコンピュータ実施方法。
前記最適化モジュールは、クロスエントロピー損失関数に基づいて、前記第１のマルチモーダルエンコーダデコーダのパラメータを更新する、請求項１に記載のコンピュータ実施方法。
前記最適化モジュールは、逆伝搬法を用いて、前記第２のマルチモーダルエンコーダデコーダの前記ネットワークパラメータを更新する、請求項１に記載のコンピュータ実施方法。
対話応答生成システムを訓練するためのシステムであって、
１つ以上のプロセッサによって実行される命令を記憶するためのメモリおよび１つ以上の記憶装置と、
前記メモリおよび前記１つ以上の記憶装置に接続された前記１つ以上のプロセッサとを備え、前記メモリおよび前記１つ以上の記憶装置は、前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに以下のステップを含む動作を実行させることが可能であり、前記ステップは、
映像訓練解説を用いて音声映像データセットを訓練することによって、第１のマルチモーダルエンコーダデコーダを予め訓練するステップと、
第１の入力および第１の出力を含む前記第１のマルチモーダルエンコーダデコーダを配置するステップを含み、
第２の入力および第２の出力を含む第２のマルチモーダルエンコーダデコーダを配置するステップと、
対応する第１の解説文を含む第１の音声映像データセットを前記第１のマルチモーダルエンコーダデコーダの前記第１の入力に提供するステップとを含み、アテンションベースの前記第１のマルチモーダルエンコーダデコーダは、前記対応する第１の解説文を含む前記第１の音声映像データセットに基づいて、第１の出力値を生成し、
前記対応する第１の解説文を除く前記第１の音声映像データセットを前記第２のマルチモーダルエンコーダデコーダに提供するステップを含み、前記第２のマルチモーダルエンコーダデコーダは、前記対応する第１の解説文を含まない前記第１の音声映像データセットに基づいて、第２の出力値を生成し、最適化モジュールは、前記第１の出力値と前記第２の出力値との間の誤差が所定の範囲に低減するまで、前記第２のマルチモーダルエンコーダデコーダのネットワークパラメータを更新し、前記誤差は、損失関数に基づいて計算される、システム。
前記損失関数は、クロスエントロピー損失関数である、請求項７に記載のシステム。
前記損失関数は、前記第１のマルチモーダルエンコーダデコーダのコンテキストベクトルと前記第２のマルチモーダルエンコーダデコーダのコンテキストベクトルとの間の平均二乗誤差を取り入れる、請求項８に記載のシステム。
前記第１のマルチモーダルエンコーダデコーダのパラメータは、更新されない、請求項７に記載のシステム。
前記最適化モジュールは、クロスエントロピー損失関数に基づいて、前記第１のマルチモーダルエンコーダデコーダのパラメータを更新する、請求項７に記載のシステム。
前記最適化モジュールは、逆伝搬法を用いて、前記第２のマルチモーダルエンコーダデコーダの前記ネットワークパラメータを更新する、請求項７に記載のシステム。