JP7426917B2

JP7426917B2 - ユーザ周辺のマルチモーダル情報に応じてユーザと対話するプログラム、装置及び方法

Info

Publication number: JP7426917B2
Application number: JP2020164490A
Authority: JP
Inventors: 博楊; 剣明呉; 元服部
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-02-02
Anticipated expiration: 2040-09-30
Also published as: JP2022056638A

Description

本発明は、ユーザと自然な対話を実現する対話エージェントの技術に関する。

ユーザとの対話システムとしては、テキストベースが一般的である。端末は、ユーザインタフェースとして機能し、ユーザの発話音声を対話システムへ送信する。対話システムは、その発話文に対して自然な対話となる応答文を推定し、その応答文を端末へ返信する。そして、端末は、その応答文を音声又はテキストによって、ユーザへ返答する。このような対話システムとしては、例えば「Siri（登録商標）」や「しゃべってコンシェル（登録商標）」がある。

これに対し、ユーザ周辺のマルチモーダル情報（動画、画像、そのキャプション、字幕、音声、自然言語テキストなど）に応じた対話システムが期待されている。この対話システムは、テキストベースのユーザの発話文のみならず、ユーザ周辺の様々なマルチモーダル情報に応じて、より自然な応答文を推定することができると考えられている。特に、テレビ番組に連動した対話や、映画の場面に応じた対話、オンラインビデオの場面に応じた対話など、ユーザにおける特有な周辺環境が想定されている。特に、ＡＩ(Artificial Intelligence)を用いた雑談対話システムによれば、マルチモーダル情報に応じて自然な応答文を返答することができ、ユーザの対話意欲を高めることが期待される。

従来、ユーザが視聴している映像の内容に基づいて、ユーザとロボットとが対話する対話システムの技術がある（例えば非特許文献１参照）。この技術によれば、音声付き映像及び字幕を入力することによって、ユーザの質問文に対して、当該ユーザが視聴している映像に応じた応答文を返答することができる。

また、音声付き映像及び字幕の特徴ベクトルを学習し、直前の質問文に対する応答文を生成する技術もある（例えば非特許文献２参照）。この技術によれば、対話システムは、訓練済みの学習モデルGPT-2（登録商標）を用いてファインチューニングをし、マルチモーダル情報に応じた応答文の対話精度を高めることができる。

Hung Le, Doyen Sahoo, Nancy F. Chen, Steven C.H. Hoi, "Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems"（2019）、[online]、［令和２年９月２６日検索］、インターネット＜URL:https://arxiv.org/abs/1907.01166＞ Hung Le, Steven C.H. Hoi, "Video-Grounded Dialogues with Pretrained Generation Language Models" (2020) 、[online]、［令和２年９月２６日検索］、インターネット＜URL:https://www.aclweb.org/anthology/2020.acl-main.518/＞「深層学習界の大前提Transformerの論文解説！」、[online]、［令和２年９月２６日検索］、インターネット＜URL:https://qiita.com/omiita/items/07e69aef6c156d23c538＞

しかしながら、前述した非特許文献１及び２に記載の技術によれば、マルチモーダル情報を用いているものの、結局、ユーザの直前の発話文に対して、音声付き映像及び字幕に応じた応答文を生成しているに過ぎない。そのために、発話文と応答文以外のオープンドメインの話題に対して、例えば雑談のような自然な対話を生成することは難しい。これは、結局、ユーザの直前の質問文（発話文）に対する回答文（応答文）との関係に過ぎない。

そこで、本発明は、ユーザ周辺のマルチモーダル情報を用いて、ユーザと自然に対話することができるプログラム、装置及び方法を提供することを目的とする。

本発明によれば、ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文をコンピュータに生成させるためのプログラムにおいて、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
マルチモーダル情報抽出手段から抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成する映像特徴ベクトル生成手段と、
サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成する画像特徴ベクトル生成手段と、
発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する言語特徴ベクトル生成手段と、
映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する映像エンコーダと、
映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する言語エンコーダと、
言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する言語デコーダと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合層から出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する回帰層と
してコンピュータを機能させ、
回帰層は、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ように機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
映像エンコーダ及び映像デコーダと、言語エンコーダ及び言語デコーダとは、Transformerに基づくものである
ように機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
教師データにおける映像は、字幕付き映像である
ように機能させることも好ましい。

本発明によれば、ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文を生成するための対話装置において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
マルチモーダル情報抽出手段から抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成する映像特徴ベクトル生成手段と、
サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成する画像特徴ベクトル生成手段と、
発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する言語特徴ベクトル生成手段と、
映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する映像エンコーダと、
映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する言語エンコーダと、
言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する言語デコーダと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合層から出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する回帰層と
してコンピュータを機能させ、
回帰層は、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ことを特徴とする。

本発明によれば、ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文を生成する装置の対話方法において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
装置は、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出する第１のステップと、
第１のステップから抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出する第２のステップと、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成し、サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成し、発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する第３のステップと、
映像エンコーダに、映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力すると共に、映像デコーダに、映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力し、且つ、言語エンコーダに、発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力すると共に、言語デコーダに、言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する第４のステップと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する第５のステップと、
第５のステップで出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する第６のステップと
を実行し、
第６のステップは、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について第５のステップで出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について第５のステップで出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ように実行することを特徴とする。

本発明のプログラム、装置及び方法によれば、ユーザ周辺のマルチモーダル情報を用いて、ユーザと自然に対話することができる。

訓練時に用いられる教師データを表す説明図である。本発明の対話装置における訓練時の機能構成図である。映像に対するマルチモーダル情報抽出部及びサンプリング画像抽出部の処理を表す説明図である。対話文履歴に対するマルチモーダル情報抽出部の処理を表す説明図である。本発明の対話装置における運用時の機能構成図である。運用時に入力される対象データを表す説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

本発明の対話装置１は、ユーザ周辺のマルチモーダル情報に応じてユーザと対話する。
対話装置１は、複数の機械学習エンジンを搭載しており、＜訓練時＞及び＜運用時＞に分けられる。また、対話装置１は、機械学習エンジンの訓練時に、＜教師データ＞によって学習モデルを構築する。

＜教師データ＞
図１は、訓練時に用いられる教師データを表す説明図である。

教師データは、「映像」と「対話文履歴」とからなるマルチモーダル情報である。映像は、２人の人物が一緒に視聴している共通認識となるメディアである。また、対話文履歴は、その映像を一緒に視聴している人物同士の「発話文及び応答文の組」を複数含む一連の対話文である。これらマルチモーダル情報を、教師データとして大量に収集しておく必要がある。勿論、同一映像に対して異なる人物同士の対話文履歴を収集することも好ましい。同一映像であっても、対話相手が異なれば様々な観点から多様な対話文を収集することができる。

図１によれば、ユーザＡ及びＢが、映像と、その映像を視聴しながら対話した対話文履歴とからなるマルチモーダル情報を、教師データをして記録したものである。具体的は、映像は、「オレンジを切っている」ものであり、ユーザＡ及びＢは以下のように対話している。
・・・・・・・・・・・・・・・・・・・・
ユーザＡ：オレンジの頭とお尻をとってるね
ユーザＢ：そうそう、次は皮ですね
ユーザＡ：慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
ユーザＢ：僕は皮を切ることが下手ですね
・・・・・・・・・・・・・・・・・・・・

＜訓練時＞
図２は、本発明の対話装置における訓練時の機能構成図である。

図２によれば、対話装置１は、教師データ蓄積部１００に、過去に記録された大量のマルチモーダル情報を、教師データとして予め蓄積している。勿論、これら教師データは、対話装置１自らが記憶しておく必要はないが、訓練時に外部から入力する必要がある。

図２によれば、対話装置１は、「訓練時及び運用時の両方に共通した機能部」として、マルチモーダル情報抽出部１０１と、サンプリング画像抽出部１２０とを有する。
また、図２によれば、対話装置１は、「訓練時の機能部」として、映像特徴ベクトル生成部１１１と、画像特徴ベクトル生成部１２１と、言語特徴ベクトル生成部１３１と、映像エンコーダ１４１と、映像デコーダ１４２と、言語エンコーダ１５１と、言語デコーダ１５２と、結合層１６と、回帰層１７とを有する。
これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話装置の訓練方法としても理解できる。

［マルチモーダル情報抽出部１０１］
マルチモーダル情報抽出部１０１は、マルチモーダル情報に対して、以下のように、＜映像の抽出機能＞と＜対話文履歴の抽出機能＞とを有する。

＜映像の抽出機能＞
図３は、映像に対するマルチモーダル情報抽出部及びサンプリング画像抽出部の処理を表す説明図である。
図３によれば、マルチモーダル情報抽出部１０１は、教師データの映像に対して、所定時間帯（例えば５秒程度）に区分する。ここで、一連の映像の中で、一部が重畳するように連続的に区分されてもよいし、重畳しないように断片的に区分されるものであってもよい。
抽出された所定時間帯の映像は、映像特徴ベクトル生成部１１１とサンプリング画像抽出部１２０との両方へ出力される。

＜対話文履歴の抽出機能＞
図４は、対話文履歴に対するマルチモーダル情報抽出部の処理を表す説明図である。
図４によれば、マルチモーダル情報抽出部１０１は、教師データの対話文履歴に対して、前述した映像と同期した所定時間帯（例えば５秒程度）に区分する。図４によれば、具体的に以下の対話文履歴として区分される。
ユーザＡ：オレンジの頭とお尻をとってるね
ユーザＢ：そうそう、次は皮ですね
ユーザＡ：慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
ユーザＢ：僕は皮を切ることが下手ですね
そして、所定時間帯の対話文履歴は、言語特徴ベクトル生成部１３１へ出力される。

また、マルチモーダル情報抽出部１０１は、対話文履歴の中で、発話文及び応答文の組に区分したそれぞれを、言語特徴ベクトル生成部１３１へ出力する。
図４によれば、具体的に以下の発話文及び応答文の組がそれぞれ、言語特徴ベクトル生成部１３１へ出力される。
発話文：慣れてきたら、一緒に剥いちゃって全然いいですけど、
まずはオレンジの皮を剥いて、白い皮まで
応答文：僕は皮を切ることが下手ですね

［サンプリング画像抽出部１２０］
サンプリング画像抽出部１２０は、抽出された対話文履歴における発話文及び応答文の１文毎に、所定時間帯の映像からサンプリング画像を抽出する。
図３によれば、ユーザＡの発話文「慣れてきたら、一緒に剥いちゃって全然いいですけど、まずはオレンジ皮を剥いて、白い皮まで」の１文に対して、その時点の映像の中の１枚のフレームとなるサンプリング画像が抽出される。
抽出されたサンプリング画像は、画像特徴ベクトル生成部１２１へ出力される。

［映像特徴ベクトル生成部１１１］
映像特徴ベクトル生成部１１１は、マルチモーダル情報抽出部１０１から所定時間帯の映像を入力し、その映像特徴ベクトルを映像エンコーダ１４１へ出力する。
映像特徴ベクトルは、具体的にはVideoBERT（登録商標）やVGD-GPT2（登録商標）のような分散表現生成(embedding)アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
ここで、教師データの「映像」は、「字幕付き映像」であることも好ましい。

［画像特徴ベクトル生成部１２１］
画像特徴ベクトル生成部１２１は、サンプリング画像抽出部１２０からサンプリング画像を入力し、その画像特徴ベクトルを映像エンコーダ１４１へ出力する。
画像特徴ベクトルも、具体的にはVisualBERT（登録商標）のような分散表現生成アルゴリズムを適用し、高次元ベクトルに置き換えたものである。

［言語特徴ベクトル生成部１３１］
言語特徴ベクトル生成部１３１は、マルチモーダル情報抽出部１０１から、「対話文履歴」と「発話文」及び「応答文」の組とを入力し、それぞれの言語特徴ベクトルを言語エンコーダ１５１へ出力する。
言語特徴ベクトルも、具体的にはBERT（登録商標）やGPT-2（登録商標）のような分散表現生成アルゴリズムを適用し、高次元ベクトルに置き換えたものである。

［映像エンコーダ１４１］
映像エンコーダ１４１は、教師データにおける映像の特徴ベクトルとサンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する。
［映像デコーダ１４２］
映像デコーダ１４２は、映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する。
［言語エンコーダ１５１］
言語エンコーダ１５１は、教師データにおける発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する。
［言語デコーダ１５２］
言語デコーダ１５２は、言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する。

［結合層１６］
結合層１６は、映像デコーダ１４２から出力された映像特徴ベクトルと、言語デコーダ１５２から出力された言語特徴ベクトルとを結合する。具体的には、映像の特徴ベクトルと画像の特徴ベクトルとの全てを、１つのノードに結合する。結合ベクトルは、回帰層１７へ出力される。
本発明の結合層１６は、映像特徴ベクトルと言語特徴ベクトルとによって、以下の２つのマッチングに基づく結合ベクトルを出力する。
（１）「所定時間帯の映像」と、「対話文履歴」とのマッチング
（２）「サンプリング画像」と、「発話文」とのマッチング

映像エンコーダ１４１と、映像デコーダ１４２と、言語エンコーダ１５１と、言語デコーダ１５２とは、Transformerに基づくものである（例えば非特許文献３参照）。前述したように、具体的にはBERT(Bidirectional Encoder Representations from Transformers)やGPT-2(Generative Pre-Training 2)を適用することができる。これらは、ラベル付けされていない映像特徴ベクトルと言語特徴ベクトルとをクロスモーダルに学習する。これは、時間的に同期した映像、画像、対話文履歴、発話文、応答文との関連付けを学習することを意味する。

BERTとは、Transformerアーキテクチャによる双方向学習のエンコード表現であり、Google（登録商標）の自然言語処理モデルである。映像や画像についてはVideoBERTやVisualBERTがある。BERTは、Seq2seqベースの事前学習モデルであり、ラベルが付与されていない特徴ベクトル（分散表現）をTransformerで処理して学習する。これは、連続する文章の中で、次に来る単語を単に予測するだけでなく、周りの文脈からからマスクされている単語を双方向で予測する。これによって、単語に対応する文脈情報を学習する。
尚、VideoBERTは、映像と字幕（テキスト）とを組み合わせてクロスモーダルに学習することもできる。そのために、教師データの映像として、「字幕付き映像」を用いることもできる。
また、GPT-2は、Open AIに基づくものであり、自然言語に代えてピクセルで学習することによって、前半の映像（又は一部の画像）のシーケンスから、人間が感覚的に考えるように、後半の映像（又は画像全体）を予測することができる。

［回帰層１７］
回帰層１７は、線形回帰に基づいて、結合層１６の結合ベクトルからsoftmax関数に基づく応答文の特徴ベクトルと、発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ１４１及び映像デコーダ１４２と言語エンコーダ１５１及び言語デコーダ１５２との内部パラメータを訓練する。

＜運用時＞
図５は、本発明の対話装置における運用時の機能構成図である。

図５によれば、対話装置１は、ユーザインタフェース機能となる端末２と通信する。端末２は、ユーザ周辺のマルチモーダル情報を取得可能なデバイスを搭載している。少なくとも、ユーザからの発話音声を収音可能なマイクと、ユーザが視聴中の映像を撮影可能なカメラ（又はテレビやディスプレイへの接続インタフェース）とを搭載する。このような端末２としては、例えば「SOTA（登録商標）」「ユニボー（登録商標）」のようなロボット（以下「端末」と称す）がある。また、マイク及びカメラ等を備えた「Google Home（登録商標）」や「Amazon Echo（登録商標）」のようなスマートスピーカであってもよい。

対話装置１の通信インタフェース１０２は、端末２から「映像」「発話音声」を受信すると共に、端末２へ「応答音声」を送信する。ここで、通信インタフェース１０２は、ユーザの発話音声の音声認識機能、及び、ユーザへの応答文の音声合成機能を有する。音声認識機能は、端末２のマイクによって取得されたユーザの発話音声を、テキストベースの発話文に変換する。音声合成機能は、生成された応答文を、音声信号に変換する。これら発話文及び応答文の組の履歴が、対話文履歴となる。
尚、音声認識機能及び音声合成機能は、端末２に搭載されるものであってもよい。その場合、端末２からテキストベースの「発話文」を受信すると共に、端末２へ「応答文」を送信する。

図５の機能構成は、図２の訓練時の機能構成と異なって、言語変換部１８を更に有する。言語変換部１８は、前述した言語特徴ベクトル生成部１３１と逆の機能であって、回帰層１７から出力された応答文の特徴ベクトルを、応答文のテキストに変換する。変換された応答文は、通信インタフェース１０２を介して端末２へ送信される。

即ち、前述した図２における訓練段階では、教師データについて処理されるのに対し、図５における運用段階では、通信インタフェース１０２によってリアルタイムに受信した対象データについて処理される。

図６は、運用時に入力される対象データを表す説明図である。

図６によれば、対話装置１の対話エージェントのキャラクタＸと、ユーザＹとが対話している。このとき、ユーザＹが視聴している映像を取得すると共に、ユーザＹとキャラクタＸとの間の対話文履歴も記録されている。

マルチモーダル情報抽出部１０１によって抽出された対象データの所定時間帯の映像は、映像特徴ベクトル生成部１１１へ入力される。また、その対象データの所定時間帯の映像から、サンプリング画像抽出部１２０によって抽出されたサンプリング画像は、画像特徴ベクトル生成部１２１へ入力される。更に、対象データの対話文履歴と、対話文履歴に含まれるユーザＹの最後の発話文とが、言語特徴ベクトル生成部１３１へ入力される。
図６によれば、対象データとして、具体的に以下の対話文履歴が入力されている。
ユーザＹ：オレンジを切りますね。
ユーザＸ：皮も剥いてください。
ユーザＹ：どこまで剥けばいいですかね。
また、ユーザＹの最後の発話文も、特定される。
ユーザＹ：どこまで剥けばいいですかね。

運用段階では、映像エンコーダ１４１は、対象データにおける映像特徴ベクトルとサンプリング画像の画像特徴ベクトルとを入力する。また、言語エンコーダ１５１は、対象データにおける発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力する。
そして、回帰層１７は、応答文の特徴ベクトルを出力する。その特徴ベクトルは、言語変換部１８によってテキストベースの応答文に変換される。
最終的に、ユーザから見て、その応答文はキャラクタＸの応答音声としてスピーカから出される。
ユーザＸ：白い皮まで剥いてください。

以上、詳細に説明したように、本発明の対話プログラム、装置及び方法によれば、ユーザ周辺のマルチモーダル情報を用いて、ユーザと自然に対話することができる。これによって、ユーザから見て雑談のように対話することができ、ユーザの対話意欲を高めることができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１対話装置
１００教師データ蓄積部
１０１マルチモーダル情報抽出部
１０２通信インタフェース
１１１映像特徴ベクトル生成部
１２０サンプリング画像抽出部
１２１画像特徴ベクトル生成部
１３１言語特徴ベクトル生成部
１４１映像エンコーダ
１４２映像デコーダ
１５１言語エンコーダ
１５２言語デコーダ
１６結合層
１７回帰層
１８言語変換部
２端末

Claims

ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文をコンピュータに生成させるためのプログラムにおいて、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
マルチモーダル情報抽出手段から抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成する映像特徴ベクトル生成手段と、
サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成する画像特徴ベクトル生成手段と、
発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する言語特徴ベクトル生成手段と、
映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する映像エンコーダと、
映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する言語エンコーダと、
言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する言語デコーダと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合層から出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する回帰層と
してコンピュータを機能させ、
回帰層は、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ように機能させることを特徴とするプログラム。
映像エンコーダ及び映像デコーダと、言語エンコーダ及び言語デコーダとは、Transformerに基づくものである
ように機能させることを特徴とする請求項１に記載のプログラム。
教師データにおける映像は、字幕付き映像である
ように機能させることを特徴とする請求項１又は２に記載のプログラム。
ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文を生成するための対話装置において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出するマルチモーダル情報抽出手段と、
マルチモーダル情報抽出手段から抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出するサンプリング画像抽出手段と、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成する映像特徴ベクトル生成手段と、
サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成する画像特徴ベクトル生成手段と、
発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する言語特徴ベクトル生成手段と、
映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力する映像エンコーダと、
映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力する映像デコーダと、
発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力する言語エンコーダと、
言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する言語デコーダと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する結合層と、
結合層から出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する回帰層と
してコンピュータを機能させ、
回帰層は、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について結合層から出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ことを特徴とする対話装置。
ユーザ周辺のマルチモーダル情報に応じてユーザの発話文に対する応答文を生成する装置の対話方法において、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対象データは、映像と、当該映像を視聴しているユーザとの間の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
装置は、
教師データ又は対象データを入力し、所定時間帯の映像及び対話文履歴を抽出する第１のステップと、
第１のステップから抽出された対話文履歴の発話文及び応答文の１文毎に、当該映像からサンプリング画像を抽出する第２のステップと、
映像から分散表現生成アルゴリズムによって特徴ベクトルを生成し、サンプリング画像から分散表現生成アルゴリズムによって特徴ベクトルを生成し、発話文及び対話文履歴から分散表現生成アルゴリズムによって特徴ベクトルを生成する第３のステップと、
映像エンコーダに、映像の特徴ベクトルと、サンプリング画像の特徴ベクトルとを入力し、映像潜在ベクトルを出力すると共に、映像デコーダに、映像エンコーダから出力された映像潜在ベクトルを入力し、映像特徴ベクトルを出力し、且つ、言語エンコーダに、発話文の特徴ベクトルと、所定時間帯における当該発話文を含む対話文履歴の特徴ベクトルとを入力し、言語潜在ベクトルを出力すると共に、言語デコーダに、言語エンコーダから出力された言語潜在ベクトルを入力し、言語特徴ベクトルを出力する第４のステップと、
映像デコーダから出力された映像特徴ベクトルと、言語デコーダから出力された言語特徴ベクトルとを結合した結合ベクトルを出力する第５のステップと、
第５のステップで出力された結合ベクトルを入力し、当該結合ベクトルからsoftmax関数に基づく、対応する応答文の特徴ベクトルを算出して出力する第６のステップと
を実行し、
第６のステップは、
訓練段階では、線形回帰に基づいて、教師データにおける発話文及び対話文履歴について第５のステップで出力された結合ベクトルから算出した応答文の特徴ベクトルと、教師データにおける発話文に対応する応答文の特徴ベクトルとの間の損失が最小となるように、映像エンコーダ、映像デコーダ、言語エンコーダ及び言語デコーダの内部パラメータを訓練し、
運用段階では、対象データにおける発話文及び対話文履歴について第５のステップで出力された結合ベクトルから算出した応答文の特徴ベクトルを出力する
ように実行することを特徴とする装置の対話方法。