JP5309070B2

JP5309070B2 - マルチモーダル対話装置

Info

Publication number: JP5309070B2
Application number: JP2010083671A
Authority: JP
Inventors: ▲シン▼ 徐; 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2013-10-09
Anticipated expiration: 2030-03-31
Also published as: JP2011215900A

Description

本発明は、ユーザの発話による音声情報に加えて、カメラを使用して得られた視覚情報など複数のメディア情報を利用して複数の利用者の検索意図や対話状態を推定し、仮想的な対話を行なうマルチモーダル対話装置に関する。

人間とコンピュータシステムとが情報のやり取りを行って問題を解決する対話システムとして、より人間に近いインタフェースを利用することで、利用者が自然な感覚での対話を実現できるマルチモーダル対話システムの研究が進んでいる。

特許文献１には、利用者の音声入力情報、操作入力情報および画像入力情報、ならびに音声出力情報および映像出力情報などの複数の入力メディア手段を利用し、擬人化されたエージェントを用いるインタフェース装置が開示されている。この特許文献１では、特に視線検出等の技術を用いることで、利用者の注視対象に応じて他メディアからの入力の受付可否、認識処理あるいは出力の提示方法や中断、確認等が制御される。さらに、特許文献１では利用者が擬人化インタフェースの顔を見ることによって自動的に会話を開始できるようにする等、人間同士のコミュニケーションをシミュレートしており、自然な形で対話を進められるマルチモーダル対話インタフェースが実現される。

非特許文献１では、3人以上の複数人物によるミーティング会話を対象とし、会話参加者の視線パターン、頭部方向および入力音声による発話の有無などマルチモーダル情報を観測し、その観測結果に基づきミーティング中の人間同士会話の構造を推定するための確率的枠組みを提案した。

特許公開２００４−１９２６５３号公報

"複数人物の対面会話を対象としたマルコフ切替えモデルに基づく会話構造の確率的推論"、大塚和弘, 大和淳司 (NTT コミュニケーション科学基礎研), 大塚和弘, 村瀬洋 (名古屋大大学院情報科学研究科), 竹前嘉修 (NTT サイバーソリューション研)、情報処理学会論文誌巻号ページ(発行年月日):Vol.47, No.7, Page2317-2334, 2006.07.15

街頭や店頭に設置されたデジタルサイネージを利用して、地域や商品に関する情報を検索したり、家庭でマルチメディアコンテンツを検索したりするため、複数の利用者が対話装置の前に並び、利用者同士で対話を楽しみながら協力して対話装置との対話を進めるという場面が想定される。

このような場面において、利用者全員の利用満足度を向上させるためには、検索結果になるべく多くの利用者の検索意図（要望）を反映させる必要がある。そのため、対話装置が一人の利用者と対話しながら、その他の利用者（潜在話者）の対話意欲を分析し、適切なタイミングで潜在話者に話をかけたり、あるいは検索意図を確認したりするなどの対話行動を取り、潜在話者による検索意図を最終検索結果に反映させることが望ましい。

しかしながら、特許文献１のインタフェース装置では、１人の利用者による利用しか想定されていないため、複数の利用者が対話装置の前に並んだ場合でも、予め用意された対話シナリオに沿って対話を提供することしかできなかった。例えば、二人の利用者がレストラン情報の案内対話装置を利用する場合には、一方の利用者が装置と対話しながら入力している間、他方の利用者は対話装置と関わることなく待っているだけになることが多い。さらには、対話中に利用者同士が相談すると、その発話が対話装置への入力として誤認識されることによって、対話をスムーズに進められなくなったり、あるいは間違えた検索結果が出力されたりすることがある。

非特許文献１では、複数話者における対話場面において「誰が誰に向かって話かけているか」というような、人間同士の会話構造は推定されるが、複数の利用者が対話装置と対面している場合でも、対話装置は一方の利用者との対話を進行するのみで、他方の利用者（潜在話者）との対話を想定したり実行したりすることができなかった。

本発明の目的は、上記した従来技術の課題を解決し、複数の利用者と対面した際に、一方の利用者との対話と平行して他方の利用者を観察し、他方の利用者が対話に関心を示せば当該他方の利用者とも対話を図れるマルチモーダル対話装置を提供することにある。

上記の目的を達成するために、本発明は、複数の利用者と複数種の入出力メディアを用いて仮想的に対話するマルチモーダル対話装置において、以下のような手段を講じた点に特徴がある。

(1)利用者からの対話を入力する入力側対話実行手段と、利用者への対話を出力する出力側対話実行手段と、入力された対話に基づいて前記出力する対話を生成する対話生成手段とを具備した。また、前記対話生成部が、入力された対話に基づいて各利用者の状況を解析する利用者状況解析手段と、利用者状況の解析結果に基づいて前記出力する対話を生成する対話応答生成手段と、複数の利用者との対話系列を学習した確率モデルと、解析結果を前記確率モデルに適用して対話の行動を決定する対話行動決定手段とを具備した。そして、前記確率モデルでは、一方の利用者と当該マルチモーダル対話装置との対話に他方の利用者が関心を示す状態で当該他方の利用者へ対話する行動の報酬が高く設定されるようにした。

(2)利用者状況解析手段が、前記他方の利用者が当該マルチモーダル対話装置に注目している状態の確率値を推定する注目状態推定手段を具備し、前記確率モデルでは、一方の利用者と当該マルチモーダル対話装置との対話中に、他方の利用者が当該マルチモーダル対話装置に注目している状態の確率値が高いほど、当該他方の利用者へ対話する行動の報酬が高く設定されるようにした。

(3)利用者状況解析手段が、利用者同士が相談している状態の確率値を推定する相談状態推定手段を具備し、前記確率モデルでは、一方の利用者と当該マルチモーダル対話装置との対話中に、利用者同士が相談する状態の確率値が高いほど、当該他方の利用者へ対話する行動の報酬が高く設定されるようにした。

(4)利用者状況解析手段が、利用者数が複数であるときに、その人間関係を推定する手段を具備し、前記確率モデルが、利用者同士の人間関係をパラメータとして対話系列を学習するようにした。

本発明によれば、以下のような効果が達成される。

(1)カメラの視覚情報（顔映像）やマイクの音声情報を利用して、利用者同士の対話状態および利用者間の関係を推定し、複数の利用者に対しても、対話装置の行動を人間同士の対話に近付け、自然により多くの利用者の検索意図を対話の検索結果に反映し、同時に複数利用者に対話を楽しませることができ、その結果、対話装置に対する利用者の満足度の向上に貢献できるようになる。

(2)マルチモーダル対話装置が複数の利用者を相手に対話する際、一方の利用者との対話中に他方の利用者を観察して状況を分析し、他方の利用者が対話の内容に関心を持っていると推定される場合には他方の利用者とも対話するので、同時に複数利用者を対話に参加させることができるようになる。

(3)他方の利用者が対話装置に注目していれば対話の内容に関心を持っていると推定するので、他方の利用者が対話内容に示している関心の程度を定量的に捉えられるようになる。

(4)利用者同士が相談していれば他方の利用者が対話の内容に関心を持ち、他方の利用者の検索意図を検索結果に反映させるべきと推定されるので、他方の利用者が対話内容に示している関心の程度を定量的に捉えられるようになる。

(5)利用者同士の人間関係を推定し、この推定結果に基づいて各利用者と対話するようにしたので、より自然な対話が可能になる。

本発明に係るマルチモーダル対話装置の利用環境を模した図である。本発明に係るマルチモーダル対話装置の構成を示したブロック図である。利用者属性の推定方法を模式的に表現した図である。利用者の顔向き検出の方法を模式的に表現した図である。 POMDPの構造を模式的に表現した図である。 POMDPの状態遷移図の一例を示した図である。本発明の他の実施形態の利用環境を模した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明に係るマルチモーダル対話装置の利用環境を模した図であり、本発明では、一つのマルチモーダル対話装置１が複数の利用者U1，U2と見かけ上同時に対話する。

マルチモーダル対話装置１は、利用者U1，U2の音声を検出するマイクロフォン１０１、利用者U1，U2を撮影するカメラ１０２、利用者U1，U2の入力操作を受け付けるキーボード１０３、マウス１０４あるいはタッチパネルなどの入力操作子（図１では図示省略）、利用者U1，U2に視覚情報を提供する表示部１０５、利用者U1，U2に音響情報を提供するスピーカ１０６などの多種多様な入出力メディアを扱えるマンマシンインターフェースを備えている。

図２は、前記マルチモーダル対話装置１の主要部の構成を示したブロック図であり、利用者U1，U2同士の対話や各利用者U1，U2から対話装置１への対話（発話）を入力する入力側対話実行部１１と、各利用者U1，U2への対話を出力する出力側対話実行部１３と、前記入力対話に基づいて出力対話を生成する対話生成部１２とを主要な構成としている。

前記入力側対話実行部１１において、音声認識部１１１は、前記マイクロフォン１０１で検知された音声信号から音響特徴量を抽出し、この音響特徴量に公知の音声認識手法を適用して音声認識結果D1およびその信頼性尺度D2を出力すると共に、音響特徴量の一部（本実施形態では、ピッチおよびパワーD3）を出力する。画像特徴量抽出部１１２は、前記カメラ１０２で検知された映像信号から各利用者U1，U2の顔領域を抽出すると共に、各顔領域から顔特徴量D4を抽出して出力する。入力操作検知部１１３は、キーボード１０３およびマウス１０４等の入力操作子に対するユーザ操作を検知して操作信号D5を出力する。

前記対話生成部１２において、利用者状況解析部１２１は、利用者の人数を推定する利用者数推定部１２１ａと、利用者数が複数であるときに利用者同士の人間関係を推定する人間関係推定部１２１ｂと、マルチモーダル対話装置１と一方の利用者との対話に他方の利用者が関心を示し、他方の利用者の検索意図を検索結果に反映させるべきか否かを推定する指標として、利用者同士が相談する状態を推定する相談状態推定部１２１ｃと、同様にマルチモーダル対話装置１と一方の利用者との対話に他方の利用者が関心を示しているか否かを推定する指標として、他方の利用者の対話装置１への注目状態を推定する注目状態推定部１２１ｄとを含む。

前記利用者数推定部１２１ａは、顔特徴量D4などに基づいて利用者数を推定する。前記人間関係推定部１２１ｂは、顔特徴量D4などに基づいて各利用者の属性情報（ここでは、年齢や性別）を識別し、利用者数が複数であれば、各利用者の属性情報に基づいて利用者同士の人間関係を推定する。

図３は、前記人間関係の推定方法を模式的に表現した図であり、利用者数が「２人」で性別が「男女」のペアであり、年代が１０歳未満同士のペア「００」、１０代のペア「１１」、２０代のペア「２２」、３０代のペア「３３」であれば、２人の利用者は「異性の友人同士」と推定される。また、４０代のペア「４４」や５０代のペア「５５」であれば「夫婦」と推定される。さらに、性別が「男女」のペアであっても、例えば男性の年代が４０代で女性の年代が１０歳未満のペア「４０」やその逆「０４」であれば「異性の親子同士」と推定される。同様に、利用者数が「２人」で性別が「男男」や「女女」のペアであれば、年代の組み合わせに応じて「同性の友人同士」、「同性の親子」あるいは「異性の親子」と推定される。

なお、ここでは年齢を示すパラメータ「０」が１０歳未満、「１」が１０代、「２」が２０代…を表すものとして説明したが、本発明はこれのみに限定されるものではなく、各パラメータが年代のカテゴリを表すようにしても良い。この場合、例えばパラメータ「０」が未成年、「１」が２０歳前後から４０歳前後の成人、「２」が４０歳前後から７０歳前後の実年…というようにカテゴリ化できる。このように、年代をカテゴリ化すればユーザ属性に係る情報量を削減できるので、対話装置１の処理負荷を軽減できる。

図２へ戻り、前記相談状態推定部１２１ｃは、前記マイクロフォン１０１で検知された音声の特徴量およびカメラ１０２で検知された映像の特徴量を用いて利用者同士が対話する相談部分を推定し、この相談部分の発話時間t_talkが総発声時間t_dialogueに占める割合t_talk/t_dialogueを、利用者同士が相談している状態（他方の利用者の検索意図を検索結果に反映すべき状態）の確率値P_participationとして求める。

本実施形態では、入力音声に自動音声区間検出(VAD)を適用して無音区間および有音区間が検出され、有音区間の発話部分の時間が合計されて前記総発声時間t_dialogueとされる。次いで、一発話毎に音声のパワーおよびピッチの平均、標準偏差、最大値、レンジ（＝最大値−最小値）が音響特徴量として求められる。また、発話期間中の利用者の顔動き情報に関する映像特徴量（顔向き角度の軌跡、顔合わせる数）が入力映像から自動計算される。そして、Support Vector Machines (SVM)判別器を用い、一発話毎に前記音声特徴量および映像特徴量から、各発話が対話装置１への対話および利用者同士の対話（相談）のいずれであるかが判別される。SVMの実装に際しては、SVMlightなどのSVMプログラムが使用される。また、判別に使用する識別モデルについては、収集した対話データ・ログを学習データとして機械学習アルゴリズムにより構築される。

前記注目状態推定部１２１ｄは、適宜の顔検出ソフトウェアを利用して利用者の顔を検出し、その向き情報faceid_#_ang（#は検出された顔のID番号）を推定する。本実施形態では、図４に一例を示したように、前記表示部１０５に対する顔の向き情報faceid_#_angが所定の角度α1とα2との間であれば、利用者が対話装置１の画面に注目していると推定される。本実施形態では、利用者が表示部１０５に注目している時間t_seeの総対話発声時間t_dialogueに占める割合t_see／t_dialogueが「対話装置への注目状態」の確率値P_attentionとされる。

図２へ戻り、対話応答生成部１２２は、前記音声認識部１１１による認識結果に基づいて利用者U1，U2の要求やキーワードを解析し、これらを事前に用意された応答生成ルールと照合して利用者U1，U2の発話に対する応答内容を決定する。前記応答生成ルールは対話タスク（レストラン情報案内、携帯電話機種仕様検索など）に依存する。例えば、レストラン検索タスクにおいて、"この近くにイタリア料理の店がありますか"との利用者入力（音声認識結果）に対して、"４つありますよ。ご予算はいくらですか？"との応答内容を生成する。ただし、前記利用者状況解析部１２１において、利用者同士の雑談と判断された発話に対しては応答しない。

上記の対話タスクはシステムの開発段階において開発者により決定される。あるいは、対話装置１が複数の対話タスクに対応できるように構成し、利用者が所望の対話タスクを利用時に選択するようにしても良い。

対話行動決定部１２３は、前記利用者状況解析部１２１で解析された利用者の状況（利用者数、利用者同士の人間関係、相談割合、注目割合）を、予め用意されている確立モデル１２４に適用することで対話装置１が取るべき行動を最適化する。本実施形態では、対話装置１が取るべき行動として、「利用者との対話を継続する」、「利用者との対話を終了する」、「対話相手の利用者を切り替える」等が選択される。前記確率モデル１２４は、複数の利用者との対話シミュレーション実験を行って収集した対話行動系列データ（学習データ）を学習して構築される。

前記出力側対話実行部１３において、音声合成部１３１は、前記対話生成部１２から出力される音声データを合成してスピーカ１０５から出力する。メディア再生部１３２は、前記対話生成部１２から出力される映像データを表示部１０６上で再生する。本実施形態では、音声合成部１３１とメディア再生部１３２とが協働することにより、擬人化されたエージェントで各利用者へ対話応答を出力できる。

なお、前記対話生成部１２から出力されるテキストデータは、前記音声合成部１３１で音声信号に変換されてスピーカ１０５から出力されたり、あるいは前記メディア再生部１３２において映像データに重畳されて表示部１０６上に表示されたりする。

次いで、前記対話行動決定部１２３で参照される確率モデル１２４について詳細に説明する。本実施形態では複数の利用者に対して対話装置１が適切に対話を進行できるようにするために、以下に詳述する２つのルールを予め設定し、各ルールが満足される状態が観測されると、対話装置１と一方の利用者との対話に他方の利用者が関心を示していると推定し、対話装置１が一方の利用者のみならず他方の利用者とも積極的に対話するようにしている。

(1)ルール１：「一方の利用者U1が対話装置と対話する間に、他方の利用者U2が対話装置に注目すれば利用者U2は対話に興味がある」
(2)ルール２：「一方の利用者U1が対話装置と対話する間に、他方の利用者U2と相談する時間が長ければ、利用者U2の検索意図を検索結果（レストランや商品の検索など）に反映させる」

そして、本実施形態では各ルールを満足する状態sが観測されているか否かに応じて、対話装置１に以下のような目標行動(a)，(b)，(c)を積極的に実施させる。

(a)ルール１の状態が観測されると、対話装置１が他方の利用者U2に話をかける。
(b)ルール２の状態が観測されると、対話装置１が他方の利用者U2へ情報の確認を行なう。
(c)ルール１，２の状態が観測されなければ、対話装置１が一対一の対話を継続する。

しかしながら、上記ルール１，２の対話状態は直接観測することができず、利用者の顔映像特徴量や音声特徴量などの観測値に基づいて推定する必要があり、観測結果に不確実性を含む。そこで、本実施形態では確率モデルとして部分観測マルコフ決定過程POMDP(Partially-Observed Markov Decision Process)を利用して対話の制御を行なう。ここでは、対話進行に伴い、対話状態における確率を更新ながら、対話状態に基づいて前記実現させたい目標行動の集合に対話装置１の行動を近付けることを想定する。

POMDPは、以下の情報を適用して状態予測や行動決定を行なう手法であり、これらの各情報が時間ｔの経過に伴って推移するものとし、取得可能な情報と定義関数とに基づいて状態予測や行動決定が実行される。

S：有限な状態の集合，｛s｝
O：有限な観測の集合，｛o｝
A：有限な行動の集合，｛a｝
R：報酬の期待値，｛r｝

本実施形態では、上記２つのルール１，２を想定し、確率モデル１２４の各構成要素が以下のように定義される。

(1)対話状態｛s｝
s0：「対話無し」状態
s1：「１対１の対話が進行中である」状態
s2：「他方の利用者が対話装置に注目している」状態（ルール１に対応）
s3：「利用者同士が相談している（他方の利用者の検索意図を検索結果に反映させるべき）」状態（ルール２に対応）
s4：「上記以外」状態（他方の利用者が居ない、居ても対話に関心、興味が無い状態）

(2)対話装置の動作（行動）｛a｝
a1：「対話を開始する」行動
a2：「他方の利用者に話かける」行動
a3：「他方の利用者に情報を確認する」行動
a4：「現利用者との１対１の対話を継続する」行動

(3)利用者からの観測値｛o｝
O_face：「利用者の顔映像観測値」
検出された顔の向き情報faceid_#_ang、顔向きの角度の軌跡、利用者の顔合わせ回数または顔映像（静止画像）中から直接取り出した低レベル特徴量(Gabor特徴量)
O_voice：「利用者の音声観測値」
音声のパワーおよびピッチの平均、標準偏差、最大およびレンジ（最大−最小値）など

(4)報酬の期待値
r(s，a)：状態s で行動aを実行した時に得られる報酬の期待値

次いで、確率モデル１２４を用いた状態遷移規則について説明する。POMDPにおける状態遷移確率P(o'|s'，a)は、行動aを取った後で状態s'において観測o'を受け取る確率を表す。したがって、対話装置１が行動a4「現利用者との１対１の対話を継続する」を実行した結果、もう一人の利用者が状態s2「対話装置に注目する」となった際、当該利用者の顔映像として観測値O_faceを受け取る確率はP(O_face|s2，a4)となる。

また、状態遷移確率P(s'|s，a)は、行動a により状態sが状態s' へ遷移する確率を表す。したがって、時刻t-1の状態s1「１対１の対話が進行中」が、対話装置１の行動a4「現利用者１対１対話をする」の実行の結果、時刻tで状態s2「他方の利用者が対話装置１に注目している」に遷移する確率はP(s2|s1，a4)となる。

各状態遷移確率P(o'|s'，a)，P(s'|s，a)のパラメータ値は、大量の対話シミュレーション実験を行って収集した行動系列データ（学習データ）や前記P_attention，P_participationの確率値に基づいて、Q-learningやTD-learningなどの機械学習手法により得られる。

また、報酬r(s，a)の値は経験値により設定できるが、本実施形態では、対話装置１が上記の目標行動(a)，(b)，(c)を積極的に実行できるようにするために、報酬r(s2，a2)、r(s3，a3) 、r(s4，a4)の値が、それ以外の報酬rより高く設定される。

本実施形態では、対話状態に応じて最適な行動系列を出力する方策関数を決めるため、時刻t における状態の確率分布bt(s')が、一つ前の時刻t-1における状態の確率分布bt-1(s)を用いて次式(1)により計算される

ここで、ηは確率分布btの総和を「１」にするための正規化定数である。行動系列aτ+t が与えられたとき、時刻t 以降に獲得できる報酬Vtは次式(2)で表される。

γは「１」より小さい正定数である。本発明の対話システムでは、前記報酬Vtを最大にする行動系列a が求められる。

図５は、前記POMDPの構造を模式的に表現した図であり、時刻t0の状態s0において対話装置１が行動a1，a2…anを実行すると、時刻t1では、利用者の顔映像の観測値o1，o2…on…が観測される。そして、上式(1)に各値を適用することで、時刻t1における各状態の確率分布bt1(s)が計算される。そして、状態s1で対話装置１が行動a1を実行することで報酬r(a1，s1)が得られる。同様にして報酬r(am，sn)が計算される。

本実施形態では、行動集合A｛a1，a2…am｝において、各行動が利用者同士の人間関係として、異性の友達（カップル）、同性の友達、親子などの数種の典型的な人間関係に特化したサブ行動集合を持っているため、対話装置１が行動を実施する際に、利用者同士の人間関係に基づいて適切な対話行動を提示できる。

例えば、行動a2（他方の利用者に話かける）には、サブ行動a2_1（親子同士の子供に声をかける）、a2_2（親子同士の親に声をかける）、a2_3（異性の友達の女性に声をかける）、a2_4（異性の友達の男性に声をかける）、a2_5（同性の友達に声をかける）が含まれる。対話装置１は、行動a2を決定する際に、推定された人間関係に基づいて上記サブ行動a2_x（x=1〜5）のいずれかを選択する。

次いで、カップルの二人がレストラン検索を対話タスクとして本発明のマルチモーダル対話装置１を利用する場合の動作を、図６の状態遷移図に沿って詳細に説明する。

対話装置１は、時刻t0で初期状態すなわち対話無し状態s0となり、所定の対話開始指令（開始ボタンの押下または音声コマンドの入力）を契機に対話開始の行動a1を実行する。ここでは、カップルの一方の利用者（ここでは、男性）が対話装置１と対話する行動を取ることにより、検索したいレストランの条件（料理の種類、場所、予算など）が対話の進行によって明確化される。この際、対話の音声観測値に基づいて、対話装置１と男性との１対１の対話状態(s1)となる確率が推定され、行動a4の「現利用者との１対１対話を継続する」が選択される。ここまでの行動決定パスは、対話装置１の初期起動パスとして固定的に設定されている。

時刻t1では、前記状態s1を前記POMDPの初期状態として計算が開始され、前記確率モデル１２４に基づいて最尤行動が選択、実行される。ここでは、前記行動a4の後、利用者（カップル）からの観測値（顔映像特徴量および音声特徴量）によって各対話状態s{s2，s3，s4}への事後確率が次式(3)により計算される。

次いで、時刻t1の状態s1から時刻t2で各状態s2，s3，s4へ遷移する確率P(s2|s1，a4)，P(s3|s1，a4)， P(s4|s1，a4)が計算され、上式(1)に基づいて確率分布b2(s2)，b2(s3)，b2(s4)がそれぞれ計算される(s1は初期状態なので、b1(s1)=1）。次いで、各状態s(s∈{s2，s3，s4}）において、a∈{a2，a3，a4} を実行して得られる報酬値r(s，a)を上式(2)に導入して報酬値Vtが計算される。

ここで、時刻t1で他方の利用者（ここでは、女性）が対話装置１に注目していると、P(O_face, O_voice| t=1 | s2 | t=1，a4)の確率が高くなるので、全てのパスにおいて｛a4|t=1，a2|t=2｝の行動系列（太実線）によるVt値が最大となる。

時刻t2で行動a2「他方の利用者に話かける」を実施して女性に話をかける、あるいはレストラン情報を推薦する。さらに、推定された利用者同士の人間関係「異性の友達」に基づいて、適切な対話内容を提示する。擬人化されたエージェントが女性の方向に向け「お二人はつきあっていますか」、「お姉さんは、何をたべたいですか」で行動a2のサブ行動a2_3（異性の女性に声をかける）が展開される。本実施形態では、このような対話進行によって、二人の検索意図を検索結果に反映できるので、より満足度の高い対話装置を提供できるようになる。

上記時刻tについては、頻繁に対話の相手を変更しないため、利用者と対話装置との一つの対話ターンの終了時刻とする。例えば、上記時刻t2については、男性が一回レストラン検索に関する対話終了の時刻とする。

なお、上記の実施形態では、入力側対話実行部１１，対話生成部１２および出力側対話実行部１３が一つの筐体に実装されてマルチモーダル対話装置１が構成されるものとして説明したが、本発明はこれのみに限定されるものではなく、図７に一例を示したように、入力側対話実行部１１および出力側対話実行部１３のみが実装された筐体１と対話生成部１２のみが実装された筐体１とをネットワーク上に分散配置し、両者がネットワーク経由で各種のデータを送受信することで各利用者U1，U2との対話が実現されるようにしても良い。

１…マルチモーダル対話装置，１１…入力側対話実行部，１２…対話生成部，１３…出力側対話実行部，１０１…マイクロフォン，１０２…カメラ，１０３…キーボード，１０４…マウス，１０５…表示部，１０６…スピーカ

Claims

複数の利用者と複数種の入出力メディアを用いて仮想的に対話するマルチモーダル対話装置において、
利用者からの対話を入力する入力側対話実行手段と、
利用者への対話を出力する出力側対話実行手段と、
前記入力された対話に基づいて前記出力する対話を生成する対話生成部とを具備し、
前記対話生成部が、
前記入力された対話に基づいて各利用者の状況を解析する利用者状況解析手段と、
前記利用者状況の解析結果に基づいて前記出力する対話を生成する対話応答生成手段と、
複数の利用者との対話系列を学習し、一方の利用者と当該マルチモーダル対話装置との対話に他方の利用者を参加させるべき状態で当該他方の利用者へ対話する行動を実行して得られる報酬が高く設定された確率モデルと、
前記解析結果を前記確率モデルに適用して対話の行動を決定する対話行動決定手段とを具備し、
前記利用者状況解析手段が、利用者同士が相談している状態の確率値を推定する相談状態推定手段を具備し、
前記確率モデルでは、一方の利用者と当該マルチモーダル対話装置との対話中に、利用者同士が相談している状態の確率値が高いほど、前記他方の利用者へ対話する行動を実行して得られる報酬が高く設定されたことを特徴とするマルチモーダル対話装置。
前記利用者状況解析手段が、前記他方の利用者が当該マルチモーダル対話装置に注目している状態の確率値を推定する注目状態推定手段をさらに具備し、
前記確率モデルでは、一方の利用者と当該マルチモーダル対話装置との対話中に、他方の利用者が当該マルチモーダル対話装置に注目している状態の確率値が高いほど、当該他方の利用者へ対話する行動を実行して得られる報酬が高く設定されたことを特徴とする請求項１に記載のマルチモーダル対話装置。
前記他方の利用者へ対話する行動が、当該他方の利用者に話かける行動であることを特徴とする請求項２に記載のマルチモーダル対話装置。
前記他方の利用者へ対話する行動が、当該他方の利用者に情報を確認する行動であることを特徴とする請求項１に記載のマルチモーダル対話装置。
前記利用者状況解析手段が、
利用者数が複数であるときに、その人間関係を推定する手段を具備し、
前記確率モデルが、利用者同士の人間関係をパラメータとして対話系列を学習したことを特徴とする請求項１ないし４のいずれかに記載のマルチモーダル対話装置。
前記利用者同士の人間関係が、親子、異性の友人および同性の友人のいずれかに識別されることを特徴とする請求項５に記載のマルチモーダル対話装置。
前記対話行動決定手段は、マルチモーダル対話装置が取るべき行動を、利用者との対話を継続する、利用者との対話を終了する、対話相手の利用者を切り替える、のいずれかに決定することを特徴とする請求項１ないし６のいずれかに記載のマルチモーダル対話装置。
前記確率モデルが、部分観測マルコフ決定過程(POMDP)であることを特徴とする請求項１ないし７のいずれかに記載のマルチモーダル対話装置。
前記入力側対話実行手段および出力側対話実行手段と対話生成部とがネットワーク上に分散配置され、ネットワーク経由で通信することを特徴とする請求項１ないし８のいずれかに記載のマルチモーダル対話装置。