JP2017212557A

JP2017212557A - 制御装置、対話システム、制御方法及びコンピュータプログラム

Info

Publication number: JP2017212557A
Application number: JP2016103764A
Authority: JP
Inventors: 小川　貴弘; Takahiro Ogawa; 貴弘小川; 服部　剛; Takeshi Hattori; 剛服部; 紘樹阿部; Hiroki Abe
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2017-11-30

Abstract

【課題】一方のユーザのタイミングに合わせて映像を伴う対話を実現すること。【解決手段】ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備える制御装置。【選択図】図１

Description

本発明は、ユーザに対して映像を伴う対話を提供する技術に関する。

従来、ユーザ同士が所望のタイミングで離れた場所でお互いの映像を見ながら対話を行うことを可能とする技術が提案されている（特許文献１参照）。このような技術では、対話を望むユーザが他のユーザと対話のタイミングを合わせて通信を開始し、映像及び音声を通信路を介して送受信することによって映像を伴った対話を実現している。

特開２００５−３５４２５９号公報

しかしながら、このような従来の技術では、対話を行う双方がタイミングを合わせて通信を行う必要があった。そのため、一方のユーザが対話を望んでいるとしても、他方のユーザが対話を行うことができる環境にない場合、対話を実現できないという問題があった。

上記事情に鑑み、本発明は、一方のユーザのタイミングに合わせて映像を伴う対話を実現する技術の提供を目的としている。

本発明の一態様は、ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備える制御装置である。

本発明の一態様は、上記の制御装置であって、前記応答情報生成部は、前記認識結果に基づいて、複数の対話相手の中から一又は複数の対話相手を選択し、前記映像生成部は、選択された対話相手の映像を生成し、前記音声生成部は、選択された対話相手の音声を生成する。

本発明の一態様は、制御装置及びサーバを備える対話システムであって、前記制御装置は、ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記サーバと通信する通信部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を前記通信部を介して前記サーバから取得し、前記要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を前記通信部を介して前記サーバから取得し、前記要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備え、前記サーバは、前記要素映像情報を記憶する要素映像情報記憶部と、前記要素音声情報を記憶する要素音声情報記憶部と、を備える、対話システムである。

本発明の一態様は、上記の対話システムであって、前記サーバは、前記制御装置を認証し、認証された制御装置に対してのみ前記要素映像情報及び前記要素音声情報を送信する制御部をさらに備える。

本発明の一態様は、ユーザが発話した音声を認識する音声認識ステップと、前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、を備える制御方法である。

本発明の一態様は、ユーザが発話した音声を認識する音声認識ステップと、前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、をコンピュータに実行させるためのコンピュータプログラムである。

本発明により、一方のユーザのタイミングに合わせて映像を伴う対話を実現することが可能となる。

第一実施形態の対話システム（対話システム１）のシステム構成を表すシステム構成図である。第一実施形態における制御装置１０の機能構成を表す概略ブロック図である。第二実施形態の対話システム（対話システム１ａ）のシステム構成を表すシステム構成図である。第二実施形態における制御装置１０ａの機能構成を表す概略ブロック図である。第二実施形態におけるサーバ６０の機能構成を表す概略ブロック図である。

［第一実施形態］
図１は、第一実施形態の対話システム（対話システム１）のシステム構成を表すシステム構成図である。対話システム１は、制御装置１０、表示装置２０、音声出力装置３０及び音声入力装置４０を備える。表示装置２０、音声出力装置３０及び音声入力装置４０は、それぞれ制御装置１０と通信可能に接続されている。各装置と制御装置１０との間の通信の態様はどのようなものであってもよい。例えば、制御装置１０と表示装置２０とは、映像信号を伝送する映像ケーブルを用いて通信可能に接続されてもよい。例えば、制御装置１０と音声出力装置３０及び音声入力装置４０とは、音声信号を伝送する音声ケーブルを用いて通信可能に接続されてもよい。例えば、制御装置１０と各装置とは、Blue tooth（登録商標）等の無線通信を用いて通信可能に接続されてもよい。

制御装置１０は、表示装置２０によって表示される映像と、音声出力装置３０から出力される音声と、を制御する。制御装置１０は、音声入力装置４０によって集音された音声信号を受け、音声認識処理を行う。制御装置１０は、映像及び音声を制御する際に、音声認識処理の結果に基づいて制御を行う。

表示装置２０は、映像を表示する装置である。表示装置２０は、制御装置１０によって制御されることによって、ユーザの対話相手の姿を示す映像を表示する。表示装置２０はどのような装置を用いて構成されてもよい。ただし、対話システム１の趣旨が対話をユーザに提供することであることを鑑みると、表示装置２０に表示される対話相手の映像がより現実に近いものとしてユーザに認識できるような装置が用いられることが望ましい。例えば、表示装置２０は、対話相手の映像を等身大の大きさで表示できるような表示装置であってもよい。例えば、表示装置２０は、対話相手の映像を立体的に表示できるような表示装置であってもよい。例えば、表示装置２０として、対話相手の映像を立体的に空間中にホログラム等の技術を用いて表示できるような表示システムが適用されてもよい。このような表示システムは、例えば透明フィルムスクリーンを用いることによって実現されてもよい。このような表示システムは、例えば透明ガラススクリーンに対して映像を投影することによって実現されてもよい。

音声出力装置３０は、音声を出力する装置である。音声出力装置３０は、制御装置１０によって制御されることによって、ユーザの対話相手の発話内容を示す音声を出力する。音声出力装置３０はどのような装置を用いて構成されてもよい。ただし、対話システム１の趣旨が対話をユーザに提供することであることを鑑みると、音声出力装置３０によって出力される音声がより現実に近い音声としてユーザに認識できるような装置が用いられることが望ましい。例えば、音声出力装置３０は、音声を聴くユーザが認識する音声の出力源（以下「仮想出力源」という。）の位置を変化させることが可能な装置であってもよい。このような現象は、例えば離れて位置する複数の音声出力装置において、同じ音声を異なるタイミングで（遅延を生じさせて）出力することによって生じさせることが可能である。例えば、表示装置２０において対話相手の顔や口が表示されている位置を仮想出力源とするように音声が出力されてもよい。このような制御は、例えば制御装置１０によって行われてもよい。

音声入力装置４０は、音声を入力する装置である。音声入力装置４０は、制御装置１０によって制御されることによって、ユーザの発話内容を示す音声信号を取得する。音声入力装置４０はどのような装置を用いて構成されてもよい。ただし、対話システム１の趣旨が対話をユーザに提供することであることを鑑みると、音声入力装置４０はより精度よくユーザの発話内容を示す音声信号を取得できるような装置が用いられることが望ましい。取得が望まれる精度のよい音声信号とは、ノイズが少ない音声信号であり、ユーザ以外の人物の音声の混入が少ない音声信号である。例えば、音声入力装置４０は、複数のマイクロフォンを用いて発話音声の到来方向に指向性を向けるビームフォーミング処理や、雑音成分を周波数スペクトル領域で抑圧するスペクトルフィルタ処理などを組み合わせることによって実現されるインテリジェントマイクであってもよい。この場合、音声信号に対する処理は、音声入力装置４０において行われてもよいし、制御装置１０において行われてもよい。この場合、発話音声の到来方向として、ユーザが位置していると想定される場所（例えば表示装置２０の正面位置）が設定されてもよいし、不図示のカメラ等の人物検出装置によって人物が検出された場所が設定されてもよい。

図２は、第一実施形態における制御装置１０の機能構成を表す概略ブロック図である。制御装置１０は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。

制御装置１０は、音声入力部１１、記憶部１２、制御部１３、映像出力部１４及び音声出力部１５を備える。
音声入力部１１は、音声信号の入力インタフェースである。音声入力部１１は、音声入力装置４０から出力される音声信号を取得する。

記憶部１２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部１２は、要素映像情報記憶部１２１及び要素音声情報記憶部１２２として機能する。

要素映像情報記憶部１２１は、要素映像情報を記憶する。要素映像情報とは、対話相手の一部の映像である。複数の要素映像情報を合成することによって、対話相手の映像を複数のパターン生成することができる。例えば、笑っている対話相手の映像や、怒っている対話相手の映像や、困っている対話相手の映像を、それぞれ複数のパターンで生成することが可能となる。要素映像情報は、例えば対話相手となる特定の人物を撮影した映像を複数用いることによって予め生成される。要素映像情報は、例えば対話相手の顔の各パーツ（例えば目、鼻、口、頬、額など）の映像を複数種類有してもよい。要素映像情報は、例えば対話相手の体の各パーツ（例えば手、脚、胴、首など）の映像を複数種類有してもよい。対話相手となる特定の人物は、実在の人物ではなく架空の人物であってもよい。要素映像情報は、コンピュータグラフィックで生成された映像であってもよい。

要素音声情報記憶部１２２は、要素音声情報を記憶する。要素音声情報とは、対話相手の合成音声を生成するために用いられる音声情報である。複数の要素音声情報を合成することによって、対話相手の音声を任意のテキストを読み上げた音声として複数のパターンの抑揚で生成することができる。上述のように、対話相手となる特定の人物は、実在の人物ではなく架空の人物であってもよい。要素音声情報は、コンピュータによって生成された音声であってもよい。

制御部１３は、ＣＰＵを用いて構成される。制御部１３は、制御プログラムを実行することによって、音声認識部１３１、応答情報生成部１３２、映像生成部１３３及び音声生成部１３４として機能する。

制御部１３が実現する各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。制御部１３が実行する制御プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。制御プログラムは、電気通信回線を介して送信されてもよい。

音声認識部１３１は、音声入力部１１によって取得された音声信号に対して音声認識処理を実行する。音声認識部１３１は、音声認識処理の実行によってユーザの発話内容を認識する。音声認識部１３１は、自然言語処理が適用されてもよい。音声認識部１３１は、音声認識処理を実行することによって、ユーザの発話内容の構文を解析し、解析結果に応じたテキストデータを取得する。音声認識部１３１は、音声信号に基づいてユーザの発話音声の抑揚やリズム等の情報に基づいて、ユーザの感情や発話のニュアンスを判定してもよい。この場合、音声認識部１３１は、テキストデータと共に判定結果を出力する。

応答情報生成部１３２は、音声認識部１３１における処理の結果に応じて、ユーザに対する応答の内容を決定する。応答情報生成部１３２は、決定された応答内容を示す情報（応答情報）を生成し、映像生成部１３３及び音声生成部１３４に応答情報を出力する。応答情報生成部１３２は、例えば人工知能（ＡＩ）を用いることによって、応答時に出力される映像の内容と、応答時に出力される音声のテキストと、応答時に出力される音声の抑揚と、を決定してもよい。

映像生成部１３３は、応答情報生成部１３２によって生成された応答情報に応じた映像を生成する。映像生成部１３３は、予め要素映像情報記憶部１２１に記憶されている要素映像情報を用いることによって、対話相手の映像を生成する。

音声生成部１３４は、応答情報生成部１３２によって生成された応答情報に応じた音声を生成する。音声生成部１３４は、予め要素音声情報記憶部１２２に記憶されている要素音声情報を用いることによって、対話相手の音声を生成する。

映像出力部１４は、映像信号の出力インタフェースである。映像出力部１４は、映像生成部１３３によって生成された映像を示す映像信号を表示装置２０に対して出力する。
音声出力部１５は、音声信号の出力インタフェースである。音声出力部１５は、音声生成部１３４によって生成された音声を示す音声信号を音声出力装置３０に対して出力する。

このように構成された対話システム１では、一方のユーザ（対話システム１の表示装置２０の側に位置するユーザ）のタイミングに合わせて、対話相手との間で映像を伴う対話を実現することが可能となる。すなわち、対話相手の映像及び音声は制御装置１０によってユーザの発話内容に応じて生成されて出力されるため、対話相手が対話を行うことができる環境にない場合であっても対話を実現することが可能となる。このような対話システム１を適用することによって以下の様なサービスが可能となる。

例えば、対話相手として有名人を選択した場合、実際にユーザの側に有名人が存在していないとしても、ユーザに対して有名人との仮想的な対話を提供することが可能となる。実際に有名人を呼ぶことは費用の面や手続きなどの面で非常に困難を伴うが、そのような困難を軽減して有名人との仮想的な対話を実現させることが可能となる。例えば、有名人を実際に呼ぶには難しい場所やコストをかけられないイベントや店舗等でも有名人との仮想的な対話を実現させることが可能となる。

また、所定の有名人は通常は世の中に１名しか存在しないため、複数の位置でそれぞれ独立した対話を実現することは不可能である。しかしながら、上記のように構成された対話システム１を適用することによって、複数の位置でそれぞれ独立した対話を実現することが可能となる。

（変形例）
第一実施形態において、要素映像情報記憶部１２１及び要素音声情報記憶部１２２は、複数の対話相手の情報を記憶してもよい。この場合、応答情報生成部１３２は、所定の条件に基づいて複数の対話相手の中から一人又は複数の対話相手を選択してもよい。この場合、応答情報生成部１３２は、選択された対話相手の映像及び音声を生成することを映像生成部１３３及び音声生成部１３４に指示する。所定の条件とは、例えばユーザの属性情報（性別、年齢、好みなど）に応じた条件である。ユーザの属性情報は、例えば不図示のカメラで撮影された画像を用いた画像認証や、ユーザが携帯する機器から通信で取得される情報に基づいて判定されてもよい。

［第二実施形態］
図３は、第二実施形態の対話システム（対話システム１ａ）のシステム構成を表すシステム構成図である。対話システム１ａは、制御装置１０に代えて制御装置１０ａを備える点、ネットワーク５０を介して制御装置１０ａに対してサーバ６０が通信可能に接続される点、において第一実施形態の対話システム１と異なる。他の構成に関しては、第一実施形態の対話システム１と第二実施形態の対話システム１ａとは同じである。

図４は、第二実施形態における制御装置１０ａの機能構成を表す概略ブロック図である。制御装置１０ａは、制御部１３に代えて制御部１３ａを備える点、通信部１６をさらに備える点、において第一実施形態の制御装置１０と異なる。他の構成に関しては、第一実施形態の制御装置１０と第二実施形態の制御装置１０ａとは同じである。

制御部１３ａは、映像生成部１３３に代えて映像生成部１３３ａを備える点、音声生成部１３４に代えて音声生成部１３４ａを備える点、情報取得部１３５をさらに備える点、において第一実施形態の制御部１３と異なる。他の構成に関しては、第一実施形態の制御部１３と第二実施形態の制御部１３ａとは同じである。

映像生成部１３３ａは、映像を合成する際に、必要となる要素映像情報の取得を情報取得部１３５に依頼する。映像生成部１３３ａは、情報取得部１３５によって取得された要素映像情報を用いることによって映像を生成する。

音声生成部１３４ａは、音声を合成する際に、必要となる要素音声情報の取得を情報取得部１３５に依頼する。音声生成部１３４ａは、情報取得部１３５によって取得された要素音声情報を用いることによって音声を生成する。

情報取得部１３５は、映像生成部１３３ａ及び音声生成部１３４ａから依頼された情報（要素映像情報及び要素音声情報）を、ネットワーク５０を介してサーバ６０に対して要求する。情報取得部１３５は、サーバ６０からネットワーク５０を介して要求に応じた要素映像情報及び要素音声情報を受信する。情報取得部１３５は、受信された要素映像情報及び要素音声情報を、それぞれ映像生成部１３３ａ及び音声生成部１３４ａに対して渡す。

通信部１６は、ネットワークカード等の通信インタフェースである。通信部１６は、ネットワーク５０を介してサーバ６０と通信する。

図５は、第二実施形態におけるサーバ６０の機能構成を表す概略ブロック図である。サーバ６０は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。

サーバ６０は、通信部６１、記憶部６２及び制御部６３を備える。
通信部６１は、ネットワークカード等の通信インタフェースである。通信部６１は、ネットワーク５０を介して制御装置１０ａと通信する。

記憶部６２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部６２は、要素映像情報記憶部６２１及び要素音声情報記憶部６２２として機能する。要素映像情報記憶部６２１及び要素音声情報記憶部６２２は、それぞれ第一実施形態における要素映像情報記憶部１２１及び要素音声情報記憶部１２２と同じ構成である。

制御部６３は、ネットワーク５０を介して制御装置１０ａから要素映像情報及び要素音声情報の要求を受けると、要求された要素映像情報及び要素音声情報を記憶部６２から読み出す。制御部６３は、読み出された要素映像情報及び要素音声情報を、要求元である制御装置１０ａに対して送信する。

このように構成された第二実施形態の対話システム１ａでは、制御装置１０ａは、必要になった要素映像情報及び要素音声情報をネットワーク５０を介してサーバ６０から取得する。そのため、要素映像情報及び要素音声情報を制御装置１０ａにおいて予め記憶しておく必要が無い。そのため、制御装置１０ａでは、常に最新の要素映像情報及び要素音声情報に基づいた映像及び音声を生成することが容易となる。

（変形例）
第二実施形態において、制御部６３は、制御装置１０ａに対して認証処理を実行し、認証された制御装置１０ａに対してのみ要素映像情報及び要素音声情報を提供するように構成されてもよい。このように構成されることにより、要素映像情報及び要素音声情報を正当な権限を有していないユーザに対して提供してしまうことを抑止することが可能となる。そのため、要素映像情報及び要素音声情報が不当に使用されることを抑止することが可能となる。特に、上述したように有名人の映像及び音声を用いてユーザに対話を提供する場合には、有名人の肖像権などのパブリシティ権が問題になる。このような問題に対し、認証処理を行うことによって映像及び音声について適切な取り扱いが可能となる。

さらに、認証されて要素映像情報及び要素音声情報を受信した制御装置１０ａは、受信された要素映像情報及び要素音声情報のデータを所定のタイミングで自装置のメモリ等の記憶装置から削除するように構成されてもよい。所定のタイミングとは、所定の時刻や時間経過のタイミングであってもよいし、対話が終了したタイミングであってもよい。このように構成されることによって、要素映像情報及び要素音声情報が不当に使用されることをより厳密に抑止することが可能となる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１，１ａ…対話システム，１０，１０ａ…制御装置２０…表示装置，３０…音声出力装置，４０…音声入力装置，１１…音声入力部，１２…記憶部，１３，１３ａ…制御部，１４映像出力部，１５…音声出力部，１６…通信部，１２１…要素映像情報記憶部，１２２…要素音声情報記憶部，１３１…音声認識部，１３２…応答情報生成部，１３３，１３３ａ…映像生成部，１３４…音声生成部，１３５…情報取得部，５０…ネットワーク，６０…サーバ，６１…通信部，６２…記憶部，６３…制御部，６２１…要素映像情報記憶部，６２２…要素音声情報記憶部

Claims

ユーザが発話した音声を認識する音声認識部と、
前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、
前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、
前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、
映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、
音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、
を備える制御装置。
前記応答情報生成部は、前記認識結果に基づいて、複数の対話相手の中から一又は複数の対話相手を選択し、
前記映像生成部は、選択された対話相手の映像を生成し、
前記音声生成部は、選択された対話相手の音声を生成する、請求項１に記載の制御装置。
制御装置及びサーバを備える対話システムであって、
前記制御装置は、
ユーザが発話した音声を認識する音声認識部と、
前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、
前記サーバと通信する通信部と、
前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を前記通信部を介して前記サーバから取得し、前記要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、
前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を前記通信部を介して前記サーバから取得し、前記要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、
映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、
音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、
を備え、
前記サーバは、
前記要素映像情報を記憶する要素映像情報記憶部と、
前記要素音声情報を記憶する要素音声情報記憶部と、
を備える、対話システム。
前記サーバは、前記制御装置を認証し、認証された制御装置に対してのみ前記要素映像情報及び前記要素音声情報を送信する制御部をさらに備える、請求項３に記載の対話システム。
ユーザが発話した音声を認識する音声認識ステップと、
前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、
前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、
前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、
映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、
音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、
を備える制御方法。
ユーザが発話した音声を認識する音声認識ステップと、
前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、
前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、
前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、
映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、
音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、
をコンピュータに実行させるためのコンピュータプログラム。