JP2017212557A - 制御装置、対話システム、制御方法及びコンピュータプログラム - Google Patents

制御装置、対話システム、制御方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2017212557A
JP2017212557A JP2016103764A JP2016103764A JP2017212557A JP 2017212557 A JP2017212557 A JP 2017212557A JP 2016103764 A JP2016103764 A JP 2016103764A JP 2016103764 A JP2016103764 A JP 2016103764A JP 2017212557 A JP2017212557 A JP 2017212557A
Authority
JP
Japan
Prior art keywords
video
voice
information
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016103764A
Other languages
English (en)
Inventor
小川 貴弘
Takahiro Ogawa
貴弘 小川
服部 剛
Takeshi Hattori
剛 服部
紘樹 阿部
Hiroki Abe
紘樹 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2016103764A priority Critical patent/JP2017212557A/ja
Publication of JP2017212557A publication Critical patent/JP2017212557A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】一方のユーザのタイミングに合わせて映像を伴う対話を実現すること。【解決手段】ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備える制御装置。【選択図】図1

Description

本発明は、ユーザに対して映像を伴う対話を提供する技術に関する。
従来、ユーザ同士が所望のタイミングで離れた場所でお互いの映像を見ながら対話を行うことを可能とする技術が提案されている(特許文献1参照)。このような技術では、対話を望むユーザが他のユーザと対話のタイミングを合わせて通信を開始し、映像及び音声を通信路を介して送受信することによって映像を伴った対話を実現している。
特開2005−354259号公報
しかしながら、このような従来の技術では、対話を行う双方がタイミングを合わせて通信を行う必要があった。そのため、一方のユーザが対話を望んでいるとしても、他方のユーザが対話を行うことができる環境にない場合、対話を実現できないという問題があった。
上記事情に鑑み、本発明は、一方のユーザのタイミングに合わせて映像を伴う対話を実現する技術の提供を目的としている。
本発明の一態様は、ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備える制御装置である。
本発明の一態様は、上記の制御装置であって、前記応答情報生成部は、前記認識結果に基づいて、複数の対話相手の中から一又は複数の対話相手を選択し、前記映像生成部は、選択された対話相手の映像を生成し、前記音声生成部は、選択された対話相手の音声を生成する。
本発明の一態様は、制御装置及びサーバを備える対話システムであって、前記制御装置は、ユーザが発話した音声を認識する音声認識部と、前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、前記サーバと通信する通信部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を前記通信部を介して前記サーバから取得し、前記要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を前記通信部を介して前記サーバから取得し、前記要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、を備え、前記サーバは、前記要素映像情報を記憶する要素映像情報記憶部と、前記要素音声情報を記憶する要素音声情報記憶部と、を備える、対話システムである。
本発明の一態様は、上記の対話システムであって、前記サーバは、前記制御装置を認証し、認証された制御装置に対してのみ前記要素映像情報及び前記要素音声情報を送信する制御部をさらに備える。
本発明の一態様は、ユーザが発話した音声を認識する音声認識ステップと、前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、を備える制御方法である。
本発明の一態様は、ユーザが発話した音声を認識する音声認識ステップと、前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、をコンピュータに実行させるためのコンピュータプログラムである。
本発明により、一方のユーザのタイミングに合わせて映像を伴う対話を実現することが可能となる。
第一実施形態の対話システム(対話システム1)のシステム構成を表すシステム構成図である。 第一実施形態における制御装置10の機能構成を表す概略ブロック図である。 第二実施形態の対話システム(対話システム1a)のシステム構成を表すシステム構成図である。 第二実施形態における制御装置10aの機能構成を表す概略ブロック図である。 第二実施形態におけるサーバ60の機能構成を表す概略ブロック図である。
[第一実施形態]
図1は、第一実施形態の対話システム(対話システム1)のシステム構成を表すシステム構成図である。対話システム1は、制御装置10、表示装置20、音声出力装置30及び音声入力装置40を備える。表示装置20、音声出力装置30及び音声入力装置40は、それぞれ制御装置10と通信可能に接続されている。各装置と制御装置10との間の通信の態様はどのようなものであってもよい。例えば、制御装置10と表示装置20とは、映像信号を伝送する映像ケーブルを用いて通信可能に接続されてもよい。例えば、制御装置10と音声出力装置30及び音声入力装置40とは、音声信号を伝送する音声ケーブルを用いて通信可能に接続されてもよい。例えば、制御装置10と各装置とは、Blue tooth(登録商標)等の無線通信を用いて通信可能に接続されてもよい。
制御装置10は、表示装置20によって表示される映像と、音声出力装置30から出力される音声と、を制御する。制御装置10は、音声入力装置40によって集音された音声信号を受け、音声認識処理を行う。制御装置10は、映像及び音声を制御する際に、音声認識処理の結果に基づいて制御を行う。
表示装置20は、映像を表示する装置である。表示装置20は、制御装置10によって制御されることによって、ユーザの対話相手の姿を示す映像を表示する。表示装置20はどのような装置を用いて構成されてもよい。ただし、対話システム1の趣旨が対話をユーザに提供することであることを鑑みると、表示装置20に表示される対話相手の映像がより現実に近いものとしてユーザに認識できるような装置が用いられることが望ましい。例えば、表示装置20は、対話相手の映像を等身大の大きさで表示できるような表示装置であってもよい。例えば、表示装置20は、対話相手の映像を立体的に表示できるような表示装置であってもよい。例えば、表示装置20として、対話相手の映像を立体的に空間中にホログラム等の技術を用いて表示できるような表示システムが適用されてもよい。このような表示システムは、例えば透明フィルムスクリーンを用いることによって実現されてもよい。このような表示システムは、例えば透明ガラススクリーンに対して映像を投影することによって実現されてもよい。
音声出力装置30は、音声を出力する装置である。音声出力装置30は、制御装置10によって制御されることによって、ユーザの対話相手の発話内容を示す音声を出力する。音声出力装置30はどのような装置を用いて構成されてもよい。ただし、対話システム1の趣旨が対話をユーザに提供することであることを鑑みると、音声出力装置30によって出力される音声がより現実に近い音声としてユーザに認識できるような装置が用いられることが望ましい。例えば、音声出力装置30は、音声を聴くユーザが認識する音声の出力源(以下「仮想出力源」という。)の位置を変化させることが可能な装置であってもよい。このような現象は、例えば離れて位置する複数の音声出力装置において、同じ音声を異なるタイミングで(遅延を生じさせて)出力することによって生じさせることが可能である。例えば、表示装置20において対話相手の顔や口が表示されている位置を仮想出力源とするように音声が出力されてもよい。このような制御は、例えば制御装置10によって行われてもよい。
音声入力装置40は、音声を入力する装置である。音声入力装置40は、制御装置10によって制御されることによって、ユーザの発話内容を示す音声信号を取得する。音声入力装置40はどのような装置を用いて構成されてもよい。ただし、対話システム1の趣旨が対話をユーザに提供することであることを鑑みると、音声入力装置40はより精度よくユーザの発話内容を示す音声信号を取得できるような装置が用いられることが望ましい。取得が望まれる精度のよい音声信号とは、ノイズが少ない音声信号であり、ユーザ以外の人物の音声の混入が少ない音声信号である。例えば、音声入力装置40は、複数のマイクロフォンを用いて発話音声の到来方向に指向性を向けるビームフォーミング処理や、雑音成分を周波数スペクトル領域で抑圧するスペクトルフィルタ処理などを組み合わせることによって実現されるインテリジェントマイクであってもよい。この場合、音声信号に対する処理は、音声入力装置40において行われてもよいし、制御装置10において行われてもよい。この場合、発話音声の到来方向として、ユーザが位置していると想定される場所(例えば表示装置20の正面位置)が設定されてもよいし、不図示のカメラ等の人物検出装置によって人物が検出された場所が設定されてもよい。
図2は、第一実施形態における制御装置10の機能構成を表す概略ブロック図である。制御装置10は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。
制御装置10は、音声入力部11、記憶部12、制御部13、映像出力部14及び音声出力部15を備える。
音声入力部11は、音声信号の入力インタフェースである。音声入力部11は、音声入力装置40から出力される音声信号を取得する。
記憶部12は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部12は、要素映像情報記憶部121及び要素音声情報記憶部122として機能する。
要素映像情報記憶部121は、要素映像情報を記憶する。要素映像情報とは、対話相手の一部の映像である。複数の要素映像情報を合成することによって、対話相手の映像を複数のパターン生成することができる。例えば、笑っている対話相手の映像や、怒っている対話相手の映像や、困っている対話相手の映像を、それぞれ複数のパターンで生成することが可能となる。要素映像情報は、例えば対話相手となる特定の人物を撮影した映像を複数用いることによって予め生成される。要素映像情報は、例えば対話相手の顔の各パーツ(例えば目、鼻、口、頬、額など)の映像を複数種類有してもよい。要素映像情報は、例えば対話相手の体の各パーツ(例えば手、脚、胴、首など)の映像を複数種類有してもよい。対話相手となる特定の人物は、実在の人物ではなく架空の人物であってもよい。要素映像情報は、コンピュータグラフィックで生成された映像であってもよい。
要素音声情報記憶部122は、要素音声情報を記憶する。要素音声情報とは、対話相手の合成音声を生成するために用いられる音声情報である。複数の要素音声情報を合成することによって、対話相手の音声を任意のテキストを読み上げた音声として複数のパターンの抑揚で生成することができる。上述のように、対話相手となる特定の人物は、実在の人物ではなく架空の人物であってもよい。要素音声情報は、コンピュータによって生成された音声であってもよい。
制御部13は、CPUを用いて構成される。制御部13は、制御プログラムを実行することによって、音声認識部131、応答情報生成部132、映像生成部133及び音声生成部134として機能する。
制御部13が実現する各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。制御部13が実行する制御プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。制御プログラムは、電気通信回線を介して送信されてもよい。
音声認識部131は、音声入力部11によって取得された音声信号に対して音声認識処理を実行する。音声認識部131は、音声認識処理の実行によってユーザの発話内容を認識する。音声認識部131は、自然言語処理が適用されてもよい。音声認識部131は、音声認識処理を実行することによって、ユーザの発話内容の構文を解析し、解析結果に応じたテキストデータを取得する。音声認識部131は、音声信号に基づいてユーザの発話音声の抑揚やリズム等の情報に基づいて、ユーザの感情や発話のニュアンスを判定してもよい。この場合、音声認識部131は、テキストデータと共に判定結果を出力する。
応答情報生成部132は、音声認識部131における処理の結果に応じて、ユーザに対する応答の内容を決定する。応答情報生成部132は、決定された応答内容を示す情報(応答情報)を生成し、映像生成部133及び音声生成部134に応答情報を出力する。応答情報生成部132は、例えば人工知能(AI)を用いることによって、応答時に出力される映像の内容と、応答時に出力される音声のテキストと、応答時に出力される音声の抑揚と、を決定してもよい。
映像生成部133は、応答情報生成部132によって生成された応答情報に応じた映像を生成する。映像生成部133は、予め要素映像情報記憶部121に記憶されている要素映像情報を用いることによって、対話相手の映像を生成する。
音声生成部134は、応答情報生成部132によって生成された応答情報に応じた音声を生成する。音声生成部134は、予め要素音声情報記憶部122に記憶されている要素音声情報を用いることによって、対話相手の音声を生成する。
映像出力部14は、映像信号の出力インタフェースである。映像出力部14は、映像生成部133によって生成された映像を示す映像信号を表示装置20に対して出力する。
音声出力部15は、音声信号の出力インタフェースである。音声出力部15は、音声生成部134によって生成された音声を示す音声信号を音声出力装置30に対して出力する。
このように構成された対話システム1では、一方のユーザ(対話システム1の表示装置20の側に位置するユーザ)のタイミングに合わせて、対話相手との間で映像を伴う対話を実現することが可能となる。すなわち、対話相手の映像及び音声は制御装置10によってユーザの発話内容に応じて生成されて出力されるため、対話相手が対話を行うことができる環境にない場合であっても対話を実現することが可能となる。このような対話システム1を適用することによって以下の様なサービスが可能となる。
例えば、対話相手として有名人を選択した場合、実際にユーザの側に有名人が存在していないとしても、ユーザに対して有名人との仮想的な対話を提供することが可能となる。実際に有名人を呼ぶことは費用の面や手続きなどの面で非常に困難を伴うが、そのような困難を軽減して有名人との仮想的な対話を実現させることが可能となる。例えば、有名人を実際に呼ぶには難しい場所やコストをかけられないイベントや店舗等でも有名人との仮想的な対話を実現させることが可能となる。
また、所定の有名人は通常は世の中に1名しか存在しないため、複数の位置でそれぞれ独立した対話を実現することは不可能である。しかしながら、上記のように構成された対話システム1を適用することによって、複数の位置でそれぞれ独立した対話を実現することが可能となる。
(変形例)
第一実施形態において、要素映像情報記憶部121及び要素音声情報記憶部122は、複数の対話相手の情報を記憶してもよい。この場合、応答情報生成部132は、所定の条件に基づいて複数の対話相手の中から一人又は複数の対話相手を選択してもよい。この場合、応答情報生成部132は、選択された対話相手の映像及び音声を生成することを映像生成部133及び音声生成部134に指示する。所定の条件とは、例えばユーザの属性情報(性別、年齢、好みなど)に応じた条件である。ユーザの属性情報は、例えば不図示のカメラで撮影された画像を用いた画像認証や、ユーザが携帯する機器から通信で取得される情報に基づいて判定されてもよい。
[第二実施形態]
図3は、第二実施形態の対話システム(対話システム1a)のシステム構成を表すシステム構成図である。対話システム1aは、制御装置10に代えて制御装置10aを備える点、ネットワーク50を介して制御装置10aに対してサーバ60が通信可能に接続される点、において第一実施形態の対話システム1と異なる。他の構成に関しては、第一実施形態の対話システム1と第二実施形態の対話システム1aとは同じである。
図4は、第二実施形態における制御装置10aの機能構成を表す概略ブロック図である。制御装置10aは、制御部13に代えて制御部13aを備える点、通信部16をさらに備える点、において第一実施形態の制御装置10と異なる。他の構成に関しては、第一実施形態の制御装置10と第二実施形態の制御装置10aとは同じである。
制御部13aは、映像生成部133に代えて映像生成部133aを備える点、音声生成部134に代えて音声生成部134aを備える点、情報取得部135をさらに備える点、において第一実施形態の制御部13と異なる。他の構成に関しては、第一実施形態の制御部13と第二実施形態の制御部13aとは同じである。
映像生成部133aは、映像を合成する際に、必要となる要素映像情報の取得を情報取得部135に依頼する。映像生成部133aは、情報取得部135によって取得された要素映像情報を用いることによって映像を生成する。
音声生成部134aは、音声を合成する際に、必要となる要素音声情報の取得を情報取得部135に依頼する。音声生成部134aは、情報取得部135によって取得された要素音声情報を用いることによって音声を生成する。
情報取得部135は、映像生成部133a及び音声生成部134aから依頼された情報(要素映像情報及び要素音声情報)を、ネットワーク50を介してサーバ60に対して要求する。情報取得部135は、サーバ60からネットワーク50を介して要求に応じた要素映像情報及び要素音声情報を受信する。情報取得部135は、受信された要素映像情報及び要素音声情報を、それぞれ映像生成部133a及び音声生成部134aに対して渡す。
通信部16は、ネットワークカード等の通信インタフェースである。通信部16は、ネットワーク50を介してサーバ60と通信する。
図5は、第二実施形態におけるサーバ60の機能構成を表す概略ブロック図である。サーバ60は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。
サーバ60は、通信部61、記憶部62及び制御部63を備える。
通信部61は、ネットワークカード等の通信インタフェースである。通信部61は、ネットワーク50を介して制御装置10aと通信する。
記憶部62は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部62は、要素映像情報記憶部621及び要素音声情報記憶部622として機能する。要素映像情報記憶部621及び要素音声情報記憶部622は、それぞれ第一実施形態における要素映像情報記憶部121及び要素音声情報記憶部122と同じ構成である。
制御部63は、ネットワーク50を介して制御装置10aから要素映像情報及び要素音声情報の要求を受けると、要求された要素映像情報及び要素音声情報を記憶部62から読み出す。制御部63は、読み出された要素映像情報及び要素音声情報を、要求元である制御装置10aに対して送信する。
このように構成された第二実施形態の対話システム1aでは、制御装置10aは、必要になった要素映像情報及び要素音声情報をネットワーク50を介してサーバ60から取得する。そのため、要素映像情報及び要素音声情報を制御装置10aにおいて予め記憶しておく必要が無い。そのため、制御装置10aでは、常に最新の要素映像情報及び要素音声情報に基づいた映像及び音声を生成することが容易となる。
(変形例)
第二実施形態において、制御部63は、制御装置10aに対して認証処理を実行し、認証された制御装置10aに対してのみ要素映像情報及び要素音声情報を提供するように構成されてもよい。このように構成されることにより、要素映像情報及び要素音声情報を正当な権限を有していないユーザに対して提供してしまうことを抑止することが可能となる。そのため、要素映像情報及び要素音声情報が不当に使用されることを抑止することが可能となる。特に、上述したように有名人の映像及び音声を用いてユーザに対話を提供する場合には、有名人の肖像権などのパブリシティ権が問題になる。このような問題に対し、認証処理を行うことによって映像及び音声について適切な取り扱いが可能となる。
さらに、認証されて要素映像情報及び要素音声情報を受信した制御装置10aは、受信された要素映像情報及び要素音声情報のデータを所定のタイミングで自装置のメモリ等の記憶装置から削除するように構成されてもよい。所定のタイミングとは、所定の時刻や時間経過のタイミングであってもよいし、対話が終了したタイミングであってもよい。このように構成されることによって、要素映像情報及び要素音声情報が不当に使用されることをより厳密に抑止することが可能となる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1,1a…対話システム, 10,10a…制御装置 20…表示装置, 30…音声出力装置, 40…音声入力装置, 11…音声入力部, 12…記憶部, 13,13a…制御部, 14映像出力部, 15…音声出力部, 16…通信部, 121…要素映像情報記憶部, 122…要素音声情報記憶部, 131…音声認識部, 132…応答情報生成部, 133,133a…映像生成部, 134…音声生成部, 135…情報取得部, 50…ネットワーク, 60…サーバ, 61…通信部, 62…記憶部, 63…制御部, 621…要素映像情報記憶部, 622…要素音声情報記憶部

Claims (6)

  1. ユーザが発話した音声を認識する音声認識部と、
    前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、
    前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、
    前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、
    映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、
    音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、
    を備える制御装置。
  2. 前記応答情報生成部は、前記認識結果に基づいて、複数の対話相手の中から一又は複数の対話相手を選択し、
    前記映像生成部は、選択された対話相手の映像を生成し、
    前記音声生成部は、選択された対話相手の音声を生成する、請求項1に記載の制御装置。
  3. 制御装置及びサーバを備える対話システムであって、
    前記制御装置は、
    ユーザが発話した音声を認識する音声認識部と、
    前記音声認識部の認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成部と、
    前記サーバと通信する通信部と、
    前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を前記通信部を介して前記サーバから取得し、前記要素映像情報を用いて前記対話相手の映像を生成する映像生成部と、
    前記応答情報生成部によって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を前記通信部を介して前記サーバから取得し、前記要素音声情報を用いて前記対話相手の音声を生成する音声生成部と、
    映像を表示する表示装置に対して前記映像生成部によって生成された前記映像を出力する映像出力部と、
    音声を出力する音声出力装置に対して前記音声生成部によって生成された前記音声を出力する音声出力部と、
    を備え、
    前記サーバは、
    前記要素映像情報を記憶する要素映像情報記憶部と、
    前記要素音声情報を記憶する要素音声情報記憶部と、
    を備える、対話システム。
  4. 前記サーバは、前記制御装置を認証し、認証された制御装置に対してのみ前記要素映像情報及び前記要素音声情報を送信する制御部をさらに備える、請求項3に記載の対話システム。
  5. ユーザが発話した音声を認識する音声認識ステップと、
    前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、
    前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、
    前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、
    映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、
    音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、
    を備える制御方法。
  6. ユーザが発話した音声を認識する音声認識ステップと、
    前記音声認識ステップの認識結果に基づいて、前記ユーザに対する応答内容を示す応答情報を生成する応答情報生成ステップと、
    前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の映像の一部である要素映像情報を用いて前記対話相手の映像を生成する映像生成ステップと、
    前記応答情報生成ステップによって生成された前記応答情報に応じて、前記ユーザの対話相手の音声の一部である要素音声情報を用いて前記対話相手の音声を生成する音声生成ステップと、
    映像を表示する表示装置に対して前記映像生成ステップによって生成された前記映像を出力する映像出力ステップと、
    音声を出力する音声出力装置に対して前記音声生成ステップによって生成された前記音声を出力する音声出力ステップと、
    をコンピュータに実行させるためのコンピュータプログラム。
JP2016103764A 2016-05-24 2016-05-24 制御装置、対話システム、制御方法及びコンピュータプログラム Pending JP2017212557A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016103764A JP2017212557A (ja) 2016-05-24 2016-05-24 制御装置、対話システム、制御方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016103764A JP2017212557A (ja) 2016-05-24 2016-05-24 制御装置、対話システム、制御方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2017212557A true JP2017212557A (ja) 2017-11-30

Family

ID=60475659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016103764A Pending JP2017212557A (ja) 2016-05-24 2016-05-24 制御装置、対話システム、制御方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2017212557A (ja)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195652A (ja) * 1997-09-25 1999-04-09 Fumio Denda 聴覚訓練方法および聴覚訓練用音処理方法および聴覚訓練用音処理装置ならびに聴覚訓練用記録媒体
JP2001236290A (ja) * 2000-02-22 2001-08-31 Toshinao Komuro アバタを利用したコミュニケーション・システム
JP2001273522A (ja) * 2000-03-23 2001-10-05 Ntt Comware Corp キャラクタ画像データ登録システムおよびその記録媒体
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2003256862A (ja) * 2002-02-28 2003-09-12 Sony Communication Network Corp キャラクタ表示方法および装置
JP2003283604A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 表情伝送機能付情報端末装置
JP2004158994A (ja) * 2002-11-05 2004-06-03 Ntt Learning Systems Kk テレビ電話機能付携帯電話対向自動応答装置及びその動作方法
JP2005260626A (ja) * 2004-03-12 2005-09-22 Oki Electric Ind Co Ltd 通信端末装置
JP2009123148A (ja) * 2007-11-19 2009-06-04 Hitachi Ltd 作業担当者選択装置およびその方法
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
WO2013065088A1 (ja) * 2011-11-02 2013-05-10 三菱電機株式会社 雑音抑圧装置
JP2013115622A (ja) * 2011-11-29 2013-06-10 Fujitsu Ltd 音声情報解析装置および音声情報解析プログラム
JP2013175066A (ja) * 2012-02-25 2013-09-05 Kuroda And Partners Kk 3次元フィギアを構成するデータを配信するための方法、システム、サーバ装置、端末装置およびプログラム
JP2013201525A (ja) * 2012-03-23 2013-10-03 Mitsubishi Electric Corp ビームフォーミング処理装置
JP2015220597A (ja) * 2014-05-16 2015-12-07 株式会社ニコン 電子機器及びプログラム
US20160057083A1 (en) * 2014-08-22 2016-02-25 FVMC Software LLC Systems and methods for virtual interaction
WO2016052470A1 (ja) * 2014-09-30 2016-04-07 日本電気株式会社 解析装置、解析方法、及び、プログラム
JP2016085284A (ja) * 2014-10-23 2016-05-19 Kddi株式会社 人の発言に基づいて学習項目に対する評価レベルを推定するプログラム、装置及び方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195652A (ja) * 1997-09-25 1999-04-09 Fumio Denda 聴覚訓練方法および聴覚訓練用音処理方法および聴覚訓練用音処理装置ならびに聴覚訓練用記録媒体
JP2001236290A (ja) * 2000-02-22 2001-08-31 Toshinao Komuro アバタを利用したコミュニケーション・システム
JP2001273522A (ja) * 2000-03-23 2001-10-05 Ntt Comware Corp キャラクタ画像データ登録システムおよびその記録媒体
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
JP2003256862A (ja) * 2002-02-28 2003-09-12 Sony Communication Network Corp キャラクタ表示方法および装置
JP2003283604A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 表情伝送機能付情報端末装置
JP2004158994A (ja) * 2002-11-05 2004-06-03 Ntt Learning Systems Kk テレビ電話機能付携帯電話対向自動応答装置及びその動作方法
JP2005260626A (ja) * 2004-03-12 2005-09-22 Oki Electric Ind Co Ltd 通信端末装置
JP2009123148A (ja) * 2007-11-19 2009-06-04 Hitachi Ltd 作業担当者選択装置およびその方法
JP2012215645A (ja) * 2011-03-31 2012-11-08 Speakglobal Ltd コンピュータを利用した外国語会話練習システム
WO2013065088A1 (ja) * 2011-11-02 2013-05-10 三菱電機株式会社 雑音抑圧装置
JP2013115622A (ja) * 2011-11-29 2013-06-10 Fujitsu Ltd 音声情報解析装置および音声情報解析プログラム
JP2013175066A (ja) * 2012-02-25 2013-09-05 Kuroda And Partners Kk 3次元フィギアを構成するデータを配信するための方法、システム、サーバ装置、端末装置およびプログラム
JP2013201525A (ja) * 2012-03-23 2013-10-03 Mitsubishi Electric Corp ビームフォーミング処理装置
JP2015220597A (ja) * 2014-05-16 2015-12-07 株式会社ニコン 電子機器及びプログラム
US20160057083A1 (en) * 2014-08-22 2016-02-25 FVMC Software LLC Systems and methods for virtual interaction
WO2016052470A1 (ja) * 2014-09-30 2016-04-07 日本電気株式会社 解析装置、解析方法、及び、プログラム
JP2016085284A (ja) * 2014-10-23 2016-05-19 Kddi株式会社 人の発言に基づいて学習項目に対する評価レベルを推定するプログラム、装置及び方法

Similar Documents

Publication Publication Date Title
WO2020203999A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム
US8830244B2 (en) Information processing device capable of displaying a character representing a user, and information processing method thereof
KR20190038900A (ko) 단어 흐름 주석
TWI255141B (en) Method and system for real-time interactive video
WO2018155026A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR20200145700A (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
KR102540763B1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
CN110794964A (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
WO2018158852A1 (ja) 通話システム及びコミュニケーションシステム
US20240292175A1 (en) Audio System and Method of Determining Audio Filter Based on Device Position
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
JP6796762B1 (ja) 仮想人物対話システム、映像生成方法、映像生成プログラム
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
JP2023181219A (ja) 動画配信システム、動画配信方法および動画配信プログラム
US11164341B2 (en) Identifying objects of interest in augmented reality
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP2006065683A (ja) アバタ通信システム
US11368664B2 (en) Information processing apparatus, information processing method, and program
JP2017212557A (ja) 制御装置、対話システム、制御方法及びコンピュータプログラム
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
JP6980150B1 (ja) 3次元仮想現実空間提供サーバ、3次元仮想現実空間提供方法、3次元仮想現実空間提供プログラム、3次元仮想現実空間表示制御装置、3次元仮想現実空間表示制御方法、3次元仮想現実空間表示制御プログラムおよび3次元仮想現実空間提供システム
CN111091807B (zh) 语音合成方法、装置、计算机设备及存储介质
JP2005057431A (ja) テレビ電話端末装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200225