JP6448971B2 - 対話装置 - Google Patents

対話装置 Download PDF

Info

Publication number
JP6448971B2
JP6448971B2 JP2014202218A JP2014202218A JP6448971B2 JP 6448971 B2 JP6448971 B2 JP 6448971B2 JP 2014202218 A JP2014202218 A JP 2014202218A JP 2014202218 A JP2014202218 A JP 2014202218A JP 6448971 B2 JP6448971 B2 JP 6448971B2
Authority
JP
Japan
Prior art keywords
response
character
voice
response information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014202218A
Other languages
English (en)
Other versions
JP2016071247A (ja
Inventor
梅原 尚子
尚子 梅原
圭司 坂
圭司 坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014202218A priority Critical patent/JP6448971B2/ja
Priority to PCT/JP2015/076081 priority patent/WO2016052164A1/ja
Publication of JP2016071247A publication Critical patent/JP2016071247A/ja
Application granted granted Critical
Publication of JP6448971B2 publication Critical patent/JP6448971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、通信ネットワークに接続した、ユーザの音声を認識して応答する対話装置及び対話システムに関する。
近年、介護や癒しのケアロボットや家事代行ロボットといったロボットが徐々にユーザの生活に浸透してきており、例えば、特許文献1〜4に開示されているように、対話エンジンを備えユーザの音声を認識して応答する対話ロボット(対話装置)も開発されている。このような対話ロボットは、備えられた対話エンジンの性能やコストの面から、複雑な音声認識を行うことは困難であり、また応答もパターン化された内容や単純な内容であり、ユーザにとって面白みが少なく、飽きやすいものとなりがちである。
そこで、対話ロボットを通信ネットワークにてサーバ装置と接続させ、当該サーバ装置にて音声認識を行い、対話型ロボットでは、サーバ装置から認識結果に基づく応答に関する情報を受信して出力(応答)するシステムも開発されている。このようなシステムによれば、対話ロボット単体では処理できない内容の音声に対しても応答することができ、ユーザにとってはより多くの情報を得ることが可能となる。さらに、サーバ装置は、複数のロボットで利用可能であるため、対話ロボット毎の処理能力を上げるよりもコスト面で有利である。
国際公開公報WO05/076258A1(2005年8月18日公開) 特開2006−043780(2006年2月16日公開) 特開2010−128281(2010年6月10日公開) 特開2003−022092(2003年1月24日公開)
しかしながら、対話ロボットがサーバ装置から応答内容を取得して応答する場合、対話ロボット単体で音声認識して応答する場合と比べて、応答のタイミングが遅れてしまう。そのため、ユーザがストレスを感じ、会話し難いといった思いをすることもある。
そこで、本発明は、上記の問題点に鑑みてなされたものであり、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置及び対話システムを提供することにある。
上記の課題を解決するために、本発明の一態様に係る対話装置は、入力された入力音声を音声認識する音声認識手段と、上記音声認識手段による音声認識の結果に応じた応答内容を示す第1応答情報を格納する応答情報格納部と、上記入力音声をサーバ装置に送信し、当該サーバ装置による上記入力音声の音声認識の結果に応じた応答内容を示す第2応答情報を受信する通信部と、上記入力音声に対して、上記応答情報格納部を参照して得られる上記第1応答情報で示される応答内容を音声出力する第1応答処理を行った後に連続して上記第2応答情報で示される応答内容を音声出力する第2応答処理を行う出力制御手段と、を備えたえたことを特徴とする。
本発明の一態様に係る対話装置によると、入力音声に対して、自装置での音声認識及び第1応答情報での応答に加え、サーバ装置の音声認識及び第2応答情報での応答で補えるので、対話装置の音声認識手段の処理能力の向上や応答情報格納部の容量の拡大を図ることなく、複数の情報にて応答可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
本発明の実施の形態1に係る対話システムの概略構成を示す図である。 本発明の実施の形態1に係る対話システムにおける対話処理の流れを示す図である。 本発明の実施の形態2に係る対話システムの概略構成を示す図である。 本発明の実施の形態2に係る対話装置の動作を説明する図である。 本発明の実施の形態3に係る対話システムの概略構成を示す図である。 本発明の実施の形態3に係る対話システムの概念図である。
〔実施の形態1〕
以下、本発明の一実施形態について図1〜3に基づいて説明すれば以下の通りである。
(対話システムの構成)
図1は、本実施の形態に係る対話システム100の構成を示す図である。図1に示すように、対話システム100は、対話装置10とクラウドサーバ(サーバ装置)30とを備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、CATV(CAble TeleVision)通信網、衛星通信網などを利用することもできる。
対話システム100において、対話装置10及びクラウドサーバ30はそれぞれ音声認識機能を有しており、ユーザは自然言語を用いた音声によって対話装置10と対話することができる。対話装置10は、例えば、対話ロボットであってもよいし、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電(家庭用電子機器)等であってもよい。
なお、図1では、説明の簡略化のため、クラウドサーバ30に接続している対話装置10は1つしか示していないが、対話システム100では、クラウドサーバ30に接続する対話装置10の数は限定されない。また、クラウドサーバ30に接続する対話装置10の種類は問わず、つまり、クラウドサーバ30に対して、対話ロボットとスマートフォンといったように異なる種類の対話装置10が接続していてもよい。
(対話装置)
次に、対話装置10の構成について説明する。対話装置10は、音声(音声信号)が入力されると、音声認識を行い、その認識結果に応じた対話を行う装置である。対話装置10は、図1に示すように、音声入力部11、音声出力部12、制御部13、データ格納部14、及び通信部15を備えている。
音声入力部11は、マイク等の音声入力装置であり、音声出力部12は、スピーカ等の音声出力装置である。
制御部13は、対話装置10の各部の動作を制御するブロックである。制御部13は、例えば、CPU(Central Processing Unit)や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部13は、データ格納部14に記憶されている対話装置10における各種制御を実施するためのプログラムを読み出して実行することで、対話装置10の各部の動作を統括的に制御する。
また、制御部13は、音声認識部(音声認識手段)16、応答情報取得部17、出力制御部(出力制御手段)18、及び音声合成部19としての機能を有する。
音声認識部16は、ユーザからの入力音声を認識するブロックである。具体的には、音声認識部16は、音声入力部11から入力された音声データをテキストデータに変換して、そのテキストデータを解析して単語やフレーズを抽出する。なお、音声認識の処理について公知技術を用いることができる。
応答情報取得部17は、音声認識部16の認識結果に応じた応答内容を示す応答情報を、以下で説明する第1応答情報格納部(応答情報格納部)141から検出するブロックである。本実施の形態では、応答情報取得部17が第1応答情報格納部141から取得する応答情報を第1応答情報と称する。応答情報取得部17は、第1応答情報格納部141を参照し、音声認識部16が抽出した単語やフレーズに対応する第1応答情報を取得する。応答情報取得部17は、音声認識部16が抽出した単語やフレーズに対応する情報が第1応答情報格納部141に登録されていなければ、または、音声認識部16が音声認識に失敗した場合には、デフォルトの第1応答情報を取得する。デフォルトの第1応答情報の具体例を挙げると、「ちょっと待ってね」や「聞いてみるね」等の音声が出力される情報(応答内容の音声が「ちょっと待ってね」や「聞いてみるね」等となる情報)である。なお、これらに限定されない。
出力制御部18は、音声データを音声出力部12に出力させることで音声出力を行うブロックである。出力制御部18は、音声入力部11からの入力音声に対する応答として、第1応答処理を行った後に連続して第2応答処理を行う。第1応答処理とは、応答情報取得部17が取得した第1応答情報で示される応答内容を音声出力する処理であり、第2応答処理とは、クラウドサーバ30から受信した第2応答情報で示される応答内容を音声出力する処理である。第2応答情報については後述する。
音声合成部19は、音声データを生成(音声合成)するブロックである。音声合成部19は、第1応答情報で示される応答内容の音声データを生成する。生成された音声データは、音声出力部12を介して出力される。なお、第1応答情報が音声データとして生成されている(録音音声)である場合には、音声合成部19での生成は行わない。
データ格納部14は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)などを含み、対話装置10にて用いられる各種情報(データ)を記憶するブロックである。また、データ格納部14には、第1応答情報格納部141が含まれる。第1応答情報格納部141は、単語やフレーズに対応させて第1応答情報が登録されているデータベースである。第1応答情報は、単語1つに対応したものだけでなく、複数の単語の組み合わせに対応しものが登録されている。また、ある単語やあるフレーズに対応させて複数の第1対応情報が登録されていてもよく、この場合、実際に音声出力されるものを選択すればよい。なお、単語やフレーズおよび第1応答情報は、何れもテキストデータとして格納しておけばよい。このようなデータベースの構築、また、データベースからの応答情報の取得については、公知技術が利用できる。
対話装置10は、このように、第1応答情報格納部141を参照することにより、ユーザの発話に対して応答を返すことが、つまり、ユーザとの対話が可能になる。
通信部15は、外部との通信を行うブロックである。通信部15は、制御部13による制御の下、音声入力部11から音声データが入力されると、音声データをクラウドサーバ30に送信する。そして、後段で詳述するクラウドサーバ30から、クラウドサーバ30による入力音声の音声認識の結果に応じた応答内容を示す第2応答情報を受信する。本実施の形態では、通信部15は音声入力部から入力された音声データをそのままクラウドサーバ30に送信するものとするが、通信部15は、音声認識部16が生成したテキストデータまたは該テキストデータから抽出した単語やフレーズをクラウドサーバ30に送信してもよい。
ここで、本実施の形態では、通信部15がクラウドサーバ30から第2応答情報を受信している間に、出力制御部18が第1応答処理を行うように構成されている。
なお、対話装置10は、さらに撮像部(カメラ)を備えていてもよく、例えば、撮像部から入力された画像からユーザの表情や位置を解析してそれに基づき対話をするように構成されていてもよい。例えば、対話装置10がロボットである場合、ロボットの正面から見てユーザの位置が右方向であると認識した場合、ロボットの頭部を実際に右に向ける、あるいは、頭部に顔が右に向いて移動する状態を表示することで、ユーザの方を向いている、つまり応答可能であるという状態を示す構成であってもよい。
(クラウドサーバの構成)
次に、クラウドサーバ30について説明する。クラウドサーバ30は、対話装置10から受信した音声データ(入力音声)に対する応答を生成して対話装置10に送信するサーバである。また、クラウドサーバ30は、対話装置10を管理するサーバであり、複数の対話装置10が接続されている場合には、それぞれを個別に管理する。また、クラウドサーバ30は、対話装置10のユーザに関する情報を併せて管理していてもよく、この場合、ユーザに関する情報はスマートフォンやタブレット等の外部装置からクラウドサーバ30に登録できるようになっていてもよい。
なお、本実施形態では、対話装置10と接続するサーバ装置として、クラウドサービスを提供するクラウドサーバ30を用いて説明を行うが、クラウドサーバに限定されることはない。また、クラウドサーバ30は、1台であってもよいし、複数台が通信ネットワークを介して接続したものであってもよい。
クラウドサーバ30は、図1に示すように、制御部31、データ格納部32、及び通信部33を備えている。
制御部31は、例えば、CPUや専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置からなり、クラウドサーバ30の各部の動作を制御するブロックである。また、制御部31は、音声認識部34、応答情報生成部35、及び音声合成部36としての機能を有する。
音声認識部34は、対話装置10の音声認識部16と同様の機能を有するブロックであるが。ただし、音声認識の能力(性能)は音声認識部16よりも高度である。これにより、対話装置10では音声認識できなかったとしても、クラウドサーバ30で音声認識することが可能になる。
応答情報生成部35は、第1応答情報に続く応答情報を生成するブロックである。本実施の形態では、応答情報生成部35にて生成された応答情報を第2応答情報と称する。応答情報生成部35は、第2応答情報を生成する際に、音声認識部34の認識結果に応じた応答内容を示す応答情報を、以下で説明する第2応答情報格納部321から検出することで、第2応答情報を生成する。
音声合成部36は、音声データを生成するブロックである。音声合成部36は、応答情報生成部35が生成した第2応答情報で示される応答内容の音声データを生成するブロックである。
さらに、クラウドサーバ30は、通信ネットワークを経由して外部の情報提供サーバから情報(外部提供情報)を受信するように構成されている。そこで、応答情報生成部35は、外部提供情報や上記で説明したクラウドサーバ30に登録されたユーザ情報、あるいはこれらの組み合わせ等に基づき、第2応答情報を生成してもよい。外部提供情報の具体例を挙げると、ウエザー情報、交通情報、災害情報等であるが、これらには限定されない。また、クラウドサーバ30に情報を提供する情報提供サーバの数は限定されない。
このように、第2応答情報を生成する際に外部提供情報を利用することで、例えば、「おはよう。」という入力音声に対して、第1応答情報で示される応答内容の音声(第1応答情報で出力される音声)が「おはよう。」であっても、第2応答情報で示される応答内容の音声(第2応答情報で出力される音声)が「今日の天気は曇りのち雨だから出かけるなら傘を持って行った方がいいね。」のような高度な応答を行うことができる。この場合、外部提供情報が天候の情報であり、それを基に第2応答情報が生成されたとういことである。
上記で説明したように、第2応答情報は第1応答情報の音声出力後に連続して音声出力されるものであるため、内容が連続するもの、あるいは第1応答情報の内容の詳細内容であると応答に統一感が生まれるため好ましい。この場合、クラウドサーバ30が、どの入力音声にはどの第1応答情報が対話装置10から出力されるかを予め把握しておくか、あるいは、対話装置10が第1応答情報を取得した際にクラウドサーバ30に通知してもよい。
クラウドサーバ30にて生成された第2応答情報で示される応答内容の音声データは、制御部31が通信部33を制御して対話装置10に送信される。
本実施の形態では、クラウドサーバ30にて第2応答情報を音声データに生成してから送信するように構成されているため、対話装置10の負荷を低減させることできる。ここで、対話装置10とクラウドサーバ30とがそれぞれ音声合成部を有していることにより、それぞれで合成した音声の声質が異なったとしても、実施の形態2で説明するように第1応答処理と第2応答処理とで対話装置10に出現させるキャラクターを変更することで、ユーザが感じる違和感を無くすことができる。なお、クラウドサーバ30が音声合成部36を有しておらず、第2応答情報をテキストデータで対話装置10に送信する構成であってもよい。この場合、第2応答情報は、対話装置10の音声合成部19にて音声データとして生成される。
また、クラウドサーバ30は、例えば、スマートフォンやタブレット等の外部装置から録音音声を登録できるようになっていてもよい。そして、この場合、応答情報生成部35が、この登録された録音音声を第2応答情報として取得することも、第2応答情報の生成に含めてもよい。録音音声は音声データとして形成されているので、そのまま対話装置10に送信すると、対話装置10での音声合成の処理はなされない。例えば、「冷蔵庫にケーキがあるよ」という音声がユーザの母親のスマートフォンからクラウドサーバ30に登録されると、対話装置10が、ユーザの「ただいま」という入力音声に対して、第1応答情報を用いて「おかえり」を音声出力して、続けて、第2応答情報を用いて「お母さんからの伝言だよ。「冷蔵庫にケーキがあるよ」。」を音声出力する、というような高度な応答を行うことができる。
データ格納部32は、クラウドサーバ30で用いられる各種情報(データ)を記憶するブロックである。また、データ格納部32には第2応答情報格納部321が含まれる。第2応答情報格納部321は、単語やフレーズに対応させて第2応答情報が登録されているデータベースである。第2応答情報格納部321には第1応答情報格納部141よりも多量の情報が格納されている。また、第2応答情報が定期的に更新されるようになっていてもよい。
対話システム100では、対話装置10では音声認識ができなかったり、第1応答情報が簡単な応答内容であったりしても、上記のようにクラウドサーバ30の応答情報生成部35及び第2応答情報格納部321が構成されていることにより、入力音声に対して、正しく音声認識でき、複数の情報を返答可能である。
通信部33は、外部との通信を行うブロックである。通信部33は、対話装置10に加え、図示しない外部の情報提供サーバやスマートフォンやタブレット等の外部装置と通信ネットワークにて接続する。なお、クラウドサーバ30と接続する装置の数は限定されない。
(対話システムにおける処理の流れ)
次に、対話システム100における対話処理の流れを、図3を参照して説明する。
対話装置10は、ユーザ2からの発話の音声データ(入力音声)を受信すると(工程A1)、受信した音声データをクラウドサーバ30に送信し(工程A2)、第1応答情報の取得を行う(工程A3)。工程A3では、入力音声を音声認識して、音声認識の結果に応じた応答内容を示す第1応答情報を取得する。なお、工程A2と工程A3とはどちらが先に開始されてもよい。そして、対話装置10は、第1応答情報で示される応答内容を音声出力する(工程A4)。
他方、クラウドサーバ30は、対話装置10から音声データを受信すると(工程B1)、第2応答情報を生成し(工程B2)、生成した第2応答情報を対話装置10に送信する(工程B3)。
ここで、対話装置10は、クラウドサーバ30から第2応答情報を受信している間に、第1応答情報で示される応答内容を音声出力する。
対話装置10は、第2応答情報を受信すると(工程A5)、第2応答情報で示される追う応答内容を音声出力する(工程A6)。以上で、対話システム100における対話処理が終わる。
以上のように、対話システム100では、対話装置10は、音声認識部16にて音声認識した結果に対応付けられた第1応答情報で示される応答内容を音声出力させた後に連続して、クラウドサーバ30による音声認識の結果に対応付けられた第2応答情報で示される応答内容を音声出力する。
ここで第1応答情報は対話装置10での音声認識の結果に応じたものであるため、クラウドサーバ30との通信を介して受信する第2応答情報よりも早く、対話装置10から出力することができる。また、クラウドサーバ30は、個々の対話装置10よりも高度な処理が可能であるため、高度の音声認識を行うことができる。よって、対話装置10は、第1応答処理により入力音声へのすばやい応答ができる上、第1応答処理の後に連続する第2応答処理により多様なまたは高度な情報を提供することができる。
このように、対話システム100によると、ユーザからの入力音声に対して、対話装置10での音声認識及び第1応答情報での応答に加え、クラウドサーバ30の音声認識及び第2応答情報での応答で補えるので、対話装置10の音声認識部16の処理能力の向上やデータ格納部14の容量の拡大を図ることなく、複数の情報にて応答可能である。従って、対話システム100は、スムーズに複数の情報を音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
さらに、対話システム100では、対話装置10において、通信部15がクラウドサーバ30から第2応答情報を受信している間に、出力制御部18が第1応答処理を行うように構成されているため、ユーザに第2応答情報の受信の待ち時間のストレスを与えることなく対話を行うことができる。
〔実施の形態2〕
本発明の他の実施の形態の対話システムについて図3及び4を用いて説明する。なお説明の便宜上、実施の形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施の形態の対話システム100aは、図3に示すように、対話装置10aとクラウドサーバ(サーバ装置)30aとを備えている。本実施の形態では、対話装置10aは、図4に示すように表情を表出することでのできる、頭部と胴体部とを有する対話ロボットであるとして説明を行う。
対話装置10aは実施の形態1の対話装置10構成に加え、表示部21及び動作部22を備えている。表示部21は、対話ロボットの表情の画像を表出するブロックであり、本実施形態では、リアプロジェクション方式で表示を行うものとするが、これには限定されない。動作部22は、対話装置10aの動作を実行するブロックである。動作部22は、以下で説明するように、第1応答処理時と第2応答処理時との間であるキャラクター切替時に、対話装置10aを回転する動作を実行する。この回転は、回転以外の運動でもよく、図4の(a)に示すように、対話装置10aである対話ロボットの頭部が水平方向に回転する。また、動作部22は、対話装置10aである対話ロボットの頭部、胴体部、または胴体部に付随の腕部等を様々な方向に動作させるように構成されていてもよい。また、キャラクター切替時に、動作部22は回転以外の運動を行ってもよく、例えば、移動、方向転換、振動等を実行してもよい。ここで運動とは、対話装置の少なくとも一部が物理的な動作をすることを指す。
また、対話装置10aは、データ格納部14aに、複数のキャラクターの画像の特徴量及び音声の特徴量を格納するキャラクター格納部(キャラクター特徴量格納部)142を含んでいる。また、対話装置10aでは、制御部13aは、キャラクター切替部(キャラクター切替手段)20としての機能を有する。キャラクター切替部20は、キャラクター切替時に、対話装置10aでの、画像表示、音声出力、及び運動の少なくとも1つの動作を制御して、対話装置10aに異なるキャラクターが出現したことを表す演出処理を行うブロックである。演出処理については、以下で具体例を用いて説明する。
そして、対話装置10aでは、出力制御部18aは、第1応答処理時及び第2応答処理時には、それぞれ、複数のキャラクターのいずれか1つを選択し、選択したキャラクターの、キャラクター格納部142を参照して得られる画像の特徴量により定まるキャラクター画像を表示部21に表示させると共に、選択したキャラクターの、キャラクター格納部142を参照して得られる音声の特徴量により定まるキャラクター音声を音声出力部12に音声出力させる。このように、対話装置10aは、表示部21で表示する画像、音声出力部12から出力する音声の音質、の特徴量を第1応答処理時と第2応答処理時とで変更することで、異なるキャラクターを対話装置10aに出現させることができる。また、動作を変更させてもよい。キャラクターは、例えば、子供、お父さん、お母さん、先生、ニュースキャスター等である。
さらに、対話システム100aでは、クラウドサーバ30aは、対話装置10aにて第2応答情報を音声出力する際のキャラクターを指定するキャラ指定情報も含めて第2応答情報を生成する。キャラ指定情報とは、対話装置10aにて出現させることのできるキャラクターを指定するものである。キャラ指定情報は、例えば、第2応答情報で音声出力する内容に応じたものであってもよい。具体例を挙げると、第2応答情報で音声出力する内容が、勉強に関する内容であればお父さん、生活に関する内容であればお母さん、気候に関する内容であればお天気キャスター、のキャラクターを指定する情報である。なお、これらは例示であり、これらに限定されない。
次に、キャラクター切替時の演出処理について具体例を用いて説明する。出力制御部18aは、第1応答処理時には、デフォルトのキャラクターを選択し、第2応答処理時には、キャラ指定情報により指定されるキャラクターを選択する。ここで、出力制御部18aが、第2応答処理時に第1応答処理時と異なるキャラクターを選択すると、キャラクター切替部20は、キャラクター切替時に、対話装置10aに異なるキャラクターが出現したことを表す演出処理として以下の処理を行う。
図4の(a)に示すように、第1応答処理時に選択されたキャラクターである第1キャラクターのキャラクター画像を表示させた状態で、対話装置10aの頭部の回転を開始させる。そして、頭部の回転が終了したとき、第1キャラクターのキャラクター画像に代えて第1応答処理時に選択された第2キャラクターのキャラクター画像を表示させるように、表示部21と動作部22とを制御する。このとき、第1キャラクターが出現している状態で、第2キャラクターを呼ぶ声(例えば、「ニュース担当の○○さん!」)を音声出力してもよい。また、回転時には、第1キャラクターが遠ざかる足音及び第2キャラクターが近づく足音を音声出力してもよい。
あるいは、キャラクター切替部20は、演出処理として以下の処理を行ってもよい。図4の(b)または(c)に示すように、第1キャラクターのキャラクター画像から、第2応答処理時に選択されたキャラクターである第2キャラクターの上記キャラクター画像へと表示が徐々に切り替わるように表示部21を制御する。この演出処理では、対話装置10a自体は回転せず、回転するようにみせかける表示を行う。また、この演出処理においても、上記と同様に音声出力による演出を行なってもよい。
また、対話装置10aで第2応答情報を正しく受信できなかった場合には、出力制御部18aは、第1応答処理と第2応答処理でキャラクターを切り替えない。この場合、例えば、「忙しんだよ、また後で質問してね」や、「ニュースキャスターさんは今日はお休みだよ」といったようなデフォルトの音声出力がなされてもよい。
(対話システムにおける処理の流れ)
対話システム100にaおける対話処理の流れは、基本的には図2に示す実施の形態1の対話システム100での処理の流れと同様である。ただし、対話システム100aでは、工程B2において、第2応答情報を音声出力する際のキャラクターを指定するキャラ指定情報も含めて第2応答情報を生成する。そして、工程A4では、第1キャラクターを対話装置10aに出現させ、そして、工程A6では、キャラクター切替部20により上記の演出処理を行い、キャラ指定情報にて指定された第2キャラクターを対話装置10aに出現させる。ここで、例えば「ちょっと待ってね」という音声出力が行われた後に、キャラクター切替部20が上記の演出処理を行うと、ユーザにキャラクターが変更されることをわかり易く伝えることができる。
上記では、第2応答情報に複数のキャラクターのうちいずれか1つを指定する情報が含まれており、それを対話装置10aが受信するものとして説明したが、対話装置10aは、次のように構成されていてもよい。出力制御部18は、音声認識部16による入力音声の認識結果から複数のキャラクターのいずれの1つが指定されたかを判定し、第2応答処理時には、その指定されたキャラクターを選択するように構成されていてもよい。
この場合、出力制御部18は、指定されたキャラクターを、ユーザによる入力音声にキャラクターそのものを指定する情報が含まれていればそれから判定してもよいし、ユーザとの対話におけるメタデータからキャラクターを類推して判定してもよい。これについて具体例を用いて説明すると、前者は、ユーザによる入力音声に「先生」、「先生を呼んで」、「先生を出して」というコマンド入っていれば、「先生」のキャラクターを選択し、後者は、ユーザとの対話が勉強に関する内容であれば、「先生」のキャラクターを選択する、ということである。
なお、上記判定は出力制御部18で行わず、音声認識部16による音声認識の結果を基に上記判定を行うブロックが別途設けられていてもよい。
上記のようにユーザとの対話内容からキャラクターを選択することで、ユーザの意図を反映させたキャラクターを用いて第2応答情報を提供できる。また、対話に面白みを与えることができる。
さらに、出力制御部18は、対話装置10aの起動時またはスリープ状態からの復帰時に、複数のキャラクターのいずれか1つを選択し、選択したキャラクターの画像を表示部21に表示させると共に、選択したキャラクターの音声を音声出力部12に音声出力させてもよい。
起動時やスリープ状態からの復帰時には、対話したいユーザを待たせることになり、ユーザのストレスを招くことがある。しかし、上記のような表示及び音声出力を行うことで対話装置にキャラクターを出現させることができ、間を持たせ、ユーザのストレスを低減することができる。対話装置10aの起動時またはスリープ状態からの復帰時に示すキャラクターの画像や音声は、例えば、対話ロボットが眠りから目覚めたことを示すものであると、ユーザに対話装置10aが起動の最中であることをわかり易く伝えることができる。
〔実施の形態3〕
以下では、本発明のさらに別の実施の形態の対話システムについて図5及び6を用いて説明する。なお説明の便宜上、実施の形態1または2にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施の形態の対話システム100bは、図6に示すように、対話装置10bとクラウドサーバ(サーバ装置)30bとを備えている。対話装置10bは、対話ロボットであるものとして以下の説明を行う。
対話装置10bは、図5に示すように、実施の形態1の対話装置10構成に加え、実施の形態2の対話装置10aと同様に、表示部21及び動作部22を備えている。また、対話装置10bは、家電を操作可能な家電操作モードを家電毎に有しており、図6に示すように、ユーザ宅40にある家電を、通信部15からの赤外線通信や無線LAN通信などで操作可能に設けられている。家電は、例えば、空気調和機(エアコン)、洗濯機、冷蔵庫、調理器具、照明装置、給湯機器、撮影機器、各種AV(Audio-Visual)機器、各種家庭用ロボット(例えば、掃除ロボット、家事支援ロボット、動物型ロボット等)等である。本実施の形態では、家電の例として、エアコン50−1及び洗濯機50−2を用いて説明を行う。
対話装置10bは、エアコン50−1及び洗濯機50−2を操作可能である。対話装置10bの制御部13bは、家電操作モードに対話装置10bを設定するモード設定部(モード設定手段)23としての機能を有する。モード設定部23は、音声入力部11から入力された入力音声から操作対象とする家電を判定し、判定した家電の家電操作モードに対話装置10bを設定する。よって、対話装置10bは、ユーザとの対話からエアコン50−1を操作したいことを類推した場合には、エアコン50−1を操作する家電操作モードに対話装置10bを設定し、操作を行うことが可能となる。
出力制御部18は、入力音声から操作対象の家電を判定する際、入力音声に操作対象の家電を指定する情報が含まれていれば、それから判定してもよいし、ユーザとの対話におけるメタデータから操作対象の家電を類推して判定してもよい。これについて具体例を用いて説明すると、前者は、ユーザによる入力音声に「エアコンつけて」や「エアコンON」というコマンド入っていれば、操作対象の家電はエアコン50−1であると判定し、後者は、入力音声に「暑い」というメタデータが含まれていれば、操作対象の家電はエアコン50−1であると判定する、ということである。
ここで、対話装置10bからのエアコン50−1の操作前には、操作の実行を確認する音声、例えば、「エアコンつけようか?」といった音声を対話装置10bから出力させて、ユーザから実行を許可する音声、例えば、「つけて」や「OK」といった音声入力がなされた場合に操作を実行する。このように、家電の操作を実行する前にはユーザの確認を取るのが安全性を確保する上で好ましい。
また、対話装置10bのデータ格納部14bは、モード情報格納部143を含み、モード情報格納部143には、家電を操作できるように対話装置10bを設定するための情報が家電毎に格納されている。また、モード情報格納部143には、家電に対応付けられたキャラクターの画像の特徴量及び音声の特徴量を家電毎に格納している。
家電に対応付けられたキャラクターは、対話装置10bが家電の家電操作モードに設定されると出現する。キャラクターの出現は、実施の形態2と同様に、表示部21で表示する画像、音声出力部12から出力する音声の音質、の特徴量を変更することで実行できる。また、動作を変更させてもよい。
具体例を示すと、対話装置10bがエアコン50−1の操作モードに設定されると、エアコンに対応付けられたキャラクターが対話装置10bに出現する。この場合、例えば、エアコンのマークが対話ロボットの額部分やお腹部分(表示部の一部)に表示される。同様に、対話装置10bが洗濯機50−2の操作モードに設定されると、洗濯機に対応付けられたキャラクターが対話装置10bに出現する。
あるいは、エアコンにはうさぎのキャラクター、洗濯機にはアライグマのキャラクターというように、家電とキャラクターとの対応付けをユーザが対話装置10bに登録できるようになっていてもよい。なお、これらは例示である。
このような家電に対応付けられたキャラクターが対話装置10bに出現することにより、対話装置10bがどの家電を操作できる家電操作モードになっているか、つまり、どれが操作対象家電かをユーザに通知することができる。
また、例えば、対話装置10bにエアコン50−1に対応付けられたキャラクターが出現している場合には、対話装置10bは、「お休み」という音声入力に対して、「お休み」という音声出力をすると共に、エアコン50−1の電源をOFFする操作を行うように構成されていてもよい。また、洗濯機50−2に対応付けられたキャラクターが出現している場合には、対話装置10bは、「おはよう」という音声入力に対して、「おはよう」という音声出力をすると共に、洗濯機50−2の電源をONにする操作を行うように構成されていてもよい。このように、家電に対応付けられたキャラクター毎に異なる機能を有していてもよい。
また、対話装置10bがテレビジョン装置としての機能も備えている場合には、テレビを操作する家電操作モードに設定された場合には、表示部21に放送番組を映すように構成されていてもよい。
対話装置10bからエアコン50−1及び洗濯機50−2を操作する際には、赤外線を用いてエアコン50−1及び洗濯機50−2の位置を検出してもよいし、対話装置10bにカメラが設けられており、カメラから入手した情報でエアコン50−1及び洗濯機50−2の位置を検出してもよい。
クラウドサーバ30bの構成はクラウドサーバ30と同様のため、説明は省略する。クラウドサーバ30が、エアコン50−1及び洗濯機50−2と通信接続しており、これらの状態を示す状態情報を収集している場合には、クラウドサーバ30は、この状態情報を基に第2応答情報を生成してもよい。例えば、洗濯機50−2の状態情報を取得して、「洗濯機さんがお仕事終わったと言っているよ」という音声を出力するように第2応答情報を生成してもよい。
〔実施の形態4〕
実施の形態1から3にて説明した対話装置10,10a,10b及びクラウドサーバ30,30a,30bは、それぞれ、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、対話装置10,10a,10b及びクラウドサーバ30,30a,30bは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)等を備えている。そして、コンピュータ(又はCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
〔まとめ〕
本発明の態様1に係る対話装置(10)は、入力された入力音声を音声認識する音声認識手段(音声認識部16)と、上記音声認識手段による音声認識の結果に応じた応答内容を示す第1応答情報を格納する応答情報格納部(第1応答情報格納部141)と、上記入力音声をサーバ装置(クラウドサーバ30)に送信し、当該サーバ装置による上記入力音声の音声認識の結果に応じた応答内容を示す第2応答情報を受信する通信部(15)と、上記入力音声に対して、上記応答情報格納部を参照して得られる上記第1応答情報で示される応答内容を音声出力する第1応答処理を行った後に連続して上記第2応答情報で示される応答内容を音声出力する第2応答処理を行う出力制御手段(出力制御部18)と、を備えている。
上記構成によると、自装置が有する音声認識手段にて音声認識した結果に対応付けられた第1応答情報で示される応答内容を音声出力させた後に連続して、サーバ装置による音声認識の結果に対応付けられた第2応答情報で示される応答内容を音声出力する。
第1応答情報は自装置での音声認識の結果に応じたものであるため、一般に、サーバ装置との通信を介して受信する第2応答情報よりも対話装置から早く出力することができる。また、一般に、サーバ装置は、個々の対話装置よりも高度な処理が可能であるため、高度の音声認識を行うことができる。よって、上記構成により、第1応答処理により、入力音声へのすばやい応答ができる上、第1応答処理の後に連続する第2応答処理により多様なまたは高度な情報を提供することができる。
上記構成によると、入力音声に対して、自装置での音声認識及び第1応答情報での応答に加え、サーバ装置の音声認識や第2応答情報での応答で補えるので、対話装置の音声認識手段の処理能力の向上や応答情報格納部の容量の拡大を図ることなく、複数の情報にて応答可能である。このように、上記構成によると、複数の情報をスムーズに音声出力することが可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる。
さらに、第2応答情報を受信している間に第1応答処理を行うように構成されていると、よりユーザに第2応答情報の受信の待ち時間のストレスを与えることなく対話を行える。
本発明の態様2に係る対話装置は、上記態様1において、複数のキャラクターの画像の特徴量及び音声の特徴量を格納するキャラクター特徴量格納部(キャラクター格納部142)をさらに備え、上記出力制御手段は、上記第1応答処理時及び上記第2応答処理時には、それぞれ、上記複数のキャラクターのいずれか1つを選択し、上記選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる画像の特徴量により定まるキャラクター画像を表示すると共に、上記選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる音声の特徴量により定まるキャラクター音声を音声出力し、上記出力制御手段が上記第2応答処理時に上記第1応答処理時と異なるキャラクターを選択すると、上記第1応答処理時と上記第2応答処理時との間に、自装置での、画像表示、音声出力、及び運動の少なくとも1つの動作を制御して、異なるキャラクターが出現したことを表す演出を行うキャラクター切替手段をさらに備えている。
上記構成によると、第1応答処理時及び第2応答処理時に、それぞれ、キャラクターを選択し、選択したキャラクターのキャラクター画像を表示すると共に、選択したキャラクターのキャラクター音声を音声出力することで、対話装置にキャラクターを出現させることができる。そして、第2応答処理時に第1応答処理時と異なるキャラクターが選択されると、異なるキャラクターが出現したことを表す演出を行う。この演出により、異なるキャラクターの出現による出現前のキャラクターのイメージを壊すことなく、異なるキャラクターが出現するという場の雰囲気を盛り上げることができる。
また、上記制御による上記演出によってユーザの興味を引くことができるため、例えば、第1応答処理後の第2応答処理までの時間が長く経過した場合でも、待ち時間に起因するユーザのストレスを低減することができる。
ここで、キャラクター切替手段は、(a)上記第1応答処理時に選択されたキャラクターである第1キャラクターの上記キャラクター画像から、上記第2応答処理時に選択されたキャラクターである第2キャラクターの上記キャラクター画像へと表示が徐々に切り替わるように制御する、または、(b)上記第1キャラクターの上記キャラクター画像が表示された状態で自装置の回転を開始させ、回転が終了したとき、上記第1キャラクターの上記キャラクター画像に代えて上記第2キャラクターの上記キャラクター画像が表示されるように、画像の表示と自装置の回転、移動、方向転換、振動等を制御する、ことで、異なるキャラクターが出現したことを表す演出を行ってもよい。
本発明の態様3に係る対話装置では、上記態様2において、上記第2応答情報には上記複数のキャラクターのうちのいずれか1つを指定する指定情報が含まれており、上記出力制御手段は、上記第2応答処理時には、当該第2応答情報に含まれる上記指定情報が指定するキャラクターを選択する。
上記構成によると、第2応答情報にキャラクターの指定情報が含まれている。そのため、予め第2応答情報の内容にふさわしいキャラクターを指定しておけば、第2応答処理時には、指定されたキャラクターを出現させることができるので、説得力をもたせて、あるいは、面白みを与えつつ、第2応答情報をユーザに提供することができる。
本発明の態様4に係る対話装置では、上記態様2において、上記出力制御手段は、上記音声認識手段による上記入力音声の音声認識の結果から上記複数のキャラクターのいずれの1つが指定されたかを判定し、上記第2応答処理時には、当該指定されたキャラクターを選択する。
上記構成によると、ユーザによる入力音声からキャラクターが指定され、第2応答処理時には、指定されたキャラクターを対話装置に出現させることができる。ここで、指定されたキャラクターを、ユーザによる入力音声にキャラクターそのものを指定する情報が含まれていれば、それから判定してもよいし、または、ユーザとの対話におけるメタデータからキャラクターを類推して判定してもよい。上記構成によると、ユーザの意図を反映させたキャラクターを用いて第2応答情報を提供できる。また、対話に面白みを与えることができる。
本発明の態様5に係る対話装置では、上記態様2において、上記出力制御手段は、自装置の起動時またはスリープ状態からの復帰時に、上記複数のキャラクターのいずれか1つを選択し、選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる画像の特徴量により定まるキャラクター画像を表示すると共に、上記選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる音声の特徴量により定まるキャラクター音声を音声出力する。
上記構成によると、自装置の起動時あるいはスリープ状態からの復帰時にキャラクターを選択し、選択したキャラクターのキャラクター画像を表示すると共に、選択したキャラクターのキャラクター音声を音声出力することで、対話装置にキャラクターを出現させることができる。このようなキャラクターの出現により、ユーザの興味を引くことができ、起動時あるいはスリープ状態からの復帰時の待ち時間におけるストレスを低減することができる。
本発明の態様6に係る対話装置は、上記態様1から5のいずれか1つにおいて、家電を操作可能な家電操作モードを家電毎に有しており、上記音声認識手段による上記入力音声の音声認識の結果から操作対象とする家電を判定し、判定した家電の家電操作モードに自装置を設定するモード設定手段をさらに備えている。
上記構成によると、対話装置を家電が操作できる家電操作モードに設定することができ、操作対象の家電の判定は入力音声から行うことができる。よって、対話装置は、ユーザとの対話から家電を操作したいことを類推した場合には、その家電を操作する家電操作モードに自装置を設定し、操作を行うことが可能となる。
ここで、例えば、対話装置が表示部を備えており、家電操作モードに設定される際に操作対象の家電あるいは家電を表すキャラクターの表示を行うように構成されていると、ユーザに操作対象家電をわかりやすく通知することができる。
本発明の態様7に係る対話システムは、上記態様1から6のいずれか1つに記載の対話装置と、音声認識機能を有するサーバ装置とが通信ネットワークを介して接続されて構成されている。
上記対話システムによると、ユーザによる入力音声に対してスムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる。
また、本発明の態様8に係るサーバ装置は、上記態様7の対話システムに備えられるサーバ装置である。
上記サーバ装置を用いることで、上記態様7の対話システムを構築することができる。
また、本発明の各態様に係る対話装置、サーバ装置または対話システムは、コンピュータによって実現してもよく、この場合には、コンピュータを対話装置、サーバ装置または対話システムが備える各手段として動作させることにより対話装置、サーバ装置または対話システムをコンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。
本発明は、通信ネットワークに接続した、ユーザの音声を認識して応答する対話装置等に利用可能である。
2 ユーザ
10,10a,10b 対話装置
11 音声入力部
12 音声出力部
13,13a,13b 制御部
14,14a,14b データ格納部
15 通信部
16 音声認識部(音声認識手段)
17 応答情報取得部
18,18a 出力制御部(出力制御手段)
20 キャラクター切替部(キャラクター切替手段)
21 表示部
22 動作部
23 モード設定部(モード設定手段)
30,30a,30b クラウドサーバ(サーバ装置)
35 応答情報生成部
40 ユーザ宅
50−1 エアコン(家電)
50−2 洗濯機(家電)
100,100a,100b 対話システム
141 第1応答情報格納部(応答情報格納部)
142 キャラクター格納部
143 モード情報格納部

Claims (5)

  1. 入力された入力音声を音声認識する音声認識手段と、
    上記音声認識手段による音声認識の結果に応じた応答内容を示す第1応答情報を格納する応答情報格納部と、
    上記入力音声をサーバ装置に送信し、当該サーバ装置による上記入力音声の音声認識の結果に応じた応答内容を示す第2応答情報を受信する通信部と、
    上記入力音声に対して、上記応答情報格納部を参照して得られる上記第1応答情報で示される応答内容を音声出力する第1応答処理を行った後に連続して上記第2応答情報で示される応答内容を音声出力する第2応答処理を行う出力制御手段と
    複数のキャラクターの画像の特徴量及び音声の特徴量を格納するキャラクター特徴量格納部と、を備え
    当該対話装置は、自装置の少なくとも一部を動かす運動が可能であり、
    上記出力制御手段は、上記第1応答処理時及び上記第2応答処理時には、それぞれ、上記複数のキャラクターのいずれか1つを選択し、上記選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる画像の特徴量により定まるキャラクター画像を表示すると共に、上記選択したキャラクターの、上記キャラクター特徴量格納部を参照して得られる音声の特徴量により定まるキャラクター音声を音声出力し、
    上記出力制御手段が上記第2応答処理時に上記第1応答処理時と異なるキャラクターを選択すると、上記第1応答処理時と上記第2応答処理時との間に、自装置での運動を制御して、自装置の運動により異なるキャラクターが出現したことを表す演出を行うキャラクター切替手段をさらに備えたことを特徴とする対話装置。
  2. 当該対話装置はロボットであり、
    前記演出が、自装置の少なくとも体の一部を回転させる動作、または自装置の少なくとも体の一部を動かす動作、または自装置が移動する動作、または自装置が方向転換する動作であることを特徴とする請求項1に記載の対話装置。
  3. 上記第2応答情報には上記複数のキャラクターのうちのいずれか1つを指定する指定情報が含まれており、
    上記出力制御手段は、上記第2応答処理時には、当該第2応答情報に含まれる上記指定情報が指定するキャラクターを選択することを特徴とする請求項1又は2に記載の対話装置。
  4. 上記出力制御手段は、上記音声認識手段による上記入力音声の音声認識の結果から上記複数のキャラクターのいずれの1つが指定されたかを判定し、上記第2応答処理時には、当該指定されたキャラクターを選択することを特徴とする請求項1又は2に記載の対話装置。
  5. 家電を操作可能な家電操作モードを家電毎に有しており、
    上記音声認識手段による上記入力音声の音声認識の結果から操作対象とする家電を判定し、判定した家電の家電操作モードに自装置を設定するモード設定手段をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の対話装置。
JP2014202218A 2014-09-30 2014-09-30 対話装置 Active JP6448971B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014202218A JP6448971B2 (ja) 2014-09-30 2014-09-30 対話装置
PCT/JP2015/076081 WO2016052164A1 (ja) 2014-09-30 2015-09-15 対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014202218A JP6448971B2 (ja) 2014-09-30 2014-09-30 対話装置

Publications (2)

Publication Number Publication Date
JP2016071247A JP2016071247A (ja) 2016-05-09
JP6448971B2 true JP6448971B2 (ja) 2019-01-09

Family

ID=55630206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014202218A Active JP6448971B2 (ja) 2014-09-30 2014-09-30 対話装置

Country Status (2)

Country Link
JP (1) JP6448971B2 (ja)
WO (1) WO2016052164A1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6680125B2 (ja) * 2016-07-25 2020-04-15 トヨタ自動車株式会社 ロボットおよび音声対話方法
JP6614080B2 (ja) * 2016-09-16 2019-12-04 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102100742B1 (ko) * 2017-05-16 2020-04-14 애플 인크. 디지털 어시스턴트 서비스의 원거리 확장
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
JP2019016061A (ja) * 2017-07-04 2019-01-31 株式会社Nttドコモ 情報処理装置及びプログラム
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP7162865B2 (ja) * 2018-06-25 2022-10-31 株式会社パロマ ガスコンロ用の制御装置、及びガスコンロシステム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7023823B2 (ja) * 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108380A (ja) * 2000-10-02 2002-04-10 Canon Inc 情報提示装置及びその制御方法、コンピュータ可読メモリ
JP2003131695A (ja) * 2001-10-25 2003-05-09 Hitachi Ltd 音声認識機器、音声認識機器制御装置、及び音声認識機器制御方法
JP6267636B2 (ja) * 2012-06-18 2018-01-24 エイディシーテクノロジー株式会社 音声応答装置
JP2014062944A (ja) * 2012-09-20 2014-04-10 Sharp Corp 情報処理装置
JP5753212B2 (ja) * 2013-03-19 2015-07-22 シャープ株式会社 音声認識システム、サーバ、および音声処理装置
JP5753869B2 (ja) * 2013-03-26 2015-07-22 富士ソフト株式会社 音声認識端末およびコンピュータ端末を用いる音声認識方法

Also Published As

Publication number Publication date
WO2016052164A1 (ja) 2016-04-07
JP2016071247A (ja) 2016-05-09

Similar Documents

Publication Publication Date Title
JP6448971B2 (ja) 対話装置
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
KR102306624B1 (ko) 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
CN106257355B (zh) 设备控制方法和控制器
WO2016052018A1 (ja) 家電管理システム、家電、リモコン装置、ロボット
US20170206064A1 (en) Persistent companion device configuration and deployment platform
AU2017228574A1 (en) Apparatus and methods for providing a persistent companion device
CN114391163A (zh) 手势检测系统和方法
CN110609620A (zh) 基于虚拟形象的人机交互方法、装置及电子设备
KR102400398B1 (ko) 애니메이션 캐릭터 헤드 시스템 및 방법
WO2018006370A1 (zh) 一种虚拟3d机器人的交互方法、系统及机器人
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7267411B2 (ja) インタラクティブオブジェクト駆動方法、装置、電子デバイス及び記憶媒体
JP2022169645A (ja) 装置及びプログラム等
WO2016206643A1 (zh) 机器人交互行为的控制方法、装置及机器人
US20200143235A1 (en) System and method for providing smart objects virtual communication
JP6317266B2 (ja) ロボット制御装置及びロボット
JP6373709B2 (ja) 対話装置
KR102519599B1 (ko) 멀티모달 기반의 인터랙션 로봇, 및 그 제어 방법
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2016206249A (ja) 対話装置、対話システム、及び対話装置の制御方法
CN117971154A (zh) 多模态响应
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JPWO2019146188A1 (ja) 情報処理装置および情報処理方法
JP7208361B2 (ja) コミュニケーションロボットおよびその制御方法、情報処理サーバならびに情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181205

R150 Certificate of patent or registration of utility model

Ref document number: 6448971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150