JP6736617B2

JP6736617B2 - 音声対話方法、及び、音声対話エージェントサーバ

Info

Publication number: JP6736617B2
Application number: JP2018145020A
Authority: JP
Inventors: 博史天野; 小塚　雅之; 雅之小塚; 大森　基司; 基司大森; 宜子広瀬; 中野　稔久; 稔久中野; 山口　高弘; 高弘山口
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2013-06-19
Filing date: 2018-08-01
Publication date: 2020-08-05
Anticipated expiration: 2034-06-10
Also published as: JP2020173477A; JP2018189984A; CN108806690B; CN108806690A; JPWO2014203495A1; CN105144285A; JP6389171B2; CN105144285B; EP3012833A1; EP3012833B1; JP7072610B2; US9564129B2; USRE49014E1; WO2014203495A1; EP3012833A4; US20160322048A1

Description

本発明は、対話形式で入力された音声に基づいて処理を行う音声対話方法に関する。

従来、音声入力インターフェースを備え、ユーザから対話形式で入力された音声に基づいて処理を行う音声対話システムが知られている。

例えば、特許文献１には、マイクロフォンを備マイクロフォンから入力される音声に対して音声認識処理を行い、その音声認識処理の結果に基づく処理を行うヘッドセットが記載されている。

また、特許文献２には、ユーザから対話形式で入力される音声に基づいて処理を行うエージェントを有する音声対話システムが記載されている。

特開２００４−２３３７９４号公報特開２００８−９０５４５号公報

ところで、上記従来技術では、ネットワークにおいて、音声認識機能を提供するエージェントが複数あり、そのうちの１つを選んで、ユーザが通信を開始した場合、その相手側のエージェントの音声認識機能の用途が、ユーザが求めるものと異なることもある。この場合、充分な認識結果が得られず、期待外れになることがある。

こうした期待外れを避けるには、ネットワークに存在する複数のエージェントのそれぞれがどのような用途の音声認識機能を有しているかをユーザが事前に把握しておかねばらなない。しかしそうした事前把握をユーザに強いることは音声認識機能の使い勝手を損ねる。

本発明の目的は、ネットワークに存在する複数のエージェントのそれぞれがどのような用途の音声認識機能を有しているかを、事前に把握することなく、適切な音声認識を実行することができる音声対話方法を提供することを目的とする。

上記課題を解決するために本発明に係る音声対話方法は、音声対話エージェントサーバによって行われる音声対話方法であって、前記音声対話エージェントサーバは、他の音声対話エージェントサーバと１以上のキーワードとを対応付けるエージェント情報を記憶するメモリを備え、前記音声対話方法は、入力音声信号を受け付け、前記入力音声信号に対して音声認識処理を行い、前記音声認識処理の結果と前記メモリに記憶されるエージェント情報とに基づいて、当該入力音声信号に基づく処理を、前記音声対話エージェントサーバと前記他の音声対話エージェントサーバとのいずれで行うかを決定し、前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記音声認識処理の結果に基づく処理を行い、当該処理に係る応答音声信号を生成して出力し、前記決定において、前記他の音声対話エージェントサーバで行うと決定された場合、前記入力音声信号を前記他の音声対話エージェントサーバへ転送する、ことを特徴とする。

上述の音声対話方法によると、ユーザが１の音声対話エージェントサーバ（音声対話エージェントサーバＡ）と通信している場合において、音声対話エージェントサーバＡが、音声対話エージェントサーバＡよりも他の音声対話エージェントサーバ（音声対話エージェントサーバＢ）の方を通信相手とすべきであると判定した場合には、ユーザの通信相手の音声対話エージェントサーバを、音声対話エージェントサーバＡから音声対話エージェントサーバＢに変更することができるようになる。
このことによって、ユーザは、各音声対話エージェントサーバにおいてどのようなサービスが提供されているかを知らなくても、より適切な音声対話エージェントサーバからサービスの提供を受けることができるようになる。また、この場合には、音声対話エージェントサーバＡは、入力音声を、そのまま音声対話エージェントサーバＢに転送することになるので、音声対話エージェントサーバＢは、その入力音声そのものに対して音声認識処理そのものを行うことができる。このため、ユーザは、より適切なサービスの提供を受けることができるようになる。

音声対話システム１００の構成を示すシステム構成図機器１４０の機能構成を示すブロック図制御部２１０によって管理されるステートの状態遷移図音声対話エージェント４００の機能構成を示すブロック図対話ＤＢ５００のデータ構成図第１機器処理のフローチャート第１音声入力処理のフローチャート第１エージェント処理のフローチャート第１命令実行処理のフローチャート具体例における処理手順図（ａ）機器１４０の表示内容を模式的に示す図その１、（ｂ）機器１４０の表示内容を模式的に示す図その２、（ｃ）機器１４０の表示内容を模式的に示す図その３、（ｄ）機器１４０の表示内容を模式的に示す図その４機器１４０の表示内容を模式的に示す図その５機器１３００の機能構成を示すブロック図制御部１３１０によって管理されるステートの状態遷移図第２機器処理のフローチャート音声対話エージェントとの対話を行う様子を模式的に示す処理手順図機器１７００の機能構成を示すブロック図制御部１７１０によって管理されるステートの状態遷移図第３機器処理のフローチャート第２音声入力処理のフローチャート音声対話エージェントとの対話を行う様子を模式的に示す処理手順図音声対話エージェント２２００の機能構成を示すブロック図対象エージェントＤＢ２３００のデータ構成図第２エージェント処理のフローチャート第２命令実行処理のフローチャート第１接続応答処理のフローチャート切断応答処理のフローチャート第３エージェント処理のフローチャート音声対話エージェントとの対話を行う様子を模式的に示す処理手順図音声対話エージェント３０００の機能構成を示すブロック図利用可能サービスＤＢ３１００のデータ構成図第４エージェント処理のフローチャート第３命令実行処理のフローチャート第２接続応答処理のフローチャート音声対話エージェントとの対話を行う様子を模式的に示す処理手順図（Ａ）音声対話システムが運用される運用形態の模式図、（Ｂ）データセンタ運営会社３６１０の模式図その１、（Ｃ）データセンタ運営会社３６１０の模式図その２サービスの類型１の模式図サービスの類型２の模式図サービスの類型３の模式図サービスの類型４の模式図音声対話システム４１００の構成を示すシステム構成図仲介サーバ４１５０の機能構成を示すブロック図仲介サーバ４３５０の機能構成を示すブロック図（ａ）表示部に表示される画像例その１、（ｂ）表示部に表示される画像例その２、（ｃ）表示部に表示される画像例その３、（ｄ）表示部に表示される画像例その４（ａ）表示部に表示される画像例その５、（ｂ）表示部に表示される画像例その６ステートの状態遷移図の例その１ステートの状態遷移図の例その２ステートの状態遷移図の例その３ステートの状態遷移図の例その４ステートの状態遷移図の例その５

＜実施の形態１＞
＜概要＞
以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、宅内、車内等に設置された機器と、これら機器と通信する音声対話エージェントサーバとを含んで構成される音声対話システムについて説明する。

この音声対話システムにおいて、音声対話エージェントサーバは、記憶しているプログラムを実行することで、音声対話エージェントを実現する。この音声対話エージェントは、音声対話システムを利用するユーザと、機器を介して音声を用いた対話（音声による入出力）を行う。そして、音声対話エージェントは、その対話の内容が反映された処理を実行して、その実行結果を、そのユーザが利用している機器を介して、音声にて出力する。

ユーザは、音声対話エージェントと対話したい（音声対話エージェントに対して音声による入力を行いたい）場合に、音声対話システムを構成する機器に対して、所定の音声入力開始操作を行う。すると、その機器は、その音声入力開始操作がなされてから所定期間、音声入力の受け付けが可能な状態となる。そして、機器が、音声入力の受け付けが可能な状態である期間に、そのユーザは、音声対話エージェントに対して音声による入力を行う。

以下、この音声対話システムの詳細について図面を参照しながら説明する。

＜構成＞
図１は、音声対話システム１００の構成を示すシステム構成図である。

同図に示されるように、音声対話システム１００は、音声対話エージェントサーバ１１０ａ〜音声エージェントサーバ１１０ｂと、ネットワーク１２０と、ゲートウエイ１３０ａ〜ゲートウエイ１３０ｂと、機器１４０ａ〜機器１４０ｅとから構成される。

これらのうち、ゲートウエイ１３０ａと機器１４０ａ〜機器１４０ｃとは、家１８０内に配置され、ゲートウエイ１３０ｂと機器１４０ｄ〜機器１４０ｅとは、車１９０内に配置されている。

機器１４０ａ〜機器１４０ｅは、それぞれ、ゲートウエイ１３０（ゲートウエイ１３０ａとゲートウエイ１３０ｂとを明示的に区別して表示する場合を除いて、ゲートウエイ１３０ａ又はゲートウエイ１３０ｂのことを、単にゲートウエイ１３０と呼ぶ。）と無線又は有線で通信する機能と、ゲートウエイ１３０及びネットワーク１２０を介して、音声対話エージェントサーバ１１０（音声対話エージェントサーバ１１０ａと音声対話エージェントサーバ１１０ｂとを明示的に区別して表示する場合を除いて、音声対話エージェントサーバ１１０ａ又は音声対話エージェントサーバ１１０ｂのことを、単に音声対話エージェントサーバ１１０と呼ぶ。）と通信する機能とを有する。

家１８０内に配置されている機器１４０ａ〜機器１４０ｃは、例えば、屋内に設置されたテレビ、エアコン、録画機、洗濯機、持ち運び自在なスマートフォン等であり、車１９０内に配置されている機器１４０ｄ〜機器１４０ｅは、例えば、車１９０内に設置されているカーエアコン、カーナビ等である。

ここでは、機器１４０ａ〜機器１４０ｅをそれぞれ個別に説明することに代えて、機器１４０ａ〜機器１４０ｅが共通に有している機能を有する仮想的な機器１４０について説明する。

図２は、機器１４０の機能構成を示すブロック図である。

同図に示されるように、機器１４０は、制御部２１０と、音声入力部２２０と、操作受付部２３０と、アドレス記憶部２４０と、通信部２５０と、音声出力部２６０と、表示部２７０と、実行部２８０とから構成される。

音声入力部２２０は、一例として、マイクと、プログラムを実行するプロセッサとによって実現され、制御部２１０に接続され、制御部２１０によって制御される。そして、ユーザからの音声による入力を受け付けて、音声信号（以下、「入力音声データ」と呼ぶこともある。）を生成する機能を有する。

音声入力部２２０は、制御部２１０によって制御されることで、音声入力を受け付けることが可能な音声入力受付可能状態と、音声入力の受け付けることが不可能な音声入力受付不可能状態とのいずれかの状態となる。

操作受付部２３０は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、制御部２１０に接続され、制御部２１０によって制御される。そして、ユーザによってなされる所定の接触操作を受け付けて、受け付けた接触操作に基づく電気信号を生成する機能を有する。

操作受付部２３０が受け付ける、ユーザによってなされる所定の接触操作の中には、音声入力部２２０を利用して音声による入力を開始する旨を示す所定の音声入力開始操作が含まれる。

音声入力開始操作は、一例として、操作受付部２３０の一部であるタッチパネル上に表示されている、音声入力開始操作を受け付けるためのアイコンにタッチする操作が考えられる。また、別の一例として、操作受付部２３０が、音声入力開始操作を受け付けるためのボタンを含んで構成されており、このボタンを押下する操作が考えられる。

アドレス記憶部２４０は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、通信部２５０に接続される。そして、音声対話エージェントサーバ１１０の中の１つ（以下、この１つのことを、「特定音声対話エージェントサーバ」と呼ぶ。）についての、ネットワーク１２０のおけるＩＰ（Internet Protocol）アドレスを記憶する機能を有する。

この機能によって、機器１４０のそれぞれは、音声対話エージェントサーバ１１０の中の１つである特定音声対話エージェントサーバに対応付けられている。

なお、機器１４０の内蔵するメモリとしては、一例として、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等が考えられる。

通信部２５０は、一例として、プログラムを実行するプロセッサと、通信用ＬＳＩ（Large Scale Integration）と、アンテナとによって実現され、制御部２１０と、アドレス記憶部２４０とに接続され、制御部２１０によって制御される。そして、以下の、ゲートウエイ通信機能と、音声対話エージェントサーバ通信機能とを有する。

ゲートウエイ通信機能とは、ゲートウエイ１３０と無線又は有線にて、通信する機能である。

音声対話エージェントサーバ通信機能とは、ゲートウエイ１３０とネットワーク１２０とを介して、音声対話エージェントサーバ１１０と通信する機能である。

ここで、通信部２５０は、音声対話エージェントサーバ１１０のうちのいずれか１つと通信する場合において、制御部２１０から、通信先の音声対話エージェントサーバ１１０として、特定の１つを指定されないときには、アドレス記憶部２４０に記憶されるＩＰアドレスを参照して、特定音声対話エージェントサーバと通信する。

音声出力部２６０は、一例として、プログラムを実行するプロセッサと、スピーカとによって実現され、制御部２１０に接続され、制御部２１０によって制御される。そして、制御部２１０から送られる電気信号を音声に変換して出力する機能を有する。

表示部２７０は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、制御部２１０に接続され、制御部２１０によって制御される。そして、制御部２１０から送られる電気信号に基づく画像、文字列等を表示する機能を有する。

実行部２８０は、機器１４０が、機器として本来備えている機能（例えば、機器１４０がテレビであれば、テレビ信号を受信して復号し、復号したテレビ画像をディスプレイに表示して、復号したテレビ音声をスピーカから出力する機能等であり、例えば、機器１４０がエアコンであれば、エアコンの設置された部屋が設定温度となるように、送風口から冷風又は温風を送風する機能等である）を実現する機能ブロックであって、制御部２１０に接続され、制御部２１０によって制御される。

実行部２８０は、例えば、機器１４０がテレビである場合には、一例として、テレビ信号受信機、テレビ信号チューナ、テレビ信号デコーダ、ディスプレイ、スピーカ等によって実現される。

また、実行部２８０は、必ずしも、１つの筺体内に、その全ての構成要素が含まれて実現される構成である必要はない。例えば、機器１４０がテレビである場合には、リモコンと、ディスプレイとが、互いに別筺体に含まれて構成される例等が考えられる。同様に、機器１４０を構成する各機能ブロックは、１つの筺体内に、その全ての構成要素が含まれて実現される構成である必要はない。

制御部２１０は、一例として、プログラムを実行するプロセッサによって実現され、音声入力部２２０と、操作受付部２３０と、通信部２５０と、音声出力部２６０と、表示部２７０と、実行部２８０とに接続され、音声入力部２２０を制御する機能と、操作受付部２３０を制御する機能と、通信部２５０を制御する機能と、音声出力部２６０を制御する機能と、表示部２７０を制御する機能と、実行部２８０を制御する機能とに加えて、以下に述べる音声入力部状態管理機能と、第１機器処理実現機能とを有する。

音声入力部状態管理機能とは、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部２２０の状態（以下、「ステート」とも言う。）を管理する機能である。

図３は、制御部２１０によって管理されるステートの状態遷移図である。

同図に示されるように、制御部２１０は、ステートが、音声入力受付不可能状態である場合において、（１）操作受付部２３０によって音声入力開始操作が受け付けられるまでは、音声入力受付不可能状態を維持し、（２）操作受付部２３０によって音声入力開始操作が受け付けられると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、（３）ステートが音声入力受付可能状態へと遷移してから所定時間Ｔ１（例えば５秒）経過するまでは、音声入力受付可能状態を維持し、（４）所定時間Ｔ１経過すると、ステートを、音声入力受付不可能状態へと遷移させる。

なお、機器１４０が起動された時点では、制御部２１０は、ステートを音声入力受付不可能状態として管理を開始する。

再び図２に戻って、制御部２１０の説明を続ける。

第１機器処理実現機能とは、制御部２１０が、音声入力部２２０と、操作受付部２３０と、通信部２５０と、音声出力部２６０と、表示部２７０と、実行部２８０とを制御して、機器１４０に、その特徴的な動作である第１機器処理を実行させることで、機器１４０に、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力するという一連の処理を実現させる機能である。

なお、第１機器処理については、後程＜第１機器処理＞の項目において、フローチャートを用いて詳細に説明する。

図１に戻って、再び機器１４０の説明を続ける。

ゲートウエイ１３０は、一例として、通信機能を有するパソコン等によって実現され、ネットワーク１２０に接続される。そして、記憶しているプログラムを実行することで、機器１４０と無線又は有線で通信する機能と、ネットワーク１２０を介して音声対話エージェントサーバ１１０と通信する機能と、機器１４０と音声対話エージェントサーバ１１０との間の通信を仲介する機能とを実現する。

音声対話エージェントサーバ１１０は、一例として、１又は複数のコンピュータシステムによって構成される、通信機能を有するサーバによって実現され、ネットワーク１２０に接続される。そして、記憶しているプログラムを実行することで、ネットワーク１２０に接続される他の装置と通信する機能と、ゲートウエイ１３０を介して、機器１４０と通信する機能と、音声対話エージェント４００を実現する機能とを有する。

図４は、音声対話エージェントサーバ１１０によって実現される音声対話エージェント４００の機能構成を示すブロック図である。

同図に示されるように、音声対話エージェント４００は、制御部４１０と、通信部４２０と、音声認識処理部４３０と、対話ＤＢ（Date Base：データベース）記憶部４４０と、音声合成処理部４５０と、命令生成部４６０とから構成される。

通信部４２０は、一例として、プログラムを実行するプロセッサと、通信用ＬＳＩとによって実現され、制御部４１０と、音声認識処理部４３０と、音声合成処理部４５０とに接続され、制御部４１０によって制御される。そして、ネットワーク１２０に接続される他の装置と通信する機能と、ゲートウエイ１３０を介して、機器１４０と通信する機能とを有する。

音声認識処理部４３０は、一例として、プログラムを実行するプロセッサによって実現され、制御部４１０と、通信部４２０とに接続され、制御部４１０によって制御される。そして、通信部４２０によって受信された入力音声データに対して音声認識処理を行って、その音声データを文字列（以下、「入力テキスト」とも呼ぶ。）に変換する機能を有する。

音声合成処理部４５０は、一例として、プログラムを実行するプロセッサによって実現され、制御部４１０と通信部４２０とに接続され、制御部４１０によって制御される。そして、制御部４１０から送られてきた文字列に対して音声合成処理を行い、音声データに変換する機能を有する。

対話ＤＢ記憶部４４０は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部４１０に接続され、対話ＤＢ５００を記憶する機能を有する。

図５は、対話ＤＢ記憶部４４０に記憶される対話ＤＢ５００のデータ構成図である。

同図に示される通り、対話ＤＢ５００は、キーワード５１０と、対象機器５２０と、起動アプリ５３０と、処理内容５４０と、応答テキスト５５０とが対応付けられて構成される。

キーワード５１０は、音声認識処理部４３０によって変換された入力テキストに含まれると想定される文字列である。

対象機器５２０は、対応付けられている処理内容５４０（後述）によって特定される処理を実行させる機器を特定する情報である。

ここで、処理内容５４０によって特定される処理を実行させる機器に、音声対話エージェント４００自身が含まれていてもよい。

起動アプリ５３０は、対応付けられている処理内容５４０（後述）によって特定される処理を、対応付けられている対象機器５２０によって特定される機器に実行させるために、その機器において起動させるアプリケーションプログラムを特定する情報である。

処理内容５４０は、音声認識処理部４３０によって変換された入力テキストに、対応付けられているキーワード５１０が含まれている場合に、対応付けられている対象機器５２０によって特定される機器に実行させると定められている処理を特定する情報である。

応答テキスト５５０は、対応付けられている処理内容５４０によって指定される処理が実行された場合に、その処理結果に基づいて生成されると定められている文字列（以下、「応答テキスト」とも呼ぶ。）を示す情報である。

再び図４に戻って、音声対話エージェント４００の説明を続ける。

命令生成部４６０は、一例として、プログラムを実行するプロセッサによって実現され、制御部４１０に接続され、制御部４１０によって制御される。そして、制御部４１０から、対象機器５２０と、起動アプリ５３０と、処理内容５４０との組が送られてきた場合に、対象機器５２０によって特定される機器において、起動アプリ５３０によって特定されるアプリケーションプログラムを起動して、処理内容５４０によって特定される処理を実行させるための命令群を生成する機能を有する。

制御部４１０は、一例として、プログラムを実行するプロセッサによって実現され、通信部４２０と、音声認識処理部４３０と、対話ＤＢ記憶部４４０と、音声合成処理部４５０と、命令生成部４６０とに接続され、通信部４２０を制御する機能と、音声認識処理部４３０を制御する機能と、音声合成処理部４５０を制御する機能と、命令生成部４６０を制御する機能とに加えて、以下の入力テキスト返信機能と、命令生成機能と、命令実行機能と、第１エージェント処理実現機能とを有する。

入力テキスト返信機能とは、音声認識処理部４３０によって、通信部４２０によって受信された入力音声データが入力テキストに変換された場合に、通信部４２０を制御して、その入力音声データを送信してきた機器１４０に対して、その入力テキストを返信させる機能である。

命令生成機能とは、音声認識処理部４３０から入力テキストが送られてきた場合に、（１）対話ＤＢ記憶部４４０に記憶されている対話ＤＢ５００を参照して、その入力テキストに含まれているキーワード５１０から、そのキーワード５１０に対応付けられている、対象機器５２０と、起動アプリ５３０と、処理内容５４０と、応答テキスト５５０とを読み出して、（２）読み出した、対象機器５２０と、起動アプリ５３０と、処理内容５４０との組を、命令生成部４６０に送って、命令生成部４６０に命令群を生成させる機能である。

命令実行機能とは、命令生成部４６０によって生成された命令群を実行して、その実行結果に基づいて、応答テキスト５５０によって指定されている応答テキストを生成して、音声合成処理部４５０に送る機能である。

なお、制御部４１０は、命令実行機能を実現する際に、必要に応じて、通信部４２０を用いて、対象機器５２０によって特定される機器と通信して、その機器に命令群を実行させて、その機器から命令群の実行結果を送信させることで、応答テキストを生成する。

第１エージェント処理実現機能とは、制御部４１０が、通信部４２０と、音声認識処理部４３０と、音声合成処理部４５０と、命令生成部４６０とを制御して、音声対話エージェント４００に、その特徴的な動作である第１エージェント処理を実行させることで、音声対話エージェント４００に、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストに基づいて命令群を生成して実行し、（４）実行結果に基づいて応答テキストを生成し、（５）生成した応答テキストを応答音声データに変換して、（６）応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。

なお、第１エージェント処理は、後程＜第１エージェント処理＞の項目において、フローチャートを用いて詳細に説明する。

ここで、制御部４１０は、例えば、音声認識処理部４３０から、「Ａさんの住所は？」という入力テキストが送られてきたとすると、対話ＤＢ記憶部４４０に記憶されている対話ＤＢ５００を参照して、対象機器５２０で特定される機器「スマートフォン」に、起動アプリ５３０で特定されるアプリケーションプログラム「連絡先」を起動させて、処理内容５４０で特定される「Ａさんの住所を調べる」という処理を実行させ、その処理の実行結果に基づいて、「Ａさんの住所はＸＸＸＸです。」という応答テキストを生成する。

以上のように構成される音声対話システム１００の行う動作について、以下図面を参照しながら説明する。

＜動作＞
音声対話システム１００は、その特徴的な動作として、第１機器処理と、第１エージェント処理とを行う。

以下、これらの処理について順に説明する。

＜第１機器処理＞
第１機器処理は、機器１４０が行う処理であって、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力する処理である。

図６は、第１機器処理のフローチャートである。

第１機器処理は、機器１４０が起動されることで開始される。

機器１４０が起動された時点で、制御部２１０によって管理されるステートは、音声入力受付不可能状態となる。

第１機器処理が開始されると、制御部２１０は、音声対話システム１００を利用するユーザによってなされる音声入力開始操作が、操作受付部２３０によって受け付けられるまで待機する（ステップＳ６００：Ｎｏを繰り返す。）。そして、音声入力開始操作が受け付けられると（ステップＳ６００：Ｙｅｓ）、制御部２１０は、ステートを、音声入力受付不可能状態から音声入力受付可能状態に遷移させて（ステップＳ６１０）、表示部２７０に、音声入力受付可能状態である旨を表示させる（ステップＳ６２０）。

図１１（ａ）は、機器１４０が、例えばスマートフォンである場合において、表示部２７０が、音声入力受付可能状態である旨を表示している様子の例を示す模式図である。

同図において、スマートフォンを構成するタッチパネル１１１０は、表示部２７０の一部であって、その右下の領域１１２０を点滅表示させる（例えば、黒色と白色とを交互に点灯させる）ことで、ステートが音声入力受付可能状態である旨を表示している。

再び図６に戻って、第１機器処理の説明を続ける。

ステップＳ６２０の処理が終了すると、機器１４０は、第１音声入力処理を実行する（ステップＳ６３０）。

図７は、第１音声入力処理のフローチャートである。

第１音声入力処理が開始されると、音声入力部２２０は、ユーザによる音声入力を受け付けて入力音声データを生成する（ステップＳ７００）。そして、ステートが音声入力受付可能状態となってから所定時間Ｔ１経過すると（ステップＳ７１０：Ｎｏを繰り返したのちステップＳ７１０：Ｙｅｓ）、制御部２１０は、ステートを、音声入力受付可能状態から音声入力受付不可能状態に遷移させて（ステップＳ７２０）、表示部２７０に、音声入力受付可能状態である旨の表示を終了させる（ステップＳ７３０）。

そして、制御部２１０は、通信部２５０を制御して、特定音声対話エージェントサーバによって実現される音声対話エージェント４００に対して、音声入力部２２０によって生成された入力音声データを送信させる（ステップＳ７４０）。

ステップＳ７４０の処理が終了すると、機器１４０は、その第１音声入力処理を終了する。

再び図６に戻って、第１機器処理の説明を続ける。

第１音声入力処理が終了すると、制御部２１０は、ステップＳ７４０の処理において送信した入力音声データに応答して音声対話エージェント４００から返信される入力テキストが、通信部２５０によって受信されるまで待機する（ステップＳ６４０：Ｎｏを繰り返す。）。

ここで、この入力テキストデータは、ステップＳ７４０の処理において送信した入力音声データが、音声対話エージェント４００によって文字列に変換されたものである。

入力テキストが、通信部２５０によって受信されると（ステップＳ６４０：Ｙｅｓ）、表示部２７０は、その入力テキストを表示する（ステップＳ６５０）。

図１１（ｂ）は、機器１４０が、例えばスマートフォンである場合において、表示部２７０が、入力テキストを表示している例を示す模式図である。

同図は、入力テキストが、「部屋の温度は？」という文字列である場合の一例である。同図に示されるように、表示部２７０の一部であるタッチパネル１１１０に、入力テキストである『「部屋の温度は？」』という文字列が、「あなた」という文字列と共に表示されている。

再び図６に戻って、第１機器処理の説明を続ける。

ステップＳ６５０の処理が終了すると、制御部２１０は、ステップＳ７４０の処理において送信した入力音声データに応答して音声対話エージェント４００から返信される、応答テキストと応答音声データとが、通信部２５０によって受信されるまで待機する（ステップＳ６６０：Ｎｏを繰り返す。）。

応答テキストと応答音声データとが、通信部２５０によって受信されると（ステップＳ６６０：Ｙｅｓ）、表示部２７０は、その応答テキストを表示して（ステップＳ６７０）、音声出力部２６０は、その応答音声データを音声に変換して出力する（ステップＳ６８０）。

図１１（ｃ）は、機器１４０が、例えばスマートフォンである場合において、表示部２７０が、応答テキストを表示している例を示す模式図である。

同図は、応答テキストが、「どちらの部屋の温度ですか？」という文字列である場合の一例である。同図に示されるように、表示部２７０の一部であるタッチパネル１１１０に、応答テキストである『「どちらの部屋の温度ですか？」』という文字列が、「家エージェント」という文字列と共に表示されている。

再び図６に戻って、第１機器処理の説明を続ける。

ステップＳ６８０の処理が終了すると、機器１４０は、その第１機器処理を終了する。

＜第１エージェント処理＞
第１エージェント処理は、音声対話エージェント４００が行う処理であって、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストデータに基づいて命令群を生成して実行し、（４）実行結果に基づいて応答テキストを生成し、（５）生成した応答テキストを応答音声データに変換して、（６）応答テキストと応答音声データとを機器に返信する処理である。

図８は、第１エージェント処理のフローチャートである。

第１エージェント処理は、音声対話エージェント４００が起動されることで開始される。

第１エージェント処理が開始されると、音声対話エージェント４００は、機器１４０から送信される入力音声データが、通信部４２０によって受信されるまで待機する（ステップＳ８００：Ｎｏを繰り返す。）。そして、入力音声データが受信されると（ステップＳ８００：Ｙｅｓ）、音声対話エージェント４００は、第１命令実行処理を実行する（ステップＳ８１０）。

図９は、第１命令実行処理のフローチャートである。

第１命令実行処理が開始されると、音声認識処理部４３０は、通信部４２０によって受信された入力音声データに対して音声認識処理を行って、入力音声データを文字列である入力テキストに変換する（ステップＳ９００）。

入力テキストに変換されると、制御部４１０は、通信部４２０を制御して、その入力音声データを送信してきた機器１４０に対して、その入力テキストを返信させる（ステップＳ９１０）。

そして、制御部４１０は、（１）対話ＤＢ記憶部４４０に記憶されている対話ＤＢ５００を参照して、その入力テキストに含まれているキーワード５１０から、そのキーワード５１０に対応付けられている、対象機器５２０と、起動アプリ５３０と、処理内容５４０と、応答テキスト５５０とを読み出して、（２）読み出した、対象機器５２０と、起動アプリ５３０と、処理内容５４０との組を、命令生成部４６０に送って、命令生成部４６０に命令群を生成させる（ステップＳ９２０）。

命令群が生成されると、制御部４１０は、生成された命令群を実行（ステップＳ９３０）し、その実行結果に基づいて、応答テキスト５５０によって指定されている応答テキストを生成する（ステップＳ９４０）。ここで、制御部４１０は、必要に応じて、通信部４２０を用いて、対象機器５２０によって特定される機器と通信して、その機器に命令群の一部を実行させて、その機器から命令群の実行結果を送信させることで、応答テキストを生成する。

応答テキストが生成されると、音声合成処理部４５０は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する（ステップＳ９５０）。

応答音声データが生成されると、制御部４１０は、通信部４２０を制御して、入力音声データの送信元である機器１４０に対して、生成された応答テキストと、生成された応答音声データをと送信させる（ステップＳ９６０）。

ステップＳ９６０の処理が終了すると、音声対話エージェント４００は、その第１命令実行処理を終了する。

再び図８に戻って、第１エージェント処理の説明を続ける。

第１命令実行処理が終了すると、音声対話エージェント４００は、再びステップＳ８００の処理に戻って、ステップＳ８００以下の処理を続ける。

上記構成の音声対話システム１００の行う動作の具体例について、以下、図面を用いて説明する。

＜具体例＞
図１０は、音声対話システム１００を利用するユーザが、機器１４０（ここでは、仮に、スマートフォンであるとする。）を用いて、音声対話エージェント４００と音声を用いた対話を行い、音声対話エージェント４００が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。

ユーザが機器１４０に対して音声入力開始操作を行うと（ステップＳ１０００、図６のステップＳ６００：Ｙｅｓに対応）、ステートが音声入力受付可能状態へと遷移して（ステップＳ１００５、図６のステップＳ６１０に対応）、機器１４０は、第１音声入力処理を行う（ステップＳ１０１０、図６のステップＳ６３０に対応）。

図１１（ａ）は、この第１音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器１４０の表示部２７０の一部であるタッチパネル１１１０が、領域１１２０を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。

再び図１０に戻って、具体例の説明を続ける。

この第１音声入力処理において、ユーザが、「部屋の温度は？」との音声を入力したとすると、機器１４０は、「部屋の温度は？」という入力音声データを、音声対話エージェント４００へ送信する（図７のステップＳ７４０に対応）。

すると、音声対話エージェント４００は、その入力音声データを受信して（図８のステップＳ８００：Ｙｅｓに対応）、第１命令実行処理を実行する（ステップＳ１０６０、図８のステップＳ８１０に対応）。

ここで、この第１命令実行処理において、音声対話エージェント４００が、「どちらの部屋の温度でしょうか？」という応答音声データを生成したとすると、音声対話エージェント４００は、機器１４０に、「どちらの部屋の温度でしょうか？」という応答音声データを送信する（図９のステップＳ９６０に対応）。

すると、機器１４０は、その応答音声データを受信して（図６のステップＳ６６０：Ｙｅｓに対応）、「どちらの部屋の温度でしょうか？」という音声を出力する（ステップＳ１０１５、図６のステップＳ６８０に対応）。

ステップＳ１０１０の処理において、ステートが音声入力受付可能状態へと遷移してから所定時間Ｔ１経過した時点で、ステートが再び音声入力受付不可能状態へと遷移している（図７のステップＳ７２０に対応）。このため、機器１４０から出力された「どちらの部屋の温度でしょうか？」という音声を聞いたユーザは、新たに音声による入力を行うために、機器１４０に対して新たな音声入力開始操作を行う（ステップＳ１０２０、図６のステップＳ６００：Ｙｅｓに対応）。すると、ステートが音声入力受付可能状態へと遷移して（ステップＳ１０２５、図６のステップＳ６１０に対応）、機器１４０は、第１音声入力処理を行う（ステップＳ１０３０：図６のステップＳ６３０に対応）。

図１１（ｃ）は、この第１音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器１４０の表示部２７０の一部であるタッチパネル１１１０が、領域１１２０を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。

再び図１０に戻って、具体例の説明を続ける。

この第１音声入力処理において、ユーザが、「リビング。」との音声を入力したとすると、機器１４０は、「リビング。」という入力音声データを、音声対話エージェント４００へ送信する（図７のステップＳ７４０に対応）。

すると、音声対話エージェント４００は、その入力音声データを受信して（図８のステップＳ８００：Ｙｅｓに対応）、第１命令実行処理を実行する（ステップＳ１０６５、図８のステップＳ８１０に対応）。

ここで、この第１命令実行処理において、音声対話エージェント４００が、「リビングの温度は２８度です。他に何かありますか？」という応答音声データを生成したとすると、音声対話エージェント４００は、機器１４０に、「リビングの温度は２８度です。他に何かありますか？」という応答音声データを送信する（図９のステップＳ９６０に対応）。

すると、機器１４０は、その応答音声データを受信して（図６のステップＳ６６０：Ｙｅｓに対応）、「リビングの温度は２８度です。他に何かありますか？」という音声を出力する（ステップＳ１０３５、図６のステップＳ６８０に対応）。

ステップＳ１０１０の処理において、ステートが音声入力受付可能状態へと遷移してから所定時間Ｔ１経過した時点で、ステートが再び音声入力受付不可能状態へと遷移している（図７のステップＳ７２０に対応）。このため、機器１４０から出力された「リビングの温度は２８度です。他に何かありますか？」という音声を聞いたユーザは、新たに音声による入力を行うために、機器１４０に対して新たな音声入力開始操作を行う（ステップＳ１０４０、図６のステップＳ６００：Ｙｅｓに対応）。すると、ステートが音声入力受付可能状態へと遷移して（ステップＳ１０４５、図６のステップＳ６１０に対応）、機器１４０は、第１音声入力処理を行う（ステップＳ１０５０：図６のステップＳ６３０に対応）。

図１２は、この第１音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器１４０の表示部２７０の一部であるタッチパネル１１１０が、領域１１２０を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。

再び図１０に戻って、具体例の説明を続ける。

この第１音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器１４０は、「ないよ。ありがとう。」という入力音声データを、音声対話エージェント４００へ送信する（図７のステップＳ７４０に対応）。

すると、音声対話エージェント４００は、その入力音声データを受信して（図８のステップＳ８００：Ｙｅｓに対応）、第１命令実行処理を実行する（ステップＳ１０７０、図８のステップＳ８１０に対応）。

ここで、この第１命令実行処理において、音声対話エージェント４００が、「終了します。」という応答音声データを生成したとすると、音声対話エージェント４００は、機器１４０に、「終了します。」という応答音声データを送信する（図９のステップＳ９６０に対応）。

すると、機器１４０は、その応答音声データを受信して（図６のステップＳ６６０：Ｙｅｓに対応）、「終了します。」という音声を出力する（ステップＳ１０５５、図６のステップＳ６８０に対応）。

＜考察＞
上記構成の音声対話システム１００によると、音声対話システム１００を利用するユーザは、機器１４０に対して音声入力開始操作を行うことで、機器１４０の状態を、音声入力受付可能状態にして、音声入力を行う。そして、その後、所定時間Ｔ１が経過すれば、ユーザによって、機器１４０の状態を音声入力受付不可能状態にするための操作が行われなくても、機器１４０の状態が、音声入力受付不可能状態になる。

このため、音声入力が終了するたびに、機器１４０の状態を音声入力受付不可能状態にするための操作を行う必要がある音声対話システムに比べて、音声対話システム１００は、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
＜実施の形態２＞
＜概要＞
以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態１における音声対話システム１００の一部が変形された第１変形音声対話システムについて説明する。

実施の形態１における音声対話システム１００は、機器１４０が、ユーザによって音声入力開始操作がなされると、その操作がなされた時点から所定時間Ｔ１が経過するまでの期間、音声入力が可能な状態となる構成の例であった。

これに対して、実施の形態２における第１変形音声対話システムは、各機器が、上記期間に加えて、応答音声データに基づく音声を出力した場合において、その出力を行った時点から所定時間Ｔ１が経過するまでの期間にも、音声入力が可能な状態となる構成の例となっている。

以下、この第１変形音声対話システムの詳細について、実施の形態１における音声対話システム１００との相違点を中心に、図面を参照しながら説明する。

＜構成＞
第１変形音声対話システムは、実施の形態１における音声対話システム１００から、機器１４０が、機器１３００に変更されるように変形されている。

機器１３００は、実施の形態１における機器１４０から、ハードウエアとしては変更されていないが、実行対象として記憶するソフトウエアの一部が変更されている。そして、このことによって、機器１３００は、実施の形態１における機器１４０から、その機能の一部が変更されるように変形されている。

図１３は、機器１３００の機能構成を示すブロック図である。

同図に示されるように、機器１３００は、実施の形態１における機器１４０（図２参照）から、制御部２１０が、制御部１３１０に変更されるように変形されている。

制御部１３１０は、実施の形態１における制御部２１０から、制御部２１０の有する機能のうち、音声入力部状態管理機能が、以下に述べる第１変形音声入力部状態管理機能に変更され、第１機器処理実現機能が、以下に述べる第２機能処理実現機能に変更されるように変形されている。

第１変形音声入力部状態管理機能とは、実施の形態１における音声入力部状態管理機能と同様に、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部２２０の状態（すなわち、「ステート」）を管理する機能であって、その状態遷移条件の一部が、実施の形態１における音声入力部状態管理機能から変更されている。

図１４は、制御部１３１０によって管理されるステートの状態遷移図である。

同図に示されるように、制御部１３１０は、ステートが、音声入力受付不可能状態である場合において、（１）操作受付部２３０によって音声入力開始操作が受け付けられる、又は、音声出力部２６０によって、応答音声データに基づく音声のうちの所定の音声を除く音声が出力されるまでは、音声入力受付不可能状態を維持し、（２）操作受付部２３０によって音声入力開始操作が受け付けられる、又は、音声出力部２６０によって、応答音声データに基づく音声のうちの所定の音声を除く音声が出力されると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、（３）ステートが音声入力受付可能状態へと遷移してから所定時間Ｔ１（例えば５秒）経過するまでは、音声入力受付可能状態を維持し、（４）所定時間Ｔ１経過すると、ステートを、音声入力受付不可能状態へと遷移させる。

ここで、応答音声データに基づく音声のうちの所定の音声とは、予め定められた、新たな音声入力を必要としない旨を示す音声であり、例えば、「終了します。」という音声である。以下、この音声のことを「対話終了音声」とも呼ぶ。

なお、機器１３００が起動された時点では、制御部１３１０は、ステートを音声入力受付不可能状態として管理を開始する。

再び図１３に戻って、制御部１３１０の説明を続ける。

第２機能御処理実現機能とは、制御部１３１０が、音声入力部２２０と、操作受付部２３０と、通信部２５０と、音声出力部２６０と、表示部２７０と、実行部２８０とを制御して、機器１３００に、その特徴的な動作である第２機器処理を実行させることで、機器１３００に、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力し、（６）その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び（２）以下の処理を繰り返すという一連の処理を実現させる機能である。

なお、第２機器処理については、後程＜第２機器処理＞の項目において、フローチャートを用いて詳細に説明する。

以上のように構成される第１変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。

＜動作＞
第１変形音声対話システムは、その特徴的な動作として、実施の形態１における第１エージェント処理に加えて、実施の形態１における第１機器処理から、その処理の一部が変更された第２機器処理を行う。

以下、この第２機器処理について、第１機器処理からの変更点を中心に説明する。

＜第２機器処理＞
第２機器処理は、機器１３００が行う処理であって、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力し、（６）その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び（２）以下の処理を繰り返す処理である。

図１５は、第２機器処理のフローチャートである。

第２機器処理は、機器１３００が起動されたことで開始される。

機器１３００が起動された時点で、制御部１３１０によって管理されるステートは、音声入力受付不可能状態となる。

同図において、ステップＳ１５００〜ステップＳ１５８０の処理は、実施の形態１における第１機器処理（図６参照）のステップＳ６００〜ステップＳ６８０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ１５８０の処理が終了すると、制御部１３１０は、ステップＳ１５８０の処理において音声出力部２６０によって出力された音声が、対話終了音声であるか否かを調べる（ステップＳ１５８５）。この処理は、一例として、ステップＳ１５６０：Ｙｅｓの処理において受信された応答テキストが、予め定められた文字列（例えば、「終了します。」という文字列）であるか否かを調べることで実現される。

ステップＳ１５８５の処理において、対話終了音声でない場合に（ステップＳ１５８５：Ｎｏ）、制御部１３１０は、ステートを、音声入力受付不可能状態から音声入力受付可能状態に遷移させて（ステップＳ１５９０）、表示部２７０に、音声入力受付可能状態である旨を表示させる（ステップＳ１５９５）。

ステップＳ１５９５の処理が終了すると、機器１３００は、ステップＳ１５３０の処理に戻って、ステップＳ１５３０以下の処理を繰り返す。

ステップＳ１５８５の処理において、対話終了音声である場合に（ステップＳ１５８５：Ｙｅｓ）、機器１３００は、その第２機器処理を終了する。

上記構成の第１変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。

＜具体例＞
図１６は、第１変形音声対話システムを利用するユーザが、機器１３００（ここでは、仮に、スマートフォンであるとする。）を用いて、音声対話エージェント４００と音声を用いた対話を行い、音声対話エージェント４００が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。

ここでは、対話終了音声が、「終了します。」という音声であるとして説明する。

同図において、ステップＳ１６００〜ステップＳ１６１５の処理と、ステップＳ１６３０〜ステップＳ１６３５の処理と、ステップＳ１６５０〜ステップＳ１６５５の処理と、ステップＳ１６６０〜ステップＳ１６７０の処理とは、それぞれ、実施の形態１における具体例（図１０参照）の、ステップＳ１０００〜ステップＳ１０１５の処理と、ステップＳ１０３０〜ステップＳ１０３５の処理と、ステップＳ１０５０〜ステップＳ１０５５の処理と、ステップＳ１０６０〜ステップＳ１０７０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ１６１５の処理が終了すると、「どちらの部屋の温度でしょうか？」という音声は、対話終了音声でないので（図１５のステップＳ１５８５：Ｎｏに対応）、ステートが音声入力受付可能状態へと遷移して（ステップＳ１６２５、図１５のステップＳ１５９０に対応）、機器１３００は、第１音声入力処理を行う（ステップＳ１６３０：図１５のステップＳ１５３０に対応）。

ステップＳ１６３５の処理が終了すると、「リビングの温度は２８度です。他に何かありますか？」という音声は、対話終了音声でないので（図１５のステップＳ１５８５：Ｎｏに対応）、ステートが音声入力受付可能状態へと遷移して（ステップＳ１６４５、図１５のステップＳ１５９０に対応）、機器１３００は、第１音声入力処理を行う（ステップＳ１６５０：図１５のステップＳ１５３０に対応）。

ステップＳ１６３５の処理が終了すると、「終了します。」という音声は、対話終了音声なので（図１５のステップＳ１５８５：Ｙｅｓに対応）、ステートが音声入力受付可能状態へと遷移されずに、機器１３００は、第２機器処理を終了する。

＜考察＞
上記構成の第１変形音声対話システムによると、機器１３００は、音声対話エージェント４００から送られてきた応答音声データに基づく音声を出力した場合に、その音声が対話終了音声でなければ、機器１３００を利用するユーザによって音声入力操作がなされなくとも、音声入力受付可能状態となる。

このため、ユーザは、機器１３００に対して、一旦、音声入力開始操作を行えば、対話終了音声が出力されるまでは、応答音声データに基づく音声が出力されてから所定期間Ｔ１が経過するまでの期間において、機器１３００に対して新たに音声入力操作を行わなくとも、新たな音声入力を行うことができる。

このように、第１変形音声対話システムは、実施の形態１における音声対話システム１００よりも、さらに、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
＜実施の形態３＞
＜概要＞
以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態１における音声対話システム１００の一部が変形された第２変形音声対話システムについて説明する。

これに対して、実施の形態３における第２変形音声対話システムは、各機器が、ユーザによって音声入力開始操作がなされると、その操作がなされた時点から、対話終了音声を出力するまでの期間、音声入力が可能な状態となる構成の例となっている。

以下、この第２変形音声対話システムの詳細について、実施の形態１における音声対話システム１００との相違点を中心に、図面を参照しながら説明する。

＜構成＞
第２変形音声対話システムは、実施の形態１における音声対話システム１００から、機器１４０が、機器１７００に変更されるように変形されている。

機器１７００は、実施の形態１における機器１４０から、ハードウエアとしては変更されていないが、実行対象として記憶するソフトウエアの一部が変更されている。そして、このことによって、機器１７００は、実施の形態１における機器１４０から、その機能の一部が変更されるように変形されている。

図１７は、機器１７００の機能構成を示すブロック図である。

同図に示されるように、機器１７００は、実施の形態１における機器１４０（図２参照）から、制御部２１０が、制御部１７１０に変更されるように変形されている。

制御部１７１０は、実施の形態１における制御部２１０から、制御部２１０の有する機能のうち、音声入力部状態管理機能が、以下に述べる第２変形音声入力部状態管理機能に変更され、第１機器処理実現機能が、以下に述べる第３機能処理実現機能に変更されるように変形されている。

第２変形音声入力部状態管理機能とは、実施の形態１における音声入力部状態管理機能、実施の形態２における第１変形音声入力部状態管理機能と同様に、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部２２０の状態（すなわち、「ステート」）を管理する機能であって、その状態遷移条件の一部が、実施の形態１における音声入力部状態管理機能から変更されている。

図１８は、制御部１７１０によって管理されるステートの状態遷移図である。

同図に示されるように、制御部１７１０は、ステートが、音声入力受付不可能状態である場合において、（１）操作受付部２３０によって音声入力開始操作が受け付けられるまでは、音声入力受付不可能状態を維持し、（２）操作受付部２３０によって音声入力開始操作が受け付けられると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、（３）音声出力部２６０によって対話終了音声（例えば、「終了します。」という音声）が出力されるまでは、音声入力受付可能状態を維持し、（４）音声出力部２６０によって対話終了音声が出力されると、ステートを、音声入力受付不可能状態へと遷移させる。

再び図１７に戻って、制御部１７１０の説明を続ける。

第３機能御処理実現機能とは、制御部１７１０が、音声入力部２２０と、操作受付部２３０と、通信部２５０と、音声出力部２６０と、表示部２７０と、実行部２８０とを制御して、機器１７００に、その特徴的な動作である第３機器処理を実行させることで、機器１７００に、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力し、（６）その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び（２）以下の処理を繰り返すという一連の処理を実現させる機能である。

なお、第３機器処理については、後程＜第３機器処理＞の項目において、フローチャートを用いて詳細に説明する。

以上のように構成される第２変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。

＜動作＞
第２変形音声対話システムは、その特徴的な動作として、実施の形態１における第１エージェント処理に加えて、実施の形態１における第１機器処理から、その処理の一部が変更された第３機器処理を行う。

以下、この第３機器処理について、第１機器処理からの変更点を中心に説明する。

＜第３機器処理＞
第３機器処理は、機器１７００が行う処理であって、（１）ユーザによって音声入力開始操作がなされると、（２）ユーザからの音声による入力を受け付けて入力音声データを生成し、（３）生成した入力音声データを音声対話エージェントに送信し、（４）音声対話エージェントから返信された応答音声データを受信して、（５）受信した応答音声データに基づく音声を出力し、（６）その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び（２）以下の処理を繰り返す処理である。

図１９は、第３機器処理のフローチャートである。

第３機器処理は、機器１７００が起動されたことで開始される。

機器１７００が起動された時点では、制御部１７１０によって管理されるステートは、音声入力受付不可能状態となっている。

同図において、ステップＳ１９００〜ステップＳ１９２０の処理と、ステップＳ１９４０〜ステップＳ１９８０の処理とは、それぞれ、実施の形態１における第１機器処理（図６参照）のステップＳ６００〜ステップＳ６２０の処理と、ステップＳ６４０〜ステップＳ６８０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ１９２０の処理が終了すると、機器１７００は、第２音声入力処理を実行する（ステップＳ１９３０）。

図２０は、第２音声入力処理のフローチャートである。

第２音声入力処理が開始されると、音声入力部２２０は、ユーザによる音声入力を受け付けて入力音声データを生成する（ステップＳ２０００）。

そして、制御部１９１０は、通信部２５０を制御して、音声対話エージェント４００に対して、音声入力部２２０によって生成された入力音声データを送信させる（ステップＳ２０４０）。

ステップＳ２０４０の処理が終了すると、機器１７００は、その第２音声入力処理を終了する。

再び図１９に戻って、第３機器処理の説明を続ける。

第２音声入力処理が終了すると、機器１９００は、ステップＳ１９４０の処理に進んで、ステップＳ１９４０以下の処理を行う。

ステップＳ１９８０の処理が終了すると、制御部１７１０は、ステップＳ１９８０の処理において、音声出力部２６０によって出力された音声が、対話終了音声であるか否かを調べる（ステップＳ１９８５）。この処理は、一例として、ステップＳ１９６０：Ｙｅｓの処理において受信された応答テキストが、予め定められた文字列（例えば、「終了します。」という文字列）であるか否かを調べることで実現される。

ステップＳ１９８５の処理において、対話終了音声でない場合に（ステップＳ１９８５：Ｎｏ）、機器１９００は、ステップＳ１９３０の処理に戻って、ステップＳ１９３０以下の処理を繰り返す。

ステップＳ１９８５の処理において、対話終了音声である場合に（ステップＳ１５８５：Ｙｅｓ）、制御部１７１０は、ステートを、音声入力受付可能状態から音声入力受付不可能状態に遷移させる（ステップＳ１９９０）。

ステップＳ１９９０の処理が終了すると、機器１９００は、その第３機器処理を終了する。

上記構成の第２変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。

＜具体例＞
図２１は、第２変形音声対話システムを利用するユーザが、機器１７００（ここでは、仮に、スマートフォンであるとする。）を用いて、音声対話エージェント４００と音声を用いた対話を行い、音声対話エージェント４００が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。

同図において、ステップＳ２１００の処理と、ステップＳ２１０５の処理と、ステップＳ２１１５の処理と、ステップＳ２１３５の処理と、ステップＳ２１５５の処理と、ステップＳ２１６０〜ステップＳ２１７０の処理とは、それぞれ、実施の形態１における具体例（図１０参照）の、ステップＳ１０００の処理と、ステップＳ１００５の処理と、ステップＳ１０１５の処理と、ステップＳ１０３５の処理と、ステップＳ１０５５の処理と、ステップＳ１０６０〜ステップＳ１０７０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ２１０５の処理が終了すると、機器１７００は、第２音声処理を行う（ステップＳ２１１０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「部屋の温度は？」との音声を入力したとすると、機器１７００は、「部屋の温度は？」という入力音声データを、音声対話エージェント４００へ送信する（図２０のステップＳ２０４０に対応）。

ステップＳ２１１５の処理が終了すると、「どちらの部屋の温度でしょうか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ２１３０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「リビング。」との音声を入力したとすると、機器１７００は、「リビング。」という入力音声データを、音声対話エージェント４００へ送信する（図２０のステップＳ２０４０に対応）。

ステップＳ２１３５の処理が終了すると、「リビングの温度は２８度です。他に何かありますか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ２１５０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器１７００は、「ないよ。ありがとう。」という入力音声データを、音声対話エージェント４００へ送信する（図２０のステップＳ２０４０に対応）。

ステップＳ２１３５の処理が終了すると、「終了します。」という音声は、対話終了音声なので（図１９のステップＳ１９８５：Ｙｅｓに対応）、ステートが音声入力受付可能状態へと遷移されて（図１９のステップＳ１９９０に対応）、機器１７００は、第３機器処理を終了する。

＜考察＞
上記構成の第２変形音声対話システムによると、機器１７００は、一旦、音声入力開始操作がなされると、その操作がなされた時点から、対話終了音声を出力するまでは、音声入力が可能な状態を維持する。

このため、ユーザは、機器１７００に対して、一旦、音声入力開始操作を行えば、対話終了音声が出力されるまでは、機器１７００に対して新たな音声入力操作を行わなくとも、新たな音声入力を行うことができる。

このように、第２変形音声対話システムは、実施の形態１における音声対話システム１００よりも、さらに、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
＜実施の形態４＞
＜概要＞
以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態３における第２変形音声対話システムの一部が変形された第３変形音声対話システムについて説明する。

実施の形態３における第２変形音声対話システムは、機器１７００が音声対話エージェントＡとの間で通信を開始すると、一連の処理が終了するまでの間、通信対象の音声対話エージェントが、音声対話エージェントＡに限定されている構成の例であった。

これに対して実施の形態４における第３変形音声対話システムは、機器が音声対話エージェントＡとの間で通信を開始した場合において、第３変形音声対話システムを利用するユーザが、その機器を用いて、他の音声エージェントＢとの間で通信を行いたい旨の音声入力を行ったときに、以後、その機器の通信相手は、音声対話エージェントＡから、音声対話エージェントＢに変更される構成の例となっている。

以下、この第３変形音声対話システムの詳細について、実施の形態３における第２変形音声対話システムとの相違点を中心に、図面を参照しながら説明する。

＜構成＞
第３変形音声対話システムは、実施の形態３における第２変形音声対話システムから、音声対話エージェント４００が、音声対話エージェント２２００に変更されるように変形されている。

音声対話エージェント２２００は、実施の形態３における音声対話エージェント４００と同様に、音声対話エージェントサーバ１１０によって実現される。

音声対話エージェントサーバ１１０によって実行される、音声対話エージェント２２００を実現するためのソフトウエアの一部が、実施の形態３における音声対話エージェント４００を実現するためのソフトウエアから変更されている。そして、このことによって、音声対話エージェント２２００は、実施の形態３における音声対話エージェント４００から、その機能の一部が変更されるように変形されている。

図２２は、音声対話エージェント２２００の機能構成を示すブロック図である。

同図に示されるように、音声対話エージェント２２００は、実施の形態３における音声対話エージェント４００（図４参照）から、対象エージェントＤＢ記憶部２２２０が追加され、制御部４１０が、制御部２２１０に変更されるように変形されている。

対象エージェントＤＢ記憶部２２２０は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部２２１０に接続され、対象エージェントＤＢ２３００を記憶する機能を有する。

図２３は、対象エージェントＤＢ記憶部２２２０に記憶される対象エージェントＤＢ２３００のデータ構成図である。

同図に示される通り、対象エージェントＤＢ２３００は、キーワード２３１０と、対象エージェント２３２０と、ＩＰアドレス２３３０とが対応付けられて構成される。

キーワード２３１０は、音声認識処理部４３０によって変換された入力テキストに含まれると想定される文字列である。

対象エージェント２３２０は、機器１４０の通信対象となる、音声対話エージェント２２００の中の１つ（以下、この１つのことを「追加音声対話エージェント」と呼ぶ。）を特定する情報である。

この例では、対象エージェント２３２０によって特定される追加音声対象エージェントには、車エージェントと、小売店エージェントと、家エージェントとが含まれる構成の例となっている。

ここで、車エージェントとは、車に搭載された機器について提供されるサービスが比較的充実している音声対話エージェント２２００であり、小売店エージェントとは、小売店に配置された機器について提供されるサービスが比較的充実している音声対話エージェント２２００であり、家エージェントとは、住宅（家）に配置された機器について提供されるサービスが比較的充実している音声対話エージェント２２００であるとしている。

ＩＰアドレス２３３０は、対応付けられている対象エージェント２３２０によって特定される追加音声対話エージェントを実現する音声対話エージェントサーバ１１０についての、ネットワーク１２０におけるＩＰアドレスである。

図２３に示されるように、１つの対象エージェント２３２０には、１又は複数のキーワード２３１０が対応付けられている。一例として、「車エージェント」には、「車内」、「車」、「カー」、「ナビ」といったキーワード２３１０が対応付けられている。

１つの対象エージェント２３２０に対して、複数のキーワード２３１０が対応付けられていることで、音声対話エージェント２２００は、入力の曖昧さに対応することができる。

例えば、ユーザは、車エージェントとの間で通信を行いたい場合に、「ナビの音声対話エージェントに接続して。」と音声入力する場合もあるし、「車の音声対話エージェントに接続して。」と音声入力する場合もある。

ここでは、「ナビ」と「車」とが、共に「車エージェント」に対応付けられているため、音声対話エージェント２２００は、対象エージェントＤＢ２３００を参照することで、どちらの音声入力の場合でも、対象エージェント２３２０が車エージェントであると特定することができる。

再び図２２に戻って、音声対話エージェント２２００の説明を続ける。

制御部２２１０は、実施の形態３における制御部４１０から、制御部４１０が有する機能のうち、第１エージェント処理実現機能が、以下に述べる第２エージェント処理実現機能と、以下に述べる第３エージェント処理実現機能とに変更されるように変形されている。

第２エージェント処理実現機能とは、制御部２２１０が、通信部４２０と、音声認識処理部４３０と、音声合成処理部４５０と、命令生成部４６０とを制御して、音声対話エージェント２２００に、その特徴的な動作である第２エージェント処理を実行させることで、音声対話エージェント２２００に、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストが、他の音声対話エージェントとの間で通信を行いたい旨を示すものである場合に、機器とその音声対話エージェントとの間の通信を実現させ、（４）そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。

なお、第２エージェント処理は、後程＜第２エージェント処理＞の項目において、フローチャートを用いて詳細に説明する。

第３エージェント処理実現機能とは、制御部２２１０が、通信部４２０と、音声認識処理部４３０と、音声合成処理部４５０と、命令生成部４６０とを制御して、音声対話エージェント２２００に、その特徴的な動作である第３エージェント処理を実行させることで、音声対話エージェント２２００に、（１）他の音声入力エージェントからの要求に応じて機器との通信を開始し、（２）機器から送信された入力音声データを受信し、（３）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（４）生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。

なお、第３エージェント処理は、後程＜第３エージェント処理＞の項目において、フローチャートを用いて詳細に説明する。

以上のように構成される第３変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。

＜動作＞
第３変形音声対話システムは、その特徴的な動作として、実施の形態３における第１機器処理に加えて、実施の形態３における第１エージェント処理から、その処理の一部が変更された、第２エージェント処理と第３エージェント処理とを行う。

以下、これら第２エージェント処理と第３エージェント処理とについて、第１エージェント処理からの変更点を中心に説明する。

＜第２エージェント処理＞
第２エージェント処理は、音声対話エージェント２２００が行う処理であって、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストが、他の音声対話エージェントとの間で通信を行いたい旨を示すものである場合に、機器とその音声対話エージェントとの間の通信を実現させ、（４）そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信する処理である。

図２４は、第２エージェント処理のフローチャートである。

第２エージェント処理は、音声対話エージェント２２００が起動されることで開始される。

第２エージェント処理が開始されると、音声対話エージェント２２００は、機器１７００から送信される入力音声データが、通信部４２０によって受信されるまで待機する（ステップＳ２４００：Ｎｏを繰り返す。）。そして、入力音声データが受信されると（ステップＳ２４００：Ｙｅｓ）、音声対話エージェント２２００は、第２命令実行処理を実行する（ステップＳ２４１０）。

図２５は、第２命令実行処理のフローチャートである。

同図において、ステップＳ２５００〜ステップＳ２５１０の処理と、ステップＳ２５２０〜ステップＳ２５６０の処理とは、それぞれ、実施の形態３における第１命令実行処理（図９参照）のステップＳ９００〜ステップＳ９１０の処理と、ステップＳ９２０〜ステップＳ９６０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ２５１０の処理が終了すると、制御部２２１０は、音声認識処理部４３０によって変換された入力テキストが、他の音声対話エージェントとの通信を要求するものであるか否かを調べる（ステップＳ２５１５）。

ステップＳ２５１５の処理において、他の音声対話エージェントとの通信を要求するものでない場合に（ステップＳ２５１５：Ｎｏ）、音声対話エージェント２２００は、ステップＳ２５２０の処理に進み、ステップＳ２５２０〜ステップＳ２５６０の処理を行う。

ステップＳ２５１５の処理において、他の音声対話エージェントとの通信を要求するものである場合に（ステップＳ２５１５：Ｙｅｓ）、制御部２２１０は、対象エージェントＤＢ記憶部２２２０に記憶されている対象エージェントＤＢ２３００を参照して（ステップＳ２５１７）、通信先として要求される音声対話エージェント２２００を特定する。すなわち、音声認識処理部４３０によって文字列に変換された入力テキストに含まれるキーワード２３１０に対応付けられた対象エージェント２３２０によって特定される追加音声対話エージェントを、通信先として要求される音声対話エージェント２２００として特定する。

通信先として要求される追加音声対話エージェントが特定されると、制御部２２１０は、特定された追加音声対象エージェントと、入力音声データの送信元である機器１７００との間の通信を開始させる旨を示す所定の信号（以下、この信号を「接続命令」と呼ぶ。）を生成する（ステップＳ２５６５）。

接続命令が生成されると、制御部２２１０は、通信部４２０を制御して、そのキーワード２３１０に対応付けられているＩＰアドレス２３３０を利用して、追加音声対象エージェントに対して、生成された接続命令を送信させる（ステップＳ２５７０）。

その後、制御部２２１０は、ステップＳ２５７０の処理において送信した接続命令に応答して追加音声対話エージェントから返信される接続応答（後述）が、通信部４２０によって受信されるまで待機する（ステップＳ２５７５：Ｎｏを繰り返す。）。

接続応答が、通信部４２０によって受信されると（ステップＳ２５７５：Ｙｅｓ）、音声対話エージェント２２００は、第１接続応答処理を実行する（ステップＳ２５８０）。

図２６は、第１接続応答処理のフローチャートである。

第１接続応答処理が開始されると、制御部２２１０は、追加音声対話エージェントと機器１７００との間の通信が可能となった旨を示す、予め定められた応答テキスト（例えば、「『追加音声対話エージェント』に接続しました。」という文字列。）を生成する（ステップＳ２６００）。

ここで、『追加音声対話エージェント』の部分には、対象エージェントＤＢ２３００の対象エージェント２３２０によって特定される音声対話エージェント２２００の名称（ここでは、車エージェントと、小売店エージェントと、家エージェントとのうちのいずれか）が挿入されることとする。

応答テキストが生成されると、音声合成処理部４５０は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する（ステップＳ２６１０）。

応答音声データが生成されると、制御部２２１０は、通信部４２０を制御して、入力音声データの送信元である機器１７００に対して、生成された応答テキストと、生成された応答音声データとを送信させる（ステップＳ２６２０）。

ステップＳ２６２０の処理が終了すると、音声対話エージェント２２００は、その第１接続応答処理を終了する。

再び図２５に戻って、第２命令実行処理の説明を続ける。

第１接続応答処理が終了すると、音声対話エージェント２２００は、追加音声対話エージェントから送信される切断応答（後述）が、通信部４２０によって受信されるまで待機する（ステップＳ２５８５：Ｎｏを繰り返す。）。

切断応答が、通信部４２０によって受信されると（ステップＳ２５８５：Ｙｅｓ）、音声対話エージェント２２００は、切断応答処理を実行する（ステップＳ２５９０）。

図２７は切断応答処理のフローチャートである。

切断応答処理が開始されると、制御部２２１０は、追加音声対話エージェントと機器１７００との間の通信が終了した旨を示す、予め定められた応答テキスト（例えば、「『追加音声対話エージェント』との接続を切りました。他に何かありますか？」という文字列。）を生成する（ステップＳ２７００）。

応答テキストが生成されると、音声合成処理部４５０は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する（ステップＳ２７１０）。

応答音声データが生成されると、制御部２２１０は、通信部４２０を制御して、ステップＳ２４００の処理において入力音声データの送信元である機器１７００に対して、生成された応答テキストと、生成された応答音声データとを送信させる（ステップＳ２７２０）。

ステップＳ２７２０の処理が終了すると、音声対話エージェント２２００は、その切断応答処理を終了する。

再び図２５に戻って、第２命令実行処理の説明を続ける
切断応答処理が終了した場合、又は、ステップＳ２５６０の処理が終了した場合に、音声対話エージェント２２００は、その第２命令実行処理を終了する。

再び図２４に戻って、第２エージェント処理の説明を続ける。

第２命令実行処理が終了すると、音声対話エージェント２２００は、再びステップＳ２４００の処理に戻って、ステップＳ２４００以下の処理を続ける。

＜第３エージェント処理＞
第３エージェント処理は、音声対話エージェント２２００が行う処理であって、（１）他の音声入力エージェントからの要求に応じて機器との通信を開始し、（２）機器から送信された入力音声データを受信し、（３）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（４）生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信する処理である。

図２８は、第３エージェント処理のフローチャートである。

同図において、ステップＳ２８００〜ステップＳ２８１０の処理と、ステップＳ２８２０〜ステップＳ２８６０の処理とは、それぞれ、実施の形態１における第１命令実行処理（図９参照）のステップＳ９００〜ステップＳ９１０の処理と、ステップＳ９２０〜ステップＳ９６０の処理と同様の処理である。よって、これらの処理については説明済みである。

第３エージェント処理は、音声対話エージェント２２００が起動されることで開始される。

第３エージェント処理が開始されると、音声対話エージェント２２００は、他の音声対話エージェントから送信される接続命令が、通信部４２０によって受信されるまで待機する（ステップＳ２８１１：Ｎｏを繰り返す。）。そして、接続命令が受信されると（ステップＳ２８１１：Ｙｅｓ）、制御部２２１０は、通信部４２０を制御して、接続命令において通信対象とされる機器１７００との間の通信を開始する接続処理を実行する。

ここで、この接続処理には、機器１７００が送信する入力音声データの送信先を、接続命令を送信した音声対話エージェント２２００から、接続命令を受信した音声対話エージェント２２００へと変更させる処理を含んでいる。

接続処理が実行されると、制御部２２１０は、通信部４２０を制御して、機器１７００との間の通信が開始された旨を示す信号である接続応答を生成して、生成した接続応答を、接続命令の送信元である音声対話エージェントへ送信する（ステップＳ２８１３）。

その後、制御部２２１０は、機器１７００から送信される入力音声データが、通信部４２０によって受信されるまで待機する（ステップＳ２８１４：Ｎｏを繰り返す）。そして、入力音声データが受信されると（ステップＳ２８１４：Ｙｅｓ）、ステップＳ２８００〜ステップＳ２８１０の処理を実行する。

ステップＳ２８１０の処理が終了すると、制御部２２１０は、音声認識処理部４３０によって変換された入力テキストが、自音声対話エージェントとの通信を終了する旨のものであるか否かを調べる（ステップＳ２８１５）。

ステップＳ２８１５の処理において、自音声対話エージェントとの通信を終了する旨のものでない場合に（ステップＳ２８１５：Ｎｏ）、音声対話エージェント２２００は、ステップＳ２８２０の処理に進んで、ステップＳ２８２０〜ステップＳ２８６０の処理を行う。そして、ステップＳ２８６０の処理が終了すると、音声対話エージェント２２００は、再びステップＳ２８１４の処理に戻って、ステップＳ２８１４以下の処理を行う。

ステップＳ２８１５の処理において、自音声対話エージェントとの通信を終了する旨のものである場合に（ステップＳ２８１５：Ｙｅｓ）、制御部２２１０は、通信部４２０を制御して、機器１７００との間の通信を終了する切断処理を実行する。

ここで、この切断処理には、機器１７００が送信する入力音声データの送信先を、接続命令を受信した音声対話エージェント２２００から、接続命令を送信した音声対話エージェント２２００へと変更させる処理を含んでいる。

切断処理が実行されると、制御部２２１０は、通信部４２０を制御して、機器１７００との間の通信が終了された旨を示す所定の信号である切断応答を生成して、生成した切断応答を、接続命令の送信元である音声対話エージェントへ送信する（ステップＳ２８９０）。

ステップＳ２８９０の処理が終了すると、音声対話エージェント２２００は、ステップＳ２８１１の処理に戻って、ステップＳ２８１１以下の処理を行う。

上記構成の第３変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。

＜具体例＞
図２９は、第３変形音声対話システムを利用するユーザが、機器１７００を用いて、音声対話エージェント２２００のうちの１つである家エージェントと音声を用いた対話を開始し、その後、家エージェントによって生成された接続命令によって、音声対話エージェント２２００のうちの他の１つである車エージェントとの間の通信が開始されて、そのユーザが、車エージェントとの対話を行う様子を模式的に示す処理手順図である。

ここでは、ユーザの利用する機器１７００の特定音声対話エージェントサーバが、家エージェントを実現する音声対話エージェントサーバ１１０であり、対話終了音声が、「終了します。」という音声であるとして説明する。

同図において、ステップＳ２９００〜ステップＳ２９０５の処理は、それぞれ、実施の形態３における具体例（図２１参照）の、ステップＳ２１００〜ステップＳ２１０５の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ２９０５の処理が終了すると、機器１７００は、第２音声処理を行う（ステップＳ２９０６、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「車エージェントに接続して。」との音声を入力したとすると、機器１７００は、「車エージェントに接続して。」という入力音声データを、家エージェントに送信する（図２０のステップＳ２０４０に対応）。

すると、家エージェントは、その入力音声データを受信して（図２４のステップＳ２４００：Ｙｅｓに対応）、第２命令実行処理を実行する（図２４のステップＳ２４１０に対応）。

第２命令実行処理において、入力テキストが、車エージェントとの通信要求であるので（図２５のステップＳ２５１５：Ｙｅｓに対応）、家エージェントは、車エージェントに対して、接続命令を送信する（図２５のステップＳ２５７０に対応）。

すると、車エージェントは、接続命令を受信し（図２８のステップＳ２８１１：Ｙｅｓに対応）、機器１７００との間の通信を開始して（図２８のステップＳ２８１２に対応）、家エージェントに、接続応答を送信する（ステップＳ２９９０、図２８のステップＳ２８１３に対応）。

すると、家エージェントは、接続応答を受信し（図２５のステップＳ２５７５：Ｙｅｓに対応）、第１接続応答処理を実行する（ステップＳ２９６５、図２５のステップＳ２５８０に対応）。

ここで、この第１接続応答処理において、音声対話エージェント２２００が、「車エージェントに接続しました。」という応答音声データを生成したとすると、音声対話エージェント２２００は、機器１７００に、「車エージェントに接続しました。」という応答音声データを送信する（図２６のステップＳ２６２０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「車エージェントに接続しました。」という音声を出力する（ステップＳ２９０７、図１９のステップＳ１９８０に対応）。

そして、「車エージェントに接続しました。」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ２９１０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「車内の温度は？」との音声を入力したとすると、機器１７００は、「車内の温度は？」という入力音声データを、車エージェントへ送信する（図２０のステップＳ２０４０に対応）。

すると、車エージェントは、その入力音声データを受信して（図２８のステップＳ２８１４：Ｙｅｓに対応）、その音声データが通信終了を要求するものではないため（図２８のステップＳ２８１５：Ｎｏに対応）、その入力音声データに対応する命令群を生成して実行する（ステップＳ２９９４、図２８のステップＳ２８３０に対応）。

ここで、この命令群の実行において、車エージェントが、「車内の温度は３８度です。他に何かありますか？」という応答音声データを生成したとすると、車エージェントは、機器１７００に、「車内の温度は３８度です。他に何かありますか？」という応答音声データを送信する（図２８のステップＳ２８６０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「車内の温度は３８度です。他に何かありますか？」という音声を出力する（ステップＳ２９１５、図１９のステップＳ１９８０に対応）。

そして、「車内の温度は３８度です。他に何かありますか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ２９３０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器１７００は、「ないよ。ありがとう。」という入力音声データを、車エージェントへ送信する（図２０のステップＳ２０４０に対応）。

すると、車エージェントは、その入力音声データを受信して（図２８のステップＳ２８１４：Ｙｅｓに対応）、その音声データが通信終了を要求するものであるため（図２８のステップＳ２８１５：Ｙｅｓに対応）、機器１７００との間の通信を終了して（図２８のステップＳ２８７０に対応）、家エージェントに切断応答を送信する（ステップＳ２９９８、図２８のステップＳ２８９０に対応）。

すると、家エージェントは、その切断応答を受信して（図２５のステップＳ２５８５：Ｙｅｓに対応）、切断応答処理を実行する（ステップＳ２９７０、図２５のステップＳ２８９０の処理に対応）。

ここで、この切断処理において、音声対話エージェント２２００が、「車エージェントとの接続を切りました。他に何かありますか？」という応答音声データを生成したとすると、音声対話エージェント２２００は、機器１７００に、「車エージェントとの接続を切りました。他に何かありますか？」という応答音声データを送信する（図２７のステップＳ２７２０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「車エージェントとの接続を切りました。他に何かありますか？」という音声を出力する（ステップＳ２９３５、図１９のステップＳ１９８０に対応）。

そして、「車エージェントとの接続を切りました。他に何かありますか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ２９５０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器１７００は、「ないよ。ありがとう。」という入力音声データを、家エージェントへ送信する（図２０のステップＳ２０４０に対応）。

すると、家エージェントは、その入力音声データを受信して（図２４のステップＳ２８００：Ｙｅｓに対応）、第２命令実行処理を実行する（ステップＳ２９７５、図２４のステップＳ２４１０に対応）。

ここで、この第２命令実行処理において、家エージェントが、「終了します。」という応答音声データを生成したとすると、家エージェントは、機器１７００に、「終了します。」という応答音声データを送信する（図２５のステップＳ２５６０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「終了します。」という音声を出力する（ステップＳ２９５５、図１９のステップＳ１９８０に対応）。

「終了します。」という音声は、対話終了音声なので（図１９のステップＳ１９８５：Ｙｅｓに対応）、ステートが音声入力受付可能状態へと遷移されて（図１９のステップＳ１９９０に対応）、機器１７００は、第３機器処理を終了する。

＜考察＞
上記構成の第３変形音声対話システムによると、第３変形音声対話システムを利用するユーザは、音声対話エージェントＡと通信している場合において、音声対話エージェントＡよりも、音声対話エージェントＢに処理を行わせる方が望ましいと考えたときに、通信して処理させる音声対話エージェントを、音声対話エージェントＡから音声対話エージェントＢに変更して、所望の処理を音声対話エージェントＢに実行させることができるようになる。

また、この場合には、音声対話エージェントＡは、入力音声を、そのまま音声対話エージェントＢに転送することになるので、音声対話エージェントＢは、その入力音声そのものに対して音声認識処理を行うことができる。このため、ユーザは、音声対話エージェントＢから、より適切なサービスの提供を受けることができるようになる。
＜実施の形態５＞
＜概要＞
以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態４における第３変形音声対話システムの一部が変形された第４変形音声対話システムについて説明する。

実施の形態４における第３変形音声対話システムは、機器が音声対話エージェントＡとの間で通信を開始した場合において、第３変形音声対話システムを利用するユーザが、その機器を用いて、他の音声エージェントＢとの間で通信を行いたい旨の音声入力を行ったときに、以後、その機器の通信相手は、音声対話エージェントＡから、音声対話エージェントＢに変更される構成の例であった。

これに対して実施の形態５における第４変形音声対話システムは、機器が音声対話エージェントＡとの間で通信を開始した場合において、その通信内容において所定の条件が満たされるときに、音声対話エージェントＡが、ユーザの利用する音声対話エージェントとして、自音声対話エージェントＡよりも、他の音声対話エージェントＢの方を通信相手とすべきであると判定して、以後、その機器の通信相手が、音声対話エージェントＡから、音声対話エージェントＢに変更される構成の例となっている。

以下、この第４変形音声対話システムの詳細について、実施の形態４における第３変形音声対話システムとの相違点を中心に、図面を参照しながら説明する。

＜構成＞
第４変形音声対話システムは、実施の形態４における第３変形音声対話システムから、音声対話エージェント２２００が、音声対話エージェント３０００に変更されるように変形されている。

音声対話エージェント３０００は、実施の形態４における音声対話エージェント２２００と同様に、音声対話エージェントサーバ１１０によって実現される。

音声対話エージェントサーバ１１０によって実行される、音声対話エージェント３０００を実現するためのソフトウエアの一部が、実施の形態３における音声対話エージェント２２００を実現するためのソフトウエアから変更されている。そして、このことによって、音声対話エージェント３０００は、実施の形態４における音声対話エージェント２２００から、その機能の一部が変更されるように変形されている。

図３０は、音声対話エージェント３０００の機能構成を示すブロック図である。

同図に示されるように、音声対話エージェント３０００は、実施の形態４における音声対話エージェント２２００（図２２参照）から、対象エージェントＤＢ記憶部２２２０が削除され、利用可能サービスＤＢ記憶部３０２０が追加され、制御部２２１０が、制御部３０１０に変更されるように変形されている。

利用可能サービスＤＢ記憶部３０２０は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部３０１０に接続され、利用可能サービスＤＢ３１００を記憶する機能を有する。

図３１は、利用可能サービスＤＢ記憶部３０２０に記憶される利用可能サービスＤＢ３１００のデータ構成図である。

同図に示されるように、利用可能サービスＤＢ３１００は、キーワード３１１０と、対象エージェント３１２０と、処理内容３１３０と、ＩＰアドレス３１４０と、利用可否３１５０とが対応付けられて構成される。

キーワード３１１０は、音声認識処理部４３０によって変換された入力テキストに含まれると想定される文字列である。

対象エージェント３１２０は、機器１７００の通信対象となる、追加音声対話エージェントを特定する情報である。

この例では、実施の形態４と同様に、対象エージェント２３２０によって特定される追加音声対象エージェントには、車エージェントと、小売店エージェントと、家エージェントとが含まれる構成の例となっている。

処理内容３１３０は、音声認識処理部４３０によって変換された入力テキストに、対応付けられているキーワード３１１０が含まれている場合に、対応付けられている対象エージェント３１２０によって特定される追加音声対話エージェントによって実行される対象となる処理の内容を示す情報である。

ＩＰアドレス３１４０は、対応付けられている対象エージェント３１２０によって特定される追加音声対話エージェントを実現する音声対話エージェントサーバ１１０についての、ネットワーク１２０におけるＩＰアドレスである。

利用可否３１５０は、対応付けられている処理内容３１３０によって示される内容の処理を、自音声対話エージェントで処理することが可能か否かを示す情報である。

再び図３０に戻って、音声対話エージェント３０００の説明を続ける。

制御部３０１０は、実施の形態４における制御部２２１０から、制御部２２１０が有する機能のうち、第２エージェント処理実現機能が、以下に述べる第４エージェント処理実現機能に変更されるように変形されている。

第４エージェント処理実現機能とは、制御部３０１０が、通信部４２０と、音声認識処理部４３０と、音声合成処理部４５０と、命令生成部４６０とを制御して、音声対話エージェント３０００に、その特徴的な動作である第４エージェント処理を実行させることで、音声対話エージェント２２００に、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストに所定のキーワードが含まれている場合に、機器と、そのキーワードに対応付けられている対象エージェントとの間の通信を実現させ、（４）そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。

なお、第４エージェント処理は、後程＜第４エージェント処理＞の項目において、フローチャートを用いて詳細に説明する。

以上のように構成される第４変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。

＜動作＞
第４変形音声対話システムは、その特徴的な動作として、実施の形態４における第２機器処理と、第３エージェント処理とに加えて、実施の形態３における第２エージェント処理から、その処理の一部が変更された第４エージェント処理を行う。

以下、この第４エージェント処理について、第２エージェント処理からの変更点を中心に説明する。

＜第４エージェント処理＞
第４エージェント処理は、音声対話エージェント３０００が行う処理であって、（１）機器から送信された入力音声データを受信し、（２）受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、（３）生成した入力テキストに所定のキーワードが含まれている場合に、機器と、そのキーワードに対応付けられている対象エージェントとの間の通信を実現させ、（４）そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、（５）実行結果に基づいて応答テキストを生成し、（６）生成した応答テキストを応答音声データに変換して、（７）応答テキストと応答音声データとを機器に返信する処理である。

図３２は、第４エージェント処理のフローチャートである。

第４エージェント処理は、音声対話エージェント３０００が起動されることで開始される。

第４エージェント処理が開始されると、音声対話エージェント３０００は、機器１７００から送信される入力音声データが、通信部４２０によって受信されるまで待機する（ステップＳ３２００：Ｎｏを繰り返す。）。そして、入力音声データが受信されると（ステップＳ３２００：Ｙｅｓ）、音声対話エージェント３０００は、第３命令実行処理を実行する（ステップＳ３２１０）。

図３３は、第３命令実行処理のフローチャートである。

同図において、ステップＳ３３００〜ステップＳ３３１０の処理と、ステップＳ３３２０〜ステップＳ３３６０の処理と、ステップＳ３３６５〜ステップＳ３３７５の処理と、ステップＳ３３８５〜ステップＳ３３９０の処理とは、それぞれ、実施の形態４におけるステップＳ２５００〜ステップＳ２５１０の処理と、ステップＳ２５２０〜ステップＳ２５６０の処理と、ステップＳ２５６５〜ステップＳ２５７５の処理と、ステップＳ２５８５〜ステップＳ２５９０の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ３３１０の処理が終了すると、制御部３０１０は、利用可能サービスＤＢ記憶部３０２０に記憶されている利用可能サービスＤＢ３１００を参照して（ステップＳ３３１２）、入力テキストに対応する処理を、他の音声対話エージェントで実行すべきか否かを判定する（ステップＳ３３１５）。すなわち、入力テキストデータに、キーワード３１１０が含まれている場合において、そのキーワード３１１０に対応付けられている対象エージェント３１２０が、自音声対話エージェントでないときに、他の音声対話エージェント（対象エージェント３１２０によって特定される追加音声対話エージェント）で実行すべきであると判定し、それ以外であれば、他の音声対話エージェントで実行すべきでないと判定する。

ステップＳ３３１５の処理において、他の音声対話エージェントで実行すべきでないと判定された場合に（ステップＳ３３１５：Ｎｏ）、音声対話エージェント３０００は、ステップＳ３３２０の処理に進み、ステップＳ３３２０〜ステップＳ３３６０の処理を行う。

ステップＳ３３１５の処理において、他の音声対話エージェントで実行すべきであると判定された場合に（ステップＳ３３１５：Ｙｅｓ）、音声対話エージェント３０００は、ステップＳ３３６５の処理に進み、ステップＳ３３６５〜ステップＳ３３７５の処理を行う。

ステップＳ３３７５の処理において、追加音声対話エージェントから返信される接続応答が、通信部４２０によって受信されると（ステップＳ３３７５：Ｙｅｓ）、音声対話エージェント３０００は、第２接続応答処理を実行する（ステップＳ３３８０）。

図３４は、第２接続応答処理のフローチャートである。

第２接続応答処理が開始されると、制御部３０１０は、通信部４２０を制御して、ステップＳ３２００：Ｙｅｓの処理において受信した入力音声データを、ステップＳ３３１５：Ｙｅｓの処理において特定された追加音声対話エージェントへ転送する（ステップＳ３４００）。

ステップＳ３４００の処理が終了すると、音声対話エージェント３０００は、その第２接続応答処理を終了する。

再び図３３に戻って、第２命令実行処理の説明を続ける。

第２接続応答処理が終了すると、音声対話エージェント３０００は、ステップＳ３３８５の処理に進んで、ステップＳ３３８５〜ステップＳ３３９０の処理を行う。

ステップＳ３３９０の処理が終了した場合、又は、ステップＳ３３６０の処理が終了した場合に、音声対話エージェント３０００は、その第３命令実行処理を終了する。

再び、図３２に戻って、第４エージェント処理の説明を続ける。

第３命令実行処理が終了すると、音声対話エージェント３０００は、再びステップＳ３２００の処理に戻って、ステップＳ３２００以下の処理を続ける。

上記構成の第４変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。

＜具体例＞
図３５は、第４変形音声対話システムを利用するユーザが、機器１７００を用いて、音声対話エージェント３０００のうちの１つである家エージェントと音声を用いた対話を開始し、その後、家エージェントによって生成された接続命令によって、音声対話エージェント３０００のうちの他の１つである車エージェントとの間の通信が開始されて、そのユーザが、車エージェントとの対話を行う様子を模式的に示す処理手順図である。

同図において、ステップＳ３５００〜ステップＳ３５０５の処理は、それぞれ、実施の形態４における具体例（図２９参照）の、ステップＳ２９００〜ステップＳ２９０５の処理と同様の処理である。よって、これらの処理については説明済みである。

ステップＳ３５０５の処理が終了すると、機器１７００は、第２音声処理を行う（ステップＳ３５０６、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「車内の温度は？」との音声を入力したとすると、機器１７００は、「車内の温度は？」という入力音声データを、家エージェントに送信する（図２０のステップＳ２０４０に対応）。

すると、家エージェントは、その入力音声データを受信して（図３２のステップＳ３２００：Ｙｅｓに対応）、第３命令実行処理を実行する（図３２のステップＳ３２１０に対応）。

第３命令実行処理において、入力テキストに「温度」、「車内」というキーワードが含まれており、対象エージェント３１２０が、家エージェントでないため（図３３のステップＳ３３１５：Ｎｏに対応）、家エージェントは、車エージェントに対して、接続命令を送信する（図３３のステップＳ３３７０に対応）。

すると、車エージェントは、接続命令を受信し（図２８のステップＳ２８１１：Ｙｅｓに対応）、機器１７００との間の通信を開始して（図２８のステップＳ２８１２に対応）、家エージェントに、接続応答を送信する（ステップＳ３５９０、図２８のステップＳ２８１３に対応）。

すると、家エージェントは、接続応答を受信し（図３３のステップＳ３３７５：Ｙｅｓに対応）、第２接続応答処理を実行する（図３３のステップＳ３３８０に対応）。

第２接続応答処理において、家エージェントは、「車内の温度は？」という入力音声データを、車エージェントへ転送する（図３４のステップＳ３４００に対応）。

すると、車エージェントは、その入力音声データを受信して（図２８のステップＳ２８１４：Ｙｅｓに対応）、その音声データが通信終了を要求するものではないため（図２８のステップＳ２８１５：Ｎｏに対応）、その入力音声データに対応する命令群を生成して実行する（ステップＳ３５９４、図２８のステップＳ２８３０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「車内の温度は３８度です。他に何かありますか？」という音声を出力する（ステップＳ３５０７、図１９のステップＳ１９８０に対応）。

そして、「車内の温度は３８度です。他に何かありますか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ３５１０、図１９のステップＳ１９３０に対応）。

この第２音声入力処理において、ユーザが、「エアコンを２５度でオンにして。」との音声を入力したとすると、機器１７００は、「エアコンを２５度でオンにして。」という入力音声データを、車エージェントへ送信する（図２０のステップＳ２０４０に対応）。

ここで、この命令群の実行において、車エージェントが、「エアコンを２５度でオンにしました。他に何かありますか？」という応答音声データを生成したとすると、車エージェントは、機器１７００に、「エアコンを２５度でオンにしました。他に何かありますか？」という応答音声データを送信する（図２８のステップＳ２８６０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「エアコンを２５度でオンにしました。他に何かありますか？」という音声を出力する（ステップＳ３５２５、図１９のステップＳ１９８０に対応）。

そして、「エアコンを２５度でオンにしました。他に何かありますか？」という音声は、対話終了音声でないので（図１９のステップＳ１９８５：Ｎｏに対応）、機器１７００は、第２音声処理を行う（ステップＳ３５３０、図１９のステップＳ１９３０に対応）。

すると、車エージェントは、その入力音声データを受信して（図２８のステップＳ２８１４：Ｙｅｓに対応）、その音声データが通信終了を要求するものであるため（図２８のステップＳ２８１５：Ｙｅｓに対応）、機器１７００との間の通信を終了して（図２８のステップＳ２８７０に対応）、家エージェントに切断応答を送信する（ステップＳ３５９８、図２８のステップＳ２８９０に対応）。

ここで、この切断処理において、音声対話エージェント２２００が、「終了します。」という応答音声データを生成したとすると、音声対話エージェント２２００は、機器１７００に、「終了します。」という応答音声データを送信する（図２７のステップＳ２７２０に対応）。

すると、機器１７００は、その応答音声データを受信して（図１９のステップＳ１９６０：Ｙｅｓに対応）、「終了します。」という音声を出力する（ステップＳ３５５５、図１９のステップＳ１９８０に対応）。

「終了します。」という音声は、対話終了音声なので（図１９のステップＳ１９８５：Ｙｅｓに対応）、ステートが音声入力受付可能状態へと遷移されて（図１９のステップＳ１９９０に対応）、機器１７００は、第４機器処理を終了する。

＜考察＞
上記構成の第４変形音声対話システムによると、第３変形音声対話システムを利用するユーザが音声対話エージェントＡと通信している場合において、音声対話エージェントＡが、音声対話エージェントＡよりも音声対話エージェントＢの方を通信相手とすべきであると判定した場合には、ユーザの通信相手の音声対話エージェントを、音声対話エージェントＡから音声対話エージェントＢに変更することができるようになる。

このことによって、ユーザは、各音声対話エージェントにおいてどのようなサービスが提供されているかを知らなくても、より適切な音声対話エージェントからサービスの提供を受けることができるようになる。

また、この場合には、音声対話エージェントＡは、入力音声を、そのまま音声対話エージェントＢに転送することになるので、音声対話エージェントＢは、その入力音声そのものに対して音声認識処理そのものを行うことができる。このため、ユーザは、より適切なサービスの提供を受けることができるようになる。

＜実施の形態６＞
ここでは、実施の形態１における音声対話システム１００が運用される運用形態の一例について例示する。もちろん、実施の形態１における音声対話システム１００は、ここで例示する以外の運用形態で運用されても構わない。

図３６（Ａ）は、実施の形態１における音声対話システム１００が運用される運用形態を模式的に示す模式図である。

図３６（Ａ）において、グループ３６００は、例えば企業、団体、家庭等であり、その規模を問わない。グループ３６００には、複数の機器３６０１（機器Ａ、機器Ｂ等）及びホームゲートウエイ３６０２が存在する。複数の機器３６０１には、インターネットと接続可能な機器（例えば、スマートフォン、ＰＣ、ＴＶ等）もあれば、それ自身ではインターネットと接続不可能な機器（例えば、照明、洗濯機、冷蔵庫等）も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウエイ３６０２を介してインターネットと接続可能となる機器が存在してもよい。またグループ３６００には複数の機器３６０１を使用するユーザ１０が存在する。例えば、グループ３６００に示す機器のそれぞれが、実施の形態１における機器１４０に該当する。

データセンタ運営会社３６１０には、クラウドサーバ３６１１が存在する。クラウドサーバ３６１１とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社３６１０は、データ管理やクラウドサーバ３６１１の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社３６１０が行っている役務については詳細を後述する。ここで、データセンタ運営会社３６１０は、データ管理やクラウドサーバ３６１１の運営等のみを行っている会社に限らない。例えば複数の機器３６０１のうちの１つの機器を開発・製造している機器メーカが、併せてデータ管理やクラウドサーバ３６１１の管理等を行っている場合は、機器メーカがデータセンタ運営会社３６１０に該当する（図３６（Ｂ）参照）。また、データセンタ運営会社３６１０は１つの会社に限らない。例えば機器メーカ及び他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ３６１１の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社３６１０に該当するものとする（図３６（Ｃ）参照）。例えば、データセンタ運営会社３６１０で、機器１４０に紐付けされた音声対話エージェント４００（「第１の音声対話エージェント」とも言う。）が提供される。

サービスプロバイダ３６２０は、サーバ３６２１を保有している。ここで言うサーバ３６２１とは、その規模は問わず例えば、個人用ＰＣ内のメモリ等も含む。また、サービスプロバイダがサーバ３６２１を保有していない場合もある。例えば、サービスプロバイダ３６２０で、第１の音声対話エージェントから接続される他の音声対話エージェント４００（第２の音声対話エージェントとも言う。）が提供される。

次に、上記運用形態における情報の流れを説明する。

まず、グループ３６００の機器Ａ又は機器Ｂは、各ログ情報をデータセンタ３６１０のクラウドサーバ３６１１に送信する。クラウドサーバ３６１１は機器Ａ又は機器Ｂのログ情報を集積する（図３６（ａ））。ここで、ログ情報とは複数の機器３６０１の、例えば運転状況や動作日時等を示す情報である。例えば、テレビの視聴履歴やレコーダの録画予約情報、洗濯機の運転日時・洗濯物の量、冷蔵庫の開閉日時・開閉回数などであるが、これらのものに限らずあらゆる機器から取得が可能な全ての情報を言う。ログ情報は、インターネットを介して複数の機器３６０１自体から直接クラウドサーバ３６１１に提供される場合もある。また複数の機器３６０１から一旦ホームゲートウエイ３６０２にログ情報が集積され、ホームゲートウエイ３６０２からクラウドサーバ３６１１に提供されてもよい。

次に、データセンタ運営会社３６１０のクラウドサーバ３６１１は、集積したログ情報を一定の単位でサービスプロバイダ３６２０に提供する。ここで、データセンタ運営会社３６１０が集積した情報を整理してサービスプロバイダ３６２０に提供することのできる単位でもいいし、サービスプロバイダ３６２０が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ３６２０が保有するサーバ３６２１に保存される（図３６（ｂ））。そして、サービスプロバイダ３６２０は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。提供するユーザは、複数の機器３６０１を使用するユーザ１０でもよいし、外部のユーザ２０でもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダ３６２０から直接ユーザへ提供されてもよい（図３６（ｅ））。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社３６１０のクラウドサーバ３６１１を再度経由して、ユーザに提供されてもよい（図３６（ｃ）、（ｄ））。また、データセンタ運営会社３６１０のクラウドサーバ３６１１がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ３６２０に提供してもよい。

なお、ユーザ１０とユーザ２０とは、別でも同一でもよい。

以下に、上記運用形態において提供され得るサービスの類型について、いくつか例示する。

＜サービスの類型１：自社データセンタ型＞
図３７は、サービスの類型１（自社データセンタ型）を模式的に示す模式図である。

本類型は、サービスプロバイダ３６２０がグループ３６００から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ３６２０が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ３６２０が、ビッグデータの管理をするクラウドサーバ３６１１を保有している。従って、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ３６２０は、データセンタ（クラウドサーバ３６１１）を運営、管理している（３７０３）。また、サービスプロバイダ３６２０は、ＯＳ（３７０２）及びアプリケーション（３７０１）を管理する。サービスプロバイダ３６２０は、管理するＯＳ（３７０２）及びアプリケーション（３７０１）を用いてサービス提供を行う（３７０４）。

＜サービスの類型２：ＩａａＳ利用型＞
図３８は、サービスの類型２（ＩａａＳ利用型）を模式的に示す模式図である。ここでＩａａＳとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社３６１０がデータセンタ（クラウドサーバ３６１１）を運営、管理している（３７０３）。また、サービスプロバイダ３６２０は、ＯＳ（３７０２）及びアプリケーション（３７０１）を管理する。サービスプロバイダ３６２０は、管理するＯＳ（３７０２）及びアプリケーション（３７０１）を用いてサービス提供を行う（３７０４）。

＜サービスの類型３：ＰａａＳ利用型＞
図３９は、サービスの類型３（ＰａａＳ利用型）を模式的に示す模式図である。ここでＰａａＳとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウエアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社３６１０は、ＯＳ（３７０２）を管理し、データセンタ（クラウドサーバ３６１１）を運営、管理している（３７０３）。また、サービスプロバイダ３６２０は、アプリケーション（３７０１）を管理する。サービスプロバイダ３６２０は、データセンタ運営会社３６１０が管理するＯＳ（３７０２）及びサービスプロバイダ３６２０が管理するアプリケーション（３７０１）を用いてサービス提供を行う（３７０４）。

＜サービスの類型４：ＳａａＳ利用型＞
図４０は、サービスの類型４（ＳａａＳ利用型）を模式的に示す模式図である。ここでＳａａＳとはソフトウエア・アズ・ア・サービスの略である。例えばデータセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社・個人（利用者）がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社３６１０は、アプリケーション（３７０１）を管理し、ＯＳ（３７０２）を管理し、データセンタ（クラウドサーバ３６１１）を運営、管理している（３７０３）。また、サービスプロバイダ３６２０は、データセンタ運営会社３６１０が管理するＯＳ（３７０２）及びアプリケーション（３７０１）を用いてサービス提供を行う（３７０４）。

以上いずれの類型においても、サービスプロバイダ３６２０がサービス提供行為を行ったものとする。また例えば、サービスプロバイダ３６２０もしくはデータセンタ運営会社３６１０は、ＯＳ、アプリケーションもしくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
＜補足＞
以上、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態１〜実施の形態５において、５つの音声対話システムを例示して、また、実施の形態６において、音声対話システムの運用形態を例示して説明したが、以下のように変形することも可能であり、実施の形態１〜実施の形態６において例示した音声対話システム又はその運用形態で用いられた通りの、音声対話方法、及び機器に限られないことはもちろんである。

（１）実施の形態１において、音声対話システム１００は、図１に示されるように、音声対話エージェントサーバ１１０と、ネットワーク１２０と、ゲートウエイ１３０と、機器１４０とから構成されるとして説明した。これに対して、別の一例として、音声対話システムは、音声対話エージェントサーバ１１０と、ネットワーク１２０と、ゲートウエイ１３０と、機器１４０とに加えて、対象エージェントＤＢ２３００を記憶し、音声対話エージェント間の対応付け、接続切り替え等を行う機能を有する仲介サーバ４１５０とから構成されるとしてもよい。

図４１は、仲介サーバ４１５０を含んで構成される音声対話システム４１００の構成を示すシステム構成図である。

図４２は、仲介サーバ４１５０の機能構成を示すブロック図である。

同図に示されるように、仲介サーバ４１５０は、通信部４２２０と、制御部４２１０と、対象エージェントＤＢ記憶部４２３０とから構成される。

ここで、対象エージェントＤＢ記憶部４２３０は、実施の形態４における対象エージェントＤＢ記憶部２２２０と同様に、対象エージェントＤＢ２３００を記憶する機能を有する。

また、別の一例として、音声対話システムは、仲介サーバ４１５０に代えて、利用可能サービスＤＢ３１００を記憶し、音声対話エージェント間の対応付け、接続切り替え等を行う機能を有する仲介サーバ４３５０を含んで構成されるとしてもよい。

図４３は、仲介サーバ４３５０の機能構成を示すブロック図である。

同図に示されるように、仲介サーバ４３５０は、通信部４３２０と、制御部４３１０と、利用可能サービスＤＢ記憶部４３３０とから構成される。

ここで、利用可能サービスＤＢ記憶部４３３０は、実施の形態５における利用可能サービスＤＢ３０２０と同様に、利用可能サービスＤＢ３１００を記憶する機能を有する。

（２）実施の形態１において、機器１４０の表示部２７０に表示される画像として、図１２に示される画像を例示して説明した。

これに対して、他の画像例として、図４４（ａ）〜図４４（ｄ）、図４５（ａ）、図４５（ｂ）等が考えられる。

図１２、図４４（ａ）〜図４４（ｄ）、図４５（ｂ）の例では、表示される各応答テキストの行頭に、「あなた」、「車エージェント」、「家エージェント」等といった、発話の主体が特定される文字列が表示されている。また、図４５（ａ）では、発話の主体が特定されるアイコン（画像）が表示されている。

図４４（ａ）、図４４（ｂ）の例では、現在対話している音声対話エージェントがわかるように、画面の上部に「家エージェントと対話中」、「車エージェントと対話中」といった対話している音声対話エージェントが特定される文字列が表示されている。

図４４（ｄ）の例では、現在又は過去に対話している（していた）音声対話エージェントがわかるように、該当する応答テキストの上部に、「家エージェントと対話中」、「車エージェントと対話中」といった対話している（していた）音声対話エージェントを特定する文字列が表示されている。また、図４５（ｂ）では、対話している（していた）音声対話エージェントが特定されるアイコン（画像）が表示されている。

また、これらの表示例は、あくまで一例であって、色によってどの音声対話エージェントと対話しているかを示してもよいし、画面の形や、画面を構成する一部の形でどの音声対話エージェントと対話しているかを示してもよい。さらには、発話する主体毎に背景の色や壁紙等を変更してもよい。このように、対話している音声対話エージェント、又は、発話する主体が、ユーザによって識別可能に表示されていればよい。

（３）実施の形態１、及び上記変形例において、対話している音声対話エージェント、又は、発話する主体が、視覚によって識別可能に表示される例について説明した。しかしながら、ユーザによって識別することができれば、必ずしも、対話している音声対話エージェント、又は、発話する主体が、視覚によって識別可能に表示される例に限られない。

例えば、音声によって、対話している音声対話エージェントがわかるように、「家エージェントと対話中です。」と音声出力してもよいし、効果音にて、どの音声対話エージェントと対話しているかがわかるようにしてもよいし、声色、話速、音量等によって、どの音声対話エージェントと対話しているかがわかるようにしてもよい。

（４）実施の形態１において、制御部２１０によってなされるステートの管理は、図３の状態遷移図で示される態様で管理されるとして説明した。また、実施の形態２において、制御部１３１０によってなされるステートの管理は、図１４の状態遷移図で示される態様で管理されるとして説明した。そして、実施の形態３において、制御部１７１０によってなされるステートの管理は、図１８の状態遷移図で示される態様で管理されるとして説明した。

これらに対して、制御部によってなされるステートの管理は、上記態様による管理に限られず、他の態様によるステートの管理も考えられる。図４６〜図５０に、制御部によってなされる他の態様によるステートの管理例を示す状態遷移図を示す。

例えば、図４８の状態遷移図で示される態様でステートが管理される場合には、ステートが音声入力受付可能状態に遷移してから所定時間が経過していなくても、音声出力部２６０が、音声対話エージェント１１０から送信された応答テキストに基づく音声を出力した場合において、その音声が、対話終了音声であるときには、ステートが、音声入力受付不可能状態に遷移される。このため、音声入力部２２０は、通信部２５０によって受信された、音声対話エージェント１１０によって生成された音声信号が、新たな音声入力を必要としない旨を示すものであるときには、音声入力受付可能状態に遷移してから所定時間が経過していなくても、音声入力受付不可能状態となる。

（５）実施の形態１において、表示部２７０は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、音声入力受付可能状態である旨の表示を、表示部２７０の右下の領域１１２０（図１１（ａ）、図１１（ｃ）、図１２等参照）を点滅させることで行う構成であるとして説明した。しかしながら、音声入力受付可能状態であることをユーザに認知させることができれば、必ずしも、上記構成の例に限られない。他の例として、表示部２７０は、ＬＥＤ（Light Emitting Diode）と、プログラムを実行するプロセッサとによって実現され、音声入力受付可能状態である旨の表示を、このＬＥＤを点灯させることで行う構成の例が考えられる。但し、この構成の例では、表示部２７０は、文字列を表示する手段を有さないため、通信部２５０によって受信された応答テキストの表示を行わない。

（６）実施の形態１において、通信部２５０は、通信先の音声対話エージェントサーバ１１０として、特定の１つを指定されないときには、アドレス記憶部２４０に記憶されるＩＰアドレスを参照して、特定音声対話エージェントサーバと通信する構成であると説明した。これに対して、他の一例として、アドレス記憶部２４０が、特定音声対話エージェントサーバのＩＰアドレスを記憶しておらず、ユーザによって指定される音声対話エージェントサーバ、又はユーザによって指定される音声対話エージェントを実現する音声対話エージェントサーバと通信する構成の例が考えられる。

（７）実施の形態１において、機器１４０のそれぞれは、ゲートウエイ１３０とネットワーク１２０とを介して、音声対話エージェント１１０と通信するとして説明した。

これに対して、機器１４０の中に、ゲートウエイ１３０を介さずに直接ネットワーク１２０に接続する機能を有し、ゲートウエイ１３０を介さずに、音声対話エージェントと通信するものが存在する構成であっても構わない。全ての機器１４０がゲートウエイを介さずに直接ネットワーク１２０に接続する場合には、ゲートウエイ１３０は不要となる。

（８）上記実施の形態及び上記変形例を構成する各要素の一部又は全部は、１つのシステムＬＳＩから構成されているとしてもよい。システムＬＳＩは、複数の構成部を１つのチップに集積して製造された超多機能ＬＳＩである。具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等を含んで構成されるコンピュータシステムである。ＲＯＭ、ＲＡＭ等にコンピュータプログラムが記憶され、マイクロプロセッサが、これらコンピュータプログラムに従って動作することによって、システムＬＳＩは、その機能を実現する。

（９）上記実施の形態及び上記変形例を構成する各要素の一部又は全部は、装置に着脱可能なＩＣ（Integrated Circuit）カード又はモジュールを含んで構成されるとしてもよい。これらＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等を含んで構成されるコンピュータシステムである。これらＩＣカード又はモジュールは、前述の超多機能ＬＳＩを含むとしてもよい。ＲＯＭ、ＲＡＭ等にコンピュータプログラムが記憶され、マイクロプロセッサが、これらコンピュータプログラムに従って動作することによって、これらＩＣカード又はモジュールは、その機能を実現する。これらＩＣカード又はモジュールは、耐タンパ性を有するとしてもよい。

（１０）上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＤ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ、半導体メモリ等に記録してもよい。

また、上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。

上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、コンピュータ読み取り可能な記録媒体に記録して移送することによって、又は、ネットワーク等を経由して伝送することで、他のコンピュータシステムでも実施させることができるようになる。

（１２）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

（１３）以下、さらに、本発明の一態様に係る音声対話方法、及び機器について、それらの構成及びそれらの変形例と各効果について説明する。

（ａ）本発明の一実施形態に係る音声対話方法は、音声信号生成部と、音声対話エージェント部と、音声出力部と、音声入力制御部とを備える音声対話システムによって行われる音声対話方法であって、前記音声信号生成部が、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成し、前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、前記音声出力部が、前記音声対話エージェント部によって生成された応答信号に基づく音声を出力し、前記音声出力部によって前記音声が出力される場合に、前記音声入力制御部が、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とすることを特徴とする。

上述の、本発明の一実施形態に係る音声対話方法によると、音声対話エージェント部によって生成された音声が出力されたときには、ユーザは、音声対話システムに対して操作を行わなくても、音声入力を行うことが可能となる。このことによって、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数が、従来よりも低減されることとなる。

（ｂ）また、前記音声対話システムは、表示部を備え、前記音声信号生成部が前記受付可能状態である場合に、前記表示部が、前記音声信号生成部が前記受付可能状態である旨を示す表示を行うとしてもよい。

このようにすることで、ユーザは、音声信号生成部が受付可能状態であるか否かを、目視によって認識することができるようになる。

（ｃ）また、前記音声対話システムは、追加音声対話エージェント部を備え、前記音声対話エージェント部が、前記音声認識処理の結果に基づいて、音声認識処理の結果に基づく処理を、前記音声対話エージェント部と前記追加音声対話エージェント部とのいずれで行うかを決定し、前記音声対話エージェント部は、前記決定において、前記音声対話エージェント部で行うと決定された場合に限って、前記音声認識処理の結果に基づく処理を行い、前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、前記追加音声対話エージェント部が、前記音声信号生成部によって受け付けられた音声に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、前記音声出力部が、前記追加音声対話エージェント部によって生成された応答信号に基づく音声を出力するとしてもよい。

このようにすることで、音声対話エージェント部が処理するよりも、追加音声対話エージェント部が処理する方が適切な処理を、追加音声対話エージェント部に処理させることができるようになる。

（ｄ）また、前記表示部は、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である旨を示すように前記表示を行い、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である旨を示すように前記表示を行うとしてもよい。

このようにすることで、ユーザは、処理を行うエージェント部が、音声対話エージェント部と追加音声対話エージェント部とのいずれであるかを、目視によって認識することができるようになる。

（ｅ）また、前記音声対話エージェント部は、前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号を前記追加音声対話エージェント部へ転送し、前記追加音声対話エージェント部が、前記音声対話エージェント部から転送された音声信号に対して前記音声認識処理を行うとしてもよい。

このようにすることで、追加音声対話エージェント部は、音声対話エージェント部から転送された音声信号を利用して、音声認識処理を行うことができるようになる。

（ｆ）また、前記音声信号生成部が前記受付可能状態である場合において、前記音声対話エージェント部によって生成された応答信号が、新たな音声入力の受け付けは必要ない旨を示すものであるときには、前記所定期間であっても、前記音声入力制御部が、前記音声信号生成部を、前記音声入力の受け付けが不可能な受付不可能状態とするとしてもよい。

このようにすることで、例え所定期間であっても、音声入力の受け付けが不要ならば、音声信号生成部を、受付不可能状態とすることができるようになる。

（ｇ）本発明の一実施形態に係る機器は、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成する音声信号生成部と、前記音声信号生成部によって生成された音声信号を、外部のサーバに送信する送信部と、前記送信部によって送信された音声信号を受信した前記サーバによって、当該音声信号に基づいて生成されて返信された応答信号を受信する受信部と、前記受信部によって受信された応答信号に基づく音声を出力する音声出力部と、前記音声出力部によって前記音声が出力される場合に、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とする音声入力制御部とを備えることを特徴とする。

上述の、本発明の一実施形態に係る機器によると、サーバによって生成された音声が出力されたときには、ユーザは、機器に対して操作を行わなくても、音声入力を行うことが可能となる。このことによって、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数が、従来よりも低減されることとなる。

本発明に係る音声対話方法、及び機器は、ユーザから対話形式で入力された音声に基づいて処理を行う音声対話システムに広く利用することができる。

１００音声対話システム
１１０音声対話エージェントサーバ
１２０ネットワーク
１３０ゲートウエイ
１４０機器
２１０制御部
２２０音声入力部
２３０操作受付部
２４０アドレス記憶部
２５０通信部
２６０音声出力部
２７０表示部
２８０実行部
４００音声対話エージェント
４１０制御部
４２０通信部
４３０音声認識処理部
４４０対話ＤＢ記憶部
４５０音声合成処理部
４６０命令生成部

Claims

音声対話エージェントサーバによって行われる音声対話方法であって、
前記音声対話エージェントサーバは、前記音声対話エージェントサーバおよび他の音声対話エージェントサーバと１以上のキーワードとを対応付けるエージェント情報を記憶するメモリを備え、
前記音声対話方法は、
少なくとも１つのキーワードを含む入力音声信号を受け付け、
前記入力音声信号に対して音声認識処理を行い、
前記音声認識処理の結果と前記メモリに記憶されるエージェント情報とに基づいて、当該入力音声信号に基づく処理を、前記音声対話エージェントサーバと前記他の音声対話エージェントサーバとのいずれで行うかを決定し、
前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記音声認識処理の結果に基づく処理を行い、当該処理に係る応答音声信号を生成して出力し、
前記決定において、前記他の音声対話エージェントサーバで行うと決定された場合、受信した前記入力音声信号を前記他の音声対話エージェントサーバへ転送し、
前記入力音声信号は機器から送信され、
前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記入力音声信号をそのまま前記他の音声対話エージェントサーバへ転送した後、前記他の音声対話エージェントサーバから前記機器との通信終了の信号を受信するまで前記音声入力信号を受け付けない、
音声対話方法。
前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記音声認識処理の結果に基づく処理に係る応答テキスト信号をさらに出力する、
請求項１記載の音声対話方法。
前記他の音声対話エージェントサーバは複数であり、
前記エージェント情報は、前記他の音声対話エージェントサーバを識別する識別子と、前記キーワードとを対応付ける情報であり、
前記音声認識処理の結果に前記キーワードのいずれかが含まれる場合に、前記エージェント情報において当該キーワードに対応付けられた識別子によって識別される他の音声対話エージェントサーバを、前記入力音声信号に基づく処理を行う他の音声対話エージェントサーバとして決定するように、前記決定を行う
請求項１記載の音声対話方法。
前記識別子は、前記他の音声対話エージェントサーバのＩＰアドレスである、
請求項３記載の音声対話方法。
音声対話エージェントサーバであって、
前記音声対話エージェントサーバおよび他の音声対話エージェントサーバと１以上のキーワードとを対応付けるエージェント情報を記憶するメモリと、
ネットワークと接続する通信部と、
プロセッサとを備え、
前記通信部は、少なくとも１つのキーワードを含む入力音声信号を受け付け、
前記プロセッサは、
前記入力音声信号に対して音声認識処理を行い、
前記音声認識処理の結果と前記メモリに記憶されるエージェント情報とに基づいて、当該入力音声信号に基づく処理を、前記音声対話エージェントサーバと前記他の音声対話エージェントサーバとのいずれで行うかを決定し、
前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記音声認識処理の結果に基づく処理を行い、当該処理に係る応答音声信号を生成し、前記応答音声信号を前記通信部から出力させ、
前記決定において、前記他の音声対話エージェントサーバで行うと決定された場合、受信した前記入力音声信号を、前記通信部から前記他の音声対話エージェントサーバへ転送させ、
前記入力音声信号は機器から送信され、
前記決定において、前記音声対話エージェントサーバで行うと決定された場合、前記入力音声信号をそのまま前記他の音声対話エージェントサーバへ転送した後、前記他の音声対話エージェントサーバから前記機器との通信終了の信号を受信するまで前記音声入力信号を受け付けない、
音声対話エージェントサーバ。