JP2019101264A

JP2019101264A - 外部制御装置、音声対話型制御システム、制御方法、およびプログラム

Info

Publication number: JP2019101264A
Application number: JP2017232696A
Authority: JP
Inventors: 昭浩神崎; Akihiro Kanzaki
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2019-06-24
Also published as: EP3493049A1; TW201926314A; CN110058833A; TWI752286B; EP3493049B1; KR20190065967A; US20190172459A1

Abstract

【課題】ユーザにとって分かりやすい形式で情報を提供する外部制御装置を実現する。【解決手段】外部制御装置（１００）は、音声入出力装置（２００）が受け付けた音声入力情報に関連する関連情報を取得し、取得した関連情報の内容に基づいて、ユーザへ提供する応答情報に画像を含めるか否かを判定して、当該画像を表示装置（４００）に表示するための制御を行う。【選択図】図１

Description

本発明は音声入力情報に対応する応答情報を音声または画像にて提供する外部制御装置などに関する。

情報を、音声や画像といった複数の手段を用いてユーザへ提供することが可能な装置が従来技術として知られている。例えば特許文献１には、ユーザの音声に対応する応答メッセージを、音声またはテキスト形態で出力する端末装置が開示されている。

特開２０１４−００２３８３号公報（２０１４年１月９日公開）

しかしながら、特許文献１に記載の端末装置は、情報を音声またはテキスト形態でユーザへ提供することが可能な構成であるが、情報の内容に基づいて当該情報をユーザにとって分かりやすい形式で提供することができないという問題がある。

本発明の一態様は、前記の問題を解決することを目的とし、ユーザにとって分かりやすい形式で情報を提供する外部制御装置を提供する。

前記の課題を解決するために、本発明の一態様に係る外部制御装置は、音声入出力装置が受け付けたユーザの音声入力情報を受信し、前記音声入力情報を解析して、当該音声入力情報に関連した関連情報を取得し、取得した前記関連情報の内容に基づいて、前記ユーザへ提供する応答情報に画像を含めるか否かを判定し、前記ユーザへ提供する前記応答情報に前記画像を含めると判定した場合、当該画像を表示装置に表示するための制御を行う構成である。

本発明の一態様に係る制御方法は、音声入出力装置が受け付けたユーザの音声入力情報を受信し、前記音声入力情報を解析して、当該音声入力情報に関連する関連情報を取得し、取得した前記関連情報の内容に基づいて、前記ユーザへ提供する前記応答情報に画像を含めるか否かを判定し、前記ユーザへ提供する前記応答情報に前記画像を含めると判定した場合、前記画像を表示装置に表示するための制御を行う方法である。

本発明の一態様によれば、ユーザにとって分かりやすい形式で情報を提供することができる。

本発明の実施形態１に係る音声対話型制御システムの概要を示す模式図である。本発明の実施形態１に係る音声対話型制御システムの要部構成の一例を示すブロック図である。本発明の実施形態１に係る音声対話型制御システムにおける一連の処理を示すシーケンス図である。本発明の実施形態１に係る音声入出力装置が実行する処理の一例を示すフローチャートである。本発明の実施形態２に係る音声対話型制御システムの概要を示す模式図である。本発明の実施形態２に係る音声対話型制御システムにおける一連の処理を示すシーケンス図である。本発明の実施形態３に係る音声対話型制御システムの概要を示す模式図である。本発明の実施形態３に係る音声対話型制御システムにおける一連の処理を示すシーケンス図である。本発明の実施形態３に係る音声入出力装置が実行する処理の一例を示すフローチャートである。

〔実施形態１〕
以下、本発明の一実施形態について、図１〜図４を用いて詳細に説明する。

（音声対話型制御システムの構成）
本実施形態に係る音声対話型制御システム１の構成について、図１および図２を用いて説明する。図１は、音声対話型制御システム１の概要を示す模式図である。

図１に示すように、音声対話型制御システム１は、外部制御装置１００、音声入出力装置２００、ルータ３００、および表示装置４００を備えている。音声対話型制御システム１を構成する各種装置はすべて同じ室内または同じ建物内に配置されている。以下、各種装置がユーザの自宅内に配置されている例を用いて説明する。

図１に例示しているように、音声対話型制御システム１は、音声入出力装置２００が受け付けたユーザの音声入力情報に対応する応答情報を音声入出力装置２００から音声で出力する。また、音声対話型制御システム１は、応答情報が画像による提供に適した内容である場合、表示装置４００にグラフ、一覧表、地図（絵図）または動画などの画像を表示する。

外部制御装置１００は、ルータ３００を介して音声入出力装置２００および表示装置４００と通信可能なサーバである。外部制御装置１００は、例えば自宅に設置された太陽光発電装置による発電量や、自宅内に設置された家電機器による電力消費量などを管理するＨＥＭＳ（ＨｏｍｅＥｎｅｒｇｙＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）サーバであってもよい。外部制御装置１００は、音声入出力装置２００が受け付けたユーザの音声入力情報を受信し、当該音声入力情報を解析する。外部制御装置１００は、解析した内容に基づいて、音声入力情報に関連した関連情報を取得する。また、外部制御装置１００は、取得した関連情報の内容に基づいて、ユーザへ提供する応答情報に画像を含めるか否かを判定する。例えば、取得した関連情報に、グラフ、一覧表、地図（絵図）または動画などの画像情報が含まれている場合、このような情報は、音声で提供するよりも、画像で提供するほうがユーザは内容を把握しやすい。そのため、外部制御装置１００は、関連情報に画像で表示することに適した情報が含まれる場合、ユーザへ提供する応答情報に画像を含めると判定する。応答情報に画像を含めると判定した場合、外部制御装置１００は、例えば、ユーザへ提供する応答情報の一部を音声入出力装置２００から音声で出力させるとともに、表示装置４００に画像を表示するための制御を行う。なお、ユーザへ提供する画像は、取得した関連情報に含まれているものであってもよく、また、取得した関連情報から外部制御装置１００が生成したものであってもよい。

なお、外部制御装置１００は、画像を表示装置４００に表示させる前に、画像を表示装置４００に表示するか否かを前記ユーザへ問い合わせる提案メッセージ（メッセージ）を音声入出力装置２００から出力させてもよい。この場合、外部制御装置１００は、提案メッセージに対して、画像を表示装置４００に表示することを許可する旨のユーザからの音声入力情報を音声入出力装置２００から受信した後、画像を表示装置４００に表示させる。また、外部制御装置１００は、応答情報の少なくとも一部を音声入出力装置２００から音声情報として出力して、ユーザへ提供してもよい。

（外部制御装置１００の構成）
外部制御装置１００の構成について、図２を用いて説明する。図２は、音声対話型制御システム１の要部構成の一例を示すブロック図である。

以下の説明において、外部制御装置１００が、自宅内に設置された家電機器による電力消費量などを管理するＨＥＭＳサーバである場合を例にして説明する。

外部制御装置１００は、通信部１０、記憶部２０、および制御部３０を備えており、制御部３０は、音声解析部３１、意味解析部３２、情報取得部３３、画像表示判定部３４、および発話データ生成部３５を備えている。

通信部１０は、ルータ３００を介して音声入出力装置２００および表示装置４００との間で各種データの送受信を行う。記憶部２０には、自宅における発電量および電力消費量などに関する各種情報が格納されている。記憶部２０に格納される情報には、例えば、発電量および電力消費量の推移を示すグラフなどの画像が含まれていてもよい。

制御部３０は、外部制御装置１００の各部を統括して制御する。音声解析部３１は、音声入出力装置２００から受信した音声入力情報（＝ユーザの発話を含む音声データ）に対して音声解析を行い、テキストデータを生成する。意味解析部３２は、音声解析部３１にて生成されたテキストデータに対して適当な文節で区切るなどして意味解析を行い、解析結果を情報取得部３３へ送信する。なお、音声解析部３１および意味解析部３２における音声解析および意味解析は、従来の音声認識技術で用いられてきた手法で実施されてもよい。

情報取得部３３は、音声解析部３１および意味解析部３２が解析した内容に基づいて、外部制御装置１００が音声入出力装置２００から受け付けた音声入力情報に関連した関連情報を、記憶部２０から取得する。情報取得部３３は記憶部２０から取得した関連情報を画像表示判定部３４へ出力する。

画像表示判定部３４は、情報取得部３３から出力された関連情報の内容に基づいて、ユーザへ提供する応答情報に画像を含めるか否かを判定する。すなわち、画像表示判定部３４は、情報取得部３３から取得した関連情報の内容に基づいて、応答情報を音声のみでユーザへ提供するか、または音声と共に画像でユーザへ提供するかを判定する。例えば、情報取得部３３から取得した関連情報にグラフ、一覧表、地図（絵図）または動画などの画像による提供に適した情報が含まれている場合、画像表示判定部３４は応答情報に画像を含めると判定する。この場合、画像表示判定部３４は、記憶部２０に格納された画像情報のＵＲＬを含む応答情報を発話データ生成部３５へ出力する。一方、情報取得部３３から取得した関連情報に画像による提供に適した情報が含まれていない場合、画像表示判定部３４は応答情報に画像を含めないと判定する。この場合、画像表示判定部３４は、応答情報として音声情報のみを発話データ生成部３５へ出力する。

発話データ生成部３５は、画像表示判定部３４から出力された応答情報に含まれる音声情報に基づいて、音声データ（＝発話データ）を生成する。発話データ生成部３５が発話データを生成する方法は、従来の対話型ロボットにおいて応答メッセージを生成するために用いられてきた手法であってもよい。発話データ生成部３５は、生成した応答メッセージを、通信部１０を介して音声入出力装置２００へ送信する。

音声入出力装置２００は、音声対話型制御システム１のユーザとの間で音声の入出力を行うための装置である。音声入出力装置２００は、ルータ３００などを介して外部制御装置１００および表示装置４００と通信可能である。なお、音声入出力装置２００と表示装置４００との間の通信は、ルータ３００を介した通信であってもよいし、ルータ３００を介さない、例えば赤外線通信などの直接的な通信であってもよい。音声入出力装置２００は、ユーザから受け付けた音声を音声入力情報として外部制御装置１００へ送信する。また、音声入出力装置２００は、外部制御装置１００から受信した発話データを音声入力情報に対応する応答情報として音声にて提供する。さらに、音声入出力装置２００は、外部制御装置１００から受信した各種指示に基づいて表示装置４００を操作可能である。例えば、音声入出力装置２００は、外部制御装置１００から指示に基づいて、表示装置４００に対して電源オンの操作を行うことができる。また、音声入出力装置２００は、外部制御装置１００から指示に基づいて、記憶部２０に格納された画像情報のＵＲＬを表示装置４００へ送信する。

ルータ３００は、通信経路を中継する中継装置であり、一般的な通信で用いられるルータである。

表示装置４００は、外部制御装置１００および音声入出力装置２００と通信可能であり、応答情報を画像にて表示可能なディスプレイである。表示装置４００は、音声入出力装置２００からの指示にしたがって、電源をオンにする。また、表示装置４００は、音声入出力装置２００から画像情報のＵＲＬを取得した場合、外部制御装置１００へアクセスして、外部制御装置１００から画像情報を取得して、グラフなどの画像を表示する。表示装置４００は、例えば外部と通信可能なテレビであってもよい。

（音声対話型制御システムにおける一連の処理）
図１に例示した、音声対話型制御システム１における一連の処理について、図３を用いて説明する。

まず、音声対話型制御システム１のユーザが「今日の発電量はどのくらい？」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ１：音声入力（発電量問合せ））。そして、音声入出力装置２００は、Ｓ１で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ２：音声送信（発電量問合せ））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。さらに、情報取得部３３は、解析結果に基づいて音声入力情報に関連する関連情報として当日の発電量を記憶部２０より取得する。そして、外部制御装置１００は情報取得部３３が取得した、当日の発電量から発話データ生成部３５によって発話データ「約２２．１ｋＷです。今月で一番多いですね。」を生成し、音声入出力装置２００へ送信する（Ｓ３：発話データ送信（発電量））。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ４：音声出力（発電量））。

Ｓ４の後、外部制御装置１００の画像表示判定部３４は、Ｓ３にて情報取得部３３が記憶部２０から取得した当日の発電量に関連する関連情報の内容に基づいて、応答情報に画像を含めるか否かを判定する。また、画像を含めると判定した場合、外部制御装置１００は当日の発電量を示すグラフを画像として表示装置４００に表示することを提案する提案メッセージを、発話データ生成部３５を用いて生成し、音声入出力装置２００へ送信する（Ｓ５：発話データ送信（グラフ表示提案））。提案メッセージは、「発電グラフを見てみますか？」という発話データである。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ６：音声出力（グラフ表示提案））。

Ｓ６の後、ユーザが画像を表示装置４００に表示することを許可する了承メッセージとして「ええ、お願い。」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ７：音声入力（グラフ表示指示））。そして、音声入出力装置２００は、Ｓ７で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ８：音声送信（グラフ表示指示））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。解析結果から音声入力情報が了承メッセージを含むものであるものであるとわかると、発話データ生成部３５は、表示装置４００の電源をオンするための発話データ「テレビをつけます」を生成する。外部制御装置１００は、生成された発話データを音声入出力装置２００へ送信する（Ｓ９：発話データ送信（表示装置電源オン））。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ１０：音声出力（表示装置電源オン））。

Ｓ９の後、外部制御装置１００の制御部３０は、表示装置４００に当日の発電量を示すグラフの画像を表示するための指示を、当該グラフのＵＲＬとともに音声入出力装置２００へ送信する（Ｓ１１：グラフ画面表示指示（ＵＲＬ））。音声入出力装置２００は、グラフの画像を表示するための指示および当該グラフのＵＲＬを受信すると、表示装置４００を操作して電源をオンにする（Ｓ１２：表示装置電源オン）。さらに、音声入出力装置２００はグラフの表示指示および当該グラフのＵＲＬを表示装置４００へ送信する（Ｓ１３：グラフ画面表示指示（ＵＲＬ））。表示装置４００は、グラフの表示指示および当該グラフのＵＲＬを音声入出力装置２００から受信すると、外部制御装置１００に対してＵＲＬで指定されたグラフ画面を要求する（Ｓ１４：グラフ画面要求（ＵＲＬ））。外部制御装置１００は、要求に応じて、ＵＲＬで指定されたグラフ画面を表示装置４００へ送信し、表示させる（Ｓ１５：グラフ画面送信）。

以上の処理によって、音声対話型制御システム１は、音声入出力装置２００が受け付けた音声入力情報に対応する応答情報に画像を含めて提供すると判定し、当該画像を表示装置４００に表示するための制御を外部制御装置１００にて行うことができる。

（音声入出力装置が実行する処理の流れ）
本実施形態において、音声入出力装置２００が実行する処理の流れについて、図４を用いて説明する。

まず、音声入出力装置２００が音声対話型制御システム１のユーザからの音声入力を受け付けると（Ｓ２１でＹＥＳ）、当該音声入力による音声入力情報を外部制御装置１００へ送信する。音声入出力装置２００は、音声入力情報に対応する応答情報として外部制御装置１００で生成された発話データを受信する。そして、音声入出力装置２００は、受信した発話データを応答情報として音声で出力する（Ｓ２２）。

Ｓ２２の後、音声入出力装置２００は、外部制御装置１００において応答情報に画像を含めるか否かを判定した結果（Ｓ２３）に応じた処理を実行する。音声入出力装置２００は、外部制御装置１００において応答情報に画像を含めると判定した場合（Ｓ２３でＹＥＳ）、Ｓ２４の処理を実行する。一方、外部制御装置１００において応答情報に画像を含めないと判定した場合（Ｓ２３でＮＯ）、音声入出力装置２００は一連の処理を終了する。

Ｓ２４において、音声入出力装置２００は、画像を表示装置４００に表示するか否かを前記ユーザへ問い合わせる提案メッセージを外部制御装置１００で生成された発話データとして受信すると、当該提案メッセージを音声で出力する（Ｓ２４）。その後、音声入出力装置２００は、ユーザから画像を表示装置４００に表示することを許可する旨の了承メッセージを受け付ける。そして、外部制御装置１００にて、音声入出力装置２００が了承メッセージを受け付けたか否かを判定する（Ｓ２５）。了承メッセージを受け付けた場合（Ｓ２５でＹＥＳ）、処理はＳ２６へ進む。一方、了承メッセージを受け付けなかった場合（Ｓ２５でＮＯ）、一連の処理を終了する。

Ｓ２６において、音声入出力装置２００は、外部制御装置１００から表示装置４００の電源をオンにする旨の発話データを受信すると、当該発話データを音声で出力する（Ｓ２７）。その後、音声入出力装置２００は外部制御装置１００から、表示装置４００に応答情報の画像を表示させるための指示を受信すると、当該指示に基づいて表示装置４００を操作し、当該表示装置４００に応答情報の画像を表示させる（Ｓ２７）。

以上の処理によって、音声入出力装置２００は外部制御装置１００によって音声入力情報に対応する応答情報を音声にてユーザへ提供し、さらに応答情報が画像で提供可能であるときは、当該画像を表示するように表示装置４００を操作することができる。

このように、音声対話型制御システム１は、ユーザが音声入出力装置２００に対して音声入力を行った内容に対応する応答情報に画像を含めるか否かを外部制御装置１００にて判定することができる。さらに、外部制御装置１００が応答情報を画像にて提供すると判定した場合は当該画像を表示装置４００に表示させることができる。これにより、画像にて提供することが好適な情報は画像で提供し、他の情報は例えば音声入出力装置から音声として提供することができる。したがって、ユーザにとって分かりやすい形式で情報を提供することができる、利便性に優れた外部制御装置を提供することができるという効果を奏する。

〔実施形態２〕
本発明の実施形態２について、図５〜図６を用いて以下に説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

（音声対話型制御システムの構成）
本実施形態に係る音声対話型制御システム１の構成について、図５を用いて説明する。図５は、音声対話型制御システム１の概要を示す模式図である。

図５に示すように、本実施形態に係る音声対話型制御システム１は、基本的な構成は前記実施形態１と同一であるが、一部構成が異なっている。本実施形態において、ユーザが音声入出力装置２００へ入力した音声入力情報に関連した関連情報を、音声入出力装置２００、表示装置４００、および外部制御装置１００が設置されている位置とは異なる位置に設けられた外部サーバ５００が有している。そして、外部制御装置１００は、音声入力情報を解析した内容に基づいて外部サーバ５００から関連情報を取得する構成である。なお、外部制御装置１００が関連情報を取得する先である外部サーバ５００は、外部制御装置１００が必要とする関連情報の種類によって別の外部サーバ５００が選択されてもよい。例えば、外部制御装置１００は、検索対象ごとに別の外部サーバ５００から関連情報を取得してもよい。

外部制御装置１００は、基本的な構成は前記実施形態１と同一であるが、一部構成が異なっている。本実施形態において、外部制御装置１００は、ユーザが音声入出力装置２００へ入力した音声入力情報を解析した内容に基づいて外部サーバ５００から関連情報を取得する。そして、取得した関連情報を音声入出力装置２００および表示装置４００を介してユーザへ提供する構成である。

表示装置４００は、基本的な構成は前記実施形態１と同一であるが、一部構成が異なっている。本実施形態において、表示装置４００は、音声入出力装置２００による操作にしたがって、外部サーバ５００との間で通信を行い、当該外部サーバ５００から受信した画像を表示することができる。

（音声対話型制御システムにおける一連の処理）
図５に例示した、音声対話型制御システム１における一連の処理について、図６を用いて説明する。

まず、音声対話型制御システム１のユーザが「今週末は面白そうなイベントはある？」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ３１：音声入力（検索指示））。そして、音声入出力装置２００は、Ｓ３１で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ３２：音声送信（検索指示））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。さらに、情報取得部３３は、解析結果に基づいて、外部サーバ５００に対して週末に開催されるイベントを検索する（Ｓ３３：検索）。外部制御装置１００は、検索結果を外部サーバ５００からＵＲＬを含む情報として受信すると（Ｓ３４：検索結果応答（ＵＲＬ））、画像表示判定部３４は、検索結果の内容から、応答情報に画像を含めるか否かを判定する。画像を含めると判定した場合、外部制御装置１００は検索結果から発話データ生成部３５によって週末に開催されるイベントの一覧を表示装置４００に表示することを提案する提案メッセージを含んだ発話データ「花火大会があります。ほかにも見てみますか？」を生成し、音声入出力装置２００へ送信する（Ｓ３５：発話データ送信（検索結果））。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ３６：音声出力（検索結果））。

Ｓ３６の後、ユーザが了承メッセージとして「ええ、お願い。」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ３７：音声入力（リスト表示指示））。そして、音声入出力装置２００は、Ｓ３７で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ３８：音声送信（リスト表示指示））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。解析結果から音声入力情報が了承メッセージを含むものであるものであるとわかると、発話データ生成部３５は、表示装置４００の電源をオンするための発話データ「テレビをつけます」を生成する。外部制御装置１００は、生成された発話データを音声入出力装置２００へ送信する（Ｓ３９：発話データ送信（表示装置電源オン））。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ４０：音声出力（表示装置電源オン））。

Ｓ４０の後、外部制御装置１００の制御部３０は、表示装置４００に週末に開催されるイベントの一覧を画像として表示するための指示を、当該一覧のＵＲＬとともに音声入出力装置２００へ送信する（Ｓ４１：表示指示（検索結果画面ＵＲＬ））。音声入出力装置２００は、イベントの一覧を含む検索結果画面を表示するための指示および当該一覧のＵＲＬを受信すると、表示装置４００を操作して電源をオンにする（Ｓ４２：表示装置電源オン）。さらに、音声入出力装置２００は一覧の表示指示および当該一覧のＵＲＬを表示装置４００へ送信する（Ｓ４３：表示指示（検索結果画面ＵＲＬ））。表示装置４００は、一覧の表示指示および当該一覧のＵＲＬを音声入出力装置２００から受信すると、外部サーバ５００に対してＵＲＬで指定された検索結果画面を要求する（Ｓ４４：画面要求（検索結果画面））。外部サーバ５００は、要求に応じて、ＵＲＬで指定された検索結果画面を表示装置４００へ送信し、表示させる（Ｓ４５：画面出力（検索結果画面））。

以上の処理によって、音声対話型制御システム１は、音声入出力装置２００が受け付けた音声入力情報に関連した関連情報を外部サーバ５００から取得する。さらに応答情報を画像にて提供すると判定した場合、当該画像を表示装置４００が外部サーバ５００から取得して表示させる制御を外部制御装置１００にて行うことができる。

（音声入出力装置が実行する処理の流れ）
本実施形態において、音声入出力装置２００が実行する処理の流れは、実施形態１で示した図４と同一である。音声入出力装置２００は外部サーバ５００と通信することがないため、当該音声入出力装置２００が実行する処理に変更がないためである。

〔実施形態３〕
本発明の実施形態３について、図７〜図９を用いて以下に説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

（音声対話型制御システムの構成）
本実施形態に係る音声対話型制御システム１の構成について、図７を用いて説明する。図７は、音声対話型制御システム１の概要を示す模式図であり、
図７に示すように、本実施形態に係る音声対話型制御システム１は、基本的な構成は前記実施形態１と同一であるが、一部構成が異なっている。本実施形態において、音声対話型制御システム１は、音声入出力装置２００、ルータ３００、および表示装置４００が設置されている位置とは異なる位置に外部制御装置１００が設けられた構成である。さらに、外部制御装置１００は、インターネットを介して商品を販売する、インターネット通販サービスを提供するサーバである。そして、音声対話型制御システム１は、外部制御装置１００が提供するインターネット通販サービスに関する画面を表示装置４００に画像として出力させる。ユーザは、音声入出力装置２００との間で音声の入出力を行うことにより、インターネット通販サービスに対して注文を行うことができる。

外部制御装置１００は、基本的な構成は前記実施形態１と同一であるが、一部構成が異なる。本実施形態において、外部制御装置１００は、インターネットを介して商品を販売する、インターネット通販サービスを提供するサーバである。図７の例において、外部制御装置１００はルータ３００を介して音声入出力装置２００および表示装置４００と接続されているが、通信可能な構成であれば、ルータ３００を介した通信に限定されなくてもよい。例えば、外部制御装置１００は、音声入出力装置２００とは基地局を介した携帯電話網によって接続され、表示装置４００とはルータ３００を介して接続されてもよい。

外部制御装置１００は、さらに商品を保管している倉庫６００と通信可能に接続されている。外部制御装置１００は、ユーザから受け付けた注文内容が確定されると、当該注文内容を倉庫６００に送信する。

倉庫６００は、外部制御装置１００が提供するインターネット通販サービスにて取り扱う各種商品を保管している。倉庫６００は、外部制御装置１００から注文内容を受信すると、当該注文内容に応じて商品を集めて梱包し、注文元であるユーザへ商品を配送する。

（音声対話型制御システムにおける一連の処理）
図７に例示した、音声対話型制御システム１における一連の処理について、図８を用いて説明する。

まず、音声対話型制御システム１のユーザが「今日のお買いものをお願い。」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ５１：音声入力（通販開始指示））。そして、音声入出力装置２００は、Ｓ５１で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ５２：音声送信（通販開始指示））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。解析結果から音声入力情報が通販開始指示を含むものであるものであるとわかると、外部制御装置１００の画像表示判定部３４は、表示装置４００を用いた画像の表示が必要であると判定する。そして、発話データ生成部３５は、表示装置４００の電源をオンするための発話データ「テレビをつけます」を生成する。外部制御装置１００は、生成された発話データを音声入出力装置２００へ送信する（Ｓ５３：発話データ送信（表示装置電源オン））。音声入出力装置２００は、受信した発話データを音声としてユーザに提供する（Ｓ５４：音声出力（表示装置電源オン））。

Ｓ５４の後、外部制御装置１００は、表示装置４００にインターネット通販サービスの画面を画像として表示するための指示を、当該画面のＵＲＬとともに音声入出力装置２００へ送信する（Ｓ５５：表示指示（通販画面ＵＲＬ））。音声入出力装置２００は、インターネット通販サービスの画面の表示指示および当該画面のＵＲＬを受信すると、表示装置４００を操作して電源をオンにする（Ｓ５６：表示装置電源オン）。さらに、音声入出力装置２００は画面の表示指示および当該画面のＵＲＬを表示装置４００へ送信する（Ｓ５７：表示指示（通販画面ＵＲＬ））。表示装置４００は、画面の表示指示および当該一覧のＵＲＬを音声入出力装置２００から受信すると、表示指示にしたがって、外部制御装置１００が提供するインターネット通販サービスのサイトＵＲＬへの接続を行う（Ｓ５８：接続（通販サイト））。外部制御装置１００は、接続に応じて、ＵＲＬで指定されたインターネット通販サービスの画面を表示装置４００へ送信し、表示させる（Ｓ５９：画面出力（通販サイト））。

Ｓ５９によって表示装置４００にインターネット通販サービスの画面が表示された後、ユーザは、表示内容を確認し、「牛肉、ジャガイモ、玉ねぎ、ニンジン、お米、……」と注文内容を発話する。発話が行われると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ６０：音声入力（注文内容））。そして、音声入出力装置２００は、Ｓ６０で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ６１：音声送信（注文内容））。

外部制御装置１００は、Ｓ６１で音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。解析結果から音声入力情報が注文内容を含むものであるものであるとわかると、制御部３０は、表示装置４００が当該注文内容を外部制御装置１００へ送信するための指示を音声入出力装置２００へ送信する（Ｓ６２：入力指示（注文内容））。音声入出力装置２００は、外部制御装置１００から入力指示を受信すると、注文内容を含むユーザからの入力内容を、当該入力内容を反映した画面を表示装置４００に表示させる指示とともに表示装置４００へ送信する（Ｓ６３：表示指示（入力結果））。表示装置４００は、入力内容および指示を受信すると、当該入力内容を外部制御装置１００へ送信する（Ｓ６４：送信（入力内容））。外部制御装置１００は、入力内容を受信すると、当該入力内容に基づいて画面を更新し、更新後の画面を表示装置４００へ送信する。表示装置４００は、受信した更新後の画面を表示する（Ｓ６５：画面出力（更新後画面））。

Ｓ６５の後、外部制御装置１００は、発話データ生成部３５にて、更新後の画面が示す注文内容で注文を確定させるか否かを確認する確認メッセージを含む発話データを生成する。さらに、外部制御装置１００は、確認メッセージを含む発話データを音声入出力装置２００へ送信する（Ｓ６６：発話データ送信（確認メッセージ））。音声入出力装置２００は、外部制御装置１００から確認メッセージを含む発話データを受信すると、当該発話データを出力する（Ｓ６７：音声出力（確認メッセージ））。図示の例によれば、音声入出力装置２００は、確認メッセージを含む「表示の通りでいいですか。ｘｘｘｘ円です。」という発話を行う。

Ｓ６７の後、ユーザが「はい。」と発話すると、発話内容が音声入力情報として音声入出力装置２００へ入力される（Ｓ６８：音声入力（了承メッセージ））。そして、音声入出力装置２００は、Ｓ６８で受け付けた音声入力情報を外部制御装置１００へ送信する（Ｓ６９：音声送信（了承メッセージ））。

外部制御装置１００は、音声入出力装置２００から受信した音声入力情報を、音声解析部３１および意味解析部３２を用いて解析する。解析結果から音声入力情報が了承メッセージを含むものであるものであるとわかると、外部制御装置１００は、注文内容を確定する操作を表示装置４００に行わせる操作指示を、音声入出力装置２００へ送信する（Ｓ７０：入力指示（注文確定））。音声入出力装置２００は、外部制御装置１００から操作指示を受信すると、当該操作指示にしたがって注文内容を確定させるよう、表示装置４００へ指示する（Ｓ７１：確定操作指示（注文内容））。表示装置４００は、音声入出力装置２００から指示を受信すると、当該指示に基づいて画面上で操作を行い、外部制御装置１００へ注文内容を確定する旨の指示を送信する（Ｓ７２：送信（確定操作））。外部制御装置１００は、表示装置４００から指示を受信すると、注文内容を確定させる処理を実行し、注文が確定した旨を通知する画面を表示装置４００へ送信し、表示させる（Ｓ７３：画面出力（確定画面））。

以上の処理によって、音声対話型制御システム１のユーザは、音声入出力装置２００および表示装置４００を用いて、外部制御装置１００が提供するインターネット通販サービスを利用することができる。より具体的には、音声入出力装置２００に対する音声入力によって各種操作を実行し、外部制御装置１００に対して商品を注文することができる。

（音声入出力装置が実行する処理の流れ）
本実施形態において、音声入出力装置２００が実行する処理の流れについて、図９を用いて説明する。

まず、音声入出力装置２００は、ユーザから音声入力による通販開始指示を受け付ける（Ｓ８１でＹＥＳ）。音声入出力装置２００は、当該音声入力による音声入力情報を外部制御装置１００へ送信し、当該音声入力情報に対応する応答情報を受信する。応答情報は、表示装置４００の電源をオンにする指示と当該指示に対応する発話データ、および当該外部制御装置１００が提供するインターネット通販サービスのサイトＵＲＬの表示指示を含む。そして、音声入出力装置２００は、発話データを音声で出力した後、受信した指示にしたがって表示装置４００の電源をオンにする。そして、音声入出力装置２００は、表示装置４００に、インターネット通販サービスのサイトＵＲＬへ接続させ、通販画面を表示させる（Ｓ８２）。

その後、音声入出力装置２００は、表示装置４００が表示している通販画面の内容にしたがってユーザが音声にて入力した注文を受け付ける（Ｓ８３）と、注文に関する音声入力情報を外部制御装置１００へ送信する。音声入出力装置２００は、音声入力情報に対応する応答情報として、現在の注文内容で注文を確定するか否かをユーザに確認する確認メッセージに対応する発話データを受信する。そして、音声入出力装置２００は、受信した発話データを音声で出力する（Ｓ８４）。

Ｓ８４の後、音声入出力装置２００は、ユーザから音声入力によって注文内容の確定を了承する了承メッセージを受け付けたか否かを判定する（Ｓ８５）。了承メッセージを受け付けると（Ｓ８５でＹＥＳ）、音声入出力装置２００は、了承メッセージに関する音声入力情報を外部制御装置１００へ送信し、当該音声入力情報に対応する応答情報として、表示装置４００が注文を確定する操作を行う指示を受信する。音声入出力装置２００は、表示装置４００に、注文を確定する操作を行わせて、注文内容を確定する（Ｓ８６）。一方、了承メッセージを受け付けなかったとき（Ｓ８５でＮＯ）、音声入出力装置２００は、Ｓ８３〜Ｓ８５の処理を再度実行することにより、さらなる注文を受け付ける。

以上の処理によって、音声入出力装置２００は音声入力によって外部制御装置１００が提供するインターネット通販サービスに対する各種操作を行うことができる。また、音声入出力装置２００は、音声入力情報に対応する応答情報として、確認メッセージなどは音声で出力し、通販画面などは画像で表示することができる。

以上の処理によって、音声対話型制御システム１は、外部制御装置１００が提供するインターネット通販サービスに対して入出力される情報のうち、ユーザが音声入力した音声入力情報の内容に対応する応答情報に画像を含めるか否かを判定することができる。さらに、外部制御装置１００が応答情報に画像を含めると判定した場合は当該画像を表示装置４００に表示させることができる。

〔変形例〕
前記各実施形態において、外部制御装置１００は単一のサーバによって構成されていたが、複数のサーバを組み合わせた構成であってもよい。例えば、外部制御装置１００は、音声入出力装置２００と通信可能なサーバと、表示装置４００と通信可能な別のサーバからなる構成であってもよい。

前記各実施形態において、音声入出力装置２００はユーザから受け付けた音声入力情報を外部制御装置１００へ送信し、外部制御装置１００が音声入力情報を解析する構成であった。しかしながら、例えば音声入出力装置２００にて音声入力情報の音声解析を行い、外部制御装置１００にて音声解析の結果に対して意味解析部３２を用いて意味解析を行う構成であってもよい。さらに音声入出力装置２００は、外部制御装置１００のすべての構成を備えるものであってもよい。

〔まとめ〕
本発明の態様１に係る外部制御装置（１００）は、音声入出力装置（２００）が受け付けたユーザの音声入力情報を受信し、前記音声入力情報を解析して、当該音声入力情報に関連した関連情報を取得し、取得した前記関連情報の内容に基づいて、前記ユーザへ提供する応答情報に画像を含めるか否かを判定し、前記ユーザへ提供する前記応答情報に前記画像を含めると判定した場合、当該画像を表示装置（４００）に表示するための制御を行う構成である。

前記の構成によれば、外部制御装置は、ユーザが音声入力を行った内容に対応する応答情報に画像を含めるか否かを判定し、画像を含めると判定した場合は当該画像を表示装置に表示させることができる。これにより、画像にて提供することが好適な情報は画像で提供することができる。したがって、ユーザにとって分かりやすい形式で情報を提供することができる、利便性に優れた外部制御装置を提供することができる。

本発明の態様２に係る外部制御装置（１００）は、前記態様１において、前記応答情報に前記画像を含めると判定した場合、前記ユーザへ提供する前記応答情報の一部を音声情報として前記音声入出力装置（２００）から出力させる構成としてもよい。

前記の構成によれば、応答情報の一部を音声にて提供することができる。これにより、画像にて提供することが好適な情報は画像で提供し、他の情報は例えば音声入出力装置から音声として提供することができる。ユーザは、画像と共に音声でも応答情報を確認することができるため、ユーザにとって分かりやすい形式で情報を提供することができる。また、確認に要する時間を短縮することができるなど、利便性に優れている。

本発明の態様３に係る外部制御装置（１００）は、前記態様１または２において、前記画像を前記表示装置（４００）に表示するか否かを前記ユーザへ問い合わせるメッセージを、前記音声入出力装置（２００）から出力させ、前記ユーザが前記画像を前記表示装置に表示することを許可した場合、前記画像を前記表示装置に表示する構成としてもよい。

前記の構成によれば、外部制御装置は、ユーザが許可した場合に、応答情報を画像にて提供することができる。

本発明の態様４に係る外部制御装置（１００）は、前記態様１から３のいずれかにおいて、外部サーバ（５００）から前記関連情報を取得する構成としてもよい。

前記の構成によれば、外部制御装置は、外部サーバから関連情報を取得することができるため、外部制御装置自体が関連情報を格納していなくても、関連情報を好適に取得することができる。

本発明の態様５に係る音声対話型制御システム（１）は、前記態様１から４のいずれかにおける外部制御装置（１００）と、ユーザの音声入力情報を受け付ける音声入出力装置（２００）と、前記外部制御装置が取得した画像を表示する表示装置（４００）と、を備えている構成としてもよい。

前記の構成によれば、前記態様１と同様の作用効果を奏する。

本発明の態様６に係る制御方法は、音声入出力装置（２００）が受け付けたユーザの音声入力情報を受信し、前記音声入力情報を解析して、当該音声入力情報に関連した関連情報を取得し、取得した前記関連情報の内容に基づいて、前記ユーザへ提供する応答情報に画像を含めるか否かを判定し、前記ユーザへ提供する前記応答情報に前記画像を含めると判定した場合、前記画像を表示装置（４００）に表示するための制御を行う方法である。

本発明の各態様に係る外部制御装置１００は、コンピュータによって実現してもよく、この場合には、コンピュータを前記外部制御装置１００が備える各部（ソフトウェア要素）として動作させることにより前記外部制御装置１００をコンピュータにて実現させる外部制御装置１００の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１音声対話型制御システム
１００外部制御装置
１０通信部
２０記憶部
３０制御部
３１音声解析部
３２意味解析部
３３情報取得部
３４画像表示判定部
３５発話データ生成部
２００音声入出力装置
４００表示装置

Claims

音声入出力装置が受け付けたユーザの音声入力情報を受信し、
前記音声入力情報を解析して、当該音声入力情報に関連した関連情報を取得し、
取得した前記関連情報の内容に基づいて、前記ユーザへ提供する応答情報に画像を含めるか否かを判定し、
前記応答情報に前記画像を含めると判定した場合、当該画像を表示装置に表示するための制御を行う
ことを特徴とする外部制御装置。
前記応答情報に前記画像を含めると判定した場合、前記応答情報の一部を前記音声入出力装置から音声で出力させる
ことを特徴とする請求項１に記載の外部制御装置。
前記画像を前記表示装置に表示するか否かを前記ユーザへ問い合わせるメッセージを、前記音声入出力装置から出力させ、
前記ユーザが前記画像を前記表示装置に表示することを許可した場合、前記画像を前記表示装置に表示するための制御を行う
ことを特徴とする請求項１または２に記載の外部制御装置。
前記外部制御装置は、外部サーバから、前記関連情報を取得する
ことを特徴とする請求項１から３のいずれか１項に記載の外部制御装置。
請求項１から４のいずれか１項に記載の外部制御装置と、
ユーザの音声入力情報を受け付ける音声入出力装置と、
前記外部制御装置が取得した画像を表示する表示装置と、を備えている
ことを特徴とする音声対話型制御システム。
音声入出力装置が受け付けたユーザの音声入力情報を受信し、
前記音声入力情報を解析して、当該音声入力情報に関連した関連情報を取得し、
取得した前記関連情報の内容に基づいて、前記ユーザへ提供する応答情報に画像を含めるか否かを判定し、
前記ユーザへ提供する前記応答情報に前記画像を含めると判定した場合、前記画像を表示装置に表示するための制御を行う
ことを特徴とする制御方法。
請求項１に記載の外部制御装置としてコンピュータを機能させるためのプログラム。