JP2005031856A - 機器制御システム - Google Patents
機器制御システム Download PDFInfo
- Publication number
- JP2005031856A JP2005031856A JP2003194464A JP2003194464A JP2005031856A JP 2005031856 A JP2005031856 A JP 2005031856A JP 2003194464 A JP2003194464 A JP 2003194464A JP 2003194464 A JP2003194464 A JP 2003194464A JP 2005031856 A JP2005031856 A JP 2005031856A
- Authority
- JP
- Japan
- Prior art keywords
- server
- client
- voice
- control
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 54
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
Images
Landscapes
- Computer And Data Communications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】この発明は、ユーザが音声入出力装置を備えたクライアント側機器を介してサーバと音声対話を行うことにより、制御対象となるクライアント側機器をサーバに制御させることができるようになる機器制御システムを提供することを目的とする。
【解決手段】複数のクライアント側機器がサーバに接続されている機器制御システムにおいて、複数のクライアント側機器のうち少なくとも1つのクライアント側機器は音声入出力装置を備えており、サーバは、音声入出力装置を備えているクライアント側機器を介してユーザと音声対話を行うことによって、制御に必要な情報を取得するための音声対話処理手段、および音声対話処理手段によって得られた情報に基づいて、制御対象となるクライアント側機器を制御する手段を備えている。
【選択図】 図1
【解決手段】複数のクライアント側機器がサーバに接続されている機器制御システムにおいて、複数のクライアント側機器のうち少なくとも1つのクライアント側機器は音声入出力装置を備えており、サーバは、音声入出力装置を備えているクライアント側機器を介してユーザと音声対話を行うことによって、制御に必要な情報を取得するための音声対話処理手段、および音声対話処理手段によって得られた情報に基づいて、制御対象となるクライアント側機器を制御する手段を備えている。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、機器制御システムに関する。
【0002】
【従来の技術】
家庭内において、TV、VTR、冷蔵庫、照明機器等の各クライアント側機器をサーバに接続し、サーバによって各機器を制御できるようにしたシステムが既に開発されている。
【0003】
【発明が解決しようとする課題】
この発明は、ユーザが音声入出力装置を備えたクライアント側機器を介してサーバと音声対話を行うことにより、制御対象となるクライアント側機器をサーバに制御させることができるようになる機器制御システムを提供することを目的とする。
【0004】
【課題を解決するための手段】
請求項1に記載の発明は、複数のクライアント側機器がサーバに接続されている機器制御システムにおいて、複数のクライアント側機器のうち少なくとも1つのクライアント側機器は音声入出力装置を備えており、サーバは、音声入出力装置を備えているクライアント側機器を介してユーザと音声対話を行うことによって、制御に必要な情報を取得するための音声対話処理手段、および音声対話処理手段によって得られた情報に基づいて、制御対象となるクライアント側機器を制御する手段を備えていることを特徴とする。
【0005】
請求項2に記載の発明は、請求項1に記載の機器制御システムにおいて、音声入出力装置を備えているクライアント側機器は、ユーザに制御対象機器を特定するための制御対象機器特定情報を入力させるための手段、および入力された制御対象機器特定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から送られてきた制御対象機器特定情報に基づいて、制御対象機器を特定する手段を備えていることを特徴とする。
【0006】
請求項3に記載の発明は、請求項2に記載の機器制御システムにおいて、音声入出力装置を備えているクライアント側機器は、ユーザに制御種類を特定するための制御種類特定情報を入力させるための手段、および入力された制御種類特定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から送られてきた制御種類特定情報に基づいて、その制御種類に応じた制御情報を取得するための対話モードを設定する手段を備えていることを特徴とする。
【0007】
請求項4に記載の発明は、請求項1乃至3に記載の機器制御システムにおいて、サーバは、音声入出力装置を備えているクライアント側機器から送られてきた音声データに対する音声認識結果を上記クライアント側機器に送る手段を備えており、上記クライアント側機器はサーバから送られてきた音声認識結果を出力させる手段、ユーザにその音声認識結果が正しいか誤っているかを示す正誤判定情報を入力させる手段、および入力された正誤判定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から音声認識結果が誤っていることを示す正誤判定情報が送られてきた場合には、上記音声認識結果に対して次候補があるか否かを判別し、次候補がある場合にはその次候補を音声認識結果として上記クライアント側に送信する手段を備えていることを特徴とする。
【0008】
【発明の実施の形態】
以下、図面を参照して、 この発明をホームネットワークシステムに適用した場合の実施の形態について説明する。
【0009】
〔1〕第1の実施の形態の説明
【0010】
図1は、ホームネットワークシステムの構成を示している。
【0011】
複数の家庭内機器(以下、クライアントという)10−1、10−2、10−3、…、10−Nが、サーバ20に接続されている。
【0012】
各クライアント10−1、10−2、10−3、…10−Nは、図示しないが、ユーザがサーバ20と音声対話を行うための音声入出力装置を備えている。
【0013】
例えば、クライアント10−1はテレビジョン受像機(TV)であり、クライアント10−2は冷蔵庫であり、クライアント10−3はVTRである。また、クライアント10−Nは、他の機器をサーバ20を介して制御するための専用の端末機である。
【0014】
この実施の形態では、任意のクライアント10−1、10−2、10−3、…、10−Nを介してユーザがサーバ20と音声対話を行うことにより、任意のクライアント10−1、10−2、10−3、…、10−Nをサーバ20によって制御させることが可能である。
【0015】
例えば、クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、サーバ20にクライアント10−3(VTR)の録画設定を行わせることが可能である。
【0016】
以下、クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0017】
図2は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0018】
クライアント10−Nは、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0019】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部32、制御対象機器特定部33、対話モード設定部34、音声合成部35、制御信号送信部36等を備えている。
【0020】
図3はクライアント10−N側の処理手順を、図4はサーバ20側の処理手順を、それぞれ示している。
【0021】
まず、図3を参照して、クライアント10−Nの処理手順について説明する。
【0022】
ユーザは、まず、クライアント10−Nに制御対象機器を特定するための情報(制御対象機器特定情報)を入力する。制御対象機器特定情報の入力は、例えば、各クライアントに割り当てられたIDを入力することにより行われる。
【0023】
クライアント10−Nの制御部11は、制御対象機器特定情報が入力されると(ステップ101)、制御対象機器特定情報をサーバ20に送信する(ステップ102)。
【0024】
また、ユーザは、制御種類を特定するための情報(制御種類特定情報)を入力する。制御種類には、VTRの録画予約、エアコンの温度設定等がある。制御種類特定情報の入力は、例えば、制御種類毎に割り当てられたコードを入力することによって行われる。
【0025】
クライアント10−Nの制御部11は、制御種類特定情報が入力されると(ステップ103)、制御種類特定情報をサーバ20に送信する(ステップ104)。
【0026】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0027】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ105)。ユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ106)。そして、クライアント10−Nの制御部11は、サーバ20から応答音声データが送られてくるのを待つ(ステップ107)。サーバ20からの応答音声データを受信すると、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させる(ステップ108)。そして、ステップ105に戻る。このようにして、ステップ105〜108の処理を繰り返し実行する。
【0028】
クライアント10−Nの制御部11は、ステップ105において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0029】
次に、図4を参照して、サーバ20の処理手順について説明する。
【0030】
サーバ20は、クライアント10−Nからの制御対象機器特定情報を受信すると(ステップ201)、この情報に基づいて制御対象機器を特定する(ステップ202)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ203)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ204)。つまり、その制御種類において制御に必要な情報を取得するための対話モードを設定する。
【0031】
サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ205)。一定時間内に音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ206)。
【0032】
そして、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ207)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ208)、生成した応答内容を音声合成した後(ステップ209)、合成音声データをクライアント10−Nに送信する(ステップ210)。そして、ステップ205に戻る。このようにして、ステップ205〜210の処理を繰り返し実行する。
【0033】
制御に必要な情報を全て取得すると、ステップ207でYESとなるので、サーバ20は、制御信号を生成し(ステップ211)、上記ステップ202で特定した制御対象機器に制御信号を送信する(ステップ212)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ213)。そして、今回の処理を終了する。
【0034】
なお、上記ステップ205において、一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ213)、今回の処理を終了する。
【0035】
クライアント10−Nに音声入力を行うユーザと、サーバ20との対話例を以下に示しておく。Uは、ユーザによって入力された音声の内容を、Sはサーバ20から送られてきた合成音声の内容を表している。
【0036】
U:録画予約
S:録画予約ですね。番組名をおっしゃって下さい。
U:ニュースステーション
S:いつのニュースステーションですか?
U:今週の水曜日
S:今週の水曜日のニュースステーションですね?
U:はい
S:わかりました。今週の水曜日のニュースステーションを録画予約しました。
【0037】
なお、制御対象機器特定情報および制御種類特定情報を、ユーザに音声入力させるようにしてもよい。この場合には、クライアント10−Nは音声入力された音声データをサーバ20に送る。サーバ20は、送られてきた音声データに対して音声認識を行うことにより、制御対象機器を特定するとともに、制御種類を特定する。
【0038】
〔2〕第2の実施の形態の説明
【0039】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0040】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0041】
図5は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0042】
クライアント10−Nは、図2と同様に、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0043】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部22、制御対象機器特定部23、対話モード設定部24、音声合成部35、制御信号送信部36の他、正誤判定情報受信部37および認識結果送信部38を備えている。
【0044】
この実施の形態では、サーバ20は、クライアント10−Nからの音声データを音声認識した場合には、認識結果送信部38によって、その音声認識結果を示す表示データをクライアント10−Nに送信する。クライアント10−Nは、サーバ20からの音声認識結果を表すテキストデータを受信すると、そのテキストデータを表示部15に表示させ、ユーザにその認識結果が正しいか誤っているかを示す正誤判定情報を入力させる。クライアント10−Nは、ユーザによって入力された正誤判定情報をサーバ20に送る。サーバ20は、正誤判定情報受信部37によって正誤判定情報を受信し、その正誤判定情報に応じた処理を行う。
【0045】
図6はクライアント10−N側の処理手順を示し、図7はサーバ20側の処理手順を示している。
【0046】
まず、図6を参照して、クライアント10−Nの処理手順について説明する。
【0047】
ユーザは、まず、クライアント10−Nに制御対象機器を特定するための情報(制御対象機器特定情報)を入力する。クライアント10−Nの制御部11は、制御対象機器特定情報が入力されると(ステップ111)、制御対象機器特定情報をサーバ20に送信する(ステップ112)。
【0048】
また、ユーザは、制御種類を特定するための情報(制御種類特定情報)を入力する。クライアント10−Nの制御部11は、制御種類特定情報が入力されると(ステップ113)、制御種類特定情報をサーバ20に送信する(ステップ114)。
【0049】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0050】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ115)。一定時間内にユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ116)。
【0051】
そして、クライアント10−Nの制御部11は、サーバ20からの認識結果を表すテキストデータを受信したか否か(ステップ117)、サーバ20からの応答音声データを受信したか否か(ステップ118)を判別する。
【0052】
認識結果を表すテキストデータを受信した場合には、クライアント10−Nの制御部11は、認識結果を表示部15に表示する(ステップ119)。ユーザは、表示された認識結果を見て、その認識結果が正しいか誤っているかを示す正誤判定情報を入力する。クライアント10−Nの制御部11は、ユーザによって入力された正誤判定情報をサーバ20に送信する(ステップ120)。そして、ステップ117に戻る。
【0053】
サーバ20からの応答音声データを受信したときには(ステップ118でYES)、クライアント10−Nの制御部11は、受信した応答音声データをスピーカ13から出力させる(ステップ121)。そして、ステップ115に戻る。このようにして、ステップ115〜121の処理を繰り返し実行する。
【0054】
クライアント10−Nの制御部11は、ステップ115において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0055】
次に、図7を参照して、サーバ20の処理手順について説明する。
【0056】
サーバ20は、クライアント10−Nからの制御対象機器特定情報を受信すると(ステップ221)、この情報に基づいて制御対象機器を特定する(ステップ222)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ223)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ224)。
【0057】
サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ225)。一定時間内に音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ226)。サーバ20は、その認識結果を表すテキストデータをクライアント10−Nに送信する(ステップ227)。そして、サーバ20は、クライアント10−Nから上記認識結果に対する正誤判定情報が送られてくるのを待つ(ステップ228)。
【0058】
正誤判定情報を受信すると、サーバ20は、受信した正誤判定情報に基づいて上記認識結果が正しかったか否かを判別し(ステップ229)、正しければ、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ230)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ231)、生成した応答内容を音声合成した後(ステップ232)、合成音声データをクライアント10−Nに送信する(ステップ233)。そして、ステップ225に戻る。
【0059】
上記ステップ229において認識結果が誤っていると判別した場合には、サーバ20は、次の認識結果候補があるか否かを判別する(ステップ234)。次の認識結果候補がある場合には、サーバ20は、当該次の認識結果を取得して(ステップ235)、その認識結果を表すテキストデータをクライアント10−Nに送信する(ステップ227)。そして、ステップ228に移行する。
【0060】
上記ステップ234において、次の認識結果候補がないと判別した場合には、サーバ20は、「音声認識を誤ったため、再度、音声入力を行って下さい」といった再入力を促す応答内容を生成し(ステップ236)、生成した応答内容を音声合成した後(ステップ232)、合成音声データをクライアント10−Nに送信する(ステップ233)。そして、ステップ225に戻る。
【0061】
制御に必要な情報を全て取得すると、ステップ230でYESとなるので、サーバ20は、制御信号を生成し(ステップ237)、上記ステップ222で特定した制御対象機器に制御信号を送信する(ステップ238)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ239)。そして、今回の処理を終了する。
【0062】
なお、上記ステップ225において、一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ239)、今回の処理を終了する。
【0063】
上記実施の形態では、音声認識結果をテキストデータとしてサーバ20からクライアント10−Nに送信し、クライアント10−N側でそれを表示するという例を示したが、音声認識結果であるテキストデータをサーバ20側で音声合成し、合成音声をサーバ20からクライアント10−N側に送信し、クライアント10−N側でそれをスピーカから出力するようにしてもよい。
【0064】
〔3〕第3の実施の形態の説明
【0065】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0066】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0067】
図8は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0068】
クライアント10−Nは、図2と同様に、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0069】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部22、制御対象機器特定部23、対話モード設定部24、音声合成部35、制御信号送信部36の他、個人認証部39および対話履歴記憶部40を備えている。
【0070】
個人認証部39は、音声対話を行うユーザを、音声、指紋、顔画像等によって特定するものである。対話履歴記憶部40は、各ユーザとの対話履歴を、個人認証部39によって特定したユーザ毎に記憶するものである。
【0071】
この実施の形態では、サーバ20は、対話を開始する前にユーザを認証し、対話履歴記憶部40を参照して、そのユーザに対応する対話履歴をチェックする。そのユーザに対応する対話履歴に基づいて、伝達事項があるか否かを判別し、伝達事項がある場合には、伝達事項を表す合成音声データを生成して、クライアントに送信する。
【0072】
サーバ20が、対話履歴に基づいて伝達事項があると判別し、伝達事項を表す合成音声データを送信する場合の具体例について説明する。Uは、ユーザによって入力された音声の内容を、Sはサーバ20から送られてきた合成音声の内容を表している。
【0073】
・対話履歴(ある日におけるユーザとサーバとの対話)
U:今日の阪神の試合を録画して。
S:はい、今日の阪神の試合を録画予約しました。
・伝達事項の送信(翌日におけるユーザとサーバとの対話)
U:昨日の試合録画できた。
S:昨日は雨で中止になりましたので、録画するのをやめました。
【0074】
図9はクライアント10−N側の処理手順を示し、図10はサーバ20側の処理手順を示している。
【0075】
まず、図9を参照して、クライアント10−Nの処理手順について説明する。
【0076】
ユーザは、まず、個人認証用の音声入力を行う。クライアント10−Nの制御部11は、個人認証用の音声が入力されると(ステップ131)、個人認証用の音声データをサーバ20に送信する(ステップ132)。
【0077】
次に、クライアント10−Nの制御部11は、一定時間内に、サーバ20から伝達事項を表す音声データが送られてきるか否かを判別する(ステップ133)。一定時間内に、サーバ20からの伝達事項を表す音声データを受信した場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させた後(ステップ134)、ステップ135に移行する。一定時間内に、サーバ20からの伝達事項を表す音声データを受信しなかった場合には、ステップ135に移行する。
【0078】
ステップ135では、クライアント10−Nの制御部11は、一定時間内に制御対象機器を特定するための情報(制御対象機器特定情報)が入力されたか否かを判別する。一定時間内に制御対象機器特定情報が入力されると、クライアント10−Nの制御部11は、制御対象機器特定情報をサーバ20に送信する(ステップ136)。なお、一定時間内に、制御対象機器特定情報が入力されなかったときには、今回の処理を終了する。
【0079】
次に、クライアント10−Nの制御部11は、制御種類を特定するための情報(制御種類特定情報)が入力されるのを待つ(ステップ137)。制御種類特定情報が入力されると、制御種類特定情報をサーバ20に送信する(ステップ138)。
【0080】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0081】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ139)。一定時間内にユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ140)。そして、クライアント10−Nの制御部11は、サーバ20から応答音声データが送られてくるのを待つ(ステップ141)。サーバ20からの応答音声データを受信すると、クライアント10−Nの制御部11は、受信した応答音声データをスピーカ13から出力させる(ステップ142)。そして、ステップ139に戻る。このようにして、ステップ139〜142の処理を繰り返し実行する。
【0082】
クライアント10−Nの制御部11は、ステップ139において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0083】
次に、図10を参照して、サーバ20の処理手順について説明する。
【0084】
サーバ20は、個人認証用音声を受信すると(ステップ241)、個人認証を行う(ステップ242)。そして、サーバ20は、当該ユーザの対話履歴をチェックし(ステップ243)、伝達事項があるか否かを判別する(ステップ244)。
【0085】
伝達事項がない場合には、ステップ248に移行する。伝達事項がある場合には、伝達事項に応じた応答内容を生成し(ステップ245)、生成した応答内容を音声合成した後(ステップ246)、合成音声データをクライアント10−Nに送信する(ステップ247)。そして、ステップ248に移行する。
【0086】
ステップ248では、サーバ20は、一定時間内に制御対象機器特定情報を受信したか否かを判別する。一定時間内にクライアント10−Nからの制御対象機器特定情報を受信すると(ステップ248)、サーバ20は、この情報に基づいて制御対象機器を特定する(ステップ249)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ250)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ251)。
【0087】
次に、サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ252)。一定時間内に音声データを受信した場合には、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ253)。
【0088】
そして、サーバ20は、当該ユーザに対する対話履歴を更新する(ステップ254)。また、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ255)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ256)、生成した応答内容を音声合成した後(ステップ257)、合成音声データをクライアント10−Nに送信する(ステップ258)。そして、ステップ252に戻る。このようにして、ステップ252〜258の処理を繰り返し実行する。
【0089】
制御に必要な情報を全て取得すると、ステップ255でYESとなるので、サーバ20は、制御信号を生成し(ステップ259)、制御対象機器に制御信号を送信する(ステップ260)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ261)。そして、今回の処理を終了する。
【0090】
なお、上記ステップ248において一定時間内に制御対象機器特定情報を受信できなかった場合、または上記ステップ251において一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ261)、今回の処理を終了する。
【0091】
〔4〕第4の実施の形態の説明
【0092】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0093】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0094】
クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)の構成は、図2と同じである。
【0095】
この実施の形態では、クライアント10−Nからサーバ20に動作開始指示が送られると、対話進行のための案内が全てサーバ20側によって行われる。
【0096】
図11はクライアント10−N側の処理手順を、図12はサーバ20側の処理手順を、それぞれ示している。
【0097】
まず、ユーザ操作によって動作開始指令が入力されると(ステップ151)、クライアント10−Nの制御部11は、動作開始指令をサーバ20に送信する(ステップ152)。
【0098】
この後においては、クライアント10−Nの制御部11は、サーバ20からの音声データ(合成音声データ)が送られてくるのを待つ(ステップ153)。サーバ20からの音声データを受信すると、クライアント10−Nの制御部11は、受信した音声データが、終了を意味する音声データ(終了情報)であるか否かを判別する(ステップ154)。
【0099】
受信した音声データが終了を意味する音声データでない場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力(音声出力)させる(ステップ155)。次に、クライアント10−Nの制御部11は、ユーザからの音声入力を待つ(ステップ156)。ユーザからの音声入力があると、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信した後(ステップ157)、ステップ153に戻る。
【0100】
上記ステップ154で、サーバから受信した音声データが終了を意味する音声データであると判別した場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させる(ステップ158)。そして、今回の処理を終了する。
【0101】
次に、図12を参照して、サーバ20の処理手順について説明する。
【0102】
サーバ20は、クライアント10−Nからの動作開始指令を受信すると(ステップ271)、制御対象機器を特定するための情報(制御対象機器特定情報)の入力を要求するための合成音声データを送信する(ステップ272)。
【0103】
そして、サーバ20は、一定時間内にクライアント10−Nからの制御対象機器特定情報を受信したか否かを判別する(ステップ273)。一定時間内にクライアント10−Nからの制御対象機器特定情報を受信すると、サーバ20は、この情報に基づいて制御対象機器を特定する(ステップ274)。
【0104】
次に、サーバ20は、制御種類を特定するための情報(制御種類特定情報)の入力を要求するための合成音声データを送信する(ステップ275)。そして、サーバ20は、一定時間内にクライアント10−Nからの制御種類特定情報を受信したか否かを判別する(ステップ276)。一定時間内にクライアント10−Nからの制御種類特定情報を受信すると、サーバ20は、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ277)。
【0105】
そして、サーバ20は、応答内容を生成し(ステップ278)、生成した応答内容を音声合成した後(ステップ279)、合成音声データをクライアント10−Nに送信する(ステップ280)。
【0106】
次に、サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ281)。音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ282)。
【0107】
そして、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ283)。制御に必要な情報を全て取得できていない場合には、サーバ20は、ステップ278に戻って応答内容を生成し、生成した応答内容を音声合成した後(ステップ279)、合成音声データをクライアント10−Nに送信する(ステップ280)。そして、ステップ281に移行する。このようにして、ステップ278〜283の処理を繰り返し実行する。
【0108】
制御に必要な情報を全て取得すると、ステップ283でYESとなるので、サーバ20は、制御信号を生成し(ステップ284)、制御対象機器に制御信号を送信する(ステップ285)。この後、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ286)。そして、今回の処理を終了する。
【0109】
なお、上記ステップ273において一定時間内に制御対象機器特定情報を受信できなかった場合、上記ステップ276において一定時間内に制御種類特定情報を受信できなかった場合、または上記ステップ281において、一定時間内に音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ286)、今回の処理を終了する。
【0110】
上記各実施の形態においては、サーバ20からの応答音声を出力した後に、ユーザからの音声入力を受け付けるという処理となっているが、サーバ20からの応答音声出力中に、ユーザからの音声入力を受け付けるようにしてもよい。
【0111】
【発明の効果】
この発明によれば、ユーザが音声入出力機器を備えたクライアント側機器を介してサーバと音声対話を行うことにより、制御対象となるクライアント側機器をサーバに制御させることができるようになる。
【図面の簡単な説明】
【図1】ホームネットワークシステムの構成を示すブロック図である。
【図2】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図3】第1の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図4】第1の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図5】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図6】第2の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図7】第2の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図8】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図9】第3の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図10】第3の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図11】第4の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図12】第4の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【符号の説明】
10−1〜10−N クライアント
20 サーバ
【発明の属する技術分野】
この発明は、機器制御システムに関する。
【0002】
【従来の技術】
家庭内において、TV、VTR、冷蔵庫、照明機器等の各クライアント側機器をサーバに接続し、サーバによって各機器を制御できるようにしたシステムが既に開発されている。
【0003】
【発明が解決しようとする課題】
この発明は、ユーザが音声入出力装置を備えたクライアント側機器を介してサーバと音声対話を行うことにより、制御対象となるクライアント側機器をサーバに制御させることができるようになる機器制御システムを提供することを目的とする。
【0004】
【課題を解決するための手段】
請求項1に記載の発明は、複数のクライアント側機器がサーバに接続されている機器制御システムにおいて、複数のクライアント側機器のうち少なくとも1つのクライアント側機器は音声入出力装置を備えており、サーバは、音声入出力装置を備えているクライアント側機器を介してユーザと音声対話を行うことによって、制御に必要な情報を取得するための音声対話処理手段、および音声対話処理手段によって得られた情報に基づいて、制御対象となるクライアント側機器を制御する手段を備えていることを特徴とする。
【0005】
請求項2に記載の発明は、請求項1に記載の機器制御システムにおいて、音声入出力装置を備えているクライアント側機器は、ユーザに制御対象機器を特定するための制御対象機器特定情報を入力させるための手段、および入力された制御対象機器特定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から送られてきた制御対象機器特定情報に基づいて、制御対象機器を特定する手段を備えていることを特徴とする。
【0006】
請求項3に記載の発明は、請求項2に記載の機器制御システムにおいて、音声入出力装置を備えているクライアント側機器は、ユーザに制御種類を特定するための制御種類特定情報を入力させるための手段、および入力された制御種類特定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から送られてきた制御種類特定情報に基づいて、その制御種類に応じた制御情報を取得するための対話モードを設定する手段を備えていることを特徴とする。
【0007】
請求項4に記載の発明は、請求項1乃至3に記載の機器制御システムにおいて、サーバは、音声入出力装置を備えているクライアント側機器から送られてきた音声データに対する音声認識結果を上記クライアント側機器に送る手段を備えており、上記クライアント側機器はサーバから送られてきた音声認識結果を出力させる手段、ユーザにその音声認識結果が正しいか誤っているかを示す正誤判定情報を入力させる手段、および入力された正誤判定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から音声認識結果が誤っていることを示す正誤判定情報が送られてきた場合には、上記音声認識結果に対して次候補があるか否かを判別し、次候補がある場合にはその次候補を音声認識結果として上記クライアント側に送信する手段を備えていることを特徴とする。
【0008】
【発明の実施の形態】
以下、図面を参照して、 この発明をホームネットワークシステムに適用した場合の実施の形態について説明する。
【0009】
〔1〕第1の実施の形態の説明
【0010】
図1は、ホームネットワークシステムの構成を示している。
【0011】
複数の家庭内機器(以下、クライアントという)10−1、10−2、10−3、…、10−Nが、サーバ20に接続されている。
【0012】
各クライアント10−1、10−2、10−3、…10−Nは、図示しないが、ユーザがサーバ20と音声対話を行うための音声入出力装置を備えている。
【0013】
例えば、クライアント10−1はテレビジョン受像機(TV)であり、クライアント10−2は冷蔵庫であり、クライアント10−3はVTRである。また、クライアント10−Nは、他の機器をサーバ20を介して制御するための専用の端末機である。
【0014】
この実施の形態では、任意のクライアント10−1、10−2、10−3、…、10−Nを介してユーザがサーバ20と音声対話を行うことにより、任意のクライアント10−1、10−2、10−3、…、10−Nをサーバ20によって制御させることが可能である。
【0015】
例えば、クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、サーバ20にクライアント10−3(VTR)の録画設定を行わせることが可能である。
【0016】
以下、クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0017】
図2は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0018】
クライアント10−Nは、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0019】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部32、制御対象機器特定部33、対話モード設定部34、音声合成部35、制御信号送信部36等を備えている。
【0020】
図3はクライアント10−N側の処理手順を、図4はサーバ20側の処理手順を、それぞれ示している。
【0021】
まず、図3を参照して、クライアント10−Nの処理手順について説明する。
【0022】
ユーザは、まず、クライアント10−Nに制御対象機器を特定するための情報(制御対象機器特定情報)を入力する。制御対象機器特定情報の入力は、例えば、各クライアントに割り当てられたIDを入力することにより行われる。
【0023】
クライアント10−Nの制御部11は、制御対象機器特定情報が入力されると(ステップ101)、制御対象機器特定情報をサーバ20に送信する(ステップ102)。
【0024】
また、ユーザは、制御種類を特定するための情報(制御種類特定情報)を入力する。制御種類には、VTRの録画予約、エアコンの温度設定等がある。制御種類特定情報の入力は、例えば、制御種類毎に割り当てられたコードを入力することによって行われる。
【0025】
クライアント10−Nの制御部11は、制御種類特定情報が入力されると(ステップ103)、制御種類特定情報をサーバ20に送信する(ステップ104)。
【0026】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0027】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ105)。ユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ106)。そして、クライアント10−Nの制御部11は、サーバ20から応答音声データが送られてくるのを待つ(ステップ107)。サーバ20からの応答音声データを受信すると、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させる(ステップ108)。そして、ステップ105に戻る。このようにして、ステップ105〜108の処理を繰り返し実行する。
【0028】
クライアント10−Nの制御部11は、ステップ105において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0029】
次に、図4を参照して、サーバ20の処理手順について説明する。
【0030】
サーバ20は、クライアント10−Nからの制御対象機器特定情報を受信すると(ステップ201)、この情報に基づいて制御対象機器を特定する(ステップ202)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ203)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ204)。つまり、その制御種類において制御に必要な情報を取得するための対話モードを設定する。
【0031】
サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ205)。一定時間内に音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ206)。
【0032】
そして、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ207)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ208)、生成した応答内容を音声合成した後(ステップ209)、合成音声データをクライアント10−Nに送信する(ステップ210)。そして、ステップ205に戻る。このようにして、ステップ205〜210の処理を繰り返し実行する。
【0033】
制御に必要な情報を全て取得すると、ステップ207でYESとなるので、サーバ20は、制御信号を生成し(ステップ211)、上記ステップ202で特定した制御対象機器に制御信号を送信する(ステップ212)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ213)。そして、今回の処理を終了する。
【0034】
なお、上記ステップ205において、一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ213)、今回の処理を終了する。
【0035】
クライアント10−Nに音声入力を行うユーザと、サーバ20との対話例を以下に示しておく。Uは、ユーザによって入力された音声の内容を、Sはサーバ20から送られてきた合成音声の内容を表している。
【0036】
U:録画予約
S:録画予約ですね。番組名をおっしゃって下さい。
U:ニュースステーション
S:いつのニュースステーションですか?
U:今週の水曜日
S:今週の水曜日のニュースステーションですね?
U:はい
S:わかりました。今週の水曜日のニュースステーションを録画予約しました。
【0037】
なお、制御対象機器特定情報および制御種類特定情報を、ユーザに音声入力させるようにしてもよい。この場合には、クライアント10−Nは音声入力された音声データをサーバ20に送る。サーバ20は、送られてきた音声データに対して音声認識を行うことにより、制御対象機器を特定するとともに、制御種類を特定する。
【0038】
〔2〕第2の実施の形態の説明
【0039】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0040】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0041】
図5は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0042】
クライアント10−Nは、図2と同様に、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0043】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部22、制御対象機器特定部23、対話モード設定部24、音声合成部35、制御信号送信部36の他、正誤判定情報受信部37および認識結果送信部38を備えている。
【0044】
この実施の形態では、サーバ20は、クライアント10−Nからの音声データを音声認識した場合には、認識結果送信部38によって、その音声認識結果を示す表示データをクライアント10−Nに送信する。クライアント10−Nは、サーバ20からの音声認識結果を表すテキストデータを受信すると、そのテキストデータを表示部15に表示させ、ユーザにその認識結果が正しいか誤っているかを示す正誤判定情報を入力させる。クライアント10−Nは、ユーザによって入力された正誤判定情報をサーバ20に送る。サーバ20は、正誤判定情報受信部37によって正誤判定情報を受信し、その正誤判定情報に応じた処理を行う。
【0045】
図6はクライアント10−N側の処理手順を示し、図7はサーバ20側の処理手順を示している。
【0046】
まず、図6を参照して、クライアント10−Nの処理手順について説明する。
【0047】
ユーザは、まず、クライアント10−Nに制御対象機器を特定するための情報(制御対象機器特定情報)を入力する。クライアント10−Nの制御部11は、制御対象機器特定情報が入力されると(ステップ111)、制御対象機器特定情報をサーバ20に送信する(ステップ112)。
【0048】
また、ユーザは、制御種類を特定するための情報(制御種類特定情報)を入力する。クライアント10−Nの制御部11は、制御種類特定情報が入力されると(ステップ113)、制御種類特定情報をサーバ20に送信する(ステップ114)。
【0049】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0050】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ115)。一定時間内にユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ116)。
【0051】
そして、クライアント10−Nの制御部11は、サーバ20からの認識結果を表すテキストデータを受信したか否か(ステップ117)、サーバ20からの応答音声データを受信したか否か(ステップ118)を判別する。
【0052】
認識結果を表すテキストデータを受信した場合には、クライアント10−Nの制御部11は、認識結果を表示部15に表示する(ステップ119)。ユーザは、表示された認識結果を見て、その認識結果が正しいか誤っているかを示す正誤判定情報を入力する。クライアント10−Nの制御部11は、ユーザによって入力された正誤判定情報をサーバ20に送信する(ステップ120)。そして、ステップ117に戻る。
【0053】
サーバ20からの応答音声データを受信したときには(ステップ118でYES)、クライアント10−Nの制御部11は、受信した応答音声データをスピーカ13から出力させる(ステップ121)。そして、ステップ115に戻る。このようにして、ステップ115〜121の処理を繰り返し実行する。
【0054】
クライアント10−Nの制御部11は、ステップ115において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0055】
次に、図7を参照して、サーバ20の処理手順について説明する。
【0056】
サーバ20は、クライアント10−Nからの制御対象機器特定情報を受信すると(ステップ221)、この情報に基づいて制御対象機器を特定する(ステップ222)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ223)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ224)。
【0057】
サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ225)。一定時間内に音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ226)。サーバ20は、その認識結果を表すテキストデータをクライアント10−Nに送信する(ステップ227)。そして、サーバ20は、クライアント10−Nから上記認識結果に対する正誤判定情報が送られてくるのを待つ(ステップ228)。
【0058】
正誤判定情報を受信すると、サーバ20は、受信した正誤判定情報に基づいて上記認識結果が正しかったか否かを判別し(ステップ229)、正しければ、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ230)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ231)、生成した応答内容を音声合成した後(ステップ232)、合成音声データをクライアント10−Nに送信する(ステップ233)。そして、ステップ225に戻る。
【0059】
上記ステップ229において認識結果が誤っていると判別した場合には、サーバ20は、次の認識結果候補があるか否かを判別する(ステップ234)。次の認識結果候補がある場合には、サーバ20は、当該次の認識結果を取得して(ステップ235)、その認識結果を表すテキストデータをクライアント10−Nに送信する(ステップ227)。そして、ステップ228に移行する。
【0060】
上記ステップ234において、次の認識結果候補がないと判別した場合には、サーバ20は、「音声認識を誤ったため、再度、音声入力を行って下さい」といった再入力を促す応答内容を生成し(ステップ236)、生成した応答内容を音声合成した後(ステップ232)、合成音声データをクライアント10−Nに送信する(ステップ233)。そして、ステップ225に戻る。
【0061】
制御に必要な情報を全て取得すると、ステップ230でYESとなるので、サーバ20は、制御信号を生成し(ステップ237)、上記ステップ222で特定した制御対象機器に制御信号を送信する(ステップ238)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ239)。そして、今回の処理を終了する。
【0062】
なお、上記ステップ225において、一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ239)、今回の処理を終了する。
【0063】
上記実施の形態では、音声認識結果をテキストデータとしてサーバ20からクライアント10−Nに送信し、クライアント10−N側でそれを表示するという例を示したが、音声認識結果であるテキストデータをサーバ20側で音声合成し、合成音声をサーバ20からクライアント10−N側に送信し、クライアント10−N側でそれをスピーカから出力するようにしてもよい。
【0064】
〔3〕第3の実施の形態の説明
【0065】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0066】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0067】
図8は、クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示している。
【0068】
クライアント10−Nは、図2と同様に、制御部11、マイク12、スピーカ13、操作部14、表示部15等を備えている。
【0069】
サーバ20は、音声対話処理部30を備えている。音声対話処理部30は、対話管理部31、音声認識部22、制御対象機器特定部23、対話モード設定部24、音声合成部35、制御信号送信部36の他、個人認証部39および対話履歴記憶部40を備えている。
【0070】
個人認証部39は、音声対話を行うユーザを、音声、指紋、顔画像等によって特定するものである。対話履歴記憶部40は、各ユーザとの対話履歴を、個人認証部39によって特定したユーザ毎に記憶するものである。
【0071】
この実施の形態では、サーバ20は、対話を開始する前にユーザを認証し、対話履歴記憶部40を参照して、そのユーザに対応する対話履歴をチェックする。そのユーザに対応する対話履歴に基づいて、伝達事項があるか否かを判別し、伝達事項がある場合には、伝達事項を表す合成音声データを生成して、クライアントに送信する。
【0072】
サーバ20が、対話履歴に基づいて伝達事項があると判別し、伝達事項を表す合成音声データを送信する場合の具体例について説明する。Uは、ユーザによって入力された音声の内容を、Sはサーバ20から送られてきた合成音声の内容を表している。
【0073】
・対話履歴(ある日におけるユーザとサーバとの対話)
U:今日の阪神の試合を録画して。
S:はい、今日の阪神の試合を録画予約しました。
・伝達事項の送信(翌日におけるユーザとサーバとの対話)
U:昨日の試合録画できた。
S:昨日は雨で中止になりましたので、録画するのをやめました。
【0074】
図9はクライアント10−N側の処理手順を示し、図10はサーバ20側の処理手順を示している。
【0075】
まず、図9を参照して、クライアント10−Nの処理手順について説明する。
【0076】
ユーザは、まず、個人認証用の音声入力を行う。クライアント10−Nの制御部11は、個人認証用の音声が入力されると(ステップ131)、個人認証用の音声データをサーバ20に送信する(ステップ132)。
【0077】
次に、クライアント10−Nの制御部11は、一定時間内に、サーバ20から伝達事項を表す音声データが送られてきるか否かを判別する(ステップ133)。一定時間内に、サーバ20からの伝達事項を表す音声データを受信した場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させた後(ステップ134)、ステップ135に移行する。一定時間内に、サーバ20からの伝達事項を表す音声データを受信しなかった場合には、ステップ135に移行する。
【0078】
ステップ135では、クライアント10−Nの制御部11は、一定時間内に制御対象機器を特定するための情報(制御対象機器特定情報)が入力されたか否かを判別する。一定時間内に制御対象機器特定情報が入力されると、クライアント10−Nの制御部11は、制御対象機器特定情報をサーバ20に送信する(ステップ136)。なお、一定時間内に、制御対象機器特定情報が入力されなかったときには、今回の処理を終了する。
【0079】
次に、クライアント10−Nの制御部11は、制御種類を特定するための情報(制御種類特定情報)が入力されるのを待つ(ステップ137)。制御種類特定情報が入力されると、制御種類特定情報をサーバ20に送信する(ステップ138)。
【0080】
この後、ユーザとサーバ20とが音声対話を行うことにより、制御対象機器を制御するのに必要な情報がサーバ20に与えられる。
【0081】
クライアント10−Nの制御部11は、一定時間内に、マイク12を介してユーザから音声が入力されたか否かを判別する(ステップ139)。一定時間内にユーザからの音声入力があれば、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信する(ステップ140)。そして、クライアント10−Nの制御部11は、サーバ20から応答音声データが送られてくるのを待つ(ステップ141)。サーバ20からの応答音声データを受信すると、クライアント10−Nの制御部11は、受信した応答音声データをスピーカ13から出力させる(ステップ142)。そして、ステップ139に戻る。このようにして、ステップ139〜142の処理を繰り返し実行する。
【0082】
クライアント10−Nの制御部11は、ステップ139において、一定時間内にユーザから音声が入力がないと判別すると、今回の処理を終了する。
【0083】
次に、図10を参照して、サーバ20の処理手順について説明する。
【0084】
サーバ20は、個人認証用音声を受信すると(ステップ241)、個人認証を行う(ステップ242)。そして、サーバ20は、当該ユーザの対話履歴をチェックし(ステップ243)、伝達事項があるか否かを判別する(ステップ244)。
【0085】
伝達事項がない場合には、ステップ248に移行する。伝達事項がある場合には、伝達事項に応じた応答内容を生成し(ステップ245)、生成した応答内容を音声合成した後(ステップ246)、合成音声データをクライアント10−Nに送信する(ステップ247)。そして、ステップ248に移行する。
【0086】
ステップ248では、サーバ20は、一定時間内に制御対象機器特定情報を受信したか否かを判別する。一定時間内にクライアント10−Nからの制御対象機器特定情報を受信すると(ステップ248)、サーバ20は、この情報に基づいて制御対象機器を特定する(ステップ249)。また、サーバ20は、クライアント10−Nからの制御種類特定情報を受信すると(ステップ250)、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ251)。
【0087】
次に、サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ252)。一定時間内に音声データを受信した場合には、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ253)。
【0088】
そして、サーバ20は、当該ユーザに対する対話履歴を更新する(ステップ254)。また、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ255)。制御に必要な情報を全て取得できていない場合には、サーバ20は、応答内容を生成し(ステップ256)、生成した応答内容を音声合成した後(ステップ257)、合成音声データをクライアント10−Nに送信する(ステップ258)。そして、ステップ252に戻る。このようにして、ステップ252〜258の処理を繰り返し実行する。
【0089】
制御に必要な情報を全て取得すると、ステップ255でYESとなるので、サーバ20は、制御信号を生成し(ステップ259)、制御対象機器に制御信号を送信する(ステップ260)。この後、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ261)。そして、今回の処理を終了する。
【0090】
なお、上記ステップ248において一定時間内に制御対象機器特定情報を受信できなかった場合、または上記ステップ251において一定時間内にクライアント10−Nからの音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ261)、今回の処理を終了する。
【0091】
〔4〕第4の実施の形態の説明
【0092】
この実施の形態においても、ホームネットワークシステムの構成は図1と同じである。
【0093】
クライアント10−Nを介してユーザがサーバ20と音声対話を行うことにより、他のクライアントを制御する場合について説明する。
【0094】
クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)の構成は、図2と同じである。
【0095】
この実施の形態では、クライアント10−Nからサーバ20に動作開始指示が送られると、対話進行のための案内が全てサーバ20側によって行われる。
【0096】
図11はクライアント10−N側の処理手順を、図12はサーバ20側の処理手順を、それぞれ示している。
【0097】
まず、ユーザ操作によって動作開始指令が入力されると(ステップ151)、クライアント10−Nの制御部11は、動作開始指令をサーバ20に送信する(ステップ152)。
【0098】
この後においては、クライアント10−Nの制御部11は、サーバ20からの音声データ(合成音声データ)が送られてくるのを待つ(ステップ153)。サーバ20からの音声データを受信すると、クライアント10−Nの制御部11は、受信した音声データが、終了を意味する音声データ(終了情報)であるか否かを判別する(ステップ154)。
【0099】
受信した音声データが終了を意味する音声データでない場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力(音声出力)させる(ステップ155)。次に、クライアント10−Nの制御部11は、ユーザからの音声入力を待つ(ステップ156)。ユーザからの音声入力があると、クライアント10−Nの制御部11は、入力された音声データをサーバ20に送信した後(ステップ157)、ステップ153に戻る。
【0100】
上記ステップ154で、サーバから受信した音声データが終了を意味する音声データであると判別した場合には、クライアント10−Nの制御部11は、受信した音声データをスピーカ13から出力させる(ステップ158)。そして、今回の処理を終了する。
【0101】
次に、図12を参照して、サーバ20の処理手順について説明する。
【0102】
サーバ20は、クライアント10−Nからの動作開始指令を受信すると(ステップ271)、制御対象機器を特定するための情報(制御対象機器特定情報)の入力を要求するための合成音声データを送信する(ステップ272)。
【0103】
そして、サーバ20は、一定時間内にクライアント10−Nからの制御対象機器特定情報を受信したか否かを判別する(ステップ273)。一定時間内にクライアント10−Nからの制御対象機器特定情報を受信すると、サーバ20は、この情報に基づいて制御対象機器を特定する(ステップ274)。
【0104】
次に、サーバ20は、制御種類を特定するための情報(制御種類特定情報)の入力を要求するための合成音声データを送信する(ステップ275)。そして、サーバ20は、一定時間内にクライアント10−Nからの制御種類特定情報を受信したか否かを判別する(ステップ276)。一定時間内にクライアント10−Nからの制御種類特定情報を受信すると、サーバ20は、制御種類を特定するとともに特定した制御種類に応じた対話モードを設定する(ステップ277)。
【0105】
そして、サーバ20は、応答内容を生成し(ステップ278)、生成した応答内容を音声合成した後(ステップ279)、合成音声データをクライアント10−Nに送信する(ステップ280)。
【0106】
次に、サーバ20は、一定時間内にクライアント10−Nからの音声データを受信したか否かを判別する(ステップ281)。音声データを受信した場合には、サーバ20は、制御に必要な情報を取得するために、受信した音声データに対して音声認識を行う(ステップ282)。
【0107】
そして、サーバ20は、制御に必要な情報を全て取得できたか否か、つまり制御を行うことが可能か否かを判別する(ステップ283)。制御に必要な情報を全て取得できていない場合には、サーバ20は、ステップ278に戻って応答内容を生成し、生成した応答内容を音声合成した後(ステップ279)、合成音声データをクライアント10−Nに送信する(ステップ280)。そして、ステップ281に移行する。このようにして、ステップ278〜283の処理を繰り返し実行する。
【0108】
制御に必要な情報を全て取得すると、ステップ283でYESとなるので、サーバ20は、制御信号を生成し(ステップ284)、制御対象機器に制御信号を送信する(ステップ285)。この後、終了を意味する合成音声データを生成して、クライアント10−Nに送信する(ステップ286)。そして、今回の処理を終了する。
【0109】
なお、上記ステップ273において一定時間内に制御対象機器特定情報を受信できなかった場合、上記ステップ276において一定時間内に制御種類特定情報を受信できなかった場合、または上記ステップ281において、一定時間内に音声データを受信できなかった場合には、サーバ20は、終了を意味する合成音声データを生成して、クライアント10−Nに送信した後(ステップ286)、今回の処理を終了する。
【0110】
上記各実施の形態においては、サーバ20からの応答音声を出力した後に、ユーザからの音声入力を受け付けるという処理となっているが、サーバ20からの応答音声出力中に、ユーザからの音声入力を受け付けるようにしてもよい。
【0111】
【発明の効果】
この発明によれば、ユーザが音声入出力機器を備えたクライアント側機器を介してサーバと音声対話を行うことにより、制御対象となるクライアント側機器をサーバに制御させることができるようになる。
【図面の簡単な説明】
【図1】ホームネットワークシステムの構成を示すブロック図である。
【図2】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図3】第1の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図4】第1の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図5】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図6】第2の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図7】第2の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図8】クライアント10−N、サーバ20および制御対象機器であるクライアント(例えば10−3)を示すブロック図である。
【図9】第3の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図10】第3の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【図11】第4の実施の形態におけるクライアント10−N側の処理手順を示すフローチャートである。
【図12】第4の実施の形態におけるサーバ20側の処理手順を示すフローチャートである。
【符号の説明】
10−1〜10−N クライアント
20 サーバ
Claims (4)
- 複数のクライアント側機器がサーバに接続されている機器制御システムにおいて、
複数のクライアント側機器のうち少なくとも1つのクライアント側機器は音声入出力装置を備えており、
サーバは、音声入出力装置を備えているクライアント側機器を介してユーザと音声対話を行うことによって、制御に必要な情報を取得するための音声対話処理手段、および音声対話処理手段によって得られた情報に基づいて、制御対象となるクライアント側機器を制御する手段を備えていることを特徴とする機器制御システム。 - 音声入出力装置を備えているクライアント側機器は、ユーザに制御対象機器を特定するための制御対象機器特定情報を入力させるための手段、および入力された制御対象機器特定情報をサーバに送信する手段を備えており、
サーバは、上記クライアント側機器から送られてきた制御対象機器特定情報に基づいて、制御対象機器を特定する手段を備えていることを特徴とする請求項1に記載の機器制御システム。 - 音声入出力装置を備えているクライアント側機器は、ユーザに制御種類を特定するための制御種類特定情報を入力させるための手段、および入力された制御種類特定情報をサーバに送信する手段を備えており、
サーバは、上記クライアント側機器から送られてきた制御種類特定情報に基づいて、その制御種類に応じた制御情報を取得するための対話モードを設定する手段を備えていることを特徴とする請求項2に記載の機器制御システム。 - サーバは、音声入出力装置を備えているクライアント側機器から送られてきた音声データに対する音声認識結果を上記クライアント側機器に送る手段を備えており、上記クライアント側機器はサーバから送られてきた音声認識結果を出力させる手段、ユーザにその音声認識結果が正しいか誤っているかを示す正誤判定情報を入力させる手段、および入力された正誤判定情報をサーバに送信する手段を備えており、サーバは、上記クライアント側機器から音声認識結果が誤っていることを示す正誤判定情報が送られてきた場合には、上記音声認識結果に対して次候補があるか否かを判別し、次候補がある場合にはその次候補を音声認識結果として上記クライアント側に送信する手段を備えていることを特徴とする請求項1、2および3のいずれかに記載の機器制御システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194464A JP2005031856A (ja) | 2003-07-09 | 2003-07-09 | 機器制御システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003194464A JP2005031856A (ja) | 2003-07-09 | 2003-07-09 | 機器制御システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031856A true JP2005031856A (ja) | 2005-02-03 |
Family
ID=34205623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003194464A Pending JP2005031856A (ja) | 2003-07-09 | 2003-07-09 | 機器制御システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031856A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011121956A1 (ja) | 2010-03-31 | 2011-10-06 | 日本電気株式会社 | 無線通信装置および電流低減方法 |
JP2019169173A (ja) * | 2019-05-16 | 2019-10-03 | 株式会社リコー | 情報処理システム、情報処理装置、及びプログラム |
JP2022164744A (ja) * | 2018-03-07 | 2022-10-27 | グーグル エルエルシー | カスタムデバイスアクションの音声ベースの起動のためのシステムおよび方法 |
-
2003
- 2003-07-09 JP JP2003194464A patent/JP2005031856A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011121956A1 (ja) | 2010-03-31 | 2011-10-06 | 日本電気株式会社 | 無線通信装置および電流低減方法 |
US9065891B2 (en) | 2010-03-31 | 2015-06-23 | Lenovo Innovations Limited | Radio communication apparatus and current reducing method |
JP2022164744A (ja) * | 2018-03-07 | 2022-10-27 | グーグル エルエルシー | カスタムデバイスアクションの音声ベースの起動のためのシステムおよび方法 |
US12002463B2 (en) | 2018-03-07 | 2024-06-04 | Google Llc | Systems and methods for voice-based initiation of custom device actions |
JP2019169173A (ja) * | 2019-05-16 | 2019-10-03 | 株式会社リコー | 情報処理システム、情報処理装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112714330A (zh) | 基于连麦直播的礼物赠送方法、装置及电子设备 | |
CN111739553A (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
CN107748500A (zh) | 用于控制智能设备的方法和装置 | |
CN101281690A (zh) | 一种教学辅助装置、系统及教学辅助方法 | |
KR20070012468A (ko) | 송신자로부터 수신자로 메시지를 전송하는 방법, 메시징시스템 및 메시지 변환 수단 | |
TW200820216A (en) | Improved methods and apparatus for delivering audio information | |
CN109859759B (zh) | 显示屏颜色的校正方法、装置和显示设备 | |
EP1119157B1 (en) | Terminal device, apparatus and method for controlling a terminal device, and method of controlling a process in a terminal device | |
CN109036374A (zh) | 数据处理方法和装置 | |
EP3683792B1 (en) | Information processing device and information processing method | |
US20210249007A1 (en) | Conversation assistance device, conversation assistance method, and program | |
JP2005086768A (ja) | 制御装置、制御方法およびプログラム | |
US8695030B2 (en) | Instant messaging with a media device | |
US20240112680A1 (en) | Assisted Speech Recognition | |
CN114244793A (zh) | 信息处理方法、装置、设备及存储介质 | |
JP2005031856A (ja) | 機器制御システム | |
CN114647469B (zh) | 数据处理方法及系统 | |
WO2018051144A1 (en) | A method and system for authenticating a device | |
WO2017140153A1 (zh) | 语音控制方法及装置 | |
JP2002101205A (ja) | 会議支援装置及び方法並びにこれに利用される記憶媒体 | |
CN113314115B (zh) | 终端设备的语音处理方法、终端设备及可读存储介质 | |
JP2001056796A (ja) | ネットワークシステム、通信端末装置及び携帯装置 | |
JP7489928B2 (ja) | 音声により機器を操作するための情報処理装置、システム、機器制御装置、およびプログラム | |
CN109104535B (zh) | 一种信息处理方法、电子设备及系统 | |
CN115174283B (zh) | 主持权限配置方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070516 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071002 |