JP2016014967A

JP2016014967A - 情報管理方法

Info

Publication number: JP2016014967A
Application number: JP2014135898A
Authority: JP
Inventors: 菜々美藤原; Nanami Fujiwara; 由理西川; Yuri Nishikawa
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2016-01-28

Abstract

【課題】音声入力を用いて機器操作可能な音声機器制御システムにおいて、入力音声の認識誤りを容易に修正可能な音声機器制御システムの情報管理方法を提供する。【解決手段】音声指示情報の認識結果に基づいて、特定機器の一以上の候補および動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第１表示画面を表示装置に表示させる第１表示画面情報を、表示装置へ送信し、表示装置において第１表示画面が表示されている間に、特定機器の候補とは異なる他の対象機器を示す音声情報を受信した場合、他の対象機器を示す音声情報の認識結果に基づいて、表示装置へ、他の対象機器の一以上の候補および動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第２表示画面を表示装置に表示させる第２表示画面情報を送信する。【選択図】図２

Description

本発明は、ユーザの音声指示によって複数の対象機器を制御可能な音声機器制御システムの情報管理方法に関するものである。

近年、音声認識技術の発達により、音声認識精度が大きく向上している。これに伴い、各種の機器を音声によって操作する機器管理システムが検討されている。これによって、煩わしいボタン操作をすることなく、ユーザが各種の機器に所望の操作内容を発話することで、各種の機器が制御可能になることが期待されている。

特開２０１１−１５０６８２号公報

しかし、上記システムは未だ検討すべき事項が多く、実用化には更なる改善が必要であった。

上記課題を解決するための、音声機器制御システムにおける機器制御方法の一態様は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の候補および前記第２音声情報の示す動作指示内容の候補をそれぞれ独立して表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、前記表示装置において前記第１表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して表示する第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する。

上記態様により、更なる改善を実現できた。

本発明の実施の態様に係る音声機器操作システムが提供する構成全体像を示す図である。本発明の実施の態様に係るサーバ１の構成を示すブロック図である。本発明の実施の態様に係るマイク３の構成を示すブロック図である。本発明の実施の態様に係る操作対象機器４の構成を示すブロック図である。本発明の実施の態様に係る操作端末２の構成を示すブロック図である。本発明の実施の態様に係る音声機器操作システムの一連の通信処理のシーケンスを示すシーケンス図である。本発明の実施の態様に係る音声認識処理および操作機器候補決定処理の手順を示すフローチャートである。本発明の実施の態様に係る待機時間決定処理の手順を示すフローチャートである。本発明の実施の態様に係る表示処理の手順を示すフローチャートである。本発明の実施の態様に係る機器操作待機処理の手順を示すフローチャートである。本発明の実施の態様に係る待機時間決定テーブルを示す図である。（ａ）、（ｂ）はそれぞれ、本発明の実施の態様に係る表示画面の一例を示す図である。（ａ）、（ｂ）はそれぞれ、本発明の実施の態様に係る表示画面の一例を示す図である。（ａ）、（ｂ）はそれぞれ、本発明の実施の態様に係る認識辞書の一例を示す図である。（Ａ）は、本実施の形態における情報管理システムが提供するサービスの全体像を示す図であり、（Ｂ）は、機器メーカがデータセンタ運営会社に該当する例を示す図であり、（Ｃ）は、機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。サービスの類型１（自社データセンタ型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。サービスの類型２（ＩａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。サービスの類型３（ＰａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。サービスの類型４（ＳａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。

（本発明の基礎となった知見）
音声入力を用いて対象機器に所望の動作を指示する場合、入力された音声に基づく音声認識結果が誤りであったときには対象機器にユーザの意図しない動作が指示されてしまう。そのため、音声認識結果をユーザへ提示し、認識された動作指示を実行するか否かについてユーザへ確認を求める技術が開示されている（特許文献１）。

具体的に、特許文献１は、ユーザの音声入力による対象機器への動作指示に対して音声認識を行い、音声認識結果に基づいてユーザの意図した動作指示の候補をリストとして表示する内容を開示する（特許文献１の図５Ａ）。このリストから、ユーザは自身が望んだ動作に係る項目を選択し、対象機器に対して所望の動作を実行させる。

しかし、上記技術は、音声認識結果に基づく動作指示の候補をリストとして表示するため、例えば、ユーザの入力音声を正しく認識できなかった場合には、リスト内にユーザの望む動作を実行させる項目が含まれず、ユーザは対象機器に対して所望の動作を実行させられないことが考えられる。そのためユーザは、対象機器に所望の動作を実行させるために、リストの表示をキャンセルし、再度音声入力しなければならないという課題があった。

また、特許文献１は、ユーザが「ビル（人名）へ電話する」ことを所望している場合を例示しており、「ＣａｌｌＢｉｌｌ」と発話したことを想定した記述がある。このとき、例えば、「Ｃａｌｌ」との発話が正しく音声認識され、「Ｂｉｌｌ」との発話が誤って認識されたとすると、動作指示の候補として、例えば、「フィルに電話する」、「ジェフに電話する」、「ホワンに電話する」などがリストとして提示され、ユーザはこの中から項目を選択しなければならないが、これらはユーザの所望する動作ではないため、リストをキャンセルして再び「ＣａｌｌＢｉｌｌ」と発話することになる。ここで、先ほどの音声認識とは異なり、今度は「Ｃａｌｌ」との発話が誤って音声認識され、「Ｂｉｌｌ」との発話が正しく認識されたとすると、動作指示の候補として、例えば、「ビルにメールする」、「ビルの連絡先を表示する」、「ビルを検索する」などがリストとして提示され、ユーザはこの中から項目を選択することとなる。このように、入力音声の一部分は正しく認識され、他の部分は誤って認識される場合などであっても、入力音声の全てが正しく認識されるまでユーザは何度も言い直しを強いられるという課題もあった。

そこで、音声機器操作システムの機能向上のため、以下の改善策を検討した。

音声機器制御システムにおける情報管理方法の一態様は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の候補および前記第２音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、前記表示装置において前記第１表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して選択可能に表示する第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する。

上記態様によると、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおいて、前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の候補および前記第２音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、前記表示装置において前記第１表示画面が表示されている間に受信した、前記特定機器の候補とは異なる他の対象機器を示す第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して選択可能に表示する第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する。即ち、音声入力を用いた対象機器への動作指示において音声認識の誤りを修正するにあたって、対象機器の誤りと、指定した対象機器への動作指示内容の誤りとを別々に修正できる。

これによって、例えば、音声入力を用いて対象機器に動作指示を行う場合、入力音声の対象機器を指定する部分が誤って認識された場合であっても、音声入力を初めからやり直すことなく、入力音声のうちの誤って認識された対象機器を指定する部分のみを再度音声入力するだけで、対象機器に対して所望の動作を指示できる。

上記態様において、例えば、前記音声指示情報は第１音声認識辞書を用いて認識し、前記第３音声情報は前記第１音声認識辞書よりも登録単語が少ない第２音声認識辞書を用いて認識し、前記第２音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されているとしてもよい。

上記態様によると、前記音声指示情報は第１音声認識辞書を用いて認識し、前記第３音声情報は、前記第１音声認識辞書よりも登録単語が少なく、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている第２音声認識辞書を用いて認識する。即ち、対象機器への動作指示を初めに受け付ける場合は、登録単語数の多い音声認識辞書を用いて音声認識を行い、音声認識結果を修正する場合は、登録単語が限定されている音声認識辞書を用いて音声認識を行う。

対象機器への動作指示を初めに受け付ける場合は、ユーザによって様々な言いまわしが想定されるとともに、対象機器への動作指示に限らず、ユーザが対象機器に対して雑談をし始めることも想定されるため、自由な発話を受け付ける必要がある。そのため、多くの単語が登録された音声認識辞書を用いることで、自由な発話に対応させる必要がある。しかし、ユーザによる音声入力によって対象機器への動作指示が行われた後に、入力音声の音声認識結果を修正する場合は、その修正箇所は対象機器の名称または動作指示の内容に限定される。そのため、対象機器の名称を示す単語、または動作指示を示す単語のみが登録された音声認識辞書を用いて音声認識することで、入力音声とマッチングさせる単語数が減少するため、入力音声が誤った単語へマッチングされる可能性が減少する。結果として音声認識結果を修正するための発話に対する音声認識精度を向上させられる。上記態様において、例えば、前記第１表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、前記時間情報の示す期間が過ぎたと判断された場合に、前記第１表示画面に表示されている前記特定機器の候補のうち、選択されている前記候補が示す対象機器に対して、前記第１表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させるとしてもよい。

上記態様において、例えば、前記第１表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させるとしてもよい。

上記態様において、例えば、前記時間情報が示す期間の長さは、前記第１音声情報および／または前記第２音声情報の認識尤度に基づいて決定されるとしてもよい。

上記態様において、例えば、前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定するとしてもよい。

また、他の態様において、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の候補および前記第２音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３情報の示す他の動作指示内容の候補および前記特定機器の候補をそれぞれ独立して選択可能に表示す第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する。

上記態様によると、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおいて、前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の候補および前記第２音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３情報の示す他の動作指示内容の候補および前記特定機器の候補をそれぞれ独立して選択可能に表示す第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する。即ち、音声入力を用いた対象機器への動作指示において音声認識の誤りを修正するにあたって、対象機器の誤りと、指定した対象機器への動作指示内容の誤りとを別々に修正できる。

これによって、例えば、音声入力を用いて対象機器に動作指示を行う場合、入力音声の動作指示部分が誤って認識された場合であっても、音声入力を初めからやり直すことなく、入力音声のうちの誤って認識された動作指示部分のみを再度音声入力するだけで、対象機器に対して所望の動作を指示できる。

対象機器への動作指示を初めに受け付ける場合は、ユーザによって様々な言いまわしが想定されるとともに、対象機器への動作指示に限らず、ユーザが対象機器に対して雑談をし始めることも想定されるため、自由な発話を受け付ける必要がある。そのため、多くの単語が登録された音声認識辞書を用いることで、自由な発話に対応させる必要がある。しかし、ユーザによる音声入力によって対象機器への動作指示が行われた後に、入力音声の音声認識結果を修正する場合は、その修正箇所は対象機器の名称または動作指示の内容に限定される。そのため、対象機器の名称を示す単語、または動作指示を示す単語のみが登録された音声認識辞書を用いて音声認識することで、入力音声とマッチングさせる単語数が減少するため、入力音声が誤った単語へマッチングされる可能性が減少する。結果として音声認識結果を修正するための発話に対する音声認識精度を向上させられる。

上記態様において、例えば、前記第１表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、前記時間情報の示す期間が過ぎたと判断された場合に、前記第１表示画面に表示されている前記特定機器の候補のうち、選択されている前記候補が示す対象機器に対して、前記第１表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させるとしてもよい。

以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。

（提供するサービスの全体像）
まず、本実施の形態における情報管理システムが提供するサービスの全体像について説明する。

図１５（Ａ）は、本実施の形態における情報管理システムが提供するサービスの全体像を示す図である。情報管理システムは、グループ６００、データセンタ運営会社６１０及びサービスプロバイダ６２０を備える。

グループ６００は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ６００は、第１の機器及び第２の機器を含む複数の機器６０１およびホームゲートウェイ６０２を備える。複数の機器６０１は、インターネットと接続可能な機器（例えば、スマートフォン、パーソナルコンピュータ（ＰＣ）又はテレビ等）、及びそれ自身ではインターネットと接続不可能な機器（例えば、照明、洗濯機又は冷蔵庫等）を含む。複数の機器６０１は、それ自身ではインターネットと接続不可能であっても、ホームゲートウェイ６０２を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ６は、グループ６００内の複数の機器６０１を使用する。

データセンタ運営会社６１０は、クラウドサーバ６１１を備える。クラウドサーバ６１１は、インターネットを介して様々な機器と連携する仮想化サーバである。クラウドサーバ６１１は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社６１０は、データの管理、クラウドサーバ６１１の管理、及びそれらを行うデータセンタの運営等を行っている。データセンタ運営会社６１０が行っている役務の詳細については後述する。

ここで、データセンタ運営会社６１０は、データの管理又はクラウドサーバ６１１の管理のみを行っている会社に限らない。例えば、図１５（Ｂ）に示すように、複数の機器６０１のうちの一つの機器を開発又は製造している機器メーカが、データの管理又はクラウドサーバ６１１の管理等を行っている場合は、機器メーカがデータセンタ運営会社６１０に該当する。また、データセンタ運営会社６１０は一つの会社に限らない。例えば、図１５（Ｃ）に示すように、機器メーカ及び管理会社が共同又は分担してデータの管理又はクラウドサーバ６１１の管理を行っている場合は、両者又はいずれか一方がデータセンタ運営会社６１０に該当する。

サービスプロバイダ６２０は、サーバ６２１を備える。ここで言うサーバ６２１とは、その規模は問わず、例えば、個人用ＰＣ内のメモリ等も含む。また、サービスプロバイダ６２０がサーバ６２１を備えていない場合もある。

なお、上記の情報管理システムにおいて、ホームゲートウェイ６０２は必須ではない。例えば、クラウドサーバ６１１が全てのデータ管理を行っている場合等は、ホームゲートウェイ６０２は不要となる。また、家庭内の全ての機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。

次に、上記の情報管理システムにおける情報の流れを説明する。

まず、グループ６００の第１の機器又は第２の機器は、各ログ情報をデータセンタ運営会社６１０のクラウドサーバ６１１にそれぞれ送信する。クラウドサーバ６１１は、第１の機器又は第２の機器のログ情報を集積する（図１５（Ａ）の矢印６３１）。ここで、ログ情報とは、複数の機器６０１の例えば運転状況又は動作日時等を示す情報である。例えば、ログ情報は、テレビの視聴履歴、レコーダーの録画予約情報、洗濯機の運転日時、洗濯物の量、冷蔵庫の開閉日時、又は冷蔵庫の開閉回数などを含むが、これらの情報に限らず、種々の機器から取得が可能な種々の情報を含んでもよい。なお、ログ情報は、インターネットを介して複数の機器６０１自体から直接クラウドサーバ６１１に提供されてもよい。また、ログ情報は、複数の機器６０１から一旦ホームゲートウェイ６０２に集積され、ホームゲートウェイ６０２からクラウドサーバ６１１に提供されてもよい。

次に、データセンタ運営会社６１０のクラウドサーバ６１１は、集積したログ情報を一定の単位でサービスプロバイダ６２０に提供する。ここで、一定の単位とは、データセンタ運営会社６１０が集積した情報を整理してサービスプロバイダ６２０に提供することの出来る単位でもよいし、サービスプロバイダ６２０が要求する単位でもよい。また、一定の単位で提供するとしているが、一定の単位でなくてもよく、状況に応じて提供する情報量が変化してもよい。ログ情報は、必要に応じてサービスプロバイダ６２０が保有するサーバ６２１に保存される（図１５（Ａ）の矢印６３２）。

そして、サービスプロバイダ６２０は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。情報が提供されるユーザは、複数の機器６０１を使用するユーザ６でもよいし、外部のユーザ７でもよい。ユーザ６，７への情報提供方法としては、例えば、サービスプロバイダ６２０から直接ユーザ６，７へ情報が提供されてもよい（図１５（Ａ）の矢印６３３，６３４）。また、ユーザ６への情報提供方法としては、例えば、データセンタ運営会社６１０のクラウドサーバ６１１を再度経由して、ユーザ６に情報が提供されてもよい（図１５（Ａ）の矢印６３５，６３６）。また、データセンタ運営会社６１０のクラウドサーバ６１１は、ログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ６２０に提供してもよい。

なお、ユーザ６は、ユーザ７と異なっていても同一であってもよい。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、本発明の実施の形態は、下記の実施例になんら限定されること無く、本発明の技術的範囲に属する限り、種々の形態をとり得る。

図１は、本実施形態における音声機器操作システムが提供する構成全体像を示す図である。

具体的に、音声機器操作システムは、サーバ１、操作端末２、マイク３、操作対象機器４、ネットワーク５を備える。

サーバ１は、操作端末２、マイク３、操作対象機器４の各々とデータの送受信を行う機能を有する。例えば、サーバ１は、マイク３から入力されたユーザの音声特徴量を受信し、画面表示に関する情報を操作端末２へ送信するなどの処理を行う。また、後述する各種の処理を実行する機能を有する。

操作端末２は、携帯通信端末、タブレット端末、専用表示機器端末、パーソナルコンピュータ（ＰＣ）、又はテレビなどである。ここに挙げたもの以外でも、ディスプレイを有し、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を表示できる端末であれば何でもよい。端末の操作は、タッチパネルによる入力、音声によるコマンド入力、およびボタン入力などが想定される。

マイク３は、サーバ１や操作端末２の機能の一部として備わっていてもよい。

操作対象機器４は、インターネットに接続可能な機能を有する。インターネットの接続方法として、機器自体が直接通信機能を備える、通信機能を持った別の機器を操作対象４に付与する、宅内ゲートウェイを介して接続するなどが一例として挙げられるが、その他種々の方法もとり得る。該当する機器としては、エアコン、テレビ、ＨＤＤレコーダー、照明などである。

ネットワーク５は、サーバ１、操作端末２、マイク３、操作対象機器４が接続される。接続方法の一例として、有線、無線によるＬＡＮ接続などが挙げられるが、各構成要素を通信可能に接続するものであれば、これに限らない。

図２は、本実施形態よるサーバ１の構成を示すブロック図である。

図２に示されるように、サーバ１は、モード管理部１０１、音声認識部１０２、単語解析部１０３、キーワード抽出部１０４、辞書選択部１０５、辞書格納部１０６、待機時間決定部１０７、待機モード格納部１０８、選択対象記憶部１０９、通信部１１０を備える。さらに、辞書格納部１０６には、認識辞書１１１およびキーワード限定認識辞書１１２が格納される。

後述するマイク３の通信部３０５から送信された音声特徴量データを受信し、音声認識部１０２と単語解析部１０３とキーワード抽出部１０４によって音声特徴量をテキストに変換、単語解析を行い、キーワードを抽出する。

モード管理部１０１では、音声機器操作システムのモードを管理し、機器操作指示モードであるか、または待機モードであるかを判定する。

機器操作指示モードとは、「エアコンつけて」「テレビ消して」など、ユーザからの機器操作指示が行われる状態のことである。

待機モードとは、ユーザによる音声指示を受けてから、機器を操作するまでの間であることを指す。この間は、操作端末２は図１２、図１３に示すような表示画面が表示され、操作対象機器名と操作方法をそれぞれ変更することができる。例えば、「エアコン」「テレビ」や「つけて」「消して」を別々に修正または追加できる。図１２、図１３の詳細は後述する。

モードを確認することで、キーワード抽出時の辞書選択や、待機時間決定の有無を判定する。

キーワード抽出部１０４では、辞書格納部１０６に格納されている辞書との比較により、テキストから文字列を抽出する。この際、辞書選択部１０５は、音声機器操作システムにおける現在のモードが、機器操作指示モードであるか、または指示を受けてから機器を操作するまでの待機モードであるかで参照する辞書を切り替える。

辞書選択部１０５では、モード管理部１０１で判定されたモードに基づいて、図１４（ａ）、（ｂ）で示すような一般的な単語を認識できる認識辞書１１１か、操作に関するものだけにキーワードを限定したキーワード限定認識辞書１１２を選択する。音声機器操作システムのモードが機器操作指示モードである場合は、認識辞書１１１が選択され、待機モードである場合は、キーワード限定認識辞書１１２が選択される。

図１４（ａ）、（ｂ）はそれぞれ、本実施形態による認識辞書の一例を示す図である。図１４（ａ）は一般的な単語を認識できる辞書、図１４（ｂ）は使用される操作対象機器や操作方法のみを記述した辞書である。例えば、一般的な単語を認識できる認識辞書では幅広い音声を認識できるが、認識率は低くなる。図１４（ｂ）のキーワード限定辞書１１２では、例えば「エアコン」「照明」「つけて」などのように、機器操作に特化した単語のみ含まれる。キーワード限定認識辞書には、操作対象機器名や操作方法を追加することもできる。

また、音声機器操作システムのモードが機器操作指示モードである場合には、待機時間決定部１０７で機器を操作するまでの時間を決定する。まず、抽出されたキーワードから、「エアコン」・「テレビ」などの操作対象機器名と「つける」・「消す」などの操作方法の各々の尤度を求める。具体的には、音声特徴量を変換したテキスト中のキーワードと、辞書格納部１０６に格納されているいずれかの認識辞書との比較処理を行う。次に、図１１の待機時間決定テーブルを参照し、得られた尤度に対応する待機時間を決定する。操作対象機器名と操作方法で尤度が異なる場合は、より低い方の尤度で参照し、待機時間を決定する。ただし、これらの待機時間の決定方法は一例であり、尤度を変数とした数式を用いて待機時間を決定してもよい。

図１１は、本実施形態に係る待機時間決定テーブルを示す図である。待機時間を決定する際にこの表を参照し待機時間を決定する。ただし、ここでの時間や閾値は一例であり、これに限らない。

待機モード格納部１０８では、待機モードであることを保存する。具体的には、待機時間の決定後、フラグを立てることである。次にユーザからの発話を受け取ったあと、モード管理部１０１でフラグが立っているかを確認し、待機モードであるか否かを確認する。

選択対象記憶部１０９では、キーワード抽出において一番尤度の高かった操作対象機器名と操作方法を記憶する。なお、選択対象を記憶するとともに、二番目、三番目に尤度の高かった操作対象機器名と操作方法も記憶しておく。また、待機モードの間に複数機器が選択された場合もここに情報が保持される。

図３は、本実施形態におけるマイク３の構成を示すブロック図である。

図３に示されるように、マイク３は、音声取得部３０１と、音声検出部３０２と、音声区間切り出し部３０３と、特徴量算出部３０４と、通信部３０５を有する。ここで音声信号とは、音声と雑音が含まれるものを指す。また、切り出された音声を音声データと定義する。

音声取得部３０１は、音声信号の検出動作をする。

音声検出部３０２は、音声信号を検出したか否かを判定する。

音声区間切り出し部３０３は、取得した音声信号の中から音声が存在する区間を検出し、検出した音声区間を切り出す。

特徴量算出部３０４は、切り出された音声データに基づいて音声特徴量を算出する。

通信部３０５は、特徴量算出部３０４によって算出された音声特徴量を、サーバ１へ送信する。

図４は、本実施形態による操作対象機器４の構成を示すブロック図である。

図４に示されるように、操作対象機器４は、通信部４０１、機器制御部４０２を有する。

通信部４０１は、サーバ１と情報を送受信する。

機器制御部４０２は、通信部４０１から得られた情報から機器の操作を行う部分である。

図５は、本実施形態による操作端末２の構成を示すブロック図である。

図５に示されるように、操作端末２は、入力検出部２０１、制御部２０２、表示部２０３、通信部２０４を有する。

入力検出部２０１は、ユーザからのタッチパネル、音声、およびボタンなどを用いた入力の情報を取得する。

制御部２０２は、入力検出部２０１、表示部２０３との情報の送受信と、通信部２０４とのやりとりを行う。例えば、ユーザから「エアコンつけて」と入力を受け付けると制御部２０２を通じて通信部２０４に送信する。通信部２０２から表示画面に関する情報を受信するとその情報を表示部２０３に送信する、などを行う。

表示部２０３は、制御部２０２から得られた情報を表示する。

通信部２０４は、入力検出部２０１の情報を、制御部２０２を解してサーバ１に送信し、サーバ１から画面表示に関する情報を受信する。

図６は、本実施形態に係る音声機器操作システムの一連の通信処理シーケンスを示すシーケンス図である。ユーザが操作対象機器４を操作するまでの一連の通信処理のシーケンスを示している。このシーケンスは、マイク３に対してユーザが音声を入力したときに開始される。

ステップＳ００１において、マイク３は特徴量抽出処理を行って音声特徴量を取得する。

ステップＳ００２において、ステップ００１から音声特徴量を受け取る。マイク３の通信部３０５より取得した音声特徴量に対して音声認識処理を行ったあと、操作機器候補決定処理を行う。

ステップＳ００３において、ステップＳ００２で得られた操作対象機器名、操作方法のキーワードを受け取り、待機時間を決定する。これらの処理は図７、図８に示されているため、詳細は後述する。

ステップＳ００４において、ステップＳ００３から操作対象機器名、操作方法と待機時間の情報を受け取り、操作端末２にステップＳ００２、ステップＳ００３で処理された結果を表示する。例えば、図１２、１３に示すような表示画面を操作端末２の表示部２０３に表示する。

待機モードの間にユーザからの発話が行われた場合は、ステップＳ００５において特徴抽出処理を行う。

Ｓ００６において、ステップＳ００５から音声特徴量を受け取り、音声認識、操作対象機器名や操作方法の訂正、または追加を行う。これらの処理も図７に示されているため、詳細は後述する。

ステップＳ００７において、ステップＳ００６から訂正、または追加された操作対象機器名や操作方法の情報を受け取り、操作機器を操作するまでの待機処理を行う。待機モードの間は、音声入力だけでなく、タッチパネルによる入力やボタン入力も受け付けることができる。

ステップＳ００８において、ステップＳ００７から待機モード終了通知と機器操作コマンドを受け取り、コマンド実行により操作対象機器を操作する。

例えば、「エアコンつけて」とユーザが発話すると、システムは音声認識処理を行う。はじめは機器操作指示モードなので、操作対象機器の「エアコン」と操作方法「つけて」が抽出されるはずである。しかし、操作方法の「つけて」の認識率が悪かったため、操作方法を「消して」と誤認識してしまうとする。この場合、表示画面には操作対象機器「エアコン」が選択された状態で最上部に、次に尤度の高かった「テレビ」「電気」がその下に表示される。同様に、操作方法「消して」が選択された状態で最上部に、次に尤度の高かった「消して」「下げて」がその下に表示される。尤度により決定された待機時間の間、システムは機器操作が行われるのを待つ。この間にユーザは画面表示を見て訂正を行うことができる。画面表示では、「エアコン」「消して」となってしまっている。ここでユーザは「つけて」のみ発話することで、「つけて」に変更することができる。

従来手法では、ユーザの発話を誤認識した場合に、一度全てをキャンセルしたあとすべて言い直さないといけないものが多いが、この手法であればシステムの誤認識に対する訂正の時間を大幅に削減することができ、ユーザの負担が軽くなる。

図７は、本実施形態に係る音声認識および操作機器候補決定処理の手順を示すフローチャートである。この処理は、図６における音声認識／操作機器候補決定処理（Ｓ００２）の詳細である。

ステップＳ２０２において、マイク３から得られた音声特徴量の音声認識処理を実行する。

ステップＳ２０３において、音声特徴量をテキストに変換し、単語解析を行う。

ステップＳ２０１において、待機モードかそうでないかを判断する。

ステップＳ２０１で待機モードないと判断された場合、ステップＳ２０４で通常の認識辞書と照合することにより、ステップＳ２０６でキーワードの抽出を行う。ここでは、「エアコン」・「テレビ」などの操作対象機器名と「つける」・「消す」などの操作方法のキーワードをそれぞれ抽出する。

また、ステップＳ２０１で待機モードと判断された場合、例えば、「エアコンつけて」とユーザが発話し、待機モードでないと判断された場合は、通常の認識辞書から「エアコン」「つけて」がキーワードとして抽出される。また「エアコン」とユーザが発話し、待機モードであると判断された場合は、キーワード限定認識辞書と照合し「エアコン」がキーワードとして抽出される。

また、待機モード中に「○○“も”」という発話があった場合は、複数機器を選択することができる。すなわち、予め「テレビ」「つけて」と選択された待機モードである場合に、ユーザが「エアコン“も”」と発話すると、「テレビ」と「エアコン」を「つけて」となる。ただし、操作方法が明らかに実行できない操作対象機器が含まれている場合は、複数機器として選択された機器でも実行しない。例えば、「エアコン」「弱めて」と選択された待機モードである場合に、ユーザが「テレビ“も”」と発話したとしても、「テレビ」は「弱める」ことができないので実行されない。

以上の処理により、モードに応じて辞書を切り替え、誤認識があった場合に、一部分（操作対象端末、もしくは操作方法）のみを変更することが可能である。

モードに応じた辞書の切り替えについて、機器操作指示モードの場合は、自由な発話を受け付ける必要があるため、通常の認識辞書を用いてキーワードを抽出する。しかし、待機モードの場合は、発話されるキーワードが限定されるので、通常の認識辞書を使う必要はなく、操作に必要な操作対象機器名と操作方法だけで構成されたキーワード限定辞書を用いることにより、認識誤りを減らすことができる。例えば、ユーザが「エアコン」と発話した場合、通常の認識辞書では「シネコン」と誤って認識してしまう場合がある。しかし、キーワード限定辞書を用いると「シネコン」は通常登録されていないため、「エアコン」を高い精度で認識することができ、誤認識を減らすことができる。

また、誤認識の一部分のみの変更について、例えば、一般に、ユーザが「エアコンつけて」と発話し、システムが「シネコンつけて」と認識した場合、それを訂正するために「エアコンつけて」ともう一度言い直さなければいけないことがある。さらに、もう一度言い直したときに「エアコン詰めて」と誤認識されてしまったとする。「エアコン」は正しく認識されたとしても、「つけて」が「詰めて」と認識されるといったように、次は他の部分を誤認識してしまうということも起こりうる。しかし本発明では、操作対象機器名と操作名のキーワードのみを抽出しており、操作対象機器名、もしくは操作名のみを別々に訂正することができるので、「シネコン」「つけて」と表示されていた場合、「エアコン」と発話するだけで「エアコン」「つけて」と訂正することができ、ユーザの手間が省ける。また、同じ操作方法で操作ができる機器名のみをユーザが発話することで、例えば「テレビも」と発話することで、複数機器を同時に操作することも可能にする。

誤認識訂正のユーザの手間が省ける。また、同一の操作方法で操作したい機器が複数ある場合、時間を短縮することができる。

図８は、本実施形態に係る待機時間決定処理の手順を示すフローチャートである。図６における待機時間決定処理（Ｓ００３）の詳細である。なお、待機時間の決定は、待機モードでない場合にのみ行われる。

ステップＳ３０１において、抽出されたキーワードの尤度を取得する。ここでは、例えば、「エアコン」・「テレビ」などの操作対象機器名と、「つける」・「消す」などの操作方法の各々の尤度を求める。

ステップＳ３０２において、図１１に示す尤度決定テーブルを参照し、得られた尤度から待機時間を決定する。操作対象機器名と操作方法で尤度が異なる場合は、より低い方の尤度で参照し待機時間を決定する。ただし、これらの待機時間の決定方法は一例であり、尤度を変数とした数式等を用いて待機時間を決定してもよい。

ステップＳ３０３において、モード管理部１０１に待機モード設定をする。

例えば、「エアコン」の尤度０．５、「つけて」の尤度０．８が得られたとする。この場合、より低い方の尤度で参照し、待機時間が５秒と決定する。なお、待機時間が過ぎると待機モードが終了し、表示されている内容のコマンド実行により操作対象機器を操作する。

以上の処理により、音声認識の尤度に応じた待機時間を設定する。キーワードの尤度は、ユーザの発話による入力音声に含まれる内容が特定の単語であったことの尤もらしさを示すため、ユーザの発話による入力音声を正しく音声認識できているか否かを示す指標となり得る。したがって、キーワードの尤度が高い場合は、ユーザの発話を正しく音声認識できている可能性が高いと同時に、ユーザによって音声認識結果の修正が行われる可能性は低くなる。また、反対にキーワードの尤度が低い場合は、ユーザの発話を誤って認識している可能性が高くなり、ユーザによって音声認識結果の修正が行われる可能性が高くなる。ユーザとしては、例えば、自分の発話した内容が正しく認識されているのであれば、その内容の示す処理が早く実行されて欲しいと考える。しかし、例えば、自分の発話した内容が誤って認識されているのであれば、誤って認識された内容の示す処理が実行される前に、音声認識結果を訂正する時間が欲しいと考える。

そのため、待機時間の長さをキーワードの尤度に基づいて変えることで、例えば、キーワードの尤度が高い場合は、短い待機時間が設定されるので、音声認識結果の示す処理を早く実行することができ、キーワードの尤度が低い場合は、長い待機時間が設定されるので、音声認識結果の示す処理が実行されるまでにユーザが音声認識結果を訂正する充分な時間を確保できる。

図９は、本発明の実施の態様に係る表示処理の手順を示すフローチャートである。図６における表示処理の詳細である。

ステップＳ４０１において、サーバから抽出されたキーワード、および待機時間を受け取る。この際、抽出されたキーワードは操作対象機器名、操作方法は各１つではなく、候補も含めて尤度の高い順に各３つ送られてくる。ただし、個数に関しては一例であり、２つや４つ以上など送られてくる個数はいくつでも構わない。操作対象機器が複数選択されている場合は、その情報も一緒に送られる。

例えば、「エアコンつけて」とユーザが発話した場合に、操作端末に送られるキーワードとして、操作対象機器名は「エアコン」「電気」「テレビ」となり、操作方法は「つけて」「消して」「下げて」となる。

ステップＳ４０２において、画面を更新する。図１２、図１３はその表示例である。

図１２（ａ）、（ｂ）はそれぞれ、本実施形態の表示画面の一例を示す図である。画面の左側には、操作対象機器が並んでおり、尤度の高い順に画面の多い部分を占有するように表示されている。画面の右側には、操作方法が並んでおり、操作対象機器同様、尤度の高い順に画面の多い部分を占有する。下のバーは待機時間を表し、時間と共に黒い部分の占有率が高くなる。黒い部分が左端まで到達すると待機モードを終了し、操作対象機器を操作する。また、選択されている操作対象機器や操作方法は、例えば、図１２（ｂ）のように背景色を変えることによって区別する。なお、選択されている操作対象機器が識別できれば、背景色を変える以外に表示を点滅させる方法、または選択されていない操作対象機器の表示色を薄くするなど、どのような表示方法を用いても良い。

図１３（ａ）、（ｂ）はそれぞれ、本実施形態の表示画面の一例を示す図である。画面の左側には、操作対象機器が並んでおり、尤度の高いものの棒グラフの高さが高くなるように表示される。例えば、尤度０．８の「エアコン」、尤度０．５の「テレビ」、尤度０．３の「照明」の順に、棒グラフの高さが低くなる。画面の右側は、操作方法が並んでおり、尤度の高い順に画面の多い部分を占有する。下のバーは待機時間を表し、図１２を参照して説明した動作と同様の動作をする。例えば、図１３（ａ）では「エアコン」が操作対象機器になっているが、ユーザが待機モードの間に「テレビ」と発話することで、図１４（ｂ）のように操作対象機器がテレビに変わる。以上の処理により、システムの内部の処理をユーザに明示的に見せる。例えば、ユーザの発話を正しく音声認識できている可能性が高い操作対象機器や操作方法のキーワードは、大きく表示されたり、一番上に表示されたりする。逆に、ユーザの発話を正しく音声認識できている可能性が低い操作対象機器や操作端末のキーワードは、小さく表示されたり、下の方に表示されたりする。これらを表示することで、ユーザは音声認識の示す処理が実行される前に、ユーザの意図した操作であるかを把握することができる。ユーザが自分の意図した操作であると確認できた場合は安心して処理の実行を待つことができるし、もし自分の意図した操作でなかった場合は訂正を行う必要があることを明示し、ユーザの発話の訂正を促すことができる。

図１０は、本実施形態に係る機器操作待機処理の手順を示すフローチャートである。図６における機器操作待機処理（Ｓ００７）の詳細である。

ステップＳ７０１において、待機時間内かどうかを判定する。ここで待機時間内でないと判断された場合は、待機モードを終了する。現在選択されている操作対象機器を、選択されている操作方法で操作するコマンドを送ることにより処理は終了する。

待機時間内であると判断された場合、ステップＳ７０２において、入力があるかどうかを判定する。ここでの判定では、音声入力によって処理された結果が送られてくるだけでなく、タッチパネルによるタッチ入力や、ボタン選択により入力された場合も含まれる。ここで入力がないと判断された場合は、このフローのはじめに戻る。

入力があると判断された場合、ステップＳ７０３において、機器の選択情報を更新し、ステップＳ７０４において画面を更新する。

以上の処理を待機時間が終了するまで行う。

例えば、「エアコン」「つけて」が選択された状態で待機時間内だったとする。他からの入力がなければ、待機時間終了後にエアコンがつく。ユーザが「テレビも」と発話した場合は、待機時間終了後にエアコンとテレビをつける操作を行う。ユーザが「テレビ」と発話した場合は、待機時間終了後テレビをつける操作を行う。

以上の処理により、待機モード中はユーザの発話を常時受け付け更新する。

例えば、待機画面に「エアコン」「つけて」が選択された状態で待機時間内であったとする。ここでユーザが「テレビ」や「テレビも」と発話したとき、画面には発話後すぐに、自分の発話した操作対象機器名もしくは操作方法の情報が更新されることになる。ユーザはこれをすぐに確認できるので、もし自分の意図した内容と異なっていた場合は訂正することができるし、そうでない場合は、安心して処理の実行を待つことができる。

なお、上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれらに限られるものでない。

（サービスの類型１：自社データセンタ型クラウドサービス）
図１６は、サービスの類型１（自社データセンタ型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ６２０がグループ６００から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ６２０が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ６２０が、ビッグデータを管理するクラウドサーバ６１１を保有している。したがって、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ６２０は、データセンタ（クラウドサーバ）７０３を運営及び管理している。また、サービスプロバイダ６２０は、オペレーティングシステム（ＯＳ）７０２及びアプリケーション７０１を管理する。サービスプロバイダ６２０は、サービスプロバイダ６２０が管理するＯＳ７０２及びアプリケーション７０１を用いてサービスを提供する（矢印７０４）。

（サービスの類型２：ＩａａＳ利用型クラウドサービス）
図１７は、サービスの類型２（ＩａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。ここで、ＩａａＳとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社６１０が、データセンタ（クラウドサーバ）７０３を運営及び管理している。また、サービスプロバイダ６２０は、ＯＳ７０２及びアプリケーション７０１を管理する。サービスプロバイダ６２０は、サービスプロバイダ６２０が管理するＯＳ７０２及びアプリケーション７０１を用いてサービスを提供する（矢印７０４）。

（サービスの類型３：ＰａａＳ利用型クラウドサービス）
図１８は、サービスの類型３（ＰａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。ここで、ＰａａＳとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社６１０は、ＯＳ７０２を管理し、データセンタ（クラウドサーバ）７０３を運営及び管理している。また、サービスプロバイダ６２０は、アプリケーション７０１を管理する。サービスプロバイダ６２０は、データセンタ運営会社６１０が管理するＯＳ７０２及びサービスプロバイダ６２０が管理するアプリケーション７０１を用いてサービスを提供する（矢印７０４）。

（サービスの類型４：ＳａａＳ利用型クラウドサービス）
図１９は、サービスの類型４（ＳａａＳ利用型クラウドサービス）における情報管理システムが提供するサービスの全体像を示す図である。ここで、ＳａａＳとは、ソフトウェア・アズ・ア・サービスの略である。ＳａａＳ利用型クラウドサービスは、例えば、データセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社６１０は、アプリケーション７０１を管理し、ＯＳ７０２を管理し、データセンタ（クラウドサーバ）７０３を運営及び管理している。また、サービスプロバイダ６２０は、データセンタ運営会社６１０が管理するＯＳ７０２及びアプリケーション７０１を用いてサービスを提供する（矢印７０４）。

以上、いずれのクラウドサービスの類型においても、サービスプロバイダ６２０がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、ＯＳ、アプリケーション又はビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。

本発明に係る情報管理方法は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって複数の対象機器を制御可能な音声機器制御システムにおいて有用である。

１サーバ
２操作端末
３マイク
４操作対象機器
５ネットワーク
１０１モード管理部
１０２音声認識部
１０３単語解析部
１０４キーワード抽出部
１０５辞書選択部
１０６辞書格納部
１０７待機時間決定部
１０８待機モード格納部
１０９選択対象記憶部
１１０通信部
１１１認識辞書
１１２キーワード限定認識辞書
２０１入力検出部
２０２制御部
２０３表示部
２０４通信部
３０１音声取得部
３０２音声検出部
３０３音声区間切り出し部
３０４特徴量算出部
３０５通信部
４０１通信部
４０２機器制御部

Claims

複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、
前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、
前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の一以上の候補および前記第２音声情報の示す動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、
前記表示装置において前記第１表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３音声情報の示す他の対象機器の一以上の候補および前記動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する、
情報管理方法。
前記音声指示情報は第１音声認識辞書を用いて認識し、
前記第３音声情報は前記第１音声認識辞書よりも登録単語が少ない第２音声認識辞書を用いて認識し、
前記第２音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている、
請求項１に記載の情報管理方法。
前記第１表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、
前記時間情報の示す期間が過ぎたと判断された場合に、前記第１表示画面に表示されている前記特定機器の一以上の候補のうち、選択されている候補が示す対象機器に対して、前記第１表示画面に表示されている前記動作指示内容の一以上の候補のうち、選択されている候補が示す動作指示内容を実行させる、
請求項１に記載の情報管理方法。
前記第１表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させる、
請求項３に記載の情報管理方法。
前記時間情報が示す期間の長さは、前記第１音声情報および／または前記第２音声情報の認識尤度に基づいて決定される、
請求項３または４に記載の情報管理方法。
前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、
前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定する、
請求項５に記載の情報管理方法。
複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、
前記複数の対象機器の中の特定機器を示す第１音声情報と、前記特定機器に対する動作指示内容を示す第２音声情報とを含む音声指示情報を受信し、
前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第１音声情報の示す特定機器の一以上の候補および前記第２音声情報の示す動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第１表示画面を前記表示装置に表示させる第１表示画面情報を送信し、
前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第３音声情報を受信した場合、前記第３音声情報の認識結果に基づいて、前記表示装置へ、前記第３情報の示す他の動作指示内容の一以上の候補および前記特定機器の一以上の候補をそれぞれ独立して選択可能に表示す第２表示画面を前記表示装置に表示させる第２表示画面情報を送信する、
情報管理方法。
前記音声指示情報は第１音声認識辞書を用いて認識し、
前記第３音声情報は前記第１音声認識辞書よりも登録単語が少ない第２音声認識辞書を用いて認識し、
前記第２音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている、
請求項７に記載の情報管理方法。
前記第１表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、
前記時間情報の示す期間が過ぎたと判断された場合に、前記第１表示画面に表示されている前記特定機器の一以上の候補のうち、選択されている候補が示す対象機器に対して、前記第１表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させる、
請求項７に記載の情報管理方法。
前記第１表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させる、
請求項９に記載の情報管理方法。
前記時間情報が示す期間の長さは、前記第１音声情報および／または前記第２音声情報の認識尤度に基づいて決定される、
請求項９に記載の情報管理方法。
前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、
前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定する、
請求項１１に記載の情報管理方法。