JP2016014967A - 情報管理方法 - Google Patents

情報管理方法 Download PDF

Info

Publication number
JP2016014967A
JP2016014967A JP2014135898A JP2014135898A JP2016014967A JP 2016014967 A JP2016014967 A JP 2016014967A JP 2014135898 A JP2014135898 A JP 2014135898A JP 2014135898 A JP2014135898 A JP 2014135898A JP 2016014967 A JP2016014967 A JP 2016014967A
Authority
JP
Japan
Prior art keywords
information
voice
candidates
display screen
indicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014135898A
Other languages
English (en)
Inventor
菜々美 藤原
Nanami Fujiwara
菜々美 藤原
由理 西川
Yuri Nishikawa
由理 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2014135898A priority Critical patent/JP2016014967A/ja
Publication of JP2016014967A publication Critical patent/JP2016014967A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Selective Calling Equipment (AREA)

Abstract

【課題】音声入力を用いて機器操作可能な音声機器制御システムにおいて、入力音声の認識誤りを容易に修正可能な音声機器制御システムの情報管理方法を提供する。【解決手段】音声指示情報の認識結果に基づいて、特定機器の一以上の候補および動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第1表示画面を表示装置に表示させる第1表示画面情報を、表示装置へ送信し、表示装置において第1表示画面が表示されている間に、特定機器の候補とは異なる他の対象機器を示す音声情報を受信した場合、他の対象機器を示す音声情報の認識結果に基づいて、表示装置へ、他の対象機器の一以上の候補および動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第2表示画面を表示装置に表示させる第2表示画面情報を送信する。【選択図】図2

Description

本発明は、ユーザの音声指示によって複数の対象機器を制御可能な音声機器制御システムの情報管理方法に関するものである。
近年、音声認識技術の発達により、音声認識精度が大きく向上している。これに伴い、各種の機器を音声によって操作する機器管理システムが検討されている。これによって、煩わしいボタン操作をすることなく、ユーザが各種の機器に所望の操作内容を発話することで、各種の機器が制御可能になることが期待されている。
特開2011−150682号公報
しかし、上記システムは未だ検討すべき事項が多く、実用化には更なる改善が必要であった。
上記課題を解決するための、音声機器制御システムにおける機器制御方法の一態様は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の候補および前記第2音声情報の示す動作指示内容の候補をそれぞれ独立して表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、前記表示装置において前記第1表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して表示する第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する。
上記態様により、更なる改善を実現できた。
本発明の実施の態様に係る音声機器操作システムが提供する構成全体像を示す図である。 本発明の実施の態様に係るサーバ1の構成を示すブロック図である。 本発明の実施の態様に係るマイク3の構成を示すブロック図である。 本発明の実施の態様に係る操作対象機器4の構成を示すブロック図である。 本発明の実施の態様に係る操作端末2の構成を示すブロック図である。 本発明の実施の態様に係る音声機器操作システムの一連の通信処理のシーケンスを示すシーケンス図である。 本発明の実施の態様に係る音声認識処理および操作機器候補決定処理の手順を示すフローチャートである。 本発明の実施の態様に係る待機時間決定処理の手順を示すフローチャートである。 本発明の実施の態様に係る表示処理の手順を示すフローチャートである。 本発明の実施の態様に係る機器操作待機処理の手順を示すフローチャートである。 本発明の実施の態様に係る待機時間決定テーブルを示す図である。 (a)、(b)はそれぞれ、本発明の実施の態様に係る表示画面の一例を示す図である。 (a)、(b)はそれぞれ、本発明の実施の態様に係る表示画面の一例を示す図である。 (a)、(b)はそれぞれ、本発明の実施の態様に係る認識辞書の一例を示す図である。 (A)は、本実施の形態における情報管理システムが提供するサービスの全体像を示す図であり、(B)は、機器メーカがデータセンタ運営会社に該当する例を示す図であり、(C)は、機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。 サービスの類型1(自社データセンタ型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。 サービスの類型2(IaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。 サービスの類型3(PaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。 サービスの類型4(SaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。
(本発明の基礎となった知見)
音声入力を用いて対象機器に所望の動作を指示する場合、入力された音声に基づく音声認識結果が誤りであったときには対象機器にユーザの意図しない動作が指示されてしまう。そのため、音声認識結果をユーザへ提示し、認識された動作指示を実行するか否かについてユーザへ確認を求める技術が開示されている(特許文献1)。
具体的に、特許文献1は、ユーザの音声入力による対象機器への動作指示に対して音声認識を行い、音声認識結果に基づいてユーザの意図した動作指示の候補をリストとして表示する内容を開示する(特許文献1の図5A)。このリストから、ユーザは自身が望んだ動作に係る項目を選択し、対象機器に対して所望の動作を実行させる。
しかし、上記技術は、音声認識結果に基づく動作指示の候補をリストとして表示するため、例えば、ユーザの入力音声を正しく認識できなかった場合には、リスト内にユーザの望む動作を実行させる項目が含まれず、ユーザは対象機器に対して所望の動作を実行させられないことが考えられる。そのためユーザは、対象機器に所望の動作を実行させるために、リストの表示をキャンセルし、再度音声入力しなければならないという課題があった。
また、特許文献1は、ユーザが「ビル(人名)へ電話する」ことを所望している場合を例示しており、「Call Bill」と発話したことを想定した記述がある。このとき、例えば、「Call」との発話が正しく音声認識され、「Bill」との発話が誤って認識されたとすると、動作指示の候補として、例えば、「フィルに電話する」、「ジェフに電話する」、「ホワンに電話する」などがリストとして提示され、ユーザはこの中から項目を選択しなければならないが、これらはユーザの所望する動作ではないため、リストをキャンセルして再び「Call Bill」と発話することになる。ここで、先ほどの音声認識とは異なり、今度は「Call」との発話が誤って音声認識され、「Bill」との発話が正しく認識されたとすると、動作指示の候補として、例えば、「ビルにメールする」、「ビルの連絡先を表示する」、「ビルを検索する」などがリストとして提示され、ユーザはこの中から項目を選択することとなる。このように、入力音声の一部分は正しく認識され、他の部分は誤って認識される場合などであっても、入力音声の全てが正しく認識されるまでユーザは何度も言い直しを強いられるという課題もあった。
そこで、音声機器操作システムの機能向上のため、以下の改善策を検討した。
音声機器制御システムにおける情報管理方法の一態様は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の候補および前記第2音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、前記表示装置において前記第1表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して選択可能に表示する第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する。
上記態様によると、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおいて、前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の候補および前記第2音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、前記表示装置において前記第1表示画面が表示されている間に受信した、前記特定機器の候補とは異なる他の対象機器を示す第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3音声情報の示す他の対象機器の候補および前記動作指示内容の候補をそれぞれ独立して選択可能に表示する第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する。即ち、音声入力を用いた対象機器への動作指示において音声認識の誤りを修正するにあたって、対象機器の誤りと、指定した対象機器への動作指示内容の誤りとを別々に修正できる。
これによって、例えば、音声入力を用いて対象機器に動作指示を行う場合、入力音声の対象機器を指定する部分が誤って認識された場合であっても、音声入力を初めからやり直すことなく、入力音声のうちの誤って認識された対象機器を指定する部分のみを再度音声入力するだけで、対象機器に対して所望の動作を指示できる。
上記態様において、例えば、前記音声指示情報は第1音声認識辞書を用いて認識し、前記第3音声情報は前記第1音声認識辞書よりも登録単語が少ない第2音声認識辞書を用いて認識し、前記第2音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されているとしてもよい。
上記態様によると、前記音声指示情報は第1音声認識辞書を用いて認識し、前記第3音声情報は、前記第1音声認識辞書よりも登録単語が少なく、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている第2音声認識辞書を用いて認識する。即ち、対象機器への動作指示を初めに受け付ける場合は、登録単語数の多い音声認識辞書を用いて音声認識を行い、音声認識結果を修正する場合は、登録単語が限定されている音声認識辞書を用いて音声認識を行う。
対象機器への動作指示を初めに受け付ける場合は、ユーザによって様々な言いまわしが想定されるとともに、対象機器への動作指示に限らず、ユーザが対象機器に対して雑談をし始めることも想定されるため、自由な発話を受け付ける必要がある。そのため、多くの単語が登録された音声認識辞書を用いることで、自由な発話に対応させる必要がある。しかし、ユーザによる音声入力によって対象機器への動作指示が行われた後に、入力音声の音声認識結果を修正する場合は、その修正箇所は対象機器の名称または動作指示の内容に限定される。そのため、対象機器の名称を示す単語、または動作指示を示す単語のみが登録された音声認識辞書を用いて音声認識することで、入力音声とマッチングさせる単語数が減少するため、入力音声が誤った単語へマッチングされる可能性が減少する。結果として音声認識結果を修正するための発話に対する音声認識精度を向上させられる。上記態様において、例えば、前記第1表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、前記時間情報の示す期間が過ぎたと判断された場合に、前記第1表示画面に表示されている前記特定機器の候補のうち、選択されている前記候補が示す対象機器に対して、前記第1表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させるとしてもよい。
上記態様において、例えば、前記第1表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させるとしてもよい。
上記態様において、例えば、前記時間情報が示す期間の長さは、前記第1音声情報および/または前記第2音声情報の認識尤度に基づいて決定されるとしてもよい。
上記態様において、例えば、前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定するとしてもよい。
また、他の態様において、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の候補および前記第2音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3情報の示す他の動作指示内容の候補および前記特定機器の候補をそれぞれ独立して選択可能に表示す第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する。
上記態様によると、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおいて、前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の候補および前記第2音声情報の示す動作指示内容の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3情報の示す他の動作指示内容の候補および前記特定機器の候補をそれぞれ独立して選択可能に表示す第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する。即ち、音声入力を用いた対象機器への動作指示において音声認識の誤りを修正するにあたって、対象機器の誤りと、指定した対象機器への動作指示内容の誤りとを別々に修正できる。
これによって、例えば、音声入力を用いて対象機器に動作指示を行う場合、入力音声の動作指示部分が誤って認識された場合であっても、音声入力を初めからやり直すことなく、入力音声のうちの誤って認識された動作指示部分のみを再度音声入力するだけで、対象機器に対して所望の動作を指示できる。
上記態様において、例えば、前記音声指示情報は第1音声認識辞書を用いて認識し、前記第3音声情報は前記第1音声認識辞書よりも登録単語が少ない第2音声認識辞書を用いて認識し、前記第2音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されているとしてもよい。
上記態様によると、前記音声指示情報は第1音声認識辞書を用いて認識し、前記第3音声情報は、前記第1音声認識辞書よりも登録単語が少なく、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている第2音声認識辞書を用いて認識する。即ち、対象機器への動作指示を初めに受け付ける場合は、登録単語数の多い音声認識辞書を用いて音声認識を行い、音声認識結果を修正する場合は、登録単語が限定されている音声認識辞書を用いて音声認識を行う。
対象機器への動作指示を初めに受け付ける場合は、ユーザによって様々な言いまわしが想定されるとともに、対象機器への動作指示に限らず、ユーザが対象機器に対して雑談をし始めることも想定されるため、自由な発話を受け付ける必要がある。そのため、多くの単語が登録された音声認識辞書を用いることで、自由な発話に対応させる必要がある。しかし、ユーザによる音声入力によって対象機器への動作指示が行われた後に、入力音声の音声認識結果を修正する場合は、その修正箇所は対象機器の名称または動作指示の内容に限定される。そのため、対象機器の名称を示す単語、または動作指示を示す単語のみが登録された音声認識辞書を用いて音声認識することで、入力音声とマッチングさせる単語数が減少するため、入力音声が誤った単語へマッチングされる可能性が減少する。結果として音声認識結果を修正するための発話に対する音声認識精度を向上させられる。
上記態様において、例えば、前記第1表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、前記時間情報の示す期間が過ぎたと判断された場合に、前記第1表示画面に表示されている前記特定機器の候補のうち、選択されている前記候補が示す対象機器に対して、前記第1表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させるとしてもよい。
上記態様において、例えば、前記第1表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させるとしてもよい。
上記態様において、例えば、前記時間情報が示す期間の長さは、前記第1音声情報および/または前記第2音声情報の認識尤度に基づいて決定されるとしてもよい。
上記態様において、例えば、前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定するとしてもよい。
以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。
(提供するサービスの全体像)
まず、本実施の形態における情報管理システムが提供するサービスの全体像について説明する。
図15(A)は、本実施の形態における情報管理システムが提供するサービスの全体像を示す図である。情報管理システムは、グループ600、データセンタ運営会社610及びサービスプロバイダ620を備える。
グループ600は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ600は、第1の機器及び第2の機器を含む複数の機器601およびホームゲートウェイ602を備える。複数の機器601は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明、洗濯機又は冷蔵庫等)を含む。複数の機器601は、それ自身ではインターネットと接続不可能であっても、ホームゲートウェイ602を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ6は、グループ600内の複数の機器601を使用する。
データセンタ運営会社610は、クラウドサーバ611を備える。クラウドサーバ611は、インターネットを介して様々な機器と連携する仮想化サーバである。クラウドサーバ611は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社610は、データの管理、クラウドサーバ611の管理、及びそれらを行うデータセンタの運営等を行っている。データセンタ運営会社610が行っている役務の詳細については後述する。
ここで、データセンタ運営会社610は、データの管理又はクラウドサーバ611の管理のみを行っている会社に限らない。例えば、図15(B)に示すように、複数の機器601のうちの一つの機器を開発又は製造している機器メーカが、データの管理又はクラウドサーバ611の管理等を行っている場合は、機器メーカがデータセンタ運営会社610に該当する。また、データセンタ運営会社610は一つの会社に限らない。例えば、図15(C)に示すように、機器メーカ及び管理会社が共同又は分担してデータの管理又はクラウドサーバ611の管理を行っている場合は、両者又はいずれか一方がデータセンタ運営会社610に該当する。
サービスプロバイダ620は、サーバ621を備える。ここで言うサーバ621とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ620がサーバ621を備えていない場合もある。
なお、上記の情報管理システムにおいて、ホームゲートウェイ602は必須ではない。例えば、クラウドサーバ611が全てのデータ管理を行っている場合等は、ホームゲートウェイ602は不要となる。また、家庭内の全ての機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。
次に、上記の情報管理システムにおける情報の流れを説明する。
まず、グループ600の第1の機器又は第2の機器は、各ログ情報をデータセンタ運営会社610のクラウドサーバ611にそれぞれ送信する。クラウドサーバ611は、第1の機器又は第2の機器のログ情報を集積する(図15(A)の矢印631)。ここで、ログ情報とは、複数の機器601の例えば運転状況又は動作日時等を示す情報である。例えば、ログ情報は、テレビの視聴履歴、レコーダーの録画予約情報、洗濯機の運転日時、洗濯物の量、冷蔵庫の開閉日時、又は冷蔵庫の開閉回数などを含むが、これらの情報に限らず、種々の機器から取得が可能な種々の情報を含んでもよい。なお、ログ情報は、インターネットを介して複数の機器601自体から直接クラウドサーバ611に提供されてもよい。また、ログ情報は、複数の機器601から一旦ホームゲートウェイ602に集積され、ホームゲートウェイ602からクラウドサーバ611に提供されてもよい。
次に、データセンタ運営会社610のクラウドサーバ611は、集積したログ情報を一定の単位でサービスプロバイダ620に提供する。ここで、一定の単位とは、データセンタ運営会社610が集積した情報を整理してサービスプロバイダ620に提供することの出来る単位でもよいし、サービスプロバイダ620が要求する単位でもよい。また、一定の単位で提供するとしているが、一定の単位でなくてもよく、状況に応じて提供する情報量が変化してもよい。ログ情報は、必要に応じてサービスプロバイダ620が保有するサーバ621に保存される(図15(A)の矢印632)。
そして、サービスプロバイダ620は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。情報が提供されるユーザは、複数の機器601を使用するユーザ6でもよいし、外部のユーザ7でもよい。ユーザ6,7への情報提供方法としては、例えば、サービスプロバイダ620から直接ユーザ6,7へ情報が提供されてもよい(図15(A)の矢印633,634)。また、ユーザ6への情報提供方法としては、例えば、データセンタ運営会社610のクラウドサーバ611を再度経由して、ユーザ6に情報が提供されてもよい(図15(A)の矢印635,636)。また、データセンタ運営会社610のクラウドサーバ611は、ログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ620に提供してもよい。
なお、ユーザ6は、ユーザ7と異なっていても同一であってもよい。
以下、本発明の実施形態について、図面を参照しながら説明する。なお、本発明の実施の形態は、下記の実施例になんら限定されること無く、本発明の技術的範囲に属する限り、種々の形態をとり得る。
図1は、本実施形態における音声機器操作システムが提供する構成全体像を示す図である。
具体的に、音声機器操作システムは、サーバ1、操作端末2、マイク3、操作対象機器4、ネットワーク5を備える。
サーバ1は、操作端末2、マイク3、操作対象機器4の各々とデータの送受信を行う機能を有する。例えば、サーバ1は、マイク3から入力されたユーザの音声特徴量を受信し、画面表示に関する情報を操作端末2へ送信するなどの処理を行う。また、後述する各種の処理を実行する機能を有する。
操作端末2は、携帯通信端末、タブレット端末、専用表示機器端末、パーソナルコンピュータ(PC)、又はテレビなどである。ここに挙げたもの以外でも、ディスプレイを有し、GUI(Graphical User Interface)を表示できる端末であれば何でもよい。端末の操作は、タッチパネルによる入力、音声によるコマンド入力、およびボタン入力などが想定される。
マイク3は、サーバ1や操作端末2の機能の一部として備わっていてもよい。
操作対象機器4は、インターネットに接続可能な機能を有する。インターネットの接続方法として、機器自体が直接通信機能を備える、通信機能を持った別の機器を操作対象4に付与する、宅内ゲートウェイを介して接続するなどが一例として挙げられるが、その他種々の方法もとり得る。該当する機器としては、エアコン、テレビ、HDDレコーダー、照明などである。
ネットワーク5は、サーバ1、操作端末2、マイク3、操作対象機器4が接続される。接続方法の一例として、有線、無線によるLAN接続などが挙げられるが、各構成要素を通信可能に接続するものであれば、これに限らない。
図2は、本実施形態よるサーバ1の構成を示すブロック図である。
図2に示されるように、サーバ1は、モード管理部101、音声認識部102、単語解析部103、キーワード抽出部104、辞書選択部105、辞書格納部106、待機時間決定部107、待機モード格納部108、選択対象記憶部109、通信部110を備える。さらに、辞書格納部106には、認識辞書111およびキーワード限定認識辞書112が格納される。
後述するマイク3の通信部305から送信された音声特徴量データを受信し、音声認識部102と単語解析部103とキーワード抽出部104によって音声特徴量をテキストに変換、単語解析を行い、キーワードを抽出する。
モード管理部101では、音声機器操作システムのモードを管理し、機器操作指示モードであるか、または待機モードであるかを判定する。
機器操作指示モードとは、「エアコンつけて」「テレビ消して」など、ユーザからの機器操作指示が行われる状態のことである。
待機モードとは、ユーザによる音声指示を受けてから、機器を操作するまでの間であることを指す。この間は、操作端末2は図12、図13に示すような表示画面が表示され、操作対象機器名と操作方法をそれぞれ変更することができる。例えば、「エアコン」「テレビ」や「つけて」「消して」を別々に修正または追加できる。図12、図13の詳細は後述する。
モードを確認することで、キーワード抽出時の辞書選択や、待機時間決定の有無を判定する。
キーワード抽出部104では、辞書格納部106に格納されている辞書との比較により、テキストから文字列を抽出する。この際、辞書選択部105は、音声機器操作システムにおける現在のモードが、機器操作指示モードであるか、または指示を受けてから機器を操作するまでの待機モードであるかで参照する辞書を切り替える。
辞書選択部105では、モード管理部101で判定されたモードに基づいて、図14(a)、(b)で示すような一般的な単語を認識できる認識辞書111か、操作に関するものだけにキーワードを限定したキーワード限定認識辞書112を選択する。音声機器操作システムのモードが機器操作指示モードである場合は、認識辞書111が選択され、待機モードである場合は、キーワード限定認識辞書112が選択される。
図14(a)、(b)はそれぞれ、本実施形態による認識辞書の一例を示す図である。図14(a)は一般的な単語を認識できる辞書、図14(b)は使用される操作対象機器や操作方法のみを記述した辞書である。例えば、一般的な単語を認識できる認識辞書では幅広い音声を認識できるが、認識率は低くなる。図14(b)のキーワード限定辞書112では、例えば「エアコン」「照明」「つけて」などのように、機器操作に特化した単語のみ含まれる。キーワード限定認識辞書には、操作対象機器名や操作方法を追加することもできる。
また、音声機器操作システムのモードが機器操作指示モードである場合には、待機時間決定部107で機器を操作するまでの時間を決定する。まず、抽出されたキーワードから、「エアコン」・「テレビ」などの操作対象機器名と「つける」・「消す」などの操作方法の各々の尤度を求める。具体的には、音声特徴量を変換したテキスト中のキーワードと、辞書格納部106に格納されているいずれかの認識辞書との比較処理を行う。次に、図11の待機時間決定テーブルを参照し、得られた尤度に対応する待機時間を決定する。操作対象機器名と操作方法で尤度が異なる場合は、より低い方の尤度で参照し、待機時間を決定する。ただし、これらの待機時間の決定方法は一例であり、尤度を変数とした数式を用いて待機時間を決定してもよい。
図11は、本実施形態に係る待機時間決定テーブルを示す図である。待機時間を決定する際にこの表を参照し待機時間を決定する。ただし、ここでの時間や閾値は一例であり、これに限らない。
待機モード格納部108では、待機モードであることを保存する。具体的には、待機時間の決定後、フラグを立てることである。次にユーザからの発話を受け取ったあと、モード管理部101でフラグが立っているかを確認し、待機モードであるか否かを確認する。
選択対象記憶部109では、キーワード抽出において一番尤度の高かった操作対象機器名と操作方法を記憶する。なお、選択対象を記憶するとともに、二番目、三番目に尤度の高かった操作対象機器名と操作方法も記憶しておく。また、待機モードの間に複数機器が選択された場合もここに情報が保持される。
図3は、本実施形態におけるマイク3の構成を示すブロック図である。
図3に示されるように、マイク3は、音声取得部301と、音声検出部302と、音声区間切り出し部303と、特徴量算出部304と、通信部305を有する。ここで音声信号とは、音声と雑音が含まれるものを指す。また、切り出された音声を音声データと定義する。
音声取得部301は、音声信号の検出動作をする。
音声検出部302は、音声信号を検出したか否かを判定する。
音声区間切り出し部303は、取得した音声信号の中から音声が存在する区間を検出し、検出した音声区間を切り出す。
特徴量算出部304は、切り出された音声データに基づいて音声特徴量を算出する。
通信部305は、特徴量算出部304によって算出された音声特徴量を、サーバ1へ送信する。
図4は、本実施形態による操作対象機器4の構成を示すブロック図である。
図4に示されるように、操作対象機器4は、通信部401、機器制御部402を有する。
通信部401は、サーバ1と情報を送受信する。
機器制御部402は、通信部401から得られた情報から機器の操作を行う部分である。
図5は、本実施形態による操作端末2の構成を示すブロック図である。
図5に示されるように、操作端末2は、入力検出部201、制御部202、表示部203、通信部204を有する。
入力検出部201は、ユーザからのタッチパネル、音声、およびボタンなどを用いた入力の情報を取得する。
制御部202は、入力検出部201、表示部203との情報の送受信と、通信部204とのやりとりを行う。例えば、ユーザから「エアコンつけて」と入力を受け付けると制御部202を通じて通信部204に送信する。通信部202から表示画面に関する情報を受信するとその情報を表示部203に送信する、などを行う。
表示部203は、制御部202から得られた情報を表示する。
通信部204は、入力検出部201の情報を、制御部202を解してサーバ1に送信し、サーバ1から画面表示に関する情報を受信する。
表示部203は、制御部202から得られた情報を表示する。
通信部204は、入力検出部201の情報を、制御部202を解してサーバ1に送信し、サーバ1から画面表示に関する情報を受信する。
図6は、本実施形態に係る音声機器操作システムの一連の通信処理シーケンスを示すシーケンス図である。ユーザが操作対象機器4を操作するまでの一連の通信処理のシーケンスを示している。このシーケンスは、マイク3に対してユーザが音声を入力したときに開始される。
ステップS001において、マイク3は特徴量抽出処理を行って音声特徴量を取得する。
ステップS002において、ステップ001から音声特徴量を受け取る。マイク3の通信部305より取得した音声特徴量に対して音声認識処理を行ったあと、操作機器候補決定処理を行う。
ステップS003において、ステップS002で得られた操作対象機器名、操作方法のキーワードを受け取り、待機時間を決定する。これらの処理は図7、図8に示されているため、詳細は後述する。
ステップS004において、ステップS003から操作対象機器名、操作方法と待機時間の情報を受け取り、操作端末2にステップS002、ステップS003で処理された結果を表示する。例えば、図12、13に示すような表示画面を操作端末2の表示部203に表示する。
待機モードの間にユーザからの発話が行われた場合は、ステップS005において特徴抽出処理を行う。
S006において、ステップS005から音声特徴量を受け取り、音声認識、操作対象機器名や操作方法の訂正、または追加を行う。これらの処理も図7に示されているため、詳細は後述する。
ステップS007において、ステップS006から訂正、または追加された操作対象機器名や操作方法の情報を受け取り、操作機器を操作するまでの待機処理を行う。待機モードの間は、音声入力だけでなく、タッチパネルによる入力やボタン入力も受け付けることができる。
ステップS008において、ステップS007から待機モード終了通知と機器操作コマンドを受け取り、コマンド実行により操作対象機器を操作する。
例えば、「エアコンつけて」とユーザが発話すると、システムは音声認識処理を行う。はじめは機器操作指示モードなので、操作対象機器の「エアコン」と操作方法「つけて」が抽出されるはずである。しかし、操作方法の「つけて」の認識率が悪かったため、操作方法を「消して」と誤認識してしまうとする。この場合、表示画面には操作対象機器「エアコン」が選択された状態で最上部に、次に尤度の高かった「テレビ」「電気」がその下に表示される。同様に、操作方法「消して」が選択された状態で最上部に、次に尤度の高かった「消して」「下げて」がその下に表示される。尤度により決定された待機時間の間、システムは機器操作が行われるのを待つ。この間にユーザは画面表示を見て訂正を行うことができる。画面表示では、「エアコン」「消して」となってしまっている。ここでユーザは「つけて」のみ発話することで、「つけて」に変更することができる。
従来手法では、ユーザの発話を誤認識した場合に、一度全てをキャンセルしたあとすべて言い直さないといけないものが多いが、この手法であればシステムの誤認識に対する訂正の時間を大幅に削減することができ、ユーザの負担が軽くなる。
図7は、本実施形態に係る音声認識および操作機器候補決定処理の手順を示すフローチャートである。この処理は、図6における音声認識/操作機器候補決定処理(S002)の詳細である。
ステップS202において、マイク3から得られた音声特徴量の音声認識処理を実行する。
ステップS203において、音声特徴量をテキストに変換し、単語解析を行う。
ステップS201において、待機モードかそうでないかを判断する。
ステップS201で待機モードないと判断された場合、ステップS204で通常の認識辞書と照合することにより、ステップS206でキーワードの抽出を行う。ここでは、「エアコン」・「テレビ」などの操作対象機器名と「つける」・「消す」などの操作方法のキーワードをそれぞれ抽出する。
また、ステップS201で待機モードと判断された場合、例えば、「エアコンつけて」とユーザが発話し、待機モードでないと判断された場合は、通常の認識辞書から「エアコン」「つけて」がキーワードとして抽出される。また「エアコン」とユーザが発話し、待機モードであると判断された場合は、キーワード限定認識辞書と照合し「エアコン」がキーワードとして抽出される。
また、待機モード中に「○○“も”」という発話があった場合は、複数機器を選択することができる。すなわち、予め「テレビ」「つけて」と選択された待機モードである場合に、ユーザが「エアコン“も”」と発話すると、「テレビ」と「エアコン」を「つけて」となる。 ただし、操作方法が明らかに実行できない操作対象機器が含まれている場合は、複数機器として選択された機器でも実行しない。例えば、「エアコン」「弱めて」と選択された待機モードである場合に、ユーザが「テレビ“も”」と発話したとしても、「テレビ」は「弱める」ことができないので実行されない。
以上の処理により、モードに応じて辞書を切り替え、誤認識があった場合に、一部分(操作対象端末、もしくは操作方法)のみを変更することが可能である。
モードに応じた辞書の切り替えについて、機器操作指示モードの場合は、自由な発話を受け付ける必要があるため、通常の認識辞書を用いてキーワードを抽出する。しかし、待機モードの場合は、発話されるキーワードが限定されるので、通常の認識辞書を使う必要はなく、操作に必要な操作対象機器名と操作方法だけで構成されたキーワード限定辞書を用いることにより、認識誤りを減らすことができる。例えば、ユーザが「エアコン」と発話した場合、通常の認識辞書では「シネコン」と誤って認識してしまう場合がある。しかし、キーワード限定辞書を用いると「シネコン」は通常登録されていないため、「エアコン」を高い精度で認識することができ、誤認識を減らすことができる。
また、誤認識の一部分のみの変更について、例えば、一般に、ユーザが「エアコンつけて」と発話し、システムが「シネコンつけて」と認識した場合、それを訂正するために「エアコンつけて」ともう一度言い直さなければいけないことがある。さらに、もう一度言い直したときに「エアコン詰めて」と誤認識されてしまったとする。「エアコン」は正しく認識されたとしても、「つけて」が「詰めて」と認識されるといったように、次は他の部分を誤認識してしまうということも起こりうる。しかし本発明では、操作対象機器名と操作名のキーワードのみを抽出しており、操作対象機器名、もしくは操作名のみを別々に訂正することができるので、「シネコン」「つけて」と表示されていた場合、「エアコン」と発話するだけで「エアコン」「つけて」と訂正することができ、ユーザの手間が省ける。また、同じ操作方法で操作ができる機器名のみをユーザが発話することで、例えば「テレビも」と発話することで、複数機器を同時に操作することも可能にする。
誤認識訂正のユーザの手間が省ける。また、同一の操作方法で操作したい機器が複数ある場合、時間を短縮することができる。
図8は、本実施形態に係る待機時間決定処理の手順を示すフローチャートである。図6における待機時間決定処理(S003)の詳細である。なお、待機時間の決定は、待機モードでない場合にのみ行われる。
ステップS301において、抽出されたキーワードの尤度を取得する。ここでは、例えば、「エアコン」・「テレビ」などの操作対象機器名と、「つける」・「消す」などの操作方法の各々の尤度を求める。
ステップS302において、図11に示す尤度決定テーブルを参照し、得られた尤度から待機時間を決定する。操作対象機器名と操作方法で尤度が異なる場合は、より低い方の尤度で参照し待機時間を決定する。ただし、これらの待機時間の決定方法は一例であり、尤度を変数とした数式等を用いて待機時間を決定してもよい。
ステップS303において、モード管理部101に待機モード設定をする。
例えば、「エアコン」の尤度0.5、「つけて」の尤度0.8が得られたとする。この場合、より低い方の尤度で参照し、待機時間が5秒と決定する。なお、待機時間が過ぎると待機モードが終了し、表示されている内容のコマンド実行により操作対象機器を操作する。
以上の処理により、音声認識の尤度に応じた待機時間を設定する。キーワードの尤度は、ユーザの発話による入力音声に含まれる内容が特定の単語であったことの尤もらしさを示すため、ユーザの発話による入力音声を正しく音声認識できているか否かを示す指標となり得る。したがって、キーワードの尤度が高い場合は、ユーザの発話を正しく音声認識できている可能性が高いと同時に、ユーザによって音声認識結果の修正が行われる可能性は低くなる。また、反対にキーワードの尤度が低い場合は、ユーザの発話を誤って認識している可能性が高くなり、ユーザによって音声認識結果の修正が行われる可能性が高くなる。ユーザとしては、例えば、自分の発話した内容が正しく認識されているのであれば、その内容の示す処理が早く実行されて欲しいと考える。しかし、例えば、自分の発話した内容が誤って認識されているのであれば、誤って認識された内容の示す処理が実行される前に、音声認識結果を訂正する時間が欲しいと考える。
そのため、待機時間の長さをキーワードの尤度に基づいて変えることで、例えば、キーワードの尤度が高い場合は、短い待機時間が設定されるので、音声認識結果の示す処理を早く実行することができ、キーワードの尤度が低い場合は、長い待機時間が設定されるので、音声認識結果の示す処理が実行されるまでにユーザが音声認識結果を訂正する充分な時間を確保できる。
図9は、本発明の実施の態様に係る表示処理の手順を示すフローチャートである。図6における表示処理の詳細である。
ステップS401において、サーバから抽出されたキーワード、および待機時間を受け取る。この際、抽出されたキーワードは操作対象機器名、操作方法は各1つではなく、候補も含めて尤度の高い順に各3つ送られてくる。ただし、個数に関しては一例であり、2つや4つ以上など送られてくる個数はいくつでも構わない。操作対象機器が複数選択されている場合は、その情報も一緒に送られる。
例えば、「エアコンつけて」とユーザが発話した場合に、操作端末に送られるキーワードとして、操作対象機器名は「エアコン」「電気」「テレビ」となり、操作方法は「つけて」「消して」「下げて」となる。
ステップS402において、画面を更新する。図12、図13はその表示例である。
図12(a)、(b)はそれぞれ、本実施形態の表示画面の一例を示す図である。画面の左側には、操作対象機器が並んでおり、尤度の高い順に画面の多い部分を占有するように表示されている。画面の右側には、操作方法が並んでおり、操作対象機器同様、尤度の高い順に画面の多い部分を占有する。下のバーは待機時間を表し、時間と共に黒い部分の占有率が高くなる。黒い部分が左端まで到達すると待機モードを終了し、操作対象機器を操作する。また、選択されている操作対象機器や操作方法は、例えば、図12(b)のように背景色を変えることによって区別する。なお、選択されている操作対象機器が識別できれば、背景色を変える以外に表示を点滅させる方法、または選択されていない操作対象機器の表示色を薄くするなど、どのような表示方法を用いても良い。
図13(a)、(b)はそれぞれ、本実施形態の表示画面の一例を示す図である。画面の左側には、操作対象機器が並んでおり、尤度の高いものの棒グラフの高さが高くなるように表示される。例えば、尤度0.8の「エアコン」、尤度0.5の「テレビ」、尤度0.3の「照明」の順に、棒グラフの高さが低くなる。画面の右側は、操作方法が並んでおり、尤度の高い順に画面の多い部分を占有する。下のバーは待機時間を表し、図12を参照して説明した動作と同様の動作をする。例えば、図13(a)では「エアコン」が操作対象機器になっているが、ユーザが待機モードの間に「テレビ」と発話することで、図14(b)のように操作対象機器がテレビに変わる。以上の処理により、システムの内部の処理をユーザに明示的に見せる。例えば、ユーザの発話を正しく音声認識できている可能性が高い操作対象機器や操作方法のキーワードは、大きく表示されたり、一番上に表示されたりする。逆に、ユーザの発話を正しく音声認識できている可能性が低い操作対象機器や操作端末のキーワードは、小さく表示されたり、下の方に表示されたりする。これらを表示することで、ユーザは音声認識の示す処理が実行される前に、ユーザの意図した操作であるかを把握することができる。ユーザが自分の意図した操作であると確認できた場合は安心して処理の実行を待つことができるし、もし自分の意図した操作でなかった場合は訂正を行う必要があることを明示し、ユーザの発話の訂正を促すことができる。
図10は、本実施形態に係る機器操作待機処理の手順を示すフローチャートである。図6における機器操作待機処理(S007)の詳細である。
ステップS701において、待機時間内かどうかを判定する。ここで待機時間内でないと判断された場合は、待機モードを終了する。現在選択されている操作対象機器を、選択されている操作方法で操作するコマンドを送ることにより処理は終了する。
待機時間内であると判断された場合、ステップS702において、入力があるかどうかを判定する。ここでの判定では、音声入力によって処理された結果が送られてくるだけでなく、タッチパネルによるタッチ入力や、ボタン選択により入力された場合も含まれる。ここで入力がないと判断された場合は、このフローのはじめに戻る。
入力があると判断された場合、ステップS703において、機器の選択情報を更新し、ステップS704において画面を更新する。
以上の処理を待機時間が終了するまで行う。
例えば、「エアコン」「つけて」が選択された状態で待機時間内だったとする。他からの入力がなければ、待機時間終了後にエアコンがつく。ユーザが「テレビも」と発話した場合は、待機時間終了後にエアコンとテレビをつける操作を行う。ユーザが「テレビ」と発話した場合は、待機時間終了後テレビをつける操作を行う。
以上の処理により、待機モード中はユーザの発話を常時受け付け更新する。
例えば、待機画面に「エアコン」「つけて」が選択された状態で待機時間内であったとする。ここでユーザが「テレビ」や「テレビも」と発話したとき、画面には発話後すぐに、自分の発話した操作対象機器名もしくは操作方法の情報が更新されることになる。ユーザはこれをすぐに確認できるので、もし自分の意図した内容と異なっていた場合は訂正することができるし、そうでない場合は、安心して処理の実行を待つことができる。
なお、上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれらに限られるものでない。
(サービスの類型1:自社データセンタ型クラウドサービス)
図16は、サービスの類型1(自社データセンタ型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ620がグループ600から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ620が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ620が、ビッグデータを管理するクラウドサーバ611を保有している。したがって、データセンタ運営会社は存在しない。
本類型では、サービスプロバイダ620は、データセンタ(クラウドサーバ)703を運営及び管理している。また、サービスプロバイダ620は、オペレーティングシステム(OS)702及びアプリケーション701を管理する。サービスプロバイダ620は、サービスプロバイダ620が管理するOS702及びアプリケーション701を用いてサービスを提供する(矢印704)。
(サービスの類型2:IaaS利用型クラウドサービス)
図17は、サービスの類型2(IaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社610が、データセンタ(クラウドサーバ)703を運営及び管理している。また、サービスプロバイダ620は、OS702及びアプリケーション701を管理する。サービスプロバイダ620は、サービスプロバイダ620が管理するOS702及びアプリケーション701を用いてサービスを提供する(矢印704)。
(サービスの類型3:PaaS利用型クラウドサービス)
図18は、サービスの類型3(PaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社610は、OS702を管理し、データセンタ(クラウドサーバ)703を運営及び管理している。また、サービスプロバイダ620は、アプリケーション701を管理する。サービスプロバイダ620は、データセンタ運営会社610が管理するOS702及びサービスプロバイダ620が管理するアプリケーション701を用いてサービスを提供する(矢印704)。
(サービスの類型4:SaaS利用型クラウドサービス)
図19は、サービスの類型4(SaaS利用型クラウドサービス)における情報管理システムが提供するサービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社610は、アプリケーション701を管理し、OS702を管理し、データセンタ(クラウドサーバ)703を運営及び管理している。また、サービスプロバイダ620は、データセンタ運営会社610が管理するOS702及びアプリケーション701を用いてサービスを提供する(矢印704)。
以上、いずれのクラウドサービスの類型においても、サービスプロバイダ620がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
本発明に係る情報管理方法は、複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって複数の対象機器を制御可能な音声機器制御システムにおいて有用である。
1 サーバ
2 操作端末
3 マイク
4 操作対象機器
5 ネットワーク
101 モード管理部
102 音声認識部
103 単語解析部
104 キーワード抽出部
105 辞書選択部
106 辞書格納部
107 待機時間決定部
108 待機モード格納部
109 選択対象記憶部
110 通信部
111 認識辞書
112 キーワード限定認識辞書
201 入力検出部
202 制御部
203 表示部
204 通信部
301 音声取得部
302 音声検出部
303 音声区間切り出し部
304 特徴量算出部
305 通信部
401 通信部
402 機器制御部

Claims (12)

  1. 複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、
    前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、
    前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の一以上の候補および前記第2音声情報の示す動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、
    前記表示装置において前記第1表示画面が表示されている間に、前記特定機器の候補とは異なる他の対象機器を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3音声情報の示す他の対象機器の一以上の候補および前記動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する、
    情報管理方法。
  2. 前記音声指示情報は第1音声認識辞書を用いて認識し、
    前記第3音声情報は前記第1音声認識辞書よりも登録単語が少ない第2音声認識辞書を用いて認識し、
    前記第2音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている、
    請求項1に記載の情報管理方法。
  3. 前記第1表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、
    前記時間情報の示す期間が過ぎたと判断された場合に、前記第1表示画面に表示されている前記特定機器の一以上の候補のうち、選択されている候補が示す対象機器に対して、前記第1表示画面に表示されている前記動作指示内容の一以上の候補のうち、選択されている候補が示す動作指示内容を実行させる、
    請求項1に記載の情報管理方法。
  4. 前記第1表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させる、
    請求項3に記載の情報管理方法。
  5. 前記時間情報が示す期間の長さは、前記第1音声情報および/または前記第2音声情報の認識尤度に基づいて決定される、
    請求項3または4に記載の情報管理方法。
  6. 前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、
    前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定する、
    請求項5に記載の情報管理方法。
  7. 複数の対象機器と、表示装置とに接続され、ユーザの音声指示によって前記複数の対象機器を制御可能な音声機器制御システムにおける情報管理方法であって、
    前記複数の対象機器の中の特定機器を示す第1音声情報と、前記特定機器に対する動作指示内容を示す第2音声情報とを含む音声指示情報を受信し、
    前記表示装置へ、前記受信した音声指示情報の認識結果に基づいて、前記第1音声情報の示す特定機器の一以上の候補および前記第2音声情報の示す動作指示内容の一以上の候補をそれぞれ独立して選択可能に表示する第1表示画面を前記表示装置に表示させる第1表示画面情報を送信し、
    前記表示装置において前記表示画面が表示されている間に、前記動作指示内容の候補とは異なる他の動作指示内容を示す第3音声情報を受信した場合、前記第3音声情報の認識結果に基づいて、前記表示装置へ、前記第3情報の示す他の動作指示内容の一以上の候補および前記特定機器の一以上の候補をそれぞれ独立して選択可能に表示す第2表示画面を前記表示装置に表示させる第2表示画面情報を送信する、
    情報管理方法。
  8. 前記音声指示情報は第1音声認識辞書を用いて認識し、
    前記第3音声情報は前記第1音声認識辞書よりも登録単語が少ない第2音声認識辞書を用いて認識し、
    前記第2音声認識辞書には、前記複数の対象機器の名称を示す単語および前記複数の対象機器の各々が受け付け可能な動作指示を示す単語のみが登録されている、
    請求項7に記載の情報管理方法。
  9. 前記第1表示画面情報は、前記音声指示情報に基づく機器制御処理の実行を開始するまでの期間を示す時間情報を含み、
    前記時間情報の示す期間が過ぎたと判断された場合に、前記第1表示画面に表示されている前記特定機器の一以上の候補のうち、選択されている候補が示す対象機器に対して、前記第1表示画面に表示されている前記動作指示内容の候補が示す動作指示内容を実行させる、
    請求項7に記載の情報管理方法。
  10. 前記第1表示画面に複数の前記特定機器の候補が表示されている場合であって、前記複数の特定機器の候補の中の二以上の前記特定機器の候補が選択されている場合は、前記二以上の前記特定機器の候補の各々が示す特定機器に対して、前記動作指示内容の一以上の候補のうち、前記選択されている候補が示す動作指示内容を実行させる、
    請求項9に記載の情報管理方法。
  11. 前記時間情報が示す期間の長さは、前記第1音声情報および/または前記第2音声情報の認識尤度に基づいて決定される、
    請求項9に記載の情報管理方法。
  12. 前記認識尤度が高い場合は、前記時間情報が示す期間を長く設定し、
    前記認識尤度が低い場合は、前記時間情報が示す期間を短く設定する、
    請求項11に記載の情報管理方法。
JP2014135898A 2014-07-01 2014-07-01 情報管理方法 Pending JP2016014967A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014135898A JP2016014967A (ja) 2014-07-01 2014-07-01 情報管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014135898A JP2016014967A (ja) 2014-07-01 2014-07-01 情報管理方法

Publications (1)

Publication Number Publication Date
JP2016014967A true JP2016014967A (ja) 2016-01-28

Family

ID=55231120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014135898A Pending JP2016014967A (ja) 2014-07-01 2014-07-01 情報管理方法

Country Status (1)

Country Link
JP (1) JP2016014967A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps系统指令的系统与方法
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
WO2019069587A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
JP2019144459A (ja) * 2018-02-22 2019-08-29 パナソニックIpマネジメント株式会社 音声制御情報出力システム、音声制御情報出力方法およびプログラム
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2019211754A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
JP2021502167A (ja) * 2017-11-09 2021-01-28 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
WO2022057740A1 (zh) * 2020-09-18 2022-03-24 青岛海尔空调器有限总公司 空调器的语音控制方法与语音控制装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps系统指令的系统与方法
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
CN111164677A (zh) * 2017-10-03 2020-05-15 东芝生活电器株式会社 家电系统
WO2019069587A1 (ja) * 2017-10-03 2019-04-11 東芝ライフスタイル株式会社 家電システム
JP2019068319A (ja) * 2017-10-03 2019-04-25 東芝ライフスタイル株式会社 家電システム
JP7402793B2 (ja) 2017-11-09 2023-12-21 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
US11694283B2 (en) 2017-11-09 2023-07-04 Tchibo Gmbh Method for producing a product by way of a drinks preparation machine, a system for carrying out the method and a machine backend for a drinks preparation machine
JP2021502167A (ja) * 2017-11-09 2021-01-28 チボ ゲーエムベーハー 飲料調製マシンによって製品を製造するための方法、この方法を実行するためのシステム、および飲料調製マシンのためのマシンバックエンド
JP2019144459A (ja) * 2018-02-22 2019-08-29 パナソニックIpマネジメント株式会社 音声制御情報出力システム、音声制御情報出力方法およびプログラム
CN111742363A (zh) * 2018-02-22 2020-10-02 松下知识产权经营株式会社 语音控制信息输出系统、语音控制信息输出方法以及程序
US11443743B2 (en) 2018-02-22 2022-09-13 Panasonic Intellectual Property Management Co., Ltd. Voice control information output system, voice control information output method, and recording medium
JP7281683B2 (ja) 2018-02-22 2023-05-26 パナソニックIpマネジメント株式会社 音声制御情報出力システム、音声制御情報出力方法およびプログラム
WO2019163333A1 (ja) * 2018-02-22 2019-08-29 パナソニックIpマネジメント株式会社 音声制御情報出力システム、音声制御情報出力方法およびプログラム
CN111742363B (zh) * 2018-02-22 2024-03-29 松下知识产权经营株式会社 语音控制信息输出系统、语音控制信息输出方法以及记录介质
JP2019161636A (ja) * 2018-03-09 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマートテレビの音声インタラクティブフィードバック方法、システム及びコンピュータプログラム
JP2019211754A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ヒューマンマシンインタラクションに使用される方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
WO2022057740A1 (zh) * 2020-09-18 2022-03-24 青岛海尔空调器有限总公司 空调器的语音控制方法与语音控制装置

Similar Documents

Publication Publication Date Title
JP2016014967A (ja) 情報管理方法
US9721572B2 (en) Device control method and electric device
US10515641B2 (en) Device control method, device management system, and voice input apparatus
EP3039531B1 (en) Display apparatus and controlling method thereof
US8421932B2 (en) Apparatus and method for speech recognition, and television equipped with apparatus for speech recognition
JP3724461B2 (ja) 音声制御装置
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US9218052B2 (en) Framework for voice controlling applications
KR102009316B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
US20160063995A1 (en) Display apparatus and method for recognizing voice
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
US20170270909A1 (en) Method for correcting false recognition contained in recognition result of speech of user
CN111161731A (zh) 智能家电离线语音控制装置
JP2018180030A (ja) 操作装置および操作方法
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
TW201351205A (zh) 語音輔助鍵盤輸入
KR102049833B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
US20230367461A1 (en) Display device for adjusting recognition sensitivity of speech recognition starting word and operation method thereof
JP2012060506A (ja) 外部機器制御装置、その外部機器制御方法及びプログラム