JP2021509730A

JP2021509730A - 制御デバイスにおいて音声入力を指示する装置、システム及び方法

Info

Publication number: JP2021509730A
Application number: JP2020537000A
Authority: JP
Inventors: ハタムバイキ，アーシャム
Original assignee: ユニバーサルエレクトロニクスインコーポレイテッド
Priority date: 2018-01-03
Filing date: 2019-01-02
Publication date: 2021-04-01
Anticipated expiration: 2039-01-02
Also published as: WO2019136065A1; KR20200104898A; CN111801729B; CN111801729A; JP7374099B2; EP3735687A1; EP3735687A4

Abstract

発話入力を受けるよう構成されたデバイスを含む環境内にある制御可能な機器を制御するシステム及び方法。システム及び方法は、デバイスが動作している環境のノイズ閾値を規定し、デバイスで発話入力を受け、発話入力がデバイスによって受け取られた時点での環境のノイズレベルを決定し、決定されたノイズレベルを規定されたノイズ閾値と比較し、環境の決定されたレベルが環境の前記規定されたノイズ閾値よりも大きい場合に、制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、１つ以上のコマンドが制御可能な機器へ自動的に発せられるようにする。

Description

マイクロホンを作動させるためのキー押下の使用により音声入力を受け取る民生用電子機器の動作を制御することが可能な専用のリモートコントロールは、当該技術でよく知られており、一般に、夫々一種類の民生用電子機器の動作を制御することができる。そのような専用のリモートコントロールは、民生ブランド名に関連した民生用電子機器の機能動作を主として制御するよう意図される。例えば、ＡｐｐｌｅＴＶブランドのビデオストリーマのための専用のＡｐｐｌｅブランドのＳｉｒｉリモートコントロールは、独自仕様の通信プロトコルの使用により、ボリューム、再生、一時停止、巻き戻し、停止、などの動作を制御するために音声入力を使用することができる。そのような専用のリモートコントロールは、通常、それらが抱き合わされている関連製品とともにしか作動せず、他の音声制御可能な民生用電子機器とともに作動することはできない。そのため、複数の民生ブランド名からの複数の異なる種類の音声制御可能な民生用電子機器を制御するためにボイスコマンドを使用することをユーザに可能にする制御デバイスを提供することが望まれている。

以下では、複数の異なる音声制御可能な民生用電子機器の動作を制御するためのボイスコマンドの使用を提供する装置、システム及び方法、より具体的には、異なる民生ブランド名からの２つ以上の音声制御可能な民生用電子機器（以降「スマート家電」と呼ばれる）へ、ユーザからの音声入力に基づいて、信号を送る際に使用される制御デバイス、の例が記載される。

一例において、制御デバイスは、フォーマット化されたボイスデータを２つ以上のスマート家電へ供給するために使用される。制御デバイスの機能コンポーネントは：複数のデバイスプロファイルを記憶するプロセッサ可読コードを担持しており、各デバイスプロファイルが、ユーザから受け取られたボイスコマンドを、特定のスマート家電によって使用されるプロトコルに従ってフォーマット化するフォーマッティングプロトコルを有する、電子記憶媒体と；フォーマット化されたボイスコマンドを２つ以上のスマート家電のうちの少なくとも１つへ送る第１通信インターフェースと；ユーザから音声入力を受けるマイクロホンと；電子記憶媒体、通信インターフェース、及びマイクロホンへ結合され、プロセッサ可読コードを実行するプロセッサとを含む。

動作中、プロセッサ可読コードは、制御デバイスのプロセッサに、マイクロホンを介して第１ボイスコマンドを受け取らせ、プロセッサは、第１ボイスコマンドが意図される第１スマート家電を決定し、第１スマート家電に関連する電子記憶媒体内の第１フォーマッティングプロトコルを識別し、第１フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化されたボイスコマンドにフォーマット化し、フォーマット化されたボイスコマンドを第１スマート家電へ通信インターフェースを介して送るために使用される。

フォーマット化されたボイスデータを２つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される方法も、記載される。方法において、制御デバイスのプロセッサは、マイクロホンを介してユーザから第１ボイスコマンドを受け取る。それから、プロセッサは、ボイスコマンドが意図される第１スマート家電を決定し、第１スマート家電に関連する、電子記憶媒体内に記憶されている第１フォーマッティングプロトコルを識別する。それから、プロセッサは、受け取られたボイスコマンドを第１フォーマッティングプロトコルに従ってフォーマット化し、フォーマット化されたボイスデータを、通信インターフェースの使用により第１スマート家電へ送る。同様に、プロセッサは、第２スマート家電を識別し、そのスマート家電へフォーマット化されたボイスコマンドを送る。ここで、いくつかの実施形態において、プロトコルは、独自仕様のプロトコル、ＶｏｉｃｅｏｖｅｒＩＰプロトコル、などである。

フォーマット化されたボイスデータを２つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される方法も、記載される。方法において、制御デバイスのプロセッサは、通信インターフェースを介して、制御デバイスへ結合されているスマート家電から１つ以上のスマート家電の識別を受け取る。この方法では、家電識別は、スマート家電識別に関連した所定のウェイクワードを含んでよい。制御デバイスのプロセッサは、結合されている電子記憶媒体内でスマート家電識別を記憶してよく、プロセッサは、制御デバイスのプロセッサへ結合されているマイクロホンの使用により、ユーザからのボイスコマンド及びウェイクワードを少なくとも受け取ってよい。それから、プロセッサは、受け取られたウェイクワード及び所定のウェイクワードが一致する場合に、受け取られたウェイクワード及び所定のウェイクワードに対応する、電子記憶媒体内に記憶されているスマート家電識別を決定する。ボイスコマンドが意図される第１スマート家電を決定し、第１スマート家電に関連する、電子記憶媒体内に記憶されている第１フォーマッティングプロトコルを識別する。それから、プロセッサは、通信インターフェースの使用により、意図されたスマート家電へボイスコマンドを送る。いくつかの実施形態で、ウェイクワードは、特定の用途のために必要とされるように、英数字の民生ブランド名、英数字コード、ユーザディクテーション、などであってよい。

フォーマット化されたボイスデータを２つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される他の方法が、記載される。この方法は、制御デバイスのプロセッサによってマイクロホンを介してユーザからボイスコマンドを受け取ることと、制御デバイスのプロセッサによって、ボイスコマンドを受け取ったことに応答して、結合されているスマート家電へＨＤＭＩ（登録商標）入力ステータス要求を通信インターフェースを介して送ることと、スマート家電のプロセッサによって、ＨＤＭＲ入力ステータス要求をスマート家電の通信インターフェースを介して受け取ると、スマート家電によって現在提供されている家電からの信号を含むアクティブＨＤＭＩ入力を検出し、アクティブＨＤＭＩ入力に関連した家電識別を決定し、スマート家電識別を制御デバイスへスマート家電の通信インターフェースを介して送ることと、制御デバイスのプロセッサによって、制御デバイスの通信インターフェースを介してスマート家電識別を受け取り、家電識別に関連する、制御デバイスの電子記憶媒体内に記憶されているフォーマッティングプロトコルに従って、ボイスコマンドをフォーマット化することとを含む。

２つ以上のスマート家電へフォーマット化されたボイスデータを供給するシステムであって、結合されているリモートサーバ及び制御デバイスと協調してスマート家電によって実行されるシステムも、記載される。システムはスマート家電を含んでよく、スマート家電に、通信インターフェースを介して制御デバイスから第１ボイスコマンドを受け取らせ、第１フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化させ、フォーマット化されたボイスコマンドをリモートサーバへ通信インターフェースを介して送って、リモートサーバのプロセッサが、フォーマット化されたボイスコマンドを通信インターフェースを介して受け取り、第１ボイスコマンドが意図される第１家電を決定するためにボイスコマンドを決定するようにさせ、ボイスコマンドが意図される第１家電の決定をリモートサーバから通信インターフェースを介して受け取らせ、意図されたスマート家電へ通信インターフェースを介してフォーマットされたボイスコマンドを送らせるプロセッサ可読コードを有する。

対象のシステム及び方法の目的、利点、特徴、特性及び関係のより良い理解は、以下の詳細な説明及び添付の図面から得られる。詳細な説明及び図面には、実例が示されており、以降で請求される発明の原理が用いられ得る様々な方法が示されている。

記載されるシステム及び方法の様々な態様のより良い理解のために、添付の図面に示されている実例を参照する。

ボイスデータをスマート家電へ供給する専用のリモートコントロールを用いる従来技術のシステムを表すブロック図である。フォーマット化されたボイスデータを２つ以上のスマート家電へ供給する専用のリモートコントロールを用いる更なるシステムを表すブロック図である。フォーマット化されたボイスデータを２つ以上のスマート家電へ供給する制御デバイス及び関連するアプリケーションを用いる更なる別のシステムの実例である。フォーマット化されたボイスデータを２つ以上のスマート家電へ供給するための、図２に示された制御デバイスの例の機能ブロック図である。フォーマット化されたボイスデータを２つ以上のスマート家電へ供給するために使用される、図２に示された制御デバイスの例の機能ブロック図である。２つ以上のスマート家電の音声制御を可能にする方法の例を示すフロー図である。発話入力を受け取ることに関連して環境内で家電により生成される音響レベルを制御する方法の例を示すフロー図である。受け取られた発話レベルに基づいてデバイス音響入力を制御する方法の例を示すフロー図である。

以下では、ボイスコマンドにより２つ以上のスマート家電を制御する装置、システム及び方法、より具体的には、ユーザから音声入力を受け取り、音声入力が意図される特定のスマート家電を識別し、音声入力を特定のスマート家電によって理解されるデジタル信号にフォーマット化する制御デバイス、の例が記載される。

図１は、当該技術で知られているシステムを表し、専用のリモートコントロールは、ボイスコマンドの使用により、その専用のリモートコントロールと同じ民生ブランドの第１スマート家電の機能動作を主として制御するよう動作し、ボイスコマンドの使用により異なる民生ブランドの第２スマート家電と通信し又はそれを制御することは意図されない。この例は、ボイスコマンドの使用により、関連するスマート家電、例えば、Ｃｏｍｃａｓｔブランドのセットトップボックス１０８（以降「ＳＴＢ」と呼ばれる）及びＡｐｐｌｅＴＶブランドのストリーマ１１０を操作するために使用される２つの専用のリモートコントロール、ＣｏｍｃａｓｔブランドのＸｆｉｎｉｔｙボイスリモート１０２及びＡｐｐｌｅブランドのＳｉｒｉボイスリモート１０４を表す。いくつかの民生用デバイスはインターネット対応であり、すなわち、それらは、無線ＬＡＮなどのローカルデータネットワークの範囲内にあるソースとの間で、又はインターネットを介して遠隔地にあるソースとの間でコンテンツを送受信することができる。夫々の専用のリモートコントロールは、夫々無線信号１２０及び１２２により、関連するスマート家電と通信する。無線信号１２０及び１２２は互いに異なっている。一般に、ＳＴＢ１０８及びＡｐｐｌｅＴＶブランドのストリーマ１１０は、ＨＤＭＩケーブル１１２を介してスマートＴＶ１０６（以降「ＴＶ」と呼ばれる）へ接続されており、無線ルータ１１４へも接続されてよく、信号１１８を使用して、Ｃｏｍｃａｓｔブランドのボイスサービスプロバイダ又はＡｐｐｌｅブランドのＳｉｒｉボイスサービスなどの、インターネットクラウドに基づく発話処理サービス１１６と通信し得る。専用のリモートコントロールによって受け取られたボイスコマンドは、同じブランドのスマート家電へ送られ、スマート家電は、ボイスデータを、解釈のために、関連する発話処理サービスへ送る。例えば、ＣｏｍｃａｓｔブランドのＸｆｉｎｉｔｙボイスリモート１０２のユーザは、マイクロホンキーを押して、リモートに、「ＥＳＰＮを見よ」又は「子ども向け映画を示して」などのユーザの音声を記録することを開始させ、記録は、キーが離されると終わる。リモートは次いで、ＶｏｉｃｅｏｖｅｒＲＦ４ＣＥ無線プロトコルを使用して、記録を圧縮しＳＴＢ１０８へ低帯域幅リンクを介して送る。ＳＴＢ１０８はそれから、記録をＣｏｍｃａｓｔブランドのボイスサービスプロバイダへルータ１１４を介して送り、プロバイダは、記録を解釈するために自然言語処理（ＮＬＰ）を実行し、対応するコマンドを決定し、次いで、対応する動作を実行するためにコマンドをＳＴＢ１０８へ返す。この実施形態では、ＣｏｍｃａｓｔブランドのＸｆｉｎｉｔｙボイスリモート１０２は、異なる民生ブランドのスマート家電、例えば、ＡｐｐｌｅＴＶブランドのストリーマ１１０へボイスコマンドを送ることをサポートしない。クラウドに基づく発話処理サービスの動作は当業者によく知られており、本明細書では記載されない。

図２は、本明細書中の教示に従うシステムを例示し、スタンドアローンのＡｍａｚｏｎブランドのＥｃｈｏデバイス（以降「Ｅｃｈｏ」と呼ばれる）などの、又は制限なしに、タブレット、ＰＤＡ、関連するリモートコントロールタイプアプリケーションを備えた携帯電話機、スマートウォッチ、コンピュータ、ウェアラブル制御デバイス、リモートコントロール、若しくは２つ以上のスマート家電を制御することを目的とした中継デバイスを含む、音声入力機能を備えた同様のデバイスである制御デバイス２０２を含む。更に、制御デバイス２０２は、参照により本願に援用される米国特許出願第１５／７９９３９３号に記載されているインテリジェントデジタルアシスタントの形をとってもよいことが考えられている。このとき、デジタルアシスタントは、本明細書で記載される機能の１つ以上を補われる。続く記載から理解されるように、制御デバイス２０２は、対応する複数の意図された対象デバイスによって受信される信号１２０、１２２（図１にも図示あり）及び／又は信号２１２及び２１４などの１つ以上の異なる無線信号を送信するよう構成される。そのような送信は、２つ以上のスマート家電へコマンドを送るために必要とされるような、ＶｏｉｃｅｏｖｅｒＩＰ（ＶｏＩＰ）、ＩＰ、ＳｍａｒｔＷａｖｅ（Ｓ−Ｗａｖｅ）、Ｗｉ−Ｆｉ，Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬｏｗＥｎｅｒｇｙ（ＢＬＥ）、ＲＦ４ＣＥ、ＺｉｇＢｅｅ、Ｚ−ｗａｖｅ、赤外線、６ＬｏＷＰＡＮ、スレッド、Ｗｉ−Ｆｉ−ａｈ、２Ｇ、３Ｇ、４Ｇ、ＮＢ−ＩｏＴ、５Ｇ、ＮＦＣ、ＲＦＩＤ、ＳｉｇＦｏｘ、などの通信プロトコルを使用してよい。この実施形態では、制御デバイス２０２は、ユーザからボイスコマンドを受け取り、そして、制御デバイス２０２によって決定されたスマート家電１０８、１１０、２０４及び２０６のうちの１つ以上へボイスコマンドのフォーマット化されたバージョンを送るよう構成される。いくつかの実施形態では、ボイスコマンドはフォーマット化されない。また、制御デバイス２０２は、本明細書で記載されるボイスコマンドのフォーマット化されたバージョンを送信する機能をプロビジョニングされることに加えて、１つ以上のコマンドコードセットから選択された１つ以上のコマンドが、制御されるデバイスへ送信され得、それによって、制御されるデバイスの機能動作、例えば、ボリューム操作機能、電源操作機能、などを制御する従来のリモートコントロール機能をプロビジョニングされ得る、と理解されるだろう。

スマート家電は、ＴＶ１０６、ＳＴＢ１０８、ＡｐｐｌｅＴＶブランドのストリーマ１１０（全て図１に図示あり）、Ｘｂｏｘブランドのゲーム機２０４、及びＲｏｋｕブランドのストリーマ２０６などの、エンドユーザの家にある民生用電子機器を有してよい。ＴＶ１０６、Ｘｂｏｘブランドのゲーム機２０４、ＳＴＢ１０８、Ｒｏｋｕブランドのストリーマ２０６、及びＡｐｐｌｅＴＶブランドのストリーマ１１０として表されているが、スマート家電は、制限なしに、様々なテレビ受像機、ＶＣＲ、ＤＶＲ、ＤＶＤプレイヤー、ケーブル又は衛星変換セットトップボックス、増幅器、ＣＤプレイヤー、ゲーム機、ホーム照明、スマートワイヤレスハブ、カーテン、ファン、ＨＶＡＣシステム、パーソナルコンピュータ、装着式健康監視デバイス、あるいは、一般的に、いくつかの実施形態では、通常はローカルエリアネットワーク若しくはワイドエリアネットワーク２１６上で無線信号１１８に関連した無線ルータ１１４の使用により、Ｅｃｈｏ若しくはスマートフォンなどの制御型デバイス、及び／又は他のスマート家電と通信することができるあらゆる民生製品を含んでよい、ことが理解されるべきである。そのようなスマート家電は、一般に、ＨＤＭＩケーブル１１２を介してＴＶ１０６へ接続されており、あるいは、無線で接続されてもよく、データベース２１０へ結合されている結合されたリモートサーバ２０８へ、若しくは図１に記載されるように発話処理サービス１１６へ、又はその両方へデータを送るよう動作してよい。

制御デバイス２０２は、ユーザによって、ユーザの音声が記録され及び／又は１つ以上の結合されたスマート家電（以降、個々に及び集合的に「家電」と呼ばれる）へストリーミング及び送信されることを可能にするよう、結合されたマイクロホンを少なくとも作動させる制御デバイス２０２上の機械キー又はソフトキーを押すことによって操作されてよい。一実施形態において、制御デバイス２０２は、オーディオベースのコンテキスト認識システムの部分であってよく、いくつかの実施形態では、サーバ２０８へ結合された少なくとも１つのスマート家電を有するコンテキストコマンドルーティングシステムの部分であってもよい。システムは、動作を実行するためにユーザの意図を決定し、意図されたスマート家電を決定して、コマンドを実行するためにそのスマート家電へボイスコマンドを送る。いくつかの実施形態で、ユーザの意図の決定は、ユーザのリビングルームなどのマルチメディア視聴エリア内で起こる事象に対するシステム応答を自動化するために、検知インターフェースを結合されているホームエンターテイメントシステムによって実行される。ユーザの意図のそのような決定は、その全文を参照により本願に援用される米国特許第９１３７５７０号に記載されているように、実行されてよい。

一例において、制御デバイス２０２は、オーディオベースのコンテキスト（すなわち、ユーザがボイスコマンドを声に出すことに由来するオーディオ信号に基づくコンテキスト）を連続的に聞き、通信インターフェースを介して、オーディオベースのコンテキストをスマート家電へ送ることによって動作してよい。スマート家電は、結合されているサーバ２０８へボイスコマンドを送る。サーバ２０８は、自動的にコンテキストコマンドルーティングを決定するために及び／又はオーディオベースのコンテキストが意図されたスマート家電を決定するための分類の少なくとも部分を決定するために、オーディオベースのコンテキストの認識動作を自動的に実行する。

この例では、サーバ２０８へ結合されたＴＶ１０６などのスマート家電は、第１通信インターフェース（例えば、Ｗｉ−Ｆｉ受信器）を介してサーバ２０８から直接に、意図された家電の決定情報を受け取り、意図された家電の決定情報を使用して、ボイスコマンドが意図されたスマート家電を決定する。ＴＶ１０６は、コマンド（例えば、オン／オフ、ボリュームアップ／ダウン、チャンネル変更、など）を実行するために、第２通信インターフェース（例えば、ＲＦ４ＣＥ送信器）を介して、意図されたスマート家電へボイスコマンドを送る。

他の例では、制御デバイス２０２が、意図された家電の決定情報をサーバ２０８から第１通信インターフェースを介して受け取り、意図されたスマート家電へボイスコマンドを第２通信インターフェースを介して送り、スマート家電はコマンドを実行する。

更なる他の例では、サーバ２０８は、意図された家電の決定情報を決定するだけでなく、コンテキストコマンドルーティングを決定するためのユーザの意図も決定する。その場合に、コマンド自体は、意図されたスマート家電へワイドエリアネットワーク２１６を介して、コントローラ２０２へ、又はボイスコマンドを転送したスマート家電へ送られる。

一例において、第１スマート家電は、意図された家電の決定情報をサーバ２０８から第１通信インターフェースを介して受け取り、家電決定情報を使用して、意図されたスマート家電を決定し、コマンドを、コマンドを実行する意図されたスマート家電へ送る。

一例において、第１スマート家電は、ローカルでコマンドを実行するために、意図された家電の決定情報をサーバ２０８から受け取る。

他の例では、第１スマート家電は、接続されたスマート家電についてローカルエリアネットワークをスキャンしてよく、意図された家電の決定情報を決定しかつ意図されたスマート家電へコマンドを送るために、各スマート家電に状態情報を問い合わせてよい。

他の例では、第１スマート家電は、意図された家電の決定情報をサーバ２０８から受け取り、家電決定情報を第２スマート家電へ送り、第２スマート家電は、識別情報を使用して、識別されたスマート家電を決定し、ボイスコマンドを識別されたスマート家電へ、コマンドを実行するために、第２通信インターフェースを介して送る。

一例において、スマート家電は、自然言語処理又は同様の処理を実行して対応するコマンドを決定するために、ボイスコマンドを、関連する発話処理サービスプロバイダへ送り、それから、対応するコマンドは、コマンド動作を実行するスマート家電へ送られる。

一例において、制御デバイス２０２は、通信インターフェースを介して、スマート家電に、「テレビ」、「Ｇｏｏｇｌｅ」、「Ａｌｅｘａ」、「Ｘｂｏｘ」、「ゲーム」又は「ＳＴＢ」などのウェイクワードと、「電源オン」、「再生」、「停止」などのコマンドを記録及び／又はストリーミングする。ウェイクワードは、一般に、スマート家電を識別することを目的とし、いくつかの実施形態では、スマート家電の電源状態を、例えば、スタンバイからフルパワーに切り替えることを目的とする。一例において、制御デバイス２０２は、ウェイクワードと、一例においては、ウェイクワードを受け取った直後に制御デバイスによって受け取られるコマンドとを送るべきスマート家電を決定するためにウェイクワードを使用する。

他の例では、制御デバイス２０２は、ウェイクワード及びコマンドをサーバ２０８へワイドエリアネットワーク２１６を介して送り、スマート家電識別は、サーバ２０８のプロセッサによって決定され、サーバ２０８は、そのスマート家電へボイスコマンドを送る。

他の例では、制御デバイス２０２は、意図されたスマート家電の識別を、制御デバイス２０２へ結合されているスマート家電から受け取り、意図されたスマート家電の識別には、関連するウェイクワードが含まれ、制御デバイス２０２は、情報を電子記憶媒体に記憶する。制御デバイス２０２は次いで、ユーザから少なくともウェイクワードを受け取り、そのウェイクワードを使用して、ウェイクワード、又はウェイクワードに関連したスマート家電に関連したボイスコマンドを送るべき意図されたスマート家電を決定する。

例として、制御デバイス２０２は、少なくともウェイクワードをＴＶ１０６へ送ってよい。ＴＶ１０６は、受け取られたウェイクワードに関連したスマート家電を決定するためにウェイクワードを使用する。スマート家電識別は、ＴＶ１０６によって、ウェイクワードが意図とされる対応するスマート家電を決定するために使用される。ＴＶ１０６は、それから、ウェイクワード及び関連するボイスコマンドを、コマンドの実行のために、識別されたスマート家電へ送る。

他の例では、スマート家電は、制御デバイス２０２及びサーバ２０８と協働して、学習動作などのプロビジョニングプロセス中にユーザによって話され、ボイスコマンドを、ボイスコマンドをサポートするスマート家電と関連付ける所定のボイスコマンドを使用して、ユーザに家にあってスマート家電によって検出される各スマート家電を登録するようプロビジョニングプロセスにおいて構成される。例えば、ユーザは、制御デバイス２０２の使用により、「音楽を再生」、「映画を一時停止」、「記録を開始」などのような所定のボイスコマンドを声に出してよい。この実施形態では、制御デバイス２０２は、プロビジョニングのためにスマート家電へボイスコマンドを送り、スマート家電は、サーバ２０８によってアクセス可能なデータベース２１０の使用により、サーバ２０８から、ボイスコマンドに対応する命令と、コマンドのための意図されたスマート家電の識別とを受け取る。

例えば、ボイスコマンド「音楽を再生」は、サーバ２０８によって、検出されたＡｐｐｌｅＴＶブランドのストリーマ１１０などの、音楽をストリーミングすることをサポートするスマート家電と関連付けられてよい。同様に、ボイスコマンド「映画を一時停止」は、サーバ２０８によって、Ｒｏｋｕブランドのストリーマ２０６と関連付けられてよく、「記録を開始」はＳＴＢ１０８と関連付けられてよい。その後に、ユーザが、制御デバイス２０２の使用により、ボイスコマンド「音楽を再生」を発話する場合に、プロビジョニングされたスマート家電は、ＡｐｐｌｅＴＶブランドのストリーマ１１０に、音楽をストリーミングするよう動作を実行させる。

更なる他の例では、制御デバイス２０２はボイスコマンドを受け取り、ボイスコマンドは、アクティブなソース／シンクポートを検出するための要求、通信バスの状態の要求、などのような入力ステータス要求が自動的に制御デバイス２０２によってＴＶ１０６へ送られるようにする。ＴＶ１０６は、ＴＶ１０６の電子記憶媒体に記憶されている複数の家電識別から選択された関連する家電識別を決定するよう多数の可能性がある入力の中からアクティブ入力を検出する動作を実行する。ＴＶ１０６は次いで、識別されたスマート家電へボイスコマンドを送るために家電識別を使用する。

一例において、制御デバイス２０２は、エンドユーザの家にある複数の結合されたスマート家電からのスマート家電の識別を用いて、リモートサーバ２０８へ結合されているＴＶ１０６からコンフィグレーション情報を受け取る。この例では、コンフィグレーション情報は、サーバ２０８によってＴＶ１０６にプロビジョニングされる複数のスマート家電プロファイル（以降「デバイスプロファイル」と呼ばれる）を有する。例えば、サーバ２０８は、エンドユーザの家にある複数のスマート家電の識別をＴＶ１０６から受け取る。ＴＶ１０６は、他の接続されているスマート家電を検出する動作を実行し、その情報をリモートサーバ２０８へプロビジョニングする。次いで、サーバ２０８は、検出されたスマート家電の夫々についてデバイスプロファイルを決定するよう情報を解析する。サーバ２０８は、検出されたスマート家電の夫々のデバイスプロファイルをデータベース２１０に記憶し、検出されたスマート家電の夫々のデバイスプロファイルをＴＶ１０６へ送る。ＴＶ１０６は次いで、コンフィグレーション情報を制御デバイス２０２へ送る。制御デバイス２０２は、以下の更なる例で記載されるプロビジョニングプロセスにより、ユニバーサル制御エンジン２００（以降「ＵＣＥ」と呼ばれる）を有する結合されたＴＶ１０６からコンフィグレーション情報を受け取る。

更に、図２に示されるスマート家電のいずれも、１つ以上のデバイスプロファイルを制御デバイス２０２へ又は他の結合されたスマート家電へ送るために、いずれかのスマート家電をマスタデバイスとして動作させ、サーバ２０８をスレーブデバイスとして動作させることによって、又はその逆によって、協調動作において動作してよい。デバイスプロファイルは、制御デバイス２０２に関連した電子記憶媒体に又はスマート家電の電子記憶媒体にローカルで記憶されてよい。

ユーザのボイスコマンドは、記録として記載されているが、一方で、ボイスコマンドは、制御デバイス２０２によってリアルタイムでストリーミングされてよく、部分的にストリーミングされてよく、あるいは、制御デバイス２０２の電子記憶媒体に一時的に記憶されてよい、ことが理解されるべきである。更に、決定動作は、相互参照動作として記載されているが、一方で、他の方法が、サーバ２０８によって、例えば、所定の動作マップを使用して、インデックスを使用して、ペアリングテーブルを使用して、又はそれらの方法の１つ以上を使用して、関係を決定するために実行されてよい、ことが理解される。

図３は、関連する制御アプリケーションを備えかつサーバ２０８へ結合された制御デバイス２０２を使用してボイスコマンドを２つ以上のスマート家電へ供給するシステムの例である。制御タイプアプリケーション（以降「アプリケーション」と呼ばれる）は、当該技術でよく知られており、本明細書では記載されない。この実施形態では、制御デバイス２０２は、適切なアプリケーションインターフェース３００を有するアプリケーションの使用により、動作を開始してよい。制御デバイス２０２は、各ボイスコマンドがどのスマート家電に向けられるべきかを決定してよく、ボイスコマンドが意図されるスマート家電に従ってボイスコマンドをフォーマット化してよく、意図されたスマート家電へフォーマット化されたボイスコマンドを送る伝送技術を決定してよい。例えば、ユーザは、制御デバイス２０２に提供されたユーザインターフェース上でソフトキーを押して、制御デバイス２０２のマイクロホンを作動させてよい。それから、ユーザは、ボイスコマンドを発話してよく、ボイスコマンドは、制御デバイス２０２によって受け取られ、次いで、ボイスコマンドが意図されるスマート家電を決定するために処理される。次に、ボイスコマンドは、決定されたスマート家電によって理解されるデジタル信号にフォーマット化される。明らかなように、図３に表されている制御デバイス２０２上のボリューム制御キー、チャンネル制御キー、又は電源キーの作動は、制御される家電、例えば、ＴＶに、対応する機能動作を実行させる、例えば、その音響をミュートさせるために、制御される家電への従来のリモートコントロールコマンドの伝送を生じさせ得る。

一例において、アプリケーションは、関連するマイクロホンの使用により、ボイスコマンドを聞くことができ、ボイスコマンドが受け取られる場合に、アプリケーションは、スマート家電に対して、接続されているスマート家電についてローカルエリアネットワークを動的にスキャンし、各スマート家電に状態情報、例えば、特定のスマート家電で現在利用可能なメディアコンテンツ、サポートされているコマンド、などを問い合わせるローカル動作を実行するよう要求を送る。例えば、ＴＶ１０６は、ＳＴＢ１０８及びＡｐｐｌｅＴＶブランドのストリーマ１１０などの１つ以上のスマート家電へのクエリを開始してよく、各スマート家電は、各スマート家電でどのようなアクティビティが行われているかに関する情報をリアルタイムでＴＶ１０６へ送る。そのようなアクティビティ情報は、ＡｐｐｌｅＴＶブランドのストリーマ１１０で観られているＴＶ番組又は映画、鑑賞されている写真、ＳＴＢ１０８でのアクティブなアプリケーション及びそれらの表示内容、使用されている現在のボリュームレベル、サポートされているコマンドなどの利用可能な現在のメディアコンテンツを有してよく、各スマート家電によって実行された最後のユーザ動作又はコマンドの識別などの情報を含んでもよい。いくつかの例で、アクティビティ情報は、スマート家電へ結合されているディスプレイ上に部分的に又は全面的に表示されてよく、あるいは、情報を表示するために、第１スマート家電によって第２スマート家電へプロビジョニングされてもよい。

他の例では、アクティビティ情報は、制御デバイス２０２へ結合されているディスプレイに表示されてよく、このとき、アクティビティ情報は、制御デバイス２０２にインストールされているアプリケーションの使用によりユーザによって作動されるときに、スマート家電に、「再生」、「停止」などの対応するコマンドを実行させるアクティブ化可能なリンクを含む。

一例において、ボイスコマンドが意図されるスマート家電の決定は、制御デバイス２０２が、ボイスコマンドを制御デバイス２０２から発話処理サービス又はクラウドサービスへ中継する仕事を負った専用のスマート家電へボイスコマンドを送った後に、発話処理サービス１１６によって又はクラウドサービス３０２によって実行される。ボイスコマンドが命令するよう意図されたスマート家電の識別及び／又は他の情報は、次いでスマート家電へ返され、すると、識別及び／又は他の情報はアプリケーションへ供給される。代替的に、アプリケーションは、ボイスコマンドを直接に発話処理サービス１１６へ又は関連するクラウドサービス３０２へ、直接に無線ルータ１１４を介して又はセルラーネットワークの使用を介して送ってもよく、この場合に、スマート家電がこの情報をリモートサーバとの間で中継する必要性は除かれる。発話処理サービス１１６又はクラウドサービス３０２は、その場合に、情報／命令を直接に制御デバイス２０２へ返送してよい。

一例において、アプリケーションは、例えば、ＩＦＴｈｉｓＴｈｅｎＴｈａｔ（以降「ＩＦＴＴＩ」と呼ばれる）タイプの命令のような、クラウドサービス３０２をプロビジョニングするために使用され得る命令を有してよく、１つ以上の所定のＩＦＴＴＴ動作を自動化して、１つ以上の所定の動作が、ＵＣＥ２００を介してＩＦＴＴＴサービスへ結合されているＴＶ１０６などの１つ以上のスマート家電へＩＦＴＴＴサービスによって送られるようにする。同様に、そのような動作は、ワークフローツールの使用によりクラウドサービス３０２で事前入力されてよく、あるいは、セットアップ動作中にアプリケーションによってＩＦＴＴＴサービスに入力されてもよい。

一例において、アプリケーションは、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を問い合わせるよう、連続的に又は所定の時間インターバルでスマート家電へ要求を送る。

スタンドアローンのアプリケーションとして記載されているが、１つ以上のスマート家電にインストールされ得る１つ以上の結合されたアプリケーションが、フォーマット化されたボイスコマンドを２つ以上のスマート家電へ供給するために制御デバイス２０２、クラウドサービス３０２又はＴＶ１０６をプロビジョニングするよう協働してよい、ことが理解されるべきである。更に、１つ以上のアプリケーションは、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を問い合わせるように、スマート家電によって又は制御デバイス２０２によって発せられた要求に応答するよう協働してよい。いくつかの例で、アプリケーションは、スマート家電に又は制御デバイス２０２に存在するセットアップエージェントプログラムの使用により同期されてよい。更なる詳細は、その全文を参照により本願に援用される米国特許出願第１４／２７７９６８号で見いだされ得る。

図４は、図２に示されている制御デバイス２０２のような、フォーマット化されたボイスコマンドを２つ以上のスマート家電へ供給する制御デバイスの一例の機能ブロック図４００を表す。制御デバイス２０２は、この例では、プロセッサ４０２、電子記憶媒体４０４、ユーザインターフェース４０８、少なくとも１つのトランシーバ４１０、及び少なくとも１つの送信器４１２を有する。

プロセッサ４０２は、電子記憶媒体４０４に記憶されているプロセッサ実行可能命令、例えば、実行可能コードを実行することによって、制御デバイスの全般的な動作を提供するよう構成される。プロセッサ４０２は、通常、汎用のマイクロプロセッサを有するが、様々なマイクロプロセッサ、マイクロコンピュータ及び／又はマイクロコントローラのいずれか１つが代替的に使用され、計算出力、費用、サイズなどの因子に基づいて選択されてよい。

電子記憶媒体４０４は、ＲＯＭ、ＲＡＭ、フラッシュ、他のタイプの電子的、光学的、若しくは機械的な電子記憶媒体デバイス、又はそれらの任意の組み合わせなどの１つ以上の情報記憶デバイスを有する。電子記憶媒体４０４は、制御デバイス２０２の動作のためのプロセッサ実行可能命令を記憶するために使用されてよい。また、明らかなように、表されている電子記憶媒体の一部又は全部は、物理的に、プロセッサ手段４０２と同じＩＣチップ内に組み込まれてよい。

当業者には当然ながら、電子記憶媒体４０４の一部又は全部は、各デバイスプロファイルがボイスコマンドを特定のスマート家電によって使用されるプロトコルに従ってフォーマット化するフォーマッティングプロトコルを有する複数のデバイスプロファイルを記憶してよく、１つ以上のデバイスプロファイルに関連し得る複数のウェイクワード及び／又はボイスコマンドを記憶してよい。例えば、第１デバイスプロファイルは、例えば、ＴＶ１０６にチャンネル、入力、ボリュームなどを変えさせるために、ＴＶ１０６の音声操作のための１つ以上のデジタル信号のフォーマットを指定してよく、一方、第２デバイスプロファイルは、例えば、チャンネル変更、ボリューム制御などのために、ＳＴＢ１０８の音声操作のための１つ以上のデジタル信号のフォーマットを指定してよい。

通信インターフェース４０６は、制御デバイス２０２及びスマート家電の間の、いくつかの実施形態では、制御デバイス２０２とそれと及びワイドエリアネットワーク２１６を介してサーバ２０８と通信する無線ルータ１１４との間の無線通信を可能にする、よく知られたＥｔｈｅｒｎｅｔ（登録商標）、Ｗｉ−Ｆｉ、ＲＦ４ＣＥ、Ｂｌｕｅｔｏｏｔｈ、又はＵＳＢ回路などの１つ以上のデータインターフェース回路を有する。一実施形態では、通信インターフェース４０６は、結合されているスマート家電間の通信を可能にする、少なくとも１つのトランシーバ４１０及び少なくとも１つの送信器４１２などの１つ以上のデータインターフェース回路を有する。この実施形態では、トランシーバ４１０は、第１スマート家電と通信するために使用される第１無線プロトコルをサポートしてよく、第２トランシーバ４１０は、フォーマット化されたボイスデータをスマート家電の夫々へ供給する第２スマート家電と通信するために使用される第２無線プロトコルをサポートしてよい。

ユーザインターフェース４０８は、ユーザが制御デバイス２０２の動作を制御することを可能にするユーザ入力デバイスを有する。ユーザ入力は、通常、ユーザが制御デバイス２０２にコマンド又は情報を入力することを可能にする少なくとも１つ以上のソフトキー又は機械キーを有する。一例において、ユーザインターフェース４０８は、ユーザのボイスコマンドを受け取って、ボイスコマンドを当該技術で知られているように電子信号に変換するプロセッサ４０２へ結合されたマイクロホンを有する。

機能ブロックは、図４に示されている以外の様々な方法で互いに結合されてもよく、かつ、明りょうさのために、電源、マイクロホン、１つ以上の加速度計、多軸ジャイロ、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、制御デバイス２０２の動作のために必要な全ての機能ブロックが示されているわけでない、ことが理解されるべきである。

図５は、ＴＶ１０６、ＳＴＢ１０８、ＡｐｐｌｅＴＶブランドのストリーマ１１０（夫々図１に図示あり）、Ｘｂｏｘブランドのゲームシステム２０４及びＲｏｋｕブランドのストリーマ２０６（夫々図２に図示あり）などのスマート家電の一例の機能ブロック図５００を表す。そのようなスマート家電は、ボイスコマンドによって制御されてよく、話者に依存せず、すなわち、スマート家電は、複数のボイスに応答してよく、一度に複数のコマンドに応答してよい。いくつかの実施形態で、スマート家電は、ローカル動作により話者、すなわちユーザを識別及び／又は認証してよく、受け取られた音声入力を発話処理サービス１０６へワイドエリアネットワーク２１６を介して又はセルラーネットワークの使用を介して送ってよい。

この例では、スマート家電は、プロセッサ５０２、電子記憶媒体５０４、通信インターフェース５０６、ユーザインターフェース５０８、及びトランシーバ５１０を有する。機能ブロックは、図５に示されている以外の様々な方法で互いに結合されてよく、明りょうさのために、電源、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、スマート家電の動作に必要な全ての機能ブロックが示されているわけではない、ことが理解されるべきである。

プロセッサ５０２は、電子記憶媒体５０４に記憶されているプロセッサ実行可能命令、例えば実行可能コードを実行することによって、スマート家電の全般的な動作を提供するよう構成される。プロセッサ５０２は、通常、ＩｎｔｅｌＣｏｒｅＩ７ブランド又はＡＭＤＫ１０ブランドのマイクロプロセッサなどの汎用のマイクロプロセッサを有するが、様々なマイクロプロセッサ、マイクロコンピュータ及び／又はマイクロコントローラのいずれか１つが代替的に使用され、計算出力、費用、サイズなどの因子に基づいて選択されてよい。

電子記憶媒体５０４は、ＲＯＭ、ＲＡＭ、フラッシュ、他のタイプの電子的、光学的、若しくは機械的な電子記憶媒体デバイス、又はそれらの任意の組み合わせなどの１つ以上の情報記憶デバイスを有する。電子記憶媒体５０４は、スマート家電の動作のためのプロセッサ実行可能命令を記憶するために使用されてよい。また、明らかなように、表されている電子記憶媒体の一部又は全部は、物理的に、プロセッサ手段５０２と同じＩＣチップ内に組み込まれてよい。

当業者には当然ながら、電子記憶媒体５０４の一部又は全部は、制御されるべきスマート家電の各タイプに特有である命令又はデータを記憶してよい。例えば、ＴＶ１０６のための命令は、制御デバイス２０２から受け取られたコマンドに従って、通信インターフェース５０６を介してテレビジョンプログラミングを受け取り、テレビジョンプログラムの１つをディスプレイで表示する命令を有してよい。

他の命令は、スマート家電に、ウェイクワード又はボイスコマンドなどの、制御デバイス２０２からの命令を受け取らせ、プロセッサ５０２は、ボイスコマンドに関連したスマート家電識別を決定するためにボイスコマンドを使用する。スマート家電は次いで、家電識別を制御デバイス２０２へ又は結合されているスマート家電へワイドエリアネットワーク２１６を介して送る。

更なる他の命令は、スマート家電に、制御デバイス２０２から命令を受け取らせ、命令は、プロセッサ５０２に、アクティブＨＤＭＩ入力を検出するように、オーディオ−ビデオ／通信バスステータス要求に関するアクティブソース／シンク／ポートの検出／要求などの検出プロセスを開始させる。スマート家電は次いで、アクティブＨＤＭＩ入力に接続されているスマート家電を決定し、家電識別を制御デバイス２０２へ又は結合されているスマート家電へ送る。制御デバイス２０２又は結合されているスマート家電は次いで、識別されたスマート家電へボイスコマンドを送るために家電識別を使用する。いくつかの例で、スマート家電は、コンテキストコマンドルーティングを決定するためにサーバ２０８へ家電決定を送る。サーバ２０８は次いで、識別されたスマート家電へボイスコマンドを送る。他の例では、サーバ２０８は、アクティブＨＤＭＩ入力に接続されている家電へコマンドを転送するために又はコマンドを実行するために、どのスマート家電がアクティブＨＤＭＩ入力に接続されているかを決定したスマート家電へボイスコマンドを送る。

通信インターフェース５０６は、無線ルータ１１４によって提供されるローカルエリアネットワークを介してスマート家電と他の結合されているスマート家電との間及びスマート家電と制御デバイス２０２との間の、並びにワイドエリアネットワーク２１６を介してスマート家電とサーバ２０８との間のデジタル通信を可能にする、トランシーバ５１０、Ｅｔｈｅｒｎｅｔ、Ｗｉ−Ｆｉ、ＲＦ４ＣＥ、Ｂｌｕｅｔｏｏｔｈ、又はＵＳＢ回路などの１つ以上のデータインターフェース回路を有する。この実施形態では、トランシーバ５１０は、制御デバイス２０２からボイスコマンドを受け取るために使用される無線プロトコルをサポートしてよく、ボイスコマンドを発話処理サービス１１６へ送るために復号化、圧縮、又は必要な他の動作を実行してよい。

ユーザインターフェース５０８は、ユーザがスマート家電の動作を制御することを可能にするユーザ入力デバイス及び／又はユーザ出力デバイスを有する。ユーザ入力は、通常、ユーザがスマート家電にコマンド又は情報を入力することを可能にする１つ以上の押しボタン、キー、タッチスクリーンディスプレイなどを有する。ユーザ出力は、通常、望まれるように／必要とされるようにユーザにメディアコンテンツを提示するための表示画面、タッチスクリーンディスプレイ、照明、増幅された音響バー、などを有する。

機能ブロックは、図５に示されている以外の様々な方法で互いに結合されてもよく、かつ、明りょうさのために、電源、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、スマート家電の動作に必要な全ての機能ブロックが示されているわけではない、ことが理解されるべきである。

図６は、２つ以上のスマート家電の音声制御を可能にする方法の一例のフロー図である。方法は、制御デバイス２０２内にあるプロセッサ４０２によって、電子記憶媒体４０４に記憶されているプロセッサ実行可能命令を実行することによって実施される。いくつかの実施形態で、図６に示されているステップの全てが実行されるわけではなく、ステップが実行される順序は異なってもよい、ことが理解されるべきである。更には、当業者に知られるいくつかの重要でない方法ステップは、明りょうさのために省略されている、ことが理解されるべきである。

ブロック６００で、制御デバイス２０２のユーザは、ボイスコマンドを制御デバイス２０２にユーザインターフェース４０８を介して発話する。一例において、ユーザは最初に、制御デバイス２０２でマイクロホンを作動させるために、制御デバイス２０２上のキーを押す。

ブロック６０２で、ボイスコマンドは、プロセッサ４０２によってユーザインターフェース４０８を介して受け取られ、プロセッサ４０２は、通常、ボイスコマンドを電子記憶媒体４０４に記憶する。

ブロック６０４で、プロセッサ４０２は、ボイスコマンドがどのスマート家電に意図されているかを決定する。一例において、プロセッサ４０２は、ボイスコマンドを評価し、ボイスコマンドが特定のスマート家電、この例ではＴＶ１０６を対象としていると決定する。決定動作は、上記の例の１つ以上に従って実行される。

他の例では、プロセッサ４０２は、スマート家電の所定の１つによって受け取られるように所定のフォーマットでボイスコマンドを送信する。この例では、プロセッサ４０２は、スマート家電の１つと通信するよう事前設定され、所定のスマート家電によって理解されるフォーマットでボイスコマンドを送信する。所定のスマート家電は、ボイスコマンドが対象としているスマート家電とは異なってよい。所定のスマート家電は、ボイスコマンドを受け取り、それをリモートサーバ２０８へ転送する。リモートサーバ２０８は、次いで、ボイスコマンドが対象としているスマート家電タイプ又は特定のスマート家電の識別を決定するよう、ボイスコマンドを処理する。例えば、サーバ２０８は、ボイスコマンドを解釈し、「ボリュームアップ」、「ボリュームダウン」、「チャンネル変更」、「ＴＶオン（オフ）」、「Ｒｏｋｕオン（オフ）」などのような多数の所定コマンドの中から１つを取り出すことができる。解釈に基づいて、サーバ２０８は、ボイスコマンドが意図されているスマート家電タイプを少なくとも識別する。特定のスマート家電の識別がボイスコマンド内に含まれている、「ＴＶオン（オフ）」、「Ｒｏｋｕオン（オフ）」などのいくつかのボイスコマンドについては、意図されたスマート家電の決定は、単に、述べられたスマート家電を抽出するようボイスコマンドを解釈するだけである。「ボリュームアップ」、「ボリュームダウン」、「チャンネル変更」などの他のボイスコマンドでは、サーバ２０８は、ボイスコマンド内のキーワードを識別し、キーワードを、サーバ２０８によって記憶されているスマート家電タイプと関連付けることによって、意図されている可能性があるスマート家電を決定してよい。例えば、「ボリューム」という単語が発話されたとサーバ２０８が決定する場合に、サーバ２０８は、ボイスコマンドがＴＶ１０６又はセットトップボックス１１０のどちらかを対象としていると決定し得る。次いで、サーバ２０８は、直接に無線ルータ１１４を介して又は所定のスマート家電を経由して遠隔の制御デバイス２０２へ意図されたスマート家電の識別を返す。

ブロック６０６で、制御デバイス２０２は、意図されたスマート家電の識別をサーバ２０８からトランシーバ４１０を介して受け取る。トランシーバ４１０は、識別をプロセッサ４０２へ渡す。

ブロック６０８で、プロセッサ４０２は、識別を受け取り、スマート家電識別タイプに基づいて、ボイスコマンドが対象としている特定のスマート家電を決定し得る。例えば、サーバ２０８は、ボイスコマンドが対象としているＴＶを識別した、とする。その場合に、プロセッサ４０２は、使用中のＴＶの特定のブランド及び／又はモデルと、ボイスコマンド、ウェイクワード、予めインストールされているアプリケーション、視聴中のコンテンツ、サポートされている無線プロトコル、ユーザの好み、などの動作機能とを、先のプロビジョニングプロセスに基づいて決定する。

プロビジョニングプロセスは、他のスマート家電に、ＥＤＩＤ、ＣＥＣ、ベンダー名、デバイスタイプ、デバイスステータス、インストールされているアプリケーション、デバイスで再生中の現在のメディアコンテンツ、メディアコンテンツロゴ、インフォフレーム、ＳＳＤＰ、ＭＤＮＣ、ＩＰｍＤＮＳサービスリスト、ＶｏＩＰ、ＩＰ、ＳｍａｒｔＷａｖｅ（Ｓ−ＷＡＶＥ）、Ｗｉ−Ｆｉ、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ（ＢＬＥ）、ＲＦ４ＣＥ、ＺｉｇＢｅｅ、ＺＷａｖｅ、赤外線などのサポートされている無線プロトコルなどのそれらのデバイス情報を要求元の１つ以上のスマート家電へ供給させる信号を、発見されたスマート家電へ送ることを有する。例えば、プロビジョニングプロセスは、同じ動作機能を有するスマート家電を決定するために使用されてよい。そのようなデバイスについて、ユーザは、特定のスマート家電でＴＶ番組を鑑賞することを好み、然るべくユーザ好みを設定してよい。この実施形態では、ユーザ好みは、デバイスプロマイルにまとめられる。そのようなデバイス検出の更なる詳細は、米国特許第８８１２６２９号、第８５５８６７６号、第８６５９４００号、第８８３００７４号、第８８９６４１３号、第９２１５３９４号、第９４３７１０５号、第９４４９５００号及び第９０１９４３５号で見受けられ、これらの特許文献の全てが、それらの全文を参照により本願に援用される。

ブロック６１０で、プロセッサ４０２は、電子記憶媒体４０４に記憶されているボイスコマンドを、識別されたスマート家電に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化する。

ブロック６１２で、プロセッサ４０２は、フォーマット化されたボイスコマンドを、識別されたスマート家電へ、送信器／トランシーバ４１０及び／又は４１２を介して送る。ボイスコマンドをフォーマット化するために使用されるフォーマッティングプロトコルは、データを送信するための伝送プロトコルを更に有してよい。例えば、ＴＶ１０６と関連付けて電子記憶媒体４０４に記憶されているフォーマッティングプロトコルは、無線データがＲＦ４ＣＥ送信器を介して送信される必要があることを示し得る。この場合に、プロセッサ４０２は、フォーマット化されたボイスコマンドをＲＦ４ＣＥ送信器へ送り、ＲＦ４ＣＥ送信器に、フォーマット化されたボイスコマンドをＴＶ１０６へ送らせる。

デバイスプロファイルは、図２で部分的に記載されたように、スマート家電によって実行されるプロビジョニングプロセス中に識別されるデータなどのスマート家電情報の全部を有する。データは、データベース２１０に記憶されサーバ２０８によってアクセス可能であってよく、複数のスマート家電についての、スマート家電のメタデータ、属性、ユーザによって設定された好み、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するフォーマッティングプロトコル、サポートされるネットワーク若しくは通信プロトコル、ボイスコマンドコード構造若しくはフォーマット、ボイスサービス若しくは動作機能、状態情報、などを通常は有する。

それらのコマンド及び動作機能は、この家電に相関され得る「動詞」及び「文法」の組を定義する。

一例において、ＴＶ１０６は、サーバ２０８からデバイスプロファイルを受け取ることに応答して、通信インターフェース５０６を介して、制御デバイス２０２の設定における使用のために第２の制御されるスマート家電へデバイスプロファイルを送ってよい。デバイスプロファイルは、第２スマート家電によって使用されるフォーマットにある。例えば、第１スマート家電は、中継デバイスとして動作し、サーバ２０８から受け取られたデバイスプロファイルを第２スマート家電へ送ってよく、あるいは、デバイスプロファイルの１つ以上を電子記憶媒体４０４に記憶するために制御デバイス２０２へ送ってよい。

更なる他の例では、デバイスプロファイルは、クラウドサービス３０２によってワイドエリアネットワーク２１６の仕様により制御デバイス２０２へ供給される。制御デバイス２０２は、次いで、デバイスプロファイルを電子記憶媒体４０４にローカルで記憶してよい。

一例において、デバイスプロファイルは、ロー（raw）フォーマットでプロセッサ４０２によって受け取られてよく、プロセッサ４０２によって、データ構造を生成するためのプロシージャの組を含む読み出し可能なコードを実行することによって、特定のデータ構造へと再構成されてよい。他の例では、データ構造はリストである。更なる他の例では、データ構造は、プロセッサ４０２がデータ再構成動作を行うために必要とされる１つ以上のデータタイプの組み合わせである。

他の例では、プロセッサ４０２は、発見された家電情報を、電子記憶媒体４０４に記憶されている家電メタデータと相互参照するようローカル動作を実行するか、あるいは、夫々の識別されたスマート家電についてサーバ２０８と協調して行われる相互参照動作を実行してよい。この例では、サーバ２０８は、データを生成するか、又はデータをデバイスプロファイル若しくはデバイスフィンガープリントにまとめるために、いくつかの点で、類似したスマート家電の家電情報と等しいか又は共通点がある情報を、データベース２１０の使用により、決定する。家電メタデータは、ＥＤＩＤ、ＣＥＣ、デバイスタイプ、サポートされる特徴、などのようなスマート家電属性を有する。これらは、発見された家電情報に相補的であってよく、通常は、複数のスマート家電についてのクラウドベースの家電サービス、例えば、家電の製造者によって利用可能にされるサービス、関連する音声処理サービスや、機能、好ましい通信方法、サポートされるネットワーク又は通信プロトコル、コマンドコード構造又はフォーマットなどの、複数の他の家電に関する情報を含む。

更に、デバイスプロファイルは、ボイスコマンドをスマート家電へ送るために、スマート家電の元のリモートコントロール（例えば、ＣｏｍｃａｓｔブランドのＳＴＢ１０８を操作するためのＣｏｍｃａｓｔブランドのＸｆｉｎｉｔｙボイスリモート１０２、又はＡｐｐｌｅＴＶブランドのストリーマ１１０を操作するためのＡｐｐｌｅブランドのＳｉｒｉボイスリモート１０４（夫々図１に図示あり））によって送られた信号と同じ構造の信号を有してよい。信号は、制御デバイス２０２によって、通信インターフェース４０６を介して、第１の結合されたスマート家電へ、同じスマート家電製造者からの元のリモートコントロールの信号に似た信号により送られてよい。同様に、制御デバイス２０２は、第２スマート家電に関連した元のリモートコントロールの信号に似た信号の使用により、異なる信号を第２スマート家電へ送ってもよい。

他の例では、プロセッサ４０２は、関連するスマート家電メタデータを、例えば、インターネット又は他のクラウドベースのサーバから、取得するために、発見された家電情報の使用により、かつ／あるいは、通信インターフェース４０６を介したワイドエリアネットワーク２１６の使用によるオンライン検索を実行することにより、実時間でデバイスプロファイルを動的に生成してよい。動作が完了すると、デバイスプロファイルは、電子記憶媒体４０４に記憶されてよく、あるいは、結合されたサーバ又はクラウドサービス３０２の電子記憶媒体に記憶されてよい。

他の例では、デバイスプロファイルは、ＵＣＥ２００を有するＴＶ１０６へサーバ２０８によって通信インターフェース５０６を介してプロビジョニングされるか、あるいは、クラウドサービス３０２によってワイドエリアネットワーク２１６の使用によりＴＶ１０６へプロビジョニングされる。

いずれの例でも、各デバイスプロファイルは、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するためのフォーマッティングプロトコルを有し、エンドユーザの家にあるスマート家電からスマート家電情報の識別を集める機能は、その全文を本願に援用される米国特許第９２１５３９４号に記載されるようなユニバーサル制御エンジン（ＵＣＥ）２００によって実行されてよい。一例において、ＵＣＥ２００を有するスマート家電が最初に電源を入れられるとき、自動プロビジョニングプロセスが、ＵＣＥ２００を含むスマート家電と同じローカルネットワーク上のスマート家電を識別又は検出器するために開始されてよい。代替的に、プロビジョニングプロセスは、制御デバイス２０２でのキー押下によって、又はスマート家電によって認識され作用するボイスコマンドを介して、開始されてもよい。そのようなプロビジョニングプロセスは、その全文をやはり参照により本願に援用される米国特許第９３０７１７８号に記載されている。

一例において、制御デバイス２０２は、プロセッサ可読コードが担持されておりかつ複数のスマート家電プロファイルを記憶している電子記憶媒体４０４を有し、各デバイスプロファイルは、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するフォーマッティングプロトコルを有し、デバイスプロファイルは、サーバ２０８によってスマート家電にプロビジョニングされる。この例では、制御デバイス２０２は、マイクロホンを介してエンドユーザから第１ボイスコマンドを受け取り、第１ボイスコマンドは、制御デバイス２０２によって、第１ボイスコマンドが意図される第１スマート家電を決定するために使用される。次いで、制御デバイス２０２は、第１スマート家電に関連した電子記憶媒体において第１フォーマッティングプロトコルを識別し、第１フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化されたボイスコマンドにフォーマット化し、フォーマット化されたボイスコマンドを第１スマート家電へ送る。

例えば、ユーザは、マイクロホンキーを押し、特定のスマート家電、例えば、ＡｐｐｌｅＴＶブランドのストリーマ１１０を選択するための１つ以上の単語又は音響を発話してよい。制御デバイス２０２は、ボイスコマンドに基づいてそのスマート家電に関連したデバイスプロファイルを決定し、ＡｐｐｌｅＴＶブランドのストリーマ１１０と通信するために使用すべき適切な信号又はプロトコルを識別する。制御デバイス２０２は、ボイスコマンドを、ＡｐｐｌｅブランドのＳｉｒｉボイスリモート１０４の同じボイスコマンドにフォーマット化する。次いで、制御デバイス２０２は、ボイスコマンドをＡｐｐｌｅＴＶブランドのストリーマ１１０へ送る。制御デバイス２０２は、第２ボイスコマンドを受け取り、同様に、第２ボイスコマンドが意図される第２スマート家電、例えばＳＴＢ１０８を決定する。次いで、制御デバイス２０２は、フォーマット化されたボイスコマンドをＳＴＢ１０８へ送る。いくつかの例で、デバイスプロファイルは、スマート家電へボイスコマンドをどのように送るべきかの定義を有し、制御デバイス２０２は、どのスマート家電がボイスコマンドに関連しているかを決定するためにローカル動作を実行してよく、かつ、ボイスコマンドをどのように送るべきかの１つ以上の方法を決定してよい。

一例において、制御デバイス２０２は、ボイスコマンドを聞き、ボイスコマンドが受け取られるとき、制御デバイス２０２は、スマート家電に対して、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を動的にクエリするローカル動作を実行するようリクエストを送る。そのような状態情報は、インストール及び／又はサポートされているアプリケーション、スマート家電の電源状態（すなわち、オン／オフ）、特定の歌を再生中又は特定のビデオストリームを視聴中などの現在のメディア状態、サポートされているコマンド及び／又はスクリプト、などを有する。いくつかの例で、状態情報は、コマンドについてのコンテキストを定義するサーバ２０８によって又はクエリを実行したスマート家電によって使用されてよい。

一例において、状態情報は、特定の場所で現在再生しているメディアを決定するために、オーディオ信号リスニング動作などの信号スニッフィング動作を実行する第１スマート家電によって取得されてよい。この例では、スマート家電は、信号スニッフィング動作を実行するための必要なハードウェア及びプログラミングを含む。信号スニッフィング動作は、当該技術でよく知られており、本明細書では記載されない。

一例において、スマート家電は、データベース２１０へ結合されているサーバ２０８から、接続されているスマート家電についてのコード又はスクリプトを受け取る。データベース２１０は、接続されているスマート家電と通信する際に使用される複数のスマート家電コード及び／又はスクリプトを有し、コード及び／又はスクリプトは、コンテキスト及び意図されたスマート家電を識別するために使用される。例えば、ユーザが「一時停止」と発話するとき、文脈的にサーバ２０８は、現在歌を再生しているスマート家電を優先することになる。

例えば、ＴＶ１０６は、ＳＴＢ１０８及びＡｐｐｌｅＴＶブランドのストリーマ１１０などの１つ以上のスマート家電へのクエリを開始してよい。各スマート家電は、どのようなアクティビティが各スマート家電で行われているかに関する情報をＴＶ１０６へリアルタイムで送る。そのようなアクティビティ情報は、ＡｐｐｌｅＴＶブランドのストリーマ１１０で観られているＴＶ番組又は映画、鑑賞されている写真、ＳＴＢ１０８でのアクティブなアプリケーション及びそれらの表示内容、サポートされているコマンドなどの利用可能な現在のメディアコンテンツを有してよく、各スマート家電によって実行された最後のユーザ動作又はコマンドの識別などの情報を含んでもよい。いくつかの例で、アクティビティ情報は、スマート家電へ結合されているディスプレイ上に部分的に又は全面的に表示されてよく、あるいは、情報を表示するために、第１スマート家電によって第２スマート家電へプロビジョニングされてもよい。

他の例では、アクティビティ情報は、制御デバイス２０２へ結合されているディスプレイに表示されてよく、このとき、アクティビティ情報は、制御デバイス２０２にインストールされているアプリケーションの使用により、ユーザによって作動されるときに、スマート家電に、「再生」、「停止」などの対応するコマンドを実行させるアクティブ化可能なリンクを含む。

他の例では、制御デバイス２０２は、複数の結合されたスマート家電からのスマート家電の識別を用いて、リモートサーバ２０８からコンフィグレーション情報を受け取る。例えば、サーバ２０８は、エンドユーザの家にある複数のスマート家電の識別をＴＶ１０６から受け取る。この例では、スマート家電の１つ以上は、他の接続されているスマート家電を検出する動作を実行し、その情報をリモートサーバ２０８へプロビジョニングする。サーバ２０８は次いで、検出されたスマート家電の夫々についてデバイスプロファイルを決定するために情報を解析する。サーバ２０８は、検出されたスマート家電の夫々のデバイスプロファイルをデータベース２１０に記憶し、検出されたスマート家電の夫々のデバイスプロファイルを制御デバイス２０２６へ直接送る。いくつかの例で、デバイスプロファイルは、スマート家電と相関される動詞及び文法の組を定義する１つ以上のサポートされているコマンド及び動作機能を有し、そのようにボイスコマンドをスマート家電へ送るかの第２定義を有してもよい。

更なる他の例では、制御デバイス２０２は、ワイドエリアネットワーク２１６を介してクラウドサービス３０２からコンフィグレーション情報を受け取る。この例では、スマート家電の１つ以上は、他の接続されているスマート家電を検出する動作を実行し、その情報をクラウドサービス３０２へプロビジョニングする。クラウドサービス３０２は次いで、検出されたスマート家電の夫々についてデバイスプロファイルを決定するために情報を解析する。それから、クラウドサービス３０２は、検出されたスマート家電の夫々のデバイスプロファイルを制御デバイス２０２へ送る。

他の例では、マイクロホンを備えるデバイスは、ボイスコマンドを受け取ってＥｃｈｏなどの制御デバイス２０２へ又は同様のタイプのスマート家電へ送る。制御デバイス２０２又は同様のタイプのスマート家電は、ＡｍａｚｏｎブランドのＡｌｅｘａブランドデバイスなどの、音声制御されるインテリジェントパーソナルアシスタントサービスへ結合されている。そのようなサービスは、それ自体をホームオートメーションハブとして使用し、発話処理サービス１１６、クラウドサービス３０２又はサーバ２０８へ通信上結合されている。この例では、制御デバイス２０２は、ＡｍａｚｏｎブランドのＡｌｅｘａブランドデバイスのボイスリモートコントロールの信号を模倣するＥｃｈｏへボイスコマンドを送る。Ｅｃｈｏは、ボイスコマンドをＡｌｅｘａブランドのサービスへ送り、Ａｌｅｘａブランドのサービスは、サーバ２０８及びクラウドサービス３０２、例えばＩＦＴＴＴ、との協調プロセスにおいて、１つ以上の所定のＩＦＴＴＴ動作を自動化して、１つ以上の所定の動作が、ＵＣＥ２００の使用によりＩＦＴＴＴサービスへ結合されているＴＶ１０６などの１つ以上のスマート家電へＩＦＴＴＴサービスによって送られるようにするＩＦＴＴＴサービスをプロビジョニングする。１つ以上の動作は、プロセッサ５０２によって特定の動作を実行するために、通信インターフェース５０６を介してＴＶ１０６によって受け取られる。そのような動作は、クラウドサービス３０２で事前入力されてよく、ＩＦＴＴＴサービスに関連したアプリケーションにより制御デバイス２０２で事前入力されてよく、かつ／あるいは、Ａｌｅｘａサービス及びＴＶ１０６に関連したＩＦＴＴＴサービスのセットアップ中に入力されてよい。ＩＦＴＴＴサービス及び動作は、当該技術でよく知られており、本明細書では記載されない。

例えば、ユーザが「アレクサ（Ａｌｅｘａ）、Ｘｂｏｘを再生したい」と発話する場合に、制御デバイス２０２は、ユーザがボイスコマンドに基づいてＥｃｈｏを使用したいと決定し、Ｅｃｈｏと通信するために使用する適切な信号又はプロトコルを識別する。次いで、Ｅｃｈｏは、ボイスコマンドを、ＩＦＴＴＴサービスなどのクラウドサービス３０２又は同様のサービスへ結合されているＡｌｅｘａブランドのサービスへ送る。ＩＦＴＴＴサービスは、アプレット又はレシピの使用により、予め定義された操作を決定し、決定された操作をサーバ２０８へインターネットを介してプロビジョニングする。サーバ２０８は、ＩＦＴＴＴサービスからインターネットを介して１つ以上の操作を受け取ってプロセッサ５０２によってＴＶ１０６にプロビジョニングする。ＴＶ１０６は、通信インターフェース５０６を介して操作を受け取り、プロセッサ５０２は、１つ以上の受け取られた操作を実行する。

例えば、「アレクサ（Ａｌｅｘａ）、Ｘｂｏｘを再生したい」との語句は、ＩＦＴＴＴサービスに関連しかつクラウドサービス３０２に関連する予め定義されたフレーズ又は一連の予め定義された操作であってよい。そのような操作は、ＴＶ１０６でＨＤＭＩ入力を自動的に変更すること、Ｘｂｏｘブランドのゲーム機２０４の電源を入れること、ボリュームを所定のレベルに設定すること、照明を所定のレベルに調光すること、などを有してよい。１つ以上の操作は、複数の操作を同時に実行させるために、単一のワークフローに統合され得る１つ以上のＩＦＴＴＴアプレットの構造にあってよく、あるいは、操作は、所定の時間インターバルで実行されてよい。別段述べられない限りは、記載されている操作の１つ以上は、ＴＶ１０６によって受け取られ及び／又は実行されてよく、あるいは、１つ以上の結合されたスマート家電によって受け取られ及び／又は実行されてよい、ことが理解されるべきである。

図２に示される制御デバイス２０２は、モーションセンサ対応の機能、ハンドジェスチャ認識などの複数の他の機能を含んでよく、ロゴ、英数字テキストなどの画像を表示する機能を含んでよい、ことが理解されるべきである。そのような制御デバイスは、スマート家電を制御するために、図３に示される１つ以上のアプリケーションと協働してよい。更に、制御デバイス２０２は、例えば、スマート家電にプロビジョニングするために及び／又はそれを制御するためにクライアント−サーバモデルにおいて、夫々がコンピュータクライアントを有する１つ以上のスマート家電と協働してよい。いくつかの例で、マイクロホンは、ユーザの家の異なる部屋に夫々位置している１つ以上のデバイスへ結合され、マイクロホンを備えるデバイスは、ボイスコマンドを制御デバイス２０２へ送るために、ローカルエリアネットワーク又はワイドエリアネットワーク２１６を介して、制御デバイス２０２へ結合される。

いくつかの場合に、図７及び図８に示されるように、制御デバイス２０２に関連した発話処理サービスは、デバイス自体にあるのか、インターネットクラウドに基づく処理サービスによって提供されるか、などにかかわらず、制御デバイス２０２へ供給されているあらゆる発話のラウドネス、及び／又は制御デバイス２０２が動作している環境のラウドネス、すなわち、あらゆる背景ノイズのラウドネスを決定するためにラウドネス解析を実行してよい。限定されない例として、米国特許第９８４７０９６号に記載されているラウドネス検知コンポーネント及び機能が、この目的のために使用され得る。このようにして、ラウドネス解析は、制御発話入力及び／又は制御発話入力とともに受け取られる背景ノイズのレベルを示すラウドネス推定を決定するよう実行され得る。ラウドネス推定に基づいて、所定の閾値（制御デバイス２０２を較正することによって、例えば、特定のノイズ条件下でマイクロホンを作動させることによって、及び／又は通常の音声で１つ以上のコマンドを話すことによって規定されてよく、閾値は、絶対値であっても、又は範囲として規定されてもよい）と比較して、システムは、制御発話入力が大声で供給されていると（例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値よりも大きい）、制御発話入力が静かに供給されていると（例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値よりも小さい）、制御発話入力が正常に供給されていると（例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値内にある）、環境が騒々しいと（例えば、環境のラウドネス推定は、所定の環境閾値よりも大きい）、環境が静かであると（例えば、環境のラウドネス推定は、所定の環境閾値よりも小さい）、及び／又は環境が正常であると（例えば、環境のラウドネス推定は、所定の環境閾値内にある）決定することができる。

そのような決定されたラウドネス情報を使用して、制御デバイス２０２は、更なる機能を実行するよう更に構成され得ることが企図される。例えば、制御デバイス２０２が、情報を出力する、音楽を再生する、などのスピーカを含む場合に（米国特許出願第１５／７９９３９３号に記載）、制御デバイス２０２は、情報、音楽、などがスピーカにより出力されるレベルを自動調整するために、ラウドネス決定を使用することができる。これに関連して、制御デバイス２０２は、環境が騒々しい（又は騒々しくなりつつある）と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で上げてよく（望ましくは、これによって、スピーカのＤＢ出力はわずかに高められるので、聞き手は、環境内のノイズレベルを適切に考慮した出力を聞くことができる）、環境が静かである（又は静かになりつつある）と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを下げてよく、スピーカがその音声を大きくした（又は大きくしつつある）と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で上げてよく、スピーカがその音声を小さくした（又は小さくしつつある）と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で下げてよい、など。

また、この決定されたラウドネス情報は、環境に関連したラウドネスレベルを制御するために、１つ以上のコマンドが自動で発せられるようにするためにシステムによって使用されることも企図される。例えば、環境が騒々しい（又は騒々しくなりつつある）一方で、ユーザが制御デバイス２０２に発話を供給しようとしていると決定される場合に、システムは、１つ以上のコマンドを、ボイスコマンドであろうと、従来のリモートコントロールコマンドであろうと、１つ以上の制御されるデバイスへ送ることによって、環境によって生成されているノイズを小さくしようと試みてよい。このようにして、システムは、環境が騒々しい（又は騒々しくなりつつある）と決定される場合に、音源、例えば、テレビ受像機へ、ミュートするよう、電源を切るよう、又は別なふうに音源の出力ボリュームレベルを下げるよう、コマンドを自動で送るために使用され得る。この制御は、制御デバイス２０２がデバイスを作動又はトリガするキーワードを聞くと直ぐに実行され得る。これには、システムがコマンドを理解するためのより良い音響品質をコマンド入力が求めるということで、ユーザがコマンドを話す前に、環境によって生成されているノイズを小さくするという利点がある。更に、このようにして制御される特定のデバイスは、システム状態情報に基づいてシステムによって自動で決定され得る。よって、システムが、システムから受け取られた状態情報に基づいて、ＴＶが現在オンしていると知る場合に、システムは、制御されるデバイスとしてＴＶを自動的に選択することができる。同様に、システムは、制御デバイス２０２が、ＴＶをオンする、ＴＶのボリュームを制御する、などのために、最後に使用されたと知る場合に、システムは、ＴＶが音を発生させるデバイスであると推定することができ（例えば、接続されているデバイスから状態情報を実際に受け取ることができない場合）、そして、制御されるデバイスとしてＴＶを自動的に選択することができる。述べられるように、選択された１つ以上のデバイスの制御は、本明細書で記載されている制御プロシージャのいずれかを単独で又は組み合わせて用いて、システムによって実行され得る。また、望まれる場合には、制御されるデバイスは、更なる発話がユーザによって発せられる可能性がないとシステムが決定する場合に、例えば、最後のコマンドが受け取られてから所定量の時間の経過後に、あるいは、最後に受け取られたコマンドが、更なる発話入力が所与の量の時間内に期待されないことを意味する完了要求を示す場合に、など、システムによって所与の状態（例えば、再起動、ミュート解除、ボリューム上昇）に自動的に戻され得る、と理解されるだろう。更に、デバイスが、トリガコマンドを受け取った後及び制御可能なデバイスの音響レベルを下げるためにコマンドが一度送られた後に所定の期間内に認識可能なコマンドを受け取られない場合に、システムは、発話入力コマンドが受け取られ認識される時点、時間制限が経過した時点（その時点で、制御可能なデバイスはその元の状態に戻され得る）、などまで、制御可能なデバイスの音響レベルを下げるために１つ以上の更なるコマンドを自動的に発するよう機能することができる。

また、システムがユーザコマンド及びクエリに同様に応答するのか、又は別なふうに音響を出力するのかを適応的に変更するために、更なる条件が利用され得ることが理解されるだろう。例えば、時刻などのコンテキストパラメータは、夜間／睡眠時間などのモードを自動的に識別するために使用されてよく、これによって、制御デバイス２０２の出力オーディオレベルは、然るべく調整されるか、又は調整されないようにされ得る。同様に、異なるラウドネス閾値が、上述されたような使用のために、異なる時刻などについて定められ得る。

更なる状況において、スピーカの及び／又は環境の決定されるラウドネスレベルはまた、コマンドに応答することなどにおいて改善された柔軟性をもたらすように、音源と制御デバイス２０２との間の距離の測定を計算に入れることができる。例えば、話者コマンドが大きくは聞こえないが、話者が制御デバイス２０２に近いと測定される場合に、決定されるラウドネスレベルは、ユーザが小声で言っていることを示す可能性がある。しかし、話者コマンドが大きくは聞こえないが、話者が制御デバイス２０２から離れていると測定される場合に、決定されるラウドネスレベルは、ユーザが普通に話しているか又は叫んでいることを示す可能性がある。よって、そのような場合に、上述されたようにシステムによって決定された音響レベルを決定されるラウドネスレベルは、音源までの測定された距離に応じて増減させたものであることができる。

決定されたラウドネスレベルを調整する際に使用するために、絶対及び／又は相対距離が利用されてよい。これを達成するために、制御デバイス２０２に設けられたカメラ、画像センサ、光センサ、などが、話者が制御デバイス２０２からどれくらい離れているか、及び／又は話者がコマンドを話しているときに制御デバイス２０２に相対的に近づいた又は離れたかどうかを正確に（又は近似的に）決定するために利用され得る。同様に、距離の測定は、２つ以上のマイクロホンから成るマイクロホン配列を用いて行われ得る。また更に、ある程度の処理が可能な単一のマイクロホンも、話者距離を推定するために使用され得る。当然、レーザ測定デバイスなどで見受けられるもののような、物体間の距離を測定するために有用な他の既知のデバイスが、この目的での使用のために制御デバイス２０２に設けられてもよい。

また、明らかなように、コマンド話者までの測定された距離は、制御デバイス２０２によって生成され得る如何なる出力のラウドネスレベルも調整するために同様に使用されてよく、それによって、応答が適切なレベルで、例えば、遠くの意図された受け手によって聞こえる十分なレベルで、又は近くの意図された受け手を圧倒しない低いレベルで、出力されることを確かにする。

ボイスコマンドを受け取るマイクロホンとして記載されているが、マイクロホンは、音響を電気信号に変換する如何なるトランスデューサタイプのデバイスも含み、１つ以上のマイクロホンを各デバイスに含めてもよく、各デバイスは、互いへ、制御デバイス２０２へ、及びスマート家電へ結合されてよい、ことが理解されるべきである。

アクティブＨＤＭＩ入力として記載されているが、アクティブ入力は、状態要求を開始したスマート家電へ有線又は無線で接続されているオーディオ−ビデオ／通信バスステータスに関する如何なるアクティブソース／シンク／ポートも含む、ことが理解されるべきである。

また、制御デバイス２０２は、１つ以上のデバイスプロファイルを予めインストールされることにより工場で部分的に構成されてよい、ことが理解されるべきである。最初に電源を入れられる場合に、制御デバイス２０２は、例えば、制御デバイス２０２及びＳＴＢ１０８がボックスの最初から（out of the box）互いにペアリングされているときに、ＳＴＢ１０８などの所定のスマート家電と自動で通信するよう構成されてよい。同様に、自動ペアリング動作は、エンドユーザが、制御デバイス２０２で、ＳＴＢ１０８との通信を開始するために、第１キーを押す場合に、実行されてよい。

様々な概念が詳細に記載されてきたが、当業者に明らかなように、それらの概念に対する様々な変更及び代替が、本開示の全体の教示に照らして開発され得る。更に、機能モジュールとの関連で記載され、ブロック図形式で例示されているが、別段述べられない限りは、記載されている機能及び／又は特徴の１つ以上は、単一の物理デバイス及び／又はソフトウェアモジュールに組み込まれてよく、あるいは、１つ以上の機能及び／又は特徴は、別個の物理デバイス又はソフトウェアモジュールにおいて実施されてよい、ことが理解されるべきである。また、各モジュールの実際の実施の詳細な説明は、本発明の理解を可能にするために必須ではないことが理解されるだろう。むしろ、そのようなモジュールの実際の実施は、システム内の様々な機能モジュールの属性、機能、及び相互関係の本明細書中の開示を鑑みて、技術者の通常の技量の範囲内にある。従って、当業者は、必要以上の経験がなくても、特許請求の範囲に示されている発明を実施することが可能である。更には、開示されている特定の概念は、単に実例であるよう意図され、添付の特許請求の範囲及びその均等の全範囲を与えられるべきである本発明の範囲に関する制限ではない。

本明細書内で挙げられている全ての特許は、それらの全文を参照により本願に援用される。

［関連出願情報］
本願は、２０１７年７月１２日付で出願された米国特許出願第１５／６４７９４７号の利益を請求するとともにその一部継続出願である。なお、先の特許出願の開示は、その全文を参照により本願に援用される。

Claims

発話入力を受けるよう構成されたデバイスを含む環境内にある制御可能な機器を制御する方法であって、
前記デバイスが動作している環境のノイズ閾値を規定することと、
前記デバイスで発話入力を受けることと、
前記発話入力が前記デバイスによって受け取られた時点での前記環境のノイズレベルを決定することと、
前記決定されたノイズレベルを前記規定されたノイズ閾値と比較することと、
前記比較により前記環境の前記決定されたレベルが前記環境の前記規定されたノイズ閾値よりも大きいことが示される場合に、前記制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、１つ以上のコマンドが前記制御可能な機器へ自動的に発せられるようにすることと
を有する方法。
前記デバイスは、リモートコントロール機能をサポートするよう構成され、
前記１つ以上のコマンドは、前記デバイスによって直接に前記制御可能な機器へ送られる、
請求項１に記載の方法。
前記１つ以上のコマンドは、ボリュームミュートコマンドを有する、
請求項２に記載の方法。
前記１つ以上のコマンドは、１つ以上のボリュームダウンコマンドを有する、
請求項２に記載の方法。
前記１つ以上のコマンドは、電源オフコマンドを有する、
請求項２に記載の方法。
前記発話入力が受け取られた後の所定期間内に前記デバイスによって更なる発話入力が受け取られていないと決定し、それに応じて、前記制御可能な機器に前記第２状態から前記第１状態へ戻させるよう、１つ以上のコマンドが前記制御可能な機器へ自動的に発せられるようにすることを有する、
請求項１に記載の方法。
前記デバイスは、リモートコントロール機能をサポートするよう構成され、
前記制御可能な機器を前記第１状態から前記第２状態へ遷移させるための及び前記制御可能な機器を前記第２状態から前記第１状態へ戻すための前記１つ以上のコマンドは全て、前記デバイスによって直接に前記制御可能な機器へ送られる、
請求項６に記載の方法。
前記発話入力が受け取られた後の所定期間内に更なる発話入力が前記デバイスによって受け取られると予想されないと決定し、それに応じて、前記制御可能な機器に前記第２状態から前記第１状態へ戻させるよう、１つ以上のコマンドが前記制御可能な機器へ自動的に発せられるようにすることを有する、
請求項１に記載の方法。
前記デバイスは、リモートコントロール機能をサポートするよう構成され、
前記制御可能な機器を前記第１状態から前記第２状態へ遷移させるための及び前記制御可能な機器を前記第２状態から前記第１状態へ戻すための前記１つ以上のコマンドは全て、前記デバイスによって直接に前記制御可能な機器へ送られる、
請求項８に記載の方法。
１つ以上のコマンドが、前記制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、前記制御可能な機器へ自動的に発せられるべきかどうかを判定するために、前記制御可能な機器の既知の動作状態を使用することを更に有する、
請求項１に記載の方法。
１つ以上のコマンドが、前記制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、前記制御可能な機器へ自動的に発せられるべきかどうかを判定するために、前記制御可能な機器の導出された動作状態を使用することを更に有する、
請求項１に記載の方法。
前記デバイスの発話入力閾値を規定することと、
前記受け取られた発話入力の発話レベルを決定することと、
前記決定された発話レベルを前記発話入力閾値と比較することと、
前記比較により前記決定された発話レベルが前記規定された発話入力閾値よりも大きいことが示される場合に、前記発話入力に応答して生成された１つ以上の出力が、通常使用される出力レベルよりも大きい第１ボリュームレベルで供給されるようにすることと
を更に有する、
請求項１に記載の方法。
前記デバイスは、前記発話入力に応答して生成された前記１つ以上の出力を出力するスピーカを有する、
請求項１２に記載の方法。
前記デバイスの発話入力閾値を規定することと、
前記受け取られた発話入力の発話レベルを決定することと、
前記決定された発話レベルを前記発話入力閾値と比較することと、
前記比較により前記決定された発話レベルが前記規定された発話入力閾値よりも大きいことが示される場合に、前記発話入力に応答して生成された１つ以上の出力が、通常使用される出力レベルよりも小さい大きい第１ボリュームレベルで供給されるようにすることと
を更に有する、
請求項１に記載の方法。
前記デバイスは、前記発話入力に応答して生成された前記１つ以上の出力を出力するスピーカを有する、
請求項１４に記載の方法。
時間を前記規定されたノイズ閾値と関連付けることと、
前記受け取られた発話入力が前記時間中に受け取られる場合にのみ、前記決定されたノイズレベルを前記規定されたノイズ閾値と比較することと
を有する、
請求項１に記載の方法。
前記デバイスは、リモートコントロールアプリケーションを有し、該リモートコントロールアプリケーションは、前記制御可能な機器の機能動作を操るのに適したコマンドコードセットをプロビジョニングされ、
前記デバイスは、前記制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、１つ以上のコマンドが前記デバイスに関連した送信器の使用により前記制御可能な機器へ自動的に発せられるようにするために、前記プロビジョニングされたコマンドコードセットを使用する、
請求項１に記載の方法。
前記デバイスは、ボイスコントロールアプリケーションを有し、該ボイスコントロールアプリケーションは、発話入力を受け取るよう構成された少なくとも１つの更なるデバイスへボイスコマンドを送る際に使用される少なくとも１つのプロトコルをプロビジョニングされ、
前記デバイスは、前記制御可能な機器に、第１ボリュームレベルを有する第１状態から、前記第１ボリュームレベルよりも小さい第２ボリュームレベルを有する第２状態へ遷移させるよう、１つ以上のコマンドが前記デバイスに関連した送信器の使用により前記少なくとも１つの更なるデバイスへ自動的に発せられるようにするために、前記プロビジョニングされたプロトコルを使用する、
請求項１に記載の方法。
前記制御可能な機器は、前記更なるデバイスを有する、
請求項１８に記載の方法。
前記発話入力の発生源までの測定された距離は、前記受け取られた発話入力の発話レベルを決定するときに利用される、
請求項１２に記載の方法。
前記発話入力の発生源までの測定された距離は、前記受け取られた発話入力の発話レベルを決定するときに利用される、
請求項１４に記載の方法。