JP7374099B2 - 制御デバイスにおいて音声入力を指示する装置、システム及び方法 - Google Patents

制御デバイスにおいて音声入力を指示する装置、システム及び方法 Download PDF

Info

Publication number
JP7374099B2
JP7374099B2 JP2020537000A JP2020537000A JP7374099B2 JP 7374099 B2 JP7374099 B2 JP 7374099B2 JP 2020537000 A JP2020537000 A JP 2020537000A JP 2020537000 A JP2020537000 A JP 2020537000A JP 7374099 B2 JP7374099 B2 JP 7374099B2
Authority
JP
Japan
Prior art keywords
appliance
speech input
smart
state
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537000A
Other languages
English (en)
Other versions
JP2021509730A (ja
Inventor
ハタムバイキ,アーシャム
Original Assignee
ユニバーサル エレクトロニクス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/861,298 external-priority patent/US10930276B2/en
Application filed by ユニバーサル エレクトロニクス インコーポレイテッド filed Critical ユニバーサル エレクトロニクス インコーポレイテッド
Publication of JP2021509730A publication Critical patent/JP2021509730A/ja
Application granted granted Critical
Publication of JP7374099B2 publication Critical patent/JP7374099B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Description

マイクロホンを作動させるためのキー押下の使用により音声入力を受け取る民生用電子機器の動作を制御することが可能な専用のリモートコントロールは、当該技術でよく知られており、一般に、夫々一種類の民生用電子機器の動作を制御することができる。そのような専用のリモートコントロールは、民生ブランド名に関連した民生用電子機器の機能動作を主として制御するよう意図される。例えば、Apple TVブランドのビデオストリーマのための専用のAppleブランドのSiriリモートコントロールは、独自仕様の通信プロトコルの使用により、ボリューム、再生、一時停止、巻き戻し、停止、などの動作を制御するために音声入力を使用することができる。そのような専用のリモートコントロールは、通常、それらが抱き合わされている関連製品とともにしか作動せず、他の音声制御可能な民生用電子機器とともに作動することはできない。そのため、複数の民生ブランド名からの複数の異なる種類の音声制御可能な民生用電子機器を制御するためにボイスコマンドを使用することをユーザに可能にする制御デバイスを提供することが望まれている。
以下では、複数の異なる音声制御可能な民生用電子機器の動作を制御するためのボイスコマンドの使用を提供する装置、システム及び方法、より具体的には、異なる民生ブランド名からの2つ以上の音声制御可能な民生用電子機器(以降「スマート家電」と呼ばれる)へ、ユーザからの音声入力に基づいて、信号を送る際に使用される制御デバイス、の例が記載される。
一例において、制御デバイスは、フォーマット化されたボイスデータを2つ以上のスマート家電へ供給するために使用される。制御デバイスの機能コンポーネントは:複数のデバイスプロファイルを記憶するプロセッサ可読コードを担持しており、各デバイスプロファイルが、ユーザから受け取られたボイスコマンドを、特定のスマート家電によって使用されるプロトコルに従ってフォーマット化するフォーマッティングプロトコルを有する、電子記憶媒体と;フォーマット化されたボイスコマンドを2つ以上のスマート家電のうちの少なくとも1つへ送る第1通信インターフェースと;ユーザから音声入力を受けるマイクロホンと;電子記憶媒体、通信インターフェース、及びマイクロホンへ結合され、プロセッサ可読コードを実行するプロセッサとを含む。
動作中、プロセッサ可読コードは、制御デバイスのプロセッサに、マイクロホンを介して第1ボイスコマンドを受け取らせ、プロセッサは、第1ボイスコマンドが意図される第1スマート家電を決定し、第1スマート家電に関連する電子記憶媒体内の第1フォーマッティングプロトコルを識別し、第1フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化されたボイスコマンドにフォーマット化し、フォーマット化されたボイスコマンドを第1スマート家電へ通信インターフェースを介して送るために使用される。
フォーマット化されたボイスデータを2つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される方法も、記載される。方法において、制御デバイスのプロセッサは、マイクロホンを介してユーザから第1ボイスコマンドを受け取る。それから、プロセッサは、ボイスコマンドが意図される第1スマート家電を決定し、第1スマート家電に関連する、電子記憶媒体内に記憶されている第1フォーマッティングプロトコルを識別する。それから、プロセッサは、受け取られたボイスコマンドを第1フォーマッティングプロトコルに従ってフォーマット化し、フォーマット化されたボイスデータを、通信インターフェースの使用により第1スマート家電へ送る。同様に、プロセッサは、第2スマート家電を識別し、そのスマート家電へフォーマット化されたボイスコマンドを送る。ここで、いくつかの実施形態において、プロトコルは、独自仕様のプロトコル、Voice over IPプロトコル、などである。
フォーマット化されたボイスデータを2つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される方法も、記載される。方法において、制御デバイスのプロセッサは、通信インターフェースを介して、制御デバイスへ結合されているスマート家電から1つ以上のスマート家電の識別を受け取る。この方法では、家電識別は、スマート家電識別に関連した所定のウェイクワードを含んでよい。制御デバイスのプロセッサは、結合されている電子記憶媒体内でスマート家電識別を記憶してよく、プロセッサは、制御デバイスのプロセッサへ結合されているマイクロホンの使用により、ユーザからのボイスコマンド及びウェイクワードを少なくとも受け取ってよい。それから、プロセッサは、受け取られたウェイクワード及び所定のウェイクワードが一致する場合に、受け取られたウェイクワード及び所定のウェイクワードに対応する、電子記憶媒体内に記憶されているスマート家電識別を決定する。ボイスコマンドが意図される第1スマート家電を決定し、第1スマート家電に関連する、電子記憶媒体内に記憶されている第1フォーマッティングプロトコルを識別する。それから、プロセッサは、通信インターフェースの使用により、意図されたスマート家電へボイスコマンドを送る。いくつかの実施形態で、ウェイクワードは、特定の用途のために必要とされるように、英数字の民生ブランド名、英数字コード、ユーザディクテーション、などであってよい。
フォーマット化されたボイスデータを2つ以上のスマート家電へ供給する方法であって、スマート家電と協働する制御デバイスによって実行される他の方法が、記載される。この方法は、制御デバイスのプロセッサによってマイクロホンを介してユーザからボイスコマンドを受け取ることと、制御デバイスのプロセッサによって、ボイスコマンドを受け取ったことに応答して、結合されているスマート家電へHDMI(登録商標)入力ステータス要求を通信インターフェースを介して送ることと、スマート家電のプロセッサによって、HDMR入力ステータス要求をスマート家電の通信インターフェースを介して受け取ると、スマート家電によって現在提供されている家電からの信号を含むアクティブHDMI入力を検出し、アクティブHDMI入力に関連した家電識別を決定し、スマート家電識別を制御デバイスへスマート家電の通信インターフェースを介して送ることと、制御デバイスのプロセッサによって、制御デバイスの通信インターフェースを介してスマート家電識別を受け取り、家電識別に関連する、制御デバイスの電子記憶媒体内に記憶されているフォーマッティングプロトコルに従って、ボイスコマンドをフォーマット化することとを含む。
2つ以上のスマート家電へフォーマット化されたボイスデータを供給するシステムであって、結合されているリモートサーバ及び制御デバイスと協調してスマート家電によって実行されるシステムも、記載される。システムはスマート家電を含んでよく、スマート家電に、通信インターフェースを介して制御デバイスから第1ボイスコマンドを受け取らせ、第1フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化させ、フォーマット化されたボイスコマンドをリモートサーバへ通信インターフェースを介して送って、リモートサーバのプロセッサが、フォーマット化されたボイスコマンドを通信インターフェースを介して受け取り、第1ボイスコマンドが意図される第1家電を決定するためにボイスコマンドを決定するようにさせ、ボイスコマンドが意図される第1家電の決定をリモートサーバから通信インターフェースを介して受け取らせ、意図されたスマート家電へ通信インターフェースを介してフォーマットされたボイスコマンドを送らせるプロセッサ可読コードを有する。
対象のシステム及び方法の目的、利点、特徴、特性及び関係のより良い理解は、以下の詳細な説明及び添付の図面から得られる。詳細な説明及び図面には、実例が示されており、以降で請求される発明の原理が用いられ得る様々な方法が示されている。
記載されるシステム及び方法の様々な態様のより良い理解のために、添付の図面に示されている実例を参照する。
ボイスデータをスマート家電へ供給する専用のリモートコントロールを用いる従来技術のシステムを表すブロック図である。 フォーマット化されたボイスデータを2つ以上のスマート家電へ供給する専用のリモートコントロールを用いる更なるシステムを表すブロック図である。 フォーマット化されたボイスデータを2つ以上のスマート家電へ供給する制御デバイス及び関連するアプリケーションを用いる更なる別のシステムの実例である。 フォーマット化されたボイスデータを2つ以上のスマート家電へ供給するための、図2に示された制御デバイスの例の機能ブロック図である。 フォーマット化されたボイスデータを2つ以上のスマート家電へ供給するために使用される、図2に示された制御デバイスの例の機能ブロック図である。 2つ以上のスマート家電の音声制御を可能にする方法の例を示すフロー図である。 発話入力を受け取ることに関連して環境内で家電により生成される音響レベルを制御する方法の例を示すフロー図である。 受け取られた発話レベルに基づいてデバイス音響入力を制御する方法の例を示すフロー図である。
以下では、ボイスコマンドにより2つ以上のスマート家電を制御する装置、システム及び方法、より具体的には、ユーザから音声入力を受け取り、音声入力が意図される特定のスマート家電を識別し、音声入力を特定のスマート家電によって理解されるデジタル信号にフォーマット化する制御デバイス、の例が記載される。
図1は、当該技術で知られているシステムを表し、専用のリモートコントロールは、ボイスコマンドの使用により、その専用のリモートコントロールと同じ民生ブランドの第1スマート家電の機能動作を主として制御するよう動作し、ボイスコマンドの使用により異なる民生ブランドの第2スマート家電と通信し又はそれを制御することは意図されない。この例は、ボイスコマンドの使用により、関連するスマート家電、例えば、Comcastブランドのセットトップボックス108(以降「STB」と呼ばれる)及びApple TVブランドのストリーマ110を操作するために使用される2つの専用のリモートコントロール、ComcastブランドのXfinityボイスリモート102及びAppleブランドのSiriボイスリモート104を表す。いくつかの民生用デバイスはインターネット対応であり、すなわち、それらは、無線LANなどのローカルデータネットワークの範囲内にあるソースとの間で、又はインターネットを介して遠隔地にあるソースとの間でコンテンツを送受信することができる。夫々の専用のリモートコントロールは、夫々無線信号120及び122により、関連するスマート家電と通信する。無線信号120及び122は互いに異なっている。一般に、STB108及びApple TVブランドのストリーマ110は、HDMIケーブル112を介してスマートTV106(以降「TV」と呼ばれる)へ接続されており、無線ルータ114へも接続されてよく、信号118を使用して、Comcastブランドのボイスサービスプロバイダ又はAppleブランドのSiriボイスサービスなどの、インターネットクラウドに基づく発話処理サービス116と通信し得る。専用のリモートコントロールによって受け取られたボイスコマンドは、同じブランドのスマート家電へ送られ、スマート家電は、ボイスデータを、解釈のために、関連する発話処理サービスへ送る。例えば、ComcastブランドのXfinityボイスリモート102のユーザは、マイクロホンキーを押して、リモートに、「ESPNを見よ」又は「子ども向け映画を示して」などのユーザの音声を記録することを開始させ、記録は、キーが離されると終わる。リモートは次いで、Voice over RF4CE無線プロトコルを使用して、記録を圧縮しSTB108へ低帯域幅リンクを介して送る。STB108はそれから、記録をComcastブランドのボイスサービスプロバイダへルータ114を介して送り、プロバイダは、記録を解釈するために自然言語処理(NLP)を実行し、対応するコマンドを決定し、次いで、対応する動作を実行するためにコマンドをSTB108へ返す。この実施形態では、ComcastブランドのXfinityボイスリモート102は、異なる民生ブランドのスマート家電、例えば、Apple TVブランドのストリーマ110へボイスコマンドを送ることをサポートしない。クラウドに基づく発話処理サービスの動作は当業者によく知られており、本明細書では記載されない。
図2は、本明細書中の教示に従うシステムを例示し、スタンドアローンのAmazonブランドのEchoデバイス(以降「Echo」と呼ばれる)などの、又は制限なしに、タブレット、PDA、関連するリモートコントロールタイプアプリケーションを備えた携帯電話機、スマートウォッチ、コンピュータ、ウェアラブル制御デバイス、リモートコントロール、若しくは2つ以上のスマート家電を制御することを目的とした中継デバイスを含む、音声入力機能を備えた同様のデバイスである制御デバイス202を含む。更に、制御デバイス202は、参照により本願に援用される米国特許出願第15/799393号に記載されているインテリジェントデジタルアシスタントの形をとってもよいことが考えられている。このとき、デジタルアシスタントは、本明細書で記載される機能の1つ以上を補われる。続く記載から理解されるように、制御デバイス202は、対応する複数の意図された対象デバイスによって受信される信号120、122(図1にも図示あり)及び/又は信号212及び214などの1つ以上の異なる無線信号を送信するよう構成される。そのような送信は、2つ以上のスマート家電へコマンドを送るために必要とされるような、Voice over IP(VoIP)、IP、Smart Wave(S-Wave)、Wi-Fi,Bluetooth(登録商標) Low Energy(BLE)、RF4CE、ZigBee、Z-wave、赤外線、6LoWPAN、スレッド、Wi-Fi-ah、2G、3G、4G、NB-IoT、5G、NFC、RFID、SigFox、などの通信プロトコルを使用してよい。この実施形態では、制御デバイス202は、ユーザからボイスコマンドを受け取り、そして、制御デバイス202によって決定されたスマート家電108、110、204及び206のうちの1つ以上へボイスコマンドのフォーマット化されたバージョンを送るよう構成される。いくつかの実施形態では、ボイスコマンドはフォーマット化されない。また、制御デバイス202は、本明細書で記載されるボイスコマンドのフォーマット化されたバージョンを送信する機能をプロビジョニングされることに加えて、1つ以上のコマンドコードセットから選択された1つ以上のコマンドが、制御されるデバイスへ送信され得、それによって、制御されるデバイスの機能動作、例えば、ボリューム操作機能、電源操作機能、などを制御する従来のリモートコントロール機能をプロビジョニングされ得る、と理解されるだろう。
スマート家電は、TV106、STB108、Apple TVブランドのストリーマ110(全て図1に図示あり)、Xboxブランドのゲーム機204、及びRokuブランドのストリーマ206などの、エンドユーザの家にある民生用電子機器を有してよい。TV106、Xboxブランドのゲーム機204、STB108、Rokuブランドのストリーマ206、及びApple TVブランドのストリーマ110として表されているが、スマート家電は、制限なしに、様々なテレビ受像機、VCR、DVR、DVDプレイヤー、ケーブル又は衛星変換セットトップボックス、増幅器、CDプレイヤー、ゲーム機、ホーム照明、スマートワイヤレスハブ、カーテン、ファン、HVACシステム、パーソナルコンピュータ、装着式健康監視デバイス、あるいは、一般的に、いくつかの実施形態では、通常はローカルエリアネットワーク若しくはワイドエリアネットワーク216上で無線信号118に関連した無線ルータ114の使用により、Echo若しくはスマートフォンなどの制御型デバイス、及び/又は他のスマート家電と通信することができるあらゆる民生製品を含んでよい、ことが理解されるべきである。そのようなスマート家電は、一般に、HDMIケーブル112を介してTV106へ接続されており、あるいは、無線で接続されてもよく、データベース210へ結合されている結合されたリモートサーバ208へ、若しくは図1に記載されるように発話処理サービス116へ、又はその両方へデータを送るよう動作してよい。
制御デバイス202は、ユーザによって、ユーザの音声が記録され及び/又は1つ以上の結合されたスマート家電(以降、個々に及び集合的に「家電」と呼ばれる)へストリーミング及び送信されることを可能にするよう、結合されたマイクロホンを少なくとも作動させる制御デバイス202上の機械キー又はソフトキーを押すことによって操作されてよい。一実施形態において、制御デバイス202は、オーディオベースのコンテキスト認識システムの部分であってよく、いくつかの実施形態では、サーバ208へ結合された少なくとも1つのスマート家電を有するコンテキストコマンドルーティングシステムの部分であってもよい。システムは、動作を実行するためにユーザの意図を決定し、意図されたスマート家電を決定して、コマンドを実行するためにそのスマート家電へボイスコマンドを送る。いくつかの実施形態で、ユーザの意図の決定は、ユーザのリビングルームなどのマルチメディア視聴エリア内で起こる事象に対するシステム応答を自動化するために、検知インターフェースを結合されているホームエンターテイメントシステムによって実行される。ユーザの意図のそのような決定は、その全文を参照により本願に援用される米国特許第9137570号に記載されているように、実行されてよい。
一例において、制御デバイス202は、オーディオベースのコンテキスト(すなわち、ユーザがボイスコマンドを声に出すことに由来するオーディオ信号に基づくコンテキスト)を連続的に聞き、通信インターフェースを介して、オーディオベースのコンテキストをスマート家電へ送ることによって動作してよい。スマート家電は、結合されているサーバ208へボイスコマンドを送る。サーバ208は、自動的にコンテキストコマンドルーティングを決定するために及び/又はオーディオベースのコンテキストが意図されたスマート家電を決定するための分類の少なくとも部分を決定するために、オーディオベースのコンテキストの認識動作を自動的に実行する。
この例では、サーバ208へ結合されたTV106などのスマート家電は、第1通信インターフェース(例えば、Wi-Fi受信器)を介してサーバ208から直接に、意図された家電の決定情報を受け取り、意図された家電の決定情報を使用して、ボイスコマンドが意図されたスマート家電を決定する。TV106は、コマンド(例えば、オン/オフ、ボリュームアップ/ダウン、チャンネル変更、など)を実行するために、第2通信インターフェース(例えば、RF4CE送信器)を介して、意図されたスマート家電へボイスコマンドを送る。
他の例では、制御デバイス202が、意図された家電の決定情報をサーバ208から第1通信インターフェースを介して受け取り、意図されたスマート家電へボイスコマンドを第2通信インターフェースを介して送り、スマート家電はコマンドを実行する。
更なる他の例では、サーバ208は、意図された家電の決定情報を決定するだけでなく、コンテキストコマンドルーティングを決定するためのユーザの意図も決定する。その場合に、コマンド自体は、意図されたスマート家電へワイドエリアネットワーク216を介して、コントローラ202へ、又はボイスコマンドを転送したスマート家電へ送られる。
一例において、第1スマート家電は、意図された家電の決定情報をサーバ208から第1通信インターフェースを介して受け取り、家電決定情報を使用して、意図されたスマート家電を決定し、コマンドを、コマンドを実行する意図されたスマート家電へ送る。
一例において、第1スマート家電は、ローカルでコマンドを実行するために、意図された家電の決定情報をサーバ208から受け取る。
他の例では、第1スマート家電は、接続されたスマート家電についてローカルエリアネットワークをスキャンしてよく、意図された家電の決定情報を決定しかつ意図されたスマート家電へコマンドを送るために、各スマート家電に状態情報を問い合わせてよい。
他の例では、第1スマート家電は、意図された家電の決定情報をサーバ208から受け取り、家電決定情報を第2スマート家電へ送り、第2スマート家電は、識別情報を使用して、識別されたスマート家電を決定し、ボイスコマンドを識別されたスマート家電へ、コマンドを実行するために、第2通信インターフェースを介して送る。
一例において、スマート家電は、自然言語処理又は同様の処理を実行して対応するコマンドを決定するために、ボイスコマンドを、関連する発話処理サービスプロバイダへ送り、それから、対応するコマンドは、コマンド動作を実行するスマート家電へ送られる。
一例において、制御デバイス202は、通信インターフェースを介して、スマート家電に、「テレビ」、「Google」、「Alexa」、「Xbox」、「ゲーム」又は「STB」などのウェイクワードと、「電源オン」、「再生」、「停止」などのコマンドを記録及び/又はストリーミングする。ウェイクワードは、一般に、スマート家電を識別することを目的とし、いくつかの実施形態では、スマート家電の電源状態を、例えば、スタンバイからフルパワーに切り替えることを目的とする。一例において、制御デバイス202は、ウェイクワードと、一例においては、ウェイクワードを受け取った直後に制御デバイスによって受け取られるコマンドとを送るべきスマート家電を決定するためにウェイクワードを使用する。
他の例では、制御デバイス202は、ウェイクワード及びコマンドをサーバ208へワイドエリアネットワーク216を介して送り、スマート家電識別は、サーバ208のプロセッサによって決定され、サーバ208は、そのスマート家電へボイスコマンドを送る。
他の例では、制御デバイス202は、意図されたスマート家電の識別を、制御デバイス202へ結合されているスマート家電から受け取り、意図されたスマート家電の識別には、関連するウェイクワードが含まれ、制御デバイス202は、情報を電子記憶媒体に記憶する。制御デバイス202は次いで、ユーザから少なくともウェイクワードを受け取り、そのウェイクワードを使用して、ウェイクワード、又はウェイクワードに関連したスマート家電に関連したボイスコマンドを送るべき意図されたスマート家電を決定する。
例として、制御デバイス202は、少なくともウェイクワードをTV106へ送ってよい。TV106は、受け取られたウェイクワードに関連したスマート家電を決定するためにウェイクワードを使用する。スマート家電識別は、TV106によって、ウェイクワードが意図とされる対応するスマート家電を決定するために使用される。TV106は、それから、ウェイクワード及び関連するボイスコマンドを、コマンドの実行のために、識別されたスマート家電へ送る。
他の例では、スマート家電は、制御デバイス202及びサーバ208と協働して、学習動作などのプロビジョニングプロセス中にユーザによって話され、ボイスコマンドを、ボイスコマンドをサポートするスマート家電と関連付ける所定のボイスコマンドを使用して、ユーザに家にあってスマート家電によって検出される各スマート家電を登録するようプロビジョニングプロセスにおいて構成される。例えば、ユーザは、制御デバイス202の使用により、「音楽を再生」、「映画を一時停止」、「記録を開始」などのような所定のボイスコマンドを声に出してよい。この実施形態では、制御デバイス202は、プロビジョニングのためにスマート家電へボイスコマンドを送り、スマート家電は、サーバ208によってアクセス可能なデータベース210の使用により、サーバ208から、ボイスコマンドに対応する命令と、コマンドのための意図されたスマート家電の識別とを受け取る。
例えば、ボイスコマンド「音楽を再生」は、サーバ208によって、検出されたApple TVブランドのストリーマ110などの、音楽をストリーミングすることをサポートするスマート家電と関連付けられてよい。同様に、ボイスコマンド「映画を一時停止」は、サーバ208によって、Rokuブランドのストリーマ206と関連付けられてよく、「記録を開始」はSTB108と関連付けられてよい。その後に、ユーザが、制御デバイス202の使用により、ボイスコマンド「音楽を再生」を発話する場合に、プロビジョニングされたスマート家電は、Apple TVブランドのストリーマ110に、音楽をストリーミングするよう動作を実行させる。
更なる他の例では、制御デバイス202はボイスコマンドを受け取り、ボイスコマンドは、アクティブなソース/シンクポートを検出するための要求、通信バスの状態の要求、などのような入力ステータス要求が自動的に制御デバイス202によってTV106へ送られるようにする。TV106は、TV106の電子記憶媒体に記憶されている複数の家電識別から選択された関連する家電識別を決定するよう多数の可能性がある入力の中からアクティブ入力を検出する動作を実行する。TV106は次いで、識別されたスマート家電へボイスコマンドを送るために家電識別を使用する。
一例において、制御デバイス202は、エンドユーザの家にある複数の結合されたスマート家電からのスマート家電の識別を用いて、リモートサーバ208へ結合されているTV106からコンフィグレーション情報を受け取る。この例では、コンフィグレーション情報は、サーバ208によってTV106にプロビジョニングされる複数のスマート家電プロファイル(以降「デバイスプロファイル」と呼ばれる)を有する。例えば、サーバ208は、エンドユーザの家にある複数のスマート家電の識別をTV106から受け取る。TV106は、他の接続されているスマート家電を検出する動作を実行し、その情報をリモートサーバ208へプロビジョニングする。次いで、サーバ208は、検出されたスマート家電の夫々についてデバイスプロファイルを決定するよう情報を解析する。サーバ208は、検出されたスマート家電の夫々のデバイスプロファイルをデータベース210に記憶し、検出されたスマート家電の夫々のデバイスプロファイルをTV106へ送る。TV106は次いで、コンフィグレーション情報を制御デバイス202へ送る。制御デバイス202は、以下の更なる例で記載されるプロビジョニングプロセスにより、ユニバーサル制御エンジン200(以降「UCE」と呼ばれる)を有する結合されたTV106からコンフィグレーション情報を受け取る。
更に、図2に示されるスマート家電のいずれも、1つ以上のデバイスプロファイルを制御デバイス202へ又は他の結合されたスマート家電へ送るために、いずれかのスマート家電をマスタデバイスとして動作させ、サーバ208をスレーブデバイスとして動作させることによって、又はその逆によって、協調動作において動作してよい。デバイスプロファイルは、制御デバイス202に関連した電子記憶媒体に又はスマート家電の電子記憶媒体にローカルで記憶されてよい。
ユーザのボイスコマンドは、記録として記載されているが、一方で、ボイスコマンドは、制御デバイス202によってリアルタイムでストリーミングされてよく、部分的にストリーミングされてよく、あるいは、制御デバイス202の電子記憶媒体に一時的に記憶されてよい、ことが理解されるべきである。更に、決定動作は、相互参照動作として記載されているが、一方で、他の方法が、サーバ208によって、例えば、所定の動作マップを使用して、インデックスを使用して、ペアリングテーブルを使用して、又はそれらの方法の1つ以上を使用して、関係を決定するために実行されてよい、ことが理解される。
図3は、関連する制御アプリケーションを備えかつサーバ208へ結合された制御デバイス202を使用してボイスコマンドを2つ以上のスマート家電へ供給するシステムの例である。制御タイプアプリケーション(以降「アプリケーション」と呼ばれる)は、当該技術でよく知られており、本明細書では記載されない。この実施形態では、制御デバイス202は、適切なアプリケーションインターフェース300を有するアプリケーションの使用により、動作を開始してよい。制御デバイス202は、各ボイスコマンドがどのスマート家電に向けられるべきかを決定してよく、ボイスコマンドが意図されるスマート家電に従ってボイスコマンドをフォーマット化してよく、意図されたスマート家電へフォーマット化されたボイスコマンドを送る伝送技術を決定してよい。例えば、ユーザは、制御デバイス202に提供されたユーザインターフェース上でソフトキーを押して、制御デバイス202のマイクロホンを作動させてよい。それから、ユーザは、ボイスコマンドを発話してよく、ボイスコマンドは、制御デバイス202によって受け取られ、次いで、ボイスコマンドが意図されるスマート家電を決定するために処理される。次に、ボイスコマンドは、決定されたスマート家電によって理解されるデジタル信号にフォーマット化される。明らかなように、図3に表されている制御デバイス202上のボリューム制御キー、チャンネル制御キー、又は電源キーの作動は、制御される家電、例えば、TVに、対応する機能動作を実行させる、例えば、その音響をミュートさせるために、制御される家電への従来のリモートコントロールコマンドの伝送を生じさせ得る。
一例において、アプリケーションは、関連するマイクロホンの使用により、ボイスコマンドを聞くことができ、ボイスコマンドが受け取られる場合に、アプリケーションは、スマート家電に対して、接続されているスマート家電についてローカルエリアネットワークを動的にスキャンし、各スマート家電に状態情報、例えば、特定のスマート家電で現在利用可能なメディアコンテンツ、サポートされているコマンド、などを問い合わせるローカル動作を実行するよう要求を送る。例えば、TV106は、STB108及びApple TVブランドのストリーマ110などの1つ以上のスマート家電へのクエリを開始してよく、各スマート家電は、各スマート家電でどのようなアクティビティが行われているかに関する情報をリアルタイムでTV106へ送る。そのようなアクティビティ情報は、Apple TVブランドのストリーマ110で観られているTV番組又は映画、鑑賞されている写真、STB108でのアクティブなアプリケーション及びそれらの表示内容、使用されている現在のボリュームレベル、サポートされているコマンドなどの利用可能な現在のメディアコンテンツを有してよく、各スマート家電によって実行された最後のユーザ動作又はコマンドの識別などの情報を含んでもよい。いくつかの例で、アクティビティ情報は、スマート家電へ結合されているディスプレイ上に部分的に又は全面的に表示されてよく、あるいは、情報を表示するために、第1スマート家電によって第2スマート家電へプロビジョニングされてもよい。
他の例では、アクティビティ情報は、制御デバイス202へ結合されているディスプレイに表示されてよく、このとき、アクティビティ情報は、制御デバイス202にインストールされているアプリケーションの使用によりユーザによって作動されるときに、スマート家電に、「再生」、「停止」などの対応するコマンドを実行させるアクティブ化可能なリンクを含む。
一例において、ボイスコマンドが意図されるスマート家電の決定は、制御デバイス202が、ボイスコマンドを制御デバイス202から発話処理サービス又はクラウドサービスへ中継する仕事を負った専用のスマート家電へボイスコマンドを送った後に、発話処理サービス116によって又はクラウドサービス302によって実行される。ボイスコマンドが命令するよう意図されたスマート家電の識別及び/又は他の情報は、次いでスマート家電へ返され、すると、識別及び/又は他の情報はアプリケーションへ供給される。代替的に、アプリケーションは、ボイスコマンドを直接に発話処理サービス116へ又は関連するクラウドサービス302へ、直接に無線ルータ114を介して又はセルラーネットワークの使用を介して送ってもよく、この場合に、スマート家電がこの情報をリモートサーバとの間で中継する必要性は除かれる。発話処理サービス116又はクラウドサービス302は、その場合に、情報/命令を直接に制御デバイス202へ返送してよい。
一例において、アプリケーションは、例えば、IF This Then That(以降「IFTTI」と呼ばれる)タイプの命令のような、クラウドサービス302をプロビジョニングするために使用され得る命令を有してよく、1つ以上の所定のIFTTT動作を自動化して、1つ以上の所定の動作が、UCE200を介してIFTTTサービスへ結合されているTV106などの1つ以上のスマート家電へIFTTTサービスによって送られるようにする。同様に、そのような動作は、ワークフローツールの使用によりクラウドサービス302で事前入力されてよく、あるいは、セットアップ動作中にアプリケーションによってIFTTTサービスに入力されてもよい。
一例において、アプリケーションは、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を問い合わせるよう、連続的に又は所定の時間インターバルでスマート家電へ要求を送る。
スタンドアローンのアプリケーションとして記載されているが、1つ以上のスマート家電にインストールされ得る1つ以上の結合されたアプリケーションが、フォーマット化されたボイスコマンドを2つ以上のスマート家電へ供給するために制御デバイス202、クラウドサービス302又はTV106をプロビジョニングするよう協働してよい、ことが理解されるべきである。更に、1つ以上のアプリケーションは、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を問い合わせるように、スマート家電によって又は制御デバイス202によって発せられた要求に応答するよう協働してよい。いくつかの例で、アプリケーションは、スマート家電に又は制御デバイス202に存在するセットアップエージェントプログラムの使用により同期されてよい。更なる詳細は、その全文を参照により本願に援用される米国特許出願第14/277968号で見いだされ得る。
図4は、図2に示されている制御デバイス202のような、フォーマット化されたボイスコマンドを2つ以上のスマート家電へ供給する制御デバイスの一例の機能ブロック図400を表す。制御デバイス202は、この例では、プロセッサ402、電子記憶媒体404、ユーザインターフェース408、少なくとも1つのトランシーバ410、及び少なくとも1つの送信器412を有する。
プロセッサ402は、電子記憶媒体404に記憶されているプロセッサ実行可能命令、例えば、実行可能コードを実行することによって、制御デバイスの全般的な動作を提供するよう構成される。プロセッサ402は、通常、汎用のマイクロプロセッサを有するが、様々なマイクロプロセッサ、マイクロコンピュータ及び/又はマイクロコントローラのいずれか1つが代替的に使用され、計算出力、費用、サイズなどの因子に基づいて選択されてよい。
電子記憶媒体404は、ROM、RAM、フラッシュ、他のタイプの電子的、光学的、若しくは機械的な電子記憶媒体デバイス、又はそれらの任意の組み合わせなどの1つ以上の情報記憶デバイスを有する。電子記憶媒体404は、制御デバイス202の動作のためのプロセッサ実行可能命令を記憶するために使用されてよい。また、明らかなように、表されている電子記憶媒体の一部又は全部は、物理的に、プロセッサ手段402と同じICチップ内に組み込まれてよい。
当業者には当然ながら、電子記憶媒体404の一部又は全部は、各デバイスプロファイルがボイスコマンドを特定のスマート家電によって使用されるプロトコルに従ってフォーマット化するフォーマッティングプロトコルを有する複数のデバイスプロファイルを記憶してよく、1つ以上のデバイスプロファイルに関連し得る複数のウェイクワード及び/又はボイスコマンドを記憶してよい。例えば、第1デバイスプロファイルは、例えば、TV106にチャンネル、入力、ボリュームなどを変えさせるために、TV106の音声操作のための1つ以上のデジタル信号のフォーマットを指定してよく、一方、第2デバイスプロファイルは、例えば、チャンネル変更、ボリューム制御などのために、STB108の音声操作のための1つ以上のデジタル信号のフォーマットを指定してよい。
通信インターフェース406は、制御デバイス202及びスマート家電の間の、いくつかの実施形態では、制御デバイス202とそれと及びワイドエリアネットワーク216を介してサーバ208と通信する無線ルータ114との間の無線通信を可能にする、よく知られたEthernet(登録商標)、Wi-Fi、RF4CE、Bluetooth、又はUSB回路などの1つ以上のデータインターフェース回路を有する。一実施形態では、通信インターフェース406は、結合されているスマート家電間の通信を可能にする、少なくとも1つのトランシーバ410及び少なくとも1つの送信器412などの1つ以上のデータインターフェース回路を有する。この実施形態では、トランシーバ410は、第1スマート家電と通信するために使用される第1無線プロトコルをサポートしてよく、第2トランシーバ410は、フォーマット化されたボイスデータをスマート家電の夫々へ供給する第2スマート家電と通信するために使用される第2無線プロトコルをサポートしてよい。
ユーザインターフェース408は、ユーザが制御デバイス202の動作を制御することを可能にするユーザ入力デバイスを有する。ユーザ入力は、通常、ユーザが制御デバイス202にコマンド又は情報を入力することを可能にする少なくとも1つ以上のソフトキー又は機械キーを有する。一例において、ユーザインターフェース408は、ユーザのボイスコマンドを受け取って、ボイスコマンドを当該技術で知られているように電子信号に変換するプロセッサ402へ結合されたマイクロホンを有する。
機能ブロックは、図4に示されている以外の様々な方法で互いに結合されてもよく、かつ、明りょうさのために、電源、マイクロホン、1つ以上の加速度計、多軸ジャイロ、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、制御デバイス202の動作のために必要な全ての機能ブロックが示されているわけでない、ことが理解されるべきである。
図5は、TV106、STB108、Apple TVブランドのストリーマ110(夫々図1に図示あり)、Xboxブランドのゲームシステム204及びRokuブランドのストリーマ206(夫々図2に図示あり)などのスマート家電の一例の機能ブロック図500を表す。そのようなスマート家電は、ボイスコマンドによって制御されてよく、話者に依存せず、すなわち、スマート家電は、複数のボイスに応答してよく、一度に複数のコマンドに応答してよい。いくつかの実施形態で、スマート家電は、ローカル動作により話者、すなわちユーザを識別及び/又は認証してよく、受け取られた音声入力を発話処理サービス106へワイドエリアネットワーク216を介して又はセルラーネットワークの使用を介して送ってよい。
この例では、スマート家電は、プロセッサ502、電子記憶媒体504、通信インターフェース506、ユーザインターフェース508、及びトランシーバ510を有する。機能ブロックは、図5に示されている以外の様々な方法で互いに結合されてよく、明りょうさのために、電源、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、スマート家電の動作に必要な全ての機能ブロックが示されているわけではない、ことが理解されるべきである。
プロセッサ502は、電子記憶媒体504に記憶されているプロセッサ実行可能命令、例えば実行可能コードを実行することによって、スマート家電の全般的な動作を提供するよう構成される。プロセッサ502は、通常、Intel Core I7ブランド又はAMD K10ブランドのマイクロプロセッサなどの汎用のマイクロプロセッサを有するが、様々なマイクロプロセッサ、マイクロコンピュータ及び/又はマイクロコントローラのいずれか1つが代替的に使用され、計算出力、費用、サイズなどの因子に基づいて選択されてよい。
電子記憶媒体504は、ROM、RAM、フラッシュ、他のタイプの電子的、光学的、若しくは機械的な電子記憶媒体デバイス、又はそれらの任意の組み合わせなどの1つ以上の情報記憶デバイスを有する。電子記憶媒体504は、スマート家電の動作のためのプロセッサ実行可能命令を記憶するために使用されてよい。また、明らかなように、表されている電子記憶媒体の一部又は全部は、物理的に、プロセッサ手段502と同じICチップ内に組み込まれてよい。
当業者には当然ながら、電子記憶媒体504の一部又は全部は、制御されるべきスマート家電の各タイプに特有である命令又はデータを記憶してよい。例えば、TV106のための命令は、制御デバイス202から受け取られたコマンドに従って、通信インターフェース506を介してテレビジョンプログラミングを受け取り、テレビジョンプログラムの1つをディスプレイで表示する命令を有してよい。
他の命令は、スマート家電に、ウェイクワード又はボイスコマンドなどの、制御デバイス202からの命令を受け取らせ、プロセッサ502は、ボイスコマンドに関連したスマート家電識別を決定するためにボイスコマンドを使用する。スマート家電は次いで、家電識別を制御デバイス202へ又は結合されているスマート家電へワイドエリアネットワーク216を介して送る。
更なる他の命令は、スマート家電に、制御デバイス202から命令を受け取らせ、命令は、プロセッサ502に、アクティブHDMI入力を検出するように、オーディオ-ビデオ/通信バスステータス要求に関するアクティブソース/シンク/ポートの検出/要求などの検出プロセスを開始させる。スマート家電は次いで、アクティブHDMI入力に接続されているスマート家電を決定し、家電識別を制御デバイス202へ又は結合されているスマート家電へ送る。制御デバイス202又は結合されているスマート家電は次いで、識別されたスマート家電へボイスコマンドを送るために家電識別を使用する。いくつかの例で、スマート家電は、コンテキストコマンドルーティングを決定するためにサーバ208へ家電決定を送る。サーバ208は次いで、識別されたスマート家電へボイスコマンドを送る。他の例では、サーバ208は、アクティブHDMI入力に接続されている家電へコマンドを転送するために又はコマンドを実行するために、どのスマート家電がアクティブHDMI入力に接続されているかを決定したスマート家電へボイスコマンドを送る。
通信インターフェース506は、無線ルータ114によって提供されるローカルエリアネットワークを介してスマート家電と他の結合されているスマート家電との間及びスマート家電と制御デバイス202との間の、並びにワイドエリアネットワーク216を介してスマート家電とサーバ208との間のデジタル通信を可能にする、トランシーバ510、Ethernet、Wi-Fi、RF4CE、Bluetooth、又はUSB回路などの1つ以上のデータインターフェース回路を有する。この実施形態では、トランシーバ510は、制御デバイス202からボイスコマンドを受け取るために使用される無線プロトコルをサポートしてよく、ボイスコマンドを発話処理サービス116へ送るために復号化、圧縮、又は必要な他の動作を実行してよい。
ユーザインターフェース508は、ユーザがスマート家電の動作を制御することを可能にするユーザ入力デバイス及び/又はユーザ出力デバイスを有する。ユーザ入力は、通常、ユーザがスマート家電にコマンド又は情報を入力することを可能にする1つ以上の押しボタン、キー、タッチスクリーンディスプレイなどを有する。ユーザ出力は、通常、望まれるように/必要とされるようにユーザにメディアコンテンツを提示するための表示画面、タッチスクリーンディスプレイ、照明、増幅された音響バー、などを有する。
機能ブロックは、図5に示されている以外の様々な方法で互いに結合されてもよく、かつ、明りょうさのために、電源、夫々が異なる無線プロトコルを有する様々な他のトランシーバ及び送信器などの、スマート家電の動作に必要な全ての機能ブロックが示されているわけではない、ことが理解されるべきである。
図6は、2つ以上のスマート家電の音声制御を可能にする方法の一例のフロー図である。方法は、制御デバイス202内にあるプロセッサ402によって、電子記憶媒体404に記憶されているプロセッサ実行可能命令を実行することによって実施される。いくつかの実施形態で、図6に示されているステップの全てが実行されるわけではなく、ステップが実行される順序は異なってもよい、ことが理解されるべきである。更には、当業者に知られるいくつかの重要でない方法ステップは、明りょうさのために省略されている、ことが理解されるべきである。
ブロック600で、制御デバイス202のユーザは、ボイスコマンドを制御デバイス202にユーザインターフェース408を介して発話する。一例において、ユーザは最初に、制御デバイス202でマイクロホンを作動させるために、制御デバイス202上のキーを押す。
ブロック602で、ボイスコマンドは、プロセッサ402によってユーザインターフェース408を介して受け取られ、プロセッサ402は、通常、ボイスコマンドを電子記憶媒体404に記憶する。
ブロック604で、プロセッサ402は、ボイスコマンドがどのスマート家電に意図されているかを決定する。一例において、プロセッサ402は、ボイスコマンドを評価し、ボイスコマンドが特定のスマート家電、この例ではTV106を対象としていると決定する。決定動作は、上記の例の1つ以上に従って実行される。
他の例では、プロセッサ402は、スマート家電の所定の1つによって受け取られるように所定のフォーマットでボイスコマンドを送信する。この例では、プロセッサ402は、スマート家電の1つと通信するよう事前設定され、所定のスマート家電によって理解されるフォーマットでボイスコマンドを送信する。所定のスマート家電は、ボイスコマンドが対象としているスマート家電とは異なってよい。所定のスマート家電は、ボイスコマンドを受け取り、それをリモートサーバ208へ転送する。リモートサーバ208は、次いで、ボイスコマンドが対象としているスマート家電タイプ又は特定のスマート家電の識別を決定するよう、ボイスコマンドを処理する。例えば、サーバ208は、ボイスコマンドを解釈し、「ボリュームアップ」、「ボリュームダウン」、「チャンネル変更」、「TVオン(オフ)」、「Rokuオン(オフ)」などのような多数の所定コマンドの中から1つを取り出すことができる。解釈に基づいて、サーバ208は、ボイスコマンドが意図されているスマート家電タイプを少なくとも識別する。特定のスマート家電の識別がボイスコマンド内に含まれている、「TVオン(オフ)」、「Rokuオン(オフ)」などのいくつかのボイスコマンドについては、意図されたスマート家電の決定は、単に、述べられたスマート家電を抽出するようボイスコマンドを解釈するだけである。「ボリュームアップ」、「ボリュームダウン」、「チャンネル変更」などの他のボイスコマンドでは、サーバ208は、ボイスコマンド内のキーワードを識別し、キーワードを、サーバ208によって記憶されているスマート家電タイプと関連付けることによって、意図されている可能性があるスマート家電を決定してよい。例えば、「ボリューム」という単語が発話されたとサーバ208が決定する場合に、サーバ208は、ボイスコマンドがTV106又はセットトップボックス110のどちらかを対象としていると決定し得る。次いで、サーバ208は、直接に無線ルータ114を介して又は所定のスマート家電を経由して遠隔の制御デバイス202へ意図されたスマート家電の識別を返す。
ブロック606で、制御デバイス202は、意図されたスマート家電の識別をサーバ208からトランシーバ410を介して受け取る。トランシーバ410は、識別をプロセッサ402へ渡す。
ブロック608で、プロセッサ402は、識別を受け取り、スマート家電識別タイプに基づいて、ボイスコマンドが対象としている特定のスマート家電を決定し得る。例えば、サーバ208は、ボイスコマンドが対象としているTVを識別した、とする。その場合に、プロセッサ402は、使用中のTVの特定のブランド及び/又はモデルと、ボイスコマンド、ウェイクワード、予めインストールされているアプリケーション、視聴中のコンテンツ、サポートされている無線プロトコル、ユーザの好み、などの動作機能とを、先のプロビジョニングプロセスに基づいて決定する。
プロビジョニングプロセスは、他のスマート家電に、EDID、CEC、ベンダー名、デバイスタイプ、デバイスステータス、インストールされているアプリケーション、デバイスで再生中の現在のメディアコンテンツ、メディアコンテンツロゴ、インフォフレーム、SSDP、MDNC、IP mDNSサービスリスト、VoIP、IP、Smart Wave(S-WAVE)、Wi-Fi、Bluetooth Low Energy(BLE)、RF4CE、ZigBee、Z Wave、赤外線などのサポートされている無線プロトコルなどのそれらのデバイス情報を要求元の1つ以上のスマート家電へ供給させる信号を、発見されたスマート家電へ送ることを有する。例えば、プロビジョニングプロセスは、同じ動作機能を有するスマート家電を決定するために使用されてよい。そのようなデバイスについて、ユーザは、特定のスマート家電でTV番組を鑑賞することを好み、然るべくユーザ好みを設定してよい。この実施形態では、ユーザ好みは、デバイスプロマイルにまとめられる。そのようなデバイス検出の更なる詳細は、米国特許第8812629号、第8558676号、第8659400号、第8830074号、第8896413号、第9215394号、第9437105号、第9449500号及び第9019435号で見受けられ、これらの特許文献の全てが、それらの全文を参照により本願に援用される。
ブロック610で、プロセッサ402は、電子記憶媒体404に記憶されているボイスコマンドを、識別されたスマート家電に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化する。
ブロック612で、プロセッサ402は、フォーマット化されたボイスコマンドを、識別されたスマート家電へ、送信器/トランシーバ410及び/又は412を介して送る。ボイスコマンドをフォーマット化するために使用されるフォーマッティングプロトコルは、データを送信するための伝送プロトコルを更に有してよい。例えば、TV106と関連付けて電子記憶媒体404に記憶されているフォーマッティングプロトコルは、無線データがRF4CE送信器を介して送信される必要があることを示し得る。この場合に、プロセッサ402は、フォーマット化されたボイスコマンドをRF4CE送信器へ送り、RF4CE送信器に、フォーマット化されたボイスコマンドをTV106へ送らせる。
デバイスプロファイルは、図2で部分的に記載されたように、スマート家電によって実行されるプロビジョニングプロセス中に識別されるデータなどのスマート家電情報の全部を有する。データは、データベース210に記憶されサーバ208によってアクセス可能であってよく、複数のスマート家電についての、スマート家電のメタデータ、属性、ユーザによって設定された好み、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するフォーマッティングプロトコル、サポートされるネットワーク若しくは通信プロトコル、ボイスコマンドコード構造若しくはフォーマット、ボイスサービス若しくは動作機能、状態情報、などを通常は有する。
それらのコマンド及び動作機能は、この家電に相関され得る「動詞」及び「文法」の組を定義する。
一例において、TV106は、サーバ208からデバイスプロファイルを受け取ることに応答して、通信インターフェース506を介して、制御デバイス202の設定における使用のために第2の制御されるスマート家電へデバイスプロファイルを送ってよい。デバイスプロファイルは、第2スマート家電によって使用されるフォーマットにある。例えば、第1スマート家電は、中継デバイスとして動作し、サーバ208から受け取られたデバイスプロファイルを第2スマート家電へ送ってよく、あるいは、デバイスプロファイルの1つ以上を電子記憶媒体404に記憶するために制御デバイス202へ送ってよい。
更なる他の例では、デバイスプロファイルは、クラウドサービス302によってワイドエリアネットワーク216の仕様により制御デバイス202へ供給される。制御デバイス202は、次いで、デバイスプロファイルを電子記憶媒体404にローカルで記憶してよい。
一例において、デバイスプロファイルは、ロー(raw)フォーマットでプロセッサ402によって受け取られてよく、プロセッサ402によって、データ構造を生成するためのプロシージャの組を含む読み出し可能なコードを実行することによって、特定のデータ構造へと再構成されてよい。他の例では、データ構造はリストである。更なる他の例では、データ構造は、プロセッサ402がデータ再構成動作を行うために必要とされる1つ以上のデータタイプの組み合わせである。
他の例では、プロセッサ402は、発見された家電情報を、電子記憶媒体404に記憶されている家電メタデータと相互参照するようローカル動作を実行するか、あるいは、夫々の識別されたスマート家電についてサーバ208と協調して行われる相互参照動作を実行してよい。この例では、サーバ208は、データを生成するか、又はデータをデバイスプロファイル若しくはデバイスフィンガープリントにまとめるために、いくつかの点で、類似したスマート家電の家電情報と等しいか又は共通点がある情報を、データベース210の使用により、決定する。家電メタデータは、EDID、CEC、デバイスタイプ、サポートされる特徴、などのようなスマート家電属性を有する。これらは、発見された家電情報に相補的であってよく、通常は、複数のスマート家電についてのクラウドベースの家電サービス、例えば、家電の製造者によって利用可能にされるサービス、関連する音声処理サービスや、機能、好ましい通信方法、サポートされるネットワーク又は通信プロトコル、コマンドコード構造又はフォーマットなどの、複数の他の家電に関する情報を含む。
更に、デバイスプロファイルは、ボイスコマンドをスマート家電へ送るために、スマート家電の元のリモートコントロール(例えば、ComcastブランドのSTB108を操作するためのComcastブランドのXfinityボイスリモート102、又はApple TVブランドのストリーマ110を操作するためのAppleブランドのSiriボイスリモート104(夫々図1に図示あり))によって送られた信号と同じ構造の信号を有してよい。信号は、制御デバイス202によって、通信インターフェース406を介して、第1の結合されたスマート家電へ、同じスマート家電製造者からの元のリモートコントロールの信号に似た信号により送られてよい。同様に、制御デバイス202は、第2スマート家電に関連した元のリモートコントロールの信号に似た信号の使用により、異なる信号を第2スマート家電へ送ってもよい。
他の例では、プロセッサ402は、関連するスマート家電メタデータを、例えば、インターネット又は他のクラウドベースのサーバから、取得するために、発見された家電情報の使用により、かつ/あるいは、通信インターフェース406を介したワイドエリアネットワーク216の使用によるオンライン検索を実行することにより、実時間でデバイスプロファイルを動的に生成してよい。動作が完了すると、デバイスプロファイルは、電子記憶媒体404に記憶されてよく、あるいは、結合されたサーバ又はクラウドサービス302の電子記憶媒体に記憶されてよい。
他の例では、デバイスプロファイルは、UCE200を有するTV106へサーバ208によって通信インターフェース506を介してプロビジョニングされるか、あるいは、クラウドサービス302によってワイドエリアネットワーク216の使用によりTV106へプロビジョニングされる。
いずれの例でも、各デバイスプロファイルは、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するためのフォーマッティングプロトコルを有し、エンドユーザの家にあるスマート家電からスマート家電情報の識別を集める機能は、その全文を本願に援用される米国特許第9215394号に記載されるようなユニバーサル制御エンジン(UCE)200によって実行されてよい。一例において、UCE200を有するスマート家電が最初に電源を入れられるとき、自動プロビジョニングプロセスが、UCE200を含むスマート家電と同じローカルネットワーク上のスマート家電を識別又は検出器するために開始されてよい。代替的に、プロビジョニングプロセスは、制御デバイス202でのキー押下によって、又はスマート家電によって認識され作用するボイスコマンドを介して、開始されてもよい。そのようなプロビジョニングプロセスは、その全文をやはり参照により本願に援用される米国特許第9307178号に記載されている。
一例において、制御デバイス202は、プロセッサ可読コードが担持されておりかつ複数のスマート家電プロファイルを記憶している電子記憶媒体404を有し、各デバイスプロファイルは、特定のスマート家電によって使用されるプロトコルに従ってボイスコマンドをフォーマット化するフォーマッティングプロトコルを有し、デバイスプロファイルは、サーバ208によってスマート家電にプロビジョニングされる。この例では、制御デバイス202は、マイクロホンを介してエンドユーザから第1ボイスコマンドを受け取り、第1ボイスコマンドは、制御デバイス202によって、第1ボイスコマンドが意図される第1スマート家電を決定するために使用される。次いで、制御デバイス202は、第1スマート家電に関連した電子記憶媒体において第1フォーマッティングプロトコルを識別し、第1フォーマッティングプロトコルに従ってボイスコマンドをフォーマット化されたボイスコマンドにフォーマット化し、フォーマット化されたボイスコマンドを第1スマート家電へ送る。
例えば、ユーザは、マイクロホンキーを押し、特定のスマート家電、例えば、Apple TVブランドのストリーマ110を選択するための1つ以上の単語又は音響を発話してよい。制御デバイス202は、ボイスコマンドに基づいてそのスマート家電に関連したデバイスプロファイルを決定し、Apple TVブランドのストリーマ110と通信するために使用すべき適切な信号又はプロトコルを識別する。制御デバイス202は、ボイスコマンドを、AppleブランドのSiriボイスリモート104の同じボイスコマンドにフォーマット化する。次いで、制御デバイス202は、ボイスコマンドをApple TVブランドのストリーマ110へ送る。制御デバイス202は、第2ボイスコマンドを受け取り、同様に、第2ボイスコマンドが意図される第2スマート家電、例えばSTB108を決定する。次いで、制御デバイス202は、フォーマット化されたボイスコマンドをSTB108へ送る。いくつかの例で、デバイスプロファイルは、スマート家電へボイスコマンドをどのように送るべきかの定義を有し、制御デバイス202は、どのスマート家電がボイスコマンドに関連しているかを決定するためにローカル動作を実行してよく、かつ、ボイスコマンドをどのように送るべきかの1つ以上の方法を決定してよい。
一例において、制御デバイス202は、ボイスコマンドを聞き、ボイスコマンドが受け取られるとき、制御デバイス202は、スマート家電に対して、接続されているスマート家電についてローカルエリアネットワークをスキャンし、各スマート家電に状態情報を動的にクエリするローカル動作を実行するようリクエストを送る。そのような状態情報は、インストール及び/又はサポートされているアプリケーション、スマート家電の電源状態(すなわち、オン/オフ)、特定の歌を再生中又は特定のビデオストリームを視聴中などの現在のメディア状態、サポートされているコマンド及び/又はスクリプト、などを有する。いくつかの例で、状態情報は、コマンドについてのコンテキストを定義するサーバ208によって又はクエリを実行したスマート家電によって使用されてよい。
一例において、状態情報は、特定の場所で現在再生しているメディアを決定するために、オーディオ信号リスニング動作などの信号スニッフィング動作を実行する第1スマート家電によって取得されてよい。この例では、スマート家電は、信号スニッフィング動作を実行するための必要なハードウェア及びプログラミングを含む。信号スニッフィング動作は、当該技術でよく知られており、本明細書では記載されない。
一例において、スマート家電は、データベース210へ結合されているサーバ208から、接続されているスマート家電についてのコード又はスクリプトを受け取る。データベース210は、接続されているスマート家電と通信する際に使用される複数のスマート家電コード及び/又はスクリプトを有し、コード及び/又はスクリプトは、コンテキスト及び意図されたスマート家電を識別するために使用される。例えば、ユーザが「一時停止」と発話するとき、文脈的にサーバ208は、現在歌を再生しているスマート家電を優先することになる。
例えば、TV106は、STB108及びApple TVブランドのストリーマ110などの1つ以上のスマート家電へのクエリを開始してよい。各スマート家電は、どのようなアクティビティが各スマート家電で行われているかに関する情報をTV106へリアルタイムで送る。そのようなアクティビティ情報は、Apple TVブランドのストリーマ110で観られているTV番組又は映画、鑑賞されている写真、STB108でのアクティブなアプリケーション及びそれらの表示内容、サポートされているコマンドなどの利用可能な現在のメディアコンテンツを有してよく、各スマート家電によって実行された最後のユーザ動作又はコマンドの識別などの情報を含んでもよい。いくつかの例で、アクティビティ情報は、スマート家電へ結合されているディスプレイ上に部分的に又は全面的に表示されてよく、あるいは、情報を表示するために、第1スマート家電によって第2スマート家電へプロビジョニングされてもよい。
他の例では、アクティビティ情報は、制御デバイス202へ結合されているディスプレイに表示されてよく、このとき、アクティビティ情報は、制御デバイス202にインストールされているアプリケーションの使用により、ユーザによって作動されるときに、スマート家電に、「再生」、「停止」などの対応するコマンドを実行させるアクティブ化可能なリンクを含む。
他の例では、制御デバイス202は、複数の結合されたスマート家電からのスマート家電の識別を用いて、リモートサーバ208からコンフィグレーション情報を受け取る。例えば、サーバ208は、エンドユーザの家にある複数のスマート家電の識別をTV106から受け取る。この例では、スマート家電の1つ以上は、他の接続されているスマート家電を検出する動作を実行し、その情報をリモートサーバ208へプロビジョニングする。サーバ208は次いで、検出されたスマート家電の夫々についてデバイスプロファイルを決定するために情報を解析する。サーバ208は、検出されたスマート家電の夫々のデバイスプロファイルをデータベース210に記憶し、検出されたスマート家電の夫々のデバイスプロファイルを制御デバイス2026へ直接送る。いくつかの例で、デバイスプロファイルは、スマート家電と相関される動詞及び文法の組を定義する1つ以上のサポートされているコマンド及び動作機能を有し、そのようにボイスコマンドをスマート家電へ送るかの第2定義を有してもよい。
更なる他の例では、制御デバイス202は、ワイドエリアネットワーク216を介してクラウドサービス302からコンフィグレーション情報を受け取る。この例では、スマート家電の1つ以上は、他の接続されているスマート家電を検出する動作を実行し、その情報をクラウドサービス302へプロビジョニングする。クラウドサービス302は次いで、検出されたスマート家電の夫々についてデバイスプロファイルを決定するために情報を解析する。それから、クラウドサービス302は、検出されたスマート家電の夫々のデバイスプロファイルを制御デバイス202へ送る。
他の例では、マイクロホンを備えるデバイスは、ボイスコマンドを受け取ってEchoなどの制御デバイス202へ又は同様のタイプのスマート家電へ送る。制御デバイス202又は同様のタイプのスマート家電は、AmazonブランドのAlexaブランドデバイスなどの、音声制御されるインテリジェントパーソナルアシスタントサービスへ結合されている。そのようなサービスは、それ自体をホームオートメーションハブとして使用し、発話処理サービス116、クラウドサービス302又はサーバ208へ通信上結合されている。この例では、制御デバイス202は、AmazonブランドのAlexaブランドデバイスのボイスリモートコントロールの信号を模倣するEchoへボイスコマンドを送る。Echoは、ボイスコマンドをAlexaブランドのサービスへ送り、Alexaブランドのサービスは、サーバ208及びクラウドサービス302、例えばIFTTT、との協調プロセスにおいて、1つ以上の所定のIFTTT動作を自動化して、1つ以上の所定の動作が、UCE200の使用によりIFTTTサービスへ結合されているTV106などの1つ以上のスマート家電へIFTTTサービスによって送られるようにするIFTTTサービスをプロビジョニングする。1つ以上の動作は、プロセッサ502によって特定の動作を実行するために、通信インターフェース506を介してTV106によって受け取られる。そのような動作は、クラウドサービス302で事前入力されてよく、IFTTTサービスに関連したアプリケーションにより制御デバイス202で事前入力されてよく、かつ/あるいは、Alexaサービス及びTV106に関連したIFTTTサービスのセットアップ中に入力されてよい。IFTTTサービス及び動作は、当該技術でよく知られており、本明細書では記載されない。
例えば、ユーザが「アレクサ(Alexa)、Xboxを再生したい」と発話する場合に、制御デバイス202は、ユーザがボイスコマンドに基づいてEchoを使用したいと決定し、Echoと通信するために使用する適切な信号又はプロトコルを識別する。次いで、Echoは、ボイスコマンドを、IFTTTサービスなどのクラウドサービス302又は同様のサービスへ結合されているAlexaブランドのサービスへ送る。IFTTTサービスは、アプレット又はレシピの使用により、予め定義された操作を決定し、決定された操作をサーバ208へインターネットを介してプロビジョニングする。サーバ208は、IFTTTサービスからインターネットを介して1つ以上の操作を受け取ってプロセッサ502によってTV106にプロビジョニングする。TV106は、通信インターフェース506を介して操作を受け取り、プロセッサ502は、1つ以上の受け取られた操作を実行する。
例えば、「アレクサ(Alexa)、Xboxを再生したい」との語句は、IFTTTサービスに関連しかつクラウドサービス302に関連する予め定義されたフレーズ又は一連の予め定義された操作であってよい。そのような操作は、TV106でHDMI入力を自動的に変更すること、Xboxブランドのゲーム機204の電源を入れること、ボリュームを所定のレベルに設定すること、照明を所定のレベルに調光すること、などを有してよい。1つ以上の操作は、複数の操作を同時に実行させるために、単一のワークフローに統合され得る1つ以上のIFTTTアプレットの構造にあってよく、あるいは、操作は、所定の時間インターバルで実行されてよい。別段述べられない限りは、記載されている操作の1つ以上は、TV106によって受け取られ及び/又は実行されてよく、あるいは、1つ以上の結合されたスマート家電によって受け取られ及び/又は実行されてよい、ことが理解されるべきである。
図2に示される制御デバイス202は、モーションセンサ対応の機能、ハンドジェスチャ認識などの複数の他の機能を含んでよく、ロゴ、英数字テキストなどの画像を表示する機能を含んでよい、ことが理解されるべきである。そのような制御デバイスは、スマート家電を制御するために、図3に示される1つ以上のアプリケーションと協働してよい。更に、制御デバイス202は、例えば、スマート家電にプロビジョニングするために及び/又はそれを制御するためにクライアント-サーバモデルにおいて、夫々がコンピュータクライアントを有する1つ以上のスマート家電と協働してよい。いくつかの例で、マイクロホンは、ユーザの家の異なる部屋に夫々位置している1つ以上のデバイスへ結合され、マイクロホンを備えるデバイスは、ボイスコマンドを制御デバイス202へ送るために、ローカルエリアネットワーク又はワイドエリアネットワーク216を介して、制御デバイス202へ結合される。
いくつかの場合に、図7及び図8に示されるように、制御デバイス202に関連した発話処理サービスは、デバイス自体にあるのか、インターネットクラウドに基づく処理サービスによって提供されるか、などにかかわらず、制御デバイス202へ供給されているあらゆる発話のラウドネス、及び/又は制御デバイス202が動作している環境のラウドネス、すなわち、あらゆる背景ノイズのラウドネスを決定するためにラウドネス解析を実行してよい。限定されない例として、米国特許第9847096号に記載されているラウドネス検知コンポーネント及び機能が、この目的のために使用され得る。このようにして、ラウドネス解析は、制御発話入力及び/又は制御発話入力とともに受け取られる背景ノイズのレベルを示すラウドネス推定を決定するよう実行され得る。ラウドネス推定に基づいて、所定の閾値(制御デバイス202を較正することによって、例えば、特定のノイズ条件下でマイクロホンを作動させることによって、及び/又は通常の音声で1つ以上のコマンドを話すことによって規定されてよく、閾値は、絶対値であっても、又は範囲として規定されてもよい)と比較して、システムは、制御発話入力が大声で供給されていると(例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値よりも大きい)、制御発話入力が静かに供給されていると(例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値よりも小さい)、制御発話入力が正常に供給されていると(例えば、制御発話入力のラウドネス推定は、所定の発話入力閾値内にある)、環境が騒々しいと(例えば、環境のラウドネス推定は、所定の環境閾値よりも大きい)、環境が静かであると(例えば、環境のラウドネス推定は、所定の環境閾値よりも小さい)、及び/又は環境が正常であると(例えば、環境のラウドネス推定は、所定の環境閾値内にある)決定することができる。
そのような決定されたラウドネス情報を使用して、制御デバイス202は、更なる機能を実行するよう更に構成され得ることが企図される。例えば、制御デバイス202が、情報を出力する、音楽を再生する、などのスピーカを含む場合に(米国特許出願第15/799393号に記載)、制御デバイス202は、情報、音楽、などがスピーカにより出力されるレベルを自動調整するために、ラウドネス決定を使用することができる。これに関連して、制御デバイス202は、環境が騒々しい(又は騒々しくなりつつある)と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で上げてよく(望ましくは、これによって、スピーカのDB出力はわずかに高められるので、聞き手は、環境内のノイズレベルを適切に考慮した出力を聞くことができる)、環境が静かである(又は静かになりつつある)と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを下げてよく、スピーカがその音声を大きくした(又は大きくしつつある)と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で上げてよく、スピーカがその音声を小さくした(又は小さくしつつある)と決定される場合には、情報、音楽などがスピーカにより出力されるレベルを自動で下げてよい、など。
また、この決定されたラウドネス情報は、環境に関連したラウドネスレベルを制御するために、1つ以上のコマンドが自動で発せられるようにするためにシステムによって使用されることも企図される。例えば、環境が騒々しい(又は騒々しくなりつつある)一方で、ユーザが制御デバイス202に発話を供給しようとしていると決定される場合に、システムは、1つ以上のコマンドを、ボイスコマンドであろうと、従来のリモートコントロールコマンドであろうと、1つ以上の制御されるデバイスへ送ることによって、環境によって生成されているノイズを小さくしようと試みてよい。このようにして、システムは、環境が騒々しい(又は騒々しくなりつつある)と決定される場合に、音源、例えば、テレビ受像機へ、ミュートするよう、電源を切るよう、又は別なふうに音源の出力ボリュームレベルを下げるよう、コマンドを自動で送るために使用され得る。この制御は、制御デバイス202がデバイスを作動又はトリガするキーワードを聞くと直ぐに実行され得る。これには、システムがコマンドを理解するためのより良い音響品質をコマンド入力が求めるということで、ユーザがコマンドを話す前に、環境によって生成されているノイズを小さくするという利点がある。更に、このようにして制御される特定のデバイスは、システム状態情報に基づいてシステムによって自動で決定され得る。よって、システムが、システムから受け取られた状態情報に基づいて、TVが現在オンしていると知る場合に、システムは、制御されるデバイスとしてTVを自動的に選択することができる。同様に、システムは、制御デバイス202が、TVをオンする、TVのボリュームを制御する、などのために、最後に使用されたと知る場合に、システムは、TVが音を発生させるデバイスであると推定することができ(例えば、接続されているデバイスから状態情報を実際に受け取ることができない場合)、そして、制御されるデバイスとしてTVを自動的に選択することができる。述べられるように、選択された1つ以上のデバイスの制御は、本明細書で記載されている制御プロシージャのいずれかを単独で又は組み合わせて用いて、システムによって実行され得る。また、望まれる場合には、制御されるデバイスは、更なる発話がユーザによって発せられる可能性がないとシステムが決定する場合に、例えば、最後のコマンドが受け取られてから所定量の時間の経過後に、あるいは、最後に受け取られたコマンドが、更なる発話入力が所与の量の時間内に期待されないことを意味する完了要求を示す場合に、など、システムによって所与の状態(例えば、再起動、ミュート解除、ボリューム上昇)に自動的に戻され得る、と理解されるだろう。更に、デバイスが、トリガコマンドを受け取った後及び制御可能なデバイスの音響レベルを下げるためにコマンドが一度送られた後に所定の期間内に認識可能なコマンドを受け取られない場合に、システムは、発話入力コマンドが受け取られ認識される時点、時間制限が経過した時点(その時点で、制御可能なデバイスはその元の状態に戻され得る)、などまで、制御可能なデバイスの音響レベルを下げるために1つ以上の更なるコマンドを自動的に発するよう機能することができる。
また、システムがユーザコマンド及びクエリに同様に応答するのか、又は別なふうに音響を出力するのかを適応的に変更するために、更なる条件が利用され得ることが理解されるだろう。例えば、時刻などのコンテキストパラメータは、夜間/睡眠時間などのモードを自動的に識別するために使用されてよく、これによって、制御デバイス202の出力オーディオレベルは、然るべく調整されるか、又は調整されないようにされ得る。同様に、異なるラウドネス閾値が、上述されたような使用のために、異なる時刻などについて定められ得る。
更なる状況において、スピーカの及び/又は環境の決定されるラウドネスレベルはまた、コマンドに応答することなどにおいて改善された柔軟性をもたらすように、音源と制御デバイス202との間の距離の測定を計算に入れることができる。例えば、話者コマンドが大きくは聞こえないが、話者が制御デバイス202に近いと測定される場合に、決定されるラウドネスレベルは、ユーザが小声で言っていることを示す可能性がある。しかし、話者コマンドが大きくは聞こえないが、話者が制御デバイス202から離れていると測定される場合に、決定されるラウドネスレベルは、ユーザが普通に話しているか又は叫んでいることを示す可能性がある。よって、そのような場合に、上述されたようにシステムによって決定された音響レベルを決定されるラウドネスレベルは、音源までの測定された距離に応じて増減させたものであることができる。
決定されたラウドネスレベルを調整する際に使用するために、絶対及び/又は相対距離が利用されてよい。これを達成するために、制御デバイス202に設けられたカメラ、画像センサ、光センサ、などが、話者が制御デバイス202からどれくらい離れているか、及び/又は話者がコマンドを話しているときに制御デバイス202に相対的に近づいた又は離れたかどうかを正確に(又は近似的に)決定するために利用され得る。同様に、距離の測定は、2つ以上のマイクロホンから成るマイクロホン配列を用いて行われ得る。また更に、ある程度の処理が可能な単一のマイクロホンも、話者距離を推定するために使用され得る。当然、レーザ測定デバイスなどで見受けられるもののような、物体間の距離を測定するために有用な他の既知のデバイスが、この目的での使用のために制御デバイス202に設けられてもよい。
また、明らかなように、コマンド話者までの測定された距離は、制御デバイス202によって生成され得る如何なる出力のラウドネスレベルも調整するために同様に使用されてよく、それによって、応答が適切なレベルで、例えば、遠くの意図された受け手によって聞こえる十分なレベルで、又は近くの意図された受け手を圧倒しない低いレベルで、出力されることを確かにする。
ボイスコマンドを受け取るマイクロホンとして記載されているが、マイクロホンは、音響を電気信号に変換する如何なるトランスデューサタイプのデバイスも含み、1つ以上のマイクロホンを各デバイスに含めてもよく、各デバイスは、互いへ、制御デバイス202へ、及びスマート家電へ結合されてよい、ことが理解されるべきである。
アクティブHDMI入力として記載されているが、アクティブ入力は、状態要求を開始したスマート家電へ有線又は無線で接続されているオーディオ-ビデオ/通信バスステータスに関する如何なるアクティブソース/シンク/ポートも含む、ことが理解されるべきである。
また、制御デバイス202は、1つ以上のデバイスプロファイルを予めインストールされることにより工場で部分的に構成されてよい、ことが理解されるべきである。最初に電源を入れられる場合に、制御デバイス202は、例えば、制御デバイス202及びSTB108がボックスの最初から(out of the box)互いにペアリングされているときに、STB108などの所定のスマート家電と自動で通信するよう構成されてよい。同様に、自動ペアリング動作は、エンドユーザが、制御デバイス202で、STB108との通信を開始するために、第1キーを押す場合に、実行されてよい。
様々な概念が詳細に記載されてきたが、当業者に明らかなように、それらの概念に対する様々な変更及び代替が、本開示の全体の教示に照らして開発され得る。更に、機能モジュールとの関連で記載され、ブロック図形式で例示されているが、別段述べられない限りは、記載されている機能及び/又は特徴の1つ以上は、単一の物理デバイス及び/又はソフトウェアモジュールに組み込まれてよく、あるいは、1つ以上の機能及び/又は特徴は、別個の物理デバイス又はソフトウェアモジュールにおいて実施されてよい、ことが理解されるべきである。また、各モジュールの実際の実施の詳細な説明は、本発明の理解を可能にするために必須ではないことが理解されるだろう。むしろ、そのようなモジュールの実際の実施は、システム内の様々な機能モジュールの属性、機能、及び相互関係の本明細書中の開示を鑑みて、技術者の通常の技量の範囲内にある。従って、当業者は、必要以上の経験がなくても、特許請求の範囲に示されている発明を実施することが可能である。更には、開示されている特定の概念は、単に実例であるよう意図され、添付の特許請求の範囲及びその均等の全範囲を与えられるべきである本発明の範囲に関する制限ではない。
本明細書内で挙げられている全ての特許は、それらの全文を参照により本願に援用される。
[関連出願情報]
本願は、2017年7月12日付で出願された米国特許出願第15/647947号の利益を請求するとともにその一部継続出願である。なお、先の特許出願の開示は、その全文を参照により本願に援用される。

Claims (20)

  1. 発話入力を受けるよう構成されたデバイスを含む環境内にある少なくとも1つの制御可能な機器を制御する方法であって、
    前記デバイスが動作している環境のノイズ閾値を規定することと、
    前記デバイスで発話入力を受けることと、
    前記発話入力が前記デバイスによって受け取られた時点での前記環境のノイズレベルを決定することと、
    前記デバイスで受け取られた発話入力が前記少なくとも1つの制御可能な機器のいずれと関連するかと、前記発話入力が前記デバイスによって受け取られることに応答して取得された前記少なくとも1つの制御可能な機器の夫々の状態情報に基づき、前記少なくとも1つの制御可能な機器から、ボリュームレベルを調整すべき対象機器を特定すること、
    前記決定されたノイズレベルを前記規定されたノイズ閾値と比較することと、
    前記比較により前記環境の前記決定されたレベルが前記環境の前記規定されたノイズ閾値よりも大きいことが示される場合に、前記対象機器に、第1ボリュームレベルを有する第1状態から、前記第1ボリュームレベルよりも小さい第2ボリュームレベルを有する第2状態へ遷移させるよう、前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが前記対象機器へ自動的に発せられるようにすることと
    を有する方法。
  2. 前記デバイスは、リモートコントロール機能をサポートするよう構成され、
    前記1つ以上のコマンドは、前記デバイスによって直接に前記対象機器へ送られる、
    請求項1に記載の方法。
  3. 前記1つ以上のコマンドは、ボリュームミュートコマンドを有する、
    請求項2に記載の方法。
  4. 前記1つ以上のコマンドは、1つ以上のボリュームダウンコマンドを有する、
    請求項2に記載の方法。
  5. 前記1つ以上のコマンドは、電源オフコマンドを有する、
    請求項2に記載の方法。
  6. 前記発話入力が受け取られた後の所定期間内に前記デバイスによって更なる発話入力が受け取られていないと決定し、それに応じて、前記対象機器に前記第2状態から前記第1状態へ戻させるよう、前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが前記対象機器へ自動的に発せられるようにすることを有する、
    請求項1に記載の方法。
  7. 前記デバイスは、リモートコントロール機能をサポートするよう構成され、
    前記対象機器を前記第1状態から前記第2状態へ遷移させるための及び前記対象機器を前記第2状態から前記第1状態へ戻すための前記1つ以上のコマンドは全て、前記デバイスによって直接に前記対象機器へ送られる、
    請求項6に記載の方法。
  8. 前記発話入力が受け取られた後の所定期間内に更なる発話入力が前記デバイスによって受け取られると予想されないと決定し、それに応じて、前記対象機器に前記第2状態から前記第1状態へ戻させるよう、前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが前記対象機器へ自動的に発せられるようにすることを有する、
    請求項1に記載の方法。
  9. 前記デバイスは、リモートコントロール機能をサポートするよう構成され、
    前記対象機器を前記第1状態から前記第2状態へ遷移させるための及び前記対象機器を前記第2状態から前記第1状態へ戻すための前記1つ以上のコマンドは全て、前記デバイスによって直接に前記対象機器へ送られる、
    請求項8に記載の方法。
  10. 前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが、前記対象機器に、第1ボリュームレベルを有する第1状態から、前記第1ボリュームレベルよりも小さい第2ボリュームレベルを有する第2状態へ遷移させるよう、前記対象機器へ自動的に発せられるべきかどうかを判定するために、前記対象機器の既知の動作状態を使用することを更に有する、
    請求項1に記載の方法。
  11. 前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが、前記対象機器に、第1ボリュームレベルを有する第1状態から、前記第1ボリュームレベルよりも小さい第2ボリュームレベルを有する第2状態へ遷移させるよう、前記対象機器へ自動的に発せられるべきかどうかを判定するために、前記対象機器の導出された動作状態を使用することを更に有する、
    請求項1に記載の方法。
  12. 前記デバイスの発話入力閾値を規定することと、
    前記受け取られた発話入力の発話レベルを決定することと、
    前記決定された発話レベルを前記発話入力閾値と比較することと、
    前記比較により前記決定された発話レベルが前記規定された発話入力閾値よりも大きいことが示される場合に、前記発話入力に応答して生成された1つ以上の出力が、通常使用される出力レベルよりも大きい第1ボリュームレベルで供給されるようにすることと
    を更に有する、
    請求項1に記載の方法。
  13. 前記デバイスは、前記発話入力に応答して生成された前記1つ以上の出力を出力するスピーカを有する、
    請求項12に記載の方法。
  14. 前記デバイスの発話入力閾値を規定することと、
    前記受け取られた発話入力の発話レベルを決定することと、
    前記決定された発話レベルを前記発話入力閾値と比較することと、
    前記比較により前記決定された発話レベルが前記規定された発話入力閾値よりも大きいことが示される場合に、前記発話入力に応答して生成された1つ以上の出力が、通常使用される出力レベルよりも小さい第1ボリュームレベルで供給されるようにすることと
    を更に有する、
    請求項1に記載の方法。
  15. 前記デバイスは、前記発話入力に応答して生成された前記1つ以上の出力を出力するスピーカを有する、
    請求項14に記載の方法。
  16. 時間を前記規定されたノイズ閾値と関連付けることと、
    前記受け取られた発話入力が前記時間中に受け取られる場合にのみ、前記決定されたノイズレベルを前記規定されたノイズ閾値と比較することと
    を有する、
    請求項1に記載の方法。
  17. 前記デバイスは、リモートコントロールアプリケーションを有し、該リモートコントロールアプリケーションは、前記少なくとも1つの制御可能な機器の夫々の機能動作を操るのに適したコマンドコードセットをプロビジョニングされ、
    前記デバイスは、前記対象機器に、第1ボリュームレベルを有する第1状態から、前記第1ボリュームレベルよりも小さい第2ボリュームレベルを有する第2状態へ遷移させるよう、前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが前記デバイスに関連した送信器の使用により前記対象機器へ自動的に発せられるようにするために、前記対象機器のための前記プロビジョニングされたコマンドコードセットを使用する、
    請求項1に記載の方法。
  18. 前記デバイスは、ボイスコントロールアプリケーションを有し、該ボイスコントロールアプリケーションは、発話入力を受け取るよう構成された少なくとも1つの更なるデバイスへボイスコマンドを送る際に使用される少なくとも1つのプロトコルをプロビジョニングされ、
    前記少なくとも1つの制御可能な機器が前記少なくとも1つの更なるデバイスを含み、該少なくとも1つの更なるデバイスが前記デバイスで受け取られた発話入力に基づき前記対象機器であると特定される場合に、前記デバイスは、前記少なくとも1つのデバイスに、第1ボリュームレベルを有する第1状態から、前記第1ボリュームレベルよりも小さい第2ボリュームレベルを有する第2状態へ遷移させるよう、前記対象機器に関連したフォーマッティングプロトコルに従うデータフォーマットにフォーマット化された1つ以上のコマンドが前記デバイスに関連した送信器の使用により前記少なくとも1つの更なるデバイスへ自動的に発せられるようにするために、前記プロビジョニングされたプロトコルを使用する、
    請求項1に記載の方法。
  19. 前記発話入力の発生源までの測定された距離は、前記受け取られた発話入力の発話レベルを決定するときに利用される、
    請求項12に記載の方法。
  20. 前記発話入力の発生源までの測定された距離は、前記受け取られた発話入力の発話レベルを決定するときに利用される、
    請求項14に記載の方法。
JP2020537000A 2018-01-03 2019-01-02 制御デバイスにおいて音声入力を指示する装置、システム及び方法 Active JP7374099B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/861,298 US10930276B2 (en) 2017-07-12 2018-01-03 Apparatus, system and method for directing voice input in a controlling device
US15/861,298 2018-01-03
PCT/US2019/012050 WO2019136065A1 (en) 2018-01-03 2019-01-02 Apparatus, system and method for directing voice input in a controlling device

Publications (2)

Publication Number Publication Date
JP2021509730A JP2021509730A (ja) 2021-04-01
JP7374099B2 true JP7374099B2 (ja) 2023-11-06

Family

ID=67143953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537000A Active JP7374099B2 (ja) 2018-01-03 2019-01-02 制御デバイスにおいて音声入力を指示する装置、システム及び方法

Country Status (5)

Country Link
EP (1) EP3735687A4 (ja)
JP (1) JP7374099B2 (ja)
KR (1) KR20200104898A (ja)
CN (1) CN111801729A (ja)
WO (1) WO2019136065A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220343909A1 (en) * 2019-09-06 2022-10-27 Lg Electronics Inc. Display apparatus
EP4216214A4 (en) * 2020-09-21 2024-05-01 Lg Electronics Inc CONTROL DEVICE AND SYSTEM INCLUDING IT
CN113516981A (zh) * 2021-03-31 2021-10-19 深圳鱼亮科技有限公司 一种基于无线分布式麦克风阵列的语音唤醒决策系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219393A (ja) 2002-01-28 2003-07-31 Sony Corp 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム、入力装置、入力方法および入力プログラム、ならびに、記録媒体
JP2012095047A (ja) 2010-10-26 2012-05-17 Panasonic Corp 音声処理装置
JP2014155007A (ja) 2013-02-07 2014-08-25 Mitsubishi Electric Corp スマートメータおよびスマートメータシステム
WO2015127194A1 (en) 2014-02-20 2015-08-27 Harman International Industries, Inc. Environment sensing intelligent apparatus
WO2015149216A1 (en) 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
JP2016213589A (ja) 2015-05-01 2016-12-15 株式会社ハネロン 環境管理システム
WO2017134935A1 (ja) 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017203967A (ja) 2016-05-13 2017-11-16 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US8314893B2 (en) * 2009-08-28 2012-11-20 Sling Media Pvt. Ltd. Remote control and method for automatically adjusting the volume output of an audio device
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
US9274673B2 (en) * 2013-12-31 2016-03-01 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events
US9508344B2 (en) * 2014-10-15 2016-11-29 Delphi Technologies, Inc. Automatic volume control based on speech recognition
US9571628B1 (en) * 2015-11-13 2017-02-14 International Business Machines Corporation Context and environment aware volume control in telephonic conversation
CN106899869A (zh) * 2015-12-25 2017-06-27 小米科技有限责任公司 调整电子设备音量的方法、装置及系统
JPWO2017217286A1 (ja) * 2016-06-15 2019-05-16 コニカミノルタ株式会社 通話機器およびケアサポートシステム
ES1175583Y (es) * 2016-10-31 2017-04-24 Fermax Design & Dev S L U Portero electronico accesible.

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219393A (ja) 2002-01-28 2003-07-31 Sony Corp 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム、入力装置、入力方法および入力プログラム、ならびに、記録媒体
JP2012095047A (ja) 2010-10-26 2012-05-17 Panasonic Corp 音声処理装置
JP2014155007A (ja) 2013-02-07 2014-08-25 Mitsubishi Electric Corp スマートメータおよびスマートメータシステム
WO2015127194A1 (en) 2014-02-20 2015-08-27 Harman International Industries, Inc. Environment sensing intelligent apparatus
WO2015149216A1 (en) 2014-03-31 2015-10-08 Intel Corporation Location aware power management scheme for always-on- always-listen voice recognition system
JP2016213589A (ja) 2015-05-01 2016-12-15 株式会社ハネロン 環境管理システム
WO2017134935A1 (ja) 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017203967A (ja) 2016-05-13 2017-11-16 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法

Also Published As

Publication number Publication date
JP2021509730A (ja) 2021-04-01
WO2019136065A1 (en) 2019-07-11
CN111801729A (zh) 2020-10-20
KR20200104898A (ko) 2020-09-04
EP3735687A1 (en) 2020-11-11
EP3735687A4 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
US11631403B2 (en) Apparatus, system and method for directing voice input in a controlling device
EP3428899B1 (en) Apparatus, system and method for directing voice input in a controlling device
US20240001077A1 (en) Locally distributed keyword detection
US10681480B2 (en) Multiple room communication system and method
JP7374099B2 (ja) 制御デバイスにおいて音声入力を指示する装置、システム及び方法
WO2018113672A1 (zh) 一种智能音箱、智能家居系统及其实现方法
US11301208B2 (en) Control method, control device, and control system
US11869503B2 (en) Offline voice control
CN109473095A (zh) 一种智能家居控制系统及控制方法
US20220104015A1 (en) Intelligent Setup for Playback Devices
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
US20230169956A1 (en) Locally distributed keyword detection
CN109756825B (zh) 智能个人助理的位置分类
US20210240437A1 (en) Local Voice Data Processing
US20160188287A1 (en) Synchronised control
CN103763597A (zh) 控制设备的遥控方法及其装置
JP7456387B2 (ja) 情報処理装置、及び情報処理方法
US11985003B2 (en) Apparatus, system and method for directing voice input in a controlling device
KR20210042442A (ko) 전자장치 및 그 제어방법
KR20210097428A (ko) 전자장치 및 그 제어방법
JP2020061046A (ja) 音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
US20230099144A1 (en) Enabling and Disabling Microphones and Voice Assistants
US20240005949A1 (en) Method and apparatus for providing noise suppression to an intelligent personal assistant
KR20230075781A (ko) 오디오신호 처리를 위한 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231024

R150 Certificate of patent or registration of utility model

Ref document number: 7374099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150