JP6882615B2

JP6882615B2 - 音声制御マルチメディアデバイス

Info

Publication number: JP6882615B2
Application number: JP2020549065A
Authority: JP
Inventors: ローレンス，マーク; ラバン，バルサ; チェンサントス，アナ; ペドロタバレス，ジョゼフ; リスティク，ミロスラフ; ジョセフヴァンダーシェーゲン，ヴァレリー; ソークリスティアンソン，トロスティ; カンダダイ，シュリヴァートサン; エル．カントレル，ドナルド
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2018-03-12
Filing date: 2019-03-11
Publication date: 2021-06-02
Anticipated expiration: 2039-03-11
Also published as: WO2019177949A1; CN111727475A; CN111727475B; CN113411649A; JP2021510048A; EP3707704A1; EP3707704B1; CN113411649B

Description

[0001]音声認識技術が向上するにつれて、そのような技術を採用するシステムが急増し続けている。いくつかのシステムでは、ユーザが遠隔制御またはモバイルデバイスなどのハンドヘルドデバイス上のマイクロフォンに向かって話しかける、近距離場音声認識と呼ばれるものを採用している。他のシステムは、遠距離場音声認識を採用しており、遠距離場音声認識では、ユーザがデバイスの概ね近傍に、例えば同じ部屋内にいるが、必ずしもデバイスに近接している、またはデバイスに面しているとは限らないが、ユーザはデバイスに話しかけることができる。遠距離場デバイスおよび近距離場デバイスの両方を使用して、音声および／またはビデオシステム上で再生されるコンテンツを要求できるが、しかし多くの家庭用音声ビデオシステムのトポロジの複雑さが増しているため、ユーザの音声コマンドに従って、複数のシステム上でコンテンツを確実に再生できる音声制御デバイスの必要性を依然として残している。

[0002]本開示による様々な実施形態が、図面を参照して説明される。

本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの例示的な使用事例および概略図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの例示的な使用事例および概略図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスのブロック図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作の方法をさらに説明するためのシーケンス図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作の方法をさらに説明するためのシーケンス図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作の方法をさらに説明するためのシーケンス図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作の方法をさらに説明するためのシーケンス図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作を概念的に説明するフローチャートである。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作を概念的に説明するフローチャートである。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作を概念的に説明するフローチャートである。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスの動作を概念的に説明するフローチャートである。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスを概略的に示す様々な図である。本開示の１つまたは複数の実施形態による、音声制御マルチメディアデバイスを示す別の図である。本開示の１つまたは複数の実施形態による、１つまたは複数の例示的な音声制御マルチメディアデバイスの概略ブロック図である。本開示の１つまたは複数の実施形態による、ＴＶ−ＡＶＲ状態検出および監視が可能な音声制御マルチメディアデバイスを示す図である。本開示の１つまたは複数の実施形態による、サブ可聴チャネル監視モジュールの例示的な例を示す図である。本開示の１つまたは複数の実施形態による、フルスケールより３４．５ｄＢ低いレベルを有する白色雑音プローブを使用した、ＴＶボリューム（０〜１００％）の関数としての音圧レベル（ＳＰＬ）の測定を示すグラフである。本開示の１つまたは複数の実施形態による、サブ可聴チャネル監視のためのプロセスを概念的に示すフローチャートである。本開示の１つまたは複数の実施形態による、プローブボリュームレベルを追跡および制御するためのプロセスを概念的に示すフローチャートである。本開示の１つまたは複数の実施形態による、直接相互相関計算の結果を示す図である。本開示の１つまたは複数の実施形態による、直接相互相関計算の結果を示す図である。本開示の１つまたは複数の実施形態による、電気信号とマイクロフォン信号との相互相関のプロットを示す図である。本開示の１つまたは複数の実施形態による、電気信号とマイクロフォン信号との相互相関のプロットを示す図である。本開示の１つまたは複数の実施形態による、ＴＶ−ＡＶＲ状態検出および監視が可能な音声制御マルチメディアデバイスを示す図である。本開示の１つまたは複数の実施形態による、プリミティブに基づく状態検出の一例を示す図である。本開示の１つまたは複数の実施形態による、ＰＢＳＤプロセスを示す図である。

[0027]以下の説明では、様々な実施形態が説明される。説明の目的で、実施形態の完全な理解を提供するために、特定の構成および詳細が示される。しかしながら、実施形態が特定の詳細なしで実施され得ることも当業者には明らかであろう。さらに、説明されている実施形態を不明瞭にしないために、周知の形態は省略または簡略化されている場合がある。

[0028]本開示の実施形態は、本明細書では音声制御デバイスとも呼ばれる音声制御マルチメディアデバイス（ＶＣＭＤ）のための、とりわけシステム、方法、コンピュータ可読媒体、技術、および方法論に関する。実施形態は、音声制御され、可聴命令に応答することができるデバイスを含む。可聴命令に応答して、ＶＣＭＤは、ＶＣＭＤの内部スピーカで、または別の外部デバイス、例えばユーザのテレビ、または、本明細書では、広くＴＶ−ＡＶＲシステムと呼ばれる音声ビデオ受信機に接続された１つまたは複数の外部スピーカで提示するためのデジタルコンテンツを出力できる。いくつかの実施形態では、ＶＣＭＤは、ユーザの要求に従ってデジタルコンテンツを提示するために、ユーザの他の電子デバイス、例えばテレビおよび音声ビデオシステムを制御することができる。結果として、ＶＣＭＤの実施形態は、それぞれのデバイスを操作したり、指し示すことなく、周囲環境で複数の電子デバイスを制御するように構成可能であり、音声ベースの命令に反応するように構成可能であり、それにより典型的な遠隔制御の場合と同様に、ユーザがデバイスを物理的に操作する必要性を低減し、または取り除くことができる。

[0029]他の電子デバイスを制御するために、ＶＣＭＤの特定の実施形態は、ＴＶ−ＡＶＲシステムの他の電子デバイスと無線通信するためにＩＲ信号を送信するために使用され得る、発光ダイオード（ＬＥＤ）などの１つまたは複数の赤外線（ＩＲ）光源のセットを含むことができる。他の実施形態では、ＶＣＭＤは、１つまたは複数のＡＶポートを介して、例えば１つまたは複数の高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポートを介して制御コマンドを発する性能もまた含むことができる。

[0030]図１は、本開示の１つまたは複数の実施形態による例示的な使用事例１００およびＶＣＭＤ１３０の概略図を示す。ユーザ１１０は、音声システム１５０、テレビ１６０、無線制御照明（図示せず）、および遠隔制御されるように構成された他の電子デバイスなどの複数の電子デバイスを有する周囲環境の中にいることができる。ＶＣＭＤ１３０は、テーブル上、キャビネット内、または周囲環境内の他の場所など、ユーザ１１０の周囲環境内にあることができる。

[0031]ユーザ１１０は、ＶＣＭＤ１３０と口頭で対話して、ＶＣＭＤからのコンテンツを要求することができ、ＶＣＭＤは、それ自体が１つまたは複数のデジタルコンテンツソースに、例えば、広域またはローカルコンピュータネットワークを介して、１つまたは複数の音声コンテンツソースおよび／またはビデオコンテンツソースに接続され得る。例えば、ユーザ１１０は、「アレクサ、今日の天気予報は？」などの命令、コマンド、または要求を含むフレーズ１２０（本明細書では、ユーザ発話または音声入力とも呼ばれる）を発することができる。

[0032]ＶＣＭＤ１３０は、ユーザ１１０からの音声入力を検出することができ、フレーズ１２０の意味を決定することができる。例えば、ＶＣＭＤ１３０は、「アレクサ」のトリガーワードまたはウェイクワード、または別のトリガーワードを検出することができ、その後、１つまたは複数のマイクロフォンを使用して音声コマンドの監視を開始することができる。いくつかの実施形態では、音声入力の検出および／または処理は、ＶＣＭＤ１３０でローカルに行われることができ、一方、他の実施形態では、ＶＣＭＤ１３０は、１つまたは複数のリモートサーバコンピュータと通信して、音声入力が１つまたは複数の音声コマンドを含むかどうかを決定することができる。いくつかの実施形態では、トリガーワードは、ローカルで検出および決定されることができ、潜在的な音声コマンドを含む完全な音声入力は、リモートで処理され得る。他の実施形態では、図３を参照して以下でさらに詳細に説明するように、完全な音声入力は、完全にローカルに処理されることができ、あるいはローカルおよび／またはリモート音声処理サービスの任意の組み合わせを使用して処理され得る。

[0033]図１の例におけるフレーズ１２０の意味を決定または受信した後、ＶＣＭＤ１３０は、１つまたは複数の応答動作を開始することができる。この例では、ＶＣＭＤ１３０は、ユーザ１１０が地域の天気予報に関連する音声ストリームを聞きたいと決定することができる。この決定に応答して、次いでＶＣＭＤ１３０は、外部ＡＶシステムの状態を検出して、任意の開いている音声チャネル、つまり電源が入っており、音声を送信できるスピーカ、例えばテレビ１６０の内部スピーカまたは音声システム１５０のスピーカを所有する何らかの外部デバイスかどうかを決定することができる。場合によっては、ＶＣＭＤ１３０が、外部デバイス上に開いている音声チャネルがないことを検出した場合、ＶＣＭＤはＶＣＭＤ１３０の内部スピーカを使用して、音声コンテンツをローカルに提示できる。場合によっては、テレビにオープン音声チャネルが含まれていることをＶＣＭＤ１３０が検出した場合、例えば、テレビがオン状態でミュートにされていない場合、ＶＣＭＤ１３０は制御信号を送信して、テレビのＡＶ入力を切り替えることができ、音声コンテンツをテレビ１６０の内部スピーカに提示することができる。例えば、ＶＣＭＤ１３０は、ＡＶポートを介してコンテンツソースに接続し、例えば、高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポートなどを介して、ＶＣＭＤ１３０とテレビ１６０との間のＡＶ接続を使用して、コンテンツをテレビ１６０にストリームすることができる。

[0034]他の例では、図２に示すように、ユーザ１１０は、例えば、ユーザが天気予報を見たいと示している「アレクサ、天気を教えて」と言うことによって、発話に関連するビデオコンテンツを見たいという欲求を意味するフレーズを発することができる。以前と同様に、フレーズ１２０の意味を決定または受信した後、ＶＣＭＤ１３０は、１つまたは複数の応答動作を開始することができる。この例では、ＶＣＭＤ１３０は、ユーザ１１０が天気予報に関連するビデオストリームを見たいと決定することができる。次に、ＶＣＭＤ１３０は、外部ＡＶシステムの状態を決定して、任意の外部デバイスがオープンビデオチャネルを含むかどうか、例えば、テレビ１６０がオン状態であり、ストリーミングビデオコンテンツがＶＣＭＤ１３０から表示されることを可能にする入力に設定されているかどうかを決定することができる。場合によっては、テレビ１６０がオフ状態にあることをＶＣＭＤ１３０が検出した場合、ＶＣＭＤ１３０は、最初にテレビ１６０をオンにし、次にテレビＡＶ入力をＶＣＭＤ１３０に関連する入力に設定できる制御シーケンスを開始できる。次に、ＶＣＭＤ１３０は、例えば、ＨＤＭＩ（登録商標）ポートなどを介して、図２に示されるように、テレビ１６０の画面にビデオコンテンツをストリームすることができる。

[0035]応答動作を実行するために、ＶＣＭＤ１３０は、例えば、ＨＤＭＩ（登録商標）などのＡＶインターフェースを介して、１つまたは複数のコマンドまたは命令を送信することができ、またはユニバーサルリモコンデバイスと同様に、赤外光チャネルなどのワイヤレスチャネルを使用することができる。したがって、ＶＣＭＤ１３０は、多数の側壁、１つまたは複数の側壁を介してアクセス可能な１つまたは複数のＡＶ出力ポート、および１つまたは複数の側壁を通って赤外光を発するように構成された１つまたは複数のＩＲＬＥＤのセットを備えたハウジングを含むことができる。例えば、図１２〜図１４は、ＩＲＬＥＤを含むＶＣＭＤの一例を示す。いくつかの実施形態では、赤外光は、周囲環境の比較的大部分の赤外到達範囲を提供するように、ＶＣＭＤ１３０を中心として３６０度に放出され得る。いくつかの実施形態では、ＶＣＭＤ１３０は、周囲環境の赤外線ＬＥＤ到達範囲を増加させるように、反対方向に配向または配置された赤外線ＬＥＤを含み得る。

[0036]ＶＣＭＤ１３０はまた、例えば、標準解像度コンテンツ、高精細コンテンツ、超高精細デジタルコンテンツ（例えば、４Ｋ解像度、ＵＨＤ解像度など）などのビデオコンテンツを出力するように構成されたＡＶインターフェースポート、例えば、ＶＧＡポート、ＤＶＩポート、および／またはＨＤＭＩ（登録商標）ポートを含み得る。ＶＣＭＤ１３０は、無線でまたはＡＶポートを介してテレビ１６０に接続可能であり、テレビ１６０でのコンテンツの視覚的提示と共に、要求されたコンテンツのストリーミングを引き起こし得る。

[0037]図３は、特定の実施形態によるＶＣＭＤ３００のブロック図を示す。ＶＣＭＤ３００の内部アーキテクチャは、ユーザの発話またはコマンドなどの音声入力の受信で始まり、ＶＣＭＤ３００および／またはＴＶ−ＡＶＲシステム３０３の１つまたは複数の出力システムにコンテンツが配信されることで終了する、マルチステップのユーザ入力およびコンテンツ配信プロセスを提供するように構成される。上記に紹介したように、ＶＣＭＤ３００は、テレビシステム（ＴＶ）に直接接続することができ、または音声ビデオ受信システム（ＡＶＲ）を介してテレビに間接的に接続することもでき、ＡＶＲは１つまたは複数の外部スピーカを有する。簡潔にするために、本明細書では、独立型ＴＶ、および１つまたは複数の外部スピーカを備えたＡＶＲに接続されたＴＶなど、より複雑なトポロジを有するシステムの両方を言及するために、頭字語を組み合わせたＴＶ−ＡＶＲが使用される。

[0038]ＴＶ−ＡＶＲシステム３０３への接続を提供するために、ＶＣＭＤ３００は、１つまたは複数のＡＶポート、例えば、ＨＤＭＩ（登録商標）ポート３０１を含むことができる。ＨＤＭＩ（登録商標）ポート３０１は、ＨＤＭＩ（登録商標）ケーブルなどの１つまたは複数の電気相互接続を受け取ることができる。簡単にするために、ＨＤＭＩ（登録商標）ポート３０１の相互接続および関連する回路は、ビデオブロック３０１ｃ、音声ブロック３０１ｂ、および監視／制御ブロック３０１ａを含む３つの論理サブブロックにグループ化される。ＨＤＭＩ（登録商標）ポート３０１のビデオブロック３０１ｃは、ビデオデータを受信し、そのビデオデータをＴＶ−ＡＶＲシステム３０３に送信することができる。同様に、音声ブロック３０１ｂは、音声データを受信し、音声データをＴＶ−ＡＶＲシステム３０３に送信することができる。監視／制御ブロック３０１ａは、ＨＤＭＩ（登録商標）ポートの１つまたは複数のデータラインを監視して、ＴＶ−ＡＶＲシステム３０３の状態を決定することができる。モニタ／制御ブロック３０１ａはまた、例えば、家庭用電化製品制御（ＣＥＣ）コマンドの形態で、ＨＤＭＩ（登録商標）データをＴＶ−ＡＶＲシステム３０３に提供して、ＴＶ−ＡＶＲシステム３０３の状態を制御するために使用され得る。オン／オフ、ボリュームコントロール、ミュート／ミュート解除、ＡＶ入力選択など、様々なＣＥＣコマンドが使用可能である。

[0039]加えて、システムの構成要素がＣＥＣ互換でない可能性がある場合に、ＴＶ−ＡＶＲシステム３０３の状態を制御するために、ＶＣＭＤ３００は１つまたは複数のＩＲ送信機、例えばＩＲＬＥＤ３１１を装備することができる。ＴＶ−ＡＶＲシステム３０３の１つまたは複数の構成要素を制御するために、ＩＲ送信機は、ＴＶ−ＡＶＲ（図示せず）に動作可能に接続されている１つまたは複数のＩＲ受信機によって受信されるＩＲコード／信号の形式でデータを出力することができる。オン／オフ、ボリュームコントロール、ミュート／ミュート解除、ＡＶ入力選択など、様々なコントロール機能が使用可能である。

[0040]ＶＣＭＤ３００は、ＶＣＭＤ３００の周りの領域内、例えば家の部屋内の周囲音を監視し、周囲音が音声入力、例えばユーザ３０７からのユーザ発話３０５を含むかどうかを検出するように構成されるマイクロフォンシステム３１３を含む。ユーザ発話３０５に応答して、ＶＣＭＤ３００は、ＶＣＭＤ３００の内部にある出力システム、例えば内部スピーカ３０９でコンテンツを再生することができ、または外部システム、例えばＴＶ−ＡＶＲシステム３０３でコンテンツを再生することができる。発話に関連付けられたコンテンツは、純粋にビジュアル、純粋に音声、または音声ビジュアルコンテンツなどのマルチメディアであることができる。コンテンツは、１つまたは複数のリモートサーバコンピュータから供給され、１つまたは複数のメディアプレイヤ３０４によって再生され得る。コンテンツソースは、例えば、リモート音声認識サービス３２１および／またはリモートコンテンツソース３０８に配置されることができ、そのどちらもユーザのローカルエリアネットワークを介して、またはインターネットを介してアクセス可能である。

[0041]ＶＣＭＤ３００は、ユーザ発話３０５の詳細と、例えばＴＶ−ＡＶＲシステム３０３が現在オンまたはオフのどちらかなど、ＴＶ−ＡＶＲシステム３０３の現在の状態との両方に応じて、ユーザ要求コンテンツをＶＣＭＤ３００の内部スピーカ３０９またはＴＶ−ＡＶＲシステム３０３のいずれかにルーティングするように構成される。ＶＣＭＤ３００がユーザ要求のコンテンツをスピーカ３０９またはＴＶ−ＡＶＲシステム３０３のいずれかにルーティングする機能は、ＶＣＭＤ３００が、そうでない場合は促進するために２つの別のデバイスが必要となる２つのモードで動作することを可能にするので、本明細書では「デュアルモード機能」と呼ばれる。第１のモードでは、ＶＣＭＤ３００は、音声のみの出力を含む音声再生音声制御デバイスのように動作することができる。第２のモードでは、ＶＣＭＤ３００は、１つまたは複数のディスプレイ（例えば、ＴＶ）に動作可能に結合されるストリーミングデジタルメディアプレイヤとして動作することができ、音声制御されたリモートによって操作され得る。

[0042]本明細書で使用される場合、オン電源状態およびオフ電源状態という用語は、ＴＶ−ＡＶＲシステムの１つまたは複数の構成要素の電源状態を指す。例えば、オン電源状態は、テレビの画面でコンテンツを視聴するために必要なすべての構成要素に電力が供給されている状態を指す。同様に、オフ状態は、テレビが最初にオン状態にある場合に、ユーザが電源スイッチをトグルで切り替えるときに発生するテレビの電源状態である。したがって、「オフ状態」という用語は、テレビのディスプレイの電源を切ることができる非給電状態および／またはいわゆるスタンバイ状態の両方を含むことができるが、テレビ内の他のいくつかの限られた数の構成要素は依然として電力を受け取っている。例えば、スタンバイ状態では、テレビ構成要素のサブセットがＣＥＣ制御コマンドを聞き取っている可能性があり、「テレビをオンにする」ＣＥＣコマンドに関連付けられたＨＤＭＩ（登録商標）データが受信されると、テレビはオフ状態からオン状態に切り替えられ得る。

[0043]本明細書で使用する場合、「フォーカスされている」および「フォーカスされていない」という用語は、ＴＶ−ＡＶＲシステムの状態、特にアクティブなＡＶ入力ポートがＶＣＭＤに設定された状態で、ＴＶ−ＡＶＲシステムの電源がオンになっているかどうかを指す。例えば、図３に示されるシステムにおいて、ＴＶ−ＡＶＲシステム３０３は、ＴＶ、コンピュータモニタ、ＤＬＰプロジェクタなどのような音声ビデオディスプレイデバイス、および１つまたは複数の外部スピーカを備えたＡＶＲを含むと想定されたい。さらに、ＶＣＭＤ３００（ＶＣＭＤ＿ＯＵＴ＿１）のＡＶ出力ポートが、ＨＤＭＩ（登録商標）を介してＡＶＲ（ＡＶＲ＿ＩＮ＿１）の入力ポートに接続され、次いでＡＶＲ（ＡＶＲ＿ＯＵＴ＿１）の出力ポートが、ＴＶ（ＴＶ＿ＩＮ＿１）の入力ポートに接続され、すなわち、システム全体のＨＤＭＩ（登録商標）接続は、ＶＣＭＤ＿ＯＵＴ＿１→ＡＶＲ＿ＩＮ＿１→ＡＶＲ＿ＯＵＴ＿１→ＴＶ＿ＩＮ＿１として記述され得ると想定されたい。この接続トポロジでは、「フォーカスされている」と見なされるには、ＡＶＲのアクティブな入力ポートをＡＶＲ＿ＩＮ＿１に設定すべきであり、ＡＶＲのアクティブな出力ポートをＡＶＲ＿ＯＵＴ＿１に設定すべきであり、ＴＶのアクティブな入力ポートをＴＶ＿ＩＮ＿１に設定すべきである。このような場合、ＴＶおよびＡＶＲの両方の電源設定がオン状態に設定されていれば、ＶＣＭＤは「フォーカスされている」と見なすことができる。一方、ＡＶＲまたはＴＶのいずれかが電源オフ状態に設定されている場合、ＶＣＭＤは「フォーカスされていない」と見なすことができる。同様に、ＴＶとＡＶＲの両方が電源オン状態であるが、ＴＶ−ＡＶＲシステム構成要素のいずれかの現在アクティブな入力／出力ポートがＶＣＭＤ＿ＯＵＴ＿１→ＡＶＲ＿ＩＮ＿１→ＡＶＲ＿ＯＵＴ＿１→ＴＶ＿ＩＮ＿１以外に設定されている場合、その時ＶＣＭＤは、やはり「フォーカスされていない」と見なすことができる。以下でより詳細に説明するように、ユーザの発話がＴＶ−ＡＶＲシステムでコンテンツを再生したいという意志を示唆する場合、ＶＣＭＤは適切な制御信号を提供して、例えばＩＲＬＥＤ３１１および／またはＨＤＭＩ（登録商標）ポート３０１を介して、ＶＣＭＤ３００を「フォーカスされていない」状態から「フォーカスされている」状態に移動させることができ、そのような制御信号は、一般に、オン／オフ制御信号ならびにアクティブ入力切り替え／アクティブ化信号を含むことができる。

[0044]図３に戻ると、ＶＣＭＤ３００は、マイクロフォンシステム３１３および入力音声処理システム３１５を含む音声入力部を含むことができる。マイクロフォンシステム３１３は、ＶＣＭＤ３００が、例えばマルチマイクロフォンビーム形成技術を使用することによって、さもなければ騒々しい部屋でユーザを見つけることを可能にするように協働するマイクロフォンの配置を採用するマイクロフォンアレイシステムであり得る。マイクロフォンシステム３１３はまた、例えば、エコー消去をもたらす検出スキームによって、検出された音声信号の品質を改善するために協働することができる。特定の実施形態によるマイクロフォンシステム３１３内のマイクロフォンの１つの可能な配置は、図１３を参照して以下でさらに詳細に説明される。

[0045]ＶＣＭＤ３００の音声入力部は、マイクロフォンシステム３１３から音声信号を受信し、追加の信号処理を実行する入力音声処理システム３１５をさらに含む。加えて、音声処理システムは、マイクロフォンアレイのビーム形成およびエコー消去機能を制御することができる。入力音声処理システム３１５は、本明細書ではマイクロフォン信号とも呼ばれるマイクロフォンシステム３１３から音声入力信号を受信し、ウェイクワードが、マイクロフォンシステム３１３によって受信された音声入力内に存在したかどうかを検出するように構成されるウェイクワード検出サービスもまた含む。入力音声処理システム３１５は、ウェイクワードの検出時に、ユーザ発話に関連する音声入力を捕捉し、例えば、本明細書では発話データとも呼ばれるＰＣＭデータなどのデジタル音声データの形態で、それをデジタル化できる音声捕捉サブシステム３１７を含む。

[0046]入力音声処理システム３１５は、マイクロフォンシステム３１３の１つまたは複数のマイクロフォンからマイクロフォン信号を受信することができ、マイクロフォン信号のコンテンツに基づいて、ＴＶ−ＡＶＲシステムの状態を決定できる状態モニタサブシステム３１９を有するデバイスコントローラ３２５をさらに含む。例えば、ＶＣＭＤ３００は、音声プローブ信号をＴＶ−ＡＶＲシステムの１つまたは複数のスピーカに送信することができ、ＶＣＭＤが現在オン／オフになっているかどうか、またはＴＶ−ＡＶＲシステムにフォーカスされているか／フォーカスされていないかどうかを決定する努力の中で、状態モニタサブシステム３１９は、プローブ信号がマイクロフォン信号に存在するかどうかを決定するために使用することができる。

[0047]ＶＣＭＤ３００はさらに、ＶＣＭＤ３００のサブシステム間の１つまたは複数の対話を調整でき、またＶＣＭＤ３００と１つまたは複数の外部システムとの対話を調整できる音声対話マネージャ（ＳＩＭ）３２０を含む。特定の実施形態によれば、ＳＩＭ３２０は、アマゾンアレクサなどのクラウドベースの音声認識サービス（ＶＲＳ）３２１とデータを交換することができる。ＳＩＭ３２０はまた、本明細書ではＴＶ−ＡＶＲシステム「コンテキスト」とも呼ばれる、ＴＶ−ＡＶＲシステムの現在の状態を取得するために、デュアルモードコントローラ（ＤＭＣ）３２４と調整することもできる。例えば、ユーザ発話３０５に応答して、ＳＩＭ３２０は、ＴＶ−ＡＶＲシステム状態についてＤＭＣ３２４に問い合わせることができる。次に、ＤＭＣ３２４は、システム状態を提供することができ、またはそれをデバイスコントローラ３２５から取得することができる。ＳＩＭ３２０は、ＴＶ−ＡＶＲシステム状態を受信した後、ＴＶ−ＡＶＲシステム状態および発話データの両方を含むイベントメッセージ３２２をＶＲＳ３２１に送信することができる。次に、ＶＲＳ３２１は、複数の音声処理技術を使用して、ユーザ発話データからユーザの意図を識別することができる。

[0048]特定の実施形態によれば、ＶＲＳ３２１は、複数の音声認識サービス、自然言語処理（ＮＬＰ）サービス、自然言語理解（ＮＬＵ）サービスなどを実行する１つまたは複数のリモートサーバコンピュータであり得る。特定の実施形態によれば、クラウドベースのシステムではなく、ＶＲＳ３２１は、ＶＣＭＤの内部であることができる。ＶＲＳ３２１は、発話データに対して自動音声認識（ＡＳＲ）を実行し、認識結果データを生成することができ、それにより、ＰＣＭデータを発話の単語を表すテキスト文字列に変換する。次に、認識結果データは、ＶＲＳ３２１内のＮＬＵモジュール（図示せず）に渡され、そこで、ＮＬＵ処理が、認識結果データからユーザの意図を決定するように適用される。次に、ＶＲＳ３２１は、決定されたユーザの意図と現在のＴＶ−ＡＶＲ状態の両方を取得し、ＳＩＭ３２０に送り返されるディレクティブのセットとして構造化され得るデジタル応答データ３２３を生成する。

[0049]以下でより詳細に説明するように、ディレクティブは、ＶＣＭＤ３００の構成要素が、ＶＲＳ３２１によって決定されるユーザの意図に応じてコンテンツを提供できるようにするコンテンツ、命令、コマンド、またはその他のデータを表すコマンドおよび／またはデータのセットを含むことができる。例えば、ディレクティブは、要求されたコンテンツがビデオコンテンツであることを示す、本明細書ではＴＶ−ＡＶＲ要求表示と呼ばれるデータ要素を提供するデータを含むことができる。ディレクティブは、ＴＶをオンにしてＴＶのアクティブ入力をＶＣＭＤ３００に設定する命令を含むデバイス制御ディレクティブを含むこともできる。加えて、ディレクティブは、ユーザの発話に応答してＶＲＳ３２１によって生成されるテキスト／スピーチ（ＴＴＳ）音声データなどの埋め込みコンテンツを含むことができる。例えば、「アレクサ、Ｉｎｔｅｒｓｔｅｌｌａｒを再生して」という発話に応答して、ＶＲＳ３２１は「オッケー、こちらがＩｎｔｅｒｓｔｅｌｌａｒです」などの応答を含むＴＴＳ音声ファイルを生成できる。

[0050]ディレクティブ内に埋め込まれたコンテンツは、ＴＶ−ＡＶＲシステム３０３で再生されるメディアを表す１つまたは複数のメディアペイロード、例えば、ＴＶ−ＡＶＲシステム３０３の画面に表示されるカードなどの１つまたは複数のビジュアルグラフィックスに関連付けられたデータを含むこともできる。場合によっては、ディレクティブは、メディアプレイヤモジュール３０４内のメディアプレイヤに起動させ、ＵＲＬにあるコンテンツのストリーミングを開始するように命令するＵＲＬなどのコンテンツソース位置識別子と組み合わせた再生命令を含むこともできる。

[0051]特定の実施形態によれば、以下で図４〜図９を参照してさらに詳細に説明するように、ＳＩＭ３２０は、ディレクティブのセットを実行し、ＤＭＣ３２４と１つまたは複数のメッセージを交換して、どの出力箇所（ＶＣＭＤ内部スピーカ３０９またはＴＶ−ＡＶＲシステム３０３）が使用されるべきかを調整することができる。

[0052]特定の実施形態によれば、ディレクティブ３２３は、要求されたコンテンツがビデオコンテンツである、またはビデオコンテンツではないという、本明細書ではＴＶ−ＡＶＲ要求表示と呼ばれる表示を含むことができる。この表示は、例えば、「ＶＩＤＥＯ」または「ＡＵＤＩＯ」を読み取る文字列などのデータ要素、または要求されたコンテンツの性質を識別するのに適したその他のデータ型の形態を取ることができる。本明細書で使用する用語「ＴＶ−ＡＶＲ要求」は、ＴＶ画面でビデオを再生するユーザ要求を含む発話だけでなく、ＴＶ−ＡＶＲシステムの高品質スピーカで高品質の音声コンテンツ（音楽など）を再生するユーザ要求を含む発話も指す。いくつかの実施形態では、発話は、発話の言語によって１）要求されたコンテンツが必然的にビデオコンテンツであるためにビデオ出力を必要とする場合、２）高品質の音声コンテンツへの要求を意味する場合、３）ネイティブＶＣＭＤ対話を意味する場合、または４）発話の言語が、要求された出力がビデオであることを意味する場合のＴＶ−ＡＶＲ要求を含むディレクティブを引き起こす可能性がある。

[0053]上記の場合１）の例として、発話は、発話における言語の意味に従って、他の可能な出力モダリティが可能ではない状況でビデオ出力を要求すると決定され得る。例えば、「アレクサ、高い城の男を観察して」または「アレクサ、高い城の男を演じて」などの発話には、ビデオコンテンツ、テレビ番組「高い城の男」への明確な参照を含む。同様に、「アレクサ、ＹｏｕＴｕｂｅ（登録商標）で猫の動画を再生して」などの発話には、動画コンテンツ、猫の動画、および動画コンテンツのみを提供するコンテンツソースであるＹｏｕＴｕｂｅ（登録商標）が必要である。

[0054]上記の場合２）の例として、ＴＶ−ＡＶＲ要求は、「アレクサ、９０年代のロックミュージックを再生して」など、高品質のスピーカから音楽を聞きたいというユーザの要望に基づいて識別され得る。この場合、目的のコンテンツは音楽であるため、ＶＣＭＤはこの要求をＴＶ−ＡＶＲ要求として解釈することができる。いくつかの実施形態では、これらのスピーカは、ＶＣＭＤの内部スピーカに優れた音声品質を提供できるため、ＶＣＭＤは、ＴＶ−ＡＶＲスピーカを通して音楽固有のＴＶ−ＡＶＲ要求を再生することをデフォルトにすることができる。それに比べて、「アレクサ、私のＴｏ−Ｄｏリストを再生して」などの発話は、要求された音声をＴＶ−ＡＶＲシステムの高品質スピーカで再生する必要がないため、ＴＶ−ＡＶＲ要求として解釈されないであろう。加えて、ユーザは、ＴＶ−ＡＶＲシステムがオンになり、ＶＣＭＤがフォーカスされるのを待ってから、Ｔｏ−Ｄｏリストの音声を聞くことを望まない場合がある。したがって、このタイプのシナリオでは、ＶＣＭＤの内部スピーカを使用して、要求された音声の再生をできるだけ早く開始するようにＶＣＭＤは構成され得る。

[0055]上記を考慮して、音楽固有のＴＶ−ＡＶＲ要求の場合、ＶＣＭＤには、デフォルトの出力ソースを示す１つまたは複数のユーザ選好設定を含むことができる。例えば、ユーザが常に使用可能な最高品質の出力デバイスで音楽を再生したい場合、その時ユーザ選好設定は、ＶＣＭＤが音楽固有のＴＶ−ＡＶＲ要求をＴＶ−ＡＶＲスピーカにルーティングするように指定することができる。ただし、ユーザが音声品質よりも再生速度と信頼性を好む場合、ユーザは、ＶＣＭＤの内部スピーカを通して常に音楽固有のＴＶ−ＡＶＲ要求を再生するように選好を設定することができる。この機能のカテゴリは、図１１を参照して以下でさらに詳細に説明される。

[0056]上記のケース３）の例として、発話が、「私のウォッチリストへ移動して」や「パッセンジャーズ（Ｐａｓｓｅｎｇｅｒｓ）を借りて」など、本来のＶＣＭＤ相互作用の何らかの形態を暗示する場合、ＴＶ−ＡＶＲ要求を含むと決定され得る。これらの場合、システムは、何らかの形態の音声ビデオプラットフォームまたはサブスクリプションサービスに本質的に関連付けられているコンテンツにアクセスする必要がある可能性があり、または、それが完了され得る前に、例えばリモートなどのユーザ入力デバイスを介して、画面上に表示されるコンテンツとユーザが相互作用する必要があるユーザ入力／相互作用のいくつかの形態を意味する可能性がある。

[0057]上記の場合４）の例として、望ましい出力がビデオコンテンツであることを発話の言語が意味するため、ＴＶ−ＡＶＲ要求が識別され得る。このような場合では、発話内の特定の単語は、ビデオまたはビジュアルコンテンツを取得するユーザの意図に関連付けられていると認識され得る。例えば、ウェイクワードの後の発話では、「アレクサ、私の通勤を見せて」や「アレクサ、私のカレンダを見せて」のように「示す」という単語を使用できる。

[0058]ＶＣＭＤ３００はまた、デバイスコントローラ３２５も含む。デバイスコントローラ３２５は、様々なＴＶ−ＡＶＲシステムデバイスを監視し、それらの現在の状態を決定し、次いで状態をメモリに格納するか、または状態情報を定期的および／または非同期的にＤＭＣ３２４に送信することができる状態モニタ３１９を含む。加えて、デバイスコントローラ３２５は、ＶＣＭＤ３００の様々なデバイス相互接続、例えば、ＩＲＬＥＤ３１１および／またはＨＤＭＩ（登録商標）ポート３０１の監視／制御ブロック３０１ａを介して、ＴＶ−ＡＶＲシステムに送信され得るデバイス制御信号を生成できるデバイスコントロールサービスを含む。一般に、デバイスコントローラ３２５は、ユニバーサルリモコンと同様の方法でＩＲコントロール信号を生成することができ、ＣＥＣコマンドなどの形態でＨＤＭＩ（登録商標）制御信号を生成することもできる。当業者によって理解されるように、本開示の範囲から逸脱することなく、ＩＲおよびＣＥＣ制御に加えて、多くの異なるタイプの制御信号およびチャネルが可能である。

[0059]ＶＣＭＤ３００はまた、ＳＩＭ３２０およびＤＭＣ３２４の両方から音声およびビデオデータおよび／またはコマンドを受信することができるスピーカコントローラ３２７およびビデオコントローラ３０２を含む。スピーカコントローラ３２７は、音声コンテンツに関連するデータを受信し、ＶＣＭＤ３００の内部スピーカ３０９および／またはＨＤＭＩ（登録商標）ポート３０１の音声サブブロック３０１ｃに音声信号を提供するインターフェースハードウェアおよびソフトウェアを含むことができる。

[0060]特定の実施形態によれば、スピーカコントローラ３２７は、ＶＲＳ３２１から、またはクラウドベースのストリーミング音楽サービスなどの外部音声コンテンツソース３０８から音声データを供給することができる。例えば、「アレクサ、今日の天気予報は？」のようなユーザの発話の場合、音声応答データは、ＶＲＳ３２１によって生成され、１つまたは複数の音声ディレクティブとしてＶＣＭＤ３００に送信される。この特定の例では、ＳＩＭ３２０は、デュアルモードコントローラ３２４に、この比較的低品質の音声（天気予報）をＶＣＭＤの内部スピーカ３０９にルーティングするようにスピーカコントローラ３２７に命令させるディレクティブのセットを実行する。他の音声データもまた、発話に応答してＶＲＳ３２１によって生成されるＴＴＳ応答などの応答データと共に送信され得る。

[0061]「アレクサ、音楽を再生して」のような発話などの他の例では、ＶＲＳ３２１は、ＳＩＭ３２０に渡される音楽再生ディレクティブを含むことができる。次に、ＳＩＭ３２０は、音声プレイヤを起動させ、ストリーミング音楽サービスなどのリモートコンテンツソース３０８に接続させる、１つまたは複数のメッセージをメディアプレイヤモジュール３０４に送信することができる。次に、音楽ストリームは、音声プレイヤによってスピーカコントローラ３２７に提供される。この場合、音声データは音楽を表すので、スピーカコントローラ３２７は、ＴＶ−ＡＶＲシステム３０３に動作可能に接続されている外部スピーカに音声信号を転送する。例えば、スピーカコントローラ３２７は、ＨＤＭＩ（登録商標）３０１の音声サブブロック３０１ｂを介して適切に符号化された音声信号を送信することができる。

[0062]上記には示されていないが、ビデオコントローラ３０２は、ＶＲＳ３２１またはコンテンツソース３０８のいずれかからビデオコンテンツを供給することができ、加えて、ＳＩＭ３２０は、例えば、ビデオサブブロック３０１ｃを介してＨＤＭＩ（登録商標）ポート３０１の１つまたは複数のビデオデータラインにコンテンツを直接提供することができる。例えば、「アレクサ、天気を教えて」などの発話の場合、ＶＲＳ３２１からの応答データは、テレビ画面に表示される１つまたは複数のカードを含む、関連付けられたビデオデータに対応する視覚的なディレクティブを含むことができる。したがって、この場合、ＳＩＭ３２０は、ＨＤＭＩ（登録商標）ポート３０１と直接通信することができる。「アレクサ、ＮｅｔｆｌｉｘでＴｈｅＣｒｏｗｎを再生して」のような発話などの他の例では、ＶＲＳ３２１からの応答データはビデオ再生ディレクティブを含むことができる。この場合、ビデオ再生ディレクティブにより、ＳＩＭ３２０は、メディアプレイヤモジュール３０４にＮｅｔｆｌｉｘメディアプレイヤを起動し、リモートＮｅｔｆｌｉｘコンテンツソースに接続して、ビデオコンテンツのストリーミングを開始するように命令する。

[0063]図４〜図７は、例えば、図３を参照して上記で示し、説明したＶＣＭＤ３００など、特定の実施形態によるＶＣＭＤの動作方法をさらに例示するシーケンス図を示す。より具体的には、シーケンス図は、ＶＣＭＤの様々なサブシステム間の相互作用を示す。異なるシーケンス図のそれぞれは、ユーザの発話の性質、および発話を受信する時点でのＴＶ−ＡＶＲシステムの状態に応じて、サブシステムがどのように相互作用するかの例を示す。図４に示す例では、ＴＶ−ＡＶＲシステムはＴＶであると想定されている。これらのシーケンス図は、単に例として本明細書に提供されており、当業者の一人は、ユーザ発話、トポロジ、およびＴＶ−ＡＶＲシステムの現在の状態に応じて、多くの異なるシーケンスが可能であることを理解するであろう。

[0064]図４は、非ＴＶ−ＡＶＲ要求、およびオフ状態または不明状態のいずれかにある初期ＴＶ−ＡＶＲシステム状態を含む発話の場合について例示的なシーケンス図を示す。非ＴＶ−ＡＶＲ要求の例には、「アレクサ、天気予報は？」などの発話を含む。このタイプの非ＴＶ−ＡＶＲ要求について、ユーザの意図は、ＴＶ−ＡＶＲシステムが最初にオフになっている場合、ＶＣＭＤをオンにしないことであると想定される。その代わりに、ＶＣＭＤは要求された音声をＶＣＭＤの内部スピーカに転送する。場合によっては、非ＴＶ−ＡＶＲ要求が、例えば、様々な気象関連データを示す１つまたは複数のカードのディスプレイなどのデフォルトのビデオコンテンツと対になることができることに留意されたい。ただし、要求のＴＶ−ＡＶＲ以外の性質のために、ＴＶ−ＡＶＲシステムが既にオンになっている場合、ＴＶ−ＡＶＲシステムはそのようなビデオのみを表示する。別の言い方をすると、非ＴＶ−ＡＶＲ要求への応答は、純粋な音声である必要はない。ただし、応答が音声およびビデオを含まない場合、ＶＣＭＤのいくつかの実施形態は、ＴＶ−ＡＶＲシステムが既にオンになっている場合にのみ、ビデオを表示するように構成され得る。この方法で（ＴＶ−ＡＶＲシステムの状態に関係なく）ビデオコンテンツを送信すると、ＴＶ−ＡＶＲの状態が誤って報告された場合の不快なユーザ体験の問題を軽減するのに役立つ。

[0065]ここで図４のシーケンス図に戻ると、最初に、図３に示される入力音声処理システム３１５上で実行している検出サービスであり得るウェイクワードサービスは、マイクロフォンによって検出される周囲音声の中のウェイクワードの存在を検出する。ウェイクワードの検出に応答して、ウェイクワードサービスは、新しい発話が検出中であることをＳＩＭに通知する。この通知に応じて、ＳＩＭは音声ビデオの電源状態ステータス要求をＤＭＣに送信して、ここでは「デバイス状態を入手せよ」というメッセージとして示される、現在のＴＶ−ＡＶＲシステム状態を取得する。いくつかの実施形態では、ＤＭＣは、デバイス状態の現在の記述を格納するように構成される。デバイス状態は、デバイスコントローラによって提供される状態情報に応答して定期的に更新され得る。特定の実施形態によれば、デバイスコントローラは、定期的なメッセージを介して定期的にＤＭＣにデバイス状態を提供することによってこれを達成することができる。別法として、ＤＭＣからの要求に応答して、デバイスコントローラによって非同期でデバイスの状態が提供され得る。

[0066]図４に示す特定の例に戻ると、デバイスコントローラは、ＴＶが電源オフ状態または不明状態のいずれかであるとデバイスコントローラが決定したため、ＴＶ＜オフ｜不明＞のデバイス状態をＤＭＣに提供する。

[0067]ＤＭＣは、デバイスコントローラから現在のデバイス状態情報を受信すると、次いで、Ｓｅｔ＿Ｄｅｖｉｃｅ＿ＣｏｎｔｅｘｔメッセージをＳＩＭに送信して、ＴＶがオフまたは不明の状態であることを示すＤｅｖｉｃｅ＿Ｃｏｎｔｅｘｔを作成するようにＳＩＭに命令する。次に、ＳＩＭは、Ｄｅｖｉｃｅ＿Ｃｏｎｔｅｘｔ、および発話データを含むＰＣＭ音声ストリームの両方をＶＲＳに提供する。上述のように、ＶＲＳはＤｅｖｉｃｅ＿ＣｏｎｔｅｘｔおよびＰＣＭ情報を取得し、例えば、ディレクティブ［Ｄ_１、Ｄ_２、．．．、Ｄ_ｎ］などのディレクティブのセットを生成することができる。特定の実施形態によれば、ディレクティブは、コマンドのリストならびに１つまたは複数の音声および／またはビデオデータの形態を取ることができる。この例では、ディレクティブは、天気予報を示す１つまたは複数のカードから構成されるビデオを再生するコマンドを含み、ＶＣＭＤの内部スピーカでＴＴＳ応答を再生する命令もまた含む。いくつかの実施形態では、ＴＴＳ応答は、ユーザの発話に対するＶＲＳの応答を表す、事前にレンダリングされたＰＣＭ音声の一部として、ディレクティブ内に渡すことができる。

[0068]ディレクティブのセットの受信に応答して、ＳＩＭはディレクティブをＤＭＣに渡し、ＤＭＣに、ディレクティブに従って相互作用するように命令する。いくつかの実施形態では、ＤＭＣは、ディレクティブに含まれる情報に基づいて出力ソースを決定できるロジックでプログラムされることができ、またはＶＲＳは、ディレクティブ自体に出力ソースを含むことができる。

[0069]この場合、これはＴＶ−ＡＶＲ以外の要求であり、ＴＶ−ＡＶＲの状態はＴＶ＜オフまたは不明＞であるため、デバイス制御ロジックは、その制御ターゲットを＜内部スピーカ＞に設定して、ＴＴＳまたは要求された音声が、ＶＣＭＤの内部スピーカで再生される予定であることを示すようにＤＭＣに命令することができる。

[0070]次に、ＳＩＭは、Ｐｌａｙ＿ＴＴＳメッセージをスピーカコントローラに送信して、ＴＴＳ音声の再生を開始するようスピーカコントローラに命令することができる。例えば、「天気は？」などの発話の場合、ＴＴＳ音声は「今日の天気予報は．．．です」のようになり得る。Ｐｌａｙ＿ＴＴＳメッセージに応答して、スピーカコントローラはＧｅｔ＿Ｃｏｎｔｒｏｌ＿ＴａｒｇｅｔメッセージをＤＭＣに送信し、Ｃｏｎｔｒｏｌ＿Ｔａｒｇｅｔ変数について現在の値を取得し、要するにＴＴＳ音声をどの出力システムで再生すべきかをＤＭＣに尋ねる。Ｇｅｔ＿Ｃｏｎｔｒｏｌ＿Ｔａｒｇｅｔメッセージに応答して、ＤＭＣは＜Ｃｕｒｒｅｎｔ＿Ｃｏｎｔｒｏｌ＿Ｔａｒｇｅｔ＞メッセージをスピーカコントローラに送信して、現在選択されている出力デバイスのスピーカコントローラに通知することができる。この場合、ＶＣＭＤの内部スピーカが現在の制御対象であるため、それでＤＭＣはスピーカコントローラに内部スピーカを出力デバイスとして使用するように命令する。次いでスピーカコントローラは、ＶＣＭＤの内部スピーカでＴＴＳ音声を再生する。

[0071]上記のように、いくつかの非ＴＶ−ＡＶＲ要求は、ＴＶの状態に関係なく、付随するビデオを含むことができる。図４はそのような例を示しており、したがってスピーカコントローラが内部スピーカでＴＴＳ音声を再生した後、ＳＩＭはＨＤＭＩ（登録商標）ポートにビデオデータを送信させることができる。図４に示される特定のケースでは、ＴＶはオフであり、したがって、ビデオコンテンツは表示から隠される。しかしながら、ＴＶの状態が誤って報告された場合、ビデオデータが表示されるため、したがってＴＶ−ＡＶＲの状態が誤っている可能性がある場合、全体的なユーザ体験を向上させる。この開示の利点を有する当業者によって理解されるように、本開示の範囲から逸脱することなく、非ＴＶ−ＡＶＲ要求に応答して視覚的ディレクティブが送信されない代替構成が存在し得る。

[0072]図５は、オンである非ＴＶ−ＡＶＲ要求および初期ＴＶ−ＡＶＲシステム状態を含む発話の場合について例示的なシーケンス図を示す。シーケンスは、概ね図４を参照して上記に説明されるように進行する。ただし、テレビは既にオン状態になっているため、ＤＭＣはそのコントロールターゲットを＜内部スピーカ＞ではなく、＜ＨＤＭＩ（登録商標）＞に設定する。その結果、スピーカコントローラはＴＴＳ音声をＶＣＭＤのＨＤＭＩ（登録商標）ポートに転送し、ＴＴＳはＴＶスピーカで再生される。加えて、テレビは既にオン状態であるので、発話に関連するビデオデータがあれば、テレビに表示され得る。いくつかの実施形態では、ディレクティブ自体はビデオデータを含むことができ、他の実施形態では、ディレクティブは、外部ソースからコンテンツを取得するための命令を伴うＵＲＬを含むことができる。

[0073]図６は、ＴＶ−ＡＶＲ要求を含む発話、すなわち、ユーザの意図がビデオコンテンツを見ること、およびオフまたは未知である初期のＴＶ−ＡＶＲシステム状態（例えば、ＴＶは最初はオフ電源状態である）の場合、例示的なシーケンス図を示す。シーケンスは最初は図４〜図５のように進行するが、この場合、ＴＶは最初はオフになっているため、ＶＲＳは、要求されたビデオコンテンツを再生するためにＴＶをオンにするようにＶＣＭＤに命令する。したがって、ＶＲＳからの応答は、ＴＶをオンにするためのＶＣＭＤへの命令を含む追加のＤｅｖｉｃｅ＿Ｃｏｎｔｒｏｌディレクティブを含む。上記と同様に、ディレクティブは、ユーザの発話を表す音声入力データに基づいてＶＲＳによって生成される応答データである。ディレクティブがＶＲＳからＳＩＭに渡されると、ＶＣＭＤとＴＶ−ＡＶＲシステムの１つまたは複数の構成要素との相互作用が開始する。

[0074]ディレクティブはこれがＴＶ−ＡＶＲ要求であることを示しているため、ＤＭＣは、ＴＶのＨＤＭＩ（登録商標）入力にビデオを提供する準備として、ＣｏｎｔｒｏｌＴａｒｇｅｔをＨＤＭＩ（登録商標）に設定する。次に、ＳＩＭはＴＶをオンにする命令とともにＤｅｖｉｃｅＣｏｎｔｒｏｌディレクティブをＤＭＣに送信する。ＴＶがオンになるプロセス中であることをユーザに通知するために、次いでＳＩＭはＶＣＭＤの内部スピーカで、ハンドオーバテキスト読み上げ（ＨＯＴＴＳ）応答メッセージの再生をトリガーする。例えば、「アレクサ、Ｉｎｔｅｒｓｔｅｌｌａｒを再生して」などの発話に応答して、ＶＣＭＤは「オッケー、それをテレビで再生します」と述べるＴＴＳ応答を生成することができる。いくつかのＴＶ−ＡＶＲシステムでは、ＶＣＭＤがＴＶ−ＡＶＲシステムを適切な再生状態にするのに数秒から数十秒かかる可能性があり、ユーザに通知されない場合は、この時間に何が起こっているのか、かつシステムが応答しているかどうかをユーザは疑問に思う可能性があるので、そのようなハンドオーバ音声メッセージはユーザ体験を改善できる。いくつかの実施形態では、ＨＯＴＴＳメッセージは、ＶＣＭＤによって生成され、ＶＣＭＤに格納され、ＴＶ−ＡＶＲシステムの初期状態に基づいてトリガーされる。例えば、発話にＴＶ−ＡＶＲ要求が含まれ、ＴＶ−ＡＶＲシステムがオフ状態であることをディレクティブが示している場合、ＶＣＭＤのＳＩＭにより、ＶＣＭＤの内部スピーカでＨＯＴＴＳメッセージが再生される。他の例では、ＨＯＴＴＳをディレクティブの形式でＶＲＳから渡すことができる。

[0075]図６に戻って、ＴＶの電源を入れることを開始するために、ＤＭＣは、最初に、ここではＴｕｒｎ＿Ｏｎ＿ＴＶコマンドとして示される、電源状態コマンドおよび／またはＡＶ入力状態コマンドをデバイスコントローラに送信する。この段階で、デバイスコントローラは、ＴＶ−ＡＶＲシステムのトポロジおよび初期状態に応じて、複数の様々なコマンドを送信できる。例えば、デバイスコントローラはＩＲおよび／またはＨＤＭＩ（登録商標）ＣＥＣコマンドをＴＶ−ＡＶＲシステムの１つまたは複数の構成要素に送信して、まだフォーカスされていない場合、ＶＣＭＤはフォーカスされていることを確認できる。Ｔｕｒｎ＿Ｏｎ＿ＴＶコマンドを送信した後、ＤＭＣはＰｅｎｄｉｎｇＴＶＮｏｔｉｆｉｃａｔｉｏｎ（テレビ通知保留）メッセージをＳＩＭに送信して、電源オンプロセスが開始されたことをＳＩＭに通知できる。

[0076]次に、ＳＩＭは残りのディレクティブを待ち行列に入れ、デバイスコントローラがＴＶ−ＡＶＲシステムをオンにし、ＶＣＭＤシステムにフォーカスを移すために必要な動作を実行するのを待つ。電源オンプロセスが完了すると、デバイスコントローラはＳＩＭに応答を送信し、ここでＴＶがオン状態になっていることを示す。応答が受信されると、シーケンスは図４〜図５で既に説明したように進行する。

[0077]図７は、ＴＶ−ＡＶＲ要求およびオン状態にある初期ＴＶ−ＡＶＲシステム状態を含む発話の別の例を示す。シーケンスは通常、図６のように進行するが、この場合、ウェイクワードを検出すると、ＳＩＭはデバイスコントローラにテレビ音声をミュートするよう命令する。テレビ音声をミュートするために、デュアルモードコントローラは、ＴＶ−ＡＶＲシステムの現在のアクティブな入力状態を調べ、例えばＩＲを介してミュートコマンドを送信して、ＴＶをミュートするか、またはＶＣＭＤに音声フォーカスを取得するように要求を送信する。より具体的には、ＴＶ−ＡＶＲシステムの現在アクティブな入力がＶＣＭＤでない場合、これは、ユーザが他の何らかの入力デバイスからのＴＶコンテンツを見ていることを示している。この場合、デュアルモードコントローラはデバイスコントローラに対して、ミュートコマンドをＩＲを介して、またはＨＤＭＩ（登録商標）ＣＥＣコマンド（サポートされている場合）を介して、ＴＶに送信するように命令する。次に、プロセスは図６で考察したように概ね進行する。ディレクティブがすべて処理され、新しいビデオデータを再生する準備ができると、ＳＩＭはミュート解除コマンド要求をデュアルモードコントローラに送信し、デュアルモードコントローラは適切なメッセージをテレビまたはメディアプレイヤ（ＩＲまたはＨＤＭＩ（登録商標）を介して）に送信して、ミュート解除し、または音声フォーカスを解除する。

[0078]他のケースでは、発話が受信された場合に、ＴＶ−ＡＶＲシステムの現在のアクティブな入力はＶＣＭＤであり、これはユーザがＶＣＭＤからＴＶコンテンツをストリーミングしていることを示す。この場合、ＩＲ／ＨＤＭＩ（登録商標）ミュートコマンドは使用されないが、しかし音声フォーカス要求コマンドが使用される。一般に、音声フォーカス要求コマンドは、適切なアプリケーションに音声をミュートする／それらの音声を回避するよう通知する。例えば、ユーザが現在アマゾンプライムビデオから映画をストリーミングしている場合、デュアルモードコントローラからの音声フォーカス要求コマンドにより、デバイスコントローラがメディアプレイヤでの再生を一時停止することができる。上記と同様に、メディアプレイヤが一時停止されると、ＳＩＭは残りのディレクティブを実行し、次いで最終的にミュート解除要求コマンドをデュアルモードコントローラに送信する。次に、デュアルモードコントローラは音声フォーカス解除コマンドをデバイスコントローラに送信し、最終的に、デバイスコントローラが要求されたコンテンツを再生するために必要なステップを実行する。

[0079]図８〜図１１は、本開示の例によるＶＣＭＤの動作を概念的に示すフローチャートであり、ユーザの意図を実現するためにＶＣＭＤの１つまたは複数のコントローラによって適用されるロジックに重点を置く。いくつかの例によれば、ＶＣＭＤは「デュアルモード」デバイスとして動作でき、デュアルモードロジックでプログラム可能である。本明細書で使用する「デュアルモードデバイス」という用語は、少なくとも１つの２つの異なる出力システムで音声を再生できるＶＣＭＤ、すなわちＶＣＭＤの内部スピーカおよびＴＶ−ＡＶＲシステムの音声システム、例えば、ＴＶスピーカおよび／またはＴＶ−ＡＶＲシステムの１つまたは複数の外部スピーカを指す。上記のように、ＶＣＭＤのデュアルモードロジックは、２つの入力、１）ＶＣＭＤのマイクロフォンで受信されたユーザ発話から決定されたユーザの意図、２）ＴＶ−ＡＶＲシステム、例えば、テレビおよび／または音声−ビデオ受信機に接続されているテレビの状態（電力および／またはＡＶ入力の両方）に少なくとも部分的に基づいて、どちらの出力システムが要求された音声を再生すべきかを決定できる。特定の実施形態によれば、使用されるＨＤＭＩ（登録商標）プロトコルおよび／またはマイクロフォンアレイの正確なデバイス構成および制限に応じて、デバイス状態は確実に決定可能ではなく、むしろ一貫して「不明」状態である可能性がある。これらのタイプのシナリオでは、現在のデバイス状態を示す変更された音声発話を使用でき、および／またはデバイス状態を示すために１つまたは複数の他の信号を監視できる。いくつかの状況では、例えば、図４を参照して上述したように、ＶＣＭＤロジックを修正して、未知の状態を直接処理することができる。

[0080]図８から開始して、ステップ８１０で、ユーザ発話がＶＣＭＤのマイクロフォンで受信される。発話は通常、例えば、ＶＣＭＤによって検出されると、ユーザの音声コマンドが近づいていることをＶＣＭＤに示す「アレクサ」などのウェイクワードで始まる。例えば、ユーザの発話は、「アレクサ、ジャズミュージックを再生して」または「アレクサ、私のフラッシュブリーフィングを再生して」などの音声コンテンツを聞くユーザの意図を伝える発言であることができる。他の例では、ユーザの発話は、「アレクサ、私の買い物リストを見せて」または「アレクサ、私のフラッシュブリーフィングを教えて」など、ユーザのビデオコンテンツを見る意図を伝える発言であることができる。

[0081]ステップ８２０において、ＶＣＭＤは、ＶＣＭＤに動作可能に接続されているＴＶ−ＡＶＲシステムの電源状態を決定する。例えば、テレビはＶＣＭＤのＨＤＭＩ（登録商標）ポートを介して接続され得る。いくつかの例では、音声ビデオレシーバおよびテレビの両方、ならびに１つまたは複数の外部スピーカが接続され得る。適切なデバイス制御コマンドを生成して、ＴＶ−ＡＶＲシステムでユーザの発話の意図を実現するには、ＶＣＭＤがＴＶ−ＡＶＲシステムの電源状態を認識する必要がある。いくつかの実施形態では、ＴＶ−ＡＶＲシステムの状態は、ＨＤＭＩ（登録商標）ポートなどのＡＶ相互接続の１つまたは複数のピンから読み取ることができる信号を介して決定され得る。他の例では、ＴＶ−ＡＶＲシステムの状態は、ＡＶ相互接続を介してサブ可聴音声信号をＴＶ−ＡＶＲシステムに送信し、次に、サブ可聴信号をＶＣＭＤの１つまたは複数のマイクロフォンで聞くことによって決定され得る。いずれの場合も、１つまたは複数の実施形態は、音声ビデオ電源状態ステータス要求メッセージを開始して、状態検出プロセスを開始することができる。

[0082]ステップ８３０で、ＶＣＭＤは、発話音声データから、ユーザの意図を表すディレクティブのセットを決定する。いくつかの実施形態では、発話音声データは音声認識サービスに渡され、そこでユーザの意図を抽出し、ディレクティブのセットを構築するために、発話音声データに対して音声認識プロセスが実行され得る。図３〜図７を参照して上記で説明したように、ディレクティブは一連のコマンドであることができ、デジタル音声および／またはビデオデータを含む音声および／またはビデオディレクティブもまた含むことができる。ディレクティブは、例えば「ジャズミュージック」など、再生されるべきコンテンツ、および例えば、ユーザの意図がＴＶ−ＡＶＲ要求または非ＴＶ−ＡＶＲ要求を反映しているかどうかなど、要求に使用する予定の意図される出力システムの両方を示すことができる。いくつかの実施形態では、図３を参照して上記でも説明したように、音声認識プロセスは、１つまたは複数の音声認識サーバを含む外部音声認識システムで、ＶＣＭＤからリモートで実行され得る。他の実施形態では、音声認識プロセスの全部または一部は、ＶＣＭＤでローカルに実行され得る。

[0083]ステップ８４０では、ＴＶ−ＡＶＲシステムの状態に基づいて、ＶＣＭＤによって決定が行われる。ＴＶ−ＡＶＲシステムがオフ状態にある場合、方法は、図４を参照して以下でさらに詳細に説明されるように進行する。ＴＶ−ＡＶＲシステムがオン状態にある場合、方法は、図５〜図６を参照して以下でさらに詳細に説明されるように進行する。

[0084]ＴＶ−ＡＶＲシステムの最初の電源オフ状態でのデュアルモードの動作
ＶＣＭＤが、ＴＶ−ＡＶＲシステムがオフ状態にあることを検出した場合、ＶＣＭＤを操作する方法は、次に、図９に示されるように進行することができる。ステップ９１０において、ＶＣＭＤは、ディレクティブがＴＶ−ＡＶＲ要求を含むかどうかを決定する。

[0085]ディレクティブがＴＶ−ＡＶＲ要求を含むとＶＣＭＤが決定した場合、次いでステップ９２０で、ハンドオーバ音声メッセージがＶＣＭＤの内部スピーカで再生される。本明細書で使用されるように、ハンドオーバ音声メッセージは、ＶＣＭＤがＴＶ−ＡＶＲシステム上で要求されたコンテンツを再生しようとしていることをユーザに示すためにＶＣＭＤによって再生される音声メッセージである。例えば、ＶＣＭＤは、「アレクサ、Ｉｎｔｅｒｓｔｅｌｌａｒを再生して」というユーザの発話に応答して、「オッケー、それをテレビで再生します」と迅速に述べることができる。いくつかのＴＶ−ＡＶＲシステムでは、ＶＣＭＤがＴＶ−ＡＶＲシステムを適切な再生状態にするのに数秒から数十秒かかる可能性があるので、そのようなハンドオーバ音声メッセージはユーザ体験を改善できる。例えば、場合によっては、ＶＣＭＤは最初にＴＶをオンにする必要があり、次にＡＶＲをオンにし、最後に、何らかのＴＴＳ応答表示がＴＶ−ＡＶＲシステムのスピーカで再生され得る前に、ＴＶおよびＡＶＲの両方のアクティブな入力をＶＣＭＤに切り替える必要がある。このような場合、このプロセスが完了する（または完了するのに失敗する）最中にユーザが黙って座っているのではなく、むしろＶＣＭＤからのハンドオーバ音声メッセージは、発話が受信され、ＶＣＭＤがＴＶ−ＡＶＲシステムのコンテンツを再生するプロセスを開始したことをユーザに通知する。さらに、ハンドオーバ音声メッセージの使用は、ハンドオーバ音声メッセージが再生された後、ＴＶ−ＡＶＲシステムによって長時間、例えば１分以上、何の動作も行われない場合、ＴＶ−ＡＶＲシステムに問題がある可能性があることを認識するユーザの能力を改善する。

[0086]次に、ステップ９３０において、ＶＣＭＤは、システムの構成要素をオンにするために、制御信号をＴＶ−ＡＶＲシステムに送信する。例えば、ＶＣＭＤはＨＤＭＩ（登録商標）ポートを介して、ＴＶ−ＡＶＲシステムのテレビに接続されることができ、ＨＤＭＩ（登録商標）−ＣＥＣを介して、テレビをオンにするように「電源オン」コマンドを送信することができる。他の状況では、ＶＣＭＤはＩＲ送信機を使用して、ユニバーサルリモコンと同様に、ＩＲを介して１つまたは複数の制御信号を送信できる。いくつかの実施形態では、制御信号は、テレビのみをオンにするように定式化されることができ、またはＴＶ−ＡＶＲシステムの他の構成要素も同様にオンにすることができる。例えば、音声ビデオ受信機とＴＶの両方を含むＴＶ−ＡＶＲシステムの場合、制御要求は、例えば、最初に受信機をオンにし、次いでＴＶをオンにするなどの制御信号の組み合わせを含むことができる。この開示の恩恵を受ける当業者によって理解されるように、ＴＶ−ＡＶＲシステムのトポロジに応じて、いくつかの異なる形態の制御信号が可能である。

[0087]ステップ９４０において、ＶＣＭＤは、ＴＶ−ＡＶＲシステムのＡＶ入力が適切な入力ポートに設定されているかどうか、すなわち、ＴＶ−ＡＶＲシステムのアクティブなＡＶ入力が現在ＶＣＭＤに接続されているＡＶポートに切り替えられているかどうかをテストする。そのようなテストは、例えば、図４〜図７を参照して上述したように、ＶＣＭＤがデバイス状態取得メッセージと共に音声ビデオ入力状態ステータス要求を送信することによって達成され得る。例えば、ＶＣＭＤがテレビのＨＤＭＩ（登録商標）＿１ポートに接続されている場合、ＶＣＭＤは最初にＴＶ−ＡＶＲシステムに問い合わせて、現在アクティブなＡＶ入力ポートがＨＤＭＩ（登録商標）＿１であるかどうかを識別する。

[0088]ステップ９５０において、アクティブなＡＶポートがまだＨＤＭＩ（登録商標）＿１に設定されていない場合、ＶＣＭＤは制御信号を送信して、ＴＶ−ＡＶＲシステムのＡＶ入力をＨＤＭＩ（登録商標）＿１に切り替える。別の例では、ＶＣＭＤはアクティブなＨＤＭＩ（登録商標）ポートを検出する必要はないが、代わりに、例えばＣＥＣワンタッチプレイなどのテクノロジーを採用することにより、ＴＶ−ＡＶＲシステムのアクティブなＡＶポートを適切なポートに切り替える制御信号をすぐにＴＶ−ＡＶＲシステムに送信することができる。

[0089]次に、ステップ９６０で、ＶＣＭＤは、要求された音声ビデオコンテンツをＴＶ−ＡＶＲシステムに送信し、それによって、ユーザの要求を完了する。

[0090]ステップ９４０に戻り、ＴＶ−ＡＶＲシステムのＡＶポートがＶＣＭＤに接続されているポート、例えばこの例ではＨＤＭＩ（登録商標）＿１に既に設定されている場合、その時、プロセスはＡＶ入力を切り替える必要がなく、その代わりにステップ４６０に進行し、完了する。

[0091]ステップ９１０に戻ると、ＶＣＭＤが、ディレクティブが音声コンテンツのみを再生する要求を含むと決定した場合、次いでステップ９１１において、ＶＣＭＤは、要求された音声コンテンツをＶＣＭＤの内部スピーカで再生することができる。いくつかの実施形態では、ＶＣＭＤは、ステップ９１１でデフォルトの動作を無効にすることができ、その代わりに音声要求をＴＶ−ＡＶＲ要求のように扱うことができるユーザ選好設定を含むことができ、その場合、ＶＣＭＤは、上述したようにステップ９２０〜９６０を通って進行することができる。このような場合、ユーザがユーザ選好設定を設定して、特定の音声要求のみをＴＶ−ＡＶＲ要求として処理することもでき、例えば、「アレクサ、９０年代のロックミュージックを再生して」などの発話は、ＴＶ−ＡＶＲシステムの高品質スピーカで再生される音楽要求としてＶＣＭＤによって解釈され得るが、「アレクサ、私のＴｏ−Ｄｏリストを再生して」などの発話は、やはりＶＣＭＤの内部スピーカで再生され得る。ユーザ選好機能を有する実施形態は、図１１を参照して以下でさらに詳細に説明される。

[0092]最初は電源オン状態のＴＶ−ＡＶＲシステムのデュアルモードの動作、ＴＶ−ＡＶＲ要求
ＶＣＭＤが、ＴＶ−ＡＶＲシステムが最初にオン状態にあることを検出した場合、それは、図１０に示されるように、ＴＶ−ＡＶＲシステムと相互作用することができる。図１０は、ステップ１０１０において、ディレクティブがＴＶ−ＡＶＲ要求を含むとＶＣＭＤが決定する場合を示す。図１１は、ディレクティブが非ＴＶ−ＡＶＲ要求を含むとＶＣＭＤが決定した場合を示す。

[0093]図１０に戻ると、ＶＣＭＤがディレクティブを受信した時点でＴＶ−ＡＶＲシステムが既にオン状態にある場合、本明細書に示される方法ステップは、「アレクサ、Ｉｎｔｅｒｓｔｅｌｌａｒを再生して」などのユーザ発話に応答して実行され得る。ステップ１０２０において、ＶＣＭＤは、ＴＶ−ＡＶＲシステムのＡＶ入力が適切な入力ポートに設定されているかどうか、すなわち、ＴＶ−ＡＶＲシステムのアクティブなＡＶ入力が現在ＶＣＭＤに接続されているＡＶポートに切り替えられているかどうかをテストする。例えば、ＶＣＭＤがテレビの「ＨＤＭＩ（登録商標）＿１」ポートに接続されている場合、ＶＣＭＤは第１にＴＶ−ＡＶＲシステムに問い合わせて現在アクティブなＡＶ入力を識別する。「はい」の場合、次いでステップ２０１３で、ＶＣＭＤはそのメディアプレイヤを一時停止して、現在ＴＶ−ＡＶＲシステムに送信されているコンテンツを一時停止することができる。

[0094]次に、ステップ１０４０で、ＶＣＭＤは、ＴＶ−ＡＶＲシステムの現在アクティブなスピーカ、例えば、ＴＶの内部スピーカでＴＴＳ応答を再生する。例えば、「アレクサ、Ｉｎｔｅｒｓｔｅｌｌａｒを再生して」などの受信するユーザの発話に応答して、ＶＣＭＤは意図メッセージ「オッケー、Ｉｎｔｅｒｓｔｅｌｌａｒを再生します」をテレビの内部スピーカで再生できる。いくつかの実施形態では、コンテンツが再生されようとしていることを示すために、ＴＶのディスプレイ上に視覚的表示もまた表示され得る。その間、ＶＣＭＤの適切なメディアプレイヤが、ソースからコンテンツを取得できる。

[0095]ステップ１０５０で、コンテンツプロバイダへの接続が取得されると、ＶＣＭＤはＶＣＭＤのメディアプレイヤの一時停止を解除し、ステップ１０６０で、例えば映画「Ｉｎｔｅｒｓｔｅｌｌａｒ」のストリームなどの新しいＡＶ出力を、ＴＶ−ＡＶＲシステムでコンテンツを再生させるためにＴＶ−ＡＶＲシステムに送信することができる。

[0096]一方、ステップ１０２０において、ＴＶ−ＡＶＲシステムのアクティブ入力ポートがＶＣＭＤに現在接続されているＡＶポートに現在設定されていないと決定された場合、ＶＣＭＤはミュートコマンドをテレビに送信することができる。この場合、入力ポートはまだＶＣＭＤの入力ポートに設定されていないため、もしあればＴＶ−ＡＶＲシステムで再生されている現在のコンテンツは、ＶＣＭＤの内部ビデオプレイヤ以外のどこかから供給されていると想定される。この場合、コンテンツはＶＣＭＤによって一時停止できない可能性があるため、その代わりに、ステップ１０３１で、ＶＣＭＤはミュートコマンドをＴＶ−ＡＶＲシステムに送信することができる。ミュートコマンドは、ユニバーサルリモコンと同様に赤外線通信チャネルを介して送信されることが可能であり、またはＣＥＣコマンドなどのＨＤＭＩ（登録商標）を介して送信されることが可能である。例えば、ミュートコマンドは、図１３を参照して以下に示され、説明される１つまたは複数のＩＲＬＥＤから送信され得る。これにより、ＴＶ−ＡＶＲのスピーカをミュートして、テレビ音声は、ユーザの発話に応答してＶＣＭＤによって再生されるＴＴＳ／ハンドオーバメッセージに干渉しない。

[0097]ステップ１０４１で、ＶＣＭＤは、図９のステップ９２０を参照して既に上述したように、ＶＣＭＤの内部スピーカで、ハンドオーバ音声メッセージを再生することができる。

[0098]ステップ１０５１で、ＶＣＭＤは、図９のステップ９５０を参照して既に上述したのと同様の方法で、ＴＶ−ＡＶＲシステムのアクティブなＡＶポートをＶＣＭＤに切り替えることができる。

[0099]次に、ステップ１０６１で、ＶＣＭＤは、例えば、ステップ１０６０で新しいＡＶ出力ストリームを開始する前に、ＩＲ通信チャネルを介してＴＶ−ＡＶＲシステムにミュート解除コマンドを送信することにより、ＴＶ−ＡＶＲシステムをミュート解除することができる。

[0100]ＴＶ−ＡＶＲシステムの最初の電源オン状態でのデュアルモードの動作、非ＴＶ−ＡＶＲ要求
図１１は、ＶＣＭＤがＴＶ−ＡＶＲシステムがオンであると決定し、ディレクティブが非ＴＶ−ＡＶＲ要求を含む場合を示す。いくつかの実施形態では、ＶＣＭＤは、非ＴＶ−ＡＶＲ要求がシステム上でどのように再生されるかに影響を及ぼし得るユーザ選好を含むことができる。例えば、ＶＣＭＤのデフォルト設定は、ＶＣＭＤの内部スピーカですべての非ＴＶ−ＡＶＲ要求を再生するように設定され得る。別法として、ユーザは、非ＴＶ−ＡＶＲ要求のすべてまたはいくつかのカテゴリを最終的にＴＶ−ＡＶＲシステムスピーカで再生されるＴＶ−ＡＶＲ要求として扱うように、その選好を設定することができる。例えば、ユーザは「アレクサ、私の再生リストを再生して」などの音楽発話をＴＶ−ＡＶＲ要求として扱うように設定することができる。これは、可能な限り最高品質のスピーカで音楽を聞くことがユーザのデフォルト設定であるからである。加えて、いくつかの実施形態では、音楽要求についてでも、出力システムは、ＶＣＭＤがフォーカスされているかどうかに基づいて決定され得るように、ユーザ選好をより粒度の細かいものにすることができる。フォーカスされていない場合、ユーザ選好は、音声がＴＶ−ＡＶＲのスピーカではなく、ＶＣＭＤの内部スピーカで再生されるように示すことができる。図１１は、このより粒度の細かいユーザ選好機能の場合に、ＶＣＭＤによって採用される論理の一例を示す。

[0101]ステップ１１１０において、現在のユーザ選好が決定される。すべての非ＴＶ−ＡＶＲ要求が内部スピーカで再生されるべきであることをユーザ選好が示している場合、システムはステップ１１３０に進行することができる。別法として、すべてまたはいくつかの非ＴＶ−ＡＶＲ要求がＴＶ−ＡＶＲシステムのスピーカで再生されるべきであることをユーザ選好が示している場合、その時システムはステップ１１２０に進行することができる。

[0102]ステップ１１３０において、ＶＣＭＤは、ＴＶ−ＡＶＲシステムのＡＶ入力が適切な入力ポートに設定されているかどうか、すなわち、ＴＶ−ＡＶＲシステムのアクティブなＡＶ入力が現在ＶＣＭＤに接続されているＡＶポートに切り替えられているかどうかをテストする。例えば、ＶＣＭＤがテレビの「ＨＤＭＩ（登録商標）＿１」ポートに接続されている場合、ＶＣＭＤは第１にＴＶ−ＡＶＲシステムに問い合わせて現在アクティブなＡＶ入力を識別する。「はい」の場合、ステップ１１４０で、ＶＣＭＤはそのメディアプレイヤを一時停止して、現在ＴＶ−ＡＶＲシステムに送信されているコンテンツを一時停止することができる。

[0103]次に、ステップ１１５０で、ＶＣＭＤは、要求された音声コンテンツをＶＣＭＤの内部スピーカで再生する。音声コンテンツは、ユーザの発話で具体的に言及されたコンテンツだけでなく、適切なＴＴＳ応答を含むこともできる。

[0104]ステップ１１６０で、要求された音声コンテンツの再生が終了すると、ＶＣＭＤは、ＶＣＭＤのメディアプレイヤの一時停止を解除することができ、元々再生されていたコンテンツを再開することができる。

[0105]一方、ステップ１１３０において、ＴＶ−ＡＶＲシステムのアクティブ入力ポートがＶＣＭＤに現在接続されているＡＶポートに現在設定されていないと決定された場合、ステップ１１７０で、ＶＣＭＤはミュートコマンドをテレビに送信することができる。この場合、入力ポートはまだＶＣＭＤの入力ポートに設定されていないため、もしあればＴＶ−ＡＶＲシステムで再生されている現在のコンテンツは、ＶＣＭＤの内部ビデオプレイヤ以外のどこかから供給されていると想定される。この場合、コンテンツはＶＣＭＤによって一時停止できない可能性があるため、その代わりに、ＶＣＭＤは、ユニバーサルリモコンと同様の赤外線通信チャネルを使用して、ミュートコマンドをＴＶ−ＡＶＲシステムに送信することができる。例えば、ミュートコマンドは、図１３を参照して以下に示され、説明される１つまたは複数のＩＲＬＥＤから送信され得る。これは、図１０を参照して上述したように、ＴＶ−ＡＶＲのスピーカをミュートすることができる。

[0106]次に、ステップ１１８０で、ＶＣＭＤは、要求された音声コンテンツをＶＣＭＤの内部スピーカで再生する。音声コンテンツは、ユーザの発話で具体的に言及されたコンテンツだけでなく、適切なＴＴＳ応答を含むこともできる。

[0107]次に、ステップ１１９０で、ＶＣＭＤは、例えば、ＩＲ通信チャネルを介して別のミュート解除コマンドを送信することにより、ＴＶ−ＡＶＲシステムをミュート解除することができる。

[0108]ステップ１１２０に戻ると、ＶＣＭＤは、ＴＶ−ＡＶＲシステムのＡＶ入力が上述のステップ１１３０のように適切な入力ポートに設定されているかどうかをテストする。「はい」の場合、ステップ１１９１で、ＶＣＭＤはそのメディアプレイヤを一時停止して、現在ＴＶ−ＡＶＲシステムに送信されているコンテンツを一時停止することができる。

[0109]次に、ステップ１１９２で、ＶＣＭＤは、要求された音声コンテンツをＴＶ−ＡＶＲシステムのスピーカで再生する。音声コンテンツは、ユーザの発話で具体的に言及されたコンテンツだけでなく、適切なＴＴＳ応答を含むこともできる。

[0110]ステップ１１９３で、要求された音声コンテンツの再生が終了すると、ＶＣＭＤは、ＶＣＭＤのメディアプレイヤの一時停止を解除することができ、元々再生されていたコンテンツを再開することができる。

[0111]図１２は、本開示の１つまたは複数の実施形態による、ＶＣＭＤ１２００を概略的に示す様々な図である。斜視図１２１０に示されているように、ＶＣＭＤ１２００は、箱状のハウジング１２０２を有することができる。具体的には、ハウジング１２０２は、デバイスの側面を形成し、ならびに上面および底面を形成する複数の側壁を有することができる。ＶＣＭＤ１２００は、側壁のそれぞれを通って、およびいくつかの実施形態では、ハウジング１２０２の上面および底面を通って赤外線を放射するように構成された赤外光ＬＥＤのセットを含むことができる。他の実施形態は、異なるフォームファクタを有することができる。いくつかの実施形態では、ＶＣＭＤ１２００は、耐水性コーティングで処理され得る。

[0112]ＶＣＭＤ１２００は、ボタン、スイッチ、および他の制御デバイスなどの１つまたは複数の物理的制御を含むことができる。例えば、ＶＣＭＤ１２００は、ＶＣＭＤ１２００または接続されたデバイスのスピーカボリュームを制御するボリューム制御ボタン１２１２を含むことができる。ＶＣＭＤ１２００は、アクションボタン１２１４、ミュートボタンまたはプライバシーボタン１２１６、および他のボタンを含むことができる。いくつかの実施形態では、ＶＣＭＤ１２００は、ディスプレイまたは他の構成要素を含むことができる。

[0113]ＶＣＭＤ１２００は、ハウジング１２０２内に配置された１つまたは複数のマイクロフォンによる周囲音の検出を容易にするために使用され得る１つまたは複数のマイクロフォン穴１２１８を含むことができる。

[0114]ＶＣＭＤ１２００は、ライトバー構成要素１２２０を含むことができる。ライトバー構成要素１２２０は、光学的に透明または着色された細長い構成要素１２２２を含むことができ、それを通って１つまたは複数のＬＥＤからの光を見ることができる。ライトバー構成要素１２２０は、ＶＣＭＤ１２００の前側１２３０に配置され得る。例示された実施形態などのいくつかの実施形態では、ライトバー構成要素１２２０は、線状または直線であることができ、ハウジング１２０２の縁部１２３２に沿って配置され得る。したがって、細長い構成要素１２２２は、ハウジング１２０２に取り付けられるか、または一体化されてもよく、ハウジング１２０２の縁部を形成することができる。ライトバー構成要素１２２０は、ＶＣＭＤ１２００によって検出された音の場所を示すように構成され得る。例えば、ＶＣＭＤ１２００のマイクロフォンがＶＣＭＤ１２００の左側から来る音または声を検出する場合、ＶＣＭＤ１２００の左側にある１つまたは複数のＬＥＤを点灯させて、ユーザにＶＣＭＤ１２００の左側から音が検出されていることを示すことができる。ライトバー構成要素１２２０は、音または声が検出されている間に照明されるＬＥＤを動的に変更することができ、また視覚的に情報をユーザに伝達するために使用され得る。例えば、処理中、ライトバー構成要素１２２０は、特定の照明状態を有することができ、デバイスがミュートにされている間、ライトバー構成要素１２２０は、異なる照明状態などを有することができる。ライトバー構成要素１２２０は、線状または直線のライトバー構成要素であることができ、かつユーザに可視であり得る。いくつかの実施形態では、ライトバー構成要素１２２０は、異なる縁部または表面に沿って他の場所に配置されてもよく、それぞれデバイスのハウジングに対して対角線上に、または別の配向で配置され得る。

[0115]ＶＣＭＤ１２００の後側１２４０が、図１２に示されている。ＶＣＭＤ１２００の後側１２４０は、１つまたは複数のポート、入力、出力などを含むことができる。例えば、後側１２４０は、イーサネットポート、ＵＳＢ、またはマイクロＵＳＢ入力１２４２、電源入力ジャック１２４４、高解像度ビデオおよび音声を出力するように構成されたＨＤＭＩ（登録商標）ポート１２４６、外部赤外線光ブラスタ接続ポート１２４８（例えば、赤外光センサ入力または出力ジャックなど）などを含むことができる。いくつかの実施形態では、ＶＣＭＤ１２００は、充電式電池を含むことができる。

[0116]ＶＣＭＤ１２００の底面１２５０は、底壁１２５２によって形成されることができ、ゴム足、滑り止め材料、およびデバイスを支持する他の構成要素などの構成要素を含むことができる。底壁１２５２は、ＶＣＭＤ１２００の１つまたは複数のスピーカからの音出力を促進するためにスピーカ穴１２５４を含むことができる。

[0117]図１３は、特定の実施形態によるＶＣＭＤの別の図を示す。ライトバー構成要素を含む内部構成要素アセンブリ１３４０は、ハウジング１３００の内側に配置され得る。第１の赤外ＬＥＤ１３５０および第２の赤外ＬＥＤ１３６０は、ハウジング１３００の壁を通って赤外光を放射するように構成され得る。したがって、側面発光ＬＥＤによって放射された光は、透明な細長い構成要素１３１０を通して見ることができる。

[0118]マイクロフォン回路基板１３４１は、１つまたは複数のマイクロフォンを含むことができる。例えば、８つのマイクロフォンが、マイクロフォン回路基板１３４１の第２の表面上に配置され得る。第１のマイクロフォン１３７０は、第１の方向に角度を調整することができる。第２のマイクロフォン１３７２は、第２の方向に角度を調整することができる。第３のマイクロフォン１３７４は第１の方向に角度を調整することができ、第４のマイクロフォン１３７６は第２の方向に角度を調整することができる。第５のマイクロフォン１３７８、第６のマイクロフォン１３８０、第７のマイクロフォン１３８２、および第８のマイクロフォン１３８４は、第３の方向に角度を調整することができる。マイクロフォンのセットは、列または異なる配置で配置され得る。マイクロフォンのセットは、音を検出し、音声信号を生成するために、また、マイクロフォンのいずれかによって捕捉された音の位置を検出するために使用され得る。

[0119]図４〜図１１を参照して上記で説明したプロセスのいくつかまたはすべて（または本明細書で説明した他のプロセス、変形、および／またはそれらの組み合わせ）は、実行可能命令で構成された１つまたは複数のコンピュータシステムの制御下で実行され、コード（例えば、実行可能命令、１つまたは複数のコンピュータプログラム、または１つまたは複数のアプリケーション）として実行されることができ、ハードウェアまたはそれらの組み合わせによって、１つまたは複数のプロセッサで集合的に実行される。コードは、例えば、１つまたは複数のプロセッサによって実行可能な複数の命令を含むコンピュータプログラムの形態で、コンピュータ可読記憶媒体に格納され得る。コンピュータ可読記憶媒体は、非一時的であり得る。

[0120]図１４は、本開示の１つまたは複数の例示的な実施形態によるＶＣＭＤの概略ブロック図である。ＶＣＭＤ１４００は、サーバシステム、スマートフォン、タブレット、電子リーダー、ウェアラブルデバイスなどのモバイルデバイス、デスクトップコンピュータ、ラップトップコンピュータ、コンテンツストリーミングデバイス、セットトップボックス、スキャンデバイス、バーコードスキャンワンドなどを含むがこれらに限定されない任意の適切なコンピューティングデバイスを含むことができる。ＶＣＭＤ１４００は、図１〜図３のＶＣＭＤデバイスの例示的なデバイス構成に対応することができる。

[0121]ＶＣＭＤ１４００は、１つまたは複数のサーバ、ユーザデバイスなどと通信するように構成され得る。ＶＣＭＤ１４００は、音声コマンドを決定し、ウェイクワード発話を決定し、他のデバイスおよび他の操作を決定および／または制御するように構成され得る。ＶＣＭＤ１４００は、光を反射し、音を検出し、デジタルコンテンツを出力し、および他の機能を実行するように構成され得る。いくつかの実施形態では、単一のリモートサーバまたはリモートサーバの単一のグループは、バーコードスキャンデバイスと組み合わせて２つ以上のタイプの機能を実行するように構成され得る。

[0122]ＶＣＭＤ１４００は、１つまたは複数のネットワークを介して通信するように構成され得る。そのようなネットワークは、限定されないが、例えば、ケーブルネットワーク、公衆ネットワーク（例えば、インターネット）、プライベートネットワーク（例えば、フレーム中継ネットワーク）、ワイヤレスネットワーク、セルラネットワーク、電話ネットワーク（例えば、公衆交換電話網）、または他の任意の適切なプライベートまたは公衆パケット交換または回線交換ネットワークのような、任意の１つまたは複数の異なるタイプの通信ネットワークを含むことができる。さらに、そのようなネットワークは、それに関連する任意の適切な通信範囲を有することができ、例えば、グローバルネットワーク（例えば、インターネット）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、またはパーソナルエリアネットワーク（ＰＡＮ）を含むことができる。加えて、そのようなネットワークは、同軸ケーブル、ツイストペア線（例えば、ツイストペア銅線）、光ファイバ、ハイブリッドファイバ同軸（ＨＦＣ）媒体、マイクロ波媒体、無線周波数通信媒体、衛星通信媒体、またはそれらの任意の組み合わせを含むがこれらに限定されない任意の適切なタイプの媒体によってネットワークトラフィックを送信するための通信リンクおよび関連するネットワークデバイス（例えば、リンク層スイッチ、ルータなど）を含むことができる。

[0123]例示的な構成では、ＶＣＭＤ１４００は、１つまたは複数のメモリデバイス１４０４（本明細書ではメモリ１４０４とも呼ばれる）、１つまたは複数の入力／出力（Ｉ／Ｏ）インターフェース１４０６、１つまたは複数のネットワークインターフェース１４０８、１つまたは複数のセンサまたはセンサインターフェース１４１０、１つまたは複数のトランシーバ１４１２、１つまたは複数の任意選択のカメラ１４１４、１つまたは複数の任意選択のマイクロフォン１４１６、およびデータ記憶１４２０を含むことができる。ＶＣＭＤ１４００は、ＶＣＭＤ１４００の様々な構成要素を機能的に結合する１つまたは複数のバス１４１８をさらに含むことができる。ＶＣＭＤ１４００は、セルラーネットワークインフラストラクチャに信号を送信し、またはセルラーネットワークインフラストラクチャから信号を受信するためのセルラーアンテナ、アクセスポイント（ＡＰ）からＷｉ−Ｆｉ信号を送信し、またはアクセスポイント（ＡＰ）からＷｉ−Ｆｉ信号を受信するためのアンテナを含み得るが、これらに限定されない１つまたは複数のアンテナ１４３４、グローバルナビゲーション衛星システム（ＧＮＳＳ）衛星からＧＮＳＳ信号を受信するためのＧＮＳＳアンテナ、Ｂｌｕｅｔｏｏｔｈ信号を送信または受信するためのＢｌｕｅｔｏｏｔｈアンテナ、近距離無線通信（ＮＦＣ）信号を送信または受信するためのＮＦＣアンテナなどをさらに含むことができる。これらの様々な構成要素は、以下でより詳細に説明される。

[0124]バス１４１８は、システムバス、メモリバス、アドレスバス、またはメッセージバスのうちの少なくとも１つを含むことができ、情報（例えば、データ（コンピュータ実行可能コードを含む）、シグナリングなど）の交換をＶＣＭＤ１４００の様々な構成要素間で可能にする。バス１４１８は、限定はしないが、メモリバスまたはメモリコントローラ、周辺バス、加速グラフィックスポートなどを含むことができる。バス１４１８は、業界標準アーキテクチャ（ＩＳＡ）、マイクロチャネルアーキテクチャ（ＭＣＡ）、拡張ＩＳＡ（ＥＩＳＡ）、ビデオエレクトロニクス標準協会（ＶＥＳＡ）アーキテクチャ、加速グラフィックスポート（ＡＧＰ）アーキテクチャ、周辺構成要素相互接続（ＰＣＩ）アーキテクチャ、ＰＣＩイクスプレスアーキテクチャ、パーソナルコンピュータメモリカード国際協会（ＰＣＭＣＩＡ）アーキテクチャ、ユニバーサルシリアルバス（ＵＳＢ）アーキテクチャなどを含むがこれらに限定されない、任意の適切なバスアーキテクチャに関連付けることができる。

[0125]ＶＣＭＤ１４００のメモリ１４０４は、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリ（電力が供給されている場合にその状態を維持するメモリ）および／または読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、強誘電体ＲＡＭ（ＦＲＡＭ（登録商標））などの不揮発性メモリ（電力が供給されない場合でもその状態を維持するメモリ）を含むことができる。永続的データ記憶は、その用語が本明細書で使用される場合、不揮発性メモリを含むことができる。特定の例示的な実施形態では、揮発性メモリは、不揮発性メモリよりも高速な読み取り／書き込みアクセスを可能にすることができる。しかしながら、特定の他の例示的な実施形態では、特定のタイプの不揮発性メモリ（例えば、ＦＲＡＭ（登録商標））は、特定のタイプの揮発性メモリよりも高速の読み取り／書き込みアクセスを可能にすることができる。

[0126]様々な実施では、メモリ１４０４は、様々なタイプのスタティックランダムアクセスメモリ（ＳＲＡＭ）、様々なタイプのダイナミックランダムアクセスメモリ（ＤＲＡＭ）、様々なタイプの変更不可能なＲＯＭ、および／または電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリなどの様々な書き込み可能なＲＯＭなどの複数の様々なタイプのメモリを含むことができる。メモリ１４０４は、メインメモリ、ならびに命令キャッシュ（複数可）、データキャッシュ（複数可）、変換索引バッファ（ＴＬＢ）などの様々な形態のキャッシュメモリを含むことができる。さらに、データキャッシュなどのキャッシュメモリは、１つまたは複数のキャッシュレベル（Ｌ１、Ｌ２など）の階層として編成されたマルチレベルキャッシュであり得る。

[0127]データ記憶１４２０は、磁気記憶、光ディスク記憶、および／またはテープ記憶を含むが、これらに限定されないリムーバブル記憶および／または非リムーバブル記憶を含むことができる。データ記憶１４２０は、コンピュータ実行可能命令および他のデータの不揮発性記憶を提供することができる。リムーバブルおよび／または非リムーバブルのメモリ１４０４およびデータ記憶１４２０は、その用語が本明細書で使用される場合、コンピュータ可読記憶媒体（ＣＲＳＭ）の例である。

[0128]データ記憶１４２０は、メモリ１４０４にロード可能であり、プロセッサ１４０２によって実行可能であって、プロセッサ１４０２に様々な動作を実行または開始させることができるコンピュータ実行可能コード、命令などを格納することができる。加えて、データ記憶１４２０は、コンピュータ実行可能命令の実行中にプロセッサ１４０２によって使用するためにメモリ１４０４にコピーされ得るデータを格納することができる。さらに、プロセッサ１４０２によるコンピュータ実行可能命令の実行の結果として生成された出力データは、最初にメモリ１４０４に格納されることができ、最終的に不揮発性記憶のためにデータ記憶１４２０にコピーされ得る。

[0129]より具体的には、データ記憶１４２０は、１つまたは複数のオペレーティングシステム（Ｏ／Ｓ）１４２２、１つまたは複数のデータベース管理システム（ＤＢＭＳ）１４２４、および１つまたは複数のプログラムモジュール、アプリケーション、エンジン、コンピュータ実行可能コード、スクリプトなど、例えば、１つまたは複数の音検出モジュール１４２６、１つまたは複数の通信モジュール１４２８、１つまたは複数のライトバー制御モジュール１４３０、および／または１つまたは複数の遠隔制御モジュール１４３２を格納することができる。これらのモジュールの一部またはすべてがサブモジュールである可能性がある。データ記憶１４２０に格納されているものとして示されている任意の構成要素は、ソフトウェア、ファームウェア、および／またはハードウェアの任意の組み合わせを含むことができる。ソフトウェアおよび／またはファームウェアは、プロセッサ１４０２のうちの１つまたは複数による実行のためにメモリ１４０４にロードされ得るコンピュータ実行可能コード、命令などを含むことができる。データ記憶１４２０に格納されているものとして示されている構成要素のいずれも、本開示で上記に挙げた、対応する構成要素を参照して説明した機能をサポートすることができる。

[0130]データ記憶１４２０は、ＶＣＭＤ１４００の構成要素によって利用される様々なタイプのデータをさらに格納することができる。データ記憶１４２０に格納された任意のデータは、コンピュータ実行可能コードを実行する際にプロセッサ１４０２によって使用するために、メモリ１４０４にロードされ得る。加えて、データ記憶１４２０に格納されているように示されている任意のデータは、１つまたは複数のデータストアに潜在的に格納されることができ、ＤＢＭＳ１４２４を介してアクセスされることができ、コンピュータ実行可能コードを実行する際にプロセッサ１４０２によって使用されるために、メモリ１４０４にロードされ得る。データストアは、データベース（例えば、リレーショナル、オブジェクト指向など）、ファイルシステム、フラットファイル、コンピュータネットワークの２つ以上のノードにデータが格納されている分散データストア、ピアツーピアネットワークデータストアなどを含むが、これらに限定されない。図１４では、例示的なデータストアは、例えば、以前に識別された製品の履歴データ、購入または注文履歴、ユーザプロファイル情報、および／または他の情報を含むことができる。

[0131]プロセッサ１４０２は、メモリ１４０４にアクセスし、そこにロードされたコンピュータ実行可能命令を実行するように構成され得る。例えば、プロセッサ１４０２は、ＶＣＭＤ１４００の様々なプログラムモジュール、アプリケーション、エンジンなどのコンピュータ実行可能命令を実行して、本開示の１つまたは複数の実施形態に従って様々な動作を実施させ、または実施を促進するように構成され得る。プロセッサ（単数または複数）１４０２は、データを入力として受け入れ、格納されたコンピュータ実行可能命令に従って入力データを処理し、出力データを生成することができる任意の適切な処理ユニットを含むことができる。プロセッサ（単数または複数）１４０２は、中央処理装置、マイクロプロセッサ、縮小命令セットコンピュータ（ＲＩＳＣ）マイクロプロセッサ、複合命令セットコンピュータ（ＣＩＳＣ）マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、システムオンチップ（ＳｏＣ）、デジタルシグナルプロセッサ（ＤＳＰ）などを含むがこれらに限定されない任意のタイプの適切な処理ユニットを含むことができる。さらに、プロセッサ１４０２は、例えば、レジスタ、マルチプレクサ、演算論理装置、キャッシュメモリへの読み取り／書き込み操作を制御するためのキャッシュコントローラ、分岐予測器など、任意の数の構成要素を含む任意の適切なマイクロアーキテクチャ設計を有することができる。プロセッサ１４０２のマイクロアーキテクチャ設計は、様々な命令セットのいずれかをサポートすることが可能であり得る。

[0132]ここで、図１４に示す様々なプログラムモジュールによってサポートされる機能を参照すると、音検出モジュール１４２６は、１つまたは複数のプロセッサ１４０２（複数）による実行に応答して、限定されないが、音の検出、音の意味の決定、音声信号および音声データの生成、音の場所の決定などを含む機能を実行することができるコンピュータ実行可能命令、コードなどを含むことができる。

[0133]通信モジュール１４２８は、１つまたは複数のプロセッサ１４０２による実行に応答して、コンテンツを含むデータの送信および／または受信、命令とコマンドなどの送信および／または受信などを含むが、これに限定されない機能を実行することができるコンピュータ実行可能な命令、コードなどを含むことができる。ライトバー制御モジュール１４３０は、１つまたは複数のプロセッサ１４０２による実行に応答して、ライトバー照明状態の決定、照明するＬＥＤの決定、照明状態の変更などを含むが、これに限定されない機能を実行することができるコンピュータ実行可能命令、コードなどを含むことができる。

[0134]遠隔制御モジュール１４３２は、１つまたは複数のプロセッサ１４０２による実行に応答して、他の電子デバイスの制御、赤外線信号の送信、デジタル音声またはビデオ信号の送信または出力などを含むが、これに限定されない機能を実行することができるコンピュータ実行可能命令、コードなどを含むことができる。

[0135]次に、データ記憶１４２０に格納されているものとして示されている他の例示的な構成要素を参照すると、Ｏ／Ｓ１４２２はデータ記憶１４２０からメモリ１４０４にロードされることができ、ＶＣＭＤ１４００で実行されている他のアプリケーションソフトウェアとＶＣＭＤ１４００のハードウェアリソースとの間のインターフェースを提供することができる。より具体的には、Ｏ／Ｓ１４２２は、ＶＣＭＤ１４００のハードウェアリソースを管理し、他のアプリケーションプログラムに共通のサービスを提供するための（例えば、様々なアプリケーションプログラム間のメモリ割り当ての管理）コンピュータ実行可能命令のセットを含むことができる。特定の例示的な実施形態では、Ｏ／Ｓ１４２２は、他のプログラムモジュールの実行を制御することができる。Ｏ／Ｓ１４２２には、現在知られている、または将来開発される可能性のあるすべてのオペレーティングシステムを含むことができ、限定されないが、これには、サーバオペレーティングシステム、メインフレームオペレーティングシステム、またはその他の専有または非専有のオペレーティングシステムが含まれる。

[0136]ＤＢＭＳ１４２４は、メモリ１４０４にロードされることができ、メモリ１４０４に格納されたデータおよび／またはデータ記憶１４２０に格納されたデータにアクセス、検索、格納、および／または操作する機能をサポートすることができる。ＤＢＭＳ１４２４は、様々なデータベースモデル（例えば、リレーショナルモデル、オブジェクトモデルなど）のいずれかを使用することができ、様々なクエリ言語のいずれかをサポートすることができる。ＤＢＭＳ１４２４は、１つまたは複数のデータスキーマで表され、データベース（例えば、リレーショナル、オブジェクト指向など）、ファイルシステム、フラットファイル、コンピュータネットワークの２つ以上のノードにデータが格納されている分散データストア、ピアツーピアネットワークデータストアなどを含むが、これらに限定されない任意の適切なデータレポジトリの中に格納されるデータにアクセスできる。ＶＣＭＤ１４００がモバイルデバイスであるこれらの例示的な実施形態では、ＤＢＭＳ１４２４は、モバイルデバイスでのパフォーマンスのために最適化された任意の適切な軽量ＤＢＭＳであることができる。

[0137]ここで、ＶＣＭＤ１４００の他の例示的な構成要素を参照すると、入力／出力（Ｉ／Ｏ）インターフェース１４０６は、１つまたは複数のＩ／ＯデバイスからのＶＣＭＤ１４００による入力情報、ならびにＶＣＭＤ１４００から１つまたは複数のＩ／Ｏデバイスへの出力情報の受信を促進することができる。Ｉ／Ｏデバイスは、タッチ表面またはタッチスクリーンを有するディスプレイまたはディスプレイスクリーン、スピーカなど、音を出すための音声出力デバイス、マイクロフォンなどの音声捕捉デバイス、カメラなどの画像および／またはビデオ捕捉デバイス、触覚ユニットなどの様々な構成要素のいずれかを含むことができる。これらの構成要素はいずれもＶＣＭＤ１４００に統合することも、別個にすることもできる。Ｉ／Ｏデバイスは、例えば、データ記憶デバイス、印刷デバイスなどのような任意の数の周辺デバイスをさらに含むことができる。

[0138]Ｉ／Ｏインターフェース１４０６は、ユニバーサルシリアルバス（ＵＳＢ）、ＦｉｒｅＷｉｒｅ、Ｔｈｕｎｄｅｒｂｏｌｔ、イーサネットポート、あるいは１つまたは複数のネットワークに接続することができる他の接続プロトコルなどの外部周辺デバイス接続のためのインターフェースを含むこともできる。Ｉ／Ｏインターフェース１４０６は、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）（Ｗｉ−Ｆｉなど）無線、Ｂｌｕｅｔｏｏｔｈ、ＺｉｇＢｅｅ、および／またはロングタームエボリューション（ＬＴＥ）ネットワーク、ＷｉＭＡＸネットワーク、３Ｇネットワーク、ＺｉｇＢｅｅネットワークなどの無線通信ネットワークと通信可能な無線などのワイヤレスネットワーク無線を介して、１つまたは複数のネットワークに接続するための１つまたは複数のアンテナ１４３４への接続もまた含むことができる。

[0139]ＶＣＭＤ１４００は、１つまたは複数のネットワークインターフェース１４０８をさらに含むことができ、それを介してＶＣＭＤ１４００が様々な他のシステム、プラットフォーム、ネットワーク、デバイスなどのいずれかと通信することができる。ネットワークインターフェース１４０８は、例えば、１つまたは複数のネットワークを介して、１つまたは複数のワイヤレスルータ、１つまたは複数のホストサーバ、１つまたは複数のウェブサーバなどとの通信を可能にすることができる。

[0140]アンテナ（単数または複数）１４３４は、例えば、アンテナ（単数または複数）１４３４を介して、信号を送信または受信するために使用される通信プロトコルに応じて、任意の適切なタイプのアンテナを含むことができる。適切なアンテナの非限定的な例は、指向性アンテナ、非指向性アンテナ、ダイポールアンテナ、折り返しダイポールアンテナ、パッチアンテナ、マルチ入力マルチ出力（ＭＩＭＯ）アンテナなどを含むことができる。アンテナ（単数または複数）１４３４は、信号が送信または受信され得る１つまたは複数のトランシーバ１４１２または無線構成要素に通信可能に接続され得る。

[0141]前述のように、アンテナ（単数または複数）１４３４は、移動通信用グローバルシステム（ＧＳＭ）、３Ｇ標準（例えば、ユニバーサル移動体通信システム（ＵＭＴＳ）、広帯域符号分割多元接続（Ｗ−ＣＤＭＡ）、ＣＤＭＡ２０００など）、４Ｇ標準（例えば、ロングタームエボリューション（ＬＴＥ）、ＷｉＭａｘなど）、直接衛星通信など、確立された標準およびプロトコルに従って、信号を送信または受信するように構成された携帯電話用アンテナを含むことができる。

[0142]アンテナ（単数または複数）１４３４は、追加的に、または別法として、２．４ＧＨｚチャネル（例えば、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎ）、５ＧＨｚチャネル（例えば、８０２．１１ｎ、８０２．１１ａｃなど）、または６０ＧＨｚチャネル（例えば、８０２．１１ａｄ）を介することを含むＩＥＥＥ８０２．１１規格ファミリなどの確立された規格およびプロトコルに従って、信号を送信または受信するように構成されるＷｉ−Ｆｉアンテナを含むことができる。代替の例示的な実施形態では、アンテナ（単数または複数）１４３４は、無線スペクトルの無認可部分の一部を形成する任意の適切な周波数範囲内で無線周波数信号を送信または受信するように構成され得る。

[0143]アンテナ（単数または複数）１４３４は、時間位置情報を運ぶ３つ以上のＧＮＳＳ衛星からＧＮＳＳ信号を受信して、そこから位置を三角測量するように構成されたＧＮＳＳアンテナを追加的に、または別法として含むことができる。そのようなＧＮＳＳアンテナは、例えば、全地球測位システム（ＧＰＳ）、ＧＬＯＮＡＳＳシステム、コンパス航法システム、ガリレオシステム、またはインド地域航法システムなど、任意の現在の、または計画されたＧＮＳＳからＧＮＳＳ信号を受信するように構成され得る。

[0144]トランシーバ（単数または複数）１４１２は、アンテナ（単数または複数）１４３４と協働して、他のデバイスと通信するためのＶＣＭＤ１４００によって利用される通信プロトコルに対応する帯域幅および／またはチャネルで無線周波数（ＲＦ）信号を送信または受信するための任意の適切な無線構成要素を含むことができる。トランシーバ１４１２は、アンテナ１４３４のいずれかと潜在的に協働して、限定されないが、ＩＥＥＥ８０２．１１標準で標準化されている１つまたは複数のＷｉ−Ｆｉおよび／またはＷｉ−Ｆｉダイレクトプロトコル、１つまたは複数の非Ｗｉ−Ｆｉプロトコル、あるいは１つまたは複数のセルラー通信プロトコルまたは標準を含む、上記に考察される任意の通信プロトコルに従って、通信信号を変調、送信、または受信するためのハードウェア、ソフトウェア、および／またはファームウェアを含むことができる。トランシーバ１４１２は、ＧＮＳＳ信号を受信するためのハードウェア、ファームウェア、またはソフトウェアをさらに含むことができる。トランシーバ１４１２は、ＶＣＭＤ１４００によって利用される通信プロトコルを介して通信するのに適した任意の既知の受信機およびベースバンドを含むことができる。トランシーバ１４１２は、低雑音増幅器（ＬＮＡ）、追加の信号増幅器、アナログデジタル（ＡＩＤ）変換器、１つまたは複数のバッファ、デジタルベースバンドなどをさらに含むことができる。

[0145]センサ／センサインターフェース１４１０は、例えば、慣性センサ、力センサ、熱センサ、フォトセルなどの任意の適切なタイプの検知デバイスを含むことができ、またはそれらとインターフェースで接続することが可能であり得る。慣性センサの例示的なタイプは、加速度計（例えば、ＭＥＭＳベースの加速度計）、ジャイロスコープなどを含むことができる。

[0146]カメラ１４１４は、周囲光または画像を捕捉するように構成された任意のデバイスであり得る。マイクロフォン１４１６は、アナログ音声入力または音声データを受信するように構成された任意のデバイスであり得る。

[0147]データ記憶１４２０に格納されるものとして図１４に示されるプログラムモジュール、アプリケーション、コンピュータ実行可能命令、コードなどは、単なる例示であり、網羅的ではなく、任意の特定のモジュールによってサポートされると記載されるその処理は、別法として、複数のモジュールにわたって分散され、または異なるモジュールによって実行され得ることを理解されたい。加えて、様々なプログラムモジュール、スクリプト、プラグイン、アプリケーションプログラミングインターフェース（ＡＰＩ）、またはＶＣＭＤ１４００でローカルにホストされ、および／または１つまたは複数のネットワークを介してアクセス可能な他のコンピューティングデバイス上でホストされるその他の適切なコンピュータ実行可能コードは、図１４に示すプログラムモジュール、アプリケーション、またはコンピュータ実行可能コード、および／または追加的または代替的機能によって提供される機能をサポートするために提供され得る。さらに、機能は、異なってモジュール化されて、図１４に示されるプログラムモジュールの集合によって集合的にサポートされると説明された処理が、より少ないまたはより多い数のモジュールによって実施可能であり、あるいは特定のモジュールによってサポートされると説明された機能は、少なくとも一部は別のモジュールによってサポートされ得る。加えて、本明細書で説明する機能をサポートするプログラムモジュールは、例えば、クライアントサーバモデル、ピアツーピアモデルなどの適切なコンピューティングモデルに従って、任意の数のシステムまたはデバイスにわたって実行可能な１つまたは複数のアプリケーションの一部を形成することができる。加えて、図１４に示されるプログラムモジュールのいずれかによってサポートされるとして説明される機能のいずれかは、任意の数のデバイスにわたってハードウェアおよび／またはファームウェアで、少なくとも部分的に実行され得る。

[0148]ＶＣＭＤ１４００は、本開示の範囲から逸脱することなく、説明または図示されたものを超える代替および／または追加のハードウェア、ソフトウェア、またはファームウェア構成要素を含み得ることをさらに理解されたい。より具体的には、ＶＣＭＤ１４００の一部を形成するものとして示されるソフトウェア、ファームウェア、またはハードウェア構成要素は単なる例示であり、いくつかの構成要素が存在しないか、または様々な実施形態で追加の構成要素が提供され得ることを理解されたい。様々な例示的なプログラムモジュールがデータ記憶１４２０に格納されたソフトウェアモジュールとして示され、説明されたが、プログラムモジュールによってサポートされると説明された機能は、ハードウェア、ソフトウェア、および／またはファームウェアの任意の組み合わせによって有効にできることを理解されたい。上述のモジュールのそれぞれは、様々な実施形態において、サポートされている機能の論理区画を表すことができることをさらに理解されたい。この論理区画は、機能の説明を簡単にするために表現されており、機能を実施するためのソフトウェア、ハードウェア、および／またはファームウェアの構造を表していない可能性がある。したがって、特定のモジュールによって提供されるものとして説明された機能は、様々な実施形態において、少なくとも部分的には１つまたは複数の他のモジュールによって提供され得ることを理解されたい。さらに、１つまたは複数の図示されたモジュールが特定の実施形態に存在しない可能性があり、一方、他の実施形態では、図示されていない追加モジュールが存在し、説明した機能および／または追加機能の少なくとも一部をサポートすることができる。さらに、特定のモジュールは別のモジュールのサブモジュールとして図示および説明され得るが、特定の実施形態では、そのようなモジュールは、独立したモジュールとして、または他のモジュールのサブモジュールとして提供され得る。

[0149]図１〜図７の方法、プロセスフロー、および使用事例の１つまたは複数の動作は、図１４に図示される例示的な構成を有するデバイスによって、またはより具体的には、１つまたは複数のエンジン、プログラムモジュール、アプリケーション、またはそのようなデバイスで実行可能なものによって実行され得る。しかしながら、そのような動作は、多数の他のデバイス構成に関連して実施され得ることを理解されたい。

[0150]図１５は、特定の実施形態によるＴＶ−ＡＶＲ状態モニタが可能なＶＣＭＤ１５００を示す。より具体的には、ＶＣＭＤ１５００は、本明細書ではサブ可聴チャネル監視（ＳＣＭ）と呼ばれるプロセスを採用するように構成されている。ＳＣＭは、接続されたＴＶ−ＡＶＲシステムの状態、例えば、ＶＣＭＤ１５００がＴＶ−ＡＶＲシステム１５０３にフォーカスされているかどうか、およびＴＶ−ＡＶＲシステムのボリュームが可聴レベルに設定されているかどうかを決定するために、例えば、図３に示されるＶＣＭＤ３００などのＶＣＭＤによって使用され得るプロセスである。特定の実施形態によれば、ＳＣＭを採用するＶＣＭＤは、白色雑音のように聞こえる擬似ランダム音声信号などのサブ可聴プローブ信号を、ＴＶ−ＡＶＲシステムの１つまたは複数のスピーカから再生させることができる。次に、ＶＣＭＤは、例えば内部マイクロフォンシステム１５１３などの１つまたは複数の内部マイクロフォンを使用して、プローブ信号のサブ可聴音シグネチャを検出することができる。ＳＣＭを採用することができるＶＣＭＤシステムをさらに説明するために、図１５は、明確にするためにＳＣＭ関連システムブロックのみが示され、他のすべてのシステムブロックが除去されているＶＣＭＤ１５００を示す。完全なＶＣＭＤの例は、図３を参照して上述されている。

[0151]特定の実施形態によれば、ＳＣＭモジュール１５１９は、デバイスコントローラ１５２５の一部であり得る。ＳＣＭモジュール１５１９は、図３を参照して上記で最初に紹介された状態モニタ３１９の一実施形態である。デュアルモードコントローラ１５２１およびデバイスコントローラ１５２５の両方は、音声対話マネージャ（図示せず）、および最終的には音声認識サービス（図示せず）に接続することができ、図３〜図１１を参照して上記でより詳細に説明される。ＶＣＭＤ１５００は、例えば、ＨＤＭＩ（登録商標）ケーブルなどのような電気的相互接続１５２３を介して、ＴＶ−ＡＶＲシステム１５０３のＡＶポート１５２９に接続することができるＡＶポート１５０１を含む。ＶＣＭＤ１５００は、例えば、図３を参照して上述された方法で、ＶＣＭＤの近くの周囲音を検出することができる内部マイクロフォンシステム１５１３をさらに含む。

[0152]いくつかの実施形態では、ＳＣＭモジュール１５１９上で実行されるＳＣＭプロセスは、ＴＶ−ＡＶＲシステムの状態を、例えば毎秒数回など自動的に、反復的および／または同期的に監視することができる。いくつかの実施形態では、ＳＣＭプロセスは、非同期的に動作することができ、例えば、ＳＣＭプロセスは、ＳＣＭモジュール１５１９に送信されるコマンドによって開始され得る。例えば、ウェイクワードのＶＣＭＤ１５００による検出に応答して、デュアルモードコントローラ１５２１は、ＳＣＭモジュール１５１９にコマンドを送信して、ＳＣＭプロセスを開始することができる。同期的または非同期的に動作するかどうかにかかわらず、ＳＣＭモジュール１５１９が電気的相互接続１５２３を介してＳＣＭプローブ信号を生成および送信すると、ＳＣＭが開始する。

[0153]プローブ信号は、例えば、ＨＤＭＩ（登録商標）接続を介して送信される電気信号、無線接続を介して送信される無線信号、または任意の有線または無線接続を使用して送信される任意の他の適切な信号であり得る。一例では、ＳＣＭモジュール１５１９は、例えば非圧縮ＰＣＭ音声などの音声データとしてプローブ信号を生成でき、例えばＨＤＭＩ（登録商標）仕様に含まれるものなどのデジタル音声データ転送プロトコルを使用して、利用可能な音声チャネルを介して音声データを送信できる。音声スピーカの現在の出力符号化が既知である場合、ＰＣＭ音声を使用するのではなく、ＳＣＭモジュールは、例えば、ドルビー符号化された音声など、適切に符号化された音声信号を生成できる。

[0154]プローブ信号は、ＴＶ−ＡＶＲスピーカ１５３３によって出力される所定の波形を含むことができる。例えば、プローブ信号は、擬似ランダム音声信号を含むことができ、これは、ユーザにとって、ＴＶ−ＡＶＲスピーカ１５３３から再生される場合、白色雑音のように聞こえる。特定の実施形態によれば、プローブ信号は、最大長シーケンス（ＭＬＳ）などの擬似ランダムビットシーケンスを含むことができる。

[0155]内部マイクロフォンシステム１５１３は、室内の周囲音を検出し、ＳＣＭモジュール１５１９に提供される対応するマイクロフォン信号を生成することができる。図１６を参照して以下でさらに詳細に説明するように、ＳＣＭモジュール１５１９は、対応するマイクロフォン信号を処理して、所定の波形が室内の周囲音の中の何らかの検出可能なレベルで存在するかどうかを決定することができる。そうである場合、ＳＣＭモジュール１５１９は、デュアルモードコントローラ１５２１に、ＴＶ−ＡＶＲ状態、例えば、ＴＶ＿ＳＴＡＴＥ＝ＯＮまたはＴＶ＿ＳＴＡＴＥ＝ＯＦＦを通知することができる。加えて、ＳＣＭモジュール１５１９は、ＴＶ−ＡＶＲシステムの様々な構成要素の１つまたは複数の統計値を記述する全体的なＴＶ−ＡＶＲＳｙｓｔｅｍ＿Ｃｏｎｔｅｘｔの一部として、ＴＶ−ＡＶＲをメモリに格納することができる。

[0156]図１５では、少なくとも１つのＡＶポート１５２９、スピーカコントローラ１５３２、およびＴＶ−ＡＶＲスピーカ１５３３を含むＴＶ−ＡＶＲシステムの一般化された形態が示されている。ＡＶポート１５０１と同様に、ＡＶポート１５２９は、例えば、光学音声、ＨＤＭＩ（登録商標）、ＤＶＩ、ＤｉｓｐｌａｙＰｏｒｔ、ＶＧＡなどの任意のタイプの音声またはマルチメディア相互接続に関連する任意のポートであり得る。スピーカコントローラ１５３２は、ＡＶポート１５２９で受信された信号を受け取り、出力音声１５３５をＴＶ−ＡＶＲスピーカ１５３３によって再生させるための回路およびソフトウェアを含む。ＴＶ−ＡＶＲシステム１５０３は、図３を参照して上記で既に述べたように、複雑さを回避するために簡略化したブロック図として図１５に示されているが、ＴＶ−ＡＶＲシステムは任意の形態を取ることができる。例えば、ＶＣＭＤ１５００は、内部スピーカのみを有するＴＶ、外部スピーカまたはサウンドバーに接続されたＴＶに直接接続されることができ、あるいは、１つまたは複数の外部スピーカにＶＣＭＤ１５００自体が接続されているＡＶＲを介して、テレビに間接的に接続され得る。したがって、本開示の範囲から逸脱することなく、任意のＴＶ−ＡＶＲトポロジが可能である。

[0157]図１６は、１つまたは複数の実施形態によるＳＣＭモジュール１６００の例示的な例を示し、例えば、ＳＣＭモジュール１６００は、図１５を参照して上述した例えばＳＣＭモジュール１５１９などのＳＣＭモジュールの追加の内部詳細を示す。ＳＣＭモジュール１６００は、信号検出器１６０１、再生コントローラ１６０３、および再生サブシステム１６０５を含む。図１５を参照して上述したように、ＳＣＭモジュール１６００は、プローブ信号音１６３５をＴＶ−ＡＶＲスピーカ１６０７から出力させるように、ＴＶ−ＡＶＲスピーカ１６０７に接続され得る。特定の実施形態によれば、プローブ信号音１６３５を生成するための所定のプローブ信号音声データは、ＳＣＭモジュール１６００の任意のサブ構成要素内に配置されるか、またはそれに動作可能に接続される非一時的コンピュータ可読メモリに格納されることができ、またはさらにはＳＣＭモジュール１６００の外に配置されるメモリに格納され得る。別法として、メモリサイズを削減するために、ＳＣＭプロセスがトリガーされるたびにプローブ信号音声が再生成され得る。

[0158]マイクロフォンシステム１６０９は、周囲の部屋のノイズを含むマイクロフォン信号を検出でき、ＴＶ−ＡＶＲシステムの状態に応じて、検出可能なレベルのプローブ信号音１６３５を含む場合があり、または含まない場合がある。信号検出器１６０１は、ベクトル命令セットの有無にかかわらず中央処理装置、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、１つまたは複数のＡＲＭチップまたはグラフィック処理装置ＧＰＵなどを含む一般化された計算が可能な１つまたは複数のプロセッサを含むことができ、これらは、元のプローブ信号および検出されたマイクロフォン信号を使用して相互相関測定プロセスを実行するようにプログラムされている。図１４は、ＳＣＭモジュール１６００の１つまたは複数のシステム構成要素のために採用され得るハードウェアの追加の説明を提供する。信号検出器１６０１のハードウェアは、マイクロフォン信号に対して信号処理を実行して、図１７を参照して以下でさらに詳細に説明するように、マイクロフォン信号内のプローブ信号の電力レベルを決定するようにプログラムされる。決定された電力レベルに基づいて、信号検出器１６０１は、他のシステムブロックによって、例えば、図１５を参照して上述したようなデュアルモードコントローラまたはデバイスコントローラによって使用されるＴＶ−ＡＶＲ状態の表示を出力することができる。

[0159]いくつかの実施形態では、図１８を参照して以下でさらに詳細に説明するように、ＳＣＭモジュール１６００は、フィードバックループ内で動作して、プローブ信号のボリュームを制御し、正確なＴＶ−ＡＶＲ状態検出の可能性を改善することができ、一方で不快なユーザ体験を回避するために、プローブ信号のボリュームは可聴レベルを下回る状態にとどまることを保証することもできる。

[0160]フィードバックループの一例では、信号検出器１６０１がマイクロフォン信号内のプローブ信号の存在を検出しない場合、それは、１）ＴＶ−ＡＶＲシステムが電源オフ（より一般的には「フォーカスされていない状態」）である、または２）ＴＶは電源オン状態であるが、プローブ信号のボリュームが小さすぎて検出できない、という２つの可能な状況が原因である可能性がある。２）の場合、信号検出器１６０１は、プローブ信号が検出されなかったという表示を再生コントローラ１６０３に送信することができる。それに応答して、再生コントローラ１６０３は、ＴＶ−ＡＶＲシステムに出力される前に、プローブ信号の利得を増加させるために、再生サブシステムにコマンドを送信することができる。

[0161]ＳＣＭモジュール１６００で採用されている利得係数がＴＶ−ＡＶＲスピーカ１６０７からの既知のサウンド出力レベルに対応するように適切に較正されていることを保証するために、ＶＣＭＤはセットアップ中に、セットアッププロセスの一部としてのボリューム較正手順を自動的に実行する（またはユーザに実行するように誘導する）ことができる。ボリューム較正プロセスは、ＴＶ−ＡＶＲシステムボリュームの様々な値のプローブボリュームを測定できる。システムを完全に特徴付け、したがって様々なＴＶボリュームレベルおよび様々な利得係数に対する出力プローブのサウンドレベルを知るために、ＶＣＭＤは、セットアップ中に、利得係数／プローブレベルの様々な値に対して図１７に示すような曲線をサンプリングできる較正手順を実行できる。より具体的には、図１７は、一般的に入手可能な家庭用テレビを使用して、フルスケールより３４．５ｄＢ低いレベル（−３４．５ｄＢｆｓ）を有する白色雑音プローブを使用するＴＶボリューム（０〜１００％）の関数としてのＴＶスピーカ音圧レベル（ＳＰＬ）の測定のテスト結果を示す。

[0162]いくつかの実施形態では、完全な較正曲線をサンプリングする必要はないが、代わりに、プローブ信号のボリュームが、ユーザの知覚の閾値より高いデシベルレベルを超えないように、再生コントローラ１６０３によってアクセス可能なメモリ内に最大利得閾値が格納され得る。静かな家の騒音レベルは約４０ｄＢＳＰＬであり、一般的な会議室の騒音レベルは約５０ｄＢＳＰＬである。さらに、点音源の音圧レベルが部屋の騒音レベルよりも約２０ｄＢ低い、または高い場合、１メートル離れた場所にいる人間によって白色雑音の点音源が検出されることができ、すなわち一般的な家屋内の静かな室内で人間が検出するための閾値は約２０ｄＢＳＰＬである。図１７で測定されたシステムについて、プローブ信号（−３４．５ｄＢｆｓの利得を有する）は、約１２％のＴＶボリューム設定で検出可能（可聴）になる可能性がある。したがって、スピーカから１メートル離れた場所にいるユーザによる検出を避けるために、−３５．５ｄＢｆｓよりはるかに低いプローブ利得レベルが使用されるべきである。追加のテストでは、−９０ｄＢｆｓのプローブ利得により、１００％のテレビボリュームで約２７ｄＢＳＰＬのプローブレベルが測定される結果になることが示された。したがって、ユーザがボリューム設定の下限でのみボリュームレベルを使用することが想定されている場合は、−９０ｄＢｆｓのプローブ利得が使用され得る。例えば、図１７に示されるデータをもたらした試験では、ＴＶの増幅は、２０％のボリュームで約４５ｄＢ減少する。このレベルでは、最大ボリュームで２７ｄＢＳＰＬであったプローブ信号が、ここで−１８ｄＢＳＰＬに減少する。ただし、すべてのボリュームレベルでプローブ信号が聞こえないことを保証するには、−９０ｄＢｆｓ未満のプローブ利得が使用され得る。ＳＣＭモジュールの追加の実証的研究では、約４０ｄＢＳＰＬで自己雑音を示すマイクロフォンを使用しても、プローブ信号レベルが−１８ｄＢＳＰＬという低いプローブサウンドレベルでプローブ信号は検出され得ることを示した。したがって、特定の実施形態によれば、プローブ信号の最大利得閾値を設定して、約−１８ｄＢＳＰＬより高いが、一般的なＴＶモデルの最大ＴＶボリュームの範囲にわたって２０ｄＢＳＰＬを超えないプローブレベルを生成するように設定され得る（ソースＴＶスピーカから１メートルの距離で測定）。いくつかの実施形態では、最大利得閾値は、プローブレベルが１５ｄＢＳＰＬ以下であることを保証するように設定され得る。

[0163]図１８は、本開示の例によるＳＣＭのためのプロセスを概念的に示すフローチャートである。例えば、ＶＣＭＤ３００などのＶＣＭＤは、図１５〜図１６を参照して上述したように、ＳＣＭモジュール１５１９および１６００などの１つまたは複数のＳＣＭモジュールを含むことができる状態モニタ３１９を採用することができる。

[0164]ステップ１８１０において、ＶＣＭＤは、ユーザによる可聴検出のための利得閾値を下回る第１の利得レベルを有する電気信号を生成することができる。いくつかの実施形態では、電気信号は、擬似ランダム数列などの所定の波形を含むことができる。例えば、再生コントローラ１６０３は、ＭＬＳに対応するＰＣＭ音声を生成することができる。いくつかの実施形態では、プローブ信号は、広帯域信号、例えば、１２〜２４ｋＨｚのより高い周波数の帯域制限信号、例えば、０〜１００Ｈｚの低周波数の帯域制限信号、または重み付き周波数応答を有する広帯域信号であり得る。いくつかの実施形態では、プローブ信号は、スピーカから出力される場合、白色雑音に似ている任意の信号または所定の波形であり得る。

[0165]ステップ１８２０において、電気信号は、例えば、ＨＤＭＩ（登録商標）接続によって、ＴＶ−ＡＶＲシステムのディスプレイに動作可能に結合されている１つまたは複数のスピーカに送信される。特定の実施形態によれば、電気信号の受信に応答して、１つまたは複数のスピーカは、電気信号（例えば、ＭＬＳ）の所定の波形に対応する音声信号を発することができる。いくつかの実施形態では、プローブ信号は、スピーカから、白色騒音のような音であり得るプローブ音声信号を生成するために使用され得る。

[0166]ステップ１８３０において、マイクロフォンは、周囲騒音とプローブ音声信号との組み合わせを含む音声信号を検出する。周囲騒音は、ＶＣＭＤのローカル環境（ＶＣＭＤが配置されている部屋など）からの任意の背景雑音を含むことができる。ＶＣＭＤの内部マイクロフォンによって検出された音声信号は、本明細書ではマイクロフォン信号とも呼ばれる。簡潔にするために、ローカル環境は本明細書では部屋と呼ばれるが、任意のローカル環境であることができる。図１６を参照して上述したように、検出された音声信号は、図１６を参照して上述したように、信号検出器、例えば、ＳＣＭモジュール１６００の信号検出器１６０１によってさらに処理され得る電気信号である。

[0167]相互相関は、本開示の範囲から逸脱することなく任意の方法で計算することができるが、図１８は、相互相関が周波数領域で計算される一例を示す。したがって、ステップ１８４０では、フーリエ変換された電気信号が計算され、ステップ１８５０では、フーリエ変換された音声信号が計算される。この開示の利点を有する当業者によって理解されるように、電気信号のフーリエ変換は、リアルタイムで計算される必要はなく、ＳＣＭプロセスの前に計算され、メモリに格納され得るが、この場合、ステップ１８４０は除去され得る。

[0168]ステップ１８６０において、信号検出器は、電気信号と音声信号との相互相関を計算する。上記のように、この例では周波数領域で相互相関を計算するが、相互相関は次のように時間領域で直接計算され得る。

ここで、ｍは音声信号、ｘは電気信号、Ｔはサンプルの相互相関の長さ、ｔは受信した音声信号の指標、例えば最新のサンプルの指標である。図２０Ａ〜図２０Ｂは、直接相互相関計算の結果を示す。図２０Ａに示されるように、相互相関のピーク２００１が見ることができ、プローブ音声信号は、原則として、音声信号内で検出され得るが、実質的に周期的である高振幅干渉信号２００３もまた存在する。干渉信号２００３の振幅が大きすぎる場合、干渉信号の振幅は、プローブピークの振幅を容易に超える可能性があり、それにより、単純なピーク検出プロセスを利用してプローブ音声信号の存在を検出することが困難になる。

[0169]いくつかの実施形態では、プローブ信号は、相互相関における干渉騒音信号の除去を可能にするように設計され得る。例えば、いくつかの実施形態では、擬似ランダムプローブ信号は、特定の範囲にわたってフラットな周波数応答を有するように選択され得る。次に、騒音抑制方法は、予想範囲外にある時間周波数ビンは干渉源によって引き起こされる可能性が高いという知識を利用できる。騒音を低減する１つの方法は、周波数領域で位相変換を適用することである。位相変換Ｍ’は、位相情報を保持しながら各時間−周波数ビンのエネルギーを正規化する変換であり、次のように計算され得る。

ここで、Ｍ（ｔ，ｆ）は、時間ｔと周波数ｆでの音声信号の複合短時間フーリエ変換（ＳＴＦＴ）である。この場合、位相変換された相互相関信号は次のように計算され得る。

ｙ_ｐｔ（ｔ）＝Ｆ^−１（Ｘ・Ｍ’（ｔ，ｆ））（３）

ここで、Ｆ^−１（ｆ）は関数ｆの逆フーリエ変換であり、Ｘは電気信号の短時間フーリエ変換であり、Ｍ’（ｔ，ｆ）は位相変換された音声信号であり、本明細書では正規化された音声信号とも呼ばれる。

[0170]いくつかの実施形態では、位相変換された信号は、時間領域で計算された裸の相互相関よりも良好に機能することができる。例えば、図２０の下のパネルは、サンプルデータの位相変換された相互相関を示す。データから明らかなように、干渉騒音信号が除去され、それにより、特定の実施形態による信号検出器の信号検出機能が改善される。

[0171]いくつかの実施形態では、音声信号に位相変換を適用することに加えて、またはその代わりに、信号検出器は、室内のローカルな音響状態に起因する反射および他の影響によるプローブ信号の歪みを補償することもできる。例えば、部屋の効果は、部屋のインパルス応答（ＲＩＲ）関数ｈを介してモデル化できて、受信した音声信号ｍは、次のようにｈとの畳み込みによって計算され得る。

ここで、ｍ_０は、部屋に起因する歪みがないと仮定した、時間領域で補正された音声信号である。したがって、周波数領域では、式（４）の畳み込みは次のように乗算の形を取ることができる。

Ｍ（ｋ）＝Ｈ・Ｍ_０（ｋ）（５）

ここで、Ｍ（ｋ）は音声信号ｍ（ｔ）のフーリエ変換、例えばＳＴＦＴであり、Ｍ_０（ｋ）は歪みのない音声信号のフーリエ変換、例えばＳＴＦＴであり、Ｈは対角行列であり、対角線はｈの周波数領域を表すものである。いくつかの実施形態では、信号検出器は、逆ＲＩＲ関数を測定された音声信号に適用して、本明細書では周波数領域補正音声信号とも呼ばれる歪みのない音声信号Ｍ_０（ｋ）を近似することができる。

Ｍ_０（ｋ）＝Ｈ^−１・Ｍ（ｋ）（６）

したがって、改善された相互相関を決定するために、測定された音声信号の代わりに、理想化された音声信号への近似が使用され得る。別法として、式（３）を参照して上述した位相変換データを活用するために、いくつかの実施形態では、ＲＩＲを考慮に入れる補正された相互相関信号は、次のように変換された位相変換信号の相互相関に整合フィルタを適用することによって計算され得る。

[0172]さらに別の例では、時間領域補正音声信号ｍ_０（ｔ）は、式（６）の逆フーリエ変換を計算することによって生成され得る。次に、この時間領域補正音声信号を使用して、式（１）を適用することにより、つまり、時間領域補正音声信号ｍ_０（ｔ）と電気信号ｘ（ｔ）の相互相関を取ることにより、相互相関信号を生成できる。

[0173]図２１Ａは、本発明の実施形態による、電気信号と位相変換された音声信号との相互相関のプロットである。図２１Ｂは、本発明の実施形態による、整合フィルタによる位相変換された音声信号の相互相関のプロットである。プローブピーク２１０１が見える図２１Ｂに示されるように、位相変換された音声信号をＲＩＲ関数と相互相関させると、信号対雑音が大幅に増加し、したがって感度が増す。対照的に、プローブピークは図２１Ａでは見ることができず、図２１Ａは、周囲騒音の影響および／または部屋の環境の影響、スピーカおよびマイクロフォンの伝達関数などを含まないデータを提示している。

[0174]いくつかの実施形態では、ＲＩＲの長さが、適用される任意のＳＴＦＴのウィンドウよりも長い場合があり得るので、その場合、重複加算法は、以下のように適用され得る。

[0175]ステップ１８７０では、相互相関信号ｙと共にピーク検出器を利用することにより、プローブ信号の電力レベルが決定され得る。いくつかの実施形態では、ピーク検出器は、以下のように相互相関の最大値を見つけることができる。

[0176]いくつかの実施形態では、例えば、非常に低レベルのプローブ信号について、複数の異なる技法を採用して、ピーク検出器の検出効率を改善することができる。例えば、場合によっては、ユーザによるプローブ信号の検出を回避するために、プローブ信号のレベルを−９０ｄＢｆｓまで低く設定できる。このような低レベル（−９０ｄＢｆｓは符号付き１６ビット整数の最後の桁に対応する）では、式（１）〜（８）を参照して上記で考察した処理を使用してｙ_ｍａｘを識別することが難しい可能性がある。この問題を克服するために、複数の異なる技法を採用できる。例えば、相互相関計算のために、より長い相関時間（より大きなＴ）を選択できる。別法として、またはより長い相関時間に加えて、１つまたは複数の無限インパルス応答（ＩＩＲ）または有限インパルス応答（ＦＩＲ）フィルタを採用できる。例えば、相互相関は次のように複数の反復でフィルタリングされ得る。

ここで、ａ_ｉはフィルタの係数である。他の実施形態によれば、相互相関の実行値は、次の形式の再帰型積算器を適用することによって維持され得る。

ここで、ｙ（ｔ）はｉ番目の反復で測定された相互相関の値、

は最後の（ｉ−１番目）の反復中に計算されたフィルタ処理された値、および

はｉ番目の反復で計算されたフィルタ処理された更新された値である。積分定数０＜β＜１は、新しく取得したデータと比較して履歴値にどの程度の重みを付けるかによって選択され、βの値が大きいほど、新しい値と比較して履歴値に高い重みが適用される（例えば、β＝１の場合、更新された値は常に履歴値と等しくなり、同様に、β＝０の場合、履歴値の大きさに関係なく、更新された値は常に最新の値になる）。

[0177]図１８に戻ると、ステップ１８７０において、ＴＶ−ＡＶＲシステムのディスプレイの状態が決定される。いくつかの実施形態では、システムは、ＴＶ−ＡＶＲディスプレイ電源状態（オン／オフ）、ＡＶチャネル待機時間、および／またはＴＶ−ＡＶＲシステムのボリュームを決定することができる。ＴＶ−ＡＶＲ表示電源状態に関連して、検出されたピークｙ_ｍａｘの最大値は、検出閾値電力レベルと比較され得る。検出閾値電力レベルは、ユーザには聞こえないプローブ音声信号の電力レベルである。いくつかの実施形態では、状態検出器は、相互相関ピークの正規化された値が検出閾値電力レベルａに等しいかそれを超えるかどうかをテストすることによって実行され得る。例えば、信号検出器は次の状態検出器（ＳＤ）を実行できる。

この場合

および相互相関信号の平均値は、

によって得られる。

[0178]プローブ音声信号は、ＡＶチャネル待機時間ならびにＴＶ−ＡＶＲボリュームの決定に役立つ情報を含む。例えば、スピーカから出力される電気信号とプローブ音声信号との間の時間シフトとして定義されるＡＶチャネル待機時間ｌは、相互相関信号ｙから次のように計算され得る。

ｌ＝ａｒｇｍａｘ_ｉｙ（ｉ）（１５）

いくつかの実施形態では、ＡＶチャネルの平均待機時間よりも短いプローブ信号を採用することが有利な場合がある。例えば、４８ｋＨｚで、プローブシーケンスの長さ１０２４のサンプルの再生持続時間は０．０２秒であるが、ＨＤＭＩ（登録商標）での一般的な待機時間値は０．１秒から０．２秒まで変化し得る。待機時間がプローブ信号の再生持続期間よりも長いそのような場合、複数の方法を使用して、検出されたどの音声信号が適切なプローブ信号に対応するか（「アンラッピング」とも呼ばれる）を識別することができる。１つの方法は、同じプローブ信号の複数のタイムシフトされたバージョンを再生することを含み、その場合、相互相関のピーク間の時間差を使用して、アンラッピングを決定することができる。

[0179]ステップ１８７０でＴＶ−ＡＶＲシステムのボリュームもまた推定される場合、１つまたは複数の実施形態は、ステップ１８６０を参照して上述したように、セットアップ中に達成され得る初期ボリューム較正を活用することができる。相互相関の最大値ｙ_ｍａｘは、次の関係に従ってＴＶ−ＡＶＲボリュームレベルｖに依存する。

したがって、ＴＶ−ＡＶＲシステムの相対ボリュームレベル（０〜１００％）は、以下を使用して相互相関の最大値から計算され得る。

ここで、ｖ_ｒｅｆはセットアッププロセス中に決定される基準利得である。一般に、ＴＶ−ＡＶＲボリュームとプローブ信号ボリュームとの間のマッピングは、例えば、図１７に示されるように線形ではない可能性があるので、式（１７）に示される線形関係はすべての場合に当てはまらない可能性がある。ただし、セットアッププロセス中に、必要に応じて、プローブボリュームからＴＶ−ＡＶＲボリュームへの完全なマッピングが決定され、メモリに格納され、式（１７）の代わりに使用され得る。

[0180]図１９は、本開示の例による、プローブボリュームレベルを追跡および制御するためのプロセスを概念的に示すフローチャートを示す。より具体的には、特定の実施形態によれば、システムは、プローブ信号が信号検出器によって検出可能であるには十分に大きいが、サブ可聴であるには十分静かであり、すなわちユーザが聞こえないほど静かにプローブ信号を保つという目的のバランスをとることができる。以下で説明する方法では、プローブ信号の最大レベルは、プローブｇ_{ｐｒｏｂｅ}の利得を何らかの値ｇ_ｍａｘに制限することによって上限を定められ、ここで、ｇ_ｍａｘは、プローブ信号が信号検出器によって確実に検出できるが、やはりユーザにとってはサブ可聴であることを保証するように設定される。システムが、プローブがタイムアウトタイマによって測定された所定の期間（本明細書では「タイムアウト時間」と呼ばれる）の間最大利得レベルにあったことを検出し、システムがまだプローブ信号の存在を検出していない場合には、信号検出器はＴＶ−ＡＶＲシステムがオフ状態であると決定し、少なくとも一時的にＳＣＭを終了する。この方法の詳細については、以下で説明される。

[0181]ステップ１９１０〜１９１４は、それぞれ図１８のステップ１８１０〜１８３０に対応する。同様に、ステップ１９１６は、ステップ１８４０〜１８７０に対応し、図１８を参照して上述したように、信号検出器によってプローブ電力レベルＰが計算される結果となる。この例では、プローブ信号の利得ｇ_{ｐｒｏｂｅ}は、最初に下限ｇ_ｉｎｉｔに設定され、次いで、プローブが検出されるか、またはｇ_ｍａｘにあるプローブ信号に関連する時間がタイムアウト値を超えるまで、反復的に増加されることに留意すること以外は、これらのステップの詳細は本明細書では再現されない。一例では、システムは、プロセスの任意の時点で、例えば、ステップ１９１０〜１９２０のいずれかと同時にタイマーを開始することができる。

[0182]ステップ１９２０では、プローブ電力レベルＰ（式（１３）を参照して上記のｉｎｄ（ｔ）とも呼ばれる）がＳＣＭ検出閾値電力αと比較される。Ｐがα以上の場合、信号検出器はプローブが検出されたと見なし、それに応じてＴＶ−ＡＶＲ状態を更新する。例えば、ＳＣＭモジュールは、２つから成るＴＶ−ＡＶＲ状態パラメータを「オン」などに設定することができる。他の実施形態では、ＳＣＭモジュールは、図１８を参照して上述したように、ＴＶ−ＡＶＲシステムのボリュームレベルも追跡するようにＰの値を格納することもできる。Ｐが検出閾値αよりも小さい場合、方法はステップ１９２４に進行する。

[0183]ステップ１９２４では、プローブ信号の利得ｇ_{ｐｒｏｂｅ}が最大利得ｇ_ｍａｘに達したかどうかの決定が行われる。ｇ_{ｐｒｏｂｅ}がｇ_ｍａｘに等しい場合、方法はステップ１９３０に進む。プローブ信号がまだｇ_ｍａｘにない場合、方法はステップ１９２８に進行し、プローブ信号の利得が増分される。例えば、利得は、所定の増分で増加させることができる。この開示の恩恵を受けて当業者によって理解されるように、ｇ_ｍａｘは、ＴＶ−ＡＶＲシステムの性質に応じて、いくつかの異なる値に設定され得る。例えば、ｇ_ｍａｘは、−９０ｄＢｆｓ、−９６ｄＢｆｓに設定可能であり、または非常に高い増幅器利得を持つ一部のハイエンド音声システムでは−１４０ｄＢｆｓにさえ設定され得る。いくつかの実施形態では、ｇ_ｍａｘは、プローブ信号電力レベルが可聴レベル、すなわち、図１７を参照して上述したように、ユーザによって検出可能なレベルに決して到達しないことを保証するために望ましい任意の値に設定され得る。

[0184]いくつかの実施形態では、ステップ１９２８は、利得を増加させるだけでなく、プローブ電力レベルの測定値に基づいて利得を増加および減少させることができる利得制御ループを実行することができる。そのような場合、利得の修正は、測定プローブ電力が１つまたは複数の範囲内にあるかどうかに依存することができ、その範囲は、１つまたは複数のプローブ電力閾値によって定められる。例えば、相互相関の正規化されたピーク値に依存する次の複数の閾値更新手順に従って、利得が更新され得る。

当業者には理解できるように、本開示の範囲から逸脱することなく、任意のタイプの更新手順が採用され得る。加えて、図１９に示される手順は、任意のタイプのコントローラを使用して、例えば、ＰＩコントローラ、ＰＩＤコントローラ、任意のタイプのファジー論理タイプのコントローラなどを使用して実行され得る。

[0185]ｇ_{ｐｒｏｂｅ}がｇ_ｍａｘに等しくなると、システムがタイムアウト時間Ｔ_{ｔｉｍｅｏｕｔ}よりも長い間その最大プローブ信号利得設定ｇ_ｍａｘにあったかどうかが１９３０で判断される。システムがｇ_ｍａｘに達し、Ｔ_{ｔｉｍｅｏｕｔ}が経過した場合、ステップ１９３２で、信号検出器はＴＶ−ＡＶＲ状態パラメータを「オフ」に設定し、次いで現在のＳＣＭプロセスループを終了できる。いくつかの実施形態では、プローブ信号は聞こえないため、ＳＣＭループを終了する必要はなく、プローブ信号は、ユーザによる検出のリスクなしに連続的に再生され得る。そのような場合、タイムアウト時間が経過した後、信号検出器はＴＶ−ＡＶＲ状態パラメータを「オフ」に設定でき、プローブ信号は出力され続ける。

[0186]いくつかの実施形態では、ステップ１９２８は、相互相関が計算される積分時間（Ｔ）が増加するプロセスを伴うか、またはそのプロセスによって置き換えることができる。例えば、一実施形態では、ｇがｇ_ｍａｘに達しても、信号検出器による十分に大きなピークの検出がまだない場合、次いで信号対騒音を増加させる意図で、相互相関を計算するための積分時間が増加され得る。このような場合、タイムアウト時間もまた修正されて、新しく増加した積分時間よりも長い時間に設定されることを保証することができる。

[0187]図２２は、特定の実施形態による、ＴＶ−ＡＶＲ状態検出および監視が可能なＶＣＭＤ２２００を示す。より具体的には、ＶＣＭＤ２２００は、本明細書でＨＤＭＩ（登録商標）プリミティブベースの状態検出（ＰＢＳＤ）と呼ばれるプロセスを採用するように構成されている。ＰＢＳＤは、接続されたＴＶ−ＡＶＲシステムの状態、例えば、ＶＣＭＤ２２００がＴＶ−ＡＶＲシステム２２０３にフォーカスを合わせているかどうか、およびＴＶ−ＡＶＲシステムのボリュームが可聴レベルに設定されているかどうかを決定するために、ＶＣＭＤ、例えば、図３に示されるＶＣＭＤ３００によって使用され得るプロセスである。特定の実施形態によれば、ＰＢＳＤを採用するＶＣＭＤは、ＶＣＭＤ２２００のＨＤＭＩ（登録商標）ポート２２０１から本明細書で「ＨＤＭＩ（登録商標）プリミティブ」と呼ばれる１つまたは複数のＨＤＭＩ（登録商標）プリミティブ信号を測定し、次に、ＴＶ−ＡＶＲシステム２２０３の状態を判定することができる。ＰＢＳＤを採用することができるＶＣＭＤシステムをさらに説明するために、図２２は、明確にするためにＶＣＭＤの他のすべての要素が除去された、ＨＤＭＩ（登録商標）状態検出サブシステム２２０２を有するＶＣＭＤ２２００を示す。

[0188]ＰＢＳＤサブシステム２２０２は、デュアルモードコントローラ２２２１およびデバイスコントローラ２２２５の両方に動作可能に接続されるＨＤＭＩ（登録商標）状態検出モジュール２２１９を含む。デュアルモードコントローラ２２２１およびデバイスコントローラ２２２５の両方は、音声対話マネージャ（図示せず）、および最終的には音声認識サービス（図示せず）に接続することができ、図３〜図１１を参照して上記でより詳細に説明される。ＰＢＳＤサブシステム２２０２は、例えば、ＨＤＭＩ（登録商標）ケーブルなどのような電気的相互接続２２２３を介して、ＴＶ−ＡＶＲシステム２２０３のＨＤＭＩ（登録商標）ポート２２２９に接続することができるＨＤＭＩ（登録商標）ポート２２０１をさらに含む。図２２に示す例では、ＴＶ−ＡＶＲシステム２２０３は、ＡＶＲ２２０４およびＴＶ２２０６を含む。ＴＶ２２０６は、ＨＤＭＩ（登録商標）ポート２２０８、ディスプレイ２２１０、およびＴＶスピーカ２２１２を含む。ＡＶＲ２２０４は、ＨＤＭＩ（登録商標）トポロジに関して、ＶＣＭＤ２２００がソースとして機能し、ＡＶＲ２２０４がリピータとして機能し、ＴＶ２２０６がシンクとして機能するように、ＴＶ２２０６に動作可能に接続される。ＡＶＲ２２０４はまた、ＶＣＭＤ２２００から供給されるコンテンツに高品質の音を提供するために、１つまたは複数の外部スピーカ（単数または複数）２２１４に接続される。

[0189]いくつかの実施形態では、ＨＤＭＩ（登録商標）状態検出モジュール２２１９上で実行されるＰＢＳＤプロセスは、ＴＶ−ＡＶＲシステム２２０３の状態を自動的に、例えば、毎秒数回、反復的および／または同期的に監視することができる。いくつかの実施形態では、ＰＢＳＤプロセスは、非同期的に動作することができ、例えば、ＰＢＳＤプロセスは、ＨＤＭＩ（登録商標）状態検出モジュール２２１９に送信されるコマンドによって開始され得る。例えば、ＶＣＭＤ２２００によるウェイクワードの検出に応答して、デュアルモードコントローラ２２２１は、ＨＤＭＩ（登録商標）状態検出モジュール２２１９にコマンドを送信して、ＰＢＳＤプロセスを開始することができる。同期または非同期に動作しているかどうかに関係なく、ＨＤＭＩ（登録商標）状態検出モジュールがＴＶ−ＡＶＲシステム２２０３に関連付けられた１つまたは複数のＨＤＭＩ（登録商標）プリミティブをＨＤＭＩ（登録商標）ポート２２０１から読み取るとき、ＰＢＳＤプロセスが開始される。

[0190]図２３〜図２６を参照して以下でさらに詳細に説明するように、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、１つまたは複数のＨＤＭＩ（登録商標）プリミティブの値に基づいてＴＶ−ＡＶＲ状態を決定するＰＢＳＤプロセスを実行することができる。

[0191]図２２では、ＴＶ−ＡＶＲシステムの一般化された形態が示されているが、図３および図１５を参照して既に上述したように、ＴＶ−ＡＶＲシステムは、本開示の範囲から逸脱することなく任意の形態を取ることができる。

[0192]以下でさらに詳細に説明するように、ＨＤＭＩ（登録商標）状態検出モジュールは、複数のプリミティブに関連する値および／またはデータを読み取ることができる。プリミティブの例は、ホットプラグ検出プリミティブ（ＨＰＤ）、高帯域幅デジタルコンテンツ保護プリミティブ（ＨＤＣＰ）、拡張ディスプレイ識別データプリミティブ（ＥＤＩＤ）、およびＩＳ＿ＲＥＰＥＡＴＥＲプリミティブ（ＩＲ）を含む。

[0193]ＨＰＤプリミティブは、別のデバイスがＨＤＭＩ（登録商標）ケーブルを介して接続されているかどうかを示すように設計されている。いくつかの実施形態では、ＨＰＤは、ＨＤＭＩ（登録商標）ポートのピンに印加される電圧値を介して通信される。ＨＰＤピンの電圧値が高い場合は、別のデバイスがＨＤＭＩ（登録商標）ケーブルに接続されていることを示す。場合によっては、ＨＰＤピンに印加される正確な電圧値が接続されたデバイスの電源状態を示すことができるが、これは一般にすべての製造業者に当てはまるわけではない。

[0194]ＥＤＩＤは、シンクデバイスのメディア機能を記述する。例えば、シンクデバイスがＴＶの場合、図２２に示すように、ＴＶがオンの場合、ＥＤＩＤはＴＶおよびＴＶのメディア機能の両方を記述する。例えば、ＥＤＩＤは、メーカー名とシリアル番号、製品タイプ、蛍光体またはフィルタタイプ、ディスプレイによってサポートされるタイミング、ディスプレイサイズ、輝度データ、およびピクセルマッピングデータ（デジタルディスプレイのためにのみ）を含むことができる。図２２に示すように、ＡＶＲがリピータとして機能するいくつかのトポロジでは、ＴＶがオフの場合、ＥＤＩＤは、ＡＶＲおよびＡＶＲのメディア機能を記述することができる。ただし、他の場合では、接続されたデバイスがオフ状態の場合にＥＤＩＤが使用できなくなる可能性がある。

[0195]ＥＤＩＤは、ＶＣＭＤ２２００によって使用される物理アドレス情報も伝えることができる。物理アドレスは、ＨＤＭＩ（登録商標）トポロジツリーでのデバイスの配置を示す。図２２に示されるように、ＡＶＲ２２０４およびＴＶ２２０６を含む複雑なトポロジでは、物理アドレスの変化は、ＴＶ２２０６の電源状態の変化を示すことができる。例えば、１．１．０．０から１．０．０．０へのアドレス変更は、ＶＣＭＤ２２００の配置がレベル２からレベル１に昇格され、ＡＶＲ２２０４がシンクデバイスになったことを意味する可能性がある。これは、例えば、テレビの電源状態がオフに切り替えられた場合に発生する。同様に、１．０．０．０から１．１．０．０への変更は、ＴＶ２２０６がオフからオンに切り替わり、したがって再びシンクデバイスになった、反対のシナリオを示す可能性がある。

[0196]ＨＤＣＰは、デジタル著作権管理（ＤＲＭ）メディアコンテンツを１つまたは複数のシンクデバイス（例えば、テレビなど）に送信するための安全なメディアパスが存在するかどうかを、接続されたコンテンツソースに示すように設計されている。ＨＤＣＰスキームでは、ＤＲＭコンテンツを保護するために、コンテンツがシンクデバイスで再生され得る前に、デバイスはソースに対して認証する必要がある。認証されると、暗号化されたコンテンツはＨＤＭＩ（登録商標）ケーブルを介して送信され、シンクで復号化され得る。暗号化の方法を決定するには、シンクはソースによって使用されているＨＤＣＰのバージョンを認識する必要がある。したがって、ＨＤＭＩ（登録商標）接続を介して送信されるＨＤＭＩ（登録商標）データは、本明細書ではＨＤＣＰ＿ｖｅｒｓｉｏｎと呼ばれ、使用されているＨＤＣＰのバージョンを識別するＨＤＣＰデータ要素を含む。さらに、ＨＤＭＩ（登録商標）接続を介して送信されるＨＤＭＩ（登録商標）データは、シンクが認証されたかどうかを識別する、本明細書でＨＤＣＰ＿ａｕｔｈと呼ばれる別のＨＤＣＰデータ要素を含む。いくつかの実行では、ＨＤＣＰ＿ａｕｔｈは二進値を取ることができ、例えば、シンクが認証されている場合はＴＲＵＥに設定され、シンクが認証されていない場合はＦＡＬＳＥに設定される。場合によっては、ＨＤＣＰ＿ｖｅｒｓｉｏｎデータは、使用されているＨＤＣＰプロトコルのバージョンを示す文字列を含むことができる。したがって、ＨＤＣＰ＿ｖｅｒｓｉｏｎの値がＮＵＬＬの場合は、ソースデバイスとシンクデバイスとの間に安全なメディアパスがないことを示す。ほとんどの場合、ＨＤＣＰ＿ＡｕｔｈとＨＤＣＰ＿ｖｅｒｓｉｏｎは一緒に変化するが、しかし何らかの音声ビジュアル機器は、シンクデバイスがオフになった後でも、ＨＤＣＰ＿Ａｕｔｈの値をｔｒｕｅに設定した状態に維持することができる。このような場合、ＨＤＣＰ＿ｖｅｒｓｉｏｎは通常ＮＵＬＬに切り替わる。そのため、ＨＤＣＰ＿Ａｕｔｈ値がまだｔｒｕｅであっても、ｎｕｌｌ以外からｎｕｌｌに、ＨＤＣＰ＿ｖｅｒｓｉｏｎからの切り替えは、シンクのスイッチを切ることを示す。

[0197]図２２に示すようなＡＶＲを含むトポロジでは、ＩＲの値は、ＡＶＲ２２０４がＴＶ２２０６への信号を繰り返しているかどうかを示すことができる。そうでない場合は、ＴＶ２２０６が電源を切られているか、オフ状態であることを示す。物理アドレスの変更と組み合わせると、ＩＲは、複雑なトポロジでＴＶの状態を決定するのに特に役立つことができる。

[0198]図２３は、特定の実施形態によるＰＢＳＤの一例を示す。より具体的には、図２３に示される方法は、特定の実施形態による組み合わされたプリミティブハッシュに依存する。この手法では、ＶＣＭＤのセットアップ手順中に、プリミティブＨＰＤ、ＨＤＣＰ、ＥＤＩＤ、およびＩＳ＿ＲＥＰＥＡＴＥＲの値が収集され、同時にユーザのＴＶ−ＡＶＲシステムの構成要素が様々な状態で誘導される。例えば、図２２に示すような、ＡＶＲ２２０４とＴＶ２２０６の両方を含むＴＶ−ＡＶＲシステムでは、ＴＶ−ＡＶＲシステムの１６の可能な状態は、ＴＶ電源状態（オン／オフ）、ＴＶ入力状態（ＶＣＭＤポートアクティブ／非ＶＣＭＤポートアクティブ）、ＡＶＲ電源状態（オン／オフ）、およびＡＶＲ入力状態（ＶＣＭＤポートアクティブ／非ＶＣＭＤポートアクティブ）の間のすべての組み合わせを含むことができる。ＴＶ−ＡＶＲシステムの１６の可能な状態のそれぞれについて、プリミティブ値が結合され、次にハッシュされる。特定の実施形態によれば、ハッシュは、最初にプリミティブ値を連結し、増分ハッシュ関数または当技術分野で既知の他の適切なハッシュ技法を使用して、連結された結果を暗号学的に強力なハッシュに通すことによって達成され得る。

[0199]理想的には、１６個の個別の組み合わされたプリミティブの値が一意のハッシュ値につながるため、したがってハッシュ値はＴＶ−ＡＶＲシステムの状態を一意的に識別する。いくつかの例ではこれが当てはまらない場合があるため、１つまたは複数の実施形態では、技術に加えて他の状態検出技術／ロジックを採用できるが、これが当てはまる場合でも、テストにより、やはりＴＶオフ状態が高い信頼度で報告され得ることが判明する。

[0200]図２３は、特定の実施形態によるＰＢＳＤプロセスを示す。このプロセスは、以下に説明するように、ＴＶ−ＡＶＲの状態を決定するために、１つまたは複数の組み合わされたハッシュ値に依存する。このプロセスはＶＣＭＤで実行されて、ディスプレイに接続されたＴＶ−ＡＶＲシステムの状態を決定することができる。例えば、図２２を参照すると、図２３のＰＢＳＤプロセスは、ＨＤＭＩ（登録商標）状態検出モジュール２２１９で実行できる。特定の実施形態によれば、ＨＤＭＩ（登録商標）状態検出モジュールは、１つまたは複数のプロセッサおよびコンピュータメモリを含むことができるＨＤＭＩ（登録商標）ＩＣまたはＨＤＭＩ（登録商標）システムオンチップ（ＳＯＣ）を含むことができる。ＰＢＳＤプロセスは、上述のＳＣＭと同様の方法で、上述のように同期または非同期で実行できる。

[0201]ステップ２３１０で、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、ＴＶ−ＡＶＲシステム２２０３に接続されているＨＤＭＩ（登録商標）ポートからプリミティブ値のセットを取得することができる。特定の実施形態によれば、プリミティブのセットは、ＨＰＤ、ＨＤＣＰ、ＥＤＩＤおよびＩＲなどのプリミティブからの値であり得る。

[0202]ステップ２３３０では、単一のハッシュ値が、ＶＣＭＤの初期設定手順中に取得され、メモリに格納された特徴的なハッシュ値のセットと比較される。

[0203]ステップ２３４０で、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、単一のハッシュ値が、ＴＶ−ＡＶＲオン状態を含む任意の格納されたＴＶ−ＡＶＲ状態にマッピングするかどうかを決定する。「はい」の場合、方法はステップ２３５０に進行する。「いいえ」の場合、方法はステップ２３５０に進行し、ＴＶ−ＡＶＲシステムがオフ状態であることを報告する。次いで、プロセスが呼び出されて、ＴＶ−ＡＶＲシステム状態を更新する次の時に初めて、ＰＢＳＤプロセスは終了する。

[0204]ステップ２３５０で、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、ＴＶ−ＡＶＲオン状態が、単一のハッシュ値を格納された特性ハッシュ値とマッチングすることによって得られるＴＶ−ＡＶＲ状態のセットで表される唯一の状態であるかどうかを決定する。「いいえ」の場合、プロセスが呼び出されて、ＴＶ−ＡＶＲシステム状態を更新する次の時に初めて、ＰＢＳＤプロセスは終了する。「はい」の場合、方法は、ＴＶ−ＡＶＲシステムがオン状態であることを報告し、次いで、プロセスが呼び出されて、ＴＶ−ＡＶＲシステム状態を更新する次の時に初めて終了する。

[0205]図２４は、特定の実施形態によるＰＢＳＤプロセスを示す。このプロセスは、ＨＤＰ、ＨＤＣＰ＿Ａｕｔｈ、およびＨＤＣＰ＿ｖｅｒｓｉｏｎを使用したＴＶ−ＡＶＲ状態の検出に依存する。このプロセスは、ＨＰＤとＨＤＣＰの両方を定期的に監視し、これらのプリミティブのいずれかの変更が検出された場合にＴＶ−ＡＶＲ状態の更新を開始できる。

[0206]したがって、方法は、ステップ２４１０で開始し、ＨＰＤまたはＨＤＣＰのいずれかの値が最近変更されたことを、ＨＤＭＩ（登録商標）状態検出モジュール２２１９によって検出する。

[0207]ステップ２４２０で、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、ＨＰＤが高状態にあるか、またはＨＤＣＰ＿Ａｕｔｈが高状態にあるかどうかを決定する。どちらも高状態でない場合、方法はステップ２４３０に進行し、ＴＶ−ＡＶＲシステムがオフ状態であることを報告する。次いでこの方法は、ＨＤＰまたはＨＤＣＰのいずれかの変化が検出される次の時に初めて終了する。ＨＰＤが高いか、またはＨＤＣＰ＿Ａｕｔｈが高い場合、方法はステップ２４４０に進行する。

[0208]ステップ２４４０で、ＨＤＭＩ（登録商標）状態検出モジュール２２１９は、ＨＤＣＰ＿ＶｅｒｓｉｏｎがＮＵＬＬでないかどうかを検出する。ＨＤＣＰ＿ＶｅｒｓｉｏｎがＮＵＬＬの場合、方法はステップ２４５０に進行し、ＴＶ−ＡＶＲシステムがオフ状態であることを報告する。次いでこの方法は、ＨＤＰまたはＨＤＣＰのいずれかの変化が検出される次の時に初めて終了する。ＨＤＣＰ＿ＶｅｒｓｉｏｎがＮＵＬＬでない場合、方法は終了し、以前のＴＶ−ＡＶＲシステム状態を維持する。以前と同様に、ＨＤＰまたはＨＤＣＰのいずれかの変更が検出された場合、方法は後で再度実行できる。

[0209]図１〜図２４の例示的な方法およびプロセスフローにおいて説明および描写される動作は、本開示の様々な例示的な実施形態において所望されるように、任意の適切な順序で実行され、または実施され得る。加えて、特定の例示的な実施形態では、動作の少なくとも一部は並行して実行され得る。さらに、特定の例示的な実施形態では、図１〜図２４に示されるものよりも少ない、多い、または異なる操作が実行され得る。

[0210]したがって、明細書および図面は、限定的な意味ではなく例示的な意味で見なされるべきである。しかしながら、特許請求の範囲に記載されている本開示のより広い趣旨および範囲から逸脱することなく、様々な修正および変更を行うことができることは明らかであろう。

[0211]他の変形形態は、本開示の精神の範囲内である。したがって、開示された技術は、様々な修正形態および代替構造の影響を受けやすいが、その特定の例示的な実施形態が図面に示され、詳細に上述されている。しかしながら、本開示を開示された特定の形態（単数または複数）に限定する意図はないことを理解すべきであるが、しかし反対に、その意図は、添付の特許請求の範囲で定義されている本開示の精神および範囲に含まれるすべての修正形態、代替構造、および均等物を包含することである。

[0212]開示された実施形態を説明する文脈において（特に、以下の特許請求の範囲において）用語「ａ」および「ａｎ」および「ｔｈｅ」および同様の参照対象の使用は、本明細書に別段の記載がなく、または文脈によって明らかに矛盾しない限り、単数および複数の両方を包含すると解釈されるべきである。「備える」、「有する」、「含む」、および「含む」という用語は、特に断りのない限り、制限のない用語（すなわち、「含むがこれに限定されない」を意味する）として解釈されるべきである。「接続されている」という用語は、たとえ何かが介入したとしても、部分的または完全に内部に含まれる、取り付けられる、または一体に結合されるとして解釈されるべきである。本明細書での値の範囲の列挙は、本明細書で別段の指示がない限り、範囲内の各個別の値を個別に参照する簡略法として機能することのみを意図し、各個別の値は、本明細書で個別に列挙されているものとして本明細書に組み込まれる。本明細書に記載されるすべての方法は、本明細書で別段の指示がない限り、または文脈によって明らかに矛盾しない限り、任意の適切な順序で実行され得る。本明細書で提供されるありとあらゆる例または例示的な言語（例えば、「など」）の使用は、本開示の実施形態をよりよく明らかにすることだけを意図しており、別段の請求がない限り、本開示の範囲を限定するものではない。本明細書中の言語は、任意の特許請求されていない要素を本開示の実施に不可欠であると示すものと解釈されるべきではない。

[0213]フレーズ「Ｘ、Ｙ、またはＺの少なくとも１つ」などの分離語は、特に明記されていない限り、一般的に使用される文脈内で理解され、項目、用語などが、Ｘ、Ｙ、またはＺであり、あるいはそれらの任意の組み合わせ（例えば、Ｘ、Ｙ、および／またはＺなど）であることを示すことを意図するものである。したがって、そのような分離語は、特定の実施形態が少なくとも１つのＸ、少なくとも１つのＹ、または少なくとも１つのＺのそれぞれが存在することを必要とすることを意味すると一般的に意図されるのではなく、意味すべきものではない。

[0214]この開示の好ましい実施形態は、本明細書に記載されており、開示を実行するために発明者に知られている最良の形態を含む。これらの好ましい実施形態の変形形態は、前述の説明を読むと当業者に明らかになる可能性がある。本発明者らは、当業者がそのような変形形態を適切なものとして採用することを期待し、本発明者らは、本明細書に具体的に記載された以外の方法で本開示が実施されることを意図する。したがって、この開示は、適用される法律によって許可されるように、本明細書に添付された特許請求の範囲に列挙された主題のすべての修正形態および均等物を含む。さらに、そのすべての可能な変形形態における上述の要素の任意の組み合わせは、本明細書で別段の指示がない限り、または文脈によって明らかに矛盾しない限り、本開示によって包含される。

[0215]本明細書に引用される、出版物、特許出願、および特許を含むすべての参考文献は、各参考文献が個別にかつ具体的に参照により組み込まれることが示され、その全体が本明細書に記載された場合と同程度に、参照により本明細書に組み込まれる。

[0216]本開示の実施形態の例は、以下の条項を考慮して説明され得る。

[0217]条項１．内部スピーカを有する音声制御デバイスのマイクロフォンで、ユーザからの最初の音声入力を受信するステップを含む、コンピュータ実施方法。音声制御デバイスは、テレビの第１のＨＤＭＩ（登録商標）ポートに動作可能に接続される。第１の音声入力はウェイクワードを含む。コンピュータ実施方法はまた、音声制御デバイスのマイクロフォンで、第２の音声入力を受信するステップであって、第２の音声入力が、映画および映画に関連する動作に関する情報を含む、ステップと、音声制御デバイスによって、テレビがオンかオフかを決定するステップであって、テレビがオンの場合：音声制御デバイスによって、テレビのアクティブなＨＤＭＩ（登録商標）ポートが第１のＨＤＭＩ（登録商標）ポートではないことを決定するステップと、音声制御デバイスのＩＲ送信機を介して、音声制御デバイスからテレビに、テレビをミュートするデータを送信するステップと、音声制御デバイスの内部スピーカ上にハンドオーバ音声メッセージを再生するステップであって、ハンドオーバ音声メッセージは、映画がテレビで再生されることをユーザに示す、ステップと、ハンドオーバメッセージを再生した後、音声制御デバイスのＩＲ送信機を介して、音声制御デバイスからテレビに、テレビをミュート解除するデータを送信するステップと、音声制御デバイスのＩＲ送信機を介して、音声制御デバイスからテレビに、テレビのアクティブなＨＤＭＩ（登録商標）ポートを第１のＨＤＭＩ（登録商標）ポートに設定するデータを送信するステップとを含む。テレビがオフの場合：音声制御デバイスの内部スピーカ上にハンドオーバ音声メッセージを再生するステップと、音声制御デバイスのＩＲ送信機を介して、音声制御デバイスからテレビにテレビをオンにするデータを送信するステップと、音声制御デバイスのＩＲ送信機を介して、音声制御デバイスからテレビに、テレビのアクティブなＨＤＭＩ（登録商標）ポートを第１のＨＤＭＩ（登録商標）ポートに切り替えるデータを送信するステップとを含む。コンピュータ実施方法はさらに、映画に関連するビデオデータを音声制御デバイスで受信するステップと、第１のＨＤＭＩ（登録商標）ポートを介して、テレビにビデオデータを送信するステップとを含む。

[0218]条項２．テレビがオンであるかオフであるかを決定するステップが、音声制御デバイスによって、およびユーザからの第１の音声入力の受信に応答して、擬似ランダム数列を表す電気信号を生成するステップと、電気信号をテレビの第１のＨＤＭＩ（登録商標）ポートに送信するステップと、音声制御デバイスのマイクロフォンによって、周囲の部屋のノイズを含むマイクロフォン信号および電気信号に基づいてテレビによって生成された擬似ランダム音声信号を検出するステップとを含む、条項１に記載のコンピュータ実施方法。

[0219]条項３．テレビがオンであるかオフであるかを決定するステップが、音声制御デバイスによって、テレビの第１のＨＤＭＩ（登録商標）ポートからのホットプラグ検出（ＨＰＤ）信号の第１の電圧値を検出するステップと、音声制御デバイスによって、テレビの第１のＨＤＭＩ（登録商標）ポートからの高帯域幅デジタルコンテンツ保護（ＨＤＣＰ）信号に関連付けられたデータを検出するステップとを含む、条項１または２に記載のコンピュータ実施方法。

[0220]条項４．内部スピーカを有する音声制御デバイスのマイクロフォンで、ユーザからの第１の音声入力を受信するステップを含む、コンピュータ実施方法。音声制御デバイスは、ＡＶディスプレイデバイスの第１の音声ビデオ（ＡＶ）ポートに動作可能に接続されている。第１の音声入力はウェイクワードを含む。コンピュータ実施方法はまた、音声制御デバイスのマイクロフォンで、第２の音声入力を受信するステップであって、第２の音声入力が、コンテンツを再生するユーザコマンドを含む、ステップと、音声制御デバイスによって、ＡＶディスプレイデバイスの電源状態が、ＡＶディスプレイデバイスがオフ状態であることを示すことを決定するステップと、音声制御デバイスによって、少なくともユーザコマンドおよび電源状態に関連付けられたデータをリモートサーバコンピュータに送信するステップと、音声制御デバイスにより、リモートサーバコンピュータからの応答データを受信するステップとを含む。応答データは、要求されたコンテンツがビデオコンテンツを含むという表示と、ＡＶディスプレイデバイスをオンにする命令と、ビデオコンテンツのコンテンツソース位置を示すコンテンツソース位置識別子とを含む。コンピュータ実施方法は、ＡＶディスプレイデバイスをオンにする命令に基づいて、音声制御デバイスから、ＡＶディスプレイデバイスにデータを送信して、ＡＶディスプレイデバイスをオン状態に切り替えるステップと、音声制御デバイスによって、コンテンツソース位置からコンテンツを受信するステップと、第１のＡＶポートを介してコンテンツをＡＶディスプレイデバイスに送信するステップとをさらに含む。

[0221]条項５．音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスをオン状態に切り替えるデータを送信するステップが、音声制御デバイスから、ＡＶディスプレイデバイスに動作可能に接続されているＩＲ受信機にＩＲ信号を送信するステップを含む、条項４に記載のコンピュータ実施方法。

[0222]条項６．音声制御デバイスからＡＶディスプレイデバイスに、ＩＲ信号を介して、ＡＶディスプレイデバイスのアクティブなＡＶ入力を第１のＡＶポートに設定するデータを送信するステップをさらに含む、条項４または５に記載のコンピュータ実施方法。

[0223]条項７．音声制御デバイスとＡＶディスプレイデバイスとの間のＨＤＭＩ（登録商標）接続によって、ＡＶディスプレイデバイスのアクティブなＡＶ入力を第１のＡＶポートに設定するＨＤＭＩ（登録商標）コマンドデータを送信するステップをさらに含む、条項４から６のいずれか一項に記載のコンピュータ実施方法。

[0224]条項８．第１のＡＶポートが、ＨＤＭＩ（登録商標）ポートであり、ＡＶディスプレイデバイスがオフ状態にあることを決定するステップが、音声制御デバイスによって、ＨＤＭＩ（登録商標）ポートからのホットプラグ検出（ＨＰＤ）信号に関連付けられた電圧値を検出するステップと、音声制御デバイスによって、ＨＤＭＩ（登録商標）ポートから受信したＨＤＣＰデータ要素を検出するステップであって、ＨＤＣＰデータ要素には、ＨＤＣＰ＿Ａｕｔｈデータ要素およびＨＤＣＰ＿ｖｅｒｓｉｏｎデータ要素が含まれる、ステップと、電圧値およびＨＤＣＰデータ要素に基づいて、ＡＶディスプレイデバイスがオフ状態にあると決定するステップとを含む、条項４から７のいずれか一項に記載のコンピュータ実施方法。

[0225]条項９．ＡＶディスプレイデバイスの電源状態がオフ状態にあることを決定するステップは、電圧値、ＨＤＣＰ＿Ａｕｔｈ値、およびＨＤＣＰ＿ｖｅｒｓｉｏｎ番号に基づいて、ＡＶディスプレイデバイスの状態がオフ状態にあることを決定するステップをさらに含む、条項４から８のいずれか一項に記載のコンピュータ実施方法。

[0226]条項１０．ＡＶディスプレイデバイスの状態がオフ状態であることを報告するステップは、電圧値が高くなく、ＨＤＣＰ＿Ａｕｔｈ値が高くないという決定に基づく、条項４から９のいずれか一項に記載のコンピュータ実施方法。

[0227]条項１１．内部スピーカを有する音声制御デバイスのマイクロフォンで、ユーザからの第１の音声入力を受信するステップを含む、コンピュータ実施方法。音声制御デバイスは、ＡＶディスプレイデバイスの第１の音声ビデオ（ＡＶ）ポートに動作可能に接続されている。第１の音声入力はウェイクワードを含む。コンピュータ実施方法はまた、音声制御デバイスによって、ＡＶディスプレイデバイスの電源状態が、ＡＶディスプレイデバイスがオン状態であることを示すことを決定するステップと、音声制御デバイスによって、ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートが第１のＡＶ入力ポート以外のＡＶ入力ポートであることを決定するステップと、音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスをミュートするデータを送信するステップと、音声制御デバイスのマイクロフォンで、第２の音声入力を受信するステップであって、第２の音声入力が、コンテンツを再生するユーザコマンドを含む、ステップと、音声制御デバイスによって、少なくともユーザコマンドおよび電源状態に関連付けられたデータをリモートサーバコンピュータに送信するステップと、音声制御デバイスにより、リモートサーバコンピュータからの応答データを受信するステップとを含む。応答データは、要求されたコンテンツがビデオコンテンツを含むという表示、ＡＶディスプレイデバイスのアクティブＡＶ入力ポートを第１のＡＶポートに設定するための命令、およびビデオコンテンツのコンテンツソース位置を示すコンテンツソース位置識別子を含む。コンピュータ実施方法は、ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートを第１のＡＶポートオンに設定する命令に基づいて、音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートを第１のＡＶ入力ポートに設定するデータを送信するステップと、音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスをミュート解除するデータを送信するステップとをさらに含む。

[0228]条項１２．音声制御デバイスによって、コンテンツソース位置からコンテンツを受信するステップと、第１のＡＶポートを介して、コンテンツをＡＶディスプレイデバイスに送信するステップとをさらに含む、条項１１に記載の方法。

[0229]条項１３．音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートを第１のＡＶポートに設定するデータを送信するステップが、音声制御デバイスから、ＡＶディスプレイデバイスに動作可能に接続されているＩＲ受信機にＩＲ信号を送信するステップを含む、条項１１または１２に記載のコンピュータ実施方法。

[0230]条項１４．音声制御デバイスからＡＶディスプレイデバイスに、ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートを第１のＡＶポートに設定するデータを送信するステップが、音声制御デバイスとＡＶディスプレイデバイスとの間のＨＤＭＩ（登録商標）接続によって、ＨＤＭＩ（登録商標）データを送信するステップを含む、条項１１から１３のいずれか一項に記載のコンピュータ実施方法。

[0231]条項１５．要求されたコンテンツがビデオコンテンツを含むという表示を受け取った後、音声制御デバイスの内部スピーカ上でハンドオーバ音声メッセージを再生するステップであって、ハンドオーバ音声メッセージが、ビデオコンテンツがＡＶディスプレイデバイス上で再生されることをユーザに示す、ステップを含む、条項１１から１４のいずれか一項に記載のコンピュータ実施方法。

[0232]条項１６．ＡＶディスプレイデバイスをミュートおよびミュート解除するデータを送信するステップが、音声制御デバイスから、ＡＶディスプレイデバイスに動作可能に接続されているＩＲ受信機に、ＩＲ信号を送信するステップを含む、条項１１から１５のいずれか一項に記載のコンピュータ実施方法。

[0233]条項１７．第１のＡＶポートがＨＤＭＩ（登録商標）ポートであり、ＡＶディスプレイデバイスをミュートおよびミュート解除するためのデータを送信するステップが、第１のＡＶポートにＨＤＭＩ（登録商標）データを送信するステップを含む、条項１１から１６のいずれか一項に記載のコンピュータ実施方法。

[0234]条項１８．ＡＶポートが、ＨＤＭＩ（登録商標）ポートであり、ＡＶディスプレイデバイスがオフ状態にあることを決定するステップが、音声制御デバイスによって、ＨＤＭＩ（登録商標）ポートからのホットプラグ検出（ＨＰＤ）信号に関連付けられた電圧値を検出するステップと、音声制御デバイスによって、ＨＤＭＩ（登録商標）ポートから受信したＨＤＣＰデータ要素を検出するステップであって、ＨＤＣＰデータ要素には、ＨＤＣＰ＿Ａｕｔｈデータ要素およびＨＤＣＰ＿ｖｅｒｓｉｏｎデータ要素が含まれる、ステップと、電圧値およびＨＤＣＰデータ要素に基づいて、ＡＶディスプレイデバイスがオフ状態にあると決定するステップとを含む、条項１１から１７のいずれか一項に記載のコンピュータ実施方法。

[0235]条項１９．ＡＶディスプレイデバイスの電源状態がオフ状態にあることを決定するステップは、電圧値、ＨＤＣＰ＿Ａｕｔｈ値、およびＨＤＣＰ＿ｖｅｒｓｉｏｎ番号に基づいて、ＡＶディスプレイデバイスの状態がオフ状態にあることを決定するステップをさらに含む、条項１１から１８のいずれか一項に記載のコンピュータ実施方法。

[0236]条項２０．ＡＶディスプレイデバイスの状態がオフ状態であることを報告するステップは、電圧値が高くなく、ＨＤＣＰ＿Ａｕｔｈ値が高くないという決定に基づく、条項１１から１９のいずれか一項に記載のコンピュータ実施方法。

[0237]条項２１．室内に配置されたテレビの状態を決定するためのコンピュータ実施方法であって、音声制御デバイスのマイクロフォンで、ユーザからの第１の音声入力を受信するステップを含み、音声制御デバイスがテレビのＨＤＭＩ（登録商標）ポートに動作可能に接続され、第１の音声入力がウェイクワードを含む、方法。この方法は、音声制御デバイスによって、第１の音声入力を受信するステップに応答して、擬似ランダム数列を表し、第１の利得によって特徴付けられる電気信号を生成するステップをさらに含むことができる。この方法は、ＨＤＭＩ（登録商標）ポートを介して、テレビに電気信号を送信するステップをさらに含むことができる。この方法は、音声制御デバイスのマイクロフォンによって、周囲の部屋の雑音を含む音声信号と、電気信号に基づいてテレビによって生成された擬似ランダムプローブ音声信号とを検出するステップをさらに含むことができる。この方法は、電気信号のフーリエ変換を計算することによって変換された電気信号を生成するステップと、音声信号のフーリエ変換を計算することによって変換された音声信号を生成するステップと、変換された音声信号の位相変換を計算することによって正規化された音声信号を生成するステップと、正規化された音声信号に室内インパルス応答逆関数を適用することによって修正された音声信号を生成するステップと、変換された電気信号と修正された音声信号との間の相互相関を計算することによって、相互相関信号を生成するステップと、相互相関信号の最大値を突き止め、相互相関信号の最大値を相互相関信号の平均値で割ることにより、擬似ランダムプローブ音声信号の電力レベルを決定するステップとによって、テレビの状態を決定するステップをさらに含むことができる。いくつかの実施形態では、擬似ランダムプローブ音声信号の電力レベルが検出閾値電力レベル以上であり、検出閾値値電力レベルが、擬似ランダムプローブ音声信号がユーザに聞こえない電力レベルである場合、テレビがオンであると表示される可能性があり、電気信号を送信するステップが停止される可能性がある。

[0238]条項２２．擬似ランダムプローブ音声信号の電力レベルが検出閾値未満である場合、第１の利得よりも高い第２の利得によって特徴付けられる更新された電気信号を送信するステップと、音声制御デバイスのマイクロフォンによって、周囲の部屋のノイズを含む更新された音声信号、および更新された電気信号に基づいてテレビによって生成された更新された擬似ランダムプローブ音声信号を検出するステップと、更新された擬似ランダムプローブ音声信号の電力レベルを決定するステップとをさらに含む、条項２２に記載のコンピュータ実施方法。いくつかの実施形態では、更新された擬似ランダムプローブ音声信号の電力レベルが検出閾値よりも大きい場合、テレビがオンであることを示し、電気信号を送信するステップを停止する。いくつかの実施形態では、更新された擬似ランダムプローブ音声信号の電力レベルが検出閾値未満である場合、テレビがオフであることを示し、更新された電気信号を送信するステップを停止する。

[0239]条項２３．音声制御デバイスのマイクロフォンで音声入力を受信するステップであって、音声制御デバイスは、スピーカに接続されたディスプレイに動作可能に接続されている、ステップを含む、コンピュータ実施方法。この方法は、ユーザによる可聴検出のために、利得閾値を下回る第１の利得レベルを有する電気信号を生成するステップをさらに含むことができる。この方法は、電気信号をスピーカに送信するステップをさらに含むことができる。この方法は、マイクロフォンによって、周囲騒音とプローブ音声信号との組み合わせを含む音声信号を検出するステップをさらに含むことができ、プローブ音声信号は、電気信号に基づいてスピーカによって出力される。この方法は、プローブ音声信号の電力レベルを決定するステップをさらに含むことができる。この方法は、プローブ音声信号の電力レベルに基づいてディスプレイの状態を決定するステップをさらに含むことができる。

[0240]条項２４．所定の波形が擬似ランダムビットシーケンスを表す、条項２３に記載のコンピュータ実施方法。

[0241]条項２５．プローブ音声信号の電力レベルを決定するステップが、電気信号と音声信号との間の相互相関を計算することによって、相互相関信号を生成するステップを含み、ディスプレイの状態を決定するステップが、相互相関信号の最大値を検出閾値電力レベルと比較するステップをさらに含み、検出閾値電力レベルが、プローブ音声信号がユーザに聞こえない電力レベルである、条項２３または２４に記載のコンピュータ実施方法。

[0242]条項２６．検出閾値電力レベルが、スピーカから１メートルの距離で測定した場合、−１８ｄＢから２０ｄＢＳＰＬまでのプローブ音声信号音圧レベルに対応する、条項２３から２５のコンピュータ実施方法。

[0243]条項２７．電気信号とプローブ音声信号との間のタイムラグを、相互相関信号の最大値をもたらす時間シフトであると決定するステップをさらに含む、条項２６のコンピュータ実施方法。

[0244]条項２８．相互相関信号の最大値および少なくとも１つの基準利得に基づいて、スピーカのボリューム設定を決定するステップをさらに含む、条項２６に記載のコンピュータ実施方法。

[0245]条項２９．プローブ音声信号の電力レベルを決定するステップが、電気信号のフーリエ変換を計算することによって変換された電気信号を生成するステップと、音声信号のフーリエ変換を計算することによって変換された音声信号を生成するステップと、変換された音声信号の位相変換を計算することによって正規化された音声信号を生成するステップと、変換された電気信号と正規化された音声信号との間の相互相関を計算することによって相互相関信号を生成するステップとを含む、条項２３から２８のいずれか一項に記載のコンピュータ実施方法。いくつかの実施形態では、ディスプレイの状態を決定することが、相互相関信号の最大値を検出閾値電力レベルと比較するステップをさらに含み、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルである。

[0246]条項３０．プローブ音声信号の電力レベルを決定するステップが、音声信号のフーリエ変換を計算することによって変換された音声信号を生成するステップと、室内インパルス応答逆関数を変換された音声信号に適用することによって、訂正された音声信号周波数領域を生成するステップと、逆フーリエ変換を訂正された音声信号周波数領域に適用することによって、訂正された音声信号の時間領域を生成するステップと、電気信号と訂正された音声信号の時間領域との間の相互相関を計算することによって相互相関信号を生成するステップとを含む、条項２３から２９のいずれか一項に記載のコンピュータ実施方法。いくつかの実施形態では、ディスプレイの状態を決定するステップが、相互相関信号の最大値を検出閾値電力レベルと比較するステップをさらに含み、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルである。

[0247]条項３１．プローブ音声信号の電力レベルを決定するステップが、電気信号のフーリエ変換を計算することによって変換された電気信号を決定するステップと、音声信号のフーリエ変換を計算することによって変換された音声信号を決定するステップと、変換された音声信号の位相変換を計算することによって、正規化された音声信号を決定するステップと、変換された電気信号と正規化された音声信号との積の逆フーリエ変換を適用することによって、位相変換された相互相関信号を決定するステップと、位相変換された相互相関信号と室内インパルス応答関数との間の相互相関を計算することによって、訂正された相互相関信号を決定するステップと含む、条項２３から３０のいずれか一項に記載のコンピュータ実施方法。いくつかの実施形態では、ディスプレイの状態を決定するステップが、訂正された相互相関信号の最大値を検出閾値電力レベルと比較するステップをさらに含み、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルである。

[0248]条項３２．プローブ音声信号の電力レベルが検出閾値電力レベルよりも低く、検出閾値電力レベルがプローブ音声信号がユーザに聞こえない電力レベルである、条項２３から３１のいずれか一項に記載のコンピュータ実施方法。いくつかの実施形態では、方法は、ディスプレイの状態をオフ状態にあると決定するステップと、増加した利得レベルを電気信号に適用することによって電気信号を修正するステップとをさらに含む。

[0249]条項３３．プローブ音声信号の電力レベルが検出閾値電力レベルよりも低く、検出閾値電力レベルが、プローブ音声信号がユーザに聞こえない電力レベルである、条項２３から３２のいずれか一項に記載のコンピュータ実施方法。いくつかの実施形態では、方法は、ディスプレイの状態をオフ状態であると決定するステップと、相互相関を計算する期間を増加させるステップとをさらに含む。

[0250]条項３４．相互相関信号の実行値を格納するステップと、実行値から相互相関の最大値を決定するステップとをさらに含み、実行値が再帰的に計算され、相互相関の実行値のｉ番目の反復

が、

の形式の再帰型積算器を使用して計算され、
ここで、ａは０と１との限定の定数であり、ｙ_ｉ（ｔ）はｉ番目の反復中に取得された相互相関値であり、

は前の（ｉ−１）番目の反復中に計算された実行値である、条項２５に記載のコンピュータ実施方法。

[0251]条項３５．プローブ音声信号の電力レベルが検出閾値電力レベルより低く、増加した利得レベルが最大値に等しく、タイムアウトタイマの現在の値がタイムアウト値以上である、条項３２に記載のコンピュータ実施方法。いくつかの実施形態では、方法は、ディスプレイの状態をオフ状態にあると決定するステップと、電気信号の生成を終了するステップとをさらに含む。

[0252]条項３６．マイクロフォンシステムと、音声制御マルチメディアデバイスを、スピーカに接続されたディスプレイに接続するように構成された音声ビデオポートと、少なくとも１つのプロセッサを含み、音声ビデオポートおよびマイクロフォンシステムに動作可能に接続されているサブ可聴チャネル監視モジュールと、少なくとも１つのプロセッサと通信するデータ記憶デバイスとを含む音声制御マルチメディアデバイスであって、データ記憶デバイスが、少なくとも１つのプロセッサによって実行される場合、少なくとも１つのプロセッサに操作を実行させる、格納された命令を含む、音声制御マルチメディアデバイス。操作は、ユーザによる可聴検出のために、利得閾値を下回る第１の利得レベルを有する電気信号を生成するステップをさらに含むことができる。操作は、電気信号をスピーカに送信するステップを含むことができる。操作は、マイクロフォンによって、周囲騒音とプローブ音声信号との組み合わせを含む音声信号を検出するステップをさらに含むことができ、プローブ音声信号は、電気信号に基づいてスピーカによって出力される。操作は、プローブ音声信号の電力レベルを決定するステップを含むことができる。操作は、プローブ音声信号の電力レベルに基づいてディスプレイの状態を決定するステップを含むことができる。

[0253]条項３７．電気信号と音声信号との間の相互相関を計算することによって相互相関信号を生成するステップによって、命令が、プロセッサにプローブ音声信号の電力レベルを決定させる、条項３６に記載の音声制御マルチメディアデバイス。いくつかの実施形態では、ディスプレイの状態を決定することが、相互相関信号の最大値を検出閾値電力レベルと比較するステップをさらに含み、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルである。

[0254]条項３８．電気信号のフーリエ変換を計算することによって変換された電気信号を生成するステップと、音声信号のフーリエ変換を計算することによって変換された音声信号を生成するステップと、変換された音声信号の位相変換を計算することによって正規化された音声信号を生成するステップと、変換された電気信号と正規化された音声信号との間の相互相関を計算することによって、相互相関信号を計算するステップとによって、命令が、プロセッサにプローブ音声信号の電力レベルを決定させる、条項３６または３７のいずれか一項に記載の音声制御マルチメディアデバイス。いくつかの実施形態では、命令が、プロセッサに、相互相関信号の最大値を検出閾値電力レベルと比較するステップによってディスプレイの状態を決定させるステップであって、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルである。

[0255]条項３９．プローブ音声信号の電力レベルは、検出閾値電力レベルよりも低く、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルであり、命令は、さらに、プロセッサに、ディスプレイの状態をオフ状態にあると決定させ、増加した利得レベルを電気信号に適用することによって電気信号を修正させる、条項３６から３８のいずれか一項に記載の音声制御マルチメディアデバイス。

[0256]条項４０．プローブ音声信号の電力レベルは、検出閾値電力レベルよりも低く、検出閾値電力レベルは、プローブ音声信号がユーザに聞こえない電力レベルであり、命令はさらに、プロセッサに、ディスプレイの状態をオフ状態にあると決定し、相互相関を計算する期間を増加させる、条項３６から３９のいずれか一項に記載の音声制御マルチメディアデバイス。

Claims

内部スピーカを有する音声制御デバイスのマイクロフォンで、ユーザからの第１の音声入力を受信するステップであって、前記音声制御デバイスが音声ビデオ（ＡＶ）ディスプレイデバイスの第１のＡＶ入力ポートに動作可能に接続され、前記第１の音声入力がウェイクワードを含む、ステップと、
前記音声制御デバイスによって、前記ＡＶディスプレイデバイスの電源状態が、前記ＡＶディスプレイデバイスはオン状態であることを示すことを決定するステップと、
前記音声制御デバイスによって、前記ＡＶディスプレイデバイスのアクティブなＡＶ入力ポートが、前記第１のＡＶ入力ポート以外のＡＶ入力ポートであることを決定するステップと、
前記音声制御デバイスから前記ＡＶディスプレイデバイスに、前記ＡＶディスプレイデバイスをミュートするデータを送信するステップと、
前記音声制御デバイスの前記マイクロフォンで、コンテンツを再生するユーザコマンドを含む第２の音声入力を受信するステップと、
前記音声制御デバイスによって、少なくとも前記ユーザコマンドおよび前記電源状態に関連するデータをリモートサーバコンピュータに送信するステップと、
前記音声制御デバイスによって、前記リモートサーバコンピュータから応答データを受信するステップであって、前記応答データが、
要求されたコンテンツがビデオコンテンツを含むという表示と、
前記ＡＶディスプレイデバイスの前記アクティブなＡＶ入力ポートを前記第１のＡＶ入力ポートに設定する命令と、
前記ビデオコンテンツのコンテンツソース位置を示すコンテンツソース位置識別子と
を含む、ステップと、
前記ＡＶディスプレイデバイスの前記アクティブなＡＶ入力ポートを前記第１のＡＶ入力ポートに設定する命令に基づいて、前記音声制御デバイスから前記ＡＶディスプレイデバイスに、前記ＡＶディスプレイデバイスの前記アクティブなＡＶ入力ポートを前記第１のＡＶ入力ポートに設定するデータを送信するステップと、
前記音声制御デバイスから前記ＡＶディスプレイデバイスに、前記ＡＶディスプレイデバイスをミュート解除するデータを送信するステップと
を含む、コンピュータ実施方法。
前記音声制御デバイスによって、前記コンテンツソース位置からコンテンツを受信するステップと、
前記第１のＡＶ入力ポートを介して、前記コンテンツを前記ＡＶディスプレイデバイスに送信するステップと
を含む、請求項１に記載のコンピュータ実施方法。
前記音声制御デバイスから前記ＡＶディスプレイデバイスに、前記ＡＶディスプレイデバイスの前記アクティブなＡＶ入力ポートを前記第１のＡＶ入力ポートに設定するデータを送信するステップが、前記音声制御デバイスから、前記ＡＶディスプレイデバイスに動作可能に接続されているＩＲ受信機に、ＩＲ信号を送信するステップを含む、請求項１に記載のコンピュータ実施方法。
前記音声制御デバイスから前記ＡＶディスプレイデバイスに、前記ＡＶディスプレイデバイスの前記アクティブなＡＶ入力ポートを前記第１のＡＶ入力ポートに設定するデータを送信するステップが、前記音声制御デバイスと前記ＡＶディスプレイデバイスとの間のＨＤＭＩ（登録商標）接続によってＨＤＭＩ（登録商標）データを送信するステップを含む、請求項１に記載のコンピュータ実施方法。
要求されたコンテンツがビデオコンテンツを含むという前記表示を受け取った後、前記音声制御デバイスの前記内部スピーカ上でハンドオーバ音声メッセージを再生するステップであって、前記ハンドオーバ音声メッセージが、前記ビデオコンテンツが前記ＡＶディスプレイデバイス上で再生されることを前記ユーザに示す、ステップを含む、請求項１に記載のコンピュータ実施方法。
前記ＡＶディスプレイデバイスをミュートおよびミュート解除するデータを送信するステップが、前記音声制御デバイスから、前記ＡＶディスプレイデバイスに動作可能に接続されているＩＲ受信機に、ＩＲ信号を送信するステップを含む、請求項１に記載のコンピュータ実施方法。
前記第１のＡＶ入力ポートがＨＤＭＩ（登録商標）ポートであり、前記ＡＶディスプレイデバイスをミュートおよびミュート解除するデータを送信するステップが、前記第１のＡＶ入力ポートにＨＤＭＩ（登録商標）データを送信するステップを含む、請求項１に記載のコンピュータ実施方法。
前記第１のＡＶ入力ポートが、ＨＤＭＩ（登録商標）ポートを備える、請求項１に記載のコンピュータ実施方法。
前記ＡＶディスプレイデバイスの電源状態が、前記ＡＶディスプレイデバイスはオン状態であることを示すことを決定するステップが、
前記音声制御デバイスによって、および前記ユーザからの前記第１の音声入力の受信に応答して、擬似ランダム数列を表す電気信号を生成するステップと、
前記電気信号を前記ＡＶディスプレイデバイスの前記第１のＡＶ入力ポートに送信するステップと、
前記音声制御デバイスの前記マイクロフォンによって、周囲の部屋のノイズを含むマイクロフォン信号および前記電気信号に基づいて前記ＡＶディスプレイデバイスによって生成された擬似ランダム音声信号を検出するステップと
を含む、請求項１に記載のコンピュータ実施方法。
前記ＡＶディスプレイデバイスの電源状態が、前記ＡＶディスプレイデバイスはオン状態であることを示すことを決定するステップが、
前記音声制御デバイスによって、前記ＡＶディスプレイデバイスの前記第１のＡＶ入力ポートからのホットプラグ検出（ＨＰＤ）信号の第１の電圧値を検出するステップと、
前記音声制御デバイスによって、前記ＡＶディスプレイデバイスの前記第１のＡＶ入力ポートからの高帯域幅デジタルコンテンツ保護（ＨＤＣＰ）信号に関連付けられたデータを検出するステップと
を含む、請求項１に記載のコンピュータ実施方法。