JP6595039B2

JP6595039B2 - ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ

Info

Publication number: JP6595039B2
Application number: JP2018092298A
Authority: JP
Inventors: ファミリーアフルーズ; アイブッチャーゲアリー; ディーフェルヴァイヒューホ; シーグラハムデイヴィッド; チャウドリイムラン; アロンソルイスマルコス; ジェイストリンガークリストファー
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-06-02
Filing date: 2018-05-11
Publication date: 2019-10-23
Anticipated expiration: 2038-05-11
Also published as: EP3410740A1; US20200107122A1; US10531196B2; CN108989953A; EP3410740B1; CN112584273A; AU2018203165A1; AU2020201425A1; US10856081B2; KR20180132521A; CN112584273B; KR102222866B1; KR20200015662A; US20180352334A1; AU2018203165B2; JP2018207482A; KR102074878B1; CN108989953B; AU2020201425B2

Description

この非仮特許出願は、２０１７年６月２日に出願された米国仮特許出願公開第６２／５１４，７１２号の先の出願日の利益を主張する。
本発明の一実施形態は、ラウドスピーカアレイを介して出力するためにレンダリングされる空間ダッキングプログラムオーディオに関する。他の実施形態も記載される。

ラウドスピーカアレイは、ビームパターンを生成して異なる方向にサウンドを発射することができる。例えば、ビームフォーマは、サウンドプログラムコンテンツ（例えば、音楽）の入力オーディオチャネルを受信して、その入力オーディオチャネルを、ラウドスピーカアレイのトランスデューサを駆動するいくつかのドライバ信号に変換し、１つ以上のサウンドビームパターンを生成することができる。いくつかのビームパターンを有することにより、オーディオシステムは、ラウドスピーカアレイが配置された室内全体に異なる方向にサウンドを発射することができる。

コンピュータプログラム又はアプリケーションは、聴取者のためにレンダリングされ出力される（又は再生される）異なるタイプのオーディオを必要とする。例えば、リマインダアプリケーションは、オーディオシステムによってレンダリングされて出力される可聴通知（例えば、「３０分内のティー時間」）を生成することができる。別の例は、仮想携帯端末（「ＶＰＡ」）として動作するコンピュータプログラムであり、それは聴取者が仮想端末との会話を開始して行うことを可能にする。例えば、聴取者は、トリガフレーズ（「ヘイハル、聞こえますか？」）を発声することによってＶＰＡをトリガし、次いでＶＰＡに質問（又はコマンドを発行）してもよい。これに応答して、ＶＰＡは、システムによってレンダリングされ、出力されるオーディオ信号として可聴応答を取得する（「どのように私はあなたを助けることができますかデーブ？」又は「今あなたは何をしていると思いますか、デーブ？デーブ、私は本当にその質問への回答に対する資格があると思います。」）楽曲のような進行中のサウンドプログラムコンテンツ（プログラムオーディオ）が出力されている間に、これらのタイプのオーディオが聴取者に出力されると、聴取者に混乱が生じる。

より良い解決策は、進行中のサウンドプログラムコンテンツを「ダッキング」することである。例えば、システムによって出力されている音楽を楽しみながら、聴取者はＶＰＡと対話することを望んでもよい。この対話は、聴取者がトリガフレーズを発声するか、又はボタンを押圧することによって開始することができる。システムが、聴取者がＶＰＡと対話することを望んでいると判定すると、出力されている音楽はダッキングされ（例えば、その音量が低減され）、ＶＰＡと聴取者が話し言葉を介して対話することができる。対話が完了したとデバイスによって判定されると、デバイスは、ダッキングを適用せずに、音楽の出力を再開することができる。これは、一時停止と再開の繰り返し、又は音量の単純な下げと上げよりも優れた解決策であることができ、後者は聴取者にだけでなく、ＶＰＡと直接対話していない他の聴取者にも混乱をもたらし得る。

本発明の一実施形態は、出力が進行中であるサウンドプログラムコンテンツ（例えば、音楽）のプログラムオーディオを「空間ダッキング」するオーディオシステムであり、同時に警告オーディオを出力することにより、例えばＶＰＡセッション中に音楽によって引き起こされる混乱を優雅にかつ簡潔に軽減する。空間ダッキングは、音楽を「前景」から引き出し、「背景」に移動させることによって、聴取者の音楽の知覚を効果的に変化させる。音楽を背景で出力することは、聴取者に、音楽がずっと離れた場所（例えば、別の部屋）で出力されているという知覚を与える。言い換えると、空間ダッキングは、聴取者が経験する音楽のサウンドを「ぼかす」ことをもたらし、サウンド源（例えば、オーディオシステムのラウドスピーカキャビネットからの）が聴取者によって容易に識別可能ではないようにする。進行中のサウンドプログラムコンテンツが空間ダッキングされることを開始すると、警告オーディオが前景で出力され得る。これにより、聴取者は、聴取者の経験を混乱させることが少ない快適な方法で（一時停止されるか又は単に音量を下げて出力されるのではなく）、背景で音楽が引き続き出力されている間でも、聴取者が警告オーディオを直接聴取することができる。

本発明の一実施形態は、ラウドスピーカアレイベースのビーム形成オーディオシステムによって実行される方法であり、ラウドスピーカアレイによって出力されているサウンドプログラムコンテンツのプログラムオーディオを空間ダッキングする。これにより、まさに背景においてプログラムオーディオの継続的な出力がもたらされるが、警告オーディオは前景で出力される。システムはレンダリングプロセッサを有し、プログラムオーディオを受信してそれをラウドスピーカアレイによってサウンドに変換されるトランスデューサドライバ信号にレンダリングする。ここで、通常の出力中（出力される警告オーディオがない間）に、受信されたプログラムオーディオが主拡散ビーム形成レンダリングモードを使用してレンダリングされている場合を考える。そのモードでは、ラウドスピーカアレイは、ｉｉ）異なる方向に向けられた複数の拡散コンテンツパターン（２つ以上の拡散コンテンツローブ又はビーム）と重ね合わされた、ｉ）主コンテンツパターン（主ビーム）を有するいくつかのサウンドビームを生成するように駆動される。このレンダリングモードでのプログラムオーディオの出力中、聴取者は、「トリガフレーズ」を発声することによって、ＶＰＡとの会話を開始することを試みることができる。オーディオシステムのマイクロフォンを介して、発声されたトリガフレーズが感知される。自動スピーチレコグナイザは、感知された聴取者のスピーチを分析して、その中にスピーチを見出す（又は認識する）。認識されたスピーチは、トリガフレーズ検出器に送られて、認識されたスピーチ内にトリガフレーズがあるかどうかを判定する。

トリガフレーズが検出されると、警告オーディオをレンダリングして聴取者に出力する必要がある（ＶＰＡの「口頭」応答として）。一実施形態では、トリガフレーズに対する適切なテキスト応答が最初に取得される（記憶装置から形成されるか又はアクセスされる）。例えば、「どのようにあなたを助けることができますかデーブ？」これは、次いで、スピーチ、ＴＴＳ、システムのテキストに提供され、それは信号化もされて適切なテキスト応答（警告オーディオとして）の合成スピーチバージョンを生成する。あるいは、警告オーディオは、（トリガフレーズに対する応答であることが適切であるとみなされる）以前に記録された、人間が発声したフレーズとして取得され得る。どちらの場合も、警告オーディオを示すか又は含み、警告オーディオトリガイベントに応答して出力されるように意図されたＶＰＡによる適切なスピーチ応答を含む警告メッセージが、判定ロジックに（及び任意選択でレンダリングプロセッサに）提供される。

警告メッセージに応答して、レンダリングプロセッサと一緒に動作する判定ロジックは、ｉ）主コンテンツパターン（主ビーム）において出力されているプログラムオーディオの部分（一部又は全部）を拡散コンテンツパターン（２つ以上のビーム）に移動させ、ｉｉ）、ある意味では、主コンテンツパターンから移動されたプログラムオーディオの部分を警告オーディオと「置換」する。これは、聴取者に（ＶＰＡから）明確で直接的な可聴フィードバックを与え、ＶＰＡの応答を効果的に前景において提示するとともに進行中のサウンドプログラムコンテンツを空間ダッキングする（それを背景に移動させる）。

プログラムオーディオを主拡散レンダリングモードでレンダリングする間に、判定ロジック（又は決定プロセッサ）は、プログラムオーディオのいくつかの入力オーディオチャンネル（例えば、左及び右チャンネル）でコンテンツ分析を行い、そこで相関コンテンツ及び無相関（非相関）コンテンツを見出す。次いで、レンダリングプロセッサのビーム形成能力を使用して、相関コンテンツは主コンテンツパターンビーム内で（拡散コンテンツパターンビーム又はローブ内にはなく）レンダリングされ、一方、非相関コンテンツは１つ以上の拡散コンテンツパターンビーム（又はローブ）でレンダリングされる。その状況では、警告メッセージが受信されたことに応答して、（プログラムオーディオを空間ダッキングするために）以下のプロセスが実行されてもよい。主コンテンツビームパターン内に出力されているプログラムオーディオの「現在の」部分が識別され、判定ロジックのコンテンツ分析ルーチンに提供される前に、そこで非相関化プロセスが実行される。その非相関化は、識別された現在の部分を含むプログラムオーディオの１つ以上の入力オーディオチャネルのセグメントに残響を付加することによって達成され得る。結果として、コンテンツ分析ルーチンは、次いで、ここで非相関コンテンツを検出し、レンダリングプロセッサに信号を送って、拡散コンテンツパターンビームでそのコンテンツをレンダリングする。したがって、このアプローチは、直接的又は本質的に、ｉ）意図的にオーディオシステムによって非相関化された（例えば、付加された残響によって）プログラムオーディオの元の直接部分と、加えてｉｉ）プログラムオーディオの元の拡散部分、の両方を含む拡散コンテンツパターンビームをもたらす。

上記は、元の相関又は直接コンテンツを含み、警告メッセージが受信されたときに主コンテンツパターンビームを介して出力されているプログラムオーディオの部分が、どのように拡散コンテンツパターンビームに移動されるかの一例であった。主コンテンツパターンビームが、プログラムオーディオの元の直接又は相関コンテンツを部分的に又は全部欠くようになると、相関コンテンツ（例えば、モノラルオーディオ又は単一のオーディオチャネル）のみを含むとみなされ得る警告オーディオが付加されるか又は効果的に主コンテンツパターンビームに挿入される（拡散コンテンツパターンビームのいずれにも挿入されない）。

別の実施形態では、プログラムオーディオの直接コンテンツ部分を背景に移動させることの知覚は、１）（少なくとも直接コンテンツ部分に）残響を付加すること、２）それを拡散コンテンツパターンビームに移動させること、及び３）ローパスフィルタを介してそれをフィルタリングして高周波数コンテンツを除去すること、の組み合わせによって達成される。別の実施形態では、ローパスフィルタリングの代わりに、又はそれに加えて、直接コンテンツ部分のスカラーフルバンドゲインを調整して、その「音量レベル」を低減することができる。すべてのこれらの場合において、聴取者は鮮明でわかりやすい警告オーディオを聴取するが、空間ダッキングプログラムオーディオはまさに「背景で」出力し続け、それによってより快適な聴取体験を提供する。

プログラムオーディオが他のサウンドレンダリングモード（上述の主拡散モードとは異なる）でレンダリングされているとき、プログラムオーディオが受信された警告メッセージに応答して空間ダッキングされる（効果的に背景に移動される）方法は異なり得る。例えば、レンダリングプロセッサがラウドスピーカアレイを駆動して、ｉｉ）いくつかのローブを有する指向性パターンと重ね合わされたｉ）全方向性パターンを有するいくつかの同時サウンドビームを生成する、中央側レンダリングモードを考える。そのような出力中に警告メッセージが受信されると、レンダリングプロセッサは、ｉ）現在全方向性パターンにあるプログラムオーディオの部分（一部又は全部）を指向性パターンのいくつかのローブに移動させ、ｉｉ）ある意味では、移動された部分（全方向性パターンの）を警告オーディオと置換する。

上記要約は、本発明のすべての態様の網羅的なリストを含むものではない。本発明は、上記で要約した様々な態様のすべての適切な組み合わせによって実施され得るすべてのシステム及び方法、並びに以下の「発明を実施するための形態」で開示され、特に本出願と共に提出された特許請求の範囲に指摘されるものを含むことが意図される。このような組み合わせは、上記概要には具体的に記載していない特定の利点を有する。

本発明の実施形態は、例として示されており、同様の参照符号が同様の要素を示す添付の図面の図の限定として示されているのではない。本開示における本発明の「ａｎ」又は「ｏｎｅ」実施形態への言及は、必ずしも同じ実施形態に言及するのではなく、少なくとも１つを意味することに留意されたい。また、図面を簡潔にし、総数を減らすために、所与の図が使用されて本発明の複数の実施形態の特徴を示してもよく、図のすべての要素が所与の実施形態に必要とされなくてもよい。

ラウドスピーカアレイを含むオーディオ受信機及び円筒状のラウドスピーカキャビネットを示す。ＶＰＡセッション中の、空間ダッキングされたプログラムオーディオとＶＰＡ口頭応答の同時出力のタイムラインを示す。ビーム形成ラウドスピーカアレイを有するオーディオシステムのブロック図である。図２Ａのものと同様のオーディオシステムの詳細なブロック図を示す。本発明の一実施形態に係るオーディオシステムによって生成された例示的サウンドビームの下向き図を示す。ユーザが図３に示すように動作しているオーディオシステムと対話する、いくつかの段階の進行を示す。本発明の別の実施形態に係るオーディオシステムによって生成されるサウンドビームの例の下向きの図を示す。ユーザが図５に示すように動作しているオーディオシステムと対話する、いくつかの段階の進行を示す。ユーザが図５に示すようにそれぞれ動作しているいくつかのオーディオシステムの１つと対話する、いくつかの段階の進行を示す。

本発明のいくつかの実施形態を、添付図面を参照してここに説明する。実施形態に記載される部品の形状、相対位置、及び他の態様が明瞭には規定されない場合はいつでも、本発明の範囲は、示した部品のみに限定されず、その部品は、単に説明目的のためであることが意味される。多くの詳細が説明されるが、本発明のいくつかの実施形態は、これらの詳細なしに実施され得ることも理解される。他の事例では、本明細書の理解を妨げないように、周知の回路、構造、及び技術は詳細には示していない。

図１Ａは、オーディオ受信機１０５及びラウドスピーカアレイ１１５を含む概して円筒形状のラウドスピーカキャビネット１１０を示す。オーディオ受信機１０５は、円筒状ラウドスピーカキャビネット１１０に結合されてラウドスピーカアレイ１１５の個々のドライバ１２０を駆動し、様々なサウンドビームを聴取エリアに放出することができる。有線のようなケーブルで結合されているように示されているが、受信機１０５は代わりに無線手段を介してラウドスピーカキャビネット１１０と通信することができる。別の実施形態では、オーディオ受信機１０５によって実行される機能（例えば、オーディオレンダリングプロセッサによるデジタル信号処理）は、ラウドスピーカキャビネット１１０内に収容された電子回路構成要素によって実行され、受信機１０５及びラウドスピーカキャビネット１１０の電気的ハードウェア構成要素の一部又は全部を単一の筐体に統合することができる。一実施形態では、オーディオ受信機１０５及びラウドスピーカキャビネット１１０は、ホームオーディオシステムの一部であってもよく、別の実施形態では、車室内に組み込まれたオーディオ又はインフォテインメントシステムの一部であってもよい。

ラウドスピーカアレイ１１５内のドライバ１２０は、様々な方法で配置されてもよい。図１Ａに示すように、ドライバ１２０は、キャビネット１１０の中心垂直軸の周りに並んで周方向に配置される。ドライバ１２０に対する他の配置も可能である。ドライバ１２０は、電動式ドライバであってもよく、例えば、ツイータ及びミッドレンジドライバの適切な組み合わせを含む異なる周波数帯域でのサウンド出力のために特別に設計されたものを含んでもよい。更に、キャビネット１１０は、ドーナツ形状、又は略球又は楕円形状のような他の形状を有してもよく、ドライバ１２０は、楕円体の実質的に全面に均一に分布されてもよい。別の実施形態では、キャビネット１１０は、スマートフォン、タブレットコンピュータ、ラップトップ、又はデスクトップコンピュータの一部であってよい。

図１Ｂは、ＶＰＡセッション中に、同時に出力されているサウンドプログラムコンテンツのプログラムオーディオとＶＰＡ口頭応答（例えば、警告オーディオ）の、タイムラインを示す。具体的には、この図は、それが判定ロジック２１５に提供されているとき−図２Ａ参照、プログラムオーディオ１３０（例えば、入力オーディオチャンネル）の上部タイムラインを示す。判定ロジックは、レンダリングプロセッサがいくつかのレンダリングモードの１つでプログラムオーディオ１３０をレンダリングして出力するために、プログラムオーディオ１３０を処理することができる。この図は、いくつかのＶＰＡ口頭応答（例えば、警告オーディオ）１４０及び１４５の下部タイムラインも有する。これらの応答は、プログラムオーディオ１３０が空間ダッキングされている間に、判定ロジックにも提供され（続いてレンダリングプロセッサによる出力のためにレンダリングされる）、それにより、プログラムオーディオによって不当に乱されることなく、ＶＰＡセッション中に聴取者がＶＰＡと通信することを可能にする。この図は、ビーム形成ラウドスピーカアレイを用いてオーディオを空間ダッキングするプロセスの例として、以下に更に説明される。

図２Ａは、サウンドプログラムコンテンツ（例えば、音楽作品、映画サウンドトラック）のプログラムオーディオを出力するために使用されるビーム形成ラウドスピーカアレイを有するオーディオシステム２００のブロック図を示す。オーディオシステム２００は、ラウドスピーカキャビネット１１０、レンダリングプロセッサ２１０、判定ロジック２１５（判定プロセッサとも呼ばれる）、及びスピーチベースのサービス２３０を含む。この例のラウドスピーカキャビネット１１０は、その中に多数のパワーオーディオ増幅器２５０を含み、その各々はそれぞれのラウドスピーカドライバ１２０の駆動信号入力に結合された出力を有する。ラウドスピーカキャビネット１１０は、ラウドスピーカドライバ１２０を用いて、プログラムオーディオを「出力」するか又は「再生」して、結果として得られるデジタルスピーカドライバ信号をサウンドに変換する。これは増幅器２５０を用いて達成されることが可能であり、その各々はそれぞれのデジタルアナログ変換器（ＤＡＣ）２４５からのアナログ入力を受信することができ、ここで後者はオーディオ通信リンク２７５を介してその入力デジタルオーディオ信号を受信する。ＤＡＣ２４５及び増幅器２５０は別のブロックとして示されているが、一実施形態では、これらの電子回路構成要素は、例えば、例えばクラスＤ増幅器技術を用いて、個々のドライバ信号のより効率的なデジタルアナログ変換及び増幅動作を提供するために、各ドライバにだけでなく複数のドライバに組み合わされてもよい。

各ドライバ１２０の個々のデジタルオーディオドライバ信号は、オーディオ通信リンク２７５を介してレンダリングプロセッサ２１０から送出される。レンダリングプロセッサ２１０は、ラウドスピーカキャビネットとは別の筐体内に（例えば、図１Ａの受信機１０５の一部として）実装されてもよい。レンダリングプロセッサ２１０及び図２Ａに示す他のデジタル信号処理構成要素は、例えばスマートフォン、タブレットコンピュータ、ラップトップコンピュータ、又はデスクトップコンピュータ内に実装されてもよい。これらの場合、オーディオ通信リンク２７５は、ＢＬＵＥＴＯＯＴＨ（登録商標）リンク又は無線ローカルエリアネットワークリンクのような、無線デジタル通信リンクである可能性がより高い。他の例では、オーディオ通信リンク２７５は、デジタル光オーディオケーブル（例えば、ＴＯＳＬＩＮＫ接続）のような物理的ケーブル、又は、高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））ケーブル上であってもよい。更に他の実施形態では、レンダリングプロセッサ２１０は、ラウドスピーカキャビネット１１０内に実装されてもよく、その場合、オーディオ通信リンク２７５は、オンチップとチップ間の適切に高速な組み合わせ、チップデジタル又は電気光学相互接続のような有線接続であることができる。

レンダリングプロセッサ２１０は、サウンドプログラムコンテンツ（例えば、判定ロジック２１５から）のプログラムオーディオを受信するためのものである。このプログラムオーディオは、ステレオ録音の「左」及び「右」チャネルのような多数の入力オーディオチャネルを含むことができる。そのようなプログラムオーディオは、元は２つのチャンネルのみとして記録されることができた音楽作品のものであってもよい。あるいは、プログラムオーディオは、例えば、ホームシアターオーディオシステム用の動画フィルム若しくは映画の５．１サラウンドフォーマットのオーディオサウンドトラック全体、又は大衆映画シアターの設定のような、２つを超える入力オーディオチャネルの形態であってもよい。別の実施形態では、プログラムオーディオは、単一の入力オーディオチャネルの形であってもよい。すべてのこれらの例では、プログラムオーディオは、入力チャネルを個別の入力駆動信号に変換するレンダリングプロセッサ２１０によってラウドスピーカアレイのトランスデューサ又はドライバにレンダリングされた後、ドライバ１２０によってサウンドに変換される。レンダリングプロセッサ２１０は、プログラムされたデジタルマイクロプロセッサとして全体的に、又はプログラムされたプロセッサとデジタルフィルタブロック及び状態機械などの専用配線デジタル回路の組み合わせとして実装されてもよい。

レンダリングプロセッサ２１０は、ビームフォーマを含むことができ、それは、ドライバ１２０（ビーム形成ラウドスピーカアレイの一部）によって放出される複数の同時の所望のビームとして、入力オーディオチャネルのオーディオコンテンツを「レンダリング」するように、ドライバ１２０のための個々の駆動信号を生成するように構成され得る。ビームは、ビームフォーマによって成形され、操縦されてもよく、各ビーム内のオーディオコンテンツは、多くの予め構成された動作のサウンドレンダリング動作モードの任意の１つにしたがって入力オーディオチャネルから調整されてもよい（後に説明される）。

レンダリングプロセッサ２１０は、例えば、２つ以上の中央側モード及び少なくとも１つの主拡散（例えば、周囲直接）モードなど、いくつかのビーム形成、サウンドレンダリング動作モードを有することができる。これらのモードは、システムが選択できる入力オーディオチャンネルとは別個のステレオエンハンスメントとみなされ、それに基づいて、特定の部屋（及び出力されている特定のコンテンツ）の聴取者に最良又は最高の影響を与えることが期待される。レンダリングプロセッサ２１０は、そのような動作モードで事前に構成され、サウンドプログラムコンテンツの出力中に、現在の動作モードを判定ロジック２１５によってリアルタイムで選択し変更することができる。サウンドレンダリングの動作モードについての詳細は以下に記載される。

判定ロジック２１５（判定プロセッサ）は、例えば、レンダリングプロセッサ２１０を含むチップ上の中央処理ユニット、アプリケーションプロセッサ又はシステムを共有するか、又は別のマイクロプロセッサのプログラミングによって、プログラムされたプロセッサとして実装され得る。判定ロジック２１５はいくつかの異なる決定を行うことができ、及び／又はいくつかの異なるオーディオ処理動作を実行することができる。例えば、判定ロジック２１５は、特定の入力に基づいて、出力している、又は出力しようとしている所定のサウンドプログラムコンテンツに対して、どのサウンドレンダリングモードを使用するかを決定するプログラムを実行することができる。選択されたレンダリングモードは、次いでレンダリングプロセッサ２１０を構成して、ラウドスピーカドライバ１２０を駆動し（サウンドプログラムコンテンツの出力中）、そこにビームとオーディオコンテンツの組み合わせを生成する。サウンドレンダリングモードは、判定ロジック２１５によって実行されている聴取者の位置、室内音響、及びコンテンツ分析のうちの１つ以上の変化に基づいて、出力中に（オーディオシステム２００のユーザ又は聴取者からの直接的又は即時入力を必要とせず）自動的に変化することができる。

判定ロジック２１５は、その判定ロジック入力の変化に基づいて、出力中に自動的に（すなわち、オーディオシステム２００のユーザ又は聴取者からの即時入力を必要とせずに）レンダリングモード選択を選択及び／又は変更することができる。一実施形態では、判定ロジック入力は、センサデータ及びユーザインターフェース選択のうちの１つ又は両方を含む。センサデータは、例えば、近接センサ、カメラ、又は１つ以上のマイクロフォンによって取り込まれた測定値を含むことができる。ユーザインターフェースの選択は、部屋の境界とその中の特定の物体の位置、例えば家具を描く、聴取者によって手動で入力されるデータであることができる。この情報を用いて、判定ロジック２１５は、ラウドスピーカドスピーカキャビネット１１０に対する聴取者の位置及び／又は音響的に重要な部屋の特徴（例えば、天井、壁、床、及び特定の物体の位置）を計算することができる。センサデータは、部屋に対するサウンド反射値、サウンド吸収値、又はインパルス応答を測定するためにも使用され得る。判定ロジック２１５は、例えば、ラウドスピーカキャビネット１１０が音響反射面に近接して配置されたときを判定するために、個々のラウドスピーカドライバ１２０と部屋の間の音響相互作用を評価する機能を有することができる。この場合、判定ロジック２１５は、所望のステレオエンハンスメント又は没入効果を促進するために、特定の角度に配向又は操縦され得る拡散コンテンツパターンビームを含む主拡散モードを選択することができる。例えば、拡散コンテンツパターンは、聴取者から離れる方向に向けられて、より拡散的なサウンド環境を生成するために、部屋の隣接する壁からはね返ることを可能にされ得る。

主拡散モードでは、レンダリングプロセッサ２１０内のビームフォーマの出力は、スピーカドライバ１２０に、ｉｉ）いくつかの拡散コンテンツパターンと重ね合わされた、ｉ）主コンテンツパターンを有するサウンドビームを生成させることができる。一例として、図３はそのようなモードで生成されたサウンドビームを示す。具体的には、この図は、ラウドスピーカキャビネット１１０の下向きの図を示しているが、それは、主コンテンツパターン３０５（本明細書ではビームとも呼ばれる）並びに拡散コンテンツパターン３１５及び３１０（例えば、２つ以上のビーム、又は２つ以上のローブ）を生成している。図面は、２つの拡散コンテンツパターンのみを描いているが、一実施形態では、２つ超の拡散コンテンツパターン（拡散コンテンツを含む２つ超のビーム、又は２つ超のローブ）が存在し得る。

一実施形態では、主コンテンツパターン３０５及び拡散コンテンツパターン３１０、３１５は、すべて、図示のように、異なる方向に向けられている。主コンテンツパターン３０５は、決定された聴取者位置（例えば、ユーザ指定の又は自動的に検出された）に意図的に向けられ得るが、拡散コンテンツパターン３１０及び３１５は、その場合、決定された聴取者位置から離れるように向けられる。

別の実施形態では、拡散コンテンツパターンは、家具アイテムのものなどの隣接する壁、窓又は他の表面の決定された位置（その位置は、ユーザによって指定されてもよく、又は自動的に検出されてもよい）に意図的に向けられるが、主コンテンツパターンは、決定された位置から離れるように（異なる方向に）向けられる。隣接する音響面の決定された位置又は決定された聴取者位置は、前述のように、センサデータを含むその入力とユーザインターフェース選択の任意の適切な組み合わせを使用して、判定ロジック２１５によって計算され得る。したがって、主拡散モードの特定のパラメータは、オーディオコンテンツ、室内音響、及びラウドスピーカ配置に依存して、可変（例えば、ビーム幅及び角度）であってもよい。

主コンテンツパターン３０５及び拡散コンテンツパターン（例えば、３１０及び３１５）には、各々、プログラムオーディオの部分を含むことができる。例えば、判定ロジック２１５は、例えば、時間ウィンドウ表示の相関を使用して、プログラムオーディオの入力オーディオチャネル（例えば、Ｌ及びＲ）を分析し、その中に相関コンテンツ及び無相関（又は非相関）コンテンツを見出すことができる。判定ロジック２１５は、レンダリングプロセッサ２１０に、少なくとも１つのコンテンツパターン内で、どのコンテンツ（例えば、相関又は非相関）をレンダリングすべきかを通知することができる。例えば、入力オーディオチャネル内に含まれる相関コンテンツは、各入力オーディオチャネル内で有効に出現する相関コンテンツが、真正の「ドライ」センタ画像であるので、主コンテンツパターン３０５内でレンダリングされてもよい。一方、入力オーディオチャネル内に含まれる非相関コンテンツが抽出され（例えば、Ｌ−Ｒ又はＲ−Ｌの差分演算を行うことにより）、次いで拡散コンテンツパターン３１０及び３１５内に配置されてもよい。

レンダリングプロセッサは、１つ以上の中央側モードを含む他のサウンドレンダリングモードも有する。各中央側モードでは、レンダリングプロセッサ２１０の出力は、ラウドスピーカドライバ１２０に、ｉｉ）いくつかのローブを有する指向性パターンと重ね合わされた、ｉ）全方向製パターンを有するサウンドビームを生成させることができる。一例として、図５は、１つのそのようなモードで生成されたサウンドビームを示す。具体的には、この図はラウドスピーカキャビネット１１０の下向きの図を示しているが、それは、全方向性パターン５０５及び指向性パターン５２５、ここでは４つの一次ローブ５１５ａ、５１５ｂ、５２０ａ及び５２０ｂを有する四重極ビームを生成している。この図は高次の中央側モード（四重極ビーム）を示しているが、レンダリングプロセッサ２１０は、異なる次数の他の中央側モード（例えば、二重極ビームを生成する低次中央側モード）でも構成され得る。

低次モードと高次モードの間のような判定ロジック２１５による選択は、例えば、入力オーディオチャネルの現在の聴取者位置、室内音響、及びコンテンツ分析のような、以下の係数又はパラメータの少なくとも１つの関数であってもよい。例えば、選択はコンテンツ分析に基づいてもよく、低次又は高次指向性パターンの選択は、周囲又は拡散サウンドコンテンツ（例えば、残響）の量のような入力オーディオチャネルのスペクトル及び／又は空間特性に基づいてもよい。特定のタイプの拡散コンテンツは、低次中央側モードを介して出力されることから利益を得ることができ、それは室内の無相関（非相関）コンテンツの空間分離を強調する。ハードパンされた離散ソースのような強い空間分離をすでに含む他のタイプのコンテンツは、高次の中央側モードから利益を得ることができ、それは、ラウドスピーカの周りにより均一なステレオ体験を生成する。極端な場合には、最低次の中央側モードは、指向性パターン５２５のような指向性ビームなしで、本質的に全方向性パターン５０５のみが生成されるモードであってもよく、それは、サウンドコンテンツが純粋にモノラルである場合に適切であり得る。

図３に示す主コンテンツパターン３０５並びに拡散コンテンツパターン３１０及び３１５と同様に、全方向性パターン５０５及び指向性パターン５２５は、判定ロジック２１５によるプログラムオーディオの適切に選択又は結合された部分を含む。例えば、判定ロジック２１５は、レンダリングプロセッサに、プログラムオーディオの２つ以上の入力オーディオチャンネルの結合及び／又は差分のいずれかのこれらのビームパターンを構成するように通知することができる。言い換えると、判定ロジック２１５は、レンダリングプロセッサ２１０が結果を特定のビームパターンでレンダリングするために、２つ以上の入力オーディオチャネルを処理（例えば、結合及び／又は減算）し、その結果をレンダリングプロセッサ２１０に送ることができる。例えば、図５に戻って参照すると、プログラムオーディオが２つの入力オーディオチャネル（例えば、Ｌ及びＲ）を含む場合、全方向性ビームパターン５０５（モノラル主コンテンツパターンである）は、これらの２つのチャンネルの結合（例えば、Ｌ＋Ｒ）であるオーディオコンテンツを含むことができる。一方、指向性パターン５２５のローブは、入力オーディオチャネル間の差分に起因する非相関オーディオコンテンツを含む。例えば、前向きローブ５１５ｂはＲ−Ｌコンテンツを含み、後向きローブ５１５ａはＲ−Ｌコンテンツを含み、右向きローブ５２０ｂはＬ−Ｒコンテンツを含み、左向きローブ５２０ａはＬ−Ｒコンテンツを含む。したがって、指向性パターン５２５の全方向性パターン５０５との結合又は重ね合わせにより、（ラウドスピーカキャビネット１１０の中心の周りに一緒に３６０度スパンする）オーディオのセクタが生成される。図５に示す例では、全方向性パターン５０５内に含まれる相関オーディオコンテンツの各セクタは、ＬからＲを減算して導出された非相関オーディオコンテンツを含むローブ及びＲからＬを減算して導出された非相関オーディオコンテンツを含むローブが横に配置されている。一実施形態では、二重極ビームを用いた低次中央側モードでは、１つのローブはＲ−Ｌコンテンツを含み、他のローブはＬ−Ｒコンテンツを含む。

どのサウンドレンダリングモードを使用するかを判定することに加えて、判定ロジック２１５は、ラウドスピーカキャビネット１１０によって現在出力されているサウンドプログラムコンテンツの聴取者の知覚を、プログラムオーディオを「前景」から引き出して「背景」に移動させることによって変化させて、聴取者に、そのサウンドプログラムコンテンツが離れた場所（例えば、別室内）にあるという知覚を与えることにより、警告メッセージに応答してプログラムオーディオを空間ダッキングさせることもできる。サウンドプログラムコンテンツを背景で出力することにより、出力元（例えば、ラウドスピーカキャビネット１１０）は「ぼかされて」いるか、又は出力元は聴取者に容易に識別されない。一実施形態では、判定論理２１５のぼかしルーチン（図２Ａ参照）は、レンダリングプロセッサ２１０にそれらを渡す前に（例えば、プログラムオーディオを空間ダッキングすることによって）プログラムオーディオの部分を調節する（したがって、レンダリングプロセッサ２１０はもはやプログラムオーディオを直接受信せず、代わりに調節されたプログラムオーディオを判定ロジック２１５のぼかしルーチンから受信している）。別の実施形態では、レンダリングプロセッサ２１０は、プログラムオーディオを直接受信し続け、プログラムオーディオが空間ダッキングされるとき、判定ロジック２１５はレンダリングプロセッサ２１０にそうする方法を指示することができる。

空間ダッキングの例示的アプリケーションは次のようになる。図１Ｂに戻って、両方のタイムライン上で左から右へ進むと、プログラムオーディオ１３０は、仮想携帯端末（ＶＰＡ）の応答によって中断（一時停止又は休止）することなく、ラウドスピーカキャビネット１１０によって出力されている。一実施形態では、この時点でのプログラムオーディオ１３０は、ラウドスピーカキャビネット１１０を介して（例えば、レンダリングプロセッサが動作している現在のレンダリングモードによって）正常に出力されている。次に、聴取者は、トリガフレーズ（例えば、「ヘイハル、あなたは聞こえますか？」）を言って、ＶＰＡ会話を開始しようとする。トリガフレーズが検出されると、ＶＰＡ会話が発声されて開始し、それにより、プログラムオーディオの部分がラウドスピーカキャビネット１１０によって空間ダッキングされるようになる。この例では、プログラムオーディオの部分は、プログラムオーディオの連続した間隔をカバーし、持続時間は、聴取者とＶＰＡの間の会話と一致する。プログラムオーディオが空間的にダッキングされると、ＶＰＡ口頭応答１４０（例えば、「私はどのようにあなたを助けることができますかデーブ？）」がレンダリングされ、ラウドスピーカキャビネット１１０を介して出力される。ＶＰＡ口頭応答１４０が出力されると、ＶＰＡは、聴取者にＶＰＡにコマンド（例えば、質問）を発行するための時間を許容するために、特定の時間量（例えば３秒）待機する（例えば、遅延する）。遅延中に、聴取者は、例えば、「日本では何時ですか？」、と質問する。このコマンドは、マイクロフォン（ラウドスピーカキャビネットに結合されるか又は一体化され得る）によって感知される。感知されたコマンドは、次いで、ＶＰＡによって解釈され、それは、ある時間（例えば、２秒）を要する可能性がある。感知されたコマンドに対してＶＰＡ口頭応答１４５（例えば、「今５時です」）が取得されると、それはレンダリングされてラウドスピーカキャビネット１１０を介して出力される。再び、聴取者に追従コマンドを発行するためのより多くの時間を許容するために、ＶＰＡは、特定の時間遅延してもよい。追従コマンドを受信しないと、ＶＰＡ会話が終了し、プログラムオーディオの部分の空間ダッキングが除去又はオフにされ、プログラムオーディオがラウドスピーカキャビネットによって正常に出力されることを可能にする。このプロセス（又はこのプロセスの少なくとも一部）は、聴取者がＶＰＡとの会話を開始するためにトリガフレーズを発声するたびに、オーディオシステム２００によって実行されてもよい。

サウンドプログラムコンテンツのプログラムオーディオを空間ダッキングするために、判定ロジック２１５内のぼかしルーチンは、ラウドスピーカキャビネット１１０によって放出される少なくとも１つのビームパターン内のプログラムオーディオの少なくとも選択された部分（例えば、含まれる相関又はモノラルコンテンツ）に対して非相関化処理を実行することができる。一実施形態では、判定ロジック２１５は、相関コンテンツを含み得るプログラムオーディオの部分を選択する。例えば、図３を参照して、レンダリングプロセッサ２１０が主拡散（周囲直接）レンダリングモードを使用してオーディオをレンダリングしているとき、判定ロジック２１５は、主コンテンツパターン３０５内の相関コンテンツを含むプログラムオーディオの選択された部分に対して非相関化を実行することができる。一方、中央側モード（図５）では、判定ロジック２１５は、全方向性パターン５０５内の相関コンテンツを含むプログラムオーディオの選択された部分に対して非相関化を実行することができる。非相関化を実行する効果及び異なるモードでプログラムオーディオの部分に対してそうする方法については、以下に更に記載される。

判定ロジック２１５は、異なる方法でプログラムオーディオの部分に対して非相関化を実行することができる。例えば、判定ロジック２１５は、プログラムオーディオの１つ以上の入力オーディオチャネルに残響を付加することによってそうすることができる。残響の付加量は、室内の音響に基づいてもよい。例えば、判定ロジック２１５は、ラウドスピーカキャビネット１１０が収容された部屋の測定されたインパルス応答に基づいて、どの程度の残響を付加するかを決定することができる。測定されたインパルス応答を使用して、判定ロジックは、インパルス応答の推定されたカートシス（例えば、「尖度」）に基づいて室内がどのように残響（例えば拡散）するかを評価することができる。カートシスが大きいほど、室内は拡散が少なくなる。したがって、判定ロジック２１５は、残響を付加し推定されたカートシスを低減し、それによってインパルス応答を平滑化して、室内効果の拡散性の増加をもたらすことができる。この「残響支援非相関化」は、聴取者によって知覚されるオーディオ「ぼかし」効果をもたらす。残響の付加により、ビームパターン内の相関コンテンツを含むプログラムオーディオの部分は、したがって、非相関化されるようになる。ビームパターン内のプログラムオーディオの部分に対して実行される非相関化処理は、ダッキングの「空間的」（又は拡散的）態様を達成し、それはプログラムオーディオのぼかされた印象（聴取者上で）を生成し、「背景」で出力されている印象を与える。聴取者への空間ダッキングの影響についての詳細は、図４に関連して以下に更に記載される。

一実施形態では、判定ロジック２１５は、ヘッド関連伝達関数（ＨＲＴＦ）を１つ以上の入力オーディオチャネルに適用することによって、ビームパターンにおけるプログラムオーディオの選択された部分に対して非相関化を実行することができる。別の実施形態では、判定ロジック２１５は、クロストークキャンセラを使用して、プログラムオーディオの選択された部分を非相関化することができる。更に別の実施形態では、プログラムオーディオが単一の（例えば、モノ）信号を含むとき、判定ロジック２１５は、それをマルチチャンネル信号（例えば、Ｌ及びＲチャンネルで）にアップミックスし、それによって２つのチャネル内に非相関コンテンツを生成することができる。判定ロジック２１５は、プログラムオーディオの選択された部分を非相関化するための任意の手段を使用することができることを理解されたい。

プログラムオーディオの部分を非相関化することに加えて、判定ロジック２１５は、サウンドプログラムコンテンツの出力中に、それらの部分を１つのビームパターンから別のビームパターンに移動（例えば、パン）させることもできる。例えば、図３を参照して、周囲拡散モードでは、判定ロジック２１５は、主コンテンツパターン３０５内に含まれるプログラムオーディオの部分を、拡散コンテンツパターン３１０及び／又は３１５の１つ又は両方に移動させて非相関化することができる。図５の中央側モードでは、判定ロジック２１５は、全方向性パターン５０５内に現在含まれているプログラムオーディオの部分を、指向性パターン５２５の１つ以上のローブに、（その少なくとも一部を）移動させて非相関化することができる。入力オーディオチャネルに対して「相関化」されていると考えられる警告オーディオを主コンテンツパターン３０５（又は全方向性パターン５０５）に付加することによって、オーディオシステム２００は、聴取者が付加された警告オーディオが「前景」にあると知覚する聴取経験を生成することができるが、プログラムオーディオは、ここで非相関形式にあって、異なるビームセットを介して出力されており、したがって背景にある。移動され新たに非相関化されたオーディオコンテンツの代わりに警告オーディオを付加することに関する詳細は、後述される。判定ロジック２１５は、レンダリングプロセッサ２１０に命令して、異なるビームパターン間で、プログラムオーディオの部分のここで非相関化されているコンテンツを移動させることができる。

一実施形態では、プログラムオーディオの非相関部分（ビーム間）の移動は、その部分を非相関化することに応答して本質的に生じ得る。説明のために、判定ロジック２１５はコンテンツ分析ルーチンを有し、それは、時間ウィンドウ表示の相関を用いて、その入力オーディオチャネル（例えば、プログラムオーディオのＬ及びＲ）を分析して、そこに相関コンテンツ及び非相関コンテンツを見出すことができる、と考える。判定ロジック２１５のぼかしルーチンが残響を入力オーディオチャンネルに付加した後にこの分析がここで実行された場合、コンテンツ分析ルーチンは残響が付加されて非相関化されたコンテンツを見出すので、判定ロジック２１５は、レンダリングプロセッサ２１０に、この修正された入力オーディオは、ｉ）プログラムオーディオが主拡散レンダリングモードでレンダリングされている場合（例えば、図３）、拡散コンテンツパターン３１０及び／又は３１５の少なくとも１つ、又はｉｉ）プログラムオーディオが中央側レンダリングモードの１つでレンダリングされている場合（例えば、図５）、指向性パターン５２５のローブの少なくとも１つ、においてレンダリングされるべきであるということを通知するであろう。

一実施形態では、レンダリングプロセッサ２１０内のビームフォーマは、空間ダッキングがアクティブ化されていても、そのビーム構成（例えば、ビームの形状及び目標）を変更することなく、その入力オーディオ信号をビームにレンダリングし続ける。図２Ｂはそのような例を示す。具体的には、この図は、いくつかのビームフォーマ入力信号２４１〜２４３をレンダリングプロセッサ２１０内のビームフォーマ２５０に提供する判定ロジック２１５を示す。ビームフォーマ２５０は、判定ロジック２１５によって提供されるビーム構成命令に基づいて、入力信号２４１〜２４３を使用して、駆動信号を生成し、ラウドスピーカアレイ１２０を（ラウドスピーカキャビネット１１０内で）駆動して、ビームパターンを生成する。以下で説明するように、空間ダッキングがアクティブにされたとき、判定ロジックは、生成されたビームパターン内のサウンドコンテンツを簡単に調節することができる（残響を付加することによってサウンドをぼかす）が、ビームの形状又は向きを調節しない。

例えば、空間ダッキングの前に、レンダリングプロセッサ２１０は、判定ロジック２１５からいくつかのビームフォーマ入力信号２４１〜２４３としてプログラムオーディオを受信する。判定ロジック２１５は、プログラムオーディオの部分からビームフォーマ入力信号を生成する。ビームフォーマ入力信号の各々は、ラウドスピーカアレイによって生成された特定のビームパターン、例えば主コンテンツパターン３０５、並びに２つの拡散コンテンツパターン３１０及び３１５で出力されるオーディオコンテンツを含むことができる。そのような操作中に、聴取者は、トリガフレーズを発声するか又はボタンを押圧することによって、ＶＰＡとの会話を開始しようと試みることができる。トリガフレーズ又はメニューボタンの押圧（両方とも警告オーディオトリガイベントの例である）を検出し、適切な可聴レスポンス（警告オーディオ）を取得することに応答して、スピーチベースのサービス２３０は、警告オーディオを示すか又は含む警告メッセージ２３５を判定ロジック２１５に送信することができる。

警告メッセージに応答して、（１）判定ロジックのぼかしルーチンは、主コンテンツパターン３０５を介して直接サウンドとして現在出力されているプログラムオーディオの部分（２つ以上のチャンネルをカバーすることができるその部分の少なくとも１つのチャンネル）に残響を付加し、及び（２）判定ロジックは、警告オーディオを、残響なしに、その部分に同相で付加する（例えば、警告オーディオは、このようにして、主ビーム３０５内で出力されている部分にあるプログラムオーディオの２つ以上のチャネルのすべてに付加される。）上述のように、判定ロジックのコンテンツ分析ルーチンは、入力オーディオチャンネルに対するこの変化を検出するので、したがって、判定ロジックは、信号２４１（主）内に警告オーディオを保持し（それは複数の入力チャネルにわたって相関化されるので）、一方、ここで非相関化されたプログラムオーディオを抽出し、それを信号２４２（拡散１）と信号２４３（拡散２）の１つ又は両方に移動させる。ビームフォーマ２５０は再構成されておらず（例えば、図３又は図５のようにビーム構成全体は同じままである）、その入力信号２４１〜２４３のコンテンツの変化を欠いたままであり、サウンド出力は所望の結果であって、警告オーディオは主パターン３０５のプログラムオーディオを効果的に置換し、元のプログラムオーディオの直接コンテンツは拡散コンテンツパターン３１０、３１５に移動されている。

判定ロジック２１５は、プログラムオーディオが空間ダッキングされている間に他のオーディオ処理動作を適用することもできる。例えば、判定ロジック２１５は、ローパスフィルタのセットを介してプログラムオーディオの部分をフィルタリングして、高周波数コンテンツを除去することができる。一実施形態では、判定ロジック２１５は、特定のオーディオ特性によって、ローパスフィルタのカットオフ周波数を調節することができる。例えば、プログラムオーディオのコンテンツ分析によってカットオフ周波数を調節してもよい。判定ロジック２１５は、ダッキング値（又はダイナミックレンジ圧縮値）を適用することによって、移動されるプログラムオーディオの部分の音量レベルを低減することもできる。一実施形態では、ダッキング値の適用は、（ｉ）判定ロジック２１５がローパスフィルタを適用しているかどうか、及び（ｉｉ）プログラムオーディオの現在の音量レベル、に依存し得る。例えば、ローパスフィルタの適用中に高周波成分を除去することにより、知覚されるプログラムオーディオの音量を自然に低減することができる。したがって、プログラムオーディオがすでに低い閾値にある場合、判定ロジック２１５は、（高周波コンテンツのために）音量を下げることが不要であるため、ダッキング値を適用しなくてもよい。一実施形態では、ダッキング値の適用は、プログラムオーディオの音量レベルに比例する。

一実施形態では、判定ロジック２１５は、出力を突然妨害しないように、プログラムオーディオを徐々に空間ダッキング（例えば、前述の操作を適用する）してもよい。例えば、判定ロジック２１５がプログラムオーディオの部分を非相関化し始める（例えば、残響を入力オーディオチャネルに付加する）と、これにより、１つのビームパターン（例えば、主コンテンツパターン３０５）からのプログラムオーディオの部分の徐々の除去、及び１つ以上の他のビームパターン（例えば、拡散コンテンツパターン３１５及び／又は３１０）へのその徐々の付加がもたらされる。判定ロジックは、プログラムオーディオの部分のすべて（又は大部分）が非相関化されて他のビームパターンに移動されるまで、残響を付加することができる。プログラムオーディオが完全に空間ダッキングされるためには、短時間（例えば、２秒）かかり得る。別の実施形態では、プログラムオーディオは、瞬間的に空間ダッキングされてもよい。オーディオシステム２００が、もはやプログラムオーディオを空間ダッキングする必要がなくなると、プログラムオーディオの空間ダッキングされた部分は、元のビームパターン（例えば、主コンテンツパターン３０５）に逆の方法で戻され得る。例えば、プログラムオーディオの部分の非相関コンテンツは相関化されるようになる（例えば、入力オーディオチャネルからの付加された残響の除去に基づいて）ので、それはその元のビームパターンに戻され得る。

図２Ａに戻って、警告オーディオトリガイベントによる空間ダッキングの起動は、スピーチベースのサービス２３０によるものであってもよい。スピーチベースのサービス２３０は、聴取者が、オーディオシステム２００で動作し、ラウドスピーカキャビネット１１０のローカルメモリに記憶された、仮想携帯端末（「ＶＰＡ」）として動作するコンピュータプログラムとの会話を聴取者が開始して行うことを可能にするためのものである。ＶＰＡと通信することにより、聴取者は質問を（例えば、コマンドを言語化することによって）することができ、それに応答して、ラウドスピーカアレイ１２０によって出力される可聴応答を受信することができる。具体的には、聴取者は、オーディオシステム２００のマイクロフォン２０１によって感知される「トリガフレーズ」を発声することによって、ＶＰＡとの会話を開始しようと試みることができる。マイクロフォン２０１は、感知されたスピーチをオーディオ信号に変換し、次いでスピーチベースのサービス２３０内のトリガフレーズ検出器（自動スピーチレコグナイザ）に送信して、そこでトリガフレーズを識別する（例えば、認識する）ために信号を分析することができる。一実施形態では、トリガフレーズ検出器は、認識されたスピーチを、ローカルメモリ内に（例えば、ルックアップテーブル内に）記憶されている予め記憶されたトリガフレーズと比較して、一致が見つかったとき、それは、聴取者がトリガフレーズを発声したと判定することができる。トリガフレーズが検出されると、スピーチベースのサービス２３０は、トリガフレーズ（記憶装置から形成されたか、又はアクセスされた）に対する適切な口頭応答を取得することができる。

別の実施形態では、警告オーディオトリガイベントは、聴取者によるボタン押圧であってもよく、それはラウドスピーカキャビネット内で動作する別のソフトウェアプロセスによってスピーチベースのサービス２３０に報告され得る。これに応答して、スピーチベースのサービス２３０は、いくつかの要因の少なくとも１つに基づいて適切なテキスト応答を取得することができる。例えば、イベントが発声されたトリガフレーズであった場合、その応答は、誰がトリガフレーズを話したかを識別するために、スピーチ信号に対して実行される聴取者識別プロセスに基づくことができる。聴取者が識別されると、スピーチベースのサービス２３０は、聴取者に対する応答を調整することができ、例えば、「どのように私はあなたを助けることができますかデーブ？」、ここでデーブは聴取者である。一実施形態では、応答は、ラウドスピーカキャビネット１１０の所有者に基づいてもよい。別の実施形態では、応答は単に一般的な応答であってもよく、例えば、「どのように私はあなたを助けることができますか？」取得された適切な応答は、テキスト対スピーチ（「ＴＴＳ」）システムに提供され、その合成されたスピーチバージョンを生成することができる。あるいは、オーディオ応答は、以前に記録された人間が発声したフレーズ（トリガフレーズに対する適切な応答であると思われる）として取得され得る。両方の場合において、ＶＰＡによる適切なスピーチ応答を含む、本明細書で警告オーディオと呼ばれるオーディオ信号が、レンダリングプロセッサ２１０に提供され、特定の警告オーディオトリガイベントに応答して、ラウドスピーカキャビネット１１０のラウドスピーカアレイ１２０を介して出力されるように意図され得る。

一実施形態では、警告オーディオトリガイベントは、オーディオシステム２００において現在実行中の他のアプリケーションプログラムからの信号であってもよく、アプリケーションプログラムはオーディオコンテンツを出力する必要がある。例えば、プログラムオーディオが出力されている間、リマインダアプリケーションは、聴取者に特定の時間に予定された会議を思い出させる必要があり得る。その時刻が来ると、リマインダアプリケーションは、スピーチベースのサービス２３０に信号を送ることができ、それは、ラウドスピーカアレイ１２０を介して出力されるリマインダアプリケーションによって所望される警告オーディオ（例えば、「ティータイムは３０分以内です」）を示すか、又は含む警告メッセージを判定ロジック２１５に送信する。別の実施形態では、ナビゲーションアプリケーションは、プログラムオーディオが出力されている間に、聴取者にナビゲーション命令を提供する必要があり得る。操作が差し迫っている場合、ナビゲーションアプリケーションは、その所望の警告オーディオ（例えば、「１．５マイルで左に曲がる」という合成された又は人間が発声したバージョン）とともに警告メッセージを判定ロジック２１５に直接提供することができ、判定ロジック２１５は、上述のようにこれに応答して、プログラムオーディオを空間ダッキングして警告オーディオと置換させる。警告オーディオの出力が完了すると、この場合に聴取者との口頭対話が必要とされないので、判定ロジック２１５は直ちに（又は２秒以下のような短い時間期間内に）空間ダッキングを除去することができる。他の実施形態では、（オーディオ警告が出力されることを要求する）要求アプリケーションは、プログラムオーディオを空間ダッキングするために、スピーチベースのサービス２３０と通信することができる。例えば、ナビゲーション命令は、スピーチベースのサービス２３０に、警告メッセージ及び警告オーディオを判定ロジック２１５に提供するように命令することができる。

プログラムオーディオが出力されている間にイベントが発生した場合、スピーチベースのサービス２３０は、そのイベントに応答して出力されるように意図されたＶＰＡによる適切なスピーチ（例えば、口頭）応答を含む警告オーディオを示すか又は含む警告メッセージ２３５を、判定ロジック２１５に提供することができる。警告メッセージ２３５の受信に応答して、判定ロジック２１５は、プログラムオーディオを空間ダッキングし、警告オーディオを聴取者に出力することができる。例えば、プログラムオーディオが出力されている間、スピーチベースのサービス２３０は、ラウドスピーカアレイ１２０が放出しているビームパターンを介して、警告オーディオを聴取者に出力するために、判定ロジック２１５にプログラムオーディオを空間ダッキングすることを要求する（警告メッセージの送信を介して）ことができる。判定ロジック２１５は、警告オーディオをいくつかの方法で受信（又は取得）することができる。例えば、判定ロジック２１５は、スピーチベースのサービス（例えば、その中のＴＴＳシステム）から警告オーディオを受信することができ、警告メッセージ２３５自体から警告オーディオを取得してもよく、又は警告メッセージ２３５内に含まれるデータ（例えば、メモリから警告オーディオをどこに取得すべきかを判定ロジック２１５に伝えるポインタ情報）に基づいて警告オーディオを取得してもよい。一実施形態では、判定ロジック２１５は、警告メッセージ２３５の受信に応答して、警告オーディオを受信（又は取得）する。別の実施形態では、判定ロジック２１５は、（例えば、スピーチベースのサービス２３０からの）警告メッセージ２３５と同時に警告オーディオを受信することができる。

警告メッセージ２３５は、（ｉ）出力されるプログラムオーディオが空間ダッキングされること及び（ｉｉ）同時に警告オーディオがレンダリングされて少なくとも１つのビームパターンに付加されること、を判定ロジック２１５に通知する。具体的には、警告オーディオは、プログラムオーディオが空間ダッキングされたときに、他のビーム（例えば、拡散コンテンツパターン３１０及び３１５、又は指向性パターン５１０）に移動されたプログラムオーディオの部分の非相関コンテンツを置換することによって、少なくとも１つのビームパターン（例えば、主コンテンツパターン３０５又は全方向性パターン５０５）に付加され得る。警告オーディオが聴取者に出力されている間、プログラムオーディオを空間ダッキングすることにより、これにより、聴取者は、警告オーディオを前景で聴取することができ、プログラムオーディオは背景で出力し続ける。ある意味では、レンダリングされた警告オーディオはラウドスピーカアレイ１２０を駆動して、（例えば主コンテンツパターン３０５又は全方向性パターン５０５）のプログラムオーディオの（前に相関化された）部分を警告オーディオと置換する。このようにして、オーディオシステム２００内で動作するＶＰＡを開始するためにトリガフレーズを発声した後の聴取者は、プログラムオーディオによって消音されることなく、オーディオシステム２００から即時かつ分かりやすい可聴応答を受信し、後者は背景で出力され続ける。

警告オーディオが、プログラムオーディオの部分の新たに非相関化されたコンテンツを置換することを確実にするために、それはプロセス全体にわたって異なるポイントで付加されてもよい。警告オーディオは適切なオーディオ応答を含み、ＴＴＳシステムによって合成されるか、以前に記録された人間が発声したフレーズのいずれかであるので、警告オーディオは単一（又はモノラル）のオーディオチャネルであることができる。したがって、一実施形態では、例えば、左右の入力オーディオチャネルに均等に警告オーディオを付加する（例えば、判定ロジック２１５によって）ことができる。一実施形態では、上述のように、警告オーディオは均等に付加されて、警告オーディオは左右の入力オーディオチャネルに同相で付加される。このようにして、警告オーディオは、２つの入力チャネルに相関コンテンツとして現れ、コンテンツ分析ルーチンによってそのように認識され、それは順に、（現在のレンダリングモードに応じて）レンダリングプロセッサ２１０にそれに応じてレンダリングするように命令する。警告オーディオを均等に付加することにより、警告オーディオが入力警告オーディオはチャネル（例えば、Ｌ及びＲ）内の相関コンテンツとして認識され、レンダリングプロセッサ２１０がどのようなレンダリングモードを使用していても、それによって警告オーディオが相関コンテンツを正常に含むビームパターン内に配置される。例えば、プログラムオーディオが主拡散レンダリングモードでレンダリングされている場合、図４を参照して、警告オーディオは、聴取者から離れるように向いている拡散コンテンツパターン３１０、３１５ではなく、主コンテンツパターン３０５でレンダリングされる。それは、判定ロジック２１５が、ここで警告オーディオも含むプログラムオーディオの入力オーディオチャネルの調節されたバージョンを分析するとき、判定ロジック２１５は、警告オーディオを相関コンテンツとして見出す一方、それが見出す非相関コンテンツは元のプログラムオーディオからのものである、という理由であり得る。

別の実施形態では、レンダリングプロセッサ２１０が中央側モードにある間に−図６参照−、警告オーディオはＬ及びＲ入力オーディオチャネルの両方に均等に（判定ロジックによって）付加されてもよく、それは全方向性パターン５０５（Ｌ＋Ｒとして）では相関コンテンツとして現れるが、本質的にローブ５１５ａ、５１５ｂ、５２０ａ、５２０ｂは（Ｌ−Ｒ及びＲ−Ｌとして）存在しない。同時に、Ｌに（又はＲに）含まれるプログラムオーディオは非相関化されており、それはローブ（レンダリングプロセッサ２１０がＬ−Ｒ及びＲ−Ｌコンテンツを生成している場所である）内で非相関化されたままである。

警告オーディオの全体が聴取者に出力されるか、又は警告オーディオの出力が完了されると、判定ロジック２１５は、次いで、プログラムオーディオの出力をその以前の動作状態に戻すために、空間ダッキングを非アクティブ化することができる。前述のように、プログラムオーディオの部分の非相関コンテンツは、それが最初に除去された元のビームパターンに、逆の方法で、戻され得る。例えば、判定ロジック２１５はプログラムオーディオの部分の非相関コンテンツを相関コンテンツに徐々に戻し（例えば、入力オーディオチャネルから付加された残響を徐々に除去することによって）、同時にそれを徐々に付加して元のビームパターンに戻すことができる。一実施形態では、他のオーディオ処理動作（例えば、ローパスフィルタ及びダッキング値）が、プログラムオーディオの部分で実行された場合、それが空間ダッキングされている間に、それらの動作も同様に逆の方法で除去又はオフ（非アクティブ化）されてもよい。オーディオシステム２００を以前の動作状態に戻すことは、短い時間（例えば、２秒）を要するか、又はそれは実質的に即時であり得る。

一実施形態では、オーディオシステム２００は、聴取者にいくらかの付加の時間を許容してオーディオシステム２００に追従コマンド（例えば、「今何時ですか？」）を与えるために、警告オーディオが終了した後のより長い期間（例えば、５秒）、空間ダッキングされたままであり得る。例えば、マイクロフォン２０１は、コマンドを感知してそれをオーディオ信号に変換することができる。マイクロフォン２０１は、そこでスピーチを認識するために、変換されたオーディオ信号を自動スピーチレコグナイザに送信することができる。認識されたスピーチから、スピーチベースのサービス２３０は、聴取者が発声した言葉がコマンド（又は質問）であることを識別することができる。次いで、スピーチベースのサービス２３０は、インターネットを介して認識されたスピーチを携帯端末サーバに送信し、コマンドに対する適切なテキスト応答を分析し生成することができる。一実施形態では、スピーチベースのサービス２３０は、トリガフレーズの後に発声された単語がコマンドであると仮定することができるので、認識された単語がコマンド又は質問を含むかどうかを最初に識別することなく、コマンドをサーバに送信することができる。スピーチベースのサービス２３０がサーバからのコマンドに対する適切なテキスト応答を受信すると、それは、ＴＴＳシステムに、コマンドに対するテキスト応答をビームパターンに付加される警告オーディオに合成させることができ、それは、警告オーディオ（例えば、主コンテンツパターン３０５又は全方向性パターン５０５）を、前述の警告オーディオが付加された同様の方法で、発射した。

一実施形態では、スピーチベースのサービス２３０は、適切なテキスト応答を受信するのではなく、以前に記録された人間が発声したフレーズを、ビームパターンに付加されるオーディオとして受信することができる。しかし、コマンドを受信しなければ、オーディオシステム２００は、以前の動作条件に戻ることができる。一実施形態では、判定ロジック２１５は、空間ダッキングを除去する前に、警告オーディオの出力を完了した後、少なくとも所定の遅延時間間隔待機する。別の実施形態では、判定ロジック２１５は、空間ダッキングを除去する前に、ＶＰＡと聴取者の間の会話が終了したことを示すスピーチベースのサービス２３０からの別の警告メッセージ２３５を受信するまで待機する。したがって、一実施形態では、空間ダッキングされた（例えば、中央側レンダリングモードで指向性パターンに移動された）プログラムオーディオの部分は、楽曲又は動画フィルムサウンドトラックの連続する区間であり、その持続時間は、聴取者と仮想携帯端末の間の会話の持続時間と一致する。

一実施形態では、判定ロジック２１５は、コンテンツコンテキストルーチン（図２Ａに示す）によって決定されるように、ラウドスピーカキャビネット１１０によって現在出力されているサウンドプログラムコンテンツのコンテキストに基づいてプログラムオーディオを空間ダッキングするかどうかを判定することができる。例えば、サウンドプログラムコンテンツが動画フィルム又は映画の楽曲若しくはオーディオサウンドトラック（例えば、５．１サラウンドフォーマット）である場合、判定ロジック２１５は、警告メッセージ２３５の受信に応答してプログラムオーディオを空間ダッキングすることを判定することができる。しかしながら、サウンドプログラムコンテンツのコンテキストが主に対話（例えば、ポッドキャスト又はオーディオブック）が存在することを示す場合、判定ロジック２１５は、警告オーディオが出力されている間に、単にプログラムオーディオの音量を大きく低下させることができる。この判定は、ＶＰＡのスピーチである警告オーディオを出力し、主に対話を含むサウンドプログラムコンテンツを出力し続けることは、２つの異なるトピックについて同時に話す、２つの同時の話し手（例えば、対話及びＶＰＡのスピーチ）が存在するので、聴取者にとって非常に混乱を招き得るという事実に基づくことができる。

図４及び図６、図７は、ラウドスピーカキャビネット１１０が異なるモードでプログラムオーディオをレンダリングしている間に実行される空間ダッキングの効果を示す例を示す。これらの各図は、図２Ａのシステムブロック図を参照して記載されている。図４は、主拡散レンダリングモードでレンダリングされているプログラムオーディオが空間ダッキングされている間に、この例では聴取者の位置に向いているビームを介して警告オーディオを出力する効果を示す。図４は２つの段階を示している。左の段階では部屋４００が示されていて、その中でスピーカキャビネット１１０が部屋の一方の側でプログラムオーディオを出力しているが、聴取者４１５が部屋４００の別の側で聴取している。プログラムオーディオを出力するために、ラウドスピーカキャビネット１１０は、図３に示す主拡散レンダリングモードを使用している。主コンテンツパターン３０５は、聴取者４１５に向けられた、プログラムオーディオの部分の相関（又は直接）オーディオコンテンツ（それは主コンテンツパターン３０５内に中実黒円として示されている）を含む。同時に、聴取者４１５から離れるように向けられたプログラムオーディオの別の部分の非相関（又は拡散）オーディオコンテンツを含む２つの拡散コンテンツパターン３１０及び３１５が存在する。例えば、主コンテンツパターン３０５におけるプログラムオーディオの部分は、映画シーンにおける対話であってもよく、一方、拡散コンテンツパターン３１０、３１５におけるプログラムオーディオの部分は、映画シーンにおける周囲サウンド（鳥の鳴き声など）であってもよい。

聴取者４１５が部屋４００内のラウドスピーカキャビネット１１０によって出力されているサウンドプログラムコンテンツを聴取している間、聴取者４１５は、トリガフレーズ４２０「ヘイ、ハル！」を発声してラウドスピーカキャビネット１１０のＶＰＡとの会話（又はセッション）を開始する。ラウドスピーカキャビネット１１０は、プログラムオーディオを空間ダッキングすることによってそのトリガフレーズに応答し、一方聴取者の発声トリガフレーズに対する適切な応答を含む警告オーディオを出力するーこれは図４の右の段階に示されている。具体的には、ラウドスピーカキャビネット１１０は、主コンテンツパターン３０５内のプログラムオーディオの部分の相関オーディオコンテンツを非相関化することによって（例えば、プログラムオーディオの１つ以上の入力オーディオチャネルに残響を付加することによって）、プログラムオーディオを空間ダッキングし、それを拡散コンテンツパターン３１０及び／又は３１５の少なくとも１つに移動させる。新たに非相関化されたコンテンツは、拡散コンテンツパターン３１０及び３１５内に含まれる、中空円として図示される。プログラムオーディオは、ここで、部屋４００内で拡散の方法で出力されており、それは、聴取者がプログラムオーディオが背景で出力されていると知覚することをもたらす。同時に、図４の右の段階に示すように、警告オーディオが主コンテンツパターン３０５にレンダリングおり、それは、聴取者４１５が口頭応答４２５「私はあなたをどのように助けることができますかデーブ？」を聴取することをもたらす。この例では、暗い太い線は、主コンテンツパターン３０５への警告オーディオの付加及び出力を示す。

前述のように、ラウドスピーカキャビネット１１０は、聴取者４１５が追従コマンドを発声することを可能にするために、最初にプログラムオーディオを空間ダッキングさせ、特定の時間量（例えば、１秒）待機し、警告オーディオを出力し、空間ダッキングを除去する前に延長された時間量（例えば、３秒）待機する。別の実施形態では、オーディオシステムは、プログラムオーディオを空間ダッキングさせ、同時に警告オーディオを付加することができる。

室内インパルス応答（ＲＩＲ）の概念は、空間ダッキングの影響を示すのに使用され得る。図４に示すように、左の段階は、ＲＩＲが、直接サウンド４０１、初期反射４０２、及び遅延反射４０３に対応するピークを有するプログラムオーディオ４０４をどのように「含む」かを示す。左の段階では、これらのピークは、様々なビーム、例えば主コンテンツパターン３０５、左拡散パターン３１０、及び右拡散パターン３１５のオーディオコンテンツにマッピングされる。右の段階では、プログラムオーディオ４０４の初期反射の直接及び少なくとも一部が抑制され、代わりに、主コンテンツパターン３０５によって放出された警告オーディオに関連付けられたサウンド４２６（例えば、直接及び初期反射）が付加される。聴取者４１５は、プログラムオーディオ４０４の直接及び初期反射（の少なくとも一部）を抑制することによって、ラウドスピーカキャビネット１１０からの鮮明で分かりやすい口頭応答４２５を聴取することができる。右の段階に見られるように、プログラムオーディオ４０４は、直接サウンド及び初期反射において抑制されているが、拡散された（又は空間ダッキングされた）プログラムオーディオ４０４は、遅延反射４０３（又は残響）に依然として存在する。非相関オーディオコンテンツ４３５（拡散コンテンツパターン３１０及び３１５内の中空の円として示される）が付加されると、残響４０３の密度は、右の段階に見られるように増加されている。

上記のように導入されたＲＩＲ概念は、聴取者４１５に対する空間ダッキングの効果、特に、サウンド出力の見かけの発生源（例えば、ラウドスピーカキャビネット１１０）がどのように「ぼかされて」いるか、又はむしろ聴取者４１５に容易には識別できないか、を示す助けとなる。例えば、残響４０３内に含まれるプログラムオーディオ４０４を残存させながら、プログラムオーディオ４０４に関連付けられた直接サウンド及び初期反射（の少なくとも一部）を抑制することは、聴取者４１５を拡散環境に置いて、プログラムオーディオが発生した場所の任意の表示を除去するか又はぼかす。言い換えると、この拡散環境は、聴取者４１５に、プログラムオーディオが「背景」で出力されているという知覚を与え、それは、例えば、非常に大きな部屋、大ホール、又は大聖堂でオーディオを聴取するのと同じ効果を与える。次いで、相関（及びモノラル）警告オーディオを主コンテンツパターン３０５に付加することは、警告オーディオが「前景」にあるという印象を聴取者４１５に与える。更に、初期反射４０２から少なくともプログラムオーディオ４０４の部分を除去することによって、初期反射４０２においてラウドスピーカキャビネット１１０によって生成される任意の他のサウンドの干渉なしに、聴取者４１５が、警告オーディオ４２６に関連付けられた鮮明で理解しやすい口頭応答を聴取することが可能になる。したがって、プログラムオーディオを空間ダッキングすることは、聴取者４１５が、ＶＰＡを明確に聴取することができる一方で、サウンドプログラムコンテンツのプログラムオーディオの出力を停止する必要なく、ＶＰＡとの会話を開始して実行することを可能にする。

図６は警告オーディオを出力する効果を示すが、中央側レンダリングモードでレンダリングされているプログラムオーディオが空間ダッキングされている。具体的には、図６は２つの段階を示し、そこでは、聴取者からコマンド（トリガフレーズを含んでもよい）を受信することに応答して、高次の中央側レンダリングモードで出力されているプログラムオーディオを、スピーカキャビネット１１０が空間ダッキングする。

第１の（又は上部の）段階は部屋４００を示しており、そこではラウドスピーカキャビネット１１０が部屋の中央でサウンドプログラムコンテンツのプログラムオーディオを出力しており、聴取者４１５が部屋４００の右側で聴取している。プログラムオーディオを出力するために、ラウドスピーカキャビネット１１０は、図５に示す高次の中央側レンダリングモードを使用している。具体的には、ラウドスピーカキャビネット１１０は、少なくともプログラムオーディオの１つの部分の相関オーディオコンテンツ（全方向性パターン５０５内に中実黒円として示されている）を含む全方向性パターン５０５、並びにそれぞれが少なくともプログラムオーディオの１つの部分の非相関オーディオコンテンツを含む、４つのローブ５１５ａ、ｂ及び５２０ａ、ｂを有する指向性パターン５２５、を生成している。前述のように、これらのビームパターンは、プログラムオーディオの２つ以上の入力オーディオチャンネルの結合及び／又は差分のいずれかで構成され得る。図４のラウドスピーカキャビネットと同様に、判定ロジック２１５は、その判定（又は選択）に基づいて、前述と同じ要因に基づいて高次の中央側レンダリングモードを使用してプログラムオーディオをレンダリングしてもよい。例えば、一実施形態では、判定ロジック２１５は、それは部屋４００の中央に（又は任意の壁からの閾値距離を超えて）あると判定した（例えば、センサデータを介して）ので、高次中央側レンダリングモードを選択した。

図６の上部の段階では、聴取者４１５は、ラウドスピーカキャビネット１１０（特に、ラウドスピーカキャビネット１１０のオーディオシステム２００内で動作するＶＰＡ）にコマンド（例えば、質問）を尋ねて、トリガフレーズで先行される回答を促す。具体的には、聴取者４１５は、トリガフレーズ６１５「ヘイハル、何の曲を再生していますか？」と発声することができる。前述のように、ラウドスピーカキャビネット（マイクロフォンを介して）は、発声された質問のサウンドを、それをオーディオ信号に変換することによって感知し、それは、次いで、スピーチベースのサービス２３０のトリガフレーズ検出器（自動スピーチレコグナイザ）に供給され得る−図２Ａ参照。トリガフレーズ「ヘイハル」が検出され得る。しかし、前述の例とは異なり、聴取者４１５は、トリガフレーズ（例えば、「何の曲を再生しています？）による追従コマンドも含ませている。スピーチベースのサービス２３０は、トリガフレーズに続く追加のスピーチ信号があることを認識し、追加のスピーチ信号をインターネットを介して携帯端末サーバに送信することができる。サーバは、追加のスピーチ信号を分析してその中のスピーチを認識し、スピーチベースのサービス２３０に送り返される適切なテキスト応答を形成することができる。スピーチベースのサービス２３０が適切なテキスト応答を受信すると、ＴＴＳシステムはテキスト応答をオーディオ信号に合成し、それはビームパターンに付加される警告オーディオとなる。別の実施形態では、テキストベースの応答の代わりに、スピーチベースのサービス２３０は、サーバから以前に記録された人間が発声した応答を受信することができる（これは警告オーディオとなる）。警告オーディオがビームパターンに付加されるためには、スピーチベースのサービスは警告メッセージ２３５を判定ロジック２１５に提供し、それを通知してプログラムオーディオを空間ダッキングさせ、取得された警告オーディオ（フレーズ６１５に応答する）を出力する。

図６の次の（又は下部の）段階は、プログラムオーディオを空間ダッキングするスピーカキャビネット１１０を示すとともに、ＶＰＡによるコマンド応答を含む警告オーディオを出力する。具体的には、ラウドスピーカキャビネット１１０は、（ｉ）相関オーディオコンテンツ（第１の段階で全方向性パターン５０５内に中実黒円として示されている）を非相関化し、それによって（ｉｉ）非相関コンテンツを全方向性パターン５０５から指向性パターン５２５に移動させること、によってプログラムオーディオを空間ダッキングした。付加された非相関オーディオコンテンツは、指向性ビーム５２５のローブ内に含まれる中空の円として示されている。一実施形態では、非相関オーディオコンテンツは、上部の段階に示され、それから導出される全方向性パターン５０５内の相関化オーディオコンテンツ（中実黒円）の位置に基づいて指向性パターン５２５のローブに付加される。例えば、ラウドスピーカキャビネット１１０は、相関コンテンツの特定のセクションを指向性パターン５２５の隣接するローブに指定することができる。各ローブは、スピーカキャビネット１１０に対して各隣接ローブから９０度だけ離れているので、各ローブの両側の周り４５度以内の相関オーディオコンテンツから導出された非相関コンテンツがそのローブに付加される。例えば、前方指向ローブ５２０ａはラウドスピーカキャビネットから０度で放出されると仮定する。４５度と−４５度の間及び全方向性パターン５０５内にある相関オーディオコンテンツから導出された非相関オーディオコンテンツは、次いで、プログラムオーディオが空間ダッキングされたときに、前方指向性ローブ５２０ａに続いて移動される。プログラムオーディオが空間ダッキングされると、オーディオシステム２００は、全方向性パターン５０５に警告オーディオを付加して、「’Ｉ’ｄｒａｔｈｅｒｇｏｂｌｉｎｄ’ｂｙＣｈｉｃｋｅｎＳｈａｃｋ」６３０によってコマンド応答を出力する。警告オーディオが出力され、スピーチベースのサービス２３０が聴取者４１５から追従質問／コマンドを感知しないと、ラウドスピーカキャビネット１１０は空間ダッキングを除去し、相関オーディオコンテンツを全方向性パターン５０５に戻す。

一実施形態では、中央側レンダリングモード中にラウドスピーカキャビネット１１０によって測定されたインパルス応答は、主拡散レンダリングモードに対して測定されたインパルス応答と同様であってもよく、それは図４に示される。特に、プログラムオーディオサウンドの相関オーディオコンテンツは非相関化されて指向性パターン５２５に移動されるので、これはプログラムオーディオの直接かつ初期の反射の抑制をもたらすことができ、警告オーディオからの口頭応答のサウンドがとって代わることができる。これは、口頭応答のサウンドが、聴取者４１５によって前景にあると知覚され得るが、非相関プログラムオーディオは背景にあるという点で、主拡散レンダリングモードと同様の結果を有することができる。

一実施形態では、ラウドスピーカキャビネット１１０は、図６に記載のプロセスの変形を実行することができる。例えば、図２Ａを参照して、警告メッセージ２３５は、トリガフレーズ検出器がトリガフレーズ「ヘイハル」（図４と同様に）を検出した後に、スピーチベースのサービス２３０から判定ロジック２１５に供給され得る。この例では、判定ロジック２１５は、携帯端末サーバから受信される聴取者コマンドに応答するための警告オーディオを付加することを想定して、プログラムオーディオを空間ダッキングすることができる。応答を受信する前にプログラムオーディオを空間ダッキングすることにより、聴取者は、ＶＰＡが聴取者のコマンドを聴取して、適切な応答を形成／取得していることを認識させられる。そうでない場合には、聴取者は、ＶＰＡがトリガフレーズ及び／又はコマンドをそもそも聴取したかどうかを、疑うままであり得る。

前述の例は、警告オーディオを出力する効果を示しているが、単一のラウドスピーカキャビネットによって出力されているプログラムオーディオは空間ダッキングされている。図７は、ラウドスピーカキャビネットの少なくとも１つで警告オーディオを出力させるために、２つのラウドスピーカキャビネットで出力されているプログラムオーディオを空間ダッキングする例を示す。具体的には、図７は、聴取者からのコマンド（例えば、トリガフレーズ）の受信に応答して、２つのラウドスピーカキャビネット１１０及び７１５が、高次中央側レンダリングモードで出力されているプログラムオーディオを、空間ダッキングする２つの段階を示す。

第１（又は上部）の段階は、サウンドプログラムコンテンツのプログラムオーディオを出力するいくつかのラウドスピーカキャビネット１１０及び７１５を、高次の中央側レンダリングモードで示す。具体的には、ラウドスピーカキャビネット１１０は、部屋４００の上左部分でプログラムオーディオを出力しており、ラウドスピーカキャビネット７１５は、部屋４００の上右部分でプログラムオーディオを出力しており、聴取者４１５は、部屋４００の左のより低い側に向かう位置で聴取している。一実施形態では、両方のラウドスピーカキャビネットが同じプログラムオーディオを出力するために、（例えば、ＢＬＵＥＴＯＯＴＨプロトコル又は無線ローカルエリアネットワークリンクを使用して）通信リンクをそれらの間に確立することができる。確立された通信リンクによって、両方のデバイスは、任意の従来の手段（例えば、各キャビネットの内部クロックを同期させるための同期メッセージの交換）を介して、そのオーディオ出力を同期させることができる。一実施形態では、ラウドスピーカキャビネット１１０及び７１５の両方は、各々、オーディオソース（例えば、スマートフォン、ラップトップ、又はタブレット）との確立された通信リンクを有し、出力のためにキャビネットにプログラムオーディオを送信することができる。

一実施形態では、両方のラウドスピーカキャビネット１１０、７１５は、サウンドプログラムコンテンツの同じプログラムオーディオを出力してもよい。例えば、各ラウドスピーカキャビネットによって放射されるビームパターンは、プログラムオーディオの同じ部分を含むことができる。このようにして、聴取者４１５は、ラウドスピーカキャビネットによって生成されたサウンドに完全に没入され得る。別の実施形態では、ラウドスピーカキャビネットは、プログラムオーディオの異なる部分を出力することができる。例えば、ラウドスピーカキャビネット１１０は部屋４００の左側にあるので、それは、それ自体がバイアスされてプログラムオーディオの右チャネルのより大きな部分を出力するラウドスピーカキャビネット７１５よりも、バイアスされてプログラムオーディオの左側のチャンネルのより大きな部分を出力することができる。

上部の段階では、聴取者４１５は、（例えばＶＰＡの）質問を尋ね、それはラウドスピーカキャビネット１１０及び７１５の両方（例えば、そのマイクロフォン）によって感知される。具体的には、聴取者４１５は、「ヘイハル、今何時ですか？」７２０と、発声する。この時点で、どのラウドスピーカキャビネットが警告オーディオ（ＶＰＡの応答を含む）を出力する責任を負うべきかに関して決定がなされ得る。この決定は、いくつかの要因に基づき得る。例えば、センサデータとユーザインターフェース選択の任意の適切な組み合わせを使用して、ラウドスピーカキャビネットの１つで動作するコンピューティングプロセスは、この責任を、聴取者４１５に最も近いラウドスピーカキャビネットに割り当てることができる。ラウドスピーカキャビネットは、各ラウドスピーカキャビネットに対する聴取者までの距離を自動的に決定することができ、したがってこの場合の責任はラウドスピーカキャビネット１１０に割り当てられ得るが、それは聴取者４１５からのその距離「ｒ１」が、聴取者４１５からのラウドスピーカキャビネット７１５の距離「ｒ２」より短いためである。２つのキャビネットのうちの１つだけに警告オーディオを出力させる判定は、混乱させるか又は混乱をもたらして複数のラウドスピーカキャビネットにＶＰＡの同じ口頭応答を出力させ得るという要因により得る。例えば、聴取者４１５はラウドスピーカキャビネット１１０により近いので、両方のラウドスピーカキャビネットが、相関コンテンツとして全方向性パターン５０５に付加された同じ警告オーディオを出力することになると、聴取者４１５は不快なエコーを経験し得る。

図７の次の（又は下部の）段階は、ラウドスピーカキャビネット１１０が警告オーディオを出力する責任を担っているが、ラウドスピーカキャビネット１１０及び７１５の両方はプログラムオーディオを空間ダッキングする（警告オーディオ出力中）ことを示す。具体的には、各ラウドスピーカキャビネットは、図４及び図６に関連して上述のものと同様の方法で、プログラムオーディオのその部分を空間ダッキングすることができる。例えば、ラウドスピーカキャビネット１１０は、その全方向性パターンに警告オーディオを付加して、「昼食の時間です！」という口頭応答７２５を出力することができる。一方、他のラウドスピーカキャビネット７１５は警告オーディオを出力しないが、そのプログラムオーディオを空間ダッキングするので、それは全方向性パターン（点線の全方向性パターン７３０として示される）で可聴コンテンツを単に生成することはできない。後者は、キャビネット７１５が依然として全方向性のコンテンツをその指向性パターンで放射しているので、拡散サウンド環境に効果的に付加される。警告オーディオの出力が完了すると、両方のラウドスピーカキャビネットが通常のレンダリングモードに戻ることができる（それらは警告オーディオをトリガするイベントに先立っていたので）。

本発明の実施形態は、非一時的機械可読媒体（マイクロ電子メモリなど）であることができ、１つ以上のデータ処理構成要素（総称して、本明細書では「プロセッサ」と呼ぶ）をプログラムする命令をそこに記憶して、受信、レンダリング、移動、トリガ、開始、シグナリング、生成、分析、比較、フィルタリング、適用、結合及び減算を含む上述のデジタル信号処理動作を実行する。他の実施形態では、これらの動作の一部は、特定の機能（例えば、専用デジタルフィルタブロック）を実行する配線された又はプログラム可能なロジックコンポーネントによって実行されてもよい。あるいは、これらの動作は、プログラム可能なプロセッサと、配線された又はプログラム可能なロジックコンポーネントの任意の組み合わせによって実行されてもよい。

いくつかの実施形態を記述し添付の図面に図示してきたが、このような実施形態は、大まかな発明を例示するものにすぎず、限定するものではないこと、また、他の様々な更が当業者によって想起され得るので、本発明は、図示及び記載した特定の構成及び配置には限定されないことが理解されるべきである。よって、説明は、限定的ではなく例示的であるとみなされるべきである。

Claims

ビーム形成ラウドスピーカアレイを介して出力されるオーディオを調節する方法であって、
前記ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信することと、
前記ラウドスピーカアレイを駆動して、ｉｉ）複数の拡散コンテンツパターンと重ね合わされたｉ）主コンテンツパターンであって、前記主コンテンツパターン及び前記拡散コンテンツパターンは、前記プログラムオーディオの部分を含んで異なる方向に向けられる、主コンテンツパターンを有するサウンドビームを生成することと、
警告オーディオに関連付けられた警告メッセージを受信することと、
前記警告メッセージの受信に応答して
前記主コンテンツパターン内の前記プログラムオーディオの前記部分を前記複数の拡散コンテンツパターンに移動させることと、
前記ラウドスピーカアレイを前記警告オーディオで駆動して前記主コンテンツパターン内の前記プログラムオーディオの前記部分を置換することと、
を含む方法。
前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化することを更に含む、請求項１に記載の方法。
前記プログラムオーディオは複数の入力オーディオチャネルを含み、前記非相関化することは
前記プログラムオーディオの前記部分に残響を付加することを含む、請求項２に記載の方法。
前記主コンテンツパターンから前記複数の拡散コンテンツパターンへ移動される前記プログラムオーディオの前記部分の音量レベルを低減することを更に含む、請求項２に記載の方法。
前記警告オーディオの出力が完了されたことに応答して、前記拡散コンテンツパターン内にある前記プログラムオーディオの前記部分を前記主コンテンツパターンに移動させて戻すことを更に含む、請求項１に記載の方法。
聴取者が話すトリガフレーズを認識するトリガフレーズ検出器に応答して前記警告メッセージを提供することを更に含む、請求項１に記載の方法。
前記警告オーディオは
仮想携帯端末から口頭応答を含む、請求項１に記載の方法。
聴取者の位置に基づいて前記主コンテンツパターンが前記聴取者の前記位置に向けられ、前記拡散コンテンツパターンが前記聴取者の前記位置から離れるように向けられる、前記聴取者の前記位置を決定することを更に含む、請求項１に記載の方法。
ビーム形成ラウドスピーカアレイを介して出力されるオーディオを調節する方法であって、
前記ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信することと、
前記プログラムオーディオをレンダリングして、前記ラウドスピーカアレイを駆動して、ｉｉ）複数のローブを有する指向性パターンと重ね合わされたｉ）全方向性パターンであって、前記全方向性パターン及び前記複数のローブは前記プログラムオーディオの部分を含む、全方向性パターンを有するサウンドビームを生成することと、
警告オーディオを参照する警告メッセージを受信することと、
前記警告メッセージの受信に応答して
前記全方向性パターン内の前記プログラムオーディオの前記部分を前記複数のローブに移動させることと、
前記警告オーディオをレンダリングして前記ラウドスピーカアレイを駆動して、前記全方向性パターンの前記プログラムオーディオの前記部分を前記警告オーディオと置換することと、
を含む方法。
前記プログラムオーディオは複数の入力オーディオチャネルを含み、前記方法は、前記複数の入力オーディオチャネルの１つに残響を付加して、前記全方向性パターンから前記複数のローブに移動された前記プログラムオーディオの前記部分を非相関化することを更に含む、請求項９に記載の方法。
前記サウンドプログラムコンテンツはｉ）楽曲又はｉｉ）動画フィルムのサウンドトラックのいずれかであり、前記指向性パターンに移動される前記プログラムオーディオの前記部分は、聴取者と仮想携帯端末の間の会話と持続時間が一致する前記楽曲又はサウンドトラックの連続間隔をカバーする、請求項９に記載の方法。
命令が記憶された機械可読媒体を備えた製造物品であって、プロセッサによって実行される場合、前記命令は、
ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信し、
前記プログラムオーディオをレンダリングして前記ラウドスピーカアレイを駆動し、ｉｉ）複数の拡散コンテンツパターンと重ね合わされたｉ）主コンテンツパターンであって、前記主コンテンツパターン及び前記拡散コンテンツパターンは、前記プログラムオーディオの部分を含んで異なる方向に向けられる、主コンテンツパターンを有するサウンドビームを生成し、
警告オーディオを参照する警告メッセージを受信し、
前記警告メッセージの受信に応答して
前記主コンテンツパターン内の前記プログラムオーディオの前記部分を前記複数の前記拡散コンテンツパターンに移動させ、
前記警告オーディオをレンダリングして前記ラウドスピーカアレイを駆動して、前記主コンテンツパターンの前記プログラムオーディオの前記部分を前記警告オーディオと置換する、製造物品。
前記機械可読媒体は、更なる命令を記憶し、前記プロセッサによって実行される場合、前記主コンテンツパターンから前記複数の前記拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化する、請求項１２に記載の製造物品。
前記プログラムオーディオは、複数の入力オーディオチャネルを含み、前記プロセッサによって実行される場合、非相関化させる前記命令は、前記プロセッサによって実行される場合、
前記複数の入力オーディオチャネルの１つに残響を付加して前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化させる命令を含む、請求項１３に記載の製造物品。
前記機械可読媒体は更なる命令を記憶し、前記プロセッサによって実行される場合、
前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動された前記プログラムオーディオの前記部分をローパスフィルタを介してフィルタリングし、前記プログラムオーディオの前記部分から高周波数コンテンツを除去する、請求項１３に記載の製造物品。
前記機械可読媒体は、更なる命令を記憶し、前記プロセッサによって実行される場合、前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分の音量レベルを低減する、請求項１５に記載の製造物品。
ラウドスピーカアレイを介して出力されたオーディオを調節する方法であって、
複数の入力オーディオチャネルを備えたプログラムオーディオを受信することと、
前記プログラムオーディオの相関コンテンツを含む第１のビームフォーマ入力信号、及び前記プログラムオーディオの非相関コンテンツを含む第２のビームフォーマ入力信号を生成することと、
前記第１及び第２のビームフォーマ入力信号からドライバ信号を生成して前記ラウドスピーカアレイの複数のラウドスピーカドライバを駆動し、主コンテンツビーム及び拡散ビームであって、前記主コンテンツビームは、前記プログラムオーディオの前記相関コンテンツを含み、前記拡散ビームは前記プログラムオーディオの前記非相関コンテンツを含む、主コンテンツビーム及び拡散ビームを生成することと、
警告オーディオに関連付けられた警告メッセージを受信することと、
前記警告メッセージの受信に応答して
（１）前記プログラムオーディオの１つ以上の前記複数の入力オーディオチャネルへの残響、及び（２）前記複数の入力オーディオチャネルのすべてへの前記警告オーディオを付加することと、
前記残響及び前記警告オーディオの付加に応答して、前記第１及び第２ビームフォーマ入力信号を調節することと、
を含み、前記調節された第１及び第２のビームフォーマ入力信号から前記生成されたドライバ信号は、ｉ）前記主コンテンツビーム内で、前記警告オーディオの相関コンテンツ、及びｉｉ）前記拡散ビーム内で、前記プログラムオーディオの非相関コンテンツを生成する、方法。
前記複数の入力オーディオチャネルをローパスフィルタを介してフィルタリングして、前記プログラムオーディオから高周波数コンテンツを除去することを更に含む、請求項１７に記載の方法。
前記第１及び第２のビームフォーマ入力信号を生成することは、
前記残響及び前記警告オーディオが付加された前記複数の入力オーディオチャネルを分析して、相関コンテンツ及び非相関コンテンツを見出すことを含む、請求項１７に記載の方法。
前記ドライバ信号を生成することは、前記残響及び前記警告オーディオが付加されていても変わらないままである前記主コンテンツビーム及び前記拡散ビームのビームパターンを使用することを含む、請求項１９に記載の方法。