JP2023554694A

JP2023554694A - オーディオソース指向性に基づく心理音響的強調

Info

Publication number: JP2023554694A
Application number: JP2023544356A
Authority: JP
Inventors: ムニョス、イサック・ガルシア
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-01-29
Filing date: 2021-12-17
Publication date: 2023-12-28
Anticipated expiration: 2041-12-17
Also published as: CN116803106A; US11646046B2; TW202304226A; JP7459391B2; US20220246160A1; EP4285611A1; KR20230113853A; CN116803106B; WO2022164590A1; BR112023014480A2; KR102650763B1

Abstract

デバイスが、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリを含む。本デバイスは、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するように構成された１つまたは複数のプロセッサをも含む。１つまたは複数のプロセッサは、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するようにも構成される。【選択図】図１

Description

優先権の主張

関連出願の相互参照
[0001]本出願は、その内容全体が参照により本明細書に明確に組み込まれる、２０２１年１月２９日に出願された、同一出願人が所有する米国非仮特許出願第１７／１６２，２４１号の優先権の利益を主張する。

[0002]本開示は、一般に、オーディオソース指向性（audio source directivity）に基づく心理音響的強調（psychoacoustic enhancement）に関する。

[0003]技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で軽量の、ユーザによって容易に持ち運ばれる、モバイルフォンおよびスマートフォンなどのワイヤレス電話と、タブレットと、ラップトップコンピュータとを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイスは、ワイヤレスネットワークを介してボイスおよびデータパケットを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなど、追加の機能を組み込む。また、そのようなデバイスは、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのデバイスはかなりの計算能力を含むことができる。

[0004]そのようなコンピューティングデバイスは、しばしば、１つまたは複数のマイクロフォンからオーディオ信号を受信するための機能を組み込む。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザ音声、マイクロフォンによってキャプチャされた周囲音、またはそれらの組合せを表し得る。ユーザ音声は、そのユーザ音声がマイクロフォンによってキャプチャされるユーザからのマイクロフォンの距離のために、オーディオ信号において聴取することが困難であり得る。たとえば、ユーザからより遠く離れたマイクロフォンは、交通、他のユーザの音声など、より多くの周囲音をキャプチャし得る。別の例として、ユーザ音声は、より遠く離れたマイクロフォンによってキャプチャされたとき、よりソフトに聞こえる。オーディオ信号中の特定の音に焦点を当てる能力は、通信アプリケーションまたはボイス制御アシスタントシステムにおいてユーザ音声をより明確に通信するためになど、様々な適用例のために有用である。

[0005]本開示の一実装形態によれば、デバイスが、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データ（directivity data）を記憶するように構成されたメモリを含む。本デバイスは、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定（equalizer setting）を決定するように構成された１つまたは複数のプロセッサをも含む。１つまたは複数のプロセッサは、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するようにも構成される。

[0006]本開示の別の実装形態によれば、方法が、デバイスにおいて、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することを含む。本方法は、デバイスにおいて、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することをも含む。本方法は、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することをさらに含む。

[0007]本開示の別の実装形態によれば、非一時的コンピュータ可読媒体が命令を記憶し、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することを行わせる。命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することをも行わせる。命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することをも行わせる。

[0008]本開示の別の実装形態によれば、装置が、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得するための手段を含む。本装置は、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するための手段をも含む。本装置は、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するための手段をさらに含む。

[0009]本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明と、発明を実施するための形態と、特許請求の範囲とを含む、本出願全体を検討した後に明らかになろう。

[0010]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なシステムの特定の例示的な態様のブロック図。 [0011]本開示のいくつかの例による、図１のシステムによって生成されたグラフィカルユーザインターフェース（ＧＵＩ）の例示的な例の図。 [0012]本開示のいくつかの例による、図１のシステムによって生成されたＧＵＩの別の例示的な例の図。 [0013]本開示のいくつかの例による、図１のシステムの構成要素の例示的な態様の図。 [0014]本開示のいくつかの例による、図１のシステムの構成要素の例示的な態様の図。 [0015]本開示のいくつかの例による、図１のシステムの構成要素の例示的な態様の図。 [0016]本開示のいくつかの例による、図１のシステムの構成要素の例示的な態様の図。 [0017]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能な集積回路の一例を示す図。 [0018]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なモバイルデバイスの図。 [0019]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なヘッドセットの図。 [0020]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なウェアラブル電子デバイスの図。 [0021]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なボイス制御スピーカーシステムの図。 [0022]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なカメラの図。 [0023]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能な、仮想現実または拡張現実ヘッドセットなどのヘッドセットの図。 [0024]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なビークルの第１の例の図。 [0025]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なビークルの第２の例の図。 [0026]本開示のいくつかの例による、図１のデバイスによって実施され得るオーディオソース指向性に基づく心理音響的強調の方法の特定の実装形態の図。 [0027]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能であるデバイスの特定の例示的な例のブロック図。

[0028]マイクロフォンは、ユーザ音声、周囲音、またはそれらの組合せなど、キャプチャされた音を表すオーディオ信号を生成する。様々な音が、オーディオソースからのマイクロフォンの距離のために、オーディオ信号において聴取することが困難であり得る。オーディオ信号中の特定の音に焦点を当てる能力は、通信アプリケーションにおけるユーザ音声、または鳥追跡アプリケーションにおける鳥の音など、様々な適用例のために有用である。

[0029]オーディオソース指向性に基づく心理音響的強調のシステムおよび方法が開示される。異なるタイプのオーディオソースは、異なる音指向性特性を有することができる。たとえば、人間の音声は、人間の頭部の後ろよりも人間の頭部の前に向けられ、人間の話し手が向いている方向からの距離および角度オフセットに基づいて変動する周波数応答を呈し得るが、１２面体音源は、全方向指向性を近似する。

[0030]オーディオエンハンサが、オーディオソースに対して（たとえば、オーディオソースのより近くにまたはそれから離して）マイクロフォンを移動することによってキャプチャされるであろう音を近似するために、オーディオソースの指向性に基づく心理音響的強調を実施する。たとえば、オーディオエンハンサは、指向性分析器と等化器とを含む。指向性分析器は、オーディオソースの指向性データとズームターゲットとに基づいて等化器設定を生成する。たとえば、指向性分析器は、等化器設定を適用することが、マイクロフォンをズームターゲットに移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定を生成する。等化器は、入力オーディオ信号の心理音響的強調バージョンに対応する出力オーディオ信号を生成するために、入力オーディオ信号に等化器設定を適用する。たとえば、入力オーディオ信号は、マイクロフォンのマイクロフォン出力に基づき、出力オーディオ信号は、ズームターゲットにおけるオーディオソースの周波数応答を近似する。したがって、出力オーディオ信号は、ズームターゲットにおいてマイクロフォンによってキャプチャされるであろう音を近似する。

[0031]本開示の特定の態様が、図面を参照しながら以下で説明される。説明では、共通の特徴は、共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態について説明するために使用されるにすぎず、実装形態を制限するものではない。たとえば、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈が別段に明確に示すのでなければ、複数形をも含むものとする。さらに、本明細書で説明されるいくつかの特徴は、いくつかの実装形態では単数形であり、他の実装形態では複数形である。例示のために、図１は、１つまたは複数のプロセッサ（図１の「プロセッサ」１９０）を含むデバイス１０２を示し、これは、いくつかの実装形態では、デバイス１０２が単一のプロセッサ１９０を含み、他の実装形態では、デバイス１０２が複数のプロセッサ１９０を含むことを示す。

[0032]本明細書で使用される「備える（comprise）」、「備える（comprises）」、および「備えること（comprising）」という用語は、「含む（include）」、「含む（includes）」、または「含むこと（including）」と互換的に使用され得る。さらに、「ここにおいて（wherein）」という用語は、「ここで（where）」と互換的に使用され得る。本明細書で使用される「例示的」は、一例、一実装形態、および／または一態様を示し、限定的として、あるいは選好または好適な一実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を修飾するために使用される序数語（たとえば、「第１の」、「第２の」、「第３の」など）は、別の要素に対するその要素の優先順位または順序をそれ自体によって示さず、（序数語の使用を別にすれば）むしろ同じ名前を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット（set）」という用語は、特定の要素の１つまたは複数を指し、「複数（plurality）」という用語は、特定の要素の複数（たとえば、２つまたはそれ以上）を指す。

[0033]本明細書で使用される「結合される（coupled）」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含み得、また（あるいは代替的に）、それらの任意の組合せを含み得る。２つのデバイス（または構成要素）は、１つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク（たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ）などを介して、直接または間接的に結合（たとえば、通信可能に結合、電気的に結合、または物理的に結合）され得る。電気的に結合された２つのデバイス（または構成要素）は、同じデバイス中にまたは異なるデバイス中に含まれ得、例示的で非限定的な例として、電子回路、１つまたは複数のコネクタ、あるいは誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された２つのデバイス（または構成要素）は、１つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に信号（たとえば、デジタル信号またはアナログ信号）を送り、受信し得る。本明細書で使用される「直接結合される」は、介在する構成要素なしに結合（たとえば、通信可能に結合、電気的に結合、または物理的に結合）された２つのデバイスを含み得る。

[0034]本開示では、「決定すること（determining）」、「計算すること（calculating）」、「推定すること（estimating）」、「シフトすること（shifting）」、「調整すること（adjusting）」などの用語は、１つまたは複数の動作がどのように実施されるかを表すために使用され得る。そのような用語が限定的なものと解釈されるべきではなく、他の技法が、同様の動作を実施するために利用され得ることに留意されたい。追加として、本明細書で言及される「生成すること（generating）」、「計算すること」、「推定すること」、「使用すること（using）」、「選択すること（selecting）」、「アクセスすること（accessing）」、および「決定すること」は、互換的に使用され得る。たとえば、パラメータ（または、信号）を「生成すること」、「計算すること」、「推定すること」、または「決定すること」は、パラメータ（または、信号）を能動的に生成すること、推定すること、計算すること、または決定することを指すことがあるか、あるいは、別の構成要素またはデバイスによってなど、すでに生成されているパラメータ（または、信号）を使用すること、選択すること、またはそれにアクセスすることを指すことがある。

[0035]図１を参照すると、オーディオソース指向性に基づく心理音響的強調を実施するように構成されたシステムの特定の例示的な態様が開示され、全体的に１００と指定される。システム１００は、１つまたは複数のマイクロフォン１２０、カメラ１４０、１つまたは複数のスピーカー１６０、ディスプレイデバイス１６２、入力デバイス１３０、またはそれらの組合せに結合された、デバイス１０２を含む。いくつかの実装形態では、ディスプレイデバイス１６２は、入力デバイス１３０（たとえば、タッチスクリーン）を含む。

[0036]デバイス１０２は、メモリ１３２に結合された１つまたは複数のプロセッサ１９０を含む。メモリ１３２は、等化器（Ｅｑ）設定データ１４９、指向性データ１４１、オーディオエンハンサ１９２によって使用または生成される他のデータ、あるいはそれらの組合せを記憶するように構成される。特定の態様では、１つまたは複数のプロセッサ１９０は、１つまたは複数の入力インターフェース１２４を介して１つまたは複数のマイクロフォン１２０に結合される。たとえば、１つまたは複数の入力インターフェース１２４は、１つまたは複数のマイクロフォン１２０から１つまたは複数のマイクロフォン出力１２２を受信することと、１つまたは複数のマイクロフォン出力１２２を１つまたは複数の入力オーディオ信号（ＳＩＧ）１２６としてオーディオエンハンサ１９２に提供することとを行うように構成される。

[0037]特定の態様では、１つまたは複数のプロセッサ１９０は、入力インターフェース１４４を介してカメラ１４０に結合される。たとえば、入力インターフェース１４４は、カメラ１４０からカメラ出力１４２を受信することと、カメラ出力１４２を画像データ１４５としてオーディオエンハンサ１９２に提供することとを行うように構成される。特定の態様では、入力インターフェース１４４は、１つまたは複数の入力インターフェース１２４が画像データ１４５をオーディオエンハンサ１９２に提供することと同時に、カメラ出力１４２をオーディオエンハンサ１９２に提供するように構成される。

[0038]デバイス１０２は、１つまたは複数のプロセッサ１９０中に含まれるオーディオエンハンサ１９２を使用して、オーディオソース指向性に基づく心理音響的強調を実施するように構成される。オーディオエンハンサ１９２は、等化器１４８に結合された指向性分析器１５２と、等化器１４８に結合された等化前信号プロセッサ（pre-equalization signal processor）１４６とを含む。いくつかの実装形態によれば、指向性データアップデータ（updater）１５０が、オーディオエンハンサ１９２中に含まれる。

[0039]入力デバイス１３０は、ズームターゲット１３３を示すユーザ入力１３１をデバイス１０２に提供するように構成される。指向性分析器１５２は、指向性データ１４１、ズームターゲット１３３、等化器設定データ１４９、またはそれらの組合せに基づいて、等化器設定１５３を生成するように構成される。たとえば、指向性分析器１５２は、等化器設定１５３を適用することが、１つまたは複数のマイクロフォン１２０をズームターゲット１３３のより近くに移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定１５３を生成するように構成される。

[0040]等化器１４８は、１つまたは複数の出力オーディオ信号１３８を生成するために、１つまたは複数の等化器入力オーディオ信号１４７に等化器設定１５３を適用するように構成される。特定の態様では、１つまたは複数の等化器入力オーディオ信号１４７は、１つまたは複数の入力オーディオ信号１２６を含む。代替実装形態では、等化前信号プロセッサ１４６は、図３を参照しながらさらに説明されるように、１つまたは複数の等化器入力オーディオ信号１４７を生成するために、１つまたは複数の入力オーディオ信号１２６を処理するように構成される。

[0041]いくつかの実装形態では、デバイス１０２は、１つまたは様々なタイプのデバイスに対応するか、またはそれらの中に含まれる。例示的な例では、プロセッサ１９０は、図９を参照しながらさらに説明されるものなど、１つまたは複数のスピーカー１６０を含むヘッドセットデバイスに統合される。他の例では、プロセッサ１９０は、図８を参照しながら説明されるモバイルフォンまたはタブレットコンピュータデバイス、図１０を参照しながら説明されるウェアラブル電子デバイス、図１１を参照しながら説明されるボイス制御スピーカーシステム、図１２を参照しながら説明されるカメラデバイス、あるいは図１３を参照しながら説明される仮想現実ヘッドセットまたは拡張現実ヘッドセットのうちの少なくとも１つに統合される。別の例示的な例では、プロセッサ１９０は、図１４および図１５を参照しながらさらに説明されるものなど、同じく１つまたは複数のスピーカー１６０を含むビークルに統合される。

[0042]動作中に、１つまたは複数のマイクロフォン１２０は、オーディオソース１８４（たとえば、人）を含む１つまたは複数のオーディオソースから音１８６をキャプチャし、音１８６を表す１つまたは複数のマイクロフォン出力１２２を生成する。特定の態様では、１つまたは複数のオーディオソースは、人、動物、鳥、ビークル、楽器、別のタイプのオーディオソース、またはそれらの組合せを含む。１つまたは複数の入力インターフェース１２４は、１つまたは複数のマイクロフォン出力１２２を１つまたは複数の入力オーディオ信号１２６としてオーディオエンハンサ１９２に提供する。

[0043]特定の実装形態では、カメラ１４０は、オーディオソース１８４などの１つまたは複数のオーディオソースの画像（たとえば、ビデオ、静止画像、またはその両方）をキャプチャし、画像を表すカメラ出力１４２を生成する。この実装形態では、入力インターフェース１４４は、カメラ出力１４２を画像データ１４５としてオーディオエンハンサ１９２に提供する。特定の態様では、カメラ１４０は、１つまたは複数のマイクロフォン１２０が１つまたは複数のマイクロフォン出力１２２をデバイス１０２に提供することと同時に、カメラ出力１４２をデバイス１０２に提供する。

[0044]特定の実装形態では、画像データ１４５、１つまたは複数の入力オーディオ信号１２６、またはそれらの組合せは、外部センサー（たとえば、マイクロフォン１２０およびカメラ１４０）を介してキャプチャされたデータに対応する代わりに、ビデオゲームデータまたは前に記録されたデータなど、記憶されたデータに対応する。たとえば、オーディオエンハンサ１９２は、メモリ１３２から、画像データ１４５、１つまたは複数の入力オーディオ信号１２６、またはそれらの組合せを取り出す。

[0045]１つまたは複数のプロセッサ１９０は、１つまたは複数の入力オーディオ信号１２６に基づいて１つまたは複数の出力オーディオ信号１３８を生成し、１つまたは複数のスピーカー１６０を介して１つまたは複数の出力オーディオ信号１３８を出力する。特定の実装形態では、１つまたは複数のプロセッサ１９０は、１つまたは複数のスピーカー１６０を介して１つまたは複数の出力オーディオ信号１３８を出力することと同時に、カメラ１４０によってキャプチャされた画像をユーザ１０１に表示するために、画像データ１４５に基づいてグラフィカルユーザインターフェース１６１を生成し、グラフィカルユーザインターフェース１６１をディスプレイデバイス１６２に提供する。

[0046]デバイス１０２は、オーディオズーム動作を始動するために、ユーザ１０１に応答する。たとえば、ユーザ１０１は、ズームターゲット１３３を示すユーザ入力１３１をオーディオエンハンサ１９２に提供するために、入力デバイス１３０を使用する。特定の実装形態では、ユーザ１０１は、図２Ａ～図２Ｂを参照しながらさらに説明されるように、ズームターゲット１３３を選択するために、グラフィカルユーザインターフェース１６１において表示されたズームセレクタを移動するために、入力デバイス１３０（たとえば、マウス、キーボード、ボタン、スライダー入力、またはそれらの組合せ）を使用する。別の実装形態では、ユーザ１０１は、グラフィカルユーザインターフェース１６１とは無関係にオーディオズーム動作を始動する。たとえば、１つまたは複数のプロセッサ１９０は、ＧＵＩをディスプレイデバイス１６２に提供することとは無関係に、１つまたは複数の出力オーディオ信号１３８を１つまたは複数のスピーカー１６０に提供する。ユーザ１０１は、ズームターゲット１３３を示すユーザ入力１３１をオーディオエンハンサ１９２に提供するために、入力デバイス１３０（たとえば、キーボード上の矢印キー、ヘッドセット上のボタンなど）を使用する。例示のために、ユーザ１０１は、図９を参照しながらさらに説明されるように、１つまたは複数のスピーカー１６０のオーディオ出力に対応する音場の異なるエリアにズームするために、入力デバイス１３０を使用する。

[0047]ズームターゲット１３３は、オーディオズームがどのように実施されるべきであるかを示す情報を含む。様々な実装形態では、ズームターゲット１３３は、図４～図６を参照しながらさらに説明されるように、少なくとも１つのオーディオソース（たとえば、オーディオソース１８４）のユーザの選択、マイクロフォン１２０を移動することをシミュレートする様式でオーディオを調整するためのユーザの選択、またはそれらの組合せを含むかまたは示すことができる。たとえば、ズームターゲット１３３は、オーディオソース１８４と、１つまたは複数のマイクロフォン１２０がオーディオソース１８４のどのくらいより近くに位置するものとして知覚されるべきであるか（たとえば、２フィートより近い）を示すズーム距離１３５とのユーザの選択を含むことができる。別の例では、ズームターゲット１３３は、１つまたは複数のマイクロフォン１２０がロケーション１３４（たとえば、物理的ロケーション）からどのくらいおよびどの方向に移動したものとして知覚されるべきであるかを示す、ズーム距離１３５とズーム配向（zoom orientation）１３７とのユーザの選択を含むことができる。特定の例示的な例では、ズーム配向１３７の第１の値（たとえば、０度）、第２の値（たとえば、９０度）、第３の値（たとえば、１８０度）、または第４の値（たとえば、２７０度）が、ロケーション１３４に対する１つまたは複数のマイクロフォン１２０の、それぞれ、前方移動、右方移動、後方移動、または左方移動に対応する。ユーザ１０１がズーム距離１３５およびズーム配向１３７を選択するときなど、特定の例では、オーディオエンハンサ１９２は、（１つまたは複数のマイクロフォン１２０の）ロケーション１３４にズーム配向１３７およびズーム距離１３５を適用することによって、ズームロケーション１３６を決定する。別の例では、ズームターゲット１３３がズームロケーション１３６のユーザの選択を含むとき、オーディオエンハンサ１９２は、ロケーション１３４とズームロケーション１３６との比較に基づいて、ズーム配向１３７およびズーム距離１３５を決定する。特定の例では、ズームターゲット１３３がオーディオソース１８４のユーザの選択を含むとき、オーディオエンハンサ１９２は、オーディオソース１８４のロケーションを推定し、オーディオソース１８４の推定されたロケーションに基づいて、ズーム距離１３５、ズームロケーション１３６、ズーム配向１３７、またはそれらの組合せを決定する。特定の態様では、オーディオエンハンサ１９２は、画像分析技法、オーディオ分析技法、オーディオソース１８４の位置情報、またはそれらの組合せを使用して、オーディオソース１８４のロケーションを推定する。特定の態様では、ロケーション１３４は、複数のマイクロフォン１２０のロケーションの代表的ロケーション（たとえば、平均ロケーション）に対応し、ズームロケーション１３６は、複数のマイクロフォン１２０がそこに移動したものとしてエミュレートされるロケーションの代表的ロケーション（たとえば、平均ロケーション）に対応する。

[0048]指向性分析器１５２は、１つまたは複数の入力オーディオ信号１２６に対応する１つまたは複数のオーディオソース（たとえば、オーディオソース１８４）の指向性データ１４１を取得する。たとえば、指向性分析器１５２は、（たとえば、入力オーディオ信号１２６を分析すること、画像データ１４５を分析すること、またはそれらの組合せからなど、ソースのタイプに基づいて）オーディオソース１８４を識別し、メモリ１３２からオーディオソース１８４に最もぴったり対応する指向性データ１４１を取り出す。別の例では、指向性分析器１５２は、別のデバイスまたはネットワークからの指向性データ１４１を要求する（たとえば、ダウンロードする）。

[0049]特定のオーディオソースの指向性データ１４１は、特定のオーディオソースの配向および距離周波数応答特性を示す。特定の態様では、指向性データ１４１は、一般的なオーディオソースに関連する。たとえば、指向性データ１４１は、一般的なオーディオソースの配向および周波数応答特性を示す。例示のために、指向性データ１４１は、中間周波数に対応する周波数応答が、一般的なオーディオソースに対する第１の距離から一般的なオーディオソースに対する第２の距離への変化に応答して第１の量だけ変化する（たとえば、低減するまたは増加する）ことを示す。代替態様では、指向性データ１４１は、特定のタイプのオーディオソースに関連する指向性データを示す。たとえば、指向性データ１４１は、図４を参照しながらさらに説明されるように、特定のオーディオソースタイプ（たとえば、人間の話者、鳥、楽器など）のオーディオソース１８４からの距離、配向、またはその両方の変化に応答して、様々な周波数の周波数応答変化を示す。

[0050]指向性分析器１５２は、図４を参照しながらさらに説明されるように、指向性データ１４１とズームターゲット１３３と等化器設定データ１４９とに少なくとも部分的に基づいて、等化器設定１５３を決定する。たとえば、指向性分析器１５２は、等化器設定１５３を適用することが、１つまたは複数のマイクロフォン１２０をズームロケーション１３６に（またはそのより近くに）移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定１５３を生成する。特定の実装形態では、指向性分析器１５２は、あるオーディオソースタイプのオーディオソース１８４のための指向性データが利用不可能であると決定したことに応答して、デフォルト指向性データに基づいて等化器設定１５３を選択する。例示のために、指向性分析器１５２は、（たとえば、あるオーディオソースタイプのオーディオソース１８４とは無関係に）中間周波数に対応する周波数応答を調整する（たとえば、増加させるまたは低減する）ように等化器設定１５３を選択する。たとえば、指向性分析器１５２は、ズームロケーション１３６とオーディオソース１８４との間の距離がロケーション１３４とオーディオソース１８４との間の距離よりも小さいと決定したことに応答して、中間周波数に対応するラウドネスを増加させるように等化器設定１５３を選択する。別の例として、指向性分析器１５２は、ズームロケーション１３６とオーディオソース１８４との間の距離がロケーション１３４とオーディオソース１８４との間の距離よりも大きいと決定したことに応答して、中間周波数に対応するラウドネスを減少させるように等化器設定１５３を選択する。代替実装形態では、指向性分析器１５２は、図４を参照しながらさらに説明されるように、指向性データ１４１によって示されたあるオーディオソースタイプ（たとえば、人間の話者または鳥）のオーディオソース１８４の指向性（たとえば、周波数応答）に基づいて、等化器設定１５３を選択する。指向性分析器１５２は、等化器設定１５３を等化器１４８に提供する。

[0051]等化器１４８は、１つまたは複数の等化器入力オーディオ信号１４７に等化器設定１５３を適用することによって、１つまたは複数の出力オーディオ信号１３８を生成する。特定の実装形態では、１つまたは複数の等化器入力オーディオ信号１４７は、１つまたは複数の入力オーディオ信号１２６を含む。別の実装形態では、等化前信号プロセッサ１４６は、図３を参照しながらさらに説明されるように、１つまたは複数の入力オーディオ信号１２６に等化前処理を適用することによって、１つまたは複数の等化器入力オーディオ信号１４７を生成する。等化器１４８は、１つまたは複数の出力オーディオ信号１３８を１つまたは複数のスピーカー１６０に提供する。

[0052]１つまたは複数の出力オーディオ信号１３８は、１つまたは複数の入力オーディオ信号１２６の心理音響的強調バージョンに対応する。心理音響的強調バージョン（たとえば、１つまたは複数の出力オーディオ信号１３８）は、オーディオズーム動作に関連するズームロケーション１３６（たとえば、ズーム配向１３７およびズーム距離１３５）におけるオーディオソース１８４の周波数応答を近似する。したがって、１つまたは複数のスピーカー１６０によって生成された（１つまたは複数の出力オーディオ信号１３８に対応する）音は、１つまたは複数のマイクロフォン１２０をズームロケーション１３６に（またはそれのより近くに）移動したことをエミュレートする。

[0053]特定の実装形態では、指向性データアップデータ（updater）１５０は、指向性データ１４１を生成または更新する。指向性アップデータ（updater）１５０は、オーディオソースから様々な距離および配向においてキャプチャされたオーディオをサンプリングおよび分析することと、そのオーディオソースに関連する指向性データを生成または更新することとを行うように構成される。特定の例では、指向性データアップデータは、第１の時間において、オーディオソース１８４に対応する１つまたは複数の入力オーディオ信号１２６のうちの入力オーディオ信号の第１の音スペクトルを生成する。第１の音スペクトルは、オーディオソース１８４が１つまたは複数のマイクロフォン１２０に対して第１の配向を有するとき、オーディオソース１８４から第１の距離において１つまたは複数のマイクロフォン１２０によってキャプチャされた音を表す。指向性データアップデータ１５０は、第２の時間において、オーディオソース１８４に対応する１つまたは複数の入力オーディオ信号１２６のうちの入力オーディオ信号の第２の音スペクトルを生成する。第２の音スペクトルは、オーディオソース１８４が１つまたは複数のマイクロフォン１２０に対して第２の配向を有するとき、オーディオソース１８４から第２の距離において１つまたは複数のマイクロフォン１２０によってキャプチャされた音を表す。指向性データアップデータ１５０は、第１の距離および第１の配向と、第２の距離および第２の配向との間の差が、第１の音スペクトルと第２の音スペクトルとの間の差に対応することを示すように、指向性データ１４１を更新する。

[0054]システム１００は、１つまたは複数のマイクロフォン１２０をズームロケーション１３６に移動することを近似する、ズームターゲット１３３へのオーディオズーム動作を可能にする。オーディオソース１８４の指向性に基づいて周波数についてラウドネスを調整することによって１つまたは複数の出力オーディオ信号１３８を生成することは、１つまたは複数の入力オーディオ信号１２６の利得を調整するにすぎないことと比較して、より自然なサウンディングオーディオズームを生じる。

[0055]１つまたは複数のマイクロフォン１２０、カメラ１４０、１つまたは複数のスピーカー１６０、ディスプレイデバイス１６２、および入力デバイス１３０は、デバイス１０２に結合されるものとして示されているが、他の実装形態では、１つまたは複数のマイクロフォン１２０、カメラ１４０、１つまたは複数のスピーカー１６０、ディスプレイデバイス１６２、入力デバイス１３０、またはそれらの組合せは、デバイス１０２に統合され得る。システム１００の様々な実装形態は、より少数の、追加の、または異なる構成要素を含み得る。たとえば、いくつかの実装形態では、指向性データアップデータ１５０、カメラ１４０、またはその両方は省略され得る。

[0056]図２Ａを参照すると、ＧＵＩ１６１の一例が示されている。特定の態様では、グラフィカルユーザインターフェース１６１は、図１のオーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、またはそれらの組合せによって生成される。

[0057]グラフィカルユーザインターフェース１６１は、図１の画像データ１４５に対応する画像を表示するように構成されたビデオディスプレイ２０４を含む。たとえば、ビデオディスプレイ２０４は、オーディオソース１８４の画像を表示する。グラフィカルユーザインターフェース１６１は、オーディオズーム動作を始動するために使用され得るズームセレクタ２０２を含む。たとえば、図１のユーザ１０１は、ズームセレクタ２０２を、オーディオソース１８４にズームインするために上に移動するか、またはオーディオソース１８４からズームアウトするために下に移動することができる。特定の態様では、ズームセレクタ２０２を上に移動することは、ズーム配向１３７のための第１の値（たとえば、０度、前方、またはズームイン）を選択することに対応し、ズームセレクタ２０２を下に移動することは、ズーム配向１３７のための第２の値（たとえば、１８０度、後方、またはズームアウト）を選択することに対応する。ズームセレクタ２０２の移動量が、ズーム距離１３５を示す。ズームターゲット１３３は、ズーム距離１３５、ズーム配向１３７、またはその両方を含む。

[0058]図２Ｂを参照すると、グラフィカルユーザインターフェース１６１の一例が示されている。特定の態様では、グラフィカルユーザインターフェース１６１は、図１のオーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、またはそれらの組合せによって生成される。

[0059]グラフィカルユーザインターフェース１６１は、ユーザ１０１がオーディオズーム動作を始動するためにズームセレクタ２０２を移動したことを示す。たとえば、ユーザ１０１は、ズーム配向１３７（たとえば、前方、０度、またはズームイン）とズーム距離１３５（たとえば、２フィート）との選択に対応してズームセレクタ２０２を上に移動するために入力デバイス１３０を使用し、入力デバイス１３０は、ズームターゲット１３３を示すユーザ入力１３１をオーディオエンハンサ１９２に提供する。ズームターゲット１３３は、ズーム配向１３７（たとえば、０度、前方、またはズームイン）と、（たとえば、ズームセレクタ２０２の移動量に基づく）ズーム距離１３５とを示す。指向性分析器１５２は、図４を参照しながらさらに説明されるように、ズームターゲット１３３に少なくとも部分的に基づいて等化器設定１５３を生成する。等化器１４８は、図１を参照しながら説明されるように、１つまたは複数の等化器入力オーディオ信号１４７に等化器設定１５３を適用することによって、１つまたは複数の出力オーディオ信号１３８を生成する（たとえば、更新する）。等化器１４８は、１つまたは複数の出力オーディオ信号１３８を１つまたは複数のスピーカー１６０に提供する。

[0060]特定の態様では、１つまたは複数のプロセッサ１９０は、ユーザ入力１３１に応答して、画像データ１４５に対して画像ズーム動作を実施し、等化器１４８が１つまたは複数の出力オーディオ信号１３８を１つまたは複数のスピーカー１６０に提供することと同時に、画像データ１４５のズームされたバージョンを表示するように、ビデオディスプレイ２０４を更新する。示されているように、オーディオソース１８４は、図２Ａと比較して図２Ｂではビデオディスプレイ２０４において拡大され、オーディオズーム動作がオーディオソース１８４にズームインしたことを示す。

[0061]ズームセレクタ２０２は、ズームターゲット１３３を選択することの例示的な例として提供される。他の実装形態では、ユーザ１０１は、ズームターゲット１３３を指定する他の方法を使用し得る。特定の例では、グラフィカルユーザインターフェース１６１は、タッチスクリーン（たとえば、入力デバイス１３０）上に表示され、ユーザ１０１は、ズームターゲット１３３を指定するためにタッチスクリーンと対話する（たとえば、それをタップするかまたはピンチズームジェスチャーを使用する）。たとえば、ユーザ１０１は、ズームターゲット１３３として、ズームロケーション１３６、オーディオソース１８４、またはその両方の選択に対応する、ビデオディスプレイ２０４上のロケーションを選択するために、タッチスクリーン上でタップすることができる。別の例として、ユーザ１０１は、ズーム配向１３７の第１の値（たとえば、前方、０度、またはズームイン）を示すために第１のピンチズーム（たとえば、広げる）ジェスチャーを使用し、またはズーム配向１３７の第２の値（たとえば、後方、１８０度、またはズームアウト）を示すために第２のピンチズーム（たとえば、狭くする）ジェスチャーを使用することができる。ピンチズームジェスチャーの距離が、ズーム距離１３５を示す。ズームターゲット１３３は、ズーム距離１３５、ズーム配向１３７、またはその両方を含む。

[0062]特定の例では、ユーザ１０１は、ズームターゲット１３３として、ズームロケーション１３６、オーディオソース１８４、またはその両方の識別子（たとえば、名前）を示すユーザ入力（たとえば、ボイスコマンド、オプション選択、またはその両方）を提供する。オーディオエンハンサ１９２は、オーディオソース１８４、ズームロケーション１３６、またはその両方を識別するために、画像データ１４５に対する画像認識、入力オーディオ信号１２６のオーディオ分析、またはその両方を実施する。たとえば、ユーザ１０１は、オーディオソース１８４の識別子（たとえば、連絡先名）（たとえば、「ＳａｒａｈＬｅｅ」）をもつユーザ入力（たとえば、「ＳａｒａｈＬｅｅにズームする」）を提供する。オーディオエンハンサ１９２は、オーディオソース１８４（たとえば、「ＳａｒａｈＬｅｅ」）に対応する画像データ１４５の部分を識別するために、画像データ１４５に対して画像認識（たとえば、人認識またはオブジェクト認識）を実施するか、オーディオソース１８４（たとえば、「ＳａｒａｈＬｅｅ」）に対応する入力オーディオ信号１２６の部分を識別するために、入力オーディオ信号１２６に対して音声認識を実施するか、またはその両方を実施する。ズームターゲット１３３は、オーディオソース１８４を含む。

[0063]図３を参照すると、特定の実装形態による、図１のシステム１００の構成要素の図３００が示されている。等化前信号プロセッサ１４６は、空間分析器３４０、アクティビティ検出器３４２、利得調整器３４４、雑音抑圧器３４６、コンテキスト検出器３５０、またはそれらの組合せを含む。コンテキスト検出器３５０は、ソース検出器３６２、ソース位置検出器３６４、またはその両方を含む。図３において点線で示されている構成要素のうちの１つまたは複数は、いくつかの実装形態では省略され得る。

[0064]空間分析器３４０は、１つまたは複数のビームフォーミングされたオーディオ信号３４１を生成するために、１つまたは複数の入力オーディオ信号１２６にビームフォーミングを適用するように構成される。特定の態様では、空間分析器３４０は、ズームターゲット１３３に基づいてビームフォーミングを適用する。たとえば、空間分析器３４０は、１つまたは複数のビームフォーミングされたオーディオ信号３４１が、ズーム配向１３７の周りでキャプチャされた音を表すように、図１のズーム配向１３７に基づいてビームフォーミングを適用する。空間分析器３４０は、１つまたは複数のビームフォーミングされたオーディオ信号３４１を、等化前信号プロセッサ１４６の１つまたは複数の構成要素に、または等化器１４８に提供する。たとえば、空間分析器３４０は、１つまたは複数のビームフォーミングされたオーディオ信号３４１を、１つまたは複数のアクティビティ入力オーディオ信号３６１としてアクティビティ検出器３４２に提供するか、１つまたは複数の利得調整器入力オーディオ信号３６３として利得調整器３４４に提供するか、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９としてコンテキスト検出器３５０に提供するか、１つまたは複数の雑音抑圧入力オーディオ信号３６５として雑音抑圧器３４６に提供するか、１つまたは複数の等化器入力オーディオ信号１４７として等化器１４８に提供するか、またはそれらの組合せを行う。

[0065]アクティビティ検出器３４２は、１つまたは複数のアクティビティ入力オーディオ信号３６１においてアクティビティを検出するように構成される。特定の実装形態では、１つまたは複数のアクティビティ入力オーディオ信号３６１は、１つまたは複数の入力オーディオ信号１２６を含む。代替実装形態では、１つまたは複数のアクティビティ入力オーディオ信号３６１は、１つまたは複数のビームフォーミングされたオーディオ信号３４１を含む。

[0066]アクティビティ検出器３４２は、１つまたは複数のアクティビティ入力オーディオ信号３６１において検出されたアクティビティに基づいて、１つまたは複数のアクティビティオーディオ信号３４３を生成するように構成される。特定の例では、アクティビティ検出器３４２（たとえば、音声アクティビティ検出器）は、１つまたは複数のアクティビティ入力オーディオ信号３６１のうちの第１のアクティビティ入力オーディオ信号中の音声を検出することと、その音声を含む、１つまたは複数のアクティビティオーディオ信号３４３のうちの第１のアクティビティオーディオ信号と、第１のアクティビティ入力オーディオ信号の残りの音を含む第２のアクティビティオーディオ信号とを生成することとを行うように構成される。例示のために、第１のアクティビティオーディオ信号は、低減された残りの音を含むかまたは残りの音を含まず、第２のアクティビティオーディオ信号は、低減された音声を含むかまたは音声を含まない。

[0067]特定の実装形態では、アクティビティ検出器３４２は、様々なタイプのオーディオソース、同じタイプの様々なオーディオソース、またはその両方に対応する音を検出するように構成される。例示的な例では、アクティビティ検出器３４２は、１つまたは複数のアクティビティ入力オーディオ信号３６１のうちの第１のアクティビティ入力オーディオ信号において、第１の話者に関連する第１の音声、第２の話者に関連する第２の音声、楽器に関連する楽音、鳥に関連する鳥の音、またはそれらの組合せを検出するように構成される。アクティビティ検出器３４２は、（たとえば、残りの音をもたない、または低減された残りの音をもつ）第１の音声を含む第１のアクティビティオーディオ信号、（たとえば、残りの音をもたない、または低減された残りの音をもつ）第２の音声を含む第２のアクティビティオーディオ信号、（たとえば、残りの音をもたない、または低減された残りの音をもつ）楽音を含む第３のアクティビティオーディオ信号、（たとえば、残りの音をもたない、または低減された残りの音をもつ）鳥の音を含む第４のアクティビティオーディオ信号、第１のアクティビティ入力オーディオ信号の残りの音を含む第５のアクティビティオーディオ信号、またはそれらの組合せを生成するように構成される。１つまたは複数のアクティビティオーディオ信号３４３は、第１のアクティビティオーディオ信号、第２のアクティビティオーディオ信号、第３のアクティビティオーディオ信号、第４のアクティビティオーディオ信号、第５のアクティビティオーディオ信号、またはそれらの組合せを含む。

[0068]アクティビティ検出器３４２は、１つまたは複数のアクティビティオーディオ信号３４３を、等化前信号プロセッサ１４６の１つまたは複数の構成要素に、等化器１４８に、またはそれらの組合せに提供する。たとえば、アクティビティ検出器３４２は、１つまたは複数のアクティビティオーディオ信号３４３を、１つまたは複数の利得調整器入力オーディオ信号３６３として利得調整器３４４に提供するか、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９としてコンテキスト検出器３５０に提供するか、１つまたは複数の雑音抑圧入力オーディオ信号３６５として雑音抑圧器３４６に提供するか、１つまたは複数の等化器入力オーディオ信号１４７として等化器１４８に提供するか、またはそれらの組合せを行う。

[0069]利得調整器３４４は、１つまたは複数の利得調整器入力オーディオ信号３６３に、１つまたは複数の利得を適用する。１つまたは複数の利得調整器入力オーディオ信号３６３は、１つまたは複数の入力オーディオ信号１２６、１つまたは複数のビームフォーミングされたオーディオ信号３４１、または１つまたは複数のアクティビティオーディオ信号３４３を含む。利得調整器３４４は、ズームターゲット１３３に基づいて１つまたは複数の利得を適用する。たとえば、オーディオズーム動作がズームターゲット１３３にズームインすることに対応するとき、利得調整器３４４は、ズーム配向１３７からの音に対応する１つまたは複数の利得調整器入力オーディオ信号３６３のうちの第１の入力オーディオ信号の利得を増加させるか、残りの方向からの音に対応する１つまたは複数の利得調整器入力オーディオ信号３６３のうちの第２の入力オーディオ信号の利得を低減するか、またはその両方を行う。別の例では、オーディオズーム動作がズームターゲット１３３から離れてズームすることに対応するとき、利得調整器３４４は、ズーム配向１３７からの音に対応する１つまたは複数の利得調整器入力オーディオ信号３６３のうちの第１の入力オーディオ信号の利得を減少させるか、残りの方向からの音に対応する１つまたは複数の利得調整器入力オーディオ信号３６３のうちの第２の入力オーディオ信号の利得を増加させるか、またはその両方を行う。特定の態様では、利得調整の量は、ズーム距離１３５に基づく。

[0070]利得調整器３４４は、１つまたは複数の利得調整されたオーディオ信号３４５を、等化前信号プロセッサ１４６の１つまたは複数の構成要素に、等化器１４８に、またはそれらの組合せに提供する。たとえば、利得調整器３４４は、１つまたは複数の利得調整されたオーディオ信号３４５を、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９としてコンテキスト検出器３５０に提供するか、１つまたは複数の雑音抑圧入力オーディオ信号３６５として雑音抑圧器３４６に提供するか、１つまたは複数の等化器入力オーディオ信号１４７として等化器１４８に提供するか、またはそれらの組合せを行う。

[0071]コンテキスト検出器３５０は、コンテキストデータ３５１を生成するために、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９、画像データ１４５、またはそれらの組合せを処理する。特定の態様では、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９は、１つまたは複数の入力オーディオ信号１２６、１つまたは複数のビームフォーミングされたオーディオ信号３４１、１つまたは複数のアクティビティオーディオ信号３４３、または１つまたは複数の利得調整されたオーディオ信号３４５を含む。

[0072]ソース検出器３６２は、オーディオソース１８４などの１つまたは複数のオーディオソースのオーディオソースタイプを識別するために、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９、画像データ１４５、またはそれらの組合せに対して、オーディオソース認識を実施する。たとえば、ソース検出器３６２は、画像データ１４５がカメラ１４０に対する第１のロケーションにおけるオーディオソースタイプ（たとえば、人間の話者）を示すと決定するために、画像データ１４５に対して画像分析（たとえば、オブジェクト認識および距離分析）を実施する。特定の態様では、ソース検出器３６２は、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９が、１つまたは複数のマイクロフォン１２０に対する第２のロケーションからのオーディオソースタイプに一致する音を含むと決定するために、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９に対して音分析（たとえば、オーディオソース認識および距離分析）を実施する。特定の態様では、ソース検出器３６２は、カメラ１４０に対する第１のロケーションが、１つまたは複数のマイクロフォン１２０に対する第２のロケーションと同じ物理的ロケーションに対応すると決定する。ソース検出器３６２は、オーディオソースタイプ、カメラ１４０に対する第１のロケーション、１つまたは複数のマイクロフォン１２０に対する第２のロケーション、物理的ロケーション、またはそれらの組合せを示す、ソース検出データをソース位置検出器３６４に提供する。

[0073]ソース位置検出器３６４は、カメラ１４０に対する画像データ１４５におけるオーディオソース１８４の配向を検出するために画像分析を実施する。例示のために、オーディオソース１８４が人間の話者に対応する場合、ソース位置検出器３６４は、画像データ１４５に対して画像認識を実施することによって、（たとえば、カメラ１４０のほうを見ている、またはカメラ１４０から目をそらしている）人間の話者の頭部の配向を推定する。

[0074]例示的な例では、ソース位置検出器３６４は、カメラ１４０に対するオーディオソース１８４の配向と、カメラ１４０のロケーションと１つまたは複数のマイクロフォン１２０のロケーションとの差とに基づいて、１つまたは複数のマイクロフォン１２０に対するオーディオソース１８４の配向を決定する。コンテキスト検出器３５０は、１つまたは複数のマイクロフォン１２０に対する第２のロケーションが、１つまたは複数のマイクロフォン１２０からのオーディオソース１８４の距離を示すと決定する。コンテキスト検出器３５０は、１つまたは複数のマイクロフォン１２０からのオーディオソース１８４の距離、１つまたは複数のマイクロフォン１２０に対するオーディオソース１８４の配向、オーディオソース１８４のオーディオソースタイプ、またはそれらの組合せを示す、コンテキストデータ３５１を生成する。コンテキスト検出器３５０は、コンテキストデータ３５１を指向性分析器１５２に提供する。

[0075]雑音抑圧器３４６は、１つまたは複数の雑音抑圧されたオーディオ信号３４７を生成するために、１つまたは複数の雑音抑圧入力オーディオ信号３６５に対して雑音抑圧を実施する。特定の態様では、１つまたは複数の雑音抑圧入力オーディオ信号３６５は、１つまたは複数の入力オーディオ信号１２６、１つまたは複数のビームフォーミングされたオーディオ信号３４１、１つまたは複数のアクティビティオーディオ信号３４３、または１つまたは複数の利得調整されたオーディオ信号３４５を含む。雑音抑圧器３４６は、１つまたは複数の雑音抑圧されたオーディオ信号３４７を、１つまたは複数の等化器入力オーディオ信号１４７として等化器１４８に提供する。

[0076]等化前信号プロセッサ１４６の構成要素の動作の特定の順序は、例示的な例として提供される。他の例では、等化前信号プロセッサ１４６の構成要素の動作の順序は異なり得る。特定の例では、ズームターゲット１３３は、オーディオソース１８４の選択を示す。コンテキスト検出器３５０は、ズームターゲット１３３に基づいて、オーディオソース１８４のオーディオソースタイプ（たとえば、人間の話者または鳥）をアクティビティ検出器３４２に提供する。アクティビティ検出器３４２は、（たとえば、低減された残りの音をもつ、または残りの音をもたない）オーディオソースタイプの音に対応する、１つまたは複数のアクティビティオーディオ信号３４３のうちの第１のアクティビティ信号、（たとえば、オーディオソースタイプの音をもたない、またはオーディオソースタイプの低減された音をもつ）残りの音に対応する第２のアクティビティ信号、または組合せを生成する。アクティビティ検出器３４２は、１つまたは複数のアクティビティオーディオ信号３４３を利得調整器３４４に提供する。利得調整器３４４は、オーディオズーム動作がズームターゲット１３３のほうへズームすることを含むと決定したことに応答して、第１のアクティビティ信号の利得を増加させるか、第２のアクティビティ信号の利得を低減するか、またはその両方を行う。代替的に、利得調整器３４４は、オーディオズーム動作がズームターゲット１３３から離れてズームすることを含むと決定したことに応答して、第１のアクティビティ信号の利得を減少させるか、第２のアクティビティ信号の利得を増加させるか、またはその両方を行う。

[0077]特定の態様では、指向性分析器１５２は、図４を参照しながらさらに説明されるように、オーディオソース１８４のオーディオソースタイプに基づいて指向性データ１４１を取得する。指向性分析器１５２は、図４を参照しながらさらに説明されるように、指向性データ１４１に基づいて等化器設定１５３を生成する。指向性分析器１５２は、等化器設定１５３を等化器１４８に提供する。

[0078]等化器１４８は、１つまたは複数の出力オーディオ信号１３８を生成するために、１つまたは複数の等化器入力オーディオ信号１４７に等化器設定１５３を適用する。特定の態様では、１つまたは複数の等化器入力オーディオ信号１４７は、１つまたは複数の入力オーディオ信号１２６、１つまたは複数のアクティビティオーディオ信号３４３、１つまたは複数の利得調整されたオーディオ信号３４５、または１つまたは複数の雑音抑圧されたオーディオ信号３４７を含む。

[0079]したがって、等化前信号プロセッサ１４６は、等化を実施するより前に、ビームフォーミングすること、利得を調整すること、雑音を低減すること、またはそれらの組合せを行うことによって、オーディオエンハンサ１９２の性能を改善するために等化前信号処理を実施する。特定の態様では、等化前信号プロセッサ１４６は、指向性分析器１５２が１つまたは複数のオーディオソースのオーディオソースタイプの指向性に基づいて等化器設定１５３を決定することを可能にするために、コンテキストデータ３５１を決定する。

[0080]いくつかの実装形態では、等化前信号プロセッサ１４６は省略され得る。一例として、指向性分析器１５２は、デフォルト指向性データに基づいて等化器設定１５３を生成し、等化器１４８は、１つまたは複数の出力オーディオ信号１３８を生成するために、１つまたは複数の入力オーディオ信号１２６に等化器設定１５３を適用する（たとえば、１つまたは複数の入力オーディオ信号１２６の中間周波数を調整する）。

[0081]いくつかの実装形態では、等化前信号プロセッサ１４６の１つまたは複数の構成要素は省略され得る。一例では、空間分析器３４０およびアクティビティ検出器３４２は省略され、１つまたは複数の入力オーディオ信号１２６は、１つまたは複数の利得調整器入力オーディオ信号３６３として利得調整器３４４に提供される。いくつかの実装形態では、空間分析器３４０は省略され、１つまたは複数の入力オーディオ信号１２６は、１つまたは複数のアクティビティ入力オーディオ信号３６１としてアクティビティ検出器３４２に提供される。いくつかの実装形態では、アクティビティ検出器３４２は省略され、１つまたは複数のビームフォーミングされたオーディオ信号３４１は、１つまたは複数の利得調整器入力オーディオ信号３６３として利得調整器３４４に提供される。いくつかの実装形態では、利得調整器３４４は省略され、１つまたは複数のアクティビティオーディオ信号３４３は、１つまたは複数のコンテキスト検出器入力オーディオ信号３６９としてコンテキスト検出器３５０に提供され、１つまたは複数の雑音抑圧入力オーディオ信号３６５として雑音抑圧器３４６に提供される。構成要素の特定の組合せは、例示的な例として説明される。他の実装形態では、構成要素の他の組合せが、等化前信号プロセッサ１４６中に含まれる。

[0082]図４を参照すると、図１のシステム１００の構成要素の特定の例の図４００が示されている。指向性分析器１５２は、指向性データ１４１とコンテキストデータ３５１とユーザ入力１３１とを取得するものとして示されている。コンテキストデータ３５１は、オーディオソース１８４のソース位置データ４２０を含む。たとえば、ソース位置データ４２０は、図３を参照しながら説明されるように、１つまたは複数のマイクロフォン１２０に対するオーディオソース１８４のソース配向４２２（たとえば、０度、またはそのほうへ向いている）、１つまたは複数のマイクロフォン１２０からのオーディオソース１８４のソース距離４２４（たとえば、６フィート）、またはその両方を示す。

[0083]図３のソース位置検出器３６４は、ソース配向４２２（たとえば、０度）およびズーム配向１３７（たとえば、０度）に基づいて、ズームロケーション１３６に対するオーディオソース１８４のソース配向４３２（たとえば、０度）を決定する。ソース位置検出器３６４は、ズーム距離１３５（たとえば、２フィート）、ズーム配向１３７（たとえば、０度）、およびソース距離４２４（たとえば、６フィート）に基づいて、ズームロケーション１３６からのオーディオソース１８４のソース距離４３４（たとえば、４フィート）を決定する。

[0084]特定の態様では、指向性分析器１５２は、オーディオソース１８４のオーディオソースタイプに基づいて指向性データ１４１を取得する。一例として、音指向性パターン４０２のグラフィカル図が、水平面および垂直面におけるオーディオソースタイプ（たとえば、人間の話者）の周波数依存指向性を示す。特定の態様では、指向性データ１４１は、オーディオソースタイプの様々な配向に関連する複数の指向性データセットを含む。指向性分析器１５２は、指向性データセット４０４が、ソース配向４２２とソース配向４３２とに一致するオーディオソースタイプの特定の配向（たとえば、軸上、水平軸および垂直軸に沿って０度）に関連すると決定したことに応答して、指向性データ１４１から指向性データセット４０４を選択する。

[0085]指向性データセット４０４のグラフィカル図が、特定の配向に沿った特定の距離（たとえば、１メートル）から様々な距離への（たとえば、マイクロフォンの）距離の変化に対応するオーディオソースタイプ（たとえば、オーディオソース１８４）の周波数応答特性を示す。たとえば、指向性データセット４０４は、特定の配向（たとえば、軸上）に沿ったソース距離４２４（たとえば、１メートル）からソース距離４３４（たとえば、１センチメートル）への変化についてのオーディオソースタイプ（たとえば、オーディオソース１８４）の周波数応答特性４４９を示す。特定の態様では、周波数応答特性４４９は、様々な音周波数についてのラウドネス（たとえば、デシベル（ｄＢ））の変化を示す。たとえば、周波数応答特性４４９は、特定の配向（たとえば、軸上）に沿ってソース距離４２４（たとえば、１メートル）からソース距離４３４（たとえば、１センチメートル）のほうへ移動することが、特定の周波数（たとえば、５００ヘルツ（Ｈｚ））についてのラウドネスの低下（たとえば、－０．２ｄＢ）、別の周波数範囲（たとえば、８００Ｈｚ～１キロヘルツ（ｋＨｚ））についてのラウドネスの上昇（たとえば、＋４ｄＢ）、またはその両方に対応することを示す。特定の例では、周波数応答特性４４９は、特定の配向（たとえば、軸上）に沿ってソース距離４２４（たとえば、１メートル）からソース距離４３４（たとえば、１センチメートル）のほうへ移動することが、別の特定の周波数範囲（たとえば、２００Ｈｚ～４００Ｈｚ）についてのラウドネスの無視できる（たとえば、しきい値を下回る）変化に対応することを示す。例示のために、特定の周波数範囲（たとえば、２００Ｈｚ～４００Ｈｚ）についてのラウドネスの変化は、人間の聴覚系にとって知覚不可能であり得る。

[0086]特定の例では、ソース配向４２２はソース配向４３２に一致し、指向性分析器１５２は、特定の配向（たとえば、ソース配向４２２およびソース配向４３２）に沿ったソース距離の変化に対応する指向性データセット４０４を選択する。この例では、指向性データセット４０４は、特定の配向（たとえば、ソース配向４２２およびソース配向４３２）に沿った（たとえば、ソース距離４２４からソース距離４３４への）ソース距離の変化に対応する周波数応答特性４４９を示す。いくつかの他の例では、ソース配向４２２は、図６を参照しながらさらに説明されるように、ソース配向４３２とは異なり、指向性分析器１５２は、指向性データ１４１から、（たとえば、ソース距離４２４からソース距離４３４への）ソース距離の変化と（たとえば、ソース配向４２２からソース配向４３２への）ソース配向の変化とに対応する周波数応答特性４４９を示す指向性データセットを選択する。

[0087]特定の態様では、指向性分析器１５２は、メモリ１３２、別のデバイス、ネットワーク、またはそれらの組合せから、等化器設定データ１４９を取得する。特定の実装形態では、等化器設定データ１４９は、コンテキストデータ３５１（たとえば、オーディオソース１８４のオーディオソースタイプ）、指向性データ１４１（たとえば、指向性データセット４０４）、ズーム距離１３５、ソース距離４２４、ソース距離４３４、ズーム配向１３７、ソース配向４２２、ソース配向４３２、周波数応答特性（たとえば、周波数応答特性４４９）、またはそれらの組合せを等化器設定１５３に関連付ける。指向性分析器１５２は、等化器設定データ１４９に基づいて、オーディオソース１８４のオーディオソースタイプ、ズーム距離１３５、ソース距離４２４、ソース距離４３４、ズーム配向１３７、ソース配向４２２、ソース配向４３２、周波数応答特性４４９、またはそれらの組合せに一致する、等化器設定１５３を選択する。

[0088]特定の態様では、指向性分析器１５２は、等化器設定データ１４９に基づいて、周波数応答特性４４９に一致する等化器設定１５３を選択する。たとえば、等化器設定１５３は、特定の周波数（たとえば、５００Ｈｚ）についてのラウドネスの低下（たとえば、－０．２ｄＢ）、第１の周波数範囲（たとえば、８００Ｈｚ～１キロヘルツ（ｋＨｚ））についてのラウドネスの上昇（たとえば、＋４ｄＢ）、第２の周波数範囲（たとえば、２００Ｈｚ～４００Ｈｚ）についてのラウドネスの変化なし、またはそれらの組合せに対応する。したがって、指向性分析器１５２は、等化器設定１５３を適用することが、１つまたは複数のマイクロフォン１２０をズームロケーション１３６に（またはそのより近くに）移動することの周波数応答特性を近似するように、等化器設定１５３を生成する。

[0089]図５を参照すると、図１のシステム１００の構成要素の特定の例の図５００が示されている。指向性データ１４１の指向性データセット５０４のグラフィカル図が、特定の配向（たとえば、－４５度の水平軸および０度の垂直軸）についてのオーディオソース１８４のオーディオソースタイプ（たとえば、人間の話者）の周波数応答特性を示す。たとえば、指向性データセット５０４は、特定の配向に沿った特定の距離（たとえば、１メートル）から様々な距離への（たとえば、マイクロフォンの）距離の変化に対応する周波数応答特性を示す。

[0090]図３のコンテキスト検出器３５０は、図３を参照しながら説明されるように、オーディオソース１８４のソース位置データ５２０を決定する。たとえば、ソース位置データ５２０は、オーディオソース１８４が、１つまたは複数のマイクロフォン１２０のロケーション１３４に対して、ソース配向５２２（たとえば、－４５度の水平軸および０度の垂直軸）でほぼソース距離４２４（たとえば、１メートル）のところに位置することを示す。ソース位置データ５２０は、オーディオソース１８４が、ズームロケーション１３６に対して、ソース配向５３２（たとえば、－４５度の水平軸および０度の垂直軸）でほぼソース距離４３４（たとえば、１０センチメートル）のところに位置することを示す。

[0091]指向性分析器１５２は、ソース配向４２２（たとえば、水平軸上で－４５度および垂直軸上で０度）およびソース配向４３２（たとえば、水平軸上で－４５度および垂直軸上で０度）が、指向性データセット５０４に関連する特定の配向（たとえば、－４５度の水平軸および０度の垂直軸）に一致すると決定したことに応答して、指向性データ１４１から指向性データセット５０４を選択する。指向性データセット５０４は、特定の配向（たとえば、水平軸上で－４５度および垂直軸上で０度）に沿ったソース距離４２４（たとえば、１メートル）からソース距離４３４（たとえば、１センチメートル）への変化についての周波数応答特性５４９を示す。特定の態様では、周波数応答特性５４９は、特定の配向（たとえば、水平軸上で－４５度および垂直軸上で０度）に沿ってソース距離４２４（たとえば、１メートル）からソース距離４３４（たとえば、１センチメートル）のほうへ移動することが、第１の周波数（たとえば、５００Ｈｚ）についてのラウドネスの低下（たとえば、－０．２ｄＢ）、第２の周波数（たとえば、８００Ｈｚ）についてのラウドネスの第１の上昇（たとえば、＋２ｄＢ）、第３の周波数（たとえば、１ｋＨｚ）についてのラウドネスの第２の上昇（たとえば、＋４ｄＢ）、特定の周波数範囲（たとえば、２００Ｈｚ～３１５Ｈｚ）についてのラウドネスの無視できる（たとえば、しきい値を下回る）変化、またはそれらの組合せに対応することを示す。

[0092]特定の態様では、指向性分析器１５２は、等化器設定データ１４９に基づいて、周波数応答特性５４９に一致する等化器設定１５３を選択する。たとえば、等化器設定１５３は、第１の周波数（たとえば、５００Ｈｚ）についてのラウドネスの低下（たとえば、－０．２ｄＢ）、第２の周波数（たとえば、８００Ｈｚ）についてのラウドネスの第１の上昇（たとえば、＋２ｄＢ）、第３の周波数についてのラウドネスの第２の上昇（たとえば、＋４ｄＢ）、特定の周波数範囲（たとえば、２００Ｈｚ～３１５Ｈｚ）についてのラウドネスの変化なし、またはそれらの組合せに対応する。したがって、指向性分析器１５２は、等化器設定１５３を適用することが、オーディオソース１８４が１つまたは複数のマイクロフォン１２０に対して特定の配向（たとえば、水平軸上で－４５度および垂直軸上で０度）を有するとき、１つまたは複数のマイクロフォン１２０をズームロケーション１３６に（またはそのより近くに）移動することの周波数応答特性を近似するように、指向性データセット５０４に基づいて、等化器設定１５３を生成する。

[0093]図６を参照すると、図３のコンテキスト検出器３５０が、図３の１つまたは複数のコンテキスト検出器入力オーディオ信号３６９に基づいて、複数のオーディオソース、たとえば、オーディオソース１８４およびオーディオソース６８４を検出した、一実装形態による、図１のシステム１００の構成要素の一例の図６００が示されている。

[0094]コンテキスト検出器３５０は、図３を参照しながら説明されるものと同様の様式で、オーディオソース６８４のソース位置データ６２０を決定する。たとえば、ソース位置データ６２０は、オーディオソース６８４が、１つまたは複数のマイクロフォン１２０のロケーション１３４に対して、ソース配向６２２（たとえば、－３０度の水平軸および０度の垂直軸）でほぼソース距離６２４（たとえば、２メートル）のところに位置することを示す。特定の態様では、ソース位置データ６２０は、オーディオソース６８４が、ズームロケーション１３６に対して、ソース配向６３２（たとえば、－２度の水平軸および０度の垂直軸）でほぼソース距離６３４（たとえば、２．２メートル）のところに位置することを示す。

[0095]特定の実装形態では、ズームターゲット１３３はオーディオソース１８４を示し、指向性分析器１５２は、等化器設定１５３を決定する際にオーディオソース６８４を無視する。特定の態様では、１つまたは複数の出力オーディオ信号１３８は、オーディオソース６８４の低減された音を含む（たとえば、その音を含まない）。一例として、アクティビティ検出器３４２は、オーディオソース６８４の低減された音をもつ（たとえば、その音をもたない）オーディオソース１８４の音に対応する１つまたは複数のアクティビティオーディオ信号３４３を生成する。別の例として、利得調整器３４４は、オーディオソース６８４の低減された音をもつ（たとえば、その音をもたない）１つまたは複数の利得調整されたオーディオ信号３４５を生成する。別の例では、空間分析器３４０は、オーディオソース６８４の低減された音をもつ（たとえば、その音をもたない）１つまたは複数のビームフォーミングされたオーディオ信号３４１を生成するために、ビームフォーミングを適用する。この実装形態では、指向性分析器１５２は、図５を参照しながら説明されるように、指向性データセット５０４およびソース位置データ５２０に基づいて、等化器設定１５３を生成する。

[0096]特定の実装形態では、ズームターゲット１３３はオーディオソース１８４を示し、オーディオエンハンサ１９２は、ほとんどまたはまったくオーディオソース６８４の音に対する変化なしにオーディオソース１８４の指向性に基づいて調整されたオーディオソース１８４の音をもつ１つまたは複数の出力オーディオ信号１３８を生成する。一例として、アクティビティ検出器３４２は、オーディオソース６８４の低減された音をもつ（たとえば、その音をもたない）オーディオソース１８４の音に対応する１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセットと、オーディオソース１８４の低減された音をもつ（たとえば、その音をもたない）（たとえば、オーディオソース６８４の音を含む）残りの音に対応する１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセットとを生成する。

[0097]指向性分析器１５２は、図５を参照しながら説明されるように、指向性データセット５０４およびソース位置データ５２０に基づいて、等化器設定１５３を生成する。１つまたは複数の等化器入力オーディオ信号１４７は、１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセット、１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセットの利得調整されたバージョン、１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセットの雑音抑圧されたバージョン、またはそれらの組合せを含む。等化器１４８は、１つまたは複数の等化器入力オーディオ信号１４７に等化器設定１５３を適用することによって、１つまたは複数の出力オーディオ信号１３８の第１のサブセットを生成し、ユーザ１０１がズームロケーション１３６に位置するかのように知覚される、オーディオソース１８４からの音の心理音響的強調バージョンを生成する。

[0098]１つまたは複数の出力オーディオ信号１３８の第２のサブセットが、１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセットに基づき、オーディオソース６８４からの音を含む。たとえば、１つまたは複数の出力オーディオ信号１３８の第２のサブセットは、１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセット、１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセットの利得調整されたバージョン、１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセットの雑音抑圧されたバージョン、またはそれらの組合せを含む。

[0099]したがって、１つまたは複数の出力オーディオ信号１３８は、１つまたは複数のマイクロフォン１２０をロケーション１３４からズームロケーション１３６に移動することを伴い、まったく（またはほとんど）オーディオソース６８４についての変化がない、オーディオソース１８４の周波数応答特性を近似する。この実装形態では、オーディオズーム動作は、ほとんどまたはまったくオーディオソース６８４に対する変化なしに、オーディオソース１８４に対してズームするように思われる。たとえば、１つまたは複数の出力オーディオ信号１３８中のオーディオソース１８４の音は、ズームロケーション１３６に対してソース配向５３２でほぼソース距離４３４のところにあるオーディオソース１８４から来るように思われる。１つまたは複数の出力オーディオ信号１３８中のオーディオソース６８４の音は、ズームロケーション１３６に対してソース配向６２２でほぼソース距離６２４のところにあるオーディオソース６８４から来るように思われる。

[0100]別の特定の実装形態では、ズームターゲット１３３はオーディオソース１８４を示し、オーディオエンハンサ１９２は、オーディオソース１８４の指向性に基づいてオーディオソース１８４の音を調整することと、オーディオソース６８４の指向性に基づいて調整されたオーディオソース６８４の音を調整することとを含む動作において、１つまたは複数の出力オーディオ信号１３８を生成する。特定の態様では、オーディオソース６８４は、オーディオソース１８４と同じオーディオソースタイプ（たとえば、人間の話者）を有する。この態様では、指向性分析器１５２は、指向性データ１４１から、オーディオソース６８４に関連する（たとえば、ソース配向６２２からソース配向６３２への）配向の変化と（たとえば、ソース距離６２４からソース距離６３４への）距離の変化とに一致する指向性データセット６０４を選択する。

[0101]代替態様では、オーディオソース６８４は、オーディオソース１８４の第１のオーディオソースタイプ（たとえば、人間の話者）とは異なる第２のオーディオソースタイプ（たとえば、鳥）を有する。この態様では、指向性分析器１５２は、第２のオーディオソースタイプに関連する第２の指向性データを取得し、第２の指向性データから、（たとえば、ソース配向６２２からソース配向６３２への）配向の変化と、ソース距離６２４から様々な距離への変化とについてのオーディオソース６８４の周波数応答特性を示す指向性データセット６０４を選択する。例示のために、指向性データセット６０４は、（たとえば、ソース配向６２２からソース配向６３２への）配向の変化と（たとえば、ソース距離６２４からソース距離６３４への）距離の変化とについての周波数応答特性６４９を示す。

[0102]指向性分析器１５２は、等化器設定データ１４９に基づいて、周波数応答特性６４９に一致する等化器設定６５３を決定する。指向性分析器１５２は、オーディオソース６８４に対応する等化器設定６５３とオーディオソース１８４に対応する等化器設定１５３とを等化器１４８に提供する。

[0103]特定の態様では、アクティビティ検出器３４２は、オーディオソース１８４の音と低減された他の音（たとえば、他の音なし）とに対応する１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセット、オーディオソース６８４の音と低減された他の音（たとえば、他の音なし）とに対応する１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセット、残りの音と、オーディオソース１８４およびオーディオソース６８４の低減された音（たとえば、その音なし）とに対応する１つまたは複数のアクティビティオーディオ信号３４３の第３のサブセット、またはそれらの組合せを生成する。特定の態様では、１つまたは複数の等化器入力オーディオ信号１４７の第１のサブセットは、１つまたは複数のアクティビティオーディオ信号３４３の第１のサブセットに基づき、１つまたは複数の等化器入力オーディオ信号１４７の第２のサブセットは、１つまたは複数のアクティビティオーディオ信号３４３の第２のサブセットに基づき、１つまたは複数の等化器入力オーディオ信号１４７の第３のサブセットは、１つまたは複数のアクティビティオーディオ信号３４３の第３のサブセットに基づき、またはそれらの組合せである。等化器１４８は、オーディオソース１８４に対応する１つまたは複数の等化器入力オーディオ信号１４７の第１のサブセットに対して等化器設定１５３を適用するか、オーディオソース６８４に対応する１つまたは複数の等化器入力オーディオ信号１４７の第２のサブセットに対して等化器設定６５３を適用するか、残りのオーディオに対応する１つまたは複数の等化器入力オーディオ信号１４７の第３のサブセットに対して変化なしを適用するか、またはそれらの組合せを行うことによって、１つまたは複数の出力オーディオ信号１３８を生成する。したがって、等化器設定１５３および等化器設定６５３は、１つまたは複数の出力オーディオ信号１３８が、１つまたは複数のマイクロフォン１２０をロケーション１３４からズームロケーション１３６に移動することに関連する、オーディオソース１８４およびオーディオソース６８４の周波数応答特性を近似することを可能にする。たとえば、１つまたは複数の出力オーディオ信号１３８中のオーディオソース１８４の音は、ズームロケーション１３６に対してソース配向５３２でほぼソース距離４３４のところにあるオーディオソース１８４から来るように思われる。１つまたは複数の出力オーディオ信号１３８中のオーディオソース６８４の音は、ズームロケーション１３６に対してソース配向６３２でほぼソース距離６３４のところにあるオーディオソース６８４から来るように思われる。

[0104]図７は、１つまたは複数のプロセッサ１９０を含む集積回路７０２として、デバイス１０２の実装形態７００を示す。集積回路７０２は、１つまたは複数の入力オーディオ信号１２６が処理のために受信されることを可能にするために、１つまたは複数のバスインターフェースなどのオーディオ入力７０４をも含む。集積回路７０２は、１つまたは複数の出力オーディオ信号１３８などの出力信号を送ることを可能にするために、バスインターフェースなどのオーディオ出力７０６をも含む。集積回路７０２は、図８に示されているモバイルフォンまたはタブレット、図９に示されているヘッドセット、図１０に示されているウェアラブル電子デバイス、図１１に示されているボイス制御スピーカーシステム、図１２に示されているカメラ、図１３に示されている仮想現実ヘッドセットまたは拡張現実ヘッドセット、あるいは図１４または図１５に示されているビークルなど、システムにおける構成要素として、オーディオソース指向性に基づく心理音響的強調の実装を可能にする。

[0105]図８は、例示的で非限定的な例として、デバイス１０２が、フォンまたはタブレットなど、モバイルデバイス８０２を含む、実装形態８００を示す。モバイルデバイス８０２は、１つまたは複数のスピーカー１６０と、１つまたは複数のマイクロフォン１２０と、ディスプレイスクリーン８０４とを含む。オーディオエンハンサ１９２を含む、プロセッサ１９０の構成要素は、モバイルデバイス８０２に統合され、モバイルデバイス８０２のユーザには概して見えない内部構成要素を示すために破線を使用して示されている。特定の例では、オーディオエンハンサ１９２は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によっては（たとえば、統合「スマートアシスタント」アプリケーションを介して）ディスプレイスクリーン８０４においてユーザの音声に関連する他の情報を表示するためになど、モバイルデバイス８０２において１つまたは複数の動作を実施するために処理される。特定の例では、オーディオエンハンサ１９２は、オンライン会議中に話者のボイスアクティビティを強調する。例示のために、ユーザが、オンライン会議中にディスプレイスクリーン８０４上で話者を見ることができ、話者をズームターゲットとして選択する。オーディオエンハンサ１９２は、ズームターゲットの選択に応答して、話者の音声を強調する。別の例では、モバイルデバイス８０２の鳥追跡アプリケーションのユーザが、ズームターゲットとして木を選択する。オーディオエンハンサ１９２は、ズームターゲットの選択に応答して、木の上の鳥からの鳥の音を強調する。

[0106]図９は、デバイス１０２がヘッドセットデバイス９０２を含む、実装形態９００を示す。ヘッドセットデバイス９０２は、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せを含む。オーディオエンハンサ１９２を含む、プロセッサ１９０の構成要素は、ヘッドセットデバイス９０２に統合される。特定の例では、オーディオエンハンサ１９２は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、ヘッドセットデバイス９０２に、ヘッドセットデバイス９０２において１つまたは複数の動作を実施させるか、さらなる処理のために第２のデバイス（図示せず）にユーザボイスアクティビティに対応するオーディオデータを送信させるか、またはそれらの組合せを行わせ得る。特定の態様では、ヘッドセットデバイス９０２は、ヘッドセットデバイス９０２のオーディオ出力に対応する音場の異なる部分にズームするために使用され得る入力（たとえば、ボタンまたは矢印）を有する。たとえば、ヘッドセットデバイス９０２はオーケストラ音楽を出力し、ヘッドセットデバイス９０２を装着しているユーザが、オーケストラの特定のセクションまたは楽器をズームターゲットとして選択するために、ヘッドセットデバイス９０２の入力を使用する。オーディオエンハンサ１９２は、ズームターゲット（たとえば、特定のセクションまたは楽器）へのオーディオズーム動作に対応する１つまたは複数の出力オーディオ信号１３８を生成する。

[0107]図１０は、デバイス１０２が、「スマートウォッチ」として示されているウェアラブル電子デバイス１００２を含む、実装形態１０００を示す。オーディオエンハンサ１９２、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せは、ウェアラブル電子デバイス１００２に統合される。特定の例では、オーディオエンハンサ１９２は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によってはウェアラブル電子デバイス１００２のディスプレイスクリーン１００４においてユーザの音声に関連する他の情報を表示するためになど、ウェアラブル電子デバイス１００２において１つまたは複数の動作を実施するために処理される。例示のために、ウェアラブル電子デバイス１００２は、ウェアラブル電子デバイス１００２によって強調されたユーザ音声に基づいて通知を表示するように構成されたディスプレイスクリーンを含み得る。特定の例では、ウェアラブル電子デバイス１００２は、ユーザボイスアクティビティに応答して触覚通知を提供する（たとえば、振動する）触覚デバイスを含む。たとえば、触覚通知は、ユーザが、ユーザによって話されたキーワードの検出を示す表示された通知を見るためにウェアラブル電子デバイス１００２を見ることを引き起こすことができる。したがって、ウェアラブル電子デバイス１００２は、ユーザのボイスアクティビティが検出されたことを、聴覚障害をもつユーザまたはヘッドセットを装着しているユーザにアラートすることができる。特定の態様では、ウェアラブル電子デバイス１００２は、ウェアラブル電子デバイス１００２のオーディオ出力に対応する音場の異なる部分にズームするために使用され得る入力（たとえば、ボタンまたは矢印）を含む。

[0108]図１１は、デバイス１０２がワイヤレススピーカーおよびボイスアクティブ化デバイス１１０２を含む、実装形態１１００である。ワイヤレススピーカーおよびボイスアクティブ化デバイス１１０２は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。オーディオエンハンサ１９２を含む１つまたは複数のプロセッサ１９０、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せは、ワイヤレススピーカーおよびボイスアクティブ化デバイス１１０２中に含まれる。動作中に、オーディオエンハンサ１９２のオーディオ強調動作を介してユーザ音声として識別されたバーバルコマンドを受信したことに応答して、ワイヤレススピーカーおよびボイスアクティブ化デバイス１１０２は、ボイスアクティベーションシステム（たとえば、統合アシスタントアプリケーション）の実行を介してなど、アシスタント動作を実行することができる。アシスタント動作は、温度を調整すること、音楽を再生すること、ライトをオンにすることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ（たとえば、「こんにちは、アシスタント」）の後にコマンドを受信したことに応答して実施される。

[0109]図１２は、デバイス１０２が、カメラデバイス１２０２に対応するポータブル電子デバイスを含む、実装形態１２００を示す。オーディオエンハンサ１９２、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せは、カメラデバイス１２０２中に含まれる。動作中に、オーディオエンハンサ１９２の動作を介して、強調されたユーザ音声としてバーバルコマンドを受信したことに応答して、カメラデバイス１２０２は、例示的な例として、ズーム動作を実施する、画像またはビデオキャプチャ設定、画像またはビデオ再生設定、あるいは画像またはビデオキャプチャ命令を調整するためになど、話されたユーザコマンドに応答して動作を実行することができる。特定の例では、カメラデバイス１２０２はビデオカメラを含み、ビデオカメラは、ビューファインダーにおいて見えるオーディオソース１８４上にズームインするとき、オーディオエンハンサ１９２に、オーディオソース１８４からキャプチャされたオーディオを強調するためにオーディオズーム動作を実施させる。

[0110]図１３は、デバイス１０２が、仮想現実、拡張現実、または複合現実ヘッドセット１３０２に対応するポータブル電子デバイスを含む、実装形態１３００を示す。オーディオエンハンサ１９２、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せは、ヘッドセット１３０２に統合される。オーディオ強調は、ヘッドセット１３０２の１つまたは複数のマイクロフォン１２０から受信されたオーディオ信号に基づいて実施され得る。特定の例では、オーディオ強調は、メモリ、ネットワーク、別のデバイス、またはそれらの組合せから受信された、仮想現実、拡張現実、または複合現実に対応するオーディオ信号に対して実施され得る。視覚インターフェースデバイスが、ヘッドセット１３０２が装着されている間、ユーザへの拡張現実または仮想現実の画像またはシーンの表示を可能にするために、ユーザの眼の前に配置される。特定の例では、視覚インターフェースデバイスは、オーディオ信号の強調された音声を示す通知を表示するように構成される。特定の実装形態では、ユーザが視覚インターフェースデバイスに示されている仮想または実際のオブジェクトにズームするためにヘッドセット１３０２を使用するとき、オーディオエンハンサ１９２は、（たとえば、ゲームをすることの一部として）オブジェクトに対応するオーディオのオーディオズームを実施する。いくつかの例では、オーディオエンハンサ１９２は、視覚インターフェースデバイスによって表示される視覚ズームと連動して、オーディオズームを実施する。

[0111]図１４は、デバイス１０２が、有人または無人航空デバイス（たとえば、パッケージ配達ドローン）として示されているビークル１４０２に対応するか、またはビークル１４０２内に統合される、実装形態１４００を示す。オーディオエンハンサ１９２、１つまたは複数のマイクロフォン１２０、１つまたは複数のスピーカー１６０、またはそれらの組合せは、ビークル１４０２に統合される。オーディオ（たとえば、ユーザボイスアクティビティ）強調は、ビークル１４０２の許可されたユーザからの配達命令についてなど、ビークル１４０２の１つまたは複数のマイクロフォン１２０から受信されたオーディオ信号に基づいて実施され得る。

[0112]図１５は、デバイス１０２が、車として示されているビークル１５０２に対応するか、またはビークル１５０２内に統合される、別の実装形態１５００を示す。ビークル１５０２は、オーディオエンハンサ１９２を含むプロセッサ１９０を含む。ビークル１５０２は、１つまたは複数のマイクロフォン１２０をも含む。オーディオ（たとえば、ユーザボイスアクティビティ）強調は、ビークル１５０２の１つまたは複数のマイクロフォン１２０から受信されたオーディオ信号に基づいて実施され得る。いくつかの実装形態では、オーディオ（たとえば、ボイスアクティビティ）強調は、許可された乗客からのボイスコマンドについてなど、内部マイクロフォン（たとえば、１つまたは複数のマイクロフォン１２０）から受信されたオーディオ信号に基づいて実施され得る。たとえば、ユーザボイスアクティビティ強調は、ビークル１５０２のオペレータまたは乗客からのボイスコマンドを強調するために使用され得る。いくつかの実装形態では、オーディオ強調は、オーディオソース１８４（たとえば、鳥、ビーチ上の波、屋外音楽、ビークル１５０２の許可されたユーザ、ドライブスルーの小売従業員、またはカーブサイドピックアップ（curb-side pickup）人員）からの音など、外部マイクロフォン（たとえば、１つまたは複数のマイクロフォン１２０）から受信されたオーディオ信号に基づいて実施され得る。特定の実装形態では、オーディオエンハンサ１９２の動作を介して、強調されたユーザ音声としてバーバルコマンドを受信したことに応答して、ボイスアクティベーションシステムは、ディスプレイ１５２０または１つまたは複数のスピーカー（たとえば、スピーカー１５１０）を介してフィードバックまたは情報を提供することによってなど、１つまたは複数の出力オーディオ信号１３８において検出された１つまたは複数のキーワード（たとえば、「ロック解除する」、「エンジンを開始する」、「音楽を再生する」、「天気予報を表示する」、または別のボイスコマンド）に基づいて、ビークル１５０２の１つまたは複数の動作を始動する。特定の実装形態では、強調された外部音（たとえば、屋外音楽、鳥の音など）は、１つまたは複数のスピーカー１６０を介してビークル１５０２の内部において再生される。

[0113]図１６を参照すると、オーディオソース指向性に基づく心理音響的強調の方法１６００の特定の実装形態が示されている。特定の態様では、方法１６００の１つまたは複数の動作は、図１の指向性分析器１５２、等化器１４８、オーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、またはそれらの組合せのうちの少なくとも１つによって実施される。

[0114]方法１６００は、１６０２において、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することを含む。たとえば、図１の指向性分析器１５２は、図１および図４～図６を参照しながら説明されるように、１つまたは複数の入力オーディオ信号１２６に対応するオーディオソース１８４の指向性データ１４１を取得する。

[0115]方法１６００はまた、１６０４において、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することを含む。たとえば、図１の指向性分析器１５２は、図１および図４～図６を参照しながら説明されるように、指向性データ１４１に少なくとも部分的に基づいて等化器設定１５３を決定する。

[0116]方法１６００は、１６０６において、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することをさらに含む。たとえば、図１の等化器１４８は、等化器設定１５３に基づいて、１つまたは複数の入力オーディオ信号１２６の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号１３８を生成する。

[0117]方法１６００は、オーディオソース１８４の指向性に基づいて周波数についてラウドネスを調整することによって１つまたは複数の出力オーディオ信号１３８を生成することを可能にする。１つまたは複数の出力オーディオ信号１３８は、たとえば、１つまたは複数の入力オーディオ信号１２６の利得を調整するにすぎないことと比較して、より自然なサウンディングオーディオズームに対応する。

[0118]図１６の方法１６００は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）デバイス、特定用途向け集積回路（ＡＳＩＣ）、中央処理ユニット（ＣＰＵ）などの処理ユニット、ＤＳＰ、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図１６の方法１６００は、図１７を参照しながら説明されるものなど、命令を実行するプロセッサによって実施され得る。

[0119]図１７を参照すると、デバイスの特定の例示的な実装形態のブロック図が示されており、全体的に１７００と指定される。様々な実装形態では、デバイス１７００は、図１７に示されているものよりも多いまたは少ない構成要素を有し得る。例示的な一実装形態では、デバイス１７００は、デバイス１０２に対応し得る。例示的な一実装形態では、デバイス１７００は、図１～図１６を参照しながら説明される１つまたは複数の動作を実施し得る。

[0120]特定の実装形態では、デバイス１７００は、プロセッサ１７０６（たとえば、中央処理ユニット（ＣＰＵ））を含む。デバイス１７００は、１つまたは複数の追加のプロセッサ１７１０（たとえば、１つまたは複数のＤＳＰ）を含み得る。特定の態様では、図１の１つまたは複数プロセッサ１９０は、プロセッサ１７０６、プロセッサ１７１０、またはそれらの組合せに対応する。プロセッサ１７１０は、ボイスコーダ（「ボコーダ」）エンコーダ１７３６、ボコーダデコーダ１７３８、オーディオエンハンサ１９２、またはそれらの組合せを含む、音声および音楽コーダデコーダ（コーデック）１７０８を含み得る。

[0121]デバイス１７００は、メモリ１３２とコーデック１７３４とを含み得る。メモリ１３２は、オーディオエンハンサ１９２を参照しながら説明される機能を実装するために１つまたは複数の追加のプロセッサ１７１０（またはプロセッサ１７０６）によって実行可能である、命令１７５６を含み得る。デバイス１７００は、トランシーバ１７５０を介してアンテナ１７５２に結合されたモデム１７４６を含み得る。

[0122]デバイス１７００は、ディスプレイコントローラ１７２６に結合されたディスプレイデバイス１６２を含み得る。１つまたは複数のスピーカー１６０、１つまたは複数のマイクロフォン１２０、またはそれらの組合せは、コーデック１７３４に結合され得る。たとえば、１つまたは複数のマイクロフォン１２０は、図１の１つまたは複数の入力インターフェース１２４を介してコーデック１７３４に結合され得る。１つまたは複数のスピーカー１６０は、１つまたは複数の出力インターフェースを介してコーデック１７３４に結合され得る。コーデック１７３４は、デジタルアナログ変換器（ＤＡＣ）１７０２、アナログデジタル変換器（ＡＤＣ）１７０４、またはその両方を含み得る。特定の実装形態では、コーデック１７３４は、１つまたは複数のマイクロフォン１２０からアナログ信号を受信し、アナログデジタル変換器１７０４を使用してアナログ信号をデジタル信号に変換し、デジタル信号を音声および音楽コーデック１７０８に提供し得る。音声および音楽コーデック１７０８は、デジタル信号を処理し得、デジタル信号は、オーディオエンハンサ１９２によってさらに処理され得る。特定の実装形態では、音声および音楽コーデック１７０８は、デジタル信号をコーデック１７３４に提供し得る。コーデック１７３４は、デジタルアナログ変換器１７０２を使用してデジタル信号をアナログ信号に変換し得、アナログ信号を１つまたは複数のスピーカー１６０に提供し得る。

[0123]特定の実装形態では、デバイス１７００は、システムインパッケージまたはシステムオンチップデバイス１７２２中に含まれ得る。特定の実装形態では、メモリ１３２、プロセッサ１７０６、プロセッサ１７１０、ディスプレイコントローラ１７２６、コーデック１７３４、およびモデム１７４６は、システムインパッケージまたはシステムオンチップデバイス１７２２中に含まれる。特定の実装形態では、入力デバイス１３０、カメラ１４０、および電源１７４４は、システムオンチップデバイス１７２２に結合される。その上、特定の実装形態では、図１７に示されているように、ディスプレイデバイス１６２、入力デバイス１３０、カメラ１４０、１つまたは複数のスピーカー１６０、１つまたは複数のマイクロフォン１２０、アンテナ１７５２、および電源１７４４は、システムオンチップデバイス１７２２の外部にある。特定の実装形態では、ディスプレイデバイス１６２、入力デバイス１３０、カメラ１４０、１つまたは複数のスピーカー１６０、１つまたは複数のマイクロフォン１２０、アンテナ１７５２、および電源１７４４の各々は、インターフェース（たとえば、１つまたは複数の入力インターフェース１２４、入力インターフェース１４４、１つまたは複数の追加のインターフェース、またはそれらの組合せ）またはコントローラなど、システムオンチップデバイス１７２２の構成要素に結合され得る。

[0124]デバイス１７００は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット（ＩｏＴ）デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、ナビゲーションデバイス、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、タブレット、携帯情報端末、デジタルビデオディスク（ＤＶＤ）プレーヤ、チューナー、拡張現実ヘッドセット、仮想現実ヘッドセット、航空ビークル、ホームオートメーションシステム、ボイスアクティブ化デバイス、ワイヤレススピーカーおよびボイスアクティブ化デバイス、ポータブル電子デバイス、車、コンピューティングデバイス、仮想現実（ＶＲ）デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。

[0125]説明される実装形態に関連して、装置が、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得するための手段を含む。たとえば、取得するための手段は、図１の指向性分析器１５２、オーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、プロセッサ１７０６、プロセッサ１７１０、モデム１７４６、トランシーバ１７５０、アンテナ１７５２、１つまたは複数のオーディオソースの指向性データを取得するように構成された１つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。

[0126]本装置は、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するための手段をも含む。たとえば、決定するための手段は、図１の指向性分析器１５２、オーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、プロセッサ１７０６、プロセッサ１７１０、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するように構成された１つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。

[0127]本装置は、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するための手段をさらに含む。たとえば、生成するための手段は、図１の指向性分析器１５２、オーディオエンハンサ１９２、１つまたは複数のプロセッサ１９０、デバイス１０２、システム１００、プロセッサ１７０６、プロセッサ１７１０、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するように構成された１つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。

[0128]いくつかの実装形態では、非一時的コンピュータ可読媒体（たとえば、メモリ１３２などのコンピュータ可読記憶デバイス）が、命令（たとえば、命令１７５６）を含み、命令は、１つまたは複数のプロセッサ（たとえば、１つまたは複数のプロセッサ１７１０またはプロセッサ１７０６）によって実行されたとき、１つまたは複数のプロセッサに、１つまたは複数の入力オーディオ信号（たとえば、１つまたは複数の入力オーディオ信号１２６）に対応する１つまたは複数のオーディオソース（たとえば、オーディオソース１８４、オーディオソース６８４、またはその両方）の指向性データ（たとえば、指向性データ１４１）を取得することを行わせる。命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定（たとえば、等化器設定１５３、等化器設定６５３、またはそれらの組合せ）を決定することをも行わせる。命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号（たとえば、１つまたは複数の出力オーディオ信号１３８）を生成することをも行わせる。

[0129]本開示の特定の態様が、相互に関係する条項の第１のセットにおいて以下で説明される。

[0130]条項１によれば、デバイスが１つまたは複数のプロセッサを含み、１つまたは複数のプロセッサは、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することとを行うように構成される。

[0131]条項２は、心理音響的強調バージョンが、オーディオズーム動作に関連するズーム配向およびズーム距離における１つまたは複数のオーディオソースの周波数応答を近似する、条項１に記載のデバイスを含む。

[0132]条項３は、１つまたは複数のプロセッサが、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、ズームターゲットに基づいて１つまたは複数の等化器設定を決定することとを行うようにさらに構成された、条項１または条項２に記載のデバイスを含む。

[0133]条項４は、ズームターゲットが、ズームロケーション、ズーム距離、ズーム配向、１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、条項３に記載のデバイスを含む。

[0134]条項５は、１つまたは複数のオーディオソースのうちの特定のオーディオソースの指向性データが、特定のオーディオソースの配向および距離周波数応答特性を示す、条項１から条項４のいずれかに記載のデバイスを含む。

[0135]条項６は、１つまたは複数のプロセッサが、１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、１つまたは複数の出力オーディオ信号を生成するために、１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項１から条項５のいずれかに記載のデバイスを含む。

[0136]条項７は、１つまたは複数のプロセッサが、１つまたは複数の音声オーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、１つまたは複数の出力オーディオ信号を生成するために、１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項１から条項６のいずれかに記載のデバイスを含む。

[0137]条項８は、１つまたは複数のプロセッサが、利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、１つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に１つまたは複数の利得を適用することと、１つまたは複数の出力オーディオ信号を生成するために、利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項１から条項７のいずれかに記載のデバイスを含む。

[0138]条項９は、１つまたは複数のプロセッサが、雑音抑圧されたオーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、１つまたは複数の出力オーディオ信号を生成するために、雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項１から条項８のいずれかに記載のデバイスを含む。

[0139]条項１０は、１つまたは複数のプロセッサは、１つまたは複数のオーディオソースのコンテキストデータを生成するために、１つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、１つまたは複数のオーディオソースのうちの特定のオーディオソースのコンテキストデータが、特定のオーディオソースの配向、特定のオーディオソースの距離、特定のオーディオソースのタイプ、またはそれらの組合せを示す、特定のオーディオソースのタイプに基づいて特定のオーディオソースの指向性データを取得することとを行うようにさらに構成された、条項１から条項９のいずれかに記載のデバイスを含む。

[0140]条項１１は、１つまたは複数のプロセッサが、１つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいてコンテキストデータを生成するようにさらに構成された、条項１０に記載のデバイスを含む。

[0141]条項１２は、１つまたは複数のプロセッサが、メモリから画像データと１つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、条項１１に記載のデバイスを含む。

[0142]条項１３は、１つまたは複数のプロセッサに結合され、１つまたは複数の入力オーディオ信号を生成するように構成された、１つまたは複数のマイクロフォンをさらに含む、条項１１または条項１２に記載のデバイスを含む。

[0143]条項１４は、１つまたは複数のプロセッサに結合され、画像データを生成するように構成された、カメラをさらに含む、条項１１から条項１３のいずれかに記載のデバイスを含む。

[0144]条項１５は、１つまたは複数のプロセッサが、１つまたは複数のオーディオソースのうちの特定のオーディオソースのタイプを識別するために、１つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、条項１１から条項１４のいずれかに記載のデバイスを含む。

[0145]条項１６は、１つまたは複数のプロセッサが、１つまたは複数のオーディオソースのうちの特定のオーディオソースを決定するために、１つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、特定のオーディオソースの配向を決定するために、画像データに対して画像分析を実施することとを行うようにさらに構成された、条項１１から条項１５のいずれかに記載のデバイスを含む。

[0146]条項１７は、１つまたは複数のプロセッサが、１つまたは複数のオーディオソースのうちの特定のオーディオソースを決定するために、１つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、特定のオーディオソースの距離を決定するために、１つまたは複数の入力オーディオ信号、画像データ、またはその両方に対して、距離分析を実施することとを行うようにさらに構成された、条項１１から条項１６のいずれかに記載のデバイスを含む。

[0147]条項１８は、１つまたは複数のプロセッサが、１つまたは複数の等化器設定を、コンテキストデータ、指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、１つまたは複数の等化器設定を選択するようにさらに構成された、条項１０から条項１７のいずれかに記載のデバイスを含む。

[0148]条項１９は、１つまたは複数のプロセッサが、メモリ、別のデバイス、またはその両方から、等化器設定データを取得するようにさらに構成された、条項１８に記載のデバイスを含む。

[0149]条項２０は、１つまたは複数のプロセッサが、中間周波数に対応する周波数応答を低減するために、１つまたは複数の等化器設定を選択するようにさらに構成された、条項１０から条項１９のいずれかに記載のデバイスを含む。

[0150]条項２１は、１つまたは複数のプロセッサは、第１の時間において、１つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第１の入力オーディオ信号の第１の音スペクトルを生成することと、第２の時間において、特定のオーディオソースに対応する第２の入力オーディオ信号の第２の音スペクトルを生成することと、第１の時間における第１の距離および第１の配向と、第２の時間における第２の距離および第２の配向との間の差が、第１の音スペクトルと第２の音スペクトルとの間の差に対応することを示すように、指向性データを更新することとを行うようにさらに構成された、条項１から条項２０のいずれかに記載のデバイスを含む。

[0151]条項２２は、１つまたは複数のプロセッサが、メモリ、別のデバイス、またはその両方から、指向性データを取得するようにさらに構成された、条項１から条項２１のいずれかに記載のデバイスを含む。

[0152]条項２３は、１つまたは複数のプロセッサは、１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、１つまたは複数の音声オーディオ信号を生成するために、１つまたは複数の入力オーディオ信号中の音声を検出することと、１つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、１つまたは複数のビームフォーミングされたオーディオ信号、１つまたは複数の音声オーディオ信号、またはそれらの組合せに、１つまたは複数の利得を適用することと、１つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、１つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、１つまたは複数のオーディオソースのうちの特定のオーディオソースのコンテキストデータが、特定のオーディオソースの配向、特定のオーディオソースの距離、特定のオーディオソースのタイプ、またはそれらの組合せを示す、特定のオーディオソースのタイプに基づいて特定のオーディオソースの指向性データを取得することと、コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、１つまたは複数の等化器設定を決定することと、１つまたは複数の雑音抑圧されたオーディオ信号を生成するために、１つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、１つまたは複数の等化器設定に基づいて１つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、１つまたは複数の出力オーディオ信号を生成することとを行うようにさらに構成された、条項１から条項５、条項２１、または条項２２のいずれかに記載のデバイスを含む。

[0153]本開示の特定の態様が、相互に関係する条項の第２のセットにおいて以下で説明される。

[0154]条項２４によれば、方法が、デバイスにおいて、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、デバイスにおいて、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することとを含む。

[0155]条項２５は、デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、デバイスにおいて、ズームターゲットに基づいて１つまたは複数の等化器設定を決定することと、ここにおいて、ズームターゲットが、ズームロケーション、ズーム距離、ズーム配向、１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、をさらに含む、条項２４に記載の方法を含む。

[0156]本開示の特定の態様が、相互に関係する条項の第３のセットにおいて以下で説明される。

[0157]条項２６によれば、非一時的コンピュータ可読媒体が命令を記憶し、命令は、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することとを行わせる。

[0158]条項２７は、命令が、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、１つまたは複数の出力オーディオ信号を生成するために、１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することとをさらに行わせる、条項２６に記載の非一時的コンピュータ可読媒体を含む。

[0159]条項２８は、命令が、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、１つまたは複数の音声オーディオ信号を生成するために、１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、１つまたは複数の出力オーディオ信号を生成するために、１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することとをさらに行わせる、条項２６または条項２７に記載の非一時的コンピュータ可読媒体を含む。

[0160]本開示の特定の態様が、相互に関係する条項の第４のセットにおいて以下で説明される。

[0161]条項２９によれば、装置が、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得するための手段と、指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するための手段と、等化器設定に基づいて、１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するための手段とを含む。

[0162]条項３０は、取得するための手段、決定するための手段、および生成するための手段が、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット（ＩｏＴ）デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも１つに統合される、条項２９に記載の装置を含む。

[0163]本明細書で開示される実装形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者はさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、概してそれらの機能に関して上記で説明された。そのような機能がハードウェアとして実装されるのか、プロセッサ実行可能命令として実装されるのかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明された機能を特定の適用例ごとに様々な方法で実装し得、そのような実装の判断は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

[0164]本明細書で開示された実装形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその２つの組合せで実施され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込み得るように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）中に存在し得る。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。

[0165]開示された態様の上記の説明は、当業者が開示された態様を製作または使用することを可能にするために提供されている。これらの態様への様々な修正が当業者には容易に明らかになり、本明細書で定義された原理が、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。

[0165]開示された態様の上記の説明は、当業者が開示された態様を製作または使用することを可能にするために提供されている。これらの態様への様々な修正が当業者には容易に明らかになり、本明細書で定義された原理が、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリと、
１つまたは複数のプロセッサと、
を備えるデバイスであって、前記１つまたは複数のプロセッサは、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。
［Ｃ２］
前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記１つまたは複数のオーディオソースの周波数応答を近似する、Ｃ１に記載のデバイス。
［Ｃ３］
前記１つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記１つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ４］
前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、Ｃ３に記載のデバイス。
［Ｃ５］
前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、Ｃ１に記載のデバイス。
［Ｃ６］
前記１つまたは複数のプロセッサは、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ７］
前記１つまたは複数のプロセッサは、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ８］
前記１つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記１つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に１つまたは複数の利得を適用することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ９］
前記１つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ１０］
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのコンテキストデータを生成するために、前記１つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ１１］
前記１つまたは複数のプロセッサは、前記１つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、Ｃ１０に記載のデバイス。
［Ｃ１２］
前記１つまたは複数のプロセッサは、メモリから前記画像データと前記１つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、Ｃ１１に記載のデバイス。
［Ｃ１３］
前記１つまたは複数のプロセッサに結合され、前記１つまたは複数の入力オーディオ信号を生成するように構成された、１つまたは複数のマイクロフォンをさらに備える、Ｃ１１に記載のデバイス。
［Ｃ１４］
前記１つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、Ｃ１１に記載のデバイス。
［Ｃ１５］
前記１つまたは複数のプロセッサは、前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、Ｃ１１に記載のデバイス。
［Ｃ１６］
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、Ｃ１１に記載のデバイス。
［Ｃ１７］
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、Ｃ１１に記載のデバイス。
［Ｃ１８］
前記１つまたは複数のプロセッサは、前記１つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記１つまたは複数の等化器設定を選択するようにさらに構成された、Ｃ１０に記載のデバイス。
［Ｃ１９］
前記１つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、Ｃ１８に記載のデバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記１つまたは複数の等化器設定を選択するようにさらに構成された、Ｃ１０に記載のデバイス。
［Ｃ２１］
前記１つまたは複数のプロセッサは、
第１の時間において、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第１の入力オーディオ信号の第１の音スペクトルを生成することと、
第２の時間において、前記特定のオーディオソースに対応する第２の入力オーディオ信号の第２の音スペクトルを生成することと、
前記第１の時間における第１の距離および第１の配向と、前記第２の時間における第２の距離および第２の配向との間の差が、前記第１の音スペクトルと前記第２の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ２２］
前記１つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ２３］
前記１つまたは複数のプロセッサは、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号中の音声を検出することと、
１つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記１つまたは複数のビームフォーミングされたオーディオ信号、前記１つまたは複数の音声オーディオ信号、またはそれらの組合せに、１つまたは複数の利得を適用することと、
前記１つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記１つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
前記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記１つまたは複数の等化器設定を決定することと、
１つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記１つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記１つまたは複数の等化器設定に基づいて前記１つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記１つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、Ｃ１に記載のデバイス。
［Ｃ２４］
デバイスにおいて、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を備える方法。
［Ｃ２５］
前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記１つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、
をさらに備える、Ｃ２４に記載の方法。
［Ｃ２６］
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。
［Ｃ２７］
前記命令は、前記１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、Ｃ２６に記載の非一時的コンピュータ可読媒体。
［Ｃ２８］
前記命令は、前記１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、Ｃ２６に記載の非一時的コンピュータ可読媒体。
［Ｃ２９］
１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。
［Ｃ３０］
取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット（ＩｏＴ）デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも１つに統合される、Ｃ２９に記載の装置。

Claims

１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリと、
１つまたは複数のプロセッサと、
を備えるデバイスであって、前記１つまたは複数のプロセッサは、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。
前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記１つまたは複数のオーディオソースの周波数応答を近似する、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記１つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、請求項３に記載のデバイス。
前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記１つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に１つまたは複数の利得を適用することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのコンテキストデータを生成するために、前記１つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記１つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、メモリから前記画像データと前記１つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサに結合され、前記１つまたは複数の入力オーディオ信号を生成するように構成された、１つまたは複数のマイクロフォンをさらに備える、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記１つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記１つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、請求項１１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記１つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記１つまたは複数の等化器設定を選択するようにさらに構成された、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、請求項１８に記載のデバイス。
前記１つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記１つまたは複数の等化器設定を選択するようにさらに構成された、請求項１０に記載のデバイス。
前記１つまたは複数のプロセッサは、
第１の時間において、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第１の入力オーディオ信号の第１の音スペクトルを生成することと、
第２の時間において、前記特定のオーディオソースに対応する第２の入力オーディオ信号の第２の音スペクトルを生成することと、
前記第１の時間における第１の距離および第１の配向と、前記第２の時間における第２の距離および第２の配向との間の差が、前記第１の音スペクトルと前記第２の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号中の音声を検出することと、
１つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記１つまたは複数のビームフォーミングされたオーディオ信号、前記１つまたは複数の音声オーディオ信号、またはそれらの組合せに、１つまたは複数の利得を適用することと、
前記１つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記１つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記１つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
前記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記１つまたは複数の等化器設定を決定することと、
１つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記１つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記１つまたは複数の等化器設定に基づいて前記１つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記１つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、請求項１に記載のデバイス。
デバイスにおいて、１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を備える方法。
前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記１つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記１つまたは複数のオーディオソースのうちの少なくとも１つの選択、またはそれらの組合せを含む、
をさらに備える、請求項２４に記載の方法。
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項２６に記載の非一時的コンピュータ可読媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されたとき、前記１つまたは複数のプロセッサに、
１つまたは複数の音声オーディオ信号を生成するために、前記１つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記１つまたは複数の出力オーディオ信号を生成するために、前記１つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項２６に記載の非一時的コンピュータ可読媒体。
１つまたは複数の入力オーディオ信号に対応する１つまたは複数のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて１つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記１つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する１つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。
取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット（ＩｏＴ）デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも１つに統合される、請求項２９に記載の装置。