JP7195344B2

JP7195344B2 - パーベイシブ・リステニングのための強制ギャップ挿入

Info

Publication number: JP7195344B2
Application number: JP2020570055A
Authority: JP
Inventors: クリストファーグラハムハインズ; グレンエヌ．ディキンズ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-07-27
Filing date: 2019-07-26
Publication date: 2022-12-23
Anticipated expiration: 2039-07-26
Also published as: US11195539B2; JP2021531675A; US20210304782A1; CN112437957A; EP3830823B1; EP3830823A1; WO2020023856A1

Description

関連出願の相互参照
本出願は２０１８年７月２７日に出願された米国特許出願第６２／７１１，０１２号からの優先権の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本発明は、オーディオ信号再生環境においてパーベイシブ・リスニング（例えば、バックグラウンドノイズの推定）を実行し、任意選択的に、パーベイシブ・リステニングの結果（例えば、ノイズ推定）を使用して、再生のためのオーディオ信号を生成または処理する（例えば、ノイズ補償を実行する）、システムおよび方法に関する。ある実施形態では、パーベイシブ・リスニングは、再生信号に（例えば、再生信号の選択された周波数帯域において）少なくとも１つのギャップを挿入し、それによって修正された再生信号を生成し、修正された再生信号の再生中にパーベイシブ・リスニングを実行することを含む。

ここで、「パーベイシブ・リスニング」方法（例えば、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーションによって実施される）とは、再生環境において（オーディオ再生信号に応じて）任意のスピーカから放出される再生サウンド以外の、再生環境におけるサウンドのモニタリングを含む方法を意味し、任意選択的に、モニタリングの少なくとも１つの結果に応じて（例えば、オーディオコンテンツの再生を何らかの点で改善する目的で）オーディオ再生信号を生成または修正することを意味する。モニタリングされるサウンドは、本明細書では「非再生サウンド」と呼ばれることがある。非再生サウンドは、再生環境において少なくとも１つのマイクロホンによって捕捉される。１人以上の人間のユーザが再生環境に存在してもよく（しかし、必ずしも存在する必要はない）、パーベイシブ・リスニングはそのようなユーザの再生体験を改善するために実施されてもよい。「パーベイシブ・リスナ」という表現は、本明細書では、パーベイシブ・リスニング方法を実行するように構成されたシステムまたはデバイス（たとえば、適切にプログラムされたプロセッサ）を示すために使用されることがある。

典型的なパーベイシブ・リスニング方法は、再生環境における短寿命のイベント（例えば、短い単語の発話）を検出または特徴付けるために非再生サウンドをモニターしない。ここで、この文脈における「短寿命の」イベントは、約０．５秒未満の持続時間を有するイベントを示す。しかしながら、場合によっては、パーベイシブ・リスナによる非再生サウンドのモニタリングは０．５秒未満（例えば、２００ミリ秒以下）の持続時間を有する再生環境内の短寿命イベントを検出または特徴付けるように意図された方法で実施されてもよい。パーベイシブ・リスナによってモニターされる非再生サウンドの例は、バックグラウンドノイズ、または再生環境内の少なくとも１人の人間のユーザによるスピーチ（または人間のユーザの活動または存在を示す他のサウンド）を、人間のユーザの単一の短い発話よりも長い時間スケールにわたって含む（ただし、これらに限定されない）。例えば、非再生サウンドは、人間のユーザによって操作される掃除機によって放出されるサウンド、または長時間のボイスコマンドの発話であってもよい。

パーベイシブ・リスニングには、非再生サウンドの統計的推論または何らかの態様の推定を作成するために、非再生サウンドの観測（経時的に、例えば、異なる周波数帯域における異なるギャップの時間間隔の間に行われる各観測による）の蓄積が含まれてもよい。パーベイシブ・リスナのいくつかの実装形態は、ギャップが存在する周波数帯域内のギャップの時間間隔中に生じるという意味で、強制ギャップ「内」で発生する非再生サウンドをモニターするために、（本発明の実施形態に従って再生信号内に挿入された）強制ギャップを使用することができる。例えば、パーベイシブ・リスナのいくつかの実装形態は（本発明の実施形態に従って再生信号に挿入された）強制ギャップを使用して、３つの（または他の少数の）強制ギャップ（それぞれが異なる周波数帯域にある）の各々におけるエネルギーの突然の、同時の（すなわち、単一の、短い時間間隔内の）オンセットから、短寿命の発生または非再生サウンドのイベントの発生を推論することができ、ここで、ギャップの各々において検出されたエネルギーは、（パーベイシブ・リスナがいくつかの異なる周波数帯域の各々における観測の蓄積の結果として決定した統計を考慮して）予想外であり、実質的に起こりそうにないエネルギー量である。

（本発明の実施形態に従って挿入された）強制ギャップを使用するパーベイシブ・リスナの例において、ギャップの挿入に４０の異なる周波数帯が利用可能であり、少なくとも１つの強制ギャップが４つの連続する帯域毎に挿入されて、パーベイシブ・リスナがギャップの各々における非再生サウンドを検出することによって非再生サウンドのフルスペクトルを推定することを可能にする。典型的な実施態様では、これは１０～２０個の強制ギャップのシーケンスの挿入を必要とすることがあり、強制ギャップの各々は約２０～１００ｍｓの持続時間を有する。従って、（強制ギャップの注記されたシーケンスにおける非再生サウンドのモニタリングによって）推定値を得るために、少なくとも約２００ミリ秒（２００ｍｓ）～２秒を必要とすることがある。いくつかの想定される実施形態では、パーベイシブ・リスナは、強制ギャップのシーケンスでの非再生サウンドのモニタリングによって非再生サウンドの推定値（全周波数範囲）を決定するために、約０．５秒から１秒の範囲の時間を必要とする。

他の例では、狭い周波数帯域の非再生サウンドがパーベイシブ・リスナによって検出される場合、パーベイシブ・リスナがそれを検出するのに約４秒程度かかることがある（例えば、非再生サウンドのオンセット直前にギャップがその帯域に強制されていた場合）。典型的な実施態様（４０の帯域が強制ギャップの挿入に利用可能であり、ギャップの各々が約１００ｍｓの持続時間を有する）では、帯域のいずれにおいても非再生サウンドを検出するために、約２秒程（平均）が必要とされることがある。

再生信号が少なくとも１つの帯域において静か（クワイエット：ｑｕｉｅｔ）である場合（本発明の実施形態による、そのような帯域における強制ギャップの挿入がない場合であっても）、パーベイシブ・リスナにとって、強制ギャップ挿入がない場合であっても、非再生サウンドの非常に短い寿命の発生またはイベント（例えば、本明細書で言及される例のいずれよりもはるかに短い持続時間を有するイベント）を検出することが可能であり得る。

家庭および職場に入る常聴型スマートスピーカデバイスの数が急速に増加することにつれて、デバイスがより良い体験を提供し、ユーザにとってより役立つことができるように、デバイスの環境についてより多くを知る必要性が高まっている。ノイズ補償（パーベイシブ・リスニング方法の一例）は、そのような機能の１つである。これは、環境ノイズ条件にかかわらず、ミュージックおよびボイスアシスタントスピーチがリスナによって常に聞こえることを保証する。また、スマートボイスアシスタントは、様々な不利な音響環境において、新しいユーザ要求を聞かなければならない。

再生環境における環境条件および活動を推定するタスクは、デバイスがミュージックおよび他のオーディオコンテンツを再生している間に、デバイスが自分自身（「エコー」問題）ならびにバックグラウンド活動が聞こえるので、著しく困難である。この問題に対する標準的に提案された解決法である音響エコー・キャンセレーションは、バックグラウンドシーンを表す残留信号を残してエコーが除去できるように、デバイスマイクロホンで受信されるエコーの方法をモデル化する処理である。エコー・キャンセレーションは、計算上高度なタスクであり、デバイス内に存在する再生チャネルおよびマイクロホンの数と共に複雑さが増すので、利用可能なエコー・キャンセレーションが弱いまたは存在しないマイクロホンを要求するために、より低コストのデバイスおよびマルチチャネルスピーカ構成を有するデバイスを期待することは、不合理ではない。また、より安価で低コストのデバイスは、より携帯性が高く、家庭または職場のより多様な場所に配置することができるので、着用され、ユーザに近づく可能性が高い。

携帯用電子機器のユビキタスは、人々が多くの様々な環境において、日々オーディオ（音）に関与していることを意味する。例えば、ミュージックを聴くこと、娯楽コンテンツを見ること、可聴通知および指示を聴くこと、およびボイス通話に参加することである。これらの活動が行われるリスニング環境は、多くの場合、本質的にノイズが多く、常に変化するバックグラウンドノイズ条件を伴う可能性があり、これは、リスニング体験の楽しみおよび明瞭さを損なう。ノイズ状態の変化に応じて再生レベルを手動で調整するループにユーザを置くことは、ユーザをリスニングタスクから注意をそらし、オーディオリスニングタスクに携わるのに必要な認知負荷を高める。

ノイズ補償メディア再生（ＮＣＭＰ：Ｎｏｉｓｅｃｏｍｐｅｎｓａｔｅｄｍｅｄｉａｐｌａｙｂａｃｋ）は、再生されているメディアの音量を、メディアが再生されているノイズ条件に適したものに調整することによって、この問題を軽減する。ＮＣＭＰの概念は周知であり、多くの刊行物は、それを効果的に実施する方法の問題を解決したと主張している。

アクティブ・ノイズ・キャンセレーション（ＡｃｔｉｖｅＮｏｉｓｅＣａｎｃｅｌｌａｔｉｏｎ）と呼ばれる関連するフィールドは、音響波の再生成を通じて干渉ノイズを物理的にキャンセルしようとするのに対し、ＮＣＭＰは、バックグラウンドノイズが存在する再生環境で調整されたオーディオが聞こえ、鮮明になるように再生オーディオのレベルを調整する。

ＮＣＭＰの任意の実際の実装における主な課題は、特に、バックグラウンドノイズおよびメディアコンテンツが高度に音響的に結合されているスピーカ上でメディアコンテンツが再生されている状況において、リスナが経験する現行バックグラウンドノイズレベルを自動的に決定することである。マイクロホンが関係する解決策は、観測されているメディアコンテンツおよびノイズの状態（マイクロホンによって検出される）の問題に一緒に直面している。

ＮＣＭＰを実施する典型的なオーディオ再生システムを図１に示す。このシステムは、オーディオコンテンツ（本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある）を示すオーディオ信号を出力し、ノイズ補償サブシステム２に供給するコンテンツソース１を含む。オーディオ信号は、オーディオコンテンツを示す（環境内の）サウンドを生成するために再生されるように意図されている。オーディオ信号は、スピーカフィードであってもよく（およびノイズ補償サブシステム２がスピーカフィードの再生ゲインを調整することによって、それにノイズ補償を適用するように結合および構成されてもよい）、またはシステムの別の要素は、オーディオ信号に応じてスピーカフィードを生成してもよい（例えば、ノイズ補償サブシステム２はオーディオ信号に応じてスピーカフィードを生成し、スピーカフィードの再生ゲインを調整することによって、スピーカフィードにノイズ補償を適用するように結合および構成されてもよい）。

図１のシステムは、また、ノイズ推定システム５と、オーディオ信号（またはサブシステム２で生成されたオーディオ信号のノイズ補償バージョン）に応じる、少なくとも１つのスピーカ３（メディアコンテンツを示すサウンドを放出するように結合され構成されている）と、図示のように結合された、マイクロホン４とを含む。動作中、マイクロホン４およびスピーカ３は、再生環境（例えば、部屋）内にあり、マイクロホン４は、環境内のバックグラウンド（周囲）ノイズおよびメディアコンテンツのエコーの両方を示すマイクロホン出力信号を生成する。ノイズ推定サブシステム５（本明細書では、ノイズ推定器と呼ばれることがある）は、マイクロホン４に結合され、マイクロホン出力信号を使用して環境内の現行バックグラウンドノイズレベルの推定値（図１の「ノイズ推定値」）を生成するように構成される。ノイズ補償サブシステム２（本明細書ではノイズ補償器と呼ばれることもある）は、サブシステム５によって生成されたノイズ推定値に応じて、オーディオ信号を調整する（例えば、オーディオ信号の再生ゲインを調整する）（またはオーディオ信号に応じて生成されたスピーカフィードを調整する）ことによってノイズ補償を適用するように結合されおよび構成され、それによって、（図１に示されるように）補償されたメディアコンテンツを示すノイズ補償オーディオ信号を生成する。典型的には、サブシステム２は、（ノイズ推定サブシステム５によって推定されるように）バックグラウンドノイズが存在する再生環境において、調節されたオーディオ信号に応じて放出されるサウンドが可聴で明瞭になるように、オーディオ信号の再生ゲインを調節する。

以下に説明するように、ノイズ補償を実施するオーディオ再生システムで使用するためのバックグラウンドノイズ推定器（例えば、図１のノイズ推定器５）を、本発明の実施形態のクラスに従って（強制ギャップ挿入とともに）使用することができる。

数多くの出版物がノイズ補償メディア再生（ＮＣＭＰ）の問題を取り扱っており、バックグラウンドノイズを補償するオーディオシステムは多くの成功度まで作動することができる。

マイクロホンなしでＮＣＭＰを実行し、代わりに他のセンサ（例えば自動車の場合は速度計）を使用することが提案されている。しかしながら、このような方法は、リスナが体験する干渉ノイズのレベルを実際に測定するマイクロホンベースの解決策ほど有効ではない。また、再生コンテンツを示すサウンドから切り離された音響空間に配置されたマイクロホンに依存してＮＣＭＰを実行することも提案されているが、このような方法は多くの用途に対して著しく制限的である。

前段落で言及したＮＣＭＰ方法は、マイクロホンによって捕捉された再生信号がノイズ推定器にとってノイズ信号と混合されるときに生じる「エコー問題」のために、再生コンテンツも捕捉するマイクロホンを使用してノイズレベルを正確に測定することを試みない。その代わりに、これらの方法は、不安定なフィードバックループが形成されないように補償を適用することによって問題を無視しようとするか、あるいは、リスナが体験するノイズレベルをいくぶん予測する何か他のものを測定することによって問題を無視しようとするかのいずれかである。

また、再生コンテンツとマイクロホン出力信号との相関をとろうとし、マイクロホン出力からマイクロホンによって捕捉された再生コンテンツ（「エコー」と呼ばれる）の推定値を差し引くことによって、マイクロホン出力信号からバックグラウンドノイズを推定する問題（バックグラウンドノイズと再生コンテンツの両方を示す）に対処することが提案されている。スピーカから発せられる再生コンテンツＸおよびバックグラウンドノイズＮを示す、マイクロホン捕捉サウンドとして生成されるマイクロホン出力信号のコンテンツは、ＷＸ＋Ｎとして表すことができ、ここで、Ｗは、再生コンテンツを示すサウンドを発するスピーカ、マイクロホン、およびサウンドがスピーカからマイクロホンに伝播する環境（例えば、部屋）によって決定される伝達関数である。例えば、ノイズＮを推定するための学術的に提案された方法（図２を参照して説明される）において、マイクロホン出力信号から減算するための、エコー（マイクロホンによって捕捉された再生コンテンツ）ＷＸの推定値Ｗ’Ｘを容易にするために、線形フィルタＷ’が適応される。たとえ非線形性がシステムに存在しても、フィルタＷ’の非線形実装は計算コストのためにほとんど実装されない。

図２は、スピーカが再生コンテンツを示すサウンドを放出する環境においてバックグラウンドノイズを推定するための上述の従来の方法（エコー・キャンセレーションと呼ばれることもある）を実施するためのシステムの図である。環境Ｅ内のスピーカシステムＳ（例えば、単一スピーカ）に再生信号Ｘが提示される。マイクロホンＭは同じ環境Ｅ内に配置され、バックグラウンドノイズＮと、一般的には環境Ｅ内にも少なくとも一つの人間ユーザ（リスナ）Ｌが存在する。再生信号Ｘに応じて、スピーカシステムＳは、マイクロホンＭに到着する（環境Ｅ内の環境ノイズＮを含む）サウンドを放出する。マイクロホン出力信号は、Ｙ＝ＷＸ＋Ｎであり、ここで、Ｗは、スピーカシステムＳ、再生環境Ｅ、およびマイクロホンＭの組み合わせ応答である伝達関数を示す。図２のシステムによって実装される一般的な方法は、様々な適応フィルタ方法のいずれかを用いて、ＹおよびＸから伝達関数Ｗを適応的に推測することである。図２に示すように、線形フィルタＷ’は伝達関数Ｗ’の近似であると適応的に決定される。マイクロホン信号Ｍが示す再生信号コンテンツ（「エコー」）はＷ’Ｘと推定され、ＹからＷ’Ｘを引くことによりノイズＮの推定値、Ｙ’＝ＷＸ－Ｗ’Ｘ＋Ｎが得られる。Ｙ’に比例してＸのレベルを調整することにより、推定に正のバイアスが存在する場合にはフィードバックループが生じる。Ｙ’の増加はＸのレベルを増加させ、これは、Ｎの推定値（Ｙ’）に上方バイアスを導入し、これは、Ｘのレベルを増加させる、等である。この形式の解決は、ＹからＷ’Ｘを減算してマイクロホン信号Ｍからかなりの量のエコーＷＸを除去する、適応フィルタＷ’の能力に大きく依存するのであろう。

図２のシステムを安定に保つためには、通常、信号Ｙ’のフィルタリングをさらに行う必要がある。現場におけるほとんどのノイズ補償の実施形態は不安定な性能を示すので、ほとんどの解決策は典型的には下向きにノイズ推定値をバイアスし、システムを安定に保つために、積極的な時間平滑化を導入する可能性が高い。これは、低減され、および非常にゆっくりと作用する補償という犠牲を払うことになる。

環境ノイズ条件を補償するためのノイズ補償（例えば、スピーカ再生コンテンツの自動平準化）はよく知られており、所望の特徴であるが、まだ納得できる実装がなされていない。環境ノイズ条件を測定するためにマイクロホンを使用することは、また、スピーカの再生コンテンツを測定し、ノイズ補償を実施するために必要なノイズ推定（例えば、オンラインノイズ推定）のための主要な課題を提示する。本発明のいくつかの実施形態は、改良された方法（再生信号への強制ギャップの挿入を含む）で、ノイズ補償を実行するために有用なノイズ推定値（例えば、ノイズ補償されたメディア再生の多くの実施形態を実装するために）を生成するノイズ推定方法およびシステムである。

エコー・キャンセレーションは計算的に高価なタスクであり、デバイス内に存在する再生チャネルおよびマイクロホンの数と共に複雑さが増すので、弱いかまたは存在しない利用可能なエコー・キャンセレーションだけでノイズ補償能力を要求するために、より低コストのデバイスおよびマルチチャネルスピーカ構成を有するデバイスを期待することは、不合理ではない。より安価で低コストのデバイスは、また、携帯性が高く、家庭または職場のより多様な場所に配置することができるので、着用される可能性が高く、ユーザに近い可能性が高い。このカテゴリのデバイスは、ユーザが近接の利便性を通して聞くものに対して最適化することができるので、ノイズ補償の使用のための最良の候補である。

サンプリングギャップ、すなわちオーディオ信号の時間（または時間間隔）における周波数帯域内の「ギャップ」（以下で定義される）は、時間および周波数スライス内のオーディオ信号のオーディオコンテンツの再生および捕捉の後に、再生環境内のバックグラウンドノイズを示すことができる時間および周波数スライスである。（再生環境内の）デバイスがサイレントであり、オーディオコンテンツを再生していない場合、再生環境内で捕捉されたサウンドのすべての時間スライスおよび周波数スライスは、再生環境内のバックグラウンドノイズを示すことができる。オーディオコンテンツ（例えば、ミュージックコンテンツ）がデバイスによって再生されるとき、環境内の各マイクロホンの出力は、ノイズによって破損される。

上記で参照した米国仮特許出願第６２／６６３，３０２号は、エコー・キャンセレーションの実行の有無にかかわらず、ノイズ推定に関連してサンプリングギャップを検出し、利用するための方法およびシステムを記載している。このようなシステムがエコー・キャンセレーションの性能でノイズ推定を行う場合、残留キャンセレーション信号（例えば、後述する図２の信号Ｙまたは図１２のＭ’ｒｅｓ）は典型的には多くのギャップを有し、一般的には、システムの性能はコンテンツに依存しない。このようなシステムがエコー・キャンセレーションなしでノイズ推定を行うと、コンテンツ内のギャップの種類と周波数がノイズ推定の品質に影響するため、ノイズ推定の品質（従って、推定したノイズを用いてノイズ補償を受けるコンテンツの再生中のユーザ体験の品質）はコンテンツ依存となる。どちらの場合も（エコー・キャンセレーションの有無にかかわらず）、米国特許出願第６２／６６３，３０２号に記載されている方法およびシステムは、利用可能なギャップ（再生コンテンツ内、または再生コンテンツおよび残留キャンセレーション信号内）を利用して、バックグラウンドノイズレベルを推定することができる。発明者は、ノイズ推定に関連して再生コンテンツに「強制」ギャップが現れるという新しいステップ（例えば、米国特許出願第６２／６６３，３０２号に記載されているタイプのもの）、またはその他のパーベイシブ・リスニング方法は、ノイズ推定（特に、ノイズ推定が、エコー・キャンセレーションなしで、または弱いエコー・キャンセレーション有りで実施される場合）、またはその他のパーベイシブ・リスニング方法のパフォーマンスを向上させることができることを認識した。

あるクラスの実施形態では、本発明は、
オーディオ再生信号の少なくとも１つの選択された周波数帯域内に少なくとも１つのギャップを挿入して（例えば、各ギャップは、オーディオ再生信号の選択された時間間隔において、選択された周波数帯域に挿入される）、修正された再生信号を生成することと、
修正された再生信号に応じて再生環境におけるサウンドの放出中に、再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、サウンドは修正された再生信号の再生コンテンツを示し、マイクロホン出力信号は、再生環境における非再生サウンドおよび再生コンテンツを示す、使用して生成することと、
修正された再生信号およびマイクロホン出力信号に応じて、再生環境における非再生サウンドをモニターする（通常、少なくとも１つの態様の推定値を生成することによることを含む）ことと、を含む、パーベイシブ・リスニング方法、である。

好ましくは、ギャップの各々は、（オーディオ再生信号の選択された時間間隔で）選択された周波数帯域内に挿入されて、ギャップの挿入に起因する、（修正された再生信号に応じて再生環境内で放出されるサウンド内の）任意のアーチファクトが再生環境内のユーザに対して低い知覚性を有し、モニタリングの実行中に高い識別性を有する（例えば、傾向がある）。

好ましくは、ギャップの各々は、ギャップ挿入に起因するあらゆる知覚されるアーチファクトがアプリケーションにとって合理的（過度に好ましくないものではない）であるという意味で、修正された再生信号に応じて再生環境において放出されるサウンドがギャップの挿入に起因する著しいアーチファクトなしにユーザによって知覚可能であるように（選択された時間間隔における選択された周波数帯域において）挿入される。例えば、典型的な実施形態では、ギャップ挿入に起因するいかなるアーチファクトも、オーディオのＭＰ３符号化によってオーディオに導入されるいかなるアーチファクトよりも、人間のユーザに知覚されにくい。

典型的な実施形態では、パーベイシブ・リスニング方法はノイズ推定方法であり、マイクロホン出力信号は再生環境におけるバックグラウンドノイズを示し、モニタリングは、修正された再生信号およびマイクロホン出力信号に応じて、再生環境におけるバックグラウンドノイズ推定値を生成することを含む。

典型的には、モニタリングは、修正された再生信号およびマイクロホン出力信号に応じて、再生環境における非再生サウンドの少なくとも１つの態様の推定値を生成することを含み、本方法は、また、再生環境における非再生サウンドの少なくとも１つの態様の推定値に応じて（例えば、非再生サウンドのモニタリングも行う、パーベイシブ・リスニング・サブシステムにおいて）、オーディオ再生信号を生成することを含む（例えば、オーディオ再生信号のコンテンツの再生を改善するための努力の中で）。

いくつかの実施形態では、ギャップの各々は、（例えば、再生信号の少なくとも１つの特定の周波数帯域における）ギャップの緊急度または必要性に基づいて（例えば、それを示す緊急度値に応じて）再生信号内に挿入される。いくつかの実施形態では、ギャップの各々は、（例えば、挿入の緊急度を示す緊急度値に応じて）（例えば、再生信号の周波数帯域のセットの各帯域内の）ギャップの必要性に基づいて、および（例えば、再生信号の周波数帯域のセットの各帯域内に）再生信号のギャップ（例えば、特定の時間間隔で、少なくとも１つの特定の周波数帯域内）の挿入の（例えば、予期される知覚的効果を示す知覚的自由度値に応じて）予期される知覚的効果に基づいて、（例えば、ギャップの緊急度とギャップの挿入の予想される知覚的効果とのバランスを含む方法で）再生信号に挿入される。

いくつかの実施形態では、本方法は、
再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
確率分布に従って、セットの周波数帯域のうちの少なくとも１つをランダムに選択し、少なくとも１つの周波数帯域のそれぞれにギャップを挿入することと、を含む。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々におけるギャップの必要性（すなわち、挿入の緊急性）に基づく。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々において、ギャップの挿入の予想される知覚効果に基づく。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々において、ギャップの必要性と、ギャップの挿入の予想される知覚効果との両方に基づく。

典型的な実施形態では、パーベイシブ・リスニング（例えば、ノイズ推定またはノイズ補償）方法は、マイクロホン出力信号および修正された再生信号に応じて、緊急度値（すなわち、緊急度値を示す信号またはデータ）を生成すること、を含む。いくつかのそのような実施形態では、緊急度値は、再生信号の周波数帯域のセットの各帯域において、ギャップの必要性（すなわち、挿入の緊急度）を表し、各帯域におけるギャップの必要性は、前のギャップの発生からの経過時間に基づく。典型的には、再生信号への各ギャップの挿入は、少なくとも部分的に緊急度値に基づいている（例えば、緊急度値に応答して実行される）。

一部の（全てではないが）実施形態では、非再生サウンドのモニタリングは、マイクロホン出力信号および修正された再生信号に応じて、エコー・キャンセレーションの実行を含む。

いくつかの実施形態では、非再生サウンドの前記モニタリングは、バックグラウンドノイズ推定値の生成を含み、本方法は、さらに、バックグラウンド推定値に応じて（例えば、オーディオ再生信号のコンテンツの再生を改善するための努力で）（非再生サウンドのモニタリングを実行するパーベイシブ・リステニング・サブシステムにおいて）オーディオ再生信号を生成することを含み、オーディオ再生信号を生成することは、バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を実行することを含む。

本発明の態様は、本発明の方法またはそのステップの任意の実施形態を実行するように構成された（たとえば、プログラムされた）システムと、本発明の方法またはそのステップの任意の実施形態を実行するためのコード（たとえば、実行するように実行可能なコード）を記憶するデータの非一時的記憶を実施する有形の非一時的なコンピュータ可読メディア（たとえば、ディスクまたは他の有形記憶メディア）と、を含む。例えば、本発明のシステムの実施形態は、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであってもよく、それらを含んでもよく、ソフトウェアまたはファームウェアでプログラムされてもよく、および／または本発明の方法またはそのステップの実施形態を含む、データに対する様々な動作のいずれかを実行するように他の方法で構成されてもよい。そのような汎用プロセッサは、入力デバイスと、メモリと、本発明の方法（またはそのステップ）の実施形態を、それにアサートされたデータに応答して実行するようにプログラムされる（および／またはそうでなければ構成される）処理サブシステムとを含むコンピュータシステムであってもよく、またはそれを含んでもよい。

ノイズ補償メディア再生（ＮＣＭＰ）を実装したオーディオ再生システムのブロック図である。マイクロホン出力信号から、エコー・キャンセレーションとして知られる従来の方法に従った、ノイズ推定値を生成するための従来のシステムのブロック図である。マイク出力信号は、再生環境でサウンド（再生コンテンツを表す）およびノイズを捕捉することにより生成される。本発明の方法の実施形態を実行することによって強制ギャップが挿入された、修正されたオーディオ信号のスペクトログラムである。本発明のいくつかの実施形態に従った、帯域内の信号のオーディオコンテンツにおけるギャップを強制するためにオーディオ信号の周波数帯域に印加される、周波数の関数としての帯域ゲインのグラフである。ゲイン（およびギャップ）は中心周波数ｆ_０および帯域幅Ｂを有する。ギャップの深さは、本発明の一実施形態に従って、０ｄＢから－ＺｄＢの間の所望の値に（例えば、補間によって）設定されてもよい。帯域内の信号のオーディオコンテンツにギャップ（図４に示されているのと同じギャップ）を強制するためにオーディオ信号の周波数帯域に適用される、時間の関数としての帯域ゲインのプロファイルである。ギャップの３つの時間間隔ｔ１、ｔ２、およびｔ３が示されている。本発明のいくつかの実施形態に従った、ギャップが挿入されるオーディオ信号のバンディング構造（４９個の周波数帯域を含む）の一例を示すグラフである。オーディオ信号内にギャップ（強制ギャップ）を挿入するように構成された本発明のパーベイシブ・リスニング・システムの一実施形態のブロック図である。オーディオ信号内にギャップ（強制ギャップ）を挿入するように構成された本発明のパーベイティブ・リスニング・システムの別の実施形態のブロック図である。オーディオ信号内にギャップ（強制ギャップ）を挿入するように構成された本発明のパーベイティブ・リスニング・システムの別の実施形態のブロック図である。オーディオ信号にギャップ（強制ギャップ）を挿入するように構成された本発明のパーベイシブ・リスニング・システムの別の実施形態のブロック図である。マイクロホン出力信号の各周波数帯域についてのバックグラウンドノイズ推定値を生成し、該ノイズ推定値を使用して入力オーディオ信号に対してノイズ補償を行い、補償されたオーディオ信号にギャップ（強制ギャップ）を挿入することを含む補償されたオーディオ信号を生成する、本発明のシステムの一実施形態のブロック図である。図１１のシステムの実施例のより詳細なブロック図である。図１２のシステムのノイズ推定サブシステム３７の実施例のブロック図である再生コンテンツの現行の帯域化されたエネルギー（曲線Ｅ）、およびコンテンツに対する知覚マスキング曲線（曲線Ｍ）のグラフであり、各曲線は、４９の指数関数的に間隔を置いた周波数帯域（帯域０～帯域４８）のそれぞれについて、ｄＢでのエネルギー（縦軸に示される）対周波数帯域（横軸に示される）の関数としてプロットされる。本発明の強制ギャップアプリケータの実施形態のブロック図である。

表記と通知
特許請求の範囲を含む本開示全体を通して、オーディオ信号（およびオーディオ信号の再生コンテンツ）における「ギャップ」は、（例えば、少なくとも１つの周波数帯域における）再生コンテンツが欠落している（または所定の値未満のレベルを有する）信号の時間（または時間間隔）を示す。オーディオ信号は、（各時間または時間間隔における）異なる周波数帯域のセットの各帯域における周波数－領域再生コンテンツを含む、（信号の時間または時間間隔のシーケンスのそれぞれにおける）帯域化された周波数領域表現を有することができ、（オーディオ信号の時間または時間間隔における）周波数帯域のうちの少なくとも１つにおけるギャップを有することができる。

特許請求の範囲を含む本開示全体を通して、「スピーカ」および「ラウドスピーカ」は、単一のスピーカフィードによって駆動される任意のサウンド・リミッティング・トランスデューサ（またはトランスデューサのセット）を示すために同義的に使用される。一般的なヘッドフォンセットには、２つのスピーカが含まれる。スピーカは複数のトランスデューサ（例えば、ウーファおよびツィータ）を含むように実装されてもよく、すべてが単一の共通スピーカフィードによって駆動される（スピーカフィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受けてもよい）。

特許請求の範囲を含む本開示全体を通して、信号またはデータに対して「オン」演算を実行する表現（例えば、信号またはデータに対してフィルタリング、スケーリング、変換、またはゲインを適用する）は、信号またはデータに対して、または信号またはデータの処理されたバージョンに対して（例えば、信号またはデータに対する演算の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して）直接演算を実行することを示すために広義に使用される。

特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。例えば、デコーダを実装するサブシステムはデコーダシステムと呼ばれてもよく、そのようなサブシステム（例えば、サブシステムが入力のＭ個を生成し、他のＸ－Ｍ個の入力が外部ソースから受信される、複数の入力に応答してＸ個の出力信号を生成するシステム）を含むシステムは、デコーダシステムと呼ばれてもよい。

特許請求の範囲を含む本開示の全体を通して、「プロセッサ」という用語は、データ（例えば、オーディオ、ビデオ、または他の画像データ）に対する動作を実行するために、システムまたはデバイスがプログラム可能であるか、またはさもなければ（例えば、ソフトウェアまたはファームウェアを用いて）構成可能であることを示すために、広い意味で使用される。プロセッサの例には、フィールド・プログラマブル・ゲート・アレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他のサウンドデータに対してパイプライン処理を実行するようにプログラムおよび／または他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサまたはコンピュータ、およびプログラマブル・マイクロプロセッサ・チップまたはチップセットが含まれる。

特許請求の範囲を含む本開示の全体を通して、「結合する（ｃｏｕｐｌｅｓ）」または「結合される（ｃｏｕｐｌｅｄ）」という用語は、直接または間接接続のいずれかを意味するために使用される。従って、第１のデバイスが第２のデバイスに結合する場合、その接続は、直接接続を介するか、または他のデバイスおよび接続を介する間接接続を介するものとすることができる。

実施形態の詳細な説明
本発明の多くの実施形態は、技術的に可能である。これらをどのように実施するかは、本開示から当業者には明らかであろう。本発明のシステムおよび方法のいくつかの実施形態は、図３～１４を参照して本明細書に記載される。

本発明の典型的な実施形態に従って、ギャップ（「強制」ギャップと呼ばれる）はオーディオ再生信号に挿入され、モニタリングされるバックグラウンドノイズ（または再生環境における他の非再生サウンド）でのグリンプを提供するために、オーディオ再生コンテンツの意図的な歪みを導入する。典型的には、強制ギャップは、ノイズ（または他の非再生サウンド）の対応する推定値が古くなった特定の周波数帯域に人為的に挿入される（例えば、強制ギャップは米国仮特許出願第６２／６６３，３０２号に記載されているギャップ・コンフィデンス・フレームワークに従って自動的に使用することができるように）。いくつかの実施形態では、歪みは知覚的に注意深くマスクされ、強制ギャップの導入にもかかわらず良質なリスニング体験を提供し、エコー・キャンセラを使用しなくても、コンテンツに依存しない方法で応答性ノイズ推定（または別のパーベイシブ・リステニング方法）を実装する。

いくつかの実施形態では、一連の強制ギャップは再生信号に挿入され、各強制ギャップは、再生信号の異なる周波数帯域（または帯域のセット）にあり、ギャップが発生する時間間隔中に発生するという意味で、各強制ギャップ「内に」発生する非再生サウンドと、ギャップが挿入される周波数帯域内に発生する非再生サウンドとを、パーベイシブ・リスナがモニタリングすることを可能にする。図３は、本発明の実施形態を実行することによってそのような強制ギャップが挿入された、修正されたオーディオ再生信号のスペクトログラムの一例である。より具体的には、図３のスペクトログラムを生成するために、本発明の方法の実施形態をオーディオ再生信号に対して実行し、その周波数帯域に強制ギャップ（例えば、図３に示すギャップＧ１、Ｇ２、およびＧ３）を導入し、それによって、修正されたオーディオ再生信号を生成する。図３に示すスペクトログラムでは、横軸に沿った位置が時間を示し、縦軸に沿った位置が瞬時に修正されたオーディオ再生信号のコンテンツの周波数を示す。各小領域（垂直および水平座標を有する点を中心とするこのような各領域）内のドットの密度は、対応する周波数および瞬間における修正されたオーディオ再生信号のコンテンツのエネルギーを示す（高密度領域がより大きなエネルギーを有するコンテンツを示し、より低い密度領域がより低いエネルギーを有するコンテンツを示す）。従って、ギャップＧ１は、ギャップＧ２またはＧ３が発生する時間（すなわち、時間間隔）よりも早い時間（すなわち、時間間隔）に発生し、ギャップＧ１は、ギャップＧ２またはＧ３が挿入された周波数帯域よりも高い周波数帯域に挿入されている。

本発明の典型的な実施形態による再生信号への強制ギャップの導入は、（例えば、ユーザおよびユーザの環境をよりよく聞くために）デバイスがコンテンツの再生ストリームを一時停止するシンプレックスデバイス動作とは異なる。本発明の典型的な実施形態による再生信号への強制ギャップの導入は、再生中に導入されたギャップから生じるアーチファクトの知覚可能性を大幅に低減（または除去）するように最適化され、好ましくは、強制ギャップがユーザにとって知覚可能な影響を全く持たないかまたは最小限に抑えるが、再生環境におけるマイクロホンの出力信号は、強制ギャップを示すようにする（例えば、パーベイシブ・リスニング方法を実装するためにギャップを活用することができるようにする）。本発明の典型的な実施形態による導入された強制ギャップを使用することによる、パーベイシブ・リステニング・システムは、音響エコー・キャンセラを使用しなくても、非再生サウンド（例えば、再生環境におけるバックグラウンド活動および／またはノイズを示すサウンド）をモニタリングすることができる。

次に、図４および図５を参照して、オーディオ再生信号の周波数帯域に挿入され得るパラメータ化された強制ギャップの例、およびこのような強制ギャップのパラメータの選択基準について説明する。パラメータ化された強制ギャップは、帯域減衰量を使用した再生コンテンツの減衰量Ｇであり、そのプロファイルは、時間および周波数の両方にわたって、図４および図５に示すプロファイルに類似している。ギャップは、中心周波数ｆ_０（図４に示される）および帯域幅Ｂ（図４にも示される）によって定義される周波数の範囲（「帯域」）にわたって再生信号に減衰量Ｇを適用することによって強制され、減衰量は、図５に示されるプロファイルに似たプロファイルを有する帯域内の（すなわち、帯域内の各周波数ビン内の）各周波数における時間の関数として変化する。（帯域にわたる周波数の関数としての）減衰量Ｇの最大値は、（帯域の最低周波数での）０ｄＢから（図４に示すような）中心周波数ｆ_０での最大減衰量（抑制深さ）Ｚまで増加し、（帯域の最高周波数での）０ｄＢまで（中心周波数を超える周波数の増加に伴って）減少するように制御することができる。

図４は、帯域内の信号のオーディオコンテンツのギャップを強制するためにオーディオ信号の周波数成分に印加される周波数（すなわち、周波数ビン）の関数としての帯域減衰量Ｇのプロファイルを示すグラフである。オーディオ信号は、再生信号（例えば、マルチチャネル再生信号のチャネル）であってもよく、オーディオコンテンツは、再生コンテンツであってもよい。

図５は、図４に示したギャップを帯域内の信号のオーディオコンテンツに強制するために、中心周波数ｆ_０における周波数成分に加えられた、時間の関数としての帯域減衰量Ｇのプロファイルである。帯域内の互いの周波数成分について、時間の関数としての帯域ゲインは図５に示されるものと同様のプロファイルを有するが、図５の抑制深さＺは補間された抑制深さｋＺに置き換えられる。ここで、ｋは０から１の範囲の係数（周波数の関数として）であり、従って、ｋＺは図４のプロファイルを有する。各周波数成分について、減衰量Ｇもまた、０ｄＢから抑制深度ｋＺまで（例えば、図５に示すように、中心周波数でｋ＝１で）（時間の関数として）補間され、例えば、ギャップの導入に起因するミュージック的アーチファクトを減少させる。この後者の補間の３つの領域（時間間隔）ｔ１、ｔ２、およびｔ３は、図５に示されている。

従って、特定の周波数帯域（すなわち、図４に示される中心周波数ｆ_０を中心とする帯域）に対してギャップ強制動作が生じると、帯域内の各周波数成分（すなわち、帯域内の各ビンに対して）に印加される減衰量Ｇは、図５に示されるような軌跡をたどる。０ｄＢから始まって、ｔ１秒で深さ?ｋＺｄＢまで降下し、ｔ２秒間そこに留まり、最後にｔ３秒で０ｄＢまで上昇する。総時間ｔ１＋ｔ２＋ｔ３は、マイクロホンフィードを分析するために使用されている周波数変換の時間分解能、ならびにユーザにとってあまりにも侵入的でない合理的な持続時間を考慮して選択されるべきである。

本発明の典型的な実施形態は、オーディオ再生信号の全周波数スペクトルをカバーし、そしてＢ_{ｃｏｕｎｔ}帯域（ここで、Ｂ_{ｃｏｕｎｔ}は数であり、例えば、Ｂ_{ｃｏｕｎｔ}＝４９）を含む、所定の固定された帯域構成に従って強制ギャップを挿入する。帯域のいずれかにギャップを強制するために、帯域内に帯域減衰量が適用される。具体的には、ｊ番目の帯域については、減衰量Ｇｊが帯域によって規定される周波数領域にわたって適用される。帯域の数および各帯域の幅を決定する際に、知覚インパクト（ギャップを有するより狭い帯域は通常、知覚インパクトがより少ないという点でより良好）と、ギャップの有用性（ギャップを有するより広い帯域はノイズ推定（および他のパーベイシブ・リスニング方法）を実施し、例えば、バックグラウンドノイズまたは再生環境状態の変化に応答して、全周波数スペクトルのすべての周波数帯域において、新しいノイズ推定（またはパーベイシブ・リスニングによってモニタリングされる他の値）に収束するのに必要な時間（「収束」時間）を短縮するのにより良好）との間にトレードオフが存在する。一度に強制できるギャップの数が限られている場合は、多数の小さな帯域内にギャップを順次強制するのに（ギャップをより少数の大きな帯域に順次強制するよりも）長い時間がかかり、収束時間がより長くなる。帯域がより大きい（ギャップがある）と、バックグラウンドノイズ（またはパーベイシブ・リスニングでモニターされるその他の値）に関する情報が一度に多く得られるが、知覚的な影響はより大きくなる。

図６は、４９に等しいＢ_{ｃｏｕｎｔ}を有し、横軸に沿って示された４９個の帯域のうちの２５個の帯域の各々の中心周波数を有し、上述のトレードオフのための適切な中央グランドであると決定された、再生信号のためのバンディングストラクチャの一例を示す。図６の構造の各帯域はそれに関連した所定のギャップを有し、ギャップの最大抑制深さは、図６の右側のグラフにおける暗さの程度によって示される（以下に説明する方法で示される）（帯域内の各ビンにおける）ギャップの最大抑制深さである。図６の帯域の幅は、周波数の増加とともに（臨界帯域と同様に）対数的に増加するように選択され、各帯域における強制ギャップの幅（および各帯域における強制ギャップの中心であるビン数）も、周波数の増加とともに対数的に増加するように選択される。これにより、知覚オーディオ処理を実行するために、この領域で動作する他のコンポーネントとの相互運用性が容易になる。対数分布バンディング構造は、臨界バンディング構造に続いて、より少ない数の帯域を効率的に使用する。図６の各帯域（例えば、中心周波数７１０９．４Ｈｚを有する帯域）内には、２５６個の周波数ビン（図６の左側の縦軸に沿って示される）が存在する。各ビンに対して、関連する抑制深さｋＺがあり、これは（図４および図５を参照して上述したように）そのようなビン内の再生コンテンツに適用される最大抑制であり、ここで、Ｚは図５の値Ｚに対応し、ｋは（関連する帯域内のビンの周波数の関数として）０から１までの範囲のスケールファクタである。各帯域内の各ビンについて、スケールファクタｋは、図６の右側のグラフにおいて暗さの程度によって示される。従って、中心周波数７１０９．４Ｈｚを有する帯域についての最大スケールファクタｋ＝１は比較的低周波数（約７０番目のビン内）を有するビン内で発生し、中心周波数１７８５９．４Ｈｚを有する帯域についての最大スケールファクタｋ＝１は、比較的高い周波数（約１８０番目のビン内）を有するビン内で発生する。

再生コンテンツの周波数帯域に強制ギャップ（図４および図５に関連して説明した種類の）を導入することの知覚的影響を評価する場合、帯域ごとに、上述した３つのタイミングパラメータｔ１、ｔ２、ｔ３、および深さＺの値、ならびに帯域の個数Ｂ_{ｃｏｕｎｔ}を参照することが有益である。本発明の典型的な実施形態では、これらのパラメータは、以下の表１に示すように、デフォルト値、ならびに最小値および最大値を有する。

好ましくは、（再生コンテンツの周波数帯域において）導入される各強制ギャップは、強制ギャップの挿入のための所定の帯域構造（例えば、図６のそれ）、および強制ギャップが挿入されるべき選択された時間間隔とからの離散選択に従って導入される。

典型的な実施形態を実現するために、再生信号のＢ_{ｃｏｕｎｔ}帯域のセットのうち、どの離散的な周波数帯域にギャップが強制されるべきか、および、そのようなギャップの各々が強制されるべき時に関して、選択がなされる。次に、このような選択に関連する要因について、以下の両方を定量化し、バランスさせる方法を含めて論じる：
１．帯域内のギャップを強制する必要性（本明細書では「緊急度」と呼ばれることがある要因）
２．ギャップを強制することが知覚的な影響を及ぼす程度（本明細書では「知覚自由度」と呼ばれることがある要因）

本発明のいくつかの実施形態では、緊急度および知覚自由度の推定値は、総合的な緊急度を最小限に抑え、（例えば、最適でない統計的な意味で）知覚コストを許容可能に低くする（例えば、最小限に抑える）ように、強制ギャップを挿入しようとして、再生信号のＢ_{ｃｏｕｎｔ}周波数帯域のそれぞれについて決定される。例えば、これは、以下のように実施することができる。離散確率分布Ｐは、Ｂ_{ｃｏｕｎｔ}の起こりうる結果（すなわち、確率は、選択のために、特定の時刻に、Ｂ_{ｃｏｕｎｔ}帯域の各々の一つについて定義される）にわたって定義される。各々の時間間隔ｗ_ｆ毎に１回、この分布Ｐは、（例えば、図４、図５、および図６に関連して説明したようなパラメータを有する）強制ギャップを（対応する時間間隔で）挿入する帯域を選択するためにランダムにサンプリングされる。分布からランダムに選択することによって、予測不能で構造化されたオーディオアーチファクトが生成されるので、ギャップの知覚的影響が低減される。分布Ｐは、多くの異なる方法のいずれかで決定することができる。好ましくは、分布Ｐは、ギャップが強制されるための高い必要性（緊急度）と、強制された後の低い知覚的影響とを有する帯域をバランスさせ、優先順位を付ける。例えば、そのような分布の１つは、

である。ここで、

であり、Ｕ_ｋとＦ_ｋがそれぞれ緊急性と知覚自由度を示す値であり、“ｋ”番目の帯域のＰ’_ｋは“ｋ”番目の帯域の（正規化されていない）選択確率であり、δは緊急度と知覚自由度の考慮の相対的重要性を示すパラメータであり、合計は（Ｐ_ｋが“ｋ”番目の帯域のＰ’_ｋの正規化版であるように）すべての周波数帯域にわたる。

図７は、パーベイシブ・リスニング方法（パーベイシブ・リスニング・サブシステム７１によって実施される）の助けを借りて、オーディオ信号（オーディオ再生信号と呼ばれることもある）に強制ギャップを挿入するように構成されたシステムのブロック図である。パーベイシブ・リスニング・サブシステム７１は、本明細書では「パーベイシブ・リスナ」と呼ばれることがある。図７のシステムの強制ギャップ適用サブシステム（強制ギャップアプリケータ）７０は、オーディオ再生信号に強制ギャップを挿入するように結合され、構成される。典型的には、オーディオ再生信号がＫ個のチャネル（それぞれが再生コンテンツの異なるチャネルを示す）を含み、Ｋは正の整数であり、強制ギャップアプリケータ７０はこれらのチャネルを分析し、一連の時間間隔のそれぞれの間にそれらのうちの１つまたは複数にギャップを強制するように構成される。従って、サブシステム７０から出力されるＫ個のオーディオ再生チャネルは、その中に強制的なギャップを有することができる。

サブシステム７０に入力されるオーディオ信号の各チャネルは、オーディオコンテンツ（本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある）を示し、オーディオコンテンツを示すサウンド（環境Ｅ内）を生成するために再生を受けることが意図される。サブシステム７０から出力されるオーディオ信号の各チャンネルはスピーカフィードであってもよく、またはシステムの別の要素はサブシステム７０から出力されるオーディオ信号の各チャンネルに応答してスピーカフィードを生成してもよい。Ｋ個のスピーカフィードは、再生環境Ｅにおいて（少なくとも１つのスピーカを含む）スピーカシステムＳにアサートされる。

パーベイシブ・リスニング・サブシステム７１（いくつかの実装形態では、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーション）は、（環境Ｅ内のスピーカフィードに応答して）スピーカシステムＳから放射される再生サウンド以外の再生環境Ｅ内のサウンド（「非再生」サウンド）をモニターするように結合され、構成される。具体的には、環境Ｅ内のマイクロホンＭは、環境Ｅ内のサウンドを捕捉し、捕捉されたサウンドを示すマイクロホン出力信号Ｍｉｃをサブシステム７１にアサートする。捕捉されたサウンドは、スピーカシステムＳから放出される再生サウンド、および環境Ｅ内の少なくとも１つの人間ユーザＬによるバックグラウンドノイズ、および／またはスピーチ（または活動を示す他のサウンド、または単なる存在を示すサウンド）であってもよい非再生サウンドを含む。

本発明に従って再生コンテンツに挿入された強制ギャップ（すなわち、強制ギャップに対応する周波数帯域および時間間隔）によって明らかにされる環境Ｅ内の非再生サウンドをモニタリングすることによって、サブシステム７１の性能は、強制ギャップを挿入することなく達成することができる性能に比べて改善される。

任意選択的に、パーベイシブ・リスニング・サブシステム７１は、さらに、前記サブシステム７１によって実行されるモニタリングの少なくとも１つの結果に応じて、強制ギャップアプリケータ７０に（例えば、スピーカシステムＳによるある程度のオーディオ信号再生を改善する目的で）入力されるオーディオ再生信号を生成するように結合され、構成される。サブシステム７１は、（例えば、以下で説明する図８のシステムのパーベイシブ・リスナ・サブシステム７２と同様に）入力オーディオ再生信号を修正することによってオーディオ再生信号を生成することができる。例えば、いくつかの実装形態では、パーベイシブ・リスナ・サブシステム７１は（例えば、以下で説明する図８のシステムのパーベイシブ・リスナ・サブシステム７２のように）強制ギャップアプリケータ７０に入力される処理済みオーディオ再生信号（典型的には処理済み再生コンテンツのＫ個のチャネルを含む）を生成するために、（典型的には再生コンテンツのＫ個のチャネルを含む）入力オーディオ信号に対して処理（例えば、ノイズ補償）を実行するように結合され、構成される。処理されたオーディオ再生信号は強制ギャップアプリケータ７０に供給され、強制ギャップアプリケータの出力は、スピーカサブシステムＳにアサートされるＫ個のスピーカフィードのセットである（またはＫ個のスピーカフィードを生成するために使用される）。

（少なくとも１つのスピーカを含む）スピーカシステムＳは、サブシステム７０の出力によって決定される各スピーカフィードに応じて（再生環境Ｅにおいて）サウンドを放出するように結合され、構成される。サブシステム７０の出力は、単一の再生チャネル、または２つ以上の再生チャネルから構成されてもよい。典型的な動作では、スピーカシステムＳの各スピーカはサブシステム７０の出力の異なるチャネルの再生コンテンツを示すスピーカフィードを受信する。これに応じて、スピーカシステムＳは、再生環境Ｅにおいてサウンドを放出する。典型的には、サウンドは、環境Ｅに存在する少なくとも１人のユーザ（Ｌ）によって知覚される。

図７のマイクロホン出力信号「Ｍｉｃ」はスピーカシステムＳと同じ音響空間（図７の環境Ｅ）に存在し、通常は少なくとも１人のユーザ（人間リスナ）ＬでもあるマイクロホンＭを用いて生成される。

パーベイシブ・リスニング・サブシステム７１には、マイクロホン出力信号Ｍｉｃが供給される。マイクロホン出力信号Ｍｉｃに応じて、サブシステム７１は環境Ｅにおいて非再生サウンドをモニターする（またはモニターしようとする）。非再生サウンドは、スピーカシステムＳが放出するサウンド以外のサウンドである。例えば、非再生サウンドは、バックグラウンドノイズおよび／またはユーザＬによって放出される（またはユーザＬの活動から生じる）サウンドであってもよい。サブシステム７１には、強制ギャップ適用サブシステム７０から出力されるＫ個のチャネル（強制ギャップを含んでもよい）も提供される。サブシステム７１に提供されるＫ個のチャネルは、本明細書では「エコー・リファレンス」のＫ個のチャネルと呼ばれることがある。エコー・リファレンス・チャネルの各々は、サブシステム７０によって自動的に強制された強制ギャップを含むことができ、サブシステム７１をそのモニタリングタスクにおいて補助する。

典型的な実施態様では、強制ギャップアプリケータ７０は、ギャップの挿入のための緊急度を示す緊急度データ値（いくつかの周波数帯域のそれぞれにおいて、時間間隔のシーケンスのそれぞれにおいて）に応じて、オーディオ再生信号にギャップを挿入する。幾つかの実装形態では、強制ギャップアプリケータ７０は、各周波数帯（例えば、上述したタイプの確率分布によって示されるように）に対する緊急度の所定の固定された推定値、または、（例えば、アプリケータ７０に入力される再生信号に基づいて、また任意選択で、アプリケータ７０による強制ギャップ挿入の履歴に基づいて）強制ギャップアプリケータ７０によって生成される各帯域（時間間隔の各々において）に対する緊急度の推定値のいずれかを用いて緊急度データ値を決定する。

図８は、（パーベイシブ・リスニング・サブシステム７２によって実施される）パーベイシブ・リスニング方法の助けを借りて、オーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。図８のシステムは、図８の（図示のように結合されている）パーベイシブ・リスニング・サブシステム７２が図７のパーベイシブ・リスニング・サブシステム７１に取って代わる点を除いて、図７のシステムと同一であり、サブシステム７２は、（例えば、サブシステム７２への入力として提供される入力オーディオ再生信号を修正することによって）強制ギャップアプリケータ７０に入力される再生信号を生成する。

パーベイシブ・リスニング・サブシステム７２（いくつかの実装形態では、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーション）は、サウンド再生環境Ｅでの非再生サウンドをモニターするように結合され、構成される。非再生サウンドは、環境Ｅで（そこにアサートされるスピーカフィードに応じて）スピーカシステムＳから放出される再生サウンド以外のサウンドである。具体的には、環境ＥでのマイクロホンＭは、環境Ｅでのサウンドを取り込み、取り込まれたサウンドを示すマイクロホン出力信号Ｍｉｃをサブシステム７２にアサートする。取り込んだサウンドには、スピーカシステムＳから放出する再生サウンド、および非再生のサウンドがある。非再生サウンドは、バックグラウンドノイズ、および／または、環境Ｅにおける少なくとも１人の人間のユーザＬによる、スピーチ（またはアクティビティまたは単なる存在を示す他のサウンド）であるか、含み得る。

本発明による強制ギャップ・アプリケーション・サブシステム７０によって再生コンテンツに挿入された強制ギャップによって（すなわち、強制ギャップに対応する周波数帯域および時間間隔で）明らかにされる環境Ｅ内の非再生サウンドをモニタリングすることによって、サブシステム７２の性能は、強制ギャップを挿入することなく達成することができる性能に比べて改善される。

また、パーベイシブ・リスニング・サブシステム７２は、（典型的には再生コンテンツのＫチャネルを含む）入力オーディオ信号上でオーディオ信号処理（例えば、ノイズ補償）を実行し、該サブシステム７２によって実行されるモニタリングの少なくとも１つの結果に応じて、強制ギャップアプリケータ７０に（例えば、ある点ではスピーカシステムＳによるオーディオ信号再生を改善する目的で）入力される処理されたオーディオ再生信号（典型的には、処理された再生コンテンツのＫ個のチャネルを含む）を生成するように結合され、構成される。処理されたオーディオ再生信号は、強制ギャップアプリケータ７０に供給され、強制ギャップアプリケータの出力は、スピーカサブシステムＳにアサートされるＫ個のスピーカフィードのセットである（もしくはセットを生成するために使用される）。サブシステム７２の実装の一例は、後述する図１１のシステムのノイズ推定サブシステム６４と共に、ノイズ補償サブシステム６２である。

図９は、（パーベイシブ・リスニング・サブシステム７３によって実施される）パーベイシブ・リスニング方法を用いてオーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。図９のシステムは、（図示のように結合された）図９のパーベイシブ・リスニング・サブシステム７３が図７のパーベイシブ・リスニング・サブシステム７１に取って代わる点を除いて、図７のシステムと同一である。

図９のシステムでは、強制ギャップアプリケータ７０は、パーベイシブ・リスニング・サブシステム７３によってそれにアサートされる緊急度信号Ｕに応じて動作し、その結果、パーベイシブ・リスニング・サブシステム７３は再生信号のギャップの必要性に基づいて強制ギャップ挿入を制御する。パーベイシブ・リスニング・サブシステム７３の異なる実装は、マイクロホン出力信号Ｍｉｃの周波数帯域におけるギャップの品質および数値に関して異なる要件を有することが予想される。例えば、パーベイシブ・リスナ７３は、再生環境ＥにおけるユーザＬによるスピーチ発話の発生または非発生に依存するパーベイシブ・リスニング方法を実施する場合、パーベイシブ・リスナ７３は、スピーチの典型的な周波数範囲内で発生するギャップにのみ関心がある。通常、緊急度信号Ｕは、緊急度値セット［Ｕ_０，Ｕ_１，．．．Ｕ_Ｎ］のシーケンスを示し、ここで、Ｎは、サブシステム７０が強制ギャップを挿入することができる（すなわち、各帯域に１つの強制ギャップが挿入されることができる）（再生信号のすべての周波数範囲の）周波数帯域の所定の数であり、Ｕ_ｉは、サブシステム７０が強制ギャップを挿入することができる「ｉ」番目の帯域に対する緊急度値である。（時間に対応する）各緊急度値セットの緊急度値は、緊急度を決定するための本発明の方法の任意の実施形態に従って生成されてもよく、Ｎ個の帯域における（時間における）強制ギャップの（サブシステム７０による）挿入に対する緊急度を示す。

サブシステム７３のいくつかの実施形態では、緊急度信号Ｕは、Ｎ個の周波数帯域の各々に対してギャップ挿入の確率を定義する確率分布によって決定される固定された（時間不変）緊急度値セット［Ｕ_０，Ｕ_１，．．．Ｕ_Ｎ］を示す。従って、そのような固定された緊急度値セットに応じて、サブシステム７０は、より低い緊急度値（すなわち、確率分布によって決定されるより低い確率値）を有する帯域に（平均して）より少ない強制ギャップを挿入し、より高い緊急度値（すなわち、より高い確率値）を有する帯域に（平均して）より多くの強制ギャップを挿入するように動作する。サブシステム７３のいくつかの実施形態では、緊急度信号Ｕは、緊急度値セット［Ｕ_０，Ｕ_１，．．．Ｕ_Ｎ］のシーケンス、例えば、シーケンス内の異なる時間ごとに設定された異なる緊急度値のシーケンスを示す。このような異なる緊急度値セットの各々は、異なる時間の各々に対する異なる確率分布によって決定されてもよい。緊急信号Ｕおよびそれによって示される緊急度値の様々な例は、以下でより詳細に説明される。

図７、図８、および図９の実施形態（例えば、図７、図８、および図９の各々のパーベイシブ・リスニング・サブシステム）は、音響エコー・キャンセレーションを実装してもよい（しかし必要ではない）。図１０は、パーベイシブ・リスニング方法（パーベイシブ・リスニング・サブシステム７６によって実施される）を用いてオーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。図１０のシステムは、図１０の（図示のように結合される）パーベイシブ・リスニング・サブシステム７６が図９のパーベイシブ・リスニング・サブシステム７３取って代わる点、および、図１０の実施形態は例えば、意図しないエコー漏れがシステムを通過するのを防止するための努力において、マイクロホン出力信号Ｍｉｃに対してエコーキャンセリングを実行するエコー・キャンセリング・サブシステム（エコー・キャンセラ）７４を含む点を除いて、図９のシステムと同一である。強制ギャップ適用サブシステム７０の出力（強制ギャップを含み得る）は、エコー・キャンセラ７４へのエコー・リファレンスとして提供される。典型的な実施態様では、エコー・キャンセラ７４は、図１２のシステムの以下に説明する素子２６、３２、３４、および３５のように実施される。代替的には、エコー・キャンセラ７４は、別の（例えば、従来の）方法で実装されてもよい。

図１１は、ノイズ推定サブシステム（ノイズ推定器）６４、ノイズ補償ゲイン適用サブシステム（ノイズ補償サブシステム）６２、および強制ギャップ適用サブシステム（強制ギャップアプリケータ）７０を含むノイズ補償システムのブロック図である。図１１のシステムは上述した図８のシステムの実施例であり、図１１のノイズ推定器６４とともにノイズ補償サブシステム６２は、図８のパーベイシブ・リスニング・サブシステム７２に対応し（そして実施し）、ノイズ推定器６４は、緊急信号Ｕを強制ギャップアプリケータ７０に供給するように構成されている。緊急信号Ｕは、図９を参照して上述した、または本明細書の他の箇所で説明したタイプのうちの任意のものとすることができる。図１１のシステムでは、強制ギャップ適用サブシステム７０は緊急度信号Ｕに応じて動作し、その結果、ノイズ推定器６４は、再生信号におけるギャップの必要性に基づいて強制ギャップ挿入を制御する。

ノイズ補償システム（例えば、図１１のもの）は、（例えば、上記で参照した米国仮特許出願第６２／６６３，３０２号に記載されているように実装された場合）弱いまたは存在しないエコー・キャンセレーションで機能することができるが、特にミュージック、ＴＶ、および映画コンテンツの場合、コンテンツに依存する応答時間に煩わされることがある。ノイズ補償システムが再生環境におけるバックグラウンドノイズのプロファイルの変化に応答するのに要する時間は、ユーザの経験にとって極めて重要であり、そのため、実際のノイズ推定値の正確さよりも大きい。再生コンテンツがバックグラウンドノイズを見失うようなギャップが少ないか、またはまったくない場合、ノイズ条件が変化してもノイズ推定値は固定されたままになる。ノイズ推定スペクトラムの欠測値を補間して帰することは一般的に役立つが、ノイズ推定スペクトラムの大きな領域がロックアップして失速することが依然としてあり得る。

図１１のシステムの強制ギャップアプリケータ７０の典型的な実施形態は、（ノイズ推定器６４による）バックグラウンドノイズ推定値が再生環境ＥにおけるバックグラウンドノイズＮのプロファイルの典型的な変化に応答するのにしばしば十分であるように更新され得る、十分にしばしば（強制ギャップアプリケータ７０の出力の利害関係となる各周波数帯域において）発生する強制ギャップ（再生信号において）を提供するように動作可能である。サブシステム７０は、ノイズ補償サブシステム６２から出力される（Ｋ個のチャネルを有する、Ｋは正の整数）補償されたオーディオ再生信号に強制ギャップを導入するように構成される。ノイズ推定器６４は、補償されたオーディオ再生信号の各チャネル内のギャップ（サブシステム７０によって挿入される強制ギャップを含む）を探索し、ギャップが生じる周波数帯域（および時間間隔）に対するノイズ推定値を生成するように構成される。ノイズ推定器６４は、また、検出されたギャップに関する結果の情報を使用して緊急度信号を生成（および強制ギャップ適用サブシステム６３にアサート）するように構成され、その緊急度信号の値は、補償されたオーディオ再生信号の周波数帯域に強制ギャップを挿入する緊急度を追跡する。

強制ギャップ適用サブシステム７０がない場合、図１１のシステムは従来のノイズ補償システム（例えば、図１のもの）に似ており、ノイズ推定器６４は、マイクロホンフィードマイク（再生環境ＥにおけるマイクロホンＭの出力）と、補償されたオーディオ再生信号のリファレンス（再生環境ＥにおけるスピーカシステムＳへの入力）との両方を受け入れる。サブシステム６４内で生成されたノイズ推定値は、ノイズ補償サブシステム６２に供給され、これは補償ゲインを入力再生信号２３に（コンテンツソース２２から）加えて、その各周波数帯域を所望の再生レベルにレベル調整する。ノイズ補償オーディオ再生信号（サブシステム６２から出力される）および帯域毎の緊急度測定基準（サブシステム６４から出力される緊急度信号によって示される）は強制ギャップアプリケータ７０に供給され、これは補償された再生信号（好ましくは最適化プロセスに従って）にギャップを強制する。各々が（強制ギャップアプリケータ７０から出力される）ノイズ補償再生信号の異なるチャンネルのコンテンツを示すスピーカフィードは、スピーカシステムＳの各スピーカに供給される。

図１１のシステムのいくつかの実装形態は、それが実行するノイズ推定の要素として、（例えば、図１２の要素２６、３２、３４、および３５によって実装されるような）エコー・キャンセレーションを実行できるが、図１１のシステムの他の実装形態はエコー・キャンセレーションを実行しない。エコー・キャンセレーションを実施するための要素は、図１１には特に示されていない。

図１１では、信号の典型的に実施される時間領域から周波数領域（および／または周波数領域から時間領域）への変換は示されていないが、（サブシステム６２における）ノイズ補償ゲインの適用、（ノイズ推定器６４および／または強制ギャップアプリケータ７０における）ギャップ強制のためのコンテンツの分析、および（強制ギャップアプリケータ７０による）強制ギャップの挿入は、典型的には、便宜上、同じ変換領域において実施され、結果として得られる出力オーディオは、再生または送信のためのさらなる符号化の前に、ＰＣＭ（時間領域）オーディオに再合成される。

強制ギャップアプリケータ７０を使用することによって、補償された再生信号の各チャネル（図１１システムのノイズ補償サブシステム６２からの出力）のギャップの数は、典型的には（強制ギャップアプリケータ７０を使用せずに生じるのであろうギャップの数に対して）増加され、それによって、図１１のシステムによって実装される任意のエコー・キャンセラに関する要件を大幅に低減し、場合によってはエコー・キャンセレーションの必要性を完全に排除することさえもある。

図７～図１１のいずれかのシステムでは、時間領域ピーク制限またはスピーカ保護のような単純な後処理回路を、強制ギャップアプリケータ７０とスピーカシステムＳとの間に実装することが可能である。スピーカフィードをブーストおよび圧縮する能力を有する後処理は、強制ギャップアプリケータによって挿入される強制ギャップの品質を元に戻すか、または下げる可能性を有し、従って、これらのタイプの後処理は、強制ギャップアプリケータ７０の前の信号処理経路内のある点で実装されることが好ましい。

次に、図１１のシステムの実施例のより詳細なブロック図である図１２を説明する。図１２のシステムは再生環境Ｅにおいてバックグラウンドノイズ推定値を生成し、このノイズ推定値を使用して入力オーディオ信号に対してノイズ補償を実行するように構成される。図１３は、図１２のノイズ推定サブシステム３７の実装例のブロック図である。

図１２のノイズ推定サブシステム３７は、再生環境Ｅにおいてバックグラウンドノイズ推定値を生成するように構成される（典型的にはノイズ推定のシーケンスであって、それぞれが異なる時間間隔に対応する）。図１２のシステムは、入力信号２３のノイズ補償バージョン（再生信号２５）を生成するために、サブシステム３７からのノイズ推定出力（またはそのようなノイズ推定の後処理バージョン、これは、サブシステム３９がサブシステム３７からのノイズ推定出力を修正するように動作する場合に後処理サブシステム３９から出力される）を使用して、（ソース２２からの）入力オーディオ信号２３に対してノイズ補償を実行するように結合され構成された、ノイズ補償サブシステム６２も含む。強制ギャップ適用サブシステム７０は、（サブシステム３７から供給される緊急信号Ｕに応答して）強制ギャップをサブシステム６２の出力に挿入するように構成され、それによって再生信号２５（その各チャネルはその中に挿入された強制ギャップを有し得る）を生成する。

図１２のサブシステム７０は図１１のサブシステム７０と同一であり、サブシステム６２の動作は、図１１を参照して説明されている。図１２の緊急度信号Ｕは図１１の緊急信号Ｕと同一であり、図１２のサブシステム３７は、緊急度信号を生成するために、本明細書に記載される任意の方法（例えば、図１１のサブシステム６２が緊急度信号Ｕを生成するように構成され得る方法のいずれか）で信号Ｕを生成するように構成されてもよい。

図１２のサブシステム６２は図１１のサブシステム６２と同一であり、サブシステム６２の動作は、図１１を参照して説明されている。

図１２のシステムは、オーディオ信号２３を出力し、ノイズ補償サブシステム６２に供給するように結合され構成された、コンテンツソース２２を含む。信号２３は、オーディオコンテンツ（本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある）の少なくとも１つのチャネルを示し、オーディオコンテンツの各チャネルを示すサウンドを（環境Ｅにおいて）生成するために再生を受けることが意図される。オーディオ信号２３はスピーカフィード（またはマルチチャネル再生コンテンツの場合には２つ以上のスピーカフィード）であってもよく、ノイズ補償サブシステム６２は。スピーカフィードの再生ゲインを調整することによって、そのような各スピーカフィードにノイズ補償を適用するように結合および構成されてもよい。代替的には、システムの別の要素がオーディオ信号２３に応じてスピーカフィード（または複数スピーカフィード）を生成してもよい（例えば、ノイズ補償サブシステム６２は、オーディオ信号２３に応答して少なくとも１つのスピーカフィードを生成し、スピーカフィードの再生ゲインを調整することによって各スピーカフィードにノイズ補償を加えるように結合または構成されてもよく、その結果、再生信号２５が少なくとも１つのノイズ補償されたスピーカフィードからなる）。図１２のシステムの動作モードでは、サブシステム６２はノイズ補償を実行せず、その結果、再生信号２５のオーディオコンテンツは、（サブシステム７０によって挿入された強制ギャップによって修正された範囲を除いて）信号２３のオーディオコンテンツと同じである。

（少なくとも１つのスピーカを含む）スピーカシステムＳは、再生信号２５に応じて、（再生環境Ｅにおいて）サウンドを放出するように結合され、構成される。信号２５は単一の再生チャネルから構成されてもよいし、２つ以上の再生チャネルから構成されてもよい。典型的な動作では、スピーカシステムＳの各スピーカは、信号２５の異なるチャンネルの再生コンテンツを示すスピーカフィードを受け取る。これに応じて、スピーカシステムＳは、スピーカフィードに応じて、（再生環境Ｅにおいて）サウンドを放出する。サウンドは、入力信号２３の再生コンテンツのノイズ補償バージョンとして、（環境Ｅにおける）ユーザ（人間のリスナ）Ｌによって知覚される。

次に、図１２を参照して、再生コンテンツの多数の異なる周波数帯域の各帯域について、バックグラウンドノイズレベルの推定値のシーケンスを計算する方法およびシステムの実施形態を説明する。（再生環境Ｅ、スピーカシステムＳ、マイクロホンＭ、およびユーザＬを除く）図１２の要素は、ソフトウェア、ファームウェア、またはハードウェアで実施される信号（またはデータ）処理動作を実行するそのような要素（本明細書ではサブシステムと呼ばれるものを含む）の要素とともに、プロセッサ内またはプロセッサとして実施することができることを理解されたい。

マイクロホン出力信号（例えば、図１２の信号「Ｍｉｃ」）は、ユーザ（例えば、図１２のユーザＬ）と同じ音響空間（図１２の環境Ｅ）を占有するマイクロホン（例えば、図１２のマイクロホンＭ）を使用して生成される。２つ以上のマイクロホンを使用して（例えば、それらの個々の出力を組み合わせて）、マイクロホン出力信号を生成することが可能であり、従って、「マイクロホン」という用語は、本明細書において、単一のマイクロホン、または２つ以上のマイクロホンのいずれかを示すように使用されて、単一のマイクロホン出力信号を生成することが可能である。マイクロホン出力信号は、音響再生信号（図１２のスピーカシステムＳから放出されるサウンドの再生コンテンツ）および競合するバックグラウンドノイズの両方を示し、（例えば、図１２の時間－周波数変換素子３２によって）周波数－領域表現に変換され、それによって、周波数－領域マイクロホン出力データを生成し、周波数－領域マイクロホン出力データは（例えば、図１２の素子３３によって）電力領域に帯域化され、マイクロホン出力値（例えば、図１２の値Ｍ’）が得られる。各周波数帯域について、対応する値の１つ（値Ｍ’の１つ）は、調整された値Ｍを生成するために、較正ゲインＧを使用してレベルで調整される。較正ゲインＧの適用は、デジタル再生信号（値Ｓ’）およびデジタル化されたマイクロホン出力信号レベル（値Ｍ’）のレベル差を補正するために必要である。Ｇ（周波数帯域ごと）を自動判定し、測定する方法を以下に説明する。

典型的にはマルチチャネル再生コンテンツである再生コンテンツ（例えば、図１２のノイズ補償信号２５の各チャネル）の各チャネルは（例えば、図１２の時間－周波数変換素子２６によって、好ましくは、変換素子３２によって実行される同じ変換を使用して）周波数変換され、それによって、周波数－領域再生コンテンツデータを生成する。周波数－領域再生コンテンツデータ（すべてのチャネルについて）はダウンミックスされ（信号２５が２つ以上のチャネルを含む場合）、結果として生じる周波数－領域再生コンテンツデータの単一ストリームは、再生コンテンツ値Ｓ’（例えば、図１２の値Ｓ’）を生成するために、（例えば、好ましくは、素子３３によって実行される同じバンディング動作を使用して、値Ｍ’を生成する、図１２の素子２７によって）帯域化される。また、値Ｓ’は、（例えば、Ａ／ＤおよびＤ／Ａ変換による）ハードウェアにおける任意の待ち時間を考慮するために、（本発明の実施形態に従って処理される前に）時間的に遅延されるべきである。この調整は、粗調整と考えることができる。

図１２のシステムは、図示のように結合され、素子２６および３２から出力される周波数領域値に対してエコー・キャンセレーションを実行することによってエコーキャンセルされたノイズ推定値を生成するように構成されたエコー・キャンセラ３４と、エコー・キャンセラ３４から出力されるエコーキャンセルされたノイズ推定値（残留値）に対して周波数帯域化を実行して帯域化されエコーキャンセルされた（各周波数帯域に対して値Ｍ’ｒｅｓを含む）ノイズ推定値Ｍ’ｒｅｓを生成するように結合および構成された帯域化サブシステム３５と、を含むことができる。

信号２５がマルチチャネル信号（Ｚ個の再生チャネルを含む）であるケースでは、エコー・キャンセラ３４の典型的な実施は、（素子２６から）周波数－領域再生コンテンツ値の多数のストリーム（各チャネルに対して１つのストリーム）を受信し、各再生チャネルに対して（図２のフィルタＷ’に対応する）フィルタＷ’_ｉを適応させる。この場合、マイク出力信号Ｙの周波数領域表現は、Ｗ_１Ｘ＋Ｗ_２Ｘ＋．．＋Ｗ_ＺＸ＋Ｎとして表現することができ、ここで、各Ｗ_ｉはＺ個のスピーカの異なる１つ（「ｉ番目」のスピーカ）に対する伝達関数である。このようなエコー・キャンセラ３４の実現は、マイクロホン出力信号Ｙの周波数領域表現から（チャネルごとに１つの）各Ｗ’_ｉＸ推定値を減算し、図２のエコーキャンセルされたノイズ推定値Ｙ’に対応するエコーキャンセルされたノイズ推定（または「残留」）値の単一ストリームを生成する。

エコーキャンセルされたノイズ推定値を生成するために、エコー・キャンセラ３４によって採用された各適応フィルタ（すなわち、図２のフィルタＷ’に対応するエコー・キャンセラ３４によって実装された各適応フィルタ）のフィルタ係数は、帯域化素子３６において帯域化される。帯域化されたフィルタ係数は、サブシステム３７によって使用されるゲイン値Ｇを生成するために、サブシステム４３によって使用されるために、素子３６からサブシステム４３に提供される。

任意選択的に、エコー・キャンセラ３４は省略され（または動作しない）、従って、適応フィルタ値は帯域化素子３６に提供されず、帯域適応フィルタ値は３６からサブシステム４３に提供されない。この場合、サブシステム４３は帯域適応フィルタ値を使用せずに、以下に説明する方法のうちの１つでゲイン値Ｇを生成する。

エコー・キャンセラが使用される場合（すなわち、図１２のシステムが、図１２に示されるように、素子３４および３５を含み、使用する場合）、エコー・キャンセラ３４から出力される残留値は（例えば、図１２のサブシステム３５において）帯域化され、帯域化されたノイズ推定値Ｍ’ｒｅｓを生成する。（サブシステム４３によって生成される）較正ゲインＧは値Ｍ’ｒｅｓに適用され（すなわち、ゲインＧは帯域ごとに１つずつ、帯域固有のゲインのセットを含み、帯域固有のゲインのそれぞれは、対応する帯域内の値Ｍ’ｒｅｓに適用され）、（値Ｍ’ｒｅｓによって示される）信号を（値Ｓ’によって示される）再生信号と同じレベル領域にする。各周波数帯域に対して、値Ｍｒｅｓの対応する１つは、調整された値Ｍｒｅｓを生成するために較正ゲインＧを使用してレベルが調整される。

エコー・キャンセラが使用されない場合（すなわち、エコー・キャンセラ３４が省略されるか、または動作しない場合）、（図１２および図１３の本明細書の説明において）値Ｍ’ｒｅｓは、値Ｍ’に置き換えられる。この場合、（素子３３からの）帯域化された値Ｍ’は、（図１３に示された値Ｍ’ｒｅｓの代わりに）図１３のゲイン段１２の入力、および図１３のゲイン段１１の入力にアサートされる。ゲインＧは（図１３のゲイン段１２によって）値Ｍ’に適用されて調整値Ｍを生成し、（図１３に示されるような調整値Ｍｒｅｓではなく）調整値Ｍは、ノイズ推定値を生成するために、調整値Ｍｒｅｓと同じ方法で（およびその代わりに）、サブシステム２０によって（ギャップ信頼値と共に）処理される。

（図１３に示す物を含む）典型的な実装では、ノイズ推定サブシステム３７は、ノイズ推定値Ｍ’ｒｅｓの調整されたバージョン（Ｍｒｅｓ）内の（すなわち、Ｍｒｅｓによって決定された）ギャップを突き止めるために、再生コンテンツ値Ｓ’に対して最小フォローイングを実行するように構成される。好ましくは、これは図１３を参照して説明される方法で実施される。

図１３に示す実施例ではサブシステム３７は、一対の最小フォロワ（１３および１４）を含み、これらは共に同じサイズの分析ウィンドウで動作する。最小フォロワ１３は、値Ｓ’の（各分析ウィンドウにおける）最小値を示す値Ｓ_ｍｉｎを生成するために、値Ｓ’上を走るように結合され、構成される。最小フォロワ１４は、値Ｍｒｅｓの（各分析ウィンドウにおける）最小値を示す値Ｍ_{ｒｅｓｍｉｎ}を生成するために、値Ｍｒｅｓ上を走るように結合され、構成される。値Ｓ’、Ｍ、およびＭｒｅｓは、（再生コンテンツ値Ｓ’とマイクロホン出力値Ｍとの比較によって示される）再生コンテンツ内のギャップ（例えば、サブシステム７０によって挿入される強制ギャップ）において、少なくとも大まかに時間整列されるので：
Ｍｒｅｓ（エコー・キャンセラ残留）の値の最小値は、再生環境におけるノイズの推定値を示すと確信することができ、
Ｍ（マイクロホン出力信号）の値の最小値は、再生環境におけるノイズの推定値を示すと確信することができる。

再生コンテンツのギャップ中以外の時間では、値Ｍｒｅｓ（または時間Ｍ）の最小値は再生環境のノイズの正確な推定値を示すとは限らない。

マイクロホン出力信号（Ｍ）およびＳ_ｍｉｎの値に応じて、サブシステム１６はギャップ信頼値を生成する。サンプル・アグリゲータ・サブシステム２０は、候補ノイズ推定値としてＭ_{ｒｅｓｍｉｎ}の値（または、エコー・キャンセレーションが実行されないケースでは、Ｍの値）を使用し、候補ノイズ推定値の信頼性の指標として（サブシステム１６によって生成される）ギャップ信頼値を使用するように構成される。

より具体的には、図１３のサンプル・アグリゲータ・サブシステム２０は、候補ノイズ推定値（Ｍ_{ｒｅｓｍｉｎ}）を、（サブシステム１６で生成された）ギャップ信頼値によって重み付けされた方法で一緒に組み合わせて、各分析ウィンドウ（すなわち、図１３に示すように、長さτ２を有するアグリゲータ２０の分析ウィンドウ）についての最終ノイズ推定値を生成するように動作し、低ギャップ信頼を示すギャップ信頼値に対応する重み付けされた候補ノイズ推定値は、重みなしに割り当てられるか、または、高ギャップ信頼を示すギャップ信頼値に対応する重み付けされた候補ノイズ推定値よりも重みが小さい。従って、サブシステム２０は、ギャップ信頼値を使用して、一連のノイズ推定値（各分析ウィンドウについて、各周波数帯域について１つのノイズ推定値を含む、現行ノイズ推定値のセット）を出力する。

サブシステム２０の簡単な例は、（ギャップ信頼性重み付けサンプルの）最小フォロワ、例えば、関連するギャップ信頼性が所定の閾値よりも高い場合にのみ解析ウィンドウ内に候補サンプル（Ｍ_{ｒｅｓｍｉｎ}の値）を含む最小フォロワである（すなわち、サンプルのギャップ信頼性が閾値以上である場合に、サブシステム２０はサンプルＭ_{ｒｅｓｍｉｎ}に１の重みを割り当て、サンプルのギャップ信頼値が閾値未満である場合に、サブシステム２０はサンプルＭ_{ｒｅｓｍｉｎ}に０の重みを割り当てる）。サブシステム２０の他の実施形態は、ギャップ信頼重み付きサンプル（解析ウィンドウ内で、それぞれギャップ信頼値の対応する１つによって重み付けされたＭ_{ｒｅｓｍｉｎ}の値）を集約する（例えば、平均または他の方法で集約する）。ギャップ信頼性重み付けサンプルを集約するサブシステム２０の例示的な実装は、ギャップ信頼性値によって制御される更新レートを有する線形補間器／１極スムーザである（または含む）。

サブシステム２０は、たとえギャップが利用可能でなくてもノイズ状態の低下を追跡するために、到来するサンプル（Ｍ_{ｒｅｓｍｉｎ}の値）が（サブシステム２０によって決定される）現行ノイズ推定値よりも低いときにギャップ信頼度を無視する戦略を採用することができる。

好ましくは、サブシステム２０は、ギャップ信頼度によって決定される新しいサンプリング機会が生じるまで、低ギャップ信頼度の間隔の間、ノイズ推定値に効果的に保持されるように構成される。例えば、サブシステム２０の好ましい実施態様では、サブシステム２０が現行ノイズ推定値を（１つの分析ウィンドウ内で）決定し、次いで（サブシステム１６によって生成された）ギャップ信頼値が再生コンテンツ内にギャップがあることを低い信頼度で示す（例えば、ギャップ信頼値が所定の閾値未満のギャップ信頼度を示す）とき、サブシステム２０は、（新しい分析ウィンドウ内で）ギャップ信頼値が再生コンテンツ内にギャップがあることをより高い信頼度で示す（例えば、ギャップ信頼値が閾値を超えるギャップ信頼度を示す）まで、現行ノイズ推定値を出力し続け、その時点で、サブシステム２０は更新されたノイズ推定値を生成（および出力）する。本発明の好ましい実施形態によれば、ノイズ推定値のシーケンスとして最小フォロワ１４から出力される候補ノイズ推定値のみに依存する（ギャップ信頼値を決定し、使用することなしに）か、または従来の方法でノイズ推定値を生成するのではなく、ギャップ信頼値を使用してノイズ推定値を生成する（ギャップ信頼度によって決定されるように、新しいサンプリング機会が生じるまで、低いギャップ信頼度の間隔中にノイズ推定値を保持することを含む）ことによって、すべての使用される最小フォロワ分析ウィンドウの長さ（すなわち、アグリゲータ２０がギャップ信頼度重み付けサンプルの最小フォロワとして実装される場合、τ１、最小フォロワ１３および１４のそれぞれの分析ウィンドウ長、τ２、アグリゲータ２０の分析ウィンドウ長）を、従来の手法よりも約１桁低減することができ、ギャップが生じたときにノイズ推定システムがノイズ状態を追跡することができる速度を改善する。

本明細書に記載されるように、ノイズ推定器３７はまた、緊急値を示す緊急信号Ｕを生成し、（強制ギャップアプリケータ７０に）報告するように構成されることが好ましい。そのような緊急信号の例（およびそのような例が生成され得る方法）が、本明細書で説明される。

再度図１２を参照して、ノイズ推定システムの（図１２に示される）実装の追加要素をより詳細に説明する。上述したように、ノイズ補償は、ノイズ推定器サブシステム３７によって生成されるノイズ推定スペクトルを使用して、再生コンテンツ２３上で（サブシステム６２によって）実行される。サブシステム６２の出力は強制ギャップアプリケータ７０に供給され、このギャップアプリケータは（典型的な動作では）その各チャネルに強制ギャップを挿入し、それによって、ノイズ補償再生コンテンツ２５を生成する。ノイズ補償再生コンテンツ２５から決定されたスピーカフィードは、再生環境Ｅにおいて、人間のリスナ（例えば、ユーザＬ）にスピーカシステムＳを介して再生される。人間のリスナと同じ音響環境（環境Ｅ）におけるマイクロホンＭは、環境（周囲）ノイズおよび再生コンテンツ（エコー）の両方を受け取る。

ノイズ補償再生コンテンツ２５は、（素子２６において）変換され、（素子２７において）ダウンミックスされ周波数帯域化されて、値Ｓ’を生成する。マイクロホン出力信号は、（素子３２において）変換され、（素子３３において）帯域化され、値Ｍ’を生成する。エコー・キャンセラ（３４）が採用される場合、エコー・キャンセラからの残留信号（エコーキャンセルされたノイズ推定値）は、値Ｍｒｅｓ’を生成するために（素子３５において）帯域化される。

サブシステム４３は、マイクロホンからデジタルマッピングに従った較正ゲインＧ（各周波数帯域毎）を決定し、これは、それがタップオフされてノイズ推定器に供給される点（例えば、時間－周波数領域変換素子２６の出力）におけるデジタル領域内の再生コンテンツと、マイクロホンによって受信されるような再生コンテンツとの間の周波数帯域毎のレベル差を捕捉する。ゲインＧの現行の値の各セットは、サブシステム４３からノイズ推定器３７に供給される。

サブシステム４３は、以下の３つのデータソースの少なくとも１つにアクセスする：
（メモリ４０に記憶されたｓ）ファクトリ・プリセット・ゲイン；
前のセッション中に（サブシステム４３によって）生成された（そしてメモリ４１に記憶された）ゲインＧの状態；
ＡＥＣ（例えば、エコー・キャンセラ３４）が存在する場合の、使用中の、帯域化ＡＥＣフィルタ係数エネルギー（例えば、エコー・キャンセラによって実施される、図２のフィルタＷ’に対応する適応フィルタを決定するもの）。これらの帯域化ＡＥＣフィルタ係数エネルギー（例えば、図１２のシステムの帯域化素子３６からサブシステム４３に提供されるもの）は、ゲインＧのオンライン推定として機能する。

ＡＥＣが採用されない場合（例えば、エコー・キャンセラ３４を含まない図１２のシステムのバージョンが採用される場合）、サブシステム４３は、メモリ４０または４１内のゲイン値から較正ゲインＧを生成する。

従って、いくつかの実施形態では、サブシステム４３は、サブシステム３７によって再生信号、マイクロホン出力信号、およびエコー・キャンセレーション残留値に適用するための較正ゲイン（例えば、帯域化要素３６から提供される帯域化ＡＥＣフィルタ係数エネルギーから）を決定して、ノイズ推定を実施することによって、図１２のシステムが自己較正を実行するように構成される。

再び図１２を参照すると、ノイズ推定器３７によって生成されたノイズ推定値のシーケンスは、任意選択的に（サブシステム３９において）後処理され、それに以下の動作のうちの１つまたは複数を実行することによることが含まれる：
部分的に更新されたノイズ推定値からの欠落ノイズ推定値のインピュテーション；
音色を保持するための現行ノイズ推定の形状の制約；および、
現行ノイズ推定値の絶対値の制約。

サブシステム４３によって実行されるマイクロホン－デジタルマッピングは、ゲイン値Ｇを決定するために、それがタップオフされてノイズ推定器に供給される点（例えば、時間－周波数領域変換素子２６の出力）におけるデジタル領域内の再生コンテンツと、マイクロホンによって受信されるような再生コンテンツとの間の（周波数帯域毎の）レベル差を捕捉する。マッピングは、主に、スピーカシステムとマイクロホンの物理的な分離と特性、さらにサウンドの再生およびマイク信号の増幅に使用される電気的な増幅ゲインによって決まる。

最も基本的な例では、マイクロホン－デジタルマッピングがあらかじめ記憶されたファクトリチューニングであり、デバイスのサンプルにわたって生産設計中に測定され、生産される全てのそのようなデバイスに再利用されてもよい。

ＡＥＣ（例えば、図１２のエコー・キャンセラ３４）が使用される場合、マイクロホン－デジタルマッピングに対するより高度な制御が可能である。ゲインＧのオンライン推定は適応フィルタ係数の（エコー・キャンセラによって決定される）大きさをとり、それらを帯域化することによって決定することができる。十分に安定したエコー・キャンセラ設計のために、そして推定ゲイン（Ｇ’）に関する十分な平滑化を用いて、このオンライン推定は、オフラインの事前に準備されたファクトリ較正と同程度に良好であることができる。これにより、ファクトリチューニングの代わりに、推定ゲインＧ’を使用することが可能になる。推定ゲインＧ’を計算することの別の利点は、ファクトリのデフォルトからのデバイス当たりの偏差を測定し、考慮することができることである。

推定ゲインＧ’はファクトリで決定されたゲインに置き換えることができるが、ファクトリのゲインとオンライン推定ゲインＧ’の両方を組み合わせる、各帯域についてゲインＧを決定するためのロバストなアプローチは以下の通りである：

ここで、Ｆは帯域のファクトリゲインであり、Ｇ’は帯域の推定ゲインであり、Ｌはファクトリ設定からの最大許容偏差である。全てのゲインはｄＢである。値Ｇ’が長期間にわたり示された範囲を超える場合、これは故障したハードウェアを示すことができ、ノイズ補償システムは安全な挙動に戻ることを決定することができる。

本発明の一実施形態に従って、（例えば、図１２システムの素子３７によって）生成されるノイズ推定値のシーケンスに関して、（例えば、図１２のシステムの素子３９によって）実行される後処理ステップを使用して、より高品質のノイズ補償体験を維持することができる。例えば、ピークを除去するためにノイズスペクトラムを特定の形状に強制的に適合させる後処理は、補償ゲインが再生コンテンツの音色を不快な方法で歪ませるのを防ぐのに役立つことができる。

本発明のノイズ推定方法およびシステムのいくつかの実施形態の態様は、後処理（例えば、図１２のシステムの素子３９の実装によって実行される）であり、例えば、他の帯域に対するノイズ推定値は十分に更新されているが、再生コンテンツのギャップの欠如によって古くなった古いノイズ推定値（いくつかの周波数帯域に対する）を更新するためにインピュテーション補完戦略を実装する後処理である。十分な数のギャップ（強制ギャップアプリケータ７０の動作によって挿入された強制ギャップを含む）が常に利用可能であり、帯域が古くなることはめったにない実施形態では、古い値のインピュテーションは必要でないことがある。

上述したように、強制ギャップアプリケータ７０の動作は、エコー・キャンセラを含まない図１２のシステムのバージョンの実施を可能にするために、コンテンツ２５に十分な数のギャップ（強制ギャップを含む）を存在させることができる。望ましくは、ノイズ補償システムからエコー・キャンセラを除去することは：
エコー・キャンセラは、キャンセレーション性能と安定性を確保し同調するために大量の時間とリサーチを必要とするので、大量の開発時間を節約し；
（エコー・キャンセレーションを実施するための）大きな適応フィルタバンクは典型的には大きなリソースを消費し、しばしば実行するために高精度の算術演算を必要とするので、計算時間を節約し、
マイクロホン信号と再生オーディオ信号との間の共有クロックドメインおよび時間アラインメントの必要性を排除する。エコー・キャンセレーションは、同じオーディオクロック上で同期されるべき再生信号と記録信号の両方に依存する。

（例えば、エコー・キャンセレーションなしで、本発明の典型的な実施形態のいずれかに従って実施される）ノイズ推定器は、さらなる複雑さの節約のために、増加したブロック率／より小さいＦＦＴサイズで実行することができる。周波数領域で実行されるエコー・キャンセレーションは、典型的には狭い周波数分解能を必要とする。

本発明の幾つかの実施例に従った、ノイズ推定値を生成するためにエコー・キャンセレーションを使用する場合（強制ギャップの再生信号への挿入によることを含む）、エコー・キャンセラの性能はユーザ体験を損なうことなく低減することができ（ユーザがノイズ補償された再生コンテンツを聴く場合、本発明のそのような実施例に従って生成されるノイズ推定値を使用して実装される）、なぜなら、エコー・キャンセラは、再生コンテンツにおけるギャップ（強制ギャップを含む）を明らかにするために十分なキャンセレーションを実行するだけでよく、再生コンテンツのピークに対して高いＥＲＬＥを維持する必要がないからである（ここで「ＥＲＬＥ」はエコー・キャンセラによって、ｄＢ単位で、どれだけのエコーが除去されるかの測度であるエコーリターンロス強化を示す）。

次に、緊急度値または緊急度値を示す信号（Ｕ）を決定するための方法（本発明のパーベイシブ・リスニング方法の多くの異なる実施形態のいずれかで実施することができる）について説明する。

周波数帯域の緊急値は、帯域内にギャップを強制する必要があることを示す。緊急度値を決定するための３つの方策Ｕ_ｋを示し、ここでＵ_ｋは帯域ｋでの強制ギャップ挿入の緊急度を示し、ＵはＢ_{ｃｏｕｎｔ}周波数帯域のセットの全帯域に対する緊急度値を含むベクトルを示す：

第１の戦略（本明細書では方法１と呼ばれることもある）は、固定された緊急度値を決定する。この方法は最も単純であり、緊急度ベクトルＵを所定の固定量にするだけである。固定された知覚自由度メトリックと共に使用される場合、これは、強制ギャップを時間ランダムに挿入するシステムを実施するために使用することができる。図７または図８のシステムは、この方法がパーベイシブ・リスニング・アプリケーションによって供給される時間依存緊急度値を必要としないので、この方法を実施するのに十分である。従って：

であり、ここで、Ｘ＝Ｂ_{ｃｏｕｎｔ}であり、それぞれの値ｕ_ｋ（ｋ＝１からｋ＝Ｂ_{ｃｏｕｎｔ}までの範囲のｋについて）は、「ｋ」帯域に対する所定の固定された緊急度値である。すべてのｕ_ｋを１．０に設定すると、すべての周波数帯域で同等の緊急度を表す。

第２の戦略（本明細書では方法２と呼ばれることもある）は、以前のギャップが発生してからの経過時間に依存する緊急度値を決定する。典型的には、緊急度が時間の経過と共に徐々に増加し、強制されたまたは既存のギャップのいずれかが、パーベイシブ・リスニングの結果における更新（例えば、バックグラウンドノイズ推定値更新）を引き起こすと、ローに戻ることを予想することができる。

従って、各周波数帯域（帯域ｋ）における緊急度の数値Ｕ_ｋは、帯域ｋにおいて（パーベイシブ・リスナによって）ギャップが見られてからの秒数である可能性がある。従って：

であり、ここで、ｔ_ｇは帯域ｋの最後のギャップが検出された時刻であり、Ｕ_ｍａｘは緊急度を最大サイズに制限するチューニングパラメータである。なお、ｔ_ｇは、本来再生コンテンツに存在するギャップの存在に基づいて更新されてもよい。緊急度は、このようにして、強制ギャップアプリケータ（例えば、図７または図８のシステム）によって、またはパーベイシブ・リステニング・サブシステム（例えば、図９、図１０、図１１、または図１２のシステム）によって計算することができる。緊急度がパーベイシブ・リステニング・サブシステムによって計算される場合、ギャップと見なされるものの基準は、そのサブシステムにとって（緊急度が外部で決定される場合よりも）より適切である可能性がある。例えば、ノイズ補償において、再生環境における現行のノイズ条件は、出力再生信号におけるギャップと考えられるものを決定する。すなわち、再生信号は、環境においてよりノイズの多い場合よりも、ギャップが生じるために環境が静かである場合に、より静かでなければならない。同様に、人間のスピーチによって典型的に占有される周波数帯域に対する緊急度は、典型的には再生環境においてユーザによるスピーチ発話の発生または非発生に依存するパーベイシブ・リスニング方法を実施する場合に、より重要である。

第３の戦略（本明細書では方法３と呼ばれることもある）は、イベントベースの緊急度値を決定する。この文脈において、「イベントベースの」とは、再生環境の外部にある、または再生環境で生じたことを検出または推測された何らかのイベントまたは活動（または情報の必要性）に依存することを意味する。パーベイシブ・リスニング・サブシステムによって決定される緊急度は、新たなユーザ行動の開始または再生環境条件の変化に伴って突然変化することがある。例えば、そのような変化は、決定を下すために、または再生体験を新しい条件に迅速に適合させるために、または各帯域におけるギャップ間の一般的な緊急度または所望の密度および時間の変化を実施するために、パーベイシブ・リスナにバックグラウンド活動を観察する緊急の必要性を持たせることができる。以下の表２は、コンテキストとシナリオの多くの例と、緊急度における対応するイベントベースの変更を示す：

第４の戦略（本明細書では方法４と呼ばれることもある）は、方法１、２、および３のうちの２つ以上の組合せを使用して緊急度値を決定する。例えば、方法１、２、および３のそれぞれは、以下のタイプの一般的な定式化によって表される、結合戦略に組み合わされてもよい：

ここで、ｕ_ｋは、それぞれの周波数帯域の相対的重要度を制御する固定された単位なし重み係数であり、Ｖ_ｋは、緊急度の迅速な変更を必要とするコンテキストまたはユーザ挙動の変化に応じて変調されるスカラ値であり、ｔ_ｇおよびＵ_ｍａｘは、上記で定義される。典型的には、値Ｖ_ｋは、通常の動作では１．０の値のままであることが期待される。

次に、再生信号に強制ギャップを挿入するために強制ギャップアプリケータによって使用される知覚自由度値（またはそれを示す信号）を決定するための方法（本発明のパーベイシブ・リスニング方法の多くの異なる実施形態のいずれにおいても実施され得る）を説明する。

この文脈において、「Ｆ」は、知覚自由度値ｆ_ｋを示す「知覚自由度」信号であると定義され、ここで、そのような知覚自由度値の各々は、ある時点における対応する帯域ｋにおけるギャップを強制する知覚インパクトが低い場合には、比較的大きなマグニチュードを有し、ある時点における帯域ｋにおけるギャップを強制する知覚インパクトが高い場合には、（比較的大きなマグニチュードよりも小さい）比較的小さなマグニチュードを有する。例えば、知覚自由度ｆ_ｋは、「ｋ」番目の帯域における強制ギャップによって導入される知覚歪みの逆数であってもよい。

第１の戦略は、固定された知覚自由度値を決定する。例えば、「Ｆ」は、所定の固定ベクトルであってもよい：

ここで、Ｘ＝Ｂ_{ｃｏｕｎｔ}（強制ギャップが挿入される可能性のある利用可能な帯域の数）および値ｆ_ｋ（ｋ＝１～ｋ＝Ｂ_{ｃｏｕｎｔ}の範囲のｋの場合）は、「ｋ」帯域の所定の固定された知覚自由値である。すべてのｆ_ｋに対するｆ_ｋ＝１．０のフラット構造は、（強制ギャップは同一の知覚自由度に応じて帯域の特定の帯域に優先的に挿入されないという意味で）すべての帯域を等しく扱うが、異なる周波数帯域が知覚性に本質的な違いを持つことは事実である。特に、１ｋＨｚ未満と６ｋＨｚを超える帯域に挿入されるギャップは、これらの周波数間のギャップよりも知覚的に影響が大きくなる。この現象を考慮に入れた固定された知覚自由度ベクトルは、強制ギャップ挿入のいくつかの実施形態において有効であり得る。

第２の戦略は、知覚マスキング曲線を使用して知覚自由度値を決定する。この戦略では、再生コンテンツのストリームに挿入された強制ギャップは、一種の歪みと見なすことができる。周波数ビンの離散的なセットの中から歪みを配置する周波数ビン（または帯域）を選択することは、情報隠蔽および損失のあるオーディオコーデックの技術においても遭遇する問題である。情報隠蔽および損失性オーディオ圧縮の当業者は、知覚マスキング曲線の概念に精通している。このような曲線は、ノイズの追加から生じる歪みが人間のリスナに聞こえない場所を示すのに役立つ。

任意の数の心理音響効果を利用する知覚マスキング曲線を決定するための多くの既知の方法がある。例えば、このような２つの方法は、周波数マスキングおよび経時マスキングである。このような方法の例は、Ｓｗａｎｓｏｎ，Ｍ．Ｄ．，Ｋｏｂａｙａｓｈｉ，Ｍｅｉ，ａｎｄＴｅｗｆｉｋ，Ａｈｍｅｄ（１９９８），ＭｕｌｔｉｍｅｄｉａＤａｔａ－ＥｍｂｅｄｄｉｎｇａｎｄＷａｔｅｒｍａｒｋｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ，Ｖｏｌ．８６，Ｉｓｓｕｅ６、１０６４～１０８７頁に記載されている。

２番目の方策に従ってｆ_ｋ値を計算するために、Ｂ_{ｃｏｕｎｔ}帯域にわたって離散値を持つ知覚マスキング曲線Ｍを導入する。図１４は、再生コンテンツの現行の帯域化されたエネルギー（曲線Ｅ）および再生コンテンツに対する知覚マスキング曲線（曲線Ｍ）の例であり、各曲線は、４９の指数関数的に間隔を置いた周波数帯域（帯域０から帯域４８）のそれぞれについて、（縦軸に示される）ｄＢでのエネルギー対（横軸に示される）周波数の関数としてプロットされる。エネルギーＥがマスキング曲線Ｍよりも低い帯域における再生コンテンツの修正は、エネルギーＥがマスキング曲線Ｍよりも高い帯域におけるよりも知覚的に聞こえにくい。従って、（「ｋ」番目の帯域に対する）曲線の値の間隔を「ｋ」番目の帯域に対する知覚的自由度ｆ_ｋとする：

次に、知覚マスク計算に従って知覚自由度値を決定するための例示的な実施形態について説明する。このサンプルでは、帯域化再生コンテンツエネルギー（Ｅ_ｋ）は、

、および、帯域のマスク閾値（Ｍ_ｋ）を生成することが目的である：

であり、その結果、「ｋ」番目の帯域に対する知覚自由度ｆ_ｋである差Ｍ_ｋ-Ｅ_ｋ（「ｋ」番目の帯域に対する）は、「ｋ」番目の帯域における強制ギャップの知覚可能性に反比例する値である。ここでのマスキング閾値の定義は、強制ギャップを挿入することの知覚不能性を約束しない。制御された信号および条件で知覚不能性が証明され実証されているシナリオにおいて、マスキング曲線をどのように使用するかは周知であるが、知覚自由度の計算は、曲線がこれを示すことのみを必要とし、規範的ではない。

ラウド信号には、「周波数マスキング」（または「スペクトルマスキング」または「同時マスキング」）として知られる現象で、周波数の近くにあるより静か（クワイエット）な信号をマスクする機能がある。本例では、帯域エネルギーＥに周波数マスキングを適用し、次のアルゴリズムに従ってエネルギーを拡散させてマスキング閾値Ｍ_ｋを決定する：

帯域、ｋ＝１，２，．．．, Ｂ_{ｃｏｕｎｔ}－１の場合、

帯域、ｋ＝０，１，．．．, Ｂ_{ｃｏｕｎｔ}－２の場合、

ここで、行は順番に実行され（実行のたびにＭ_ｋの値「ｋ」を更新する）、ｓ_ｋは心理音響モデルから導かれた拡散係数である。拡散係数は、典型的には対応する周波数帯の帯域幅に比例する。帯域幅の増加とともに対数間隔の帯域では、通常、以下の単純な線形近似で十分である：

ここで、

ラウド信号の再生には、「経時マスキング」と呼ばれる現象である、その後すぐに発生するより静か（クワイエット）な信号の再生をマスクする機能がある。本例では、帯状エネルギーに適用された減衰指数関数によって時間的マスキングをモデル化する。本例では、順向経時マスキングがマスキング曲線（時間ｔの異なった値に対する各曲線）に対するマスキング閾値Ｍ_ｋ，ｔを決定するために適用され、ここで、Ｍ_ｋ，ｔは、上記決定されたマスキング閾値Ｍ_ｋの各々のＴ個の以前の値に指数関数的に切り捨てられたモデルを適用する次のアルゴリズムに従って、時間ｔに対する曲線に対する周波数帯域ｋに対するマスキング閾値である：

各帯域の最大値（“ｍａｘ（）”）ｋが、その帯域のＴ個の項（時間ｔの値Ｍ_ｋ、および前のＴ－１回のそれぞれの値）に引き継がれる。上記の式におけるパラメータαは、システムのブロック率／サンプリング率に依存する指数関数の減衰率である。０．１ｄＢ／ｍｓの減衰率を達成するαの値は、αの顕著なデフォルト値である。

マスキング閾値を決定する例示的な方法は、マスキング曲線を強調するステップを任意選択で含む。このステップでは、マスキングカーブを強調して、低エネルギー帯域に対してカーブを上方に持ち上げ、これは、典型的には、強調されたカーブをギャップの挿入に使用した場合に良好な結果を達成する。この最終ステップは任意選択であり、（強調されていない）マスキング曲線が強制ギャップの適用には控えめすぎる場合に有用である。強調するステップの典型的な実施は、以前に決定された各々の値Ｍ_ｋを、以下の強調された値に置き換える：

次に、本発明のいくつかの実施形態に従って実施される、確率的強制ギャップ挿入の典型的な態様について述べる。

緊急度値および知覚自由度値が計算されるか、または決定されると、それらは（強制ギャップ挿入のいくつかの実施形態では）組み合わされて、（上述した）離散確率分布Ｐを形成する：

ここで、パラメータδは、知覚自由度（Ｆ_ｋ）に対する緊急度値（Ｕ_ｋ）の相対的重要度を制御する。このような確率分布は、チューニングや制御に便利である。

分析の各フレームにおいて（前段落の確率分布を使用して）強制ギャップを挿入する再生信号の帯域を選択する、アルゴリズムの例は、以下の通りである：
１．解析の現行フレームの値Ｕ_ｋ、およびＦ_ｋを計算または決定する（任意選択で、値Ｕ_ｍａｘを超えないように値Ｕ_ｋを制限する）；
２．強制ギャップ挿入のために帯域を選択（導出）する（分布Ｐの）数値Ｐ_ｋを計算する；
３．ギャップが最後に強制されてから少なくともＴ_ｐ秒が経過した場合は
ａ．分布ＰからＮ個の帯域をランダムに引き出し、
ｂ．Ｕ_ｋが閾値Ｕ_ｍｉｎを下回っている帯域、またはＦ_ｋが閾値Ｆ_ｍｉｎを上回っている帯域をすべて破棄し、
ｃ．ステップ３ａおよび３ｂの後に残っている帯域にギャップ強制を開始する。

分布Ｐからランダムに選択することによって、ギャップの構造化されたパターンが回避され、そうでなければ、それ自体の知覚可能なアーチファクトを生成することになる。ステップ３ｂは、最終的に、生成されるギャップの実際の数を減少させるが、チューニングが非常に容易であり、システムの知覚コストに高度に関連するという重要な利点を有する。より低い知覚可能な影響および緊急度に対するタイムリーな応答のために一般的な分布形状を最適化するための、例示的な方法におけるパラメータの値の典型的なデフォルトは、以下の表に記載される。

次に、図１５を参照して、本発明の強制ギャップアプリケータの実施形態（例えば、図７、図８、図９、図１０、図１１、または図１２の強制ギャップアプリケータ７０の実施形態）を説明する。強制ギャップアプリケータのこのような実施例のブロック図である図１５に示すように、強制ギャップアプリケータへの入力はオーディオ再生信号のＫ個のチャネル（例えば、図１５のシステムが図８の強制ギャップアプリケータ７０を実装する場合、図８のパーベイシブ・リスナ・サブシステム７２から出力されたＫ個のチャネル）である。図１５のシステムは、Ｋ個のインプットチャネルをモノフィードにダウンミックスし、モノフィードを帯域化するように構成されたダウンミキシングおよび帯域化サブシステム８０を含み、それによって、モノフィードのＢ_{ｃｏｕｎｔ}周波数帯域のセットの各々の各時間間隔について再生エネルギー値を決定する。サブシステム８０の出力は知覚自由度信号Ｆを計算するように構成された知覚マスキングサブシステム８１に提供され、これは時間間隔ごとにＢ_{ｃｏｕｎｔ}周波数帯の各々に対する知覚自由度値Ｆ_ｋを示す。サブシステム８１は知覚自由度値、Ｆ_ｋを決定するように構成することができ、結果、それらは本明細書に記載する知覚自由度値の例示のいずれかである。

サブシステム８１の出力は確率分布サブシステム８２に提供され、これは確率分布Ｐ（例えば、固定された、時間不変分布、またはモノフィードの異なる時間間隔に対応する時間で更新される分布）を決定するように構成される。確率分布に従って、周波数帯域のＮ個のセット（例えば、モノフィードの時間間隔ごとのＮ個の帯域のセット）をサブシステム８３によってランダムに導出することができ、従って、サブシステム８４は導出された帯域の各セットに強制ギャップを挿入することができる。サブシステム８２は、典型的には、確率分布Ｐを、（本開示で上述される）以下の形式の分布となるように生成する（および任意選択で、モノフィードのいくつかの異なる時間間隔のそれぞれについて更新する）ように構成される：

ここで、

そして、Ｆ_ｋはサブシステム８１によって決定された（例えば、関連する時間間隔のための）知覚自由値であり、Ｕ_ｋは各帯域の緊急度を示す値（すなわち、Ｕ_ｋは「ｋ」番目の帯域の緊急度値）であり、Ｐ’_ｋは「ｋ」番目の帯域の選択の（非正規化）確率であり、δは緊急度と知覚自由度の考慮の相対的重要度を示すパラメータであり、その合計は（Ｐ_ｋが「ｋ」番目の帯域のためのＰ’_ｋの正規化バージョンであるように）すべての周波数帯域にわたる。

いくつかの実装形態では、（例えば、再生信号の時間間隔について）緊急度値Ｕ_ｋを示す帯域化緊急度信号Ｕが外部源（例えば、図９のパーベイシブ・リスナ・サブシステム７３または図１１のノイズ推定サブシステム６４）からサブシステム８２に提供される。外部ソースは、典型的には、パーベイシブ・リスナ（例えば、スマートボイスアシスタント、ノイズ推定器、またはバックグラウンドアクティビティ分類器）である。代替的に、サブシステム８２は、（例えば、再生信号の時間間隔について）緊急度値Ｕ_ｋを決定するように構成され、その結果、それらは例えば、本明細書に記載される緊急度値の例のいずれかである。サブシステム８２は、緊急度値Ｕ_ｋおよび知覚自由度値であるＦ_ｋを組み合わせて、確率分布Ｐを決定（および場合によっては更新）するように構成される。

サブシステム８３は、サブシステム８２によって決定された確率分布Ｐから（対応する時間間隔に対して）Ｎ個の帯域のセットをランダムに（モノフィードの各時間間隔に対して１回）選択（導出）し、典型的には、導出された帯域の各セットの帯域が（上述の種類の）最低要件Ｆ_ｍｉｎおよびＵ_ｍｉｎを満たすことを検査するように結合され、構成される。導出された帯に対応する緊急度値Ｕ_ｋまたは知覚自由度値Ｆ_ｋが最低要求、Ｆ_ｍｉｎおよびＵ_ｍｉｎのうちの関連するものを満たさない場合、その帯域は、典型的には不要なものとされる（その中に強制的なギャップは挿入されない）。

サブシステム８３は、ギャップ適用サブシステム８４に、強制ギャップが挿入されるべき帯域の各セット（サブシステム８０によって決定されるモノフィードの各時間間隔に対して１セット）を通知するように構成される。このような各通知に応じて、サブシステム８４は、通知された各帯域に強制ギャップを（適切な時間間隔の間に）挿入するように構成される。各強制ギャップの挿入は、適用される強制ギャップゲインＧの計算を含み、これらのゲインを、再生コンテンツのＫ個のチャネルに、（各チャネルの）適切な周波数帯域および時間間隔で適用し、それによって、再生中に非再生サウンドを（パーベイシブ・リスナによって）モニターすることができる、そのようなチャネルの各々に強制ギャップを挿入する。

次に、緊急度値を決定するための方法の異なる選択肢（すなわち、上述の方法１、２、３、および４）と、知覚自由度値を決定するための方法の異なる選択肢（すなわち、固定知覚自由度値を決定するための上述の方法と、少なくとも１つのマスキング曲線を使用して知覚自由度値を決定するための上述の方法）とを仮定して、典型的な強制ギャップ適用システムの挙動について説明する。表３（以下に記載）は、緊急度値および知覚自由度値を決定する方法の示された選択について、強制ギャップ適用システムの典型的な挙動を比較する。

以下の表は、低知覚コストで強制ギャップを挿入するために異なるタイプのマスキングに依存し得る強制ギャップ挿入の異なる実施形態の態様を説明する。これらの態様は、いくつかの実施形態において、知覚自由度の計算のための知覚マスキング曲線を形成し、作成するのに有用な要因を含む。

本発明のいくつかの実施形態の態様は以下を含む：
ユーザに著しい知覚的影響を与えることなく、パーベイシブ・リスニング方法の性能を（再生サウンドおよび非再生サウンドの両方を捕捉するためにローカル・マイクロホンを使用して）改善する目的で、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム；
そのようにする緊急度または必要性に基づいて、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム；
マスキング曲線を使用することによって、相対的な知覚的影響に基づいて再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム；
ギャップ挿入の相対的な知覚的影響とギャップ挿入の緊急度とのバランスに基づいて、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム；
（再生オーディオのバージインダッキングまたは一時停止とは対照的に）パーベイシブ・リスニング方法の性能を改善する目的で、強制サンプリングギャップを再生コンテンツに挿入するための方法およびシステムであって、それによって、強制サンプリングギャップの定義パラメータがノイズ推定値の成分が更新されていない持続時間に比例して決定され、および／または、強制サンプリングギャップの定義パラメータが、再生オーディオ信号に対する時間および空間におけるそれらの近接性を考慮することによって、強制ギャップの知覚的影響を最小限にする最適化プロセスによって決定される、方法およびシステム；
強制サンプリングギャップの使用を通じてノイズ補償機能を拡張する方法およびシステムであって、それによって、再生コンテンツにおけるギャップの存在を強制するトリガが、ノイズ推定の成分が更新されてから経過した時間の持続時間に自動的にリンクされ、および／または、それによって、再生コンテンツにおけるギャップの存在を強制するトリガが、二次デバイスまたはユーザの要求によってリクエストされる、方法およびシステム；
例えば、強制ギャップの挿入に対する累積された必要性または要望に対してバランスが取られた、強制ギャップ挿入の影響に対する知覚モデルを使用した、強制ギャップ挿入によることを含む、ノイズ補償機能および／またはバックグラウンドサウンド認識を拡張する方法およびシステム。

次に、ノイズ補償を実施する発明のシステム（例えば、図１１または図１２のシステム）の実施形態の動作例を説明する。システム（例えば、図１１のサブシステム６４）によって決定されたノイズ推定値が再生コンテンツにおけるサンプリングギャップの欠如のために固定するとき、３つのシナリオが展開することができる：
１．ノイズ条件が増加する一方、推定値は固定される；
２．ノイズ状態が減少する一方、推定値は固定される、；または、
３．ノイズ状態は持続する一方、推定値は固定される。

ケース３（ノイズ状態が持続する場合）では、システムは以前に決定された方法で補償を実行し続けるが、システムはこのケースを他のケースと区別することができないので、ケース３の間にギャップを強制することの影響を考慮する。

以下の表４は、再生コンテンツにおいて利用可能なサンプリングギャップの欠如によってもたらされる古いノイズ推定に対抗するために強制ギャップが導入される３つのシナリオの評価を示す。

ケース１およびケース２は、システムが（挿入された強制ギャップを用いて）正確なノイズ推定値に再収束するのに要する時間だけ持続する、短寿命のイベントであると予想される。ケース１は、小さなギャップでさえ、システムが増加したノイズ状態を見つけるのに役立つので、迅速に再収束すべきである。また、ケース２は、安定性に対してより低いノイズ推定値を好む補償システムにおける正のフィードバックのために、迅速に再収束すべきである。ケース３は、コンテンツが密であり、ギャップが少ない限り、システムの定常状態である。従って、強制ギャップがオーディオ品質に及ぼす影響は、主にケース３について考慮されるべきである。

表４は、強制ギャップの緊急度と潜在的知覚可能性との間の傾向を示す。より高い緊急度は、一般的に、システムがバックグラウンドの状態を聞くのに苦労していることを意味し、そのため、再生コンテンツの信号対ノイズ比（ＳＮＲ）は高い。バックグラウンドノイズに対する再生コンテンツのより高いＳＮＲはより少ないマスキングを提供し、強制ギャップがより知覚可能になる機会を増加させる。

本発明の方法の例示的な実施形態は以下を含む。

Ｅ１．オーディオ再生信号の少なくとも１つの選択された周波数帯域内に少なくとも１つのギャップを挿入して、修正された再生信号を生成することと、
前記修正された再生信号に応じた再生環境におけるサウンドの放出中に、前記再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、前記サウンドは前記修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は、前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、使用して生成することと、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドをモニターすることと、を含む、パーベイシブ・リスニング方法。

Ｅ２．前記ギャップの各々は、前記オーディオ再生信号の、選択された時間間隔で、選択された周波数帯域内に挿入されて、前記ギャップの挿入に起因する、前記修正された再生信号に応じて前記再生環境内で放出される前記サウンド内の任意のアーチファクトは、前記再生環境内のユーザに対して低い知覚性を有し、前記モニターすることの実行中に高い識別性を有する、Ｅ１に記載の方法。

Ｅ３．前記ギャップの各々は、前記修正された再生信号に応じて前記再生環境において放出されるサウンドが前記ギャップの挿入に起因する著しいアーチファクトなしにユーザによって知覚可能であるように、前記オーディオ再生信号の選択された時間間隔で、選択された周波数帯域内に挿入される、Ｅ１に記載の方法。

Ｅ４．前記ギャップの各々は、前記オーディオ再生信号の選択された周波数帯域内に挿入され、前記選択された周波数帯域の各々は、前記オーディオ再生信号の周波数帯域のセットから、前記周波数帯域のセットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して実施される選択によって決定される、Ｅ１に記載の方法。

Ｅ５．前記知覚自由度値は、少なくとも１つの周波数マスキングの考慮に従って決定されて、前記知覚自由度値のうちの１つが、周波数帯域の前記セットのピークエネルギー帯域に近い近ピーク帯域についての近ピーク値であるとき、前記知覚自由度値のそれぞれは、前記ピークエネルギー帯域から前記近ピーク帯域よりも遠い帯域について、前記近ピーク値よりも大きい予想される知覚効果を示す、Ｅ４に記載の方法。

Ｅ６．前記知覚自由度値は、少なくとも１つの経時マスキングの考慮に従って決定されて、その結果、前記オーディオ再生信号が少なくとも１つのラウド再生サウンドイベントを示すとき、前記ラウド再生サウンドイベントの直後に生じる前記オーディオ再生信号の第１の時間間隔に対する前記知覚自由度値のそれらが、前記オーディオ再生信号の第２の時間間隔に対する前記知覚自由度値のそれらよりも低い予想される知覚効果を示し、前記第２の時間間隔は前記第１の時間間隔よりも遅い、Ｅ４に記載の方法。

Ｅ７．前記パーベイシブ・リスニング方法はノイズ推定方法であり、前記マイクロホン出力信号は前記再生環境におけるバックグラウンドノイズを示し、前記モニタリングは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境におけるバックグラウンドノイズ推定値を生成することを含む、Ｅ１に記載の方法。

Ｅ８．前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも１つの態様の推定値を生成することを含み、
前記再生環境における非再生サウンドの少なくとも１つの態様の推定値に応じて、前記オーディオ再生信号を生成することを、さらに含む、Ｅ１に記載の方法。

Ｅ９．前記ギャップの各々は、前記再生信号の少なくとも１つの周波数帯域におけるギャップの必要性に基づいて、前記再生信号内に挿入される、Ｅ１記載の方法。

Ｅ１０．前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に挿入される、Ｅ９記載の方法。

Ｅ１１．前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に挿入される、Ｅ９に記載の方法。

Ｅ１２．前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも１つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度と予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に挿入される、Ｅ９に記載の方法。

Ｅ１３．前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
前記確率分布に従って、前記セットの周波数帯域のうちの少なくとも１つをランダムに選択し、前記少なくとも１つの周波数帯域のそれぞれにギャップを挿入することと、を含む、Ｅ１に記載の方法。

Ｅ１４．前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、Ｅ１３記載の方法。

Ｅ１５．前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、Ｅ１３に記載の方法。

Ｅ１６．前記マイクロホン出力信号および前記修正された再生信号に応じて、緊急度値を生成すること、を含み、
前記緊急度値は、前記再生信号の周波数帯域のセットの各帯域において、前記各帯域における前のギャップの発生からの経過時間に基づいて、ギャップの必要性を表し、前記再生信号への各ギャップの挿入は、少なくとも部分的に前記緊急度値に基づいている、Ｅ１に記載の方法。

Ｅ１７．前記非再生サウンドの前記モニターすることは、バックグラウンドノイズ推定値の生成を含み、
前記バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を実行することによることを含む、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成すること、をさらに含む、Ｅ１に記載の方法。

Ｅ１８．再生環境においてサウンドの放出中にマイクロホン出力信号を生成するように配置および構成されたマイクロホンであって、前記サウンドは修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、マイクロホンと、
オーディオ再生信号を受信するように結合され、前記オーディオ再生信号の少なくとも１つの選択された周波数帯域内に少なくとも１つのギャップを挿入し、それによって前記修正された再生信号を生成するように構成された、強制ギャップ適用サブシステムと、
マイクロホン出力信号および前記修正された再生信号を受信するように結合され、前記修正された再生信号および前記マイクロホン出力信号に応じて前記再生環境における前記非再生サウンドをモニターするように構成される、パーベイシブ・リスニング・サブシステムと、を含む、システム。

Ｅ１９．前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の、選択された時間間隔で、選択された周波数帯域内に前記ギャップの各々を挿入するように構成されて、前記ギャップの挿入から生じる、前記修正された再生信号に応じて前記再生環境において放出されるサウンドにおけるいかなるアーチファクトも、前記再生環境におけるユーザに対する低い知覚性と、前記モニターすることの実行中の高い識別性とを有する、Ｅ１８に記載のシステム。

Ｅ２０．前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の周波数帯域のセットから、前記選択された周波数帯域の各々を選択することによることを含む、周波数帯域の前記セットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して、前記オーディオ再生信号の選択された周波数帯域内に前記ギャップの各々を挿入するように構成される、Ｅ１８に記載のシステム。

Ｅ２１．前記知覚自由度値は、少なくとも１つの周波数マスキングの考慮に従って決定されている、Ｅ２０に記載のシステム。

Ｅ２２．前記知覚自由度値は、少なくとも１つの経時マスキングの考慮に従って決定されている、Ｅ２０に記載のシステム。

Ｅ２３．前記マイクロホン出力信号は、前記再生環境におけるバックグラウンドノイズを示し、前記パーベイシブ・リスニング・サブシステムは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における前記バックグラウンドノイズ推定値を生成するように構成される、Ｅ１８に記載のシステム。

Ｅ２４．前記パーベイシブ・リスニング・サブシステムは、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも１つの態様の推定値を生成し、
前記再生環境における前記非再生サウンドの少なくとも１つの態様の推定値に応じて、前記オーディオ再生信号を生成するように、結合されおよび構成される、Ｅ１８に記載のシステム。

Ｅ２５．前記強制ギャップ適用サブシステムは、前記再生信号の少なくとも１つの周波数帯域におけるギャップの必要性に基づいて、前記ギャップの各々を前記再生信号内に挿入するように構成される、Ｅ１８に記載のシステム。

Ｅ２６．前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に前記ギャップの各々を挿入するように構成される、Ｅ２５に記載のシステム。

Ｅ２７．前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に前記ギャップの各々を挿入するように構成される、Ｅ２５に記載のシステム。

Ｅ２８．前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも１つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度および予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に前記各ギャップを挿入するように構成される、Ｅ２５に記載のシステム。

Ｅ２９．前記強制ギャップ適用サブシステムは、
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定し、
前記確率分布に従って、前記セットの前記周波数帯域のうちの少なくとも１つをランダムに選択し、前記少なくとも１つの周波数帯域のそれぞれにギャップを挿入するように構成される、Ｅ１８に記載のシステム。

Ｅ３０．前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、Ｅ２９に記載のシステム。

Ｅ３１．前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、Ｅ２９に記載のシステム。

Ｅ３２．前記パーベイシブ・リスニング・サブシステムは、前記マイクロホン出力信号および前記修正された再生信号に応じて緊急値を生成するように構成されており、前記緊急値は、前記各帯域における前のギャップの発生からの経過時間に基づいて、前記再生信号の周波数帯域のセットの各帯域におけるギャップの必要性を示し、前記強制ギャップ適用サブシステムは、前記緊急度値を受信するように結合され、および、少なくとも部分的に前記緊急値に基づいた方法で、前記ギャップの各々を前記再生信号内に挿入するように構成されている、Ｅ１８に記載のシステム。

Ｅ３３．前記パーベイシブ・リスニング・サブシステムは、
バックグラウンドノイズ推定値を生成することによることを含んで、非再生サウンドをモニターし、
バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を行うことによることを含んで、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成するように、結合されおよび構成されている、Ｅ１８に記載のシステム。

本発明の態様は本発明の方法の任意の実施形態を実行するように構成された（例えば、プログラムされた）システムまたはデバイスと、本発明の方法またはそのステップの任意の実施形態を実施するためのコードを記憶する有形のコンピュータ可読メディア（例えば、ディスク）とを含む。例えば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであってもよく、それらを含んでもよく、ソフトウェアまたはファームウェアでプログラムされてもよく、および／または本発明の方法またはそのステップの実施形態を含む、データに対する様々な動作のいずれかを実行するように他の方法で構成されてもよい。そのような汎用プロセッサは、入力デバイスと、メモリと、本発明の方法（またはそのステップ）の実施形態を、それにアサートされたデータに応じて実行するようにプログラムされる（および／または構成される）処理サブシステムとを含むコンピュータシステムであってもよく、またはそれを含んでもよい。

本発明のシステムのいくつかの実施形態（例えば、図１５のシステムのいくつかの実装、または図１２のシステムの素子６２、７０、２６、２７、３４、３２、３３、３５、３６、３７、３９、および４３、または図７のシステムの素子７０および７１、または図８のシステムの素子７０および７２、または図９のシステムの素子７０および７３、または図１０のシステムの素子７０、７４、および７６、または図１１のシステムの素子６２、７０および６４）は本発明の方法の実施形態の性能を含む、オーディオ信号に対して必要な処理を実行するように構成された（例えば、プログラムされた、さもなければ構成された）構成可能な（例えば、プログラム可能な）デジタル信号プロセッサ（ＤＳＰ）として実装される。あるいは、本発明のシステムの実施形態（例えば、図１５のシステムのいくつかの実装、図１２のシステムの素子６２、７０、２６、２７、３４、３２、３３、３５、３６、３７、３９、および４３、または図７のシステムの素子７０および７１、または図８のシステムの素子７０および７２、または図９のシステムの素子７０および７３、または図１０のシステムの素子７０、７４、および７６、または図１１のシステムの素子６２、７０および６４）はソフトウェアまたはファームウェアでプログラムされ、および／または本発明の方法の実施形態を含む様々な動作のいずれかを実行するように構成された汎用プロセッサ（例えば、パーソナルコンピュータ（ＰＣ）または他のコンピュータシステムもしくはマイクロプロセッサ、これらは、入力デバイスおよびメモリを含むことができる）として実装される。代替的に、本発明のシステムのいくつかの実施形態の要素は、本発明の方法の実施形態を実行するように構成された（例えば、プログラムされた）汎用プロセッサまたはＤＳＰとして実装され、システムは他の要素（例えば、１つまたは複数のスピーカおよび／または１つまたは複数のマイクロホン）も含む。本発明の方法の実施形態を実行するように構成された汎用プロセッサは、典型的には、入力デバイス（例えば、マウスおよび／またはキーボード）、メモリ、およびディスプレイデバイスに結合される。

本発明の別の態様は、本発明の方法またはそのステップの任意の実施形態を実行するためのコード（例えば、実行するために実行可能なコーダ）を記憶するコンピュータ可読メディア（例えば、ディスクまたは他の有形記憶メディア）である。

本発明の特定の実施形態および本発明の用途が本明細書に記載されてきたが、本明細書に記載され、特許請求される本発明の範囲から逸脱することなく、本明細書に記載される実施形態および用途に対する多くの変形が可能であることは当業者には明らかであろう。本発明の特定の形態を示し、説明したが、本発明は説明し、図示した特定の実施形態または説明した特定の方法に限定されるものではないことを理解されたい。

Claims

オーディオ再生信号の、選択された時間間隔で、少なくとも１つの選択された周波数帯域内に少なくとも１つのギャップを挿入して、修正された再生信号を生成することと、
前記修正された再生信号に応じた再生環境におけるサウンドの放出中に、前記再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、前記サウンドは前記修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は、前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、使用して生成することと、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドをモニターすることと、を含む、パーベイシブ・リスニング方法。
前記ギャップの各々は、前記オーディオ再生信号の、前記選択された時間間隔で、選択された周波数帯域内に挿入されて、前記ギャップの挿入に起因する、前記修正された再生信号に応じて前記再生環境内で放出される前記サウンド内の任意のアーチファクトは、前記ギャップの挿入がない場合と比較して、前記再生環境内のユーザに対して低い知覚性を有し、前記モニターすることの実行中に高い識別性を有する、請求項１に記載の方法。
前記ギャップの各々は、前記修正された再生信号に応じて前記再生環境において放出されるサウンドが前記ギャップの挿入に起因するアーチファクトなしにユーザによって知覚可能であるように、前記オーディオ再生信号の選択された時間間隔で、選択された周波数帯域内に挿入される、請求項１または２に記載の方法。
前記ギャップの各々は、前記オーディオ再生信号の選択された周波数帯域内に挿入され、前記選択された周波数帯域の各々は、前記オーディオ再生信号の周波数帯域のセットから、前記周波数帯域のセットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して実施される選択によって決定される、請求項１、２、または３に記載の方法。
前記知覚自由度値は、少なくとも１つの周波数マスキングの考慮に従って決定されている、請求項４に記載の方法。
前記知覚自由度値は、少なくとも１つの経時マスキングの考慮に従って決定されている、請求項４または５に記載の方法。
前記パーベイシブ・リスニング方法はノイズ推定方法であり、前記マイクロホン出力信号は前記再生環境におけるバックグラウンドノイズを示し、前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境におけるバックグラウンドノイズの推定値を生成することを含む、請求項１～６のいずれか一項に記載の方法。
前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも１つの態様の推定値を生成することを含み、
前記再生環境における非再生サウンドの少なくとも１つの態様の推定値に応じて、前記オーディオ再生信号を生成することを、さらに含む、請求項１～７のいずれか一項に記載の方法。
前記ギャップの各々は、前記再生信号の少なくとも１つの周波数帯域におけるギャップの必要性に基づいて、前記再生信号内に挿入される、請求項１～８のいずれか一項に記載の方法。
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に挿入される、請求項９に記載の方法。
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に挿入される、請求項９に記載の方法。
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも１つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度と予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に挿入される、請求項９に記載の方法。
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
前記確率分布に従って、前記セットの周波数帯域のうちの少なくとも１つをランダムに選択し、前記少なくとも１つの周波数帯域のそれぞれにギャップを挿入することと、を含む、請求項１～１２のいずれか一項に記載の方法。
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、請求項１３に記載の方法。
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、請求項１３に記載の方法。
前記マイクロホン出力信号および前記修正された再生信号に応じて、緊急度値を生成すること、を含み、
前記緊急度値は、前記再生信号の周波数帯域のセットの各帯域において、前記各帯域における前のギャップの発生からの経過時間に基づいて、ギャップの必要性を表し、前記再生信号への各ギャップの挿入は、少なくとも部分的に前記緊急度値に基づいている、請求項１～１５のいずれか一項に記載の方法。
前記非再生サウンドの前記モニターすることは、バックグラウンドノイズの推定値の生成を含み、
前記バックグラウンドノイズの推定値に応じて入力オーディオ信号にノイズ補償を実行することによることを含む、前記バックグラウンドノイズの推定値に応じて前記オーディオ再生信号を生成すること、をさらに含む、請求項１～１６のいずれか一項に記載の方法。
再生環境においてサウンドの放出中にマイクロホン出力信号を生成するように配置および構成されたマイクロホンであって、前記サウンドは修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、マイクロホンと、
オーディオ再生信号を受信するように結合され、前記オーディオ再生信号の、選択された時間間隔で、少なくとも１つの選択された周波数帯域内に少なくとも１つのギャップを挿入し、それによって前記修正された再生信号を生成するように構成された、強制ギャップ適用サブシステムと、
マイクロホン出力信号および前記修正された再生信号を受信するように結合され、前記修正された再生信号および前記マイクロホン出力信号に応じて前記再生環境における前記非再生サウンドをモニターするように構成される、パーベイシブ・リスニング・サブシステムと、を含む、システム。
前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の、前記選択された時間間隔で、選択された周波数帯域内に前記ギャップの各々を挿入するように構成されて、前記ギャップの挿入から生じる、前記修正された再生信号に応じて前記再生環境において放出されるサウンドにおけるいかなるアーチファクトも、前記ギャップの挿入がない場合と比較して、前記再生環境におけるユーザに対する低い知覚性と、前記モニターすることの実行中の高い識別性とを有する、請求項１８に記載のシステム。
前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の周波数帯域のセットから、前記選択された周波数帯域の各々を選択することによることを含む、周波数帯域の前記セットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して、前記オーディオ再生信号の選択された周波数帯域内に前記ギャップの各々を挿入するように構成される、請求項１８または１９に記載のシステム。
前記知覚自由度値は、少なくとも１つの周波数マスキングの考慮に従って決定されている、請求項２０に記載のシステム。
前記知覚自由度値は、少なくとも１つの経時マスキングの考慮に従って決定されている、請求項２０または２１に記載のシステム。
前記マイクロホン出力信号は、前記再生環境におけるバックグラウンドノイズを示し、前記パーベイシブ・リスニング・サブシステムは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における前記バックグラウンドノイズの推定値を生成するように構成される、請求項１８～２２のいずれか一項に記載のシステム。
前記パーベイシブ・リスニング・サブシステムは、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも１つの態様の推定値を生成し、
前記再生環境における前記非再生サウンドの少なくとも１つの態様の推定値に応じて、前記オーディオ再生信号を生成するように、結合されおよび構成される、請求項１８～２３のいずれか一項に記載のシステム。
前記強制ギャップ適用サブシステムは、前記再生信号の少なくとも１つの周波数帯域におけるギャップの必要性に基づいて、前記ギャップの各々を前記再生信号内に挿入するように構成される、請求項１８～２４のいずれか一項に記載のシステム。
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に前記ギャップの各々を挿入するように構成される、請求項２５に記載のシステム。
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に前記ギャップの各々を挿入するように構成される、請求項２５に記載のシステム。
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも１つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度および予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に各ギャップを挿入するように構成される、請求項２５に記載のシステム。
前記強制ギャップ適用サブシステムは、
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定し、
前記確率分布に従って、前記セットの前記周波数帯域のうちの少なくとも１つをランダムに選択し、前記少なくとも１つの周波数帯域のそれぞれにギャップを挿入するように構成される、請求項１８～２８のいずれか一項に記載のシステム。
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、請求項２９に記載のシステム。
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、請求項２９に記載のシステム。
前記パーベイシブ・リスニング・サブシステムは、前記マイクロホン出力信号および前記修正された再生信号に応じて緊急度値を生成するように構成されており、前記緊急度値は、各帯域における前のギャップの発生からの経過時間に基づいて、前記再生信号の周波数帯域のセットの各帯域におけるギャップの必要性を示し、前記強制ギャップ適用サブシステムは、前記緊急度値を受信するように結合され、および、少なくとも部分的に前記緊急度値に基づいた方法で、前記ギャップの各々を前記再生信号内に挿入するように構成されている、請求項１８～３１のいずれか一項に記載のシステム。
前記パーベイシブ・リスニング・サブシステムは、
バックグラウンドノイズの推定値を生成することによることを含んで、非再生サウンドをモニターし、
バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を行うことによることを含んで、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成するように、結合されおよび構成されている、請求項１８～３２のいずれか一項に記載のシステム。