本開示のいくつかの態様を、添付図面を参照してここに説明する。記載される部品の形状、相対位置、及び他の態様が明示的に規定されない場合はいつでも、本発明の範囲は、図示した部品のみに限定されず、それは、単に説明目的のために過ぎないことが意味される。また、多数の詳細を説明するが、本開示のいくつかの態様は、これらの詳細なしに実施され得ることが理解される。他の例では、本明細書の理解を妨げないように、周知の回路、構造、及び技法は詳細には示していない。
ヘッドホン及び携帯電話機などの、耳対応聴力デバイスと称される民生用電子デバイスは、異なる様々な周囲音環境で使用される。例えば、鉄道駅にいて、ヘッドセットを着用しているユーザを検討する。列車の到着を待ちながら、ユーザは隣に立っている友人と話していると、列車が到着し、典型的な騒々しい列車音を鳴らすことがある。ヘッドセットはユーザの耳を閉塞するので、友人の声を受動的に減衰させる。ヘッドセットが周囲音増強機能を有し、周囲音がユーザの耳で(任意選択的にユーザの聴力プロファイルに従って)アクティブに再生されている場合、友人の発話をより容易に聞くことができるであろう。しかし、列車の到着により、列車音も再生され、場合によっては(ユーザの聴力プロファイルに従って)増幅されることになり、それによってユーザは友人の発話を聞きづらくなるであろう。別の例では、(ヘッドセットを着用したり、携帯電話機を耳に対して保持したりしながら)ユーザは、友人と一緒に、ローカルソーシャルクラブ又はレストランまで歩いていき、そこに入るとすぐに、(周囲音増強機能によって再生される)おしゃべりのノイズが不快なほど著しく増大して聞こえるであろう。また、同じ周囲音環境も、システムの様々なユーザには異なって聞こえる。一部のユーザは、他のユーザよりも聴力のダイナミックレンジが低いので、柔らかい静粛音は、これらの特定のユーザにはほとんど聞こえない。特定のヘッドホンで特に顕在化する更なる問題は、閉塞効果である(ユーザ自身の声のような身体伝導音が、ヘッドホンによって遮断される外耳道に閉じ込められる)。所望のオーディオシステムはまた、より心地よいヒアリング体験をユーザに提供するために、そのような変化する周囲音環境に自動的に適応することができ、ヘッドホン又は携帯電話機の頻繁な装着及び取り外しに適応することができるものであり得る。
図1は、個人化された周囲音増強方法を実施することができるオーディオシステムの一部分である耳対応デバイス1の一例を示す。図示された耳対応デバイス1は、耳内イヤーホン(可撓性イヤーチップを有する封止型であってもよいし、非封止型又はルーズフィット型でもよい、耳内ヘッドホン)であり、それは、ヘッドセットを構成する2つのヘッドホン(左及び右)のうちの1つであってもよい。以下に記載する個人化された音増強方法は、ヘッドセットを構成するヘッドホンのうちの片方又は両方に実装することができる。耳内イヤーホンの代替物(図示せず)としては、耳上ヘッドホン、オーバーイヤーヘッドホン、及び携帯電話機が挙げられる。ユーザ(聴取者又は着用者とも称される場合がある)が使用している際の耳対応デバイス1が図示されている。耳対応デバイス1は、(音をユーザの耳内に直接再生するように配置及び構成された)耳対応音響トランスデューサ又はスピーカ2と、(周囲音を直接受け取るように配置及び構成された)外部マイクロフォン3と、(スピーカ2によって再生された音を直接受け取るように配置及び構成された)内部マイクロフォン4と、を有する。これらは全て、トランスデューサと、トランスデューサ信号を処理及び生成する(スピーカ2を駆動するためにマイクロフォン信号及び入力オーディオ信号を出力する)電気機器と共に、耳対応デバイスの筐体内に集積されてもよい。電子機器は、入力オーディオ信号を用いてスピーカ2を駆動するオーディオ増幅器と、マイクロフォン信号を受信し、それをデジタル信号処理のための所望のフォーマットに変換するマイクロフォン検知回路又は増幅器と、デジタルプロセッサと、それに関連するメモリであって、以下で詳細に論じるデジタル信号処理タスクを実行するようにプロセッサを構成するための命令(例えば、プロセッサによって実行される命令)を記憶するメモリと、を含むことができる。このような電子機器は、ヘッドセットのヘッドホン筐体の片方若しくは両方に、又はヘッドセット内の他の場所に存在してもよい。このような電子機器の一部又は本質的に全部が、図1に示すオーディオソースデバイス5などの、耳対応デバイス1から分離した別のデバイス内に存在することが可能であることに留意されたい。例えば、耳対応デバイス1が左ヘッドホン又は右ヘッドホンである場合、ヘッドホンは、スマートフォンとして図1の例に示すオーディオソースデバイス5に接続されてもよい。この接続は、有線接続(例えば、スピーカ2を駆動するために電力又は増幅アナログオーディオ信号を提供するものであってもよく、その場合、ヘッドホン筐体内の電源は不要であってもよい)であってもよいし、無線接続(例えば、BLUETOOTHリンク)であってもよい。いずれの場合にも、オーディオソースデバイス5への接続は、スピーカ2を駆動するために入力オーディオ信号を提供したり、(ヘッドホンの外部及び内部マイクロフォンから)オーディオソースデバイス5内のプロセッサ及びメモリにマイクロフォン信号を提供したりするのに使用される。
多くの場合、ユーザは、耳対応デバイス1を着用しながら、平均的な人よりも高い音圧レベル(sound pressure level、SPL)で聴きたいという嗜好又は必要性があり得る。このようなユーザの嗜好又は必要性を満たすために、周囲音は、ユーザの聴力プロファイル(例えば、メモリに記憶されたデータ構造)に従ってオーディオシステムにより増幅され、周囲音増強機能としてスピーカ2を通して再生され得る。これは、任意のアンチノイズが音響ノイズキャンセル(ANC)機能によって生成されずに実行されてもよい。ユーザが、ヘッドセットを着用しながら、又はスマートフォンを耳に対して保持しながら、周囲音レベルがはるかに騒々しいソーシャルクラブに入ると、増幅された音が、歪んだり、不快に騒々しくなったりするように思われる(として聞こえる)ことがある。オーディオシステムは、着用者の聴力プロファイルに基づき、かつ周囲音レベルに基づき、そのような条件で再生された周囲音レベルを自動的に低減すべきである。また、以下に記載するように、オーディオシステムはまた、こうした場合に、漏れた周囲音の上昇レベルをキャンセルするようにアンチノイズレベルをアクティブにしたり、増加させたりすることによって、利用可能なANC機能を活用してもよい。
ここで図2を参照すると、これは、耳対応デバイス1のユーザのために個人化された周囲音増強と音響ノイズキャンセルとを組み合わせたオーディオシステムのブロック図である。図2に示しかつ以下に記載する、デジタル信号処理を実行するオーディオシステムの要素は全て、1つ以上のプログラムされたデジタルプロセッサとして実装されてもよい(本明細書では一般的に、メモリに記憶された命令を実行するための「プロセッサ」と称される)。耳対応オーディオデバイス1を着用している(使用している)ユーザの音響環境内の周囲音は、外部マイクロフォン3によって捕捉される。その出力、デジタル化されたマイクロフォン(オーディオ)信号は次いで、ASEフィルタ6によってフィルタ処理される。ASEフィルタ6の伝達関数は、例えばフレーム毎に時間変化し、各オーディオフレームは、10〜100ミリ秒のマイクロフォン信号を含んでもよく、ゲイン結合プロセスによって設定されてもよい。ゲイン結合プロセスは、様々な検出器からの情報を組み合わせて、ASEフィルタ6の伝達関数を決定する。これらの検出器は、以下のうちの1つ以上に関する情報を提供することができる。音捕捉チャネル(マイク抑制ブロックにおけるマイクロフォンノイズ特性)、周囲音環境(背景ノイズ抑制ブロックによって作成された背景ノイズ推定値及び風抑制ブロックによって作成された風ノイズ推定値)、ユーザの聴力プロファイル(聴力損失補償ブロック)。次いで、このような情報は、ゲイン結合プロセスによって使用され、ASEフィルタ6の入力における周囲音捕捉チャネルをスペクトル的に成形するように、ASEフィルタ6を構成する方法を決定する。ASEフィルタ6は、異なる種類のノイズ抑制の目的のために、例えば、マイクロフォンノイズ、背景ノイズ、及び風の抑制のために、周囲音捕捉チャネルをスペクトル的に成形するデジタルフィルタのカスケードから構成されてもよい。加えて、デジタルフィルタのカスケードは、ユーザの聴力損失を補償するようにチューニングされるダイナミックレンジ圧縮及びスペクトル成形を実行するブロックを含んでもよい。
本明細書で使用するとき、「聴力プロファイル」は、正常な人の聴力の範囲(本明細書では聴覚サブバンドとも称される)内の様々な対象周波数にわたる、dBHLのような聴力レベル又は聴力損失を含むユーザの聴力の必要性及び嗜好を規定する。聴力プロファイルは、静かな、快適な、及び騒々しい聴取レベル、異なるタイプのオーディオコンテンツ(例えば、音声通話、ポッドキャスト、音楽、映画)間の周波数依存の増幅嗜好、又はノイズ若しくは音声処理アーチファクトに対するユーザの感度を、追加的に指定することができる。聴力プロファイルは、例えば、ユーザの記憶されたオーディオグラムから導出されてもよく、発話ノイズ試験又は耳音響放射の測定などの他の標準的な聴力評価手順の結果を含んでもよい。オーディオグラムのような客観的聴力評価に加えて、又はそれの代替として、聴力プロファイルは、耳対応オーディオデバイス内のスピーカを用いて音響刺激を生成し、この音響刺激に対するユーザの応答(例えば、オーディオデバイスのマイクロフォンによって捕捉された口頭応答として、又はユーザがオーディオシステムのグラフィカルユーザインターフェースを介して入力した手動応答として)を監視又は評価するプロセスの結果であってもよい。したがって、聴力プロファイルは、例えば、dB(dBHL)における聴力レベルの観点から、ユーザの聴力嗜好又は聴力感度を規定することができる。
ここで、図面は、音捕捉チャネルを生成するときの、各実例の単一のマイクロフォンシンボル(外部マイクロフォン3及び内部マイクロフォン4)を示しているが、音捕捉チャネルを生成するにあたって、これは、音捕捉チャネルが1つのマイクロフォンのみによって生成されなければならないことを意味するものではないことに留意されたい。多くの場合、音捕捉チャネルは、例えば、マイクロフォンアレイから出力されたマルチチャネルで実行されるビーム形成プロセスによって、複数のマイクロフォン信号を合成した結果であってもよい。
音捕捉チャネル内で捕捉された周囲音(例えば、外部マイクロフォン3からのマイクロフォン信号)は、(聴力損失補償ブロックからの入力に基づいて)ユーザの聴力プロファイルに従って周囲音環境分析器8によって制御される、周波数依存の透過性ゲインブロックGaseでフィルタ処理される。次いで、周囲音コンテンツは、プログラムオーディオを含む再生信号と合成される。プログラムオーディオは、周囲環境における音にまだ変換されていない、音楽、電話通話中の遠端ユーザの音声、又は仮想アシスタントプログラムの音声であってもよい。次いで、この合成オーディオ信号はスピーカ2を駆動し、それにより、周囲音(及び任意選択的に、存在する場合には、プログラムオーディオ)を再生する。周囲音増強機能が非アクティブであるとき、例えば、ゲインブロックGaseの出力における合成オーディオ信号が本質的にゼロである場合、スピーカ2を駆動する入力オーディオ信号は、プログラムオーディオを含み得るが、周囲音の捕捉を含まない場合があることに留意されたい。
周囲音増強機能がアクティブである(周囲音が上記のように再生されている)とき、周囲音環境分析器8は、周囲音環境が静粛から騒音に変化することを検出することができる。ノイズプロファイル分析器、自動音声イベント検出器、又は音環境検出器(これらのうちのいずれかは機械学習モデルに基づいてもよい)が、騒音環境と静粛環境又はアクティブな談話環境とを区別するように、本目的のために使用されてもよい。騒音環境は、例えば、SPLが閾値を上回る場合であってもよく、その結果、オーディオシステムは、ユーザの耳でのSPLをより快適なレベルまで低減するアクティブ耳栓機能を実行すべきである。静粛環境又はアクティブな談話環境は、音増強機能を起動させるのに必要となり得るものであり、その結果、周囲環境における発話は、より理解しやすいように再生され得る。周囲音環境が静粛から騒音に変化したことの検出に応じて、分析器8は、Gaseゲインブロックに信号を送ってそのゲインを低減させ、また、ユーザの聴力プロファイル(聴力損失補償ブロックからの情報)に従って、そのようにしてもよい。したがって、その時点では、周囲音が低減したGaseのゲインに従って再生され、その場合、そのゲイン低減はまた、ユーザの聴力プロファイルの関数として決定されてもよい。
Gaseに対して行われる変化は、(ASEフィルタ6に対して行われる変化とは対照的に)遅いことがある。例えば、Gaseへの変化は、1秒毎に1回以下で発生し得る。例えば、ユーザが静かなオフィスを出て、外を歩き、次いで、相対的に騒々しいレストラン若しくはソーシャルクラブに、又はバス停留所若しくは鉄道駅(到着する列車が騒音環境を作る)に入るように、ある設定と別の設定との間を変化させるのに数秒を必要とする。これはまた、Gaseを低減する決定(そのような決定を行うのに必要なマイクロフォン信号の任意の信号処理を含む)が、別個のデバイス内で実行中のソフトウェア、例えば、アプリケーションプログラムで行われてもよいし、あるいは、例えば無線イヤーホンである耳対応デバイスより多くのコンピューティングリソースを有するスマートフォン、タブレット、又はラップトップコンピュータなどのコンパニオンデバイスで実行中のオペレーティングシステムによって行われてもよいことも意味する。更に、Gaseを低減する決定はまた、ユーザが着用するスマートウォッチからのセンサ信号(例えば、マイクロフォン信号、周囲光センサ出力)の受信及び処理に基づいてもよい。
基本的な実装では、周囲音環境分析器8は、外部マイクロフォン3からの信号から導出されるSPLを簡単に計算し、次いでSPLを監視し、SPLが閾値を下回ると、例えば、ユーザの聴力プロファイルに基づいて事前に作成されたルックアップテーブルの参照に基づいて、Gaseが低減するよう信号を送ることによって応答することができる。分析器8の複合実装は、いくつかの異なる周波数帯域で行われた入力SPL測定値として受信し、Gaseゲインブロックに対してGase値(本明細書ではチューニング設定とも称される)を出力するその入力SPL測定値のノイズプロファイルを評価するように訓練された機械学習モデルとすることができる。ほとんどの場合において、分析器8は、周囲音環境の変化に応答するとき、Gase用の少なくとも2つの異なるチューニング設定のうちの1つを出力するように構成されることになり、実用的な実装は、Gaseゲインブロック用の3つ以上のチューニング設定を有する、より微細な粒度を有することが予想される。
引き続き図2を参照すると、オーディオシステムはまた、耳対応デバイスが音響ノイズキャンセル用のアンチノイズを生成可能にする音響ノイズキャンセル(ANC)ブロック10を有してもよい。ユーザの耳に伝達されるアンチノイズは、(耳を遮断する耳対応デバイスが引き起こす)閉塞効果の一部を緩和することができる。ANCブロック10は、周囲音増強機能がアクティブである間、アンチノイズ信号を生成する。アンチノイズ信号は周囲音信号と合成されてから、一緒に耳対応オーディオデバイスのスピーカ2を駆動する。ANCブロック10は、本例では、(外部マイクロフォン3(参照マイクロフォンとも称される)及び内部マイクロフォン4(エラーマイクロフォンとも称される)の両方からの入力を使用する)ハイブリッドフィードフォワード・フィードバックアルゴリズムに基づくものとして示されている。他の場合には、ANCブロック10は、フィードフォワードのみのANCであってもよい。
オーディオシステムは、ANCの利点を周囲音増強機能と組み合わせて、低周波数での閉塞効果を低減すると共に、以下のように、高周波での周囲音増強を個人化する。周囲音が静粛から騒音に変化したことの検出に応じて、分析器8は、(周囲音の再生中に)生成されるアンチノイズのレベルを高くするようにGancブロックに信号を送る。Gancブロックは、スカラー(広帯域)ゲインブロックであってもよい。アンチノイズのレベルを高くすることで、閉塞効果が緩和される。Gaseの変化と同様に、(Gancブロックによる)アンチノイズのレベルの変化は、毎秒1回以下で行われる。したがって、オーディオシステムは、こうした調整を、すなわち、ANCの性質により低周波帯域のみをブーストするGancの増加を、低周波帯域ではなく、高周波帯域のGaseの低減と組み合わせる(低周波帯域と高周波帯域は重複しない)。
上記のようなANCと周囲音増強機能との組み合わせ効果は、周囲音が騒々しい間に、再生された周囲音とアンチノイズとの合成のダイナミックレンジが、アンチノイズの開始時、又は既存のアンチノイズレベルの上昇時に、小さくなることであり得る。アンチノイズの大部分は低周波帯域にあるため、これにより、高周波帯域でのる再生された周囲音を、ユーザに過度に騒々しいと知覚させる場合があるが、Gaseのゲイン低減を引き起こすことがある。図3は、静粛環境及び騒音環境において、どのようにSPLがオーディオシステムによって管理されるかの例を示す。図は、耳SPLのダイナミックレンジの予想される変化を示す。ユーザが静粛周囲環境にいて、補助されていない(Gaseが「小」であり、ANCは、解除されているか又はGancが「小」の場合に、個人化された周囲音増強は解除されている)とき、耳SPLは聞きづらい範囲となる。その状況で耳SPLを高くするには、ANCは解除されたまま又はGancは小さいままで、Gaseを自動的に増加する(「大きい」)。次いで、ユーザが騒々しい周囲内に移動すると、耳SPLは、当初に不快に騒々しくなるが、その後、Gaseを低減し、ANCを連動するか又はGancを高くする(「大きくする」)ことによって、自動的に所望のダイナミックレンジになる。
図4は、ユーザが周囲環境をどう聴取するかを成形するように組み合わせたオーディオシステムの耳対応デバイスの3つの応答を示す、周波数に対する耳SPLのグラフ又はプロットである。第1のSPL曲線(「受動減衰のみ」)は、ANC及び周囲音増強なしで、耳対応デバイスによる受動減衰のみによる応答を表す。低周波帯域は、0dBに設定された基準であってもよく、(遷移周波数又は折点周波数を上回る)高周波数では、SPLは遷移周波数でロールオフし、次いで、高周波帯域では、いくらかの負のdBで横ばいになり得る。第2のSPL曲線(「周囲音増強応答」)は、個人化された周囲音増強機能の応答のみを表し、それは、遷移周波数から開始する高周波数においてSPL(正のdB)をブーストする(高周波帯域全体において0dBを超えたままである)。ブーストされた高周波帯域により、周囲をより容易に聴取することができるようになる。第3のSPL曲線は、ANC機能の応答のみを表し、遷移周波数を下回る低周波数では、SPL(負のdB)を減衰させる。図5は、ユーザの耳内の音捕捉チャネル(例えば、内部マイクロフォン4(図2参照)による捕捉)における周波数に対する単純ノイズ曲線の例を用いた、これら3つの応答を組み合わせた効果を示すグラフである。個人化された周囲音増強機能によってブーストされた高周波数での発話の例と重畳されて、ANC機能による音響ノイズキャンセルに起因して、低周波帯域では、耳SPLが(ノイズ曲線の)減衰を呈する様子が見られ得る。
本明細書の開示の別の態様は、耳対応オーディオデバイスによる発話認識音増強用のオーディオシステムによって実行される方法であり、デバイスは、音響ノイズキャンセル、ANC用のアンチノイズを生成することができる。このような方法において、周囲音は、耳対応オーディオデバイスのユーザの聴力プロファイルに従って耳対応オーディオデバイスにより増幅され再生される。周囲音は、耳対応オーディオデバイスの音響環境内にある音であり、したがって、ユーザに聞こえることがある。周囲音を再生している間に、プロセッサは、周囲音内の発話を(例えば、外部マイクロフォン信号で動作する音声活動検出、(voice activity detection、VAD)を介して)検出する。周囲音を再生している間、耳対応デバイスはアンチノイズも生成し、周囲音の中に発話が検出されない限り、それを行い、発話が検出されると、生成されたアンチノイズのレベルを低減させる。これにより、ユーザは、再生された周囲音の中の発話をより良く知覚することができる。
このような応答(ANCを非アクティブにする点までアンチノイズのレベルを低下させること)は、相対的速効性応答であり、すなわち、検出された周囲音レベルの変化(静粛と騒音との間)に応答する上記した遷移よりも速いものである。ANC機能に対する発話応答性変化は、心理音響学に準拠することができ、オーディオフレームベースであってもよく、周波数ビンベースであってもよい。換言すると、アンチノイズは、(非発話とは対照的に)発話であることが検出された(外部マイクロフォン信号の)時間フレーム及び周波数ビンにおいてのみ抑制される(例えば、非アクティブ化される)。本明細書において、VADは二者択一(発話/非発話)である必要はなく、代わりに、(単に二者択一よりも)より微細な粒度でアンチノイズが変化することによる発話存在確率であってもよいことに留意されたい。
上記の発話応答性アプローチ(オーディオフレームベースでの発話の検出に応じてアンチノイズを調整する)は、周囲音がどのように再生されているかを調整することによって拡張されてもよい。発話が所与のオーディオフレーム内で検出されると、周囲音は、低周波帯域よりも高周波数帯域で、より多くのゲインでフィルタ処理される。同時に、アンチノイズは、高周波帯域よりも低周波帯域において、より高いレベルで維持され得る。後者は、発話検出に応じて、周波数ビン毎に調整されるアンチノイズに加えるものであってもよい。
ここで、一態様において、図6のフロー図を参照すると、オーディオシステムは、ユーザが聞こえるものを「小さくする」ことを示唆する着用者のコンテキストを判定したことに基づいて、(オーディオデバイスを通過してユーザの耳内に漏れた周囲音の)音響キャンセルを最大化しないように、むしろ、透過モードで動作するように適合されてもよい。このプロセスは、ユーザの聴力損失を補償することを含んでもよいし、含まなくてもよい。このプロセスは、透過モードで、図2に見られるGaseブロックが、オーディオデバイスによる着用者の耳の閉塞を克服するために、周囲音捕捉チャネルにゲインを適用している場合に開始し、その結果、着用者は、ASEフィルタ6の経路を介して再生された周囲音を聴取することができる(動作20)。動作20を実行している間に、プロセスは、自動的に又はユーザからの命令なしにユーザのユーザコンテキストを判定する(動作22)。
ユーザコンテキストは、以下の任意の1つ以上を包含する。一態様では、判定されたユーザコンテキストは、周囲音環境の異なる種類を区別するものであり、着用者は、この周囲音環境の異なる種類、例えば、コンサート、公共の輸送場、レストランでの騒々しい社交的集まり、コーヒーショップ、オフィス、及び屋外を見分けることができる。この判定は、リアルタイムで様々な入力データをデジタル処理することによって行うことができる。入力データは、(ビームフォーミング音捕捉チャネルを含む、着用者が着用している耳対応オーディオデバイス内の、又はスマートウォッチ内の1つ以上のマイクロフォンからの)周囲音捕捉チャネルと、振動センサ(例えば、ヘッドホンに埋め込まれ、着用者自身の声の骨伝導に応答する加速度計)を介した音声捕捉と、時刻及び全地球測位システム又は無線周波数三角測量を用いたユーザ位置を含む様々な他の種類のセンサからのセンサデータと、を含むことができる。入力データは、例えば、着用者が歩いているか、走っているか、座っているか、運転しているか、又は車、バス、列車若しくはボートに乗っているか、又は鉄道駅若しくは空港などの特定の現場にいるかを判定するように処理されてもよい。入力データはまた、例えば、火気警報、機械的機械ノイズ、都市道路音、ハイウェイノイズ、建設現場ノイズ、地下鉄ノイズ、おしゃべり、自然音、テレビなど、捕捉される周囲音の種類を検出するように処理されてもよい。より一般的には、ユーザコンテキストの判定は、機械学習ツールを用いた入力データの処理結果とすることができる。
ユーザコンテキストは、以下にも記載する、透過性、減衰透過性、アクティブ耳栓など、いくつかの動作モードのうちのいずれか1つのモードの間に(ユーザによる命令なしに)オーディオシステムによって自動的に判定されてもよいことに留意されたい。
動作20で判定したコンテキストは、動作24と一致してもよく、ANCブロック10は、アンチノイズ信号を生成していてもよいし、生成しなくてもよく、また、Gancブロックは、(そのゲイン設定に応じて)その出力においてアンチノイズを完全には排除しないが、減衰してもよい。ここで、ユーザコンテキスト判定の一部又はその結果として、周囲音レベルが高すぎることが(周囲音環境分析器8(図2参照)によって)検出された場合、図2に見られるGancブロックは、より多くのアンチノイズを生成するように(動作26)、全く減衰を行わないか、又は少ししか減衰しないようにシグナリングされてもよく、それにより、周囲音をより多くキャンセルすることができる(ユーザ耳でより静かな合計音レベルに)。同時に、又は代替的に、システムは、例えば、Gaseブロックが周囲音捕捉チャネル(検出された周囲音)に適用している振幅ゲインに関して、再生される周囲音を、例えば、少なくとも20dB減衰する(動作28)ように、Gaseブロックに信号を送ってもよい。2つの動作26,28は共に、騒音環境に対して着用者の聴力をより良好に保護する。
一方、引き続き図6を参照すると、動作22において判定されたユーザコンテキストが、静かなオフィスのように周囲音レベルが閾値を下回ることを示す場合、動作30が実行され、再生された周囲音を高くする(Gaseブロックによって適用されているゲインを増加させることによってそのレベルを高くする)。追加的に、又は代替的に、動作32において、(生成されるアンチノイズを完全に排除するのではなく、アンチノイズのレベルを低減させるGancブロックによって適用されるゲインを低減させることによって)アンチノイズを低減する。
図6は、ユーザコンテキストを判定する際に取るべき2つの可能な経路を示しているが、解決策はより一般に、より微細な粒度をサポートする。(いくつかの例を用いて以下に説明するように)Gaseブロック及びGancブロックをチューニングする3つ以上の方法につながる3つ以上の異なるユーザコンテキストが存在する場合がある。例えば、「中間」周囲音レベル(「静粛」若しくは低周囲音レベルと「騒音」若しくは高周囲音レベルとの間)、又は「屋外」などの特定の種類の周囲音環境を示すユーザコンテキストが存在してもよく、これは、Gaseブロック及びGancブロックをチューニングする異なる組み合わせにつながる。より一般的には、オーディオシステムは、2つ以上のユーザコンテキストをサポートし、これらのそれぞれは、検出された周囲音レベル、時刻、音種分類器を用いた検出された音の種類、周囲光レベル、歩行、走行、又は運転などのユーザ移動コンテキスト、風の存在など、任意の好適なパラメータの組み合わせを用いて定義することができる。また、そのようなユーザコンテキストへの応答は、Gaseブロック及びGancブロックだけでなく、ASEフィルタ6も異なる方法で(特定のユーザコンテキストに従って)チューニングすることを含み、様々であり得る。
透過モードの別の態様では、システムが特定のユーザコンテキスト、例えば、「着用者がコンサートにいる」ことを判定すると、システムは再生された周囲音のスペクトルの平坦度を向上させる。これは、Gaseブロックのフィルタリング機能を適切に成形することによって達成することができる。しかし、着用者がコンサートで誰かに話し掛け始めると、システムが環境内の別の人物による発話及び/又は着用者による発話を検出するので、例えば、「着用者が環境内で誰かと話す」という判定されたユーザコンテキストが変わり、Gaseブロックは、(例えば、Gaseブロックのフィルタリング機能を適切に成形することによって)発話周波数を強調するようにシグナリングされる。その場合の周波数応答は、もはや平坦ではない。
透過モードで動作する更に別の態様では、システムは、異なるユーザコンテキストで異なるように(Gaseブロックにおいて)適用する透過性ゲインを低減させる。例えば、判定したコンテキストが、着用者が周囲ノイズ「の中で話している」ことを示す場合、透過性ゲインは、着用者がその環境を受動的に聴取しているときよりも低減する。これは、着用者が、そうでなければ雑音の多い環境で話している誰かの発話をより良く理解したり、聞いたりするのに有用である。
更に別の態様では、着用者が演奏の小休み中、(コンサートにいる)隣の友人と話し始める際、着用者はコンサートにいる場合がある。その場合、オーディオシステムは、(閾値を下回る)周囲ノイズ/音レベルが低下するのを検出すると共に、おそらく、発話活動が同時に増加するのを検出する。発話活動は、着用者自身の声又は近くの友人の声のいずれかであってもよい。これに応じて、システムは、そのアンチノイズ出力を低減させ(例えば、Gancによる減衰を上昇させ)、おそらく、周囲音捕捉チャネルに適用される透過性ゲインGaseを増加させることができ、また、おそらく発話周波数範囲(これは、スペクトル成形とも称される)を強調することもできる。コンサートの演奏が再開すると、検出された周囲音レベルは増加し(閾値を上回り)、それに応じて、システムは、依然として、アンチノイズを増加させることで着用者の聴力を保護する準備をしながら、再生された周囲音のスペクトルの平坦度の達成に注力するのを再開する。
オーディオシステムの動作モードは、少なくとも3つのモード、すなわち透過(パススルー)モード、減衰透過モード、及びアクティブ耳栓モードを含むことができる。このシステムは、任意の好適な数のモードを含んでもよく、場合によっては、離散モードが存在しなくてもよいが、このオーディオシステムは、現在の周囲音条件に基づいて、より一般的にはユーザコンテキストに基づいてチューニングをシームレスに実行し得ることを当業者は理解するであろう。
説明の便宜上、透過モードは0dBで参照されてもよいし、0dBに設定されてもよく、これは、結果として生じる音出力レベルが、まるで着用者が耳対応デバイスを着用していないのと同じになるように、再生された周囲音に適用する振幅ゲインが、耳対応デバイスによる耳の閉塞に起因する受動減衰を克服するのにちょうど十分に設定される場合である。ユーザの聴力プロファイルが高周波聴力損失を示す場合、こうしたゲインは、例えば、高周波帯域において高くなってもよい。減衰透過モードは、例えば、−10dB又はある程度の透過を依然として可能にする他の好適な減衰レベルに設定されてもよく、その場合に振幅ゲインは、例えば、着用者が、さもなければ雑音の多い環境での誰かの話がより良く聞こえるように設定されてもよい。アクティブな耳栓モード(本明細書ではノイズ低減モード又はフルANCモードとも称される)は、着用者の環境があまりに騒々しくなったときに、着用者の聴力を保護すべく最大のアンチノイズが発生している場合である。このようなANCは、より低い周波数で、例えば、2kHz未満で周囲音をキャンセルする際にのみ有効であり得るが、耳対応デバイスの単なる着用に起因する受動減衰は、例えば、2kHzを超える高周波数で有効であることに留意されたい。
再び図4を参照すると、本図は、耳対応デバイスが生成し得る2つの音応答曲線(減衰曲線)の一例を示し、一方は、アクティブノイズキャンセル又はアクティブノイズ低減に起因するものであり(図2を参照、ANCブロック10及びGancが一体で最大アンチノイズを生成している場合)、他方は、(耳対応デバイスによる耳の閉塞に起因する)受動減衰に起因するものであり、(着用者に聞こえる)周囲音の減衰の総量は、2つの曲線の合計となるであろう。ここで、(周波数依存の総減衰曲線とは対照的に)着用者の耳で平坦な応答が望まれる場合、ANCブロック10及び/又はそのGancは、同時に(例えば、低周波帯域ではなく、高周波帯域でのゲインをブーストするようにGaseはシグナリングされることによって)透過ゲインを高めながら、低周波帯域におけるより少ないアンチノイズを生成するようにチューニングされてもよい(例えば、Gancは、その出力でアンチノイズを減衰させるように信号が送られてもよい。平坦な応答モードと、アクティブノイズキャンセルを最大化するアクティブ耳栓モードとの間のこうした遷移は、上記したように周囲音環境分析器(図2)が判定し得る着用者のコンテキストに基づいて、(ユーザの命令を必要とせずに)自動式としてもよい。
図7は、ユーザの聴力損失に基づいて周囲音増強(本明細書では聴力損失補償を伴う透過モードでの動作とも称される)を実行する方法のフロー図である。デフォルト設定において、検出された周囲音は、この場合には聴力損失プロファイルを含むユーザ聴力プロファイルに従って、動作40において、ユーザの耳で増幅され再生される。同時に、周囲音がどのように再生されるかを調整するためのいくつかの経路のうちの1つにつながるユーザコンテキストが判定される(動作42)。周囲がオフィスのように静かである場合、経路は動作44をとり、ASEフィルタ6と周波数依存のGaseブロックの両方が、ユーザの聴力プロファイル通りの静粛設定にチューニングされる。周囲がレストランのように騒々しい場合、経路は動作46をとり、ASEフィルタ6と周波数依存のGaseブロックの両方が、ユーザの聴力プロファイル通りの騒音設定にチューニングされる。周囲がそのような外又は屋外の中間にある場合、経路は動作48をとり、ASEフィルタ6と周波数依存性Gaseブロックの両方がユーザの聴力プロファイル通りの中間周囲ノイズレベル設定にチューニングされる。この方法は、3つの経路を用いて図7に例示されているが、一般には、規定された4つ以上の異なるユーザコンテキストが存在する場合があり、それらは、ASEフィルタ6及びGaseブロックをチューニングする4つ以上の異なる方法につながる。
上記の本開示の一態様は、音響ノイズキャンセル用のアンチノイズを生成できる耳対応オーディオデバイスによる発話認識音増強方法であって、耳対応オーディオデバイスのユーザの聴力プロファイルに従って、耳対応オーディオデバイスによって周囲音を増幅して再生することであって、周囲音は耳対応オーディオデバイスに対する音響環境内にあるようにすることと、a)で周囲音を再生している間に周囲音内の発話を検出することと、a)で周囲音を再生している間に周囲音内で発話が検出されない限り、アンチノイズを生成し、発話が検出されるたびに、生成されたアンチノイズのレベルを低減させることと、を含む方法である。発話が検出されるたびに、周囲音は、低周波帯域のときよりも高い周波数帯域でより多くのゲインで増幅される。周囲音が低周波帯域よりも高周波帯域においてより多くのゲインで増幅されている間、アンチノイズは、高周波帯域のときよりも低周波帯域においてより高いレベルで生成される。
上記の本開示の別の態様は、音響ノイズキャンセル能力を有するオーディオヘッドセットであって、左ヘッドホンスピーカと、右ヘッドホンスピーカと、プロセッサと、命令を内部に記憶したメモリを備え、命令は、a)ヘッドセットのユーザの聴力プロファイルに従って周囲音を増幅及び再生するように、左又は右ヘッドホンスピーカを駆動し、周囲音は、ヘッドセットの音響環境内にあるようにし、b)周囲音がa)に従って再生されている間に、周囲音が静粛から騒音に変化することを検出し、c)周囲音が静粛から騒音に変化したことの検出に応じて、左又は右ヘッドホンスピーカを駆動して、アンチノイズの生成を開始し、又は、左若しくは右ヘッドホンスピーカによって生成されている既存のノイズレベルを上昇させるようにプロセッサを構成する、オーディオヘッドセットである。メモリは、周囲音が静粛から騒音に変化したことの検出に応じて、左又は右ヘッドホンスピーカを駆動して、生成されるアンチノイズのレベルを低減させるようにプロセッサを構成する更なる命令を内部に記憶していてもよい。生成されるアンチノイズは、低周波帯域にあってもよく、高周波帯域になくてもよい。周囲音は騒々しい間に、再生される周囲音のダイナミックレンジは、アンチノイズの開始時、又は既存のアンチノイズレベルの上昇時に、小さくなる。
上記の本明細書の本開示の更に別の態様は、耳対応オーディオデバイスによる自動式音増強方法であって、a)耳対応オーディオデバイスによって周囲音を再生することであって、周囲音が耳対応オーディオデバイスを着用しているユーザの音響環境内にあり、周囲音は、周波数依存ゲインに従ってフィルタ処理されることと、b)a)で周囲音を再生している間に、周囲音が静粛から騒音に変化したことを検出することと、c)周囲音が静粛から騒音に変化することの検出に応じて、ユーザの聴力プロファイルに従って周波数依存ゲインを低減させることと、d)低減した周波数依存ゲインに従ってフィルタ処理される際に、耳対応オーディオデバイスによって周囲音を再生することと、を含む方法である。耳対応オーディオデバイスが音響ノイズキャンセル用のアンチノイズを生成する場合、方法は、a)の間に耳対応オーディオデバイスによりアンチノイズを生成することと、周囲音が静粛から騒音に変化することの検出に応じて、d)の間に生成されたアンチノイズのレベルを高くすることと、を更に含む。一態様では、アンチノイズのレベルの変化は、毎秒1回以下で実行される。別の態様では、周波数依存ゲインは、低周波帯域ではなく高周波帯域における低減したゲインを含む。
上記したように、本技術の一態様は、ユーザコンテキストを判定し、周囲音がユーザにどのように再生されるかを調整するために、特定かつ正当なソースから利用可能なデータを収集及び使用することである。本開示は、場合によっては、この収集されたデータは、特定の人物を一意的に特定する、又は特定するために使用できる、個人情報データを含み得ることを意図している。そのような個人情報データは、人口統計データ、位置ベースのデータ、オンライン識別子、電話番号、電子メールアドレス、ホームアドレス、ユーザの健康又はフィットネスレベル(例えば、バイタルサイン測定、服薬情報、運動情報)に関するデータ若しくは記録、生年月日、又は、聴力損失を含む任意の他の個人情報を含むことができる。
本開示は、本技術におけるそのような個人情報データの使用がユーザの利益になる使用であり得る点を認識するものである。例えば、個人情報データを使用して、その嗜好に従って増強した周囲音の再生を伝達したり、聴力の健康を保護したりすることができる。
本開示は、そのような個人情報データの収集、分析、開示、転送、記憶、又は他の使用に関与するそれらエンティティが、確固たるプライバシーポリシー及び/又はプライバシー慣行を遵守するものとなることを意図している。具体的には、そのようなエンティティは、ユーザのプライバシーを維持するための業界又は政府の要件を満たす又は上回ると一般に認識されるプライバシー慣行を実現し、一貫して適用することが予想されるであろう。個人データの使用に関するそのような情報は目立つべきであり、ユーザによって容易にアクセス可能とするべきであり、データの収集及び/又は使用が変化するにつれて更新されるべきである。ユーザからの個人情報は、正当な使用のためのみに収集されるべきである。更に、そのような収集/共有は、ユーザの承諾を受けた後に、又は適用可能な法律に明記された他の正当な根拠に基づいて行われるべきである。更には、そのようなエンティティは、そのような個人情報データへのアクセスを保護して安全化し、その個人情報データへのアクセスを有する他者が、それらのプライバシーポリシー及び手順を遵守することを保証するための、あらゆる必要な措置を講じることを考慮するべきである。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。加えて、ポリシー及び慣行は、収集及び/又はアクセスされる具体的な個人情報データのタイプに適合されるべきであり、また、より高い基準を課す役割を担い得る管轄権固有の考慮事項を含めた、適用可能な法令及び基準に適合されるべきである。例えば、アメリカ合衆国では、特定の健康データの収集又はアクセスは、医療保険の相互運用性と説明責任に関する法律(Health Insurance Portability and Accountability Act、HIPAA)などの、連邦法及び/又は州法によって管理することができ、その一方で、他国における健康データは、他の規制及びポリシーの対象となり得るものであり、それに従って対処されるべきである。
前述にもかかわらず、本開示にはまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する態様も考えられる。すなわち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するように、ハードウェア要素及び/又はソフトウェア要素を提供することができると想到する。例えば、本技術は、増強された周囲音再生プロセスが聴力損失プロファイルにアクセスする、又はそれらの場所にアクセスするのを可能にする「オプトイン」又は「オプトアウト」を、ユーザが選択可能にするように構成することができる。
更には、本開示の意図は、個人情報データを、非意図的若しくは無許可アクセス又は使用の危険性を最小限に抑える方法で、管理及び処理するべきであるという点である。データの収集を制限し、データがもはや必要とされなくなった時点で削除することによって、危険性を最小限に抑えることができる。更には、適用可能な場合、特定の健康関連アプリケーションにおいて、ユーザのプライバシーを保護するために、データの非特定化を使用することができる。非特定化は、適切な場合には、識別子を除去すること、記憶されたデータの量又は特異性を制御すること(例えば、位置データを住所レベルよりも都市レベルで収集すること)、データがどのように記憶されるかを制御すること(例えば、データをユーザ全体にわたって集約すること)、及び/又は差分プライバシーなどの他の方法によって、容易にしてもよい。
それゆえ、本開示は、1つ以上の様々な開示された実施形態を実施するための、個人情報データの使用を広範に網羅するものではあるが、本開示はまた、そのような個人情報データにアクセスすることを必要とせずに、それらの様々な実施形態を実施することもまた可能であることを想到している。すなわち、本技術の様々な実施形態は、そのような個人情報データの全て又は一部分が欠如することにより、実施不可能となるものではない。例えば、周囲音増強機能は、ユーザの場所を知る必要なく、又はユーザがいかなる聴力損失も持たないことを知る必要なく、なおGaseブロック、Gancブロック及びASEフィルタ6をチューニングすることができる。
本出願に添付の特許請求の範囲を解釈する際に、特許庁及び本出願に発行される特許のあらゆる読者を支援すべく、出願人は、「手段(means for)」又は「工程(step for)」という用語が、特定の請求項において明示的に使用されない限り、添付の特許請求の範囲又は特許請求の範囲の要素のいずれについても、35U.S.C.112(f)の行使を意図しないように留意を望む。
特定の態様を記載し添付の図面に図示してきたが、このような態様は、大まかな発明の単なる例示にすぎず、それを限定するものではないこと、また、他の様々な変更が当業者により想起され得るので、本発明は、図示及び記載した特定の構成並びに配置に限定されないことを理解されたい。例えば、図2には示されていないが、(外部マイクロフォン3からの)周囲音を含むマイクロフォン信号は、プログラムオーディオと合成される前に、マイクロフォン信号をスペクトル的に成形するよう機能する等化(equalization、EQ)フィルタ、及び非線形リミッタ(図示せず)により更に処理されてもよい。同様に、プログラムオーディオは、処理され、かつGaseフィルタ処理された周囲音コンテンツと結合される前に、EQフィルタ(図示せず)によりフィルタ処理されてもよい。したがって、本明細書は、限定的ではなく例示的であると見なされるべきである。