JP2022547860A

JP2022547860A - コンテキスト適応の音声了解度を向上させる方法

Info

Publication number: JP2022547860A
Application number: JP2022514501A
Authority: JP
Inventors: ノデキョン; パーベルチュバレフ; シャオユグオ
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-09-11
Filing date: 2020-09-09
Publication date: 2022-11-16
Also published as: KR20220062578A; WO2021050542A1; EP4029018A1; EP4029018B1; US20220165287A1; CN114402388A

Abstract

方法は、マイクロフォンを用いて環境内のノイズを検出してノイズ信号を生成するステップと、ラウドスピーカーを介して環境内に再生される音声信号を受信するステップと、マイクロフォンのマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を実行して、補正されたノイズ信号を生成するステップと、ラウドスピーカーのラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を実行して、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいてマルチバンド音声了解度結果を計算するステップと、を含む。【選択図】図２

Description

（優先権の主張）
本出願は、２０１９年９月１１日に出願された米国仮出願第６２／８９８，９７７号に対する優先権を主張し、本仮出願は、その全体が引用により本明細書に組み込まれる。

（技術分野）
本開示は、音声了解度処理に関する。

人工知能（Ａｌ）スピーカー、携帯電話、テレカンファレンス、モノのインターネット（ＩｏＴ）デバイス、及びその他などの音声再生デバイスは、多くの場合、高レベルの背景ノイズを含む音響環境で使用される。音声再生デバイスにより再生された音声は、背景ノイズによってマスクされ、音声了解度の低下をもたらす可能性がある。音声了解度を向上させる多くの技術が利用可能である。その技術の一部はまた、ノイズキャプチャーデバイスを用いてノイズでの音声了解度を向上させる。しかしながら、これらの技術は、再生デバイスの物理的限界、ノイズキャプチャーデバイスの物理的限界、音声了解度処理のための信号ヘッドルーム、長期にわたる音声特性など、実装上の特定の限界に関連する現実課題を明確にしてこれに対処するものではない。

上述の課題及び問題に対処することで、未処理の音声から処理済みの音声への自然な移行の最適なパフォーマンスを実現することができる。従って、本明細書に提示された実施形態は、ノイズ環境での音声了解度を向上させ、本明細書に記載された現実的な課題を克服する、音声了解度分析のための新規の特徴及び改善を導入するものである。本実施形態は、限定ではないが、（１）マルチバンド音声及びノイズ補正と組み合わせたデジタル－音響レベル変換、（２）ショートセグメントの音声了解度分析、（３）ロングセグメントの音声及びノイズプロファイリング、及び（４）グローバル及びバンド当たりのゲイン分析を含む。実施形態で実施された分析結果は、再生用音声信号の広バンド及び周波数当たりのバンド当たりの相対的なゲイン調整パラメータをもたらすものであるので、実施形態における処理は、特定のオーディオ信号処理に限定されるものではなく、コンプレッサー、エキスパンダー、フォルマント強調などの既知の動的処理の何れかの組み合わせを含むことができる。

音声了解度処理に向けられた実施形態を実施することができる例示的なシステムの高レベルブロック図である。図１のシステムにおいて実装された例示的な音声了解度プロセッサ（ＶＩＰ）並びに関連する音声及びノイズ処理のブロック図である。音声了解度指数（ＳＩＩ）のバンド重要性関数の例示的なプロットである。２つの異なるラウドスピーカーについての例示的なラウドスピーカー周波数応答を示す図である。理想化された例示的なマイクロフォンの周波数応答及び理想化された例示的なラウドスピーカーの周波数応答と、２つの周波数応答の間の相互関係に基づいて決定された様々な周波数分析範囲についての周波数プロットである。音声信号のショートセグメントと、それに対応する周波数スペクトルのプロットである。音声信号の別のショートセグメントとその対応する周波数スペクトルのプロットである。音声信号のロングセグメントとそれに対応する周波数スペクトルのプロットである。ＶＩＰのボイスエンハンサーの一部の高レベルブロック／信号フロー図である。ＶＩＰによって実行されるマルチバンド音声了解度分析／処理及び音声了解度強調の一例の方法のフローチャートである。

本明細書で使用される場合、用語「スピーチ」、「音声」、及び「音声／スピーチ」は同義語であり、置き換え可能に使用することができ、「フレーム」、「セグメント」、及び「時間セグメント」は同義語であり、置き換え可能に使用することができ、「スピーチ（又は音声）了解度」及び「了解度」は同義であり、置き換え可能に使用することができ、「ビン」及び「バンド」は同義語であり、置き換え可能に使用することができ、「バンド幅（ＢＷ）」及び「通過バンド」は同義語であり、置き換え可能に使用することができる。

図１は、本明細書に提示された実施形態を実施することができる例示的なシステム１００である。システム１００は一例であり、多くの変形が実施可能である。このような変形例は、オーディオ構成要素を省略又は追加することができる。システム１００は、図示されていない遠隔通信デバイスとの音声通信、例えば音声通話をサポートする音声通信デバイスを表すことができる。また、システム１００は、通信デバイスと結合されたマルチメディア再生デバイスを表すことができる。システム１００の非限定的な例としては、電話（例えば、携帯電話、スマートフォン、ボイスオーバーインターネットプロトコル（ＩＰ）（ＶｏＩＰ）電話、及び同様のもの）、コンピュータ（例えば、卓上コンピュータ、ラップトップ、タブレット及び同様のもの）、音声通信デバイスを備えたホームシアターサウンドシステムが挙げられる。

システム１００は、音響環境、例えば、部屋、オープンスペース又は同様の環境に展開される。システム１００は、互いに結合された音声伝送経路、音声再生経路、及びメディア再生経路を含む。音声伝送は、互いに結合された音声／ノイズキャプチャーデバイス（単に「ノイズキャプチャーデバイス」とも呼ばれる）を表す、マイクロフォン１０４、音響エコーキャンセラ１０６、及びノイズプリプロセッサ１０８を含む。マイクロフォン１０４は、音響環境におけるサウンドを、このサウンドを表すサウンド信号に変換する。サウンド信号は、音響環境の背景ノイズ（単に「ノイズ」と呼ばれる）を表し、また、話し手からの音声を表すことができる。音響エコーキャンセラ１０６及びノイズプリプロセッサ１０８（以下、総称して「プリプロセッサ」）は、それぞれ、サウンド信号のエコーをキャンセルし、ノイズを低減して、例えばリモートステーションでの再生のために、処理されたサウンド信号（例えば、処理された音声）を送信する。

音声再生経路は、音声了解度プロセッサ（ＶＩＰ）１２０、システム音量制御装置１２２、及びラウドスピーカー１２４（より一般的には、再生デバイス）を含む。音声再生経路において、ＶＩＰ１２０は、スピーカー１２４を介して再生される音声信号（すなわち、音声再生信号）を受信する。例えば、音声信号は、再生のために上述の遠隔通信デバイス（例えば、遠隔の携帯電話）からシステム１００に送信することができる。更に、ＶＩＰ１２０は、音響環境のノイズを表すノイズ信号をマイクロフォン１０４から受信する。ＶＩＰ１２０により受信されるノイズ信号は、ＶＩＰの自己アクティベーションを避けるために、音響エコーキャンセラ１０６によって生成されたエコーキャンセルノイズ信号とすることができる。本明細書に提示された実施形態によれば、ＶＩＰ１２０は、音声信号の了解度を高めるために、ノイズ信号（例えば、マイクロフォン１０４によって感知されたノイズ）と共に再生のための音声信号を同時に処理して、了解度強化音声信号を生成する。ＶＩＰ１２０は、音響環境へのスピーカーによる再生のために、了解度強化音声信号を（システム音量制御装置１２２を介して）ラウドスピーカー１２４に提供する。

メディア再生経路は、オーディオポストプロセッサ１３０、システムボリュームコントロール１２２、及びラウドスピーカー１２４を含む。オーディオポストプロセッサ１３０は、スピーカー１２４による再生のためのメディア信号を（システムボリュームコントロール１２２を介して）処理する。また、システム１００は、音声再生又はメディア再生の何れかを選択的にラウドスピーカー１２４に向けるスイッチ１４０を含むことができる。

システム１００はまた、マイクロフォン１０４及びラウドスピーカー１２４に結合されたコントローラ１５０を含む。コントローラ１５０は、例えば、音響エコーキャンセラ１０６、ノイズプリプロセッサ１０８、ＶＩＰ１２０、オーディオポストプロセッサ１３０、スイッチ１４０、及びシステムボリュームコントロール１２２を実装するように構成することができる。コントローラ１５０は、プロセッサ１５０ａとメモリ１５０ｂを含む。プロセッサ１５０ａは、メモリ１５０ｂに格納されたソフトウェア命令を実行するように構成された、例えば、マイクロコントローラ又はマイクロプロセッサを含むことができる。メモリ１５０ｂは、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、又は他の物理的／有形（例えば、非一時的）のメモリ記憶装置を備えることができる。従って、一般に、メモリ１５０ｂは、コンピュータ実行可能命令を含むソフトウェアで符号化された１又は２以上のコンピュータ可読記憶媒体（例えば、メモリデバイス）を備えることができ、ソフトウェアが（プロセッサ１５０ａによって）実行さたときに、本明細書に記載される動作を実行するように動作可能である。例えば、メモリ１５０ｂは、ＶＩＰ１２０（例えば、図２－９に関連して後述するＶＩＰのモジュール）及び上述したシステム１００の他のモジュールを実装し、システム１００の全体的な制御を実行するための制御ロジックの命令を格納又は符号化されている。

また、メモリ１５０ｂは、制御ロジックにより使用され生成される本明細書に記載の情報／データ１５０ｃを格納する。

図２は、一実施形態による、ＶＩＰ１２０及びＶＩＰによって実行される処理の例示的な高レベルブロック図である。ＶＩＰは、ボイスエンハンサー２０４に結合されたボイス及びノイズアナライザー２０２を含む。音声及びノイズアナライザー２０２は、マイクロフォン１０４からノイズ信号を受信する。また、音声及びノイズアナライザー２０２は、再生用の音声信号を受信する。一例において、ノイズ信号及び音声信号は、時間領域信号であり、各々がパルス符号変調（ＰＣＭ）フォーマットとすることができるが、他のフォーマットも実施可能である。音声及びノイズアナライザー２０２は、ノイズ信号と音声信号を同時に分析／処理して、マルチバンド音声了解度結果２０５を生成し、ボイスエンハンサー２０４に提供する。音声エンハンサー２０４は、マルチバンド音声了解度結果２０５に基づいて音声信号を処理して、音声信号の了解度を強化又は向上させ、了解度強化音声信号を生成する。了解度強化音声信号は、システムボリュームコントロール１２２及びラウドスピーカー１２４を介して再生される。

音声及びノイズアナライザー２０２は、ノイズ補正経路２０６と、音声補正経路２０８と、２つの補正経路に続く音声了解度計算器２１０と、音声了解度計算器２１０に続くゲイン決定器２１２とを含む。ノイズ補正経路２０６は、ノイズデジタル音響コンバータ（ＤＡＬＣ）２２２と、ノイズＤＡＬＣに続くマルチバンドノイズ補正器２２４とを含む。音声補正経路２０８は、音声ＤＡＬＣ２２６と、音声ＤＡＬＣに続くマルチバンド音声補正器２２８とを含む。音声了解度計算器２１０は、ショートセグメント分析器２３０、ロングセグメント分析器２３２、及び無音／ポーズ検出器２３４を含む。ノイズ補正経路２０６は、マイクロフォン１０４を特徴付ける又は関連付ける、事前に測定された及び／又は導出されたノイズピックアップデバイスパラメータ２４０（例えば、既知のマイクロフォンパラメータ）を受け取る。音声補正経路２０８は、ラウドスピーカー１２４を特徴付ける又は関連付ける、事前に測定された及び／又は導出された再生デバイスパラメータ２４２（例えば、既知のラウドスピーカーパラメータ）を受け取る。

ハイレベルでは、ノイズ補正経路２０６は、ノイズピックアップデバイスパラメータ２４０に基づいて、マルチバンドノイズ補正をノイズ信号に適用する。具体的には、ノイズピックアップデバイスパラメータ２４０に基づいて、ノイズＤＡＬＣ２２２は、ノイズ信号のデジタル－音響レベル変換（例えば、スケーリング）を行い、ノイズ補正器２２４が、変換又はスケーリングされたノイズ信号にマルチバンドノイズ補正を行い、補正されたノイズ信号を生成する。ノイズ補正経路２０６は、補正されたノイズ信号を音声了解度計算器２１０に提供する。同様に、音声補正経路２０８は、マルチバンド音声補正を音声信号に適用する。具体的には、再生デバイスパラメータ２４２に基づいて、音声ＤＡＬＣ２２６が音声信号のデジタル－音響レベル変換（例えば、スケーリング）を行い、音声補正器２２８が、変換／スケーリングされた音声信号にマルチバンド補正を行い、補正された音声信号を生成する。音声補正経路２０８は、補正された音声信号を音声了解度計算器２１０に提供する。

音声了解度計算器２１０は、補正されたノイズ信号及び補正された音声信号に対してマルチバンド音声了解度分析を行い、マルチバンド音声了解度結果（ＭＶＩＲ）を生成し、ゲイン決定器２１２に提供する。より具体的には、ショートセグメントアナライザー２３０は、補正されたノイズ／音声のショート／ミディアム長さフレーム／セグメントに対してマルチバンド音声了解度分析を行い、ショート／ミディアム長さセグメントのマルチバンド音声了解度結果（「短期音声了解度結果」又は単に「短期結果」とも呼ばれる）を生成する。短期結果は、ノイズ／音声のショート／ミディアム長さセグメントのシーケンスに対応する、バンド当たりの音声了解度値、グローバル音声了解度値、バンド当たりのノイズパワー値、及びバンド当たりの音声パワー値のシーケンスを含む。

一方、ロングセグメントアナライザー２３２は、補正されたノイズ／ボイスのうち、ショート／ミディアム長さセグメントよりも長いロングフレーム／セグメントに対して長期ノイズ及び音声プロファイリング（音声了解度分析を含む）を行い、長期バンド当たりの音声了解度値及び長期グローバルゲイン値など、ロングセグメント音声了解度結果（「長期音声了解度結果」又は単に「長期結果」とも呼ばれる）を生成する。例えば、長期ノイズ及び音声プロファイリングは、短期結果のシーケンスにおいて値の移動平均（例えば、ロングセグメントと同じ長さの時間期間にわたって）を実行して、長期結果を生成することができる。また、長期ノイズ及び音声プロファイリングは、例えば、後述するように、複数のショート／ミディアム長さセグメントにわたるノイズ／音声パワー値のピークホールド及び再設定など、短期結果の他のタイプの長期処理を採用することができる。

無音／休止検出器２３４は、無音の間に了解度分析を中断するため、例えば、無音の間の了解度分析の起動を防止するなどのため、補正された音声信号の無音／休止を検出する。

ゲイン決定器２１２に提供される音声了解度結果は、短期結果と長期結果の組み合わせを含むことができる。ゲイン決定器２１２は、前述の音声了解度結果に基づいて、ショート／ミディアム長さセグメントのグローバル及びバンド当たりゲインを導出し、このゲインをボイスエンハンサー２０４に提供する。ボイスエンハンサー２０４は、ボイスコンプレッサー、ボイスエキスパンダー、フォルマント・エンハンサーなどを含むことができる。ボイスエンハンサー２０４は、分析結果２０５に一部基づいて、（補正されていない）音声信号に対してボイス強調処理を行う。例えば、ボイスエンハンサー２０４は、音声信号にゲインを適用して、了解度強化音声信号を生成し、これは、システムボリュームコントロール１２２及びラウドスピーカー１２４を介して再生される。

本明細書に示される実施形態は、限定ではないが、ノイズ及び音声補正経路２０６、２０８によって実行されるマルチバンドノイズ及び音声補正、ショートセグメントアナライザー２３０によって実行されるショート／ミディアム長さセグメント音声了解度分析、ロングセグメントアナライザー２３２によって実行される長期ノイズ及び音声プロファイリング、並びにゲイン決定器２１２によって実行されるグローバル及びバンド当たりのゲイン分析を含む。以下、実施形態についてより詳しく説明する。

（マルチバンドノイズ及び音声の補正）
マルチバンドのノイズ及び音声分析は知られている。このような分析の一形態は、音声了解度指数（ＳＩＩ）を含む。ＳＩＩ分析は、ラウドスピーカーを介して音響環境に再生されるマルチバンド音声信号と、マイクロフォンによって検出された音響環境のノイズを表すノイズ信号とを受け取る。ＳＩＩ分析は、（ｉ）音声信号の周波数バンド当たりの音声信号とノイズ信号のレベルの差を計算し、例えば、音声信号の周波数バンド当たりの音声対ノイズ比（ＳＮＲ）を計算し、バンド当たりのＳＮＲと対応する周波数バンドのバンド重要性関数とを乗算して、その結果を合計する。

図３は、音声了解度指数のバンド重要性関数の異なるプロットを示す。バンド重要性関数は、基本的に、音声信号の周波数バンドに対して音声／スピーチ了解度への寄与／重要性に応じて異なる重みを付与する。バンド重要性関数と共に、人間のスピーチの基本及び第１フォルマントが、第２フォルマント及び他の要因に比べてスピーチ／音声了解度に影響を与えない場合があることが研究されている。これらは、音声の了解度を計算する際に考慮すべき重要な要因である。

了解度指数に基づく音声信号の周波数応答及び各周波数バンドの了解度寄与因子を直接的に操作すると、ラウドスピーカーを介した再生の際の音声品質が低下する可能性がある。例えば、このような操作は、周波数バランスの変更及び／又は時間的変化の変動の導入時に音声が不自然に聞こえる可能性がある。加えて、上記の了解度分析の前にトランスデューサの周波数応答（例えば、マイクロフォン及びラウドスピーカーの周波数応答）が補正されない場合、了解度分析（例えば、ＳＩＩ）の結果が正確には得られないことになる。更に、ラウドスピーカーの制約（例えば、その小さなサイズ又は小さなドライバ）により、ラウドスピーカーが音声の全周波数バンド幅を再生できない場合、ラウドスピーカーは更に、周波数バランスの変化における音声／スピーチ品質を劣化させ、音声了解度結果が不正確になる可能性がある。ラウドスピーカーが再生できない音声周波数のゲインを増大させることで問題は解決されず、非線形歪みを引き起こす可能性があり、及び／又はラウドスピーカーのドライバに負担をかける可能性がある。

図４は、２つの異なるラウドスピーカー（ｓｐｋ１及びｓｐｋ２）の周波数応答を示している。変換器特性はラウドスピーカーごとに、及びマイクロフォンごとに異なるので、マルチバンド音声了解度を計算する際に、所与のシステムのラウドスピーカー補償及びマイクロフォン補償を考慮する必要がある。

従って、ノイズ及び音声補正経路２０６，２０８によって行われるマルチバンドノイズ及び音声補正は、周波数バンドの各々の了解度寄与因子に加えて、ラウドスピーカーとマイクロフォンのそれぞれの特性に基づいて、マルチバンド音声了解度結果の算出に用いるノイズ及び音声の周波数バンドを補正する。一例として、ノイズ補正経路２０６は、ノイズピックアップデバイスパラメータ２４０に基づいて、ノイズ信号（Ｈ_ns）の周波数バンドを補正（例えば、周波数バンドのパワーレベルを調整）して、補正されたノイズ信号（Ｈ_{An_ns}）を生成し、音声補正経路２０８は、再生デバイスパラメータ２４２に基づいて、音声信号（Ｈ_spch）の周波数バンドを補正（例えば、周波数バンドのパワーレベルを調整）して、補正されたスピーチ信号（Ｈ_{An_spch}）を生成する。次いで、音声了解度計算器２１０は、補正されたノイズ信号（Ｈ_{An_ns}）及び補正された音声信号（Ｈ_{An_spch}）に対して、マルチバンド音声了解度分析を行う。

ノイズピックアップデバイスパラメータ２４０の例は、マイクロフォン伝達関数Ｈ_mic（例えば、既知のマイクロフォン伝達関数）、マイクロフォンに関連するゲインｇ_mic（すなわち、ノイズ信号の出力ゲイン）、ノイズ信号の音響－デジタル変換ゲインｃ_mic、及びマイクロフォンの感度を含む。再生デバイスパラメータ２４２の例は、ラウドスピーカーの伝達関数Ｈ_spk（すなわち、既知のラウドスピーカー伝達関数）、ラウドスピーカーに関連するゲインｇ_spk（すなわち、音声信号の出力ゲイン）、及び音声信号の音響－デジタル変換ゲインｃ_spk、及びラウドスピーカーの感度（これは別個に設けられてもよく、又は他のパラメータに組み込まれてもよい）を含む。伝達関数は、伝達関数をまたぐ複数の連続した周波数バンドにわたる振幅及び位相情報を含む、対応するトランスデューサ（例えば、マイクロフォン又はラウドスピーカー）の時間領域インパルス応答の周波数領域表現を含むことができる。一例として、音声補正経路２０８は、再生デバイスパラメータ２４２を使用して音声信号（Ｈ_spch）（例えば、音声信号の周波数スペクトル）を補正し、以下の式に従って、ｚ領域で補正された音声信号（Ｈ_{An_spch}）を生成する。
Ｈ_{An_spch}（ｚ）＝Ｈ_spch（ｚ）＊Ｈ_spk（ｚ）＊ｇ_spk＊ｃ_spk 式（１）

例えば、音声ＤＡＬＣ２２６は、パラメータｇ_spk及びｃ_spkに基づいて音声信号をスケーリングし、音声補正器２２８は、ラウドスピーカー伝達関数Ｈ_spk（ｚ）に基づいてスケーリングされた音声信号のマルチバンド補正を行う。

同様に、ノイズ補正経路２０６は、ノイズピックアップデバイスパラメータ２４０を用いてノイズ信号（Ｈ_ns）を補正し、以下の式に従ってｚ領域の補正されたノイズ信号（Ｈ_{An_ns}）を生成する。
Ｈ_{An_ns}（ｚ）＝Ｈ_ns（ｚ）＊Ｈ_mic（ｚ）^-1＊ｇ_mic＊ｃ_mic 式（２）

例えば、ノイズＤＡＬＣ２２２は、パラメータｇ_mic及びｃ_micに基づいてノイズ信号をスケーリングし、ノイズ補正器２２４は、マイクロフォン伝達関数Ｈ_mic（ｚ）に基づいて、スケーリングされたノイズ信号のマルチバンド補正を行う。これにより、音響環境におけるノイズの正確な推定値が得られる。

ノイズ信号及び音声信号の上述のスケーリングは、マイクロフォン感度及びスピーカー感度にそれぞれ一部基づいたスケーリングを含むことができる。一例では、スケーリングされたノイズ／音声値は、以下で与えられる。
Ｓｃａｌｅ＿ｖａｌ＝１０^(A/20)／１０^(D/20)＝１０^((A-D)/20)
ここで、Ａ＝音響レベル（ｄＢ）、Ｄ＝等価デジタルレベル（ｄＢ）である。

このようなスケーリングは、それぞれの入力信号（すなわち、ノイズ又は音声）を対応する音響レベル（ｄＢ）に一致させるために、マイクロフォン１０４及びラウドスピーカー１２４に関して別々に実行される。或いは、スケーリングは、マイクロフォン及びラウドスピーカーの感度に対してノイズ及び音声レベルを整合するように行うことができる。スケーリングされた値に対して実行される後続の音声了解度計算は、同じ音響環境からの（補正された）音声信号と（補正された）ノイズ信号の比を使用するので、異なるマイクロフォンとラウドスピーカー感度によって引き起こされるデルタが調整される場合、了解度計算が正確になる。

この場合：
Ｓｃａｌｅ＿ｖａｌ＿ｍｉｃ＝１０^(Aspk/20)／１０^(Amic/20)
ここで、Ａ_spk及びＡ_micは、同一レベルのデジタルレベル（ｄＢＦＳ）に基づいた測定／計算された音響レベル（ｄＢ）である。スケーリングによって相対デルタが調整されるので、スケーリングされた値は、ノイズ信号にのみ適用することができる。或いは、Ｓｃａｌｅ＿ｖａｌ＿ｍｉｃの逆数を音声信号にのみ適用することができる。

式（１）及び式（２）の音声信号及びノイズ信号の補正は、後続のマルチバンド音声了解度分析を改善する。音声及びノイズ補正に加えて、本明細書に示される実施形態は、マイクロフォン１０４及びラウドスピーカー１２４の周波数応答に対してマルチバンド（周波数）領域分析を行う。マルチバンド領域分析は、ノイズ補正経路２０６、音声補正経路２０８、及び／又は音声了解度計算器２１０において、或いは音声及びノイズアナライザー２０２の別個のモジュールにより実行することができる。マルチバンド分析は、マイクロフォンの周波数バンドとラウドスピーカーの周波数バンドとの間の重なりと非重なりの相互関係を調査／決定して、その決定した相互関係に基づいて、マルチバンド音声了解度分析に用いる周波数バンドを異なる周波数分析領域／範囲に分割する。次に、マルチバンド領域分析によって設定された異なる周波数分析領域に基づいて（すなわち、考慮して）、マルチバンド音声了解度分析が行われる。例えば、マルチバンド音声了解度分析は、後述するように、異なる周波数分析範囲内の音声分析バンドに異なるタイプの了解度分析を適用することができる。

図５は、理想化された（ブリックウォール）マイクロフォン周波数応答５０２及び理想化されたラウドスピーカー周波数応答５０４と、２つの周波数応答の相互関係に基づいてマルチバンド領域分析によって決定された様々な周波数分析範囲（ａ）～（ｇ）の周波数プロットを示す図である。マイクロフォン周波数特性５０２は、マイクロフォン周波数応答の最小値（「ｍｉｎ」）／開始周波数ｆ_mic1から最大値（「ｍａｘ」）／停止周波数ｆｍｉｃ２まで延びる有用／応答性マイクロフォン周波数範囲又はバンド幅（ＢＷ）／周波数通過バンド（例えば、３ｄＢＢＷであるが、有用なマイクロフォン通過バンドと考えられる他の尺度を使用してもよい）を有する。同様に、ラウドスピーカー周波数応答５０４は、ラウドスピーカー周波数応答の最小／開始周波数ｆ_spk1から最大／停止周波数ｆ_spk2まで延びる有用／応答性ラウドスピーカー周波数範囲又はＢＷ／周波数通過バンド（例えば、３ｄＢＢＷであるが、有用なラウドスピーカー通過バンドと考えられる他の尺度を使用してもよい）を有する。

図５の例では、最小又は開始周波数ｆ_spk1，ｆ_mic1は、ｆ_spk1＞ｆ_mic1の関係にあり、最大又は停止周波数ｆｍｉｃ２，ｆ_spk2は、ｆｍｉｃ２＞ｆ_spk2の関係にある。従って、マイクロフォン通過バンドは、ラウドスピーカー通過バンドを上回り、完全に包含しており、つまり、ラウドスピーカー通過バンドは、完全にマイクロフォン通過バンド内にある。この場合、ラウドスピーカー通過バンドとマイクロフォン通過バンドは、ラウドスピーカー通過バンドにわたってのみ重なり合う。別の例では、この逆も当てはまることができ、すなわち、最小周波数がｆ_mic1＞ｆ_spk1、最大周波数がｆ_spk2＞ｆｍｉｃ２の関係にあり、ラウドスピーカー通過バンドがマイクロフォン通過バンドを上回り、完全に包含するようになり、すなわち、マイクロフォン通過バンドが完全にラウドスピーカー通過バンド内にあるようになる。この場合、ラウドスピーカー通過バンドとマイクロフォン通過バンドは、マイクロフォン通過バンドのみで重なり合う。

図５の例では、マルチバンド領域分析は、周波数分析領域（ａ）～（ｇ）（単に「領域（ａ）～（ｇ）」と呼ぶ）を、この領域でマルチバンド音声了解度を実行することに関して、以下のように分類することができる。
ａ．領域（ａ）及び（ｂ）は、音声了解度分析によって変化しない領域として、又はヘッドルーム保持のための減衰領域として、すなわちヘッドルームを保持するために定義することができる。
ｂ．領域（ｃ）及び（ｇ）は、ノイズキャプチャーデバイス（例：マイクロフォン）が正確な分析結果を提供できないので、音声了解度分析に含めるべきではない。ｆ_mic1を下回り、ｆｍｉｃ２を上回る周波数領域は、Ｈ_micの逆数（Ｈ_mic ^-1）がノイズ補正のためにノイズ信号に適用するには十分に安定していない不安定なキャプチャー周波数領域／バンドを含む。
ｃ．領域（ｄ）及び（ｆ）は、（グローバル）ノイズレベル及びマスキング閾値を計算するための音声了解度分析に含まれるべきであるが、バンド当たりの音声了解度分析には含まれず、例えば、音声了解度分析の結果として得られる領域（ｄ）及び（ｆ）における何れかのバンド当たりの音声レベルの増加は、これらの領域で応答応しない再生デバイスによって対応することができない。
ｄ．ラウドスピーカーとマイクロフォン周波数応答の配置が図５と逆の場合、すなわちラウドスピーカー通過バンドが、マイクロフォン通過バンドを上回る場合には、領域（ｄ）（すなわち、ｆ_spk1とｆ_mic1の間）のノイズ信号レベルは、領域に隣接する周波数バンド（例えば、ｆ_mic1の上方／下方）のノイズ信号レベルを用いて近似することができる。この場合、補正されたノイズ信号は、以下のように計算することができる。
Ｈ_{An_ns}（ｋ）＝ａｌｐｈａ＊Ｈ_{An_ns}（ｋ＋１）
ここで、αは０～１．０の範囲の近似係数であるが、最小値は０より大きいことが好ましい。

マイクロフォン通過バンドがラウドスピーカー通過バンドよりも広く、ラウドスピーカー通過バンドを包含している図５の例では、ノイズ信号に式（２）の補正を適用した後のノイズ信号のレベルは、正確であるとみなされるので、領域（ｄ）及び（ｆ）は、グローバルノイズレベル及びマスキング閾値計算に含めるべきである。しかしながら、ラウドスピーカー通過バンドがマイクロフォン通過バンドよりも広くマイクロフォン通過バンドを包含している代替／逆の例では、スピーチ信号のレベルは正確であるが、領域内のノイズ信号のレベルは正確ではないので、領域（ｄ）及び（ｆ）の扱いが異なる。この場合、領域（ｄ）及び（ｆ）は、グローバル分析及びバンド当たり分析の両方から除外することができる。

上記のように周波数分析範囲を考慮することで、ノイズレベルが不正確な周波数バンドが分析から除外されるので、音声了解度分析の精度が向上する。また、音声了解度分析は、ラウドスピーカー及びマイクロフォンの周波数範囲／通過バンドの差異を処理することにより、最適なグローバル音声了解度結果及びバンド当たり音声了解度結果を提供する。

次いで、音声補正及びノイズ補正は、周波数バンドごと（すなわち、音声分析バンドごと）の了解度寄与因子と組み合わせることができる。例えば、音声／ノイズ補正を用いて、バンド当たりの（音声）了解度値Ｖ_idx（ｉ）（周波数バンドｉ＝１～Ｎについて）を以下のように計算することができる。
Ｖ_idx（ｉ）＝Ｉ（ｉ）＊Ａ（ｉ），ｉ＝ｆｒｏｍｍａｘ（ｆ_mic1，ｆ_spk1）ｔｏｍｉｎ（ｆ_mic2，ｆ_spk2）Ｅｑ．（３）
ここで、
ｉ＝所与のバンドを識別するバンド指数（例えば、バンドｉ＝１からバンドｉ＝２１）。
Ｉ＝重要性
Ａ＝バンド聴取可能値、及び
関数ｍａｘ（ｆ_mic1，ｆ_spk1）～ｍｉｎ（ｆ_mic2，ｆ_spk2）は、ラウドスピーカーとマイクロフォン通過バンド間の周波数オーバーラップ（例えば、ラウドスピーカーとマイクロフォン通過バンドがオーバーラップする「オーバーラップ通過バンド」）を決定／定義する。

音声及びノイズアナライザー２０２は、上記の関係を用いて、ラウドスピーカーとマイクロフォンの開始周波数及び停止周波数に基づいて、オーバーラップ通過バンドを決定する。

バンド可聴値Ａは、式（１）及び式（２）からそれぞれ補正された音声信号及び補正されたノイズ信号音声に基づいている。例えば、バンド可聴値Ａは、所与のバンドにおける補正音声信号のパワーと補正ノイズ信号のパワーの比に比例することができる。バンド当たりの周波数分析範囲は、上述したノイズピックアップデバイスパラメータ２４０及び再生デバイスパラメータ２４２に基づいて定義／補正される。

以上のことから、式（３）は、異なる周波数分析領域に基づいて音声分析バンド１～Ｎからの音声了解度結果を以下のように生成する。
ａ．バンド１（すなわち、最低周波数バンド）からｍａｘ（ｆ_mic1，ｆ_spk1）まで⇒了解度Ｎ／Ａ。
ｂ．ｆ_spk1からｆ_spk2まで＝＞バンド当たりの音声了解度は式（１）及び（２）で与えられる。
ｃ．ｍｉｎ（ｆ_mic2，ｆ_spk2）からバンドＮ（すなわち、最高周波数バンド）まで⇒了解度Ｎ／Ａ。

ｍａｘ（ｆ_mic1，ｆ_spk1）がｆ_spk1の場合、図５に示す領域（ａ）を減衰させて、処理のヘッドルームを確保することができる。
ｍａｘ（ｆ_mic1，ｆ_spk1）がｆ_mic1の場合、ｆ_spk1を下回る領域をヘッドルーム確保のために利用することができる。このヘッドルームは、音声信号がなどのシステム（例えば、ラウドスピーカー）の最大出力レベル（又はそれに近いレベル）に達する場合に重要とすることができる。この場合、音声了解度分析のためのヘッドルームがないので、了解度を向上させることはできない。或いは、音声信号のピーク値を維持しながら、二乗平均平方根（ＲＭＳ）値を増大させるために、コンプレッサー／リミッターを導入することができるが、圧縮量がある一定レベルを超えた場合、不自然なサウンド及び「ポンピング」などの圧縮アーチファクトが発生する可能性がある。従って、ラウドスピーカーが、ある領域の一定の周波数範囲を完全には再生できない場合、当該領域の音声信号を減衰させて、ヘッドルームを確保することができる。

音声補正及びその分析領域計算を利用して、グローバル音声了解度値（グローバルスピーチ対ノイズ比（ＳＮＲ）（Ｓｇ）とも呼ばれ、等価的にはグローバル音声対ノイズ比と呼ばれる）は、以下の式に従って計算することができる。

ここで、Ｃ１＝ｆ_mic1（ｆ_mic1≧ｆ_spk1の場合）、又はＣ１＝ｆ_spk1（ｆ_mic1＜ｆ_spk1の場合）；
Ｃ２＝ｆ_mic2（ｆ_mic2＜ｆ_spk2の場合）、又はＣ２＝ｆ_spk2（ｆ_mic2≧ｆ_spk2の場合）；
∝は正規化係数；及び
Ｈ_spch（ｊ）及びＨ_noise（ｉ）は，それぞれｊ番目及びｉ番目の周波数バンドにおける補正された音声信号及びノイズ信号である。

上記の関係によれば、周波数Ｃ１＝ｍａｘ（ｆ_mic1，ｆ_spk1）、周波数Ｃ２＝ｍｉｎ（ｆ_mic2，ｆ_spk2）、及び周波数範囲Ｃ１～Ｃ２は、マイクロフォン通過バンドとラウドスピーカー通過バンドとのオーバーラップ周波数範囲（すなわち、オーバーラップ通過バンド）である。式（４）の分子は、オーバーラップ周波数範囲のみの補正された音声パワーを累積／加算し、分母は、マイクロフォンの周波数範囲／通過バンドのみの補正されたノイズパワーを累積／加算する。

ショートセグメント分析器２３０は、式（３）に従って計算されたバンド当たりの音声了解度値のシーケンスと、式（４）に従って計算されたグローバル音声対ノイズ比（Ｓｇ）のシーケンスとを生成する。ロングセグメント分析器２３２は、ロングセグメントに等しい複数のショート／ミディアム長さセグメントにわたってショートセグメント分析器２３０からのノイズパワー及び音声パワーの格納された値（すなわち、値のシーケンス）を処理（例えば、平均化）して、ロングセグメントのバンド当たりの了解度値及びロングセグメントのグローバル了解度値を生成する。ロングセグメント分析器２３２は、以下に説明するように、ピークホールド及びリセットなど、短期保存された値に対して更なる動作を行うことができる。

図５に関連して上述した実施形態は、式（３）及び（４）のための周波数範囲設定又は限界として使用される分析領域を決定する。別の実施形態では、制限がそれぞれの重み係数に含まれているので、それぞれの重み係数は、範囲を制限することなく、本質的に式（３）及び（４）を計算するためにＨ_{An_spch}及びＨ_{An_ns}に直接適用することができる。この実施形態では、以下のように補正が適用される。
Ｈ_{An_spch}＝Ｗ_sp＊Ｈ_{An_spch}
Ｈ_{An_ns}＝Ｗ_ns＊Ｈ_{An_ns}
ここで、Ｗ_sp及びＷ_nsは、各周波数バンド（０～π）に適用される音声及びノイズの重み付け係数である。

要約すると、実施形態は、以下のようにノイズ／音声補正を用いてノイズ／音声了解度を計算する包括的方法を提供する。
ａ．再生デバイス及びノイズキャプチャーデバイスの特性を用いて、音声及びノイズ信号を補正し、分析のために音声及びノイズの周波数バンド又は範囲を定義する。
ｂ．音声了解度寄与の重み付け係数とデバイスの周波数範囲を相互に検討する。
ｃ．音声及びノイズアナライザー２０２への所与の音声及びノイズ入力により、各バンドの処理ゲインパラメータ及び／又はグローバル処理ゲイン値を有する音声了解度値を生成するための分析を行う。

なお、本明細書に記載されている分析では、周波数バンドは一定のバンドに限定されていない点に留意されたい。周波数バンドは、オクターブバンド、１／３オクターブバンド、臨界バンド、及び同様のものとすることができる。

（ショート／ミディアム長さセグメント音声了解度分析）
多くの音声再生のユースケースでは、最小のレイテンシーが求められる。従って、約１秒又はそれ以上のロングセグメント（例えば、すなわち音声／ノイズのロングセグメント）を音声了解度分析（「ロングセグメント分析」と呼ぶ）に使用することは、ロングセグメント分析が過剰なレイテンシーをもたらす可能性があるので、実用的ではない。これに対して、音声／ノイズ分析及び処理のためのショート／ミディアム長さセグメントは、通常は、約２～３２ｍｓの時間期間である。また、ノイズは、静的なものではなく、例えば、犬の鳴き声、車の通過する大きな音など、動的な場合がある。従って、ロングセグメントよりも相対的に短いショート／ミディアム長さセグメントのマルチバンド音声了解度分析（ショート／ミディアム長さセグメント分析と呼ばれる）が好ましい。すなわち、ロングセグメントよりもショート／ミディアム長さセグメントの分析の方が好ましい。

ショート／ミディアム長さセグメント分析に関する問題点は、他の処理（例えば、ゲイン処理）と組み合わせると、ショート／ミディアム長さセグメント長さ分析は、不要なアーチファクトを生成する可能性があることである。例えば、処理ゲインの適応が速すぎると、音声の周波数バランスが頻繁に変化するだけでなく、不自然な音声変動が発生する可能性がある。このようなアーチファクトを軽減する一般的な方法は、アタック及び減衰時間を設定することにより、ゲインの変化に円滑さを加えることである。

しかしながら、このように音声了解度結果を平滑化すると、精度と安定性がトレードオフになる。安定したサウンドを維持しながら最適な精度を得るためには、より長期の音声ノイズプロファイリングを行うことで成果を向上させることができる。本明細書で提示される実施形態は、従来の方法とは異なり、以下に示すように、従来のショート／ミディアム長さセグメント分析と長期音声ノイズプロファイリングを組み合わせている。

（長期音声及びノイズプロファイリング）
２～３２ｍｓのショート／ミディアム長さセグメントとは対照的に、長期音声及びノイズプロファイリングにより分析されるロングセグメントは、２ワード～数センテンス（例えば、約１～３０秒）の長さとすることができる。長期音声及びノイズプロファイリングでは、ノイズ／音声信号を長期にわたり保存する必要はない。むしろ、長期音声及びノイズプロファイリングでは、スライディングウィンドウで時間経過と共に（すなわち、ロングセグメントにわたって）短期結果（すなわち、ショート／ミディアム長さセグメントの特性）を蓄積する。長期分析は、音声及びノイズの過去のサンプルを使用するので、長期音声及びノイズプロファイリングから得られる長期分析は、音声了解度結果のレイテンシーを増大しない。

図６、図７、図８は、音声信号の異なる時間セグメントと、これらに対応する周波数スペクトルを示す。図６は、音声信号の短い時間セグメント（すなわち、「ショートセグメント」）を示す上部プロットと、ショートセグメントの周波数スペクトルを示す下部プロットを含む。ショートセグメントは、約２３ｍｓのショートセグメントにわたる１０２４個の音声サンプルを含む。同様に、図７は、音声信号の別のショートセグメントを示す上部プロットと、ショートセグメントの第２の周波数スペクトルを示す底部プロットとを含む。図６及び図７の上部プロットに示されたショートセグメントは、音声典型的であるように、それぞれ周期的である。異なる音素が異なるフォルマント周波数を有するので、図６及び図７の底部プロットに示された周波数スペクトルは異なる。

図８は、音声信号の長い時間セグメント（すなわち、「ロングセグメント」）を示す上部プロットと、ロングセグメントの周波数スペクトルを示す底部プロットとを含む。ロングセグメントは、約４．２４秒にわたる１０２４個の音声サンプルを含む。図６及び図７のショートセグメントと図８のロングセグメントは、音声基本周波数を含む共通のデータを取り込むが、ロングセグメントは、より長い期間の音声のスペクトル特性を示している。従って、長期音声及びノイズプロファイリングを含む音声了解度分析は、より広い周波数バンド分析値から恩恵を受け、時間の経過と共に急激に変化する可能性がある、バンド当たりの分析に基づいて狭バンドの周波数ゲインを動的に割り当てようと試みるだけではなく、ロングセグメントにわたる音声信号の長期特性を取り込むことができる。加えて、長期音声及びノイズプロファイリングはまた、ロングセグメントにわたる音声の時間的特性を取り込む。

環境中の一貫したノイズの例は、犬の吠え声及び車の通過音など、時折発生する過渡的／動的なノイズと結合したファンノイズ又はハムを含む。この場合、長期音声及びノイズプロファイリングは、静的／一貫したノイズの特徴を識別することができ、他方、ショート／ミディアム長さセグメント分析は、動的ノイズを識別することができる。長期音声及びノイズプロファイリングは、ピークノイズを取り込むことができ、このピークノイズは、長期結果と短期的な結果を比較することでリセットされ、一貫した背景ノイズが変化したか除去されたかを特定することができる。例えば、長期音声及びノイズプロファイリングは、ロングセグメントの音声／ノイズをピークホールドすることを含むが、その後、短期結果を使用して、例えば、音声再生が別のスピーカー又は合成音声に変わったときに、ピークをリセットするかどうかを決定することができる。別の例は、分析に数語の長さセグメントを使用することであり、これにより、あるスピーカーから別のスピーカーへの遷移をスライディングウィンドウで緩慢に取り込むことができる。

（グローバル及びバンド当たりのゲイン分析）
ゲイン決定器２１２は、ショートセグメント分析器２３０によって生成された結果に基づいて、（補正されていない）音声信号に適用されるバンド当たりのゲイン（調整）及びグローバルゲイン（調整）を含むマルチバンドゲイン値を計算する。ゲイン決定器２１２は、ゲインをボイスエンハンサー２０４に提供し、ボイスエンハンサー２０４はゲインを音声信号に適用する。ゲインの計算は、了解度を高めるために適用される処理に応じて柔軟に行うことができる。計算器資源に制約がある場合、分析バンドをグループ化して、処理される分析バンドの数を効果的に減らすことができ、又は、分析バンドの一部を処理から除外することもできる。処理が、フォルマント位置強調又はスペクトルピーク強調など、特定のインテリジェンスが既に含む場合、処理は、インテリジェンスを使用して、上述の分析方法に基づいて、処理が選択的にゲイン及び適切なグローバルゲインパラメータを増加／減少させる周波数位置に関する了解度情報を提供することができる。

一例では、ゲインは、以下の又は類似の関係に従って計算することができる。
グローバルゲイン（ｇ＿Ｇｌｏｂａｌ）＝Ｗｇ＊Ｓｔ＿ｇ／Ｓｃ
バンド当たりのゲイン（ｇ＿ｐｅｒｂａｎｄ（ｉ））＝Ｗｐｂ＊Ｓｔ＿ｐｂ／Ｓｃ（ｉ）
ここで、ｇ＿Ｇｌｏｂａｌ及びｇ＿ｐｅｒｂａｎｄは、音声出力信号に適用される。
Ｗｇ及びＷｐｂは、グローバル及びバンド当たりの重み係数である。
Ｓｔ＿ｇ及びＳｔ＿ｐｂは、バンドごと及びグローバルの短期／ミディアム長さセグメントの了解度値（例えば、スピーチ対ノイズ（ＳＮＲ）値）であり；及び
Ｓｃは、現在のＳＮＲである。

重みＷｇ及びＷｐｂは、現在の音声了解度値に対して重みが変化するように、了解度値の閾値に基づいて決定することができる（例えば、了解度値が比較的高い場合には、ｇ＿Ｇｌｏｂａｌに多くの重み（Ｗｇ）を適用し、ｇ＿ｐｅｒｂａｎｄに少ない重み（Ｗｐｂ）を適用し、その逆も同様である）。

図９は、一実施形態による、ボイスエンハンサー２０４の一部の高レベルブロック／信号フロー図である。例において、ボイスエンハンサー２０４は、バンド当たりのゲイン値ｇ＿ｐｂ（ｉ）及びグローバルゲインｇ＿Ｇｌｏｂａｌを音声信号に適用して、了解度強化音声信号を生成するマルチバンドコンプレッサー９０４を含む。

図１０は、例えば、ＶＩＰ１２０によって実行される音声了解度処理を実行する例示的な方法１０００のフローチャートである。方法１０００の動作は、上述の動作に基づいている。

１００２において、マイクロフォンは、音響環境におけるノイズを検出して、ノイズ信号を生成する。

１００４において、ＶＩＰ１２０の入力は、ラウドスピーカーを介して音響環境に再生するための音声信号を受信する。

１００６において、ＶＩＰ１２０は、ノイズ信号のデジタル－音響レベル（ＤＡＬ）変換を実行し、マイクロフォンの既知又は導出されたマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を実行し、補正されたノイズ信号を生成する。マルチバンド補正は、マイクロフォン伝達関数を補正するために、ノイズ信号のスペクトルを調整する。

１００８において、ＶＩＰ１２０は、音声信号のＤＡＬ変換を行い、ラウドスピーカーの既知又は導出されたラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成する。マルチバンド補正は、音声信号のスペクトルを調整し、ラウドスピーカーの伝達関数を補正する。

１０１０において、ＶＩＰ１２０は、マイクロフォン伝達関数とラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定する。例えば、ＶＩＰ１２０は、マイクロフォン伝達関数のマイクロフォン通過バンドとラウドスピーカー伝達関数のラウドスピーカー通過バンドとが重なり合うオーバーラップ通過バンドを通過バンドの開始周波数と停止周波数に基づいて決定する。所与の通過バンドの開始周波数及び停止周波数は，例えば、所与の通過バンドに対応する伝達関数の対向する３ｄＢダウンポイント（又は他の適切な「Ｘ」ｄＢダウンポイント）に相当することができる。

１０１２において、ＶＩＰ１２０は、複数の音声分析バンドにわたって、ノイズ信号に基づいて（例えば、補正されたノイズ信号に基づいて）及び音声信号に基づいて（例えば、補正された音声信号に基づいて）、マルチバンド音声了解度分析を実行し、マルチバンド音声了解度結果を計算する。分析は、例えば、オーバーラップ通過バンドの音声分析バンドに限定することができる。分析結果により、バンド当たりの音声了解度とグローバルスピーチ／音声対ノイズ比が得られる。マルチバンド音声了解度分析は、短期結果を得るためのショート／ミディアム長さセグメント／フレームに基づく分析と、長期結果を得るためのロングセグメントに基づく分析を含む。

１０１４において、ＶＩＰ１２０は、バンド当たりの音声了解度値及びグローバルスピーチ／音声対ノイズ比に基づいて、バンド当たりのゲイン及びグローバルゲインを計算する。

１０１６において、ＶＩＰは、ゲインに基づいて音声信号の了解度を強化し、ラウドスピーカーを介して強化された音声信号を再生する。

様々な実施形態において、方法１０００の動作の一部は省略されてもよく、及び／又は方法１０００の動作を再順序付け／置き換えることができる。例えば、変換／補正動作１００６及び１００８は省略されてもよく、その結果、動作１０１２は、複数の音声分析バンドにわたるノイズ信号（補正なし）及び音声信号（補正なし）に基づいてマルチバンド音声了解度分析を実行し、マルチバンド音声了解度結果を計算する。別の例では、動作１００６及び１００８は、それぞれのマルチバンド補正を省略し、従って、それぞれのＤＡＬ変換のみを残すように変更することができる。

一実施形態において、方法は、マイクロフォンを用いて環境内のノイズを検出してノイズ信号を生成するステップと、ラウドスピーカーを介して環境内に再生される音声信号を受信するステップと、マイクロフォンのマイクロフォン伝達関数とラウドスピーカーのラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定するステップと、ノイズ信号及び音声信号に基づいて、周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップとを含む。本方法は、マイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、ラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、を更に含み、計算するステップは、補正されたノイズ信号及び補正された音声信号に基づいて、周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップを含む。

別の実施形態では、装置は、環境中のノイズを検出してノイズ信号を生成するマイクロフォンと、ベースとなる環境内に音声信号を再生するラウドスピーカーと、マイクロフォン及びラウドスピーカーに結合されたコントローラと、を備え、コントローラは、マイクロフォンのマイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、ラウドスピーカーのラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいて、マルチバンド音声了解度結果を計算するステップと、マルチバンド音声了解度結果に基づいて、マルチバンドゲイン値を計算するステップと、マルチバンドゲイン値に基づいて音声信号を強調するステップと、を行うように構成されている。

更に別の実施形態では、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、プロセッサによって実行されたときに、マイクロフォンから環境中のノイズを表すノイズ信号を受信するステップと、ラウドスピーカーを介して環境中に再生される音声信号を受信するステップと、ノイズ信号のデジタル－音響レベル変換と、マイクロフォン伝達関数に基づいてノイズ信号のマルチバンド補正とを行い、補正されたノイズ信号を生成するステップと、音声信号のデジタル－音響レベル変換と、ラウドスピーカー伝達関数に基づいて音声信号のマルチバンド補正とを行い、補正された音声信号を生成するステップと、補正されたノイズ信号及び補正された音声信号に基づいて、バンド当たりの音声了解度値及びグローバルスピーチ対ノイズ比を含むマルチバンド音声了解度結果を計算するステップと、をプロセッサに実行させる命令が符号化される。

本明細書では、１又は２以上の具体的な例で具現化された技術が例示され記載されているが、それにもかかわらず、様々な修正及び構造変更が特許請求の範囲の範囲及び等価物の範囲内でなされ得るので、図示の詳細に限定されるものではない。

以下に提示された各請求項は、別個の実施形態を表しており、異なる請求項及び／又は異なる実施形態を組み合わせた実施形態は、本開示の範囲内であり、本開示を検討した後に当業者には明らかになるであろう。

１２２システムボリューム
２０２音声及びノイズ分析
２０４ボイスエンハンサー
２０６ノイズ補正経路
２０８音声補正経路
２１０音声了解度計算
２１２ゲイン決定器：各バンド及び／又はグローバルゲインのためのゲイン調整値を決定する
２２２デジタル音響レベル変換
２２４分析のためのマルチバンドノイズ補正器
２２６デジタル音響レベル変換
２２８分析のためのマルチバンド音声補正
２３０ショートセグメント分析
２３２ロングセグメント分析
２３４無音／休止検出
２４０事前に測定された及び／又は計算されたデバイス／システムデータ
２４２事前に測定された及び／又は計算されたデバイス／システムデータ

Claims

マイクロフォンを用いて環境中のノイズを検出してノイズ信号を生成するステップと、
ラウドスピーカーを介して前記環境内に再生される音声信号を受信するステップと、
前記マイクロフォンのマイクロフォン伝達関数と前記ラウドスピーカーのラウドスピーカー伝達関数との間の関係に基づいて、マルチバンド音声了解度計算のための周波数分析領域を決定するステップと、
前記ノイズ信号及び前記音声信号に基づいて、前記周波数分析領域にわたるマルチバンド音声了解度結果を計算するステップと、
を含む、方法。
前記マルチバンド音声了解度結果を用いて、前記音声信号の了解度を向上させるステップを更に含む、請求項１に記載の方法。
前記決定するステップは、前記周波数分析領域として、前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドとがオーバーラップするオーバーラップ通過バンドを決定するステップを含み、前記計算するステップは、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度を計算するステップを含む、請求項１に記載の方法。
前記計算するステップは、（ｉ）前記オーバーラップ通過バンドに限定された前記音声分析バンドにわたる前記音声信号に基づく音声パワーと、（ｉｉ）前記マイクロフォン通過バンドにわたる前記ノイズ信号に基づくノイズパワーとのグローバルスピーチ対ノイズ比を計算するステップを更に含む、請求項３に記載の方法。
前記ラウドスピーカー通過バンドの開始周波数が、前記マイクロフォン通過バンドの開始周波数を上回るかどうかを判定するステップと、
前記ラウドスピーカー通過バンドの開始周波数が上回る場合、前記マイクロフォン通過バンドの開始周波数を下回るバンドに前記音声信号を減衰させるステップと、
を含む。請求項３に記載の方法。
前記決定するステップは、
マイクロフォン通過バンド及び前記ラウドスピーカー通過バンドをそれぞれ定める開始周波数及び停止周波数を特定するステップと、
前記開始周波数の最大値から前記停止周波数の最小値までにわたる通過バンドとして前記オーバーラップ通過バンドを計算するステップと、
を含む、請求項３に記載の方法。
前記マルチバンド音声了解度結果を計算するステップは、バンド当たりの音声了解度値及びグローバル音声対ノイズ比を計算するステップを含む、請求項１に記載の方法。
前記マルチバンド音声了解度結果を計算するステップは、
前記音声信号及び前記ノイズ信号のショート／ミディアム長さセグメントに基づいて、マルチバンド音声了解度分析を行い、短期音声了解度結果を生成するステップと、
前記音声信号及び前記ノイズ信号のショート／ミディアム長さセグメントよりも長い、前記音声信号及び前記ノイズ信号のロングセグメントに基づいて、マルチバンド音声了解度分析を行い、長期音声了解度結果を生成するステップと、
を含む、請求項１に記載の方法。
前記マイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、
前記ラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、
を更に含み、
前記計算するステップは、前記補正されたノイズ信号及び前記補正された音声信号に基づいて、前記周波数分析領域にわたる前記マルチバンド音声了解度結果を計算するステップを含む、請求項１に記載の方法。
前記ノイズ信号のマルチバンド補正を行う前に、前記マイクロフォンの感度に基づいて、前記ノイズ信号のデジタル－音響レベル変換を行うステップと、
前記音声信号のマルチバンド補正を行う前に、前記ラウドスピーカーの感度に基づいて、前記音声信号のデジタル－音響レベル変換を行うステップと、
を更に含む、請求項９に記載の方法。
装置であって、
環境中のノイズを検出してノイズ信号を生成するマイクロフォンと、
前記環境内に音声信号を再生するラウドスピーカーと、
前記マイクロフォン及び前記ラウドスピーカーに結合されたコントローラと、
を備え、
前記コントローラが、
前記マイクロフォンのマイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正を行い、補正されたノイズ信号を生成するステップと、
前記ラウドスピーカーのラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正を行い、補正された音声信号を生成するステップと、
前記補正されたノイズ信号及び前記補正された音声信号に基づいて、マルチバンド音声了解度結果を計算するステップと、
前記マルチバンド音声了解度結果に基づいて、マルチバンドゲイン値を計算するステップと、
前記マルチバンドゲイン値に基づいて前記音声信号を強調するステップと、
を行うように構成されている、装置。
前記コントローラは、前記マルチバンド音声了解度結果を用いて前記音声信号了解度を向上させるステップを行うように更に構成されている、請求項１１に記載の装置。
前記コントローラが、
前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドがオーバーラップするオーバーラップ通過バンドを決定するステップを行うように更に構成され、
前記コントローラが、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度値を計算することにより前記計算を実行するように構成されている、請求項１１に記載の装置。
前記コントローラが、（ｉ）前記オーバーラップ通過バンドに限定された前記音声分析バンドにわたる前記補正された音声信号の音声パワーと、（ｉｉ）前記マイクロフォン通過バンドにわたる前記補正されたノイズ信号のノイズパワーとのグローバルスピーチ対ノイズ比を計算することによって、前記計算するステップを行うように更に構成される、請求項１３に記載の装置。
前記コントローラは、
前記ラウドスピーカー通過バンドの開始周波数が前記マイクロフォン通過バンドの開始周波数を上回るかどうかを判定するステップと、
前記ラウドスピーカー通過バンドの開始周波数が上回る場合、前記マイクロフォン通過バンドの前記開始周波数を下回るバンドに前記音声信号を減衰させるステップと、
を行うように更に構成される、請求項１３に記載の装置。
前記コントローラは、バンド当たりの音声了解度値とグローバル音声対ノイズ比を計算することによって前記マルチバンド音声了解度結果の計算を行うように構成されている、請求項１１に記載の装置。
前記マルチバンド音声了解度結果を計算するステップが、
前記補正された音声信号及び前記補正されたノイズ信号のショート／ミディアム長さセグメントに対してマルチバンド音声了解度分析を行い、短期音声了解度結果を生成するステップと、
前記補正された音声信号及び前記補正されたノイズ信号の前記ショート／ミディアム長さセグメントよりも長い、前記補正された音声信号及び前記補正されたノイズ信号のロングセグメントに対してマルチバンド音声了解度分析を行い、長期音声了解度結果を生成するステップと、
を含む、請求項１１に記載の装置。
前記ノイズ信号のマルチバンド補正の前に、前記マイクロフォンの感度に基づいて、前記ノイズ信号のデジタル－音響レベル変換を行うステップと、
前記音声信号のマルチバンド補正の前に、前記音声信号のデジタル－音響レベル変換を行うステップと、
を更に含む、請求項１１に記載の装置。
プロセッサによって実行されたときに、
マイクロフォンから環境中のノイズを表すノイズ信号を受信するステップと、
ラウドスピーカーを介して前記環境内に再生される音声信号を受信するステップと、
前記ノイズ信号のデジタル－音響レベル変換と、マイクロフォン伝達関数に基づいて前記ノイズ信号のマルチバンド補正とを行い、補正されたノイズ信号を生成するステップと、
前記音声信号のデジタル－音響レベル変換と、ラウドスピーカー伝達関数に基づいて前記音声信号のマルチバンド補正とを行い、補正された音声信号を生成するステップと、
前記補正されたノイズ信号及び前記補正された音声信号に基づいて、バンド当たりの音声了解度値及びグローバルスピーチ対ノイズ比を含むマルチバンド音声了解度結果を計算するステップと、
を前記プロセッサに実行させる命令が符号化された非一時的コンピュータ可読媒体。
前記プロセッサに前記計算するステップを行わせる前記命令は、前記プロセッサに、音声分析バンドにわたる前記補正されたノイズ信号及び前記補正された音声信号の音声了解度指数（ＳＩＩ）分析を行わせる命令を含む、請求項１９に記載の非一時的コンピュータ可読媒体。
前記マイクロフォン伝達関数のマイクロフォン通過バンドと前記ラウドスピーカー伝達関数のラウドスピーカー通過バンドとがオーバーラップするオーバーラップ通過バンドを決定するステップを含み、前記プロセッサに前記計算するステップを実行させる前記命令は、前記オーバーラップ通過バンドに限定された音声分析バンドにわたってバンド当たりの音声了解度値を計算するステップを前記プロセッサに実行させる命令を更に含む、請求項１９に記載の非一時的コンピュータ可読媒体。