JP2018041083A

JP2018041083A - オーディオ信号における背景雑音の推定

Info

Publication number: JP2018041083A
Application number: JP2017171326A
Authority: JP
Inventors: マルティンセールステッド，; Sehlstedt Martin
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2014-07-29
Filing date: 2017-09-06
Publication date: 2018-03-15
Anticipated expiration: 2035-07-01
Also published as: CA2956531A1; KR102267986B1; KR101895391B1; ES2664348T3; JP6208377B2; PL3582221T3; KR20170026545A; ES2869141T3; RU2665916C2; JP6788086B2; US20170069331A1; RU2020100879A; ZA201903140B; MY178131A; CA2956531C; HUE037050T2; PH12017500031A1; NZ728080A; MX2019005799A; NZ743390A

Abstract

【課題】オーディオ信号における背景雑音の推定のための背景雑音推定器及びそれにおける方法を提供する。【解決手段】フレーム又はフレームの一部等のオーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、オーディオ信号セグメントと関連付けられた少なくとも１つのパラメータを取得することを含む。取得した少なくとも１つのパラメータに基づいて、オーディオ信号セグメントがポーズを含むかを判定することと、オーディオ信号セグメントがポーズを含む場合にオーディオ信号セグメントに基づいて背景雑音推定値を更新することとを更に含む。【選択図】図６

Description

本発明の実施形態は、オーディオ信号処理に関し、特に、例えばサウンドアクティビティ判定を支援するための背景雑音の推定に関する。

間欠送信（ＤＴＸ）を利用する通信システムにおいては、効率と品質を落とさないこととの間のバランスを見出すことが重要である。そのようなシステムにおいて、能動的に符号化される音声又は楽音等のアクティブ信号と、受信機側で生成されるコンフォートノイズに置換されうる背景信号を有するセグメントとを示すために、アクティビティ検出器が使用される。アクティビティ検出器は、非アクティブを検出する効率が高すぎると、アクティブ信号のクリッピングが生じ、クリッピングされたアクティブセグメントがコンフォートノイズに置き換えられた場合には主観的な品質劣化として知覚される。また、アクティビティ検出器の効率が十分でなく、背景雑音セグメントをアクティブとして分類し、コンフォートノイズを有するＤＴＸモードを開始するのではなく背景雑音を能動的に符号化してしまう場合には、ＤＴＸの効率は低下する。多くの場合、クリッピングの問題は悪化すると考えられる。

図１は、一般的なサウンドアクティビティ検出器ＳＡＤ又はオーディオ信号を入力としアクティビティ判定値を出力として生成する音声アクティビティ検出器ＶＡＤを示す概略ブロック図である。入力信号は、実現例に応じて例えば５ｍｓ〜３０ｍｓのデータフレーム、すなわちオーディオ信号セグメントに分割される。フレーム毎の１つのアクティビティ判定値が出力として生成される。

図１に示される一次検出部により、一次判定値「ｐｒｉｍ」が出力される。一次判定は、基本的に、前の入力フレームから推定される背景特徴量と現在のフレームの特徴量との比較にすぎない。現在のフレームの特徴量と背景特徴量との差が閾値より大きければ、一次判定値はアクティブとされる。過去の一次判定値に基づき一次判定値を延長し、最終判定値「ｆｌａｇ」を決定するための、ハングオーバ付加ブロックが使用される。ハングオーバを使用する主な理由は、アクティブバーストの中間部及び終端部でクリッピングされるリスクを低減／除去するためである。図示されるように、動作制御部は、入力信号の特性に従って、一次検出部の閾値及びハングオーバ付加の長さを調整することができる。背景推定部は、入力信号における背景雑音を推定するために使用される。本明細書においては、背景雑音は、「背景」あるいは「背景特徴量」とも呼ばれうる。

背景特徴量は、２つの基本的に異なる方法のいずれかに従って推定されうる。１つは、一次判定値を使用することにより、すなわち図１において破線で示される判定値フィードバック又は判定尺度フィードバックを用いて、推定する方法である。もう１つは、入力信号のいくつかの他の特性を使用することにより、すなわち判定値フィードバックを用いずに、推定する方法である。２つの方法を組み合わせて使用することも可能である。

背景推定のために判定値フィードバックを使用するコーデックの例としては、ＡＭＲ−ＮＢ（Adaptive Multi-Rate Narrowband）がある。判定値フィードバックが使用されないコーデックの例としては、ＥＶＲＣ（Enhanced Variable Rate CODEC）やＧ．７１８がある。

使用可能な信号特徴量又は特性は多数あるが、ＶＡＤにおいて利用される１つの一般的な特徴量は、入力信号の周波数特性である。演算量性の低さ及び低ＳＮＲでの信頼できる動作により、周波数特性としてはサブバンドフレームエネルギが一般に使用される。従って、入力信号は異なる周波数サブバンドに分割され、サブバンド毎に背景レベルが推定されると仮定する。このように、背景雑音特徴量のうちの１つは、各サブバンドのエネルギ値によるベクトルである。各サブバンドのエネルギ値は、周波数領域において入力信号における背景雑音を特徴づける値である。

背景雑音のトラッキングを実現するために、実際の背景雑音推定更新は、少なくとも３つの異なる方法で行われうる。１つの方法は、更新に対処するために、周波数ビン毎に自己回帰ＡＲ処理を使用する方法である。そのようなコーデックの例としては、ＡＭＲ−ＮＢやＧ．７１８がある。基本的に、この種の更新の場合、更新のステップサイズは、観察された現在の入力と現在の背景推定値との差分に比例する。別の方法は、現在の推定値が現在の入力より大きくなりうるか又は最小値より小さくなりうることはないという制約で、推定値の乗法スケーリング（multiplicative scaling）を使用する方法である。これは、推定値が現在の入力より高くなるまでフレーム毎に増加することを意味する。その状況においては、現在の入力は推定値として使用される。ＥＶＲＣは、ＶＡＤ機能に対して背景推定値を更新するためにこの技術を使用するコーデックの一例である。なお、ＥＶＲＣは、ＶＡＤ及びノイズ抑制のために種々の背景推定値を使用する。なお、ＶＡＤは、ＤＴＸ以外にも使用されうる。例えば、ＥＶＲＣ等の可変速コーデックにおいて、ＶＡＤは、レート判定機能の一部として使用されうる。

第３の方法は、推定値が前のフレームのスライディングタイムウィンドウの間の最小値であるいわゆる最小技術を使用する方法である。これにより、基本的に、定常ノイズに対する平均推定値を取得及び近似するために補償係数を使用してスケーリングされる最小推定値が得られる。

アクティブ信号の信号レベルが背景信号よりはるかに大きい高ＳＮＲの場合、入力オーディオ信号がアクティブ信号か又は非アクティブ信号かを決定することは、非常に容易であろう。しかし、低ＳＮＲの場合、及び特に背景が非定常であるかその特性がアクティブ信号に類似しているような場合、アクティブ信号と非アクティブ信号とを分離することは非常に困難である。

ＶＡＤの性能は、特に非定常背景の場合、背景の特性をトラッキングする背景雑音推定器の機能に依存する。より適切にトラッキングすれば、音声クリッピングのリスクを増大させることなくＶＡＤをより効率的にできる。

相関は、音声、主に音声の有声部分を検出するために使用される重要な特徴量であるが、高い相関を示すノイズ信号もある。これらの場合、相関を有するノイズは、背景雑音推定値の更新を阻害する。その結果、音声と背景雑音が両方ともアクティブとして符号化されるような高いアクティビティとなる。高ＳＮＲ（約＞２０ｄＢ）の場合は、エネルギに基づくポーズ検出を使用して問題を軽減することはできるが、これは、２０ｄＢ〜１０ｄＢ、場合によっては５ｄＢの範囲のＳＮＲに対しては、信頼性は高くない。本明細書において説明する解決方法は、この範囲での差をもたらす。

オーディオ信号における背景雑音の推定の改善が望まれている。ここで、「改善」とは、オーディオ信号がアクティブな音声又は楽音を含むか否かに関してより適切な判定を行うこと、すなわち、より多くの場合、音声及び／又は楽音等のアクティブなコンテンツが実際には含まれていないオーディオ信号セグメントにおける背景雑音を推定すること、例えば前の推定を更新することを示すものでありうる。本明細書においては、背景雑音推定を生成する改善された方法が提供され、それにより、例えばサウンドアクティビティ検出器がより適切な判定を行うことができる。

オーディオ信号における背景雑音推定のために、アクティブ信号が音声及び／又は楽音を含みうるアクティブ信号と背景信号との不明な混合を入力信号が含む場合にも、背景雑音信号の特性を識別するための信頼できる特徴を特定できることが重要である。

本発明者は、オーディオ信号におけるポーズを検出するために、種々の線形予測モデル次数に対する残差エネルギに関連する特徴量が利用されうることを認識している。これらの残差エネルギは、例えば音声コーデックにおいて一般的である線形予測分析から抽出されうる。特徴量は、背景雑音を検出するために使用可能な特徴量又はパラメータの集合を構築するためにフィルタリング及び合成されてもよく、それにより、解決方法は、雑音推定において使用するのに適するようになる。本明細書において説明する解決方法は、ＳＮＲが１０ｄＢ〜２０ｄＢの範囲にある場合の条件に対して特に有効である。

本明細書において提供される別の特徴量は、例えばサブバンドＳＡＤ等において使用される周波数領域サブバンドエネルギを使用して構成されうる背景へのスペクトル近似の尺度である。スペクトル近似尺度は、オーディオ信号がポーズを含むか否かの判定を行うために更に使用されうる。

第１の態様によれば、背景雑音推定の方法が提供される。方法は、フレーム又はフレームの一部等のオーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、オーディオ信号セグメントと関連付けられた少なくとも１つのパラメータを取得することを含む。方法は、取得した少なくとも１つのパラメータに基づいてオーディオ信号セグメントがポーズを含むかを判定することと、オーディオ信号セグメントがポーズを含む場合にオーディオ信号セグメントに基づいて背景雑音推定値を更新することとを更に含む。

第２の態様によれば、背景雑音推定器が提供される。背景雑音推定器は、オーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、オーディオ信号セグメントと関連付けられた少なくとも１つのパラメータを取得するように構成される。背景雑音推定器は、少なくとも取得した少なくとも１つのパラメータに基づいて、オーディオ信号セグメントがポーズを含むかを判定し、オーディオ信号セグメントがポーズを含む場合にオーディオ信号セグメントに基づいて背景雑音推定値を更新するように更に構成される。

第３の態様によれば、第２の態様に係る背景雑音推定器を備えるＳＡＤが提供される。

第４の態様によれば、第２の態様に係る背景雑音推定器を備えるコーデックが提供される。

第５の態様によれば、第２の態様に係る背景雑音推定器を備える通信デバイスが提供される。

第６の態様によれば、第２の態様に係る背景雑音推定器を備えるネットワークノードが提供される。

第７の態様によれば、少なくとも１つのプロセッサ上で実行される場合に第１の態様に係る方法を少なくとも１つのプロセッサに実行させる命令を含むコンピュータプログラムが提供される。

第８の態様によれば、第７の態様に係るコンピュータプログラムを含むキャリアが提供される。

図１は、アクティビティ検出器及びハングオーバ判定論理を示すブロック図である。図２は、例示的な一実施形態に係る背景雑音の推定の方法を示すフローチャートである。図３は、例示的な一実施形態に係る次数０及び２の線形予測に対する残差エネルギに関連した特徴量の計算を示すブロック図である。図４は、例示的な一実施形態に係る次数２及び１６の線形予測に対する残差エネルギに関連した特徴の計算を示すブロック図である。図５は、例示的な一実施形態に係るスペクトル近似尺度に関連した特徴の計算を示すブロック図である。図６は、サブバンドエネルギ背景推定器を示すブロック図である。図７は、附属書Ａにおいて説明される解決方法からの背景更新決定論理を示すフローチャートである。、、、、図８〜図１０は、２つの音声バーストを含むオーディオ信号に対して計算される際に本明細書において提示される種々のパラメータの挙動を示すグラフである。、、、、図１１ａ〜図１１ｃ、図１２及び図１３は、例示的な実施形態に係る背景雑音推定器の種々の実現例を示すブロック図である。、、、、、、、「附属書Ａ」とマーク付けされた図面のページにおける図Ａ２〜図Ａ９は、附属書Ａと関連付けられ、アルファベット「Ａ」に続く番号、すなわち２〜９とともに、附属書Ａにおいて参照される。

本明細書において開示する解決方法は、オーディオ信号における背景雑音の推定に関連する。図１に示された一般化されたアクティビティ検出器においては、背景雑音を推定する機能は、「背景推定部」と示されたブロックにより実行される。本明細書において説明する解決方法のいくつかの実施形態は、引用により本明細書に組み込まれる国際公開第ＷＯ２０１１／０４９５１４号及び国際公開第ＷＯ２０１１／０４９５１５号、並びに附属書Ａ（添付Ａ）においても、過去に開示された解決方法に関連して参照されうる。本明細書において開示する解決方法をこれらの過去に開示された解決方法の実現例と比較する。国際公開第ＷＯ２０１１／０４９５１４号、国際公開第ＷＯ２０１１／０４９５１５号及び附属書Ａにおいて開示された解決方法は良好な解決方法ではあるが、本明細書において提示する解決方法は、これらの解決方法に対して更に利点を有する。例えば、本明細書において提示する解決方法は、背景雑音のトラッキングにおいて一層適している。

現在のノイズ推定方法に関する１つの問題は、低ＳＮＲにおいて背景雑音の適切なトラッキングを実現するために信頼できるポーズ検出器が必要なことである。音声のみの入力の場合、音声においてポーズを発見するために、音節速度（syllabic rate）、又は人間が常時話せないことを利用できる。そのような解決方法は、背景更新を行わない十分な時間の後にポーズ検出に対する要求が「緩和される」ため、音声においてポーズを検出する確率がより高いことを含みうる。これにより、ノイズ特性又はレベルの急な変化に応答できる。そのようなノイズ回復論理のいくつかの例は、次の通りである。１）音声発話が相関の高いセグメントを含むため、相関を有しない十分な数のフレームの後に音声においてポーズがあると仮定するのが一般に安全である。２）信号対雑音比ＳＮＲ＞０の場合に音声エネルギが背景雑音より高いため、フレームエネルギがより長時間、例えば１秒〜５秒にわたり最小エネルギに近接する場合、ある人が音声をポーズしていると仮定することも安全である。従来の技術は、音声のみの入力には適切に作用するが、楽音がアクティブ入力と考えられる場合には十分ではない。楽音においては、依然として楽音である相関の低い長いセグメントがありうる。また、楽音におけるエネルギのダイナミクスは、誤ったポーズ検出を更に生じうる。その結果、背景雑音推定値が望ましくなく誤って更新される恐れがある。

理想的には、アクティビティ検出器又は「ポーズ発生検出器」と呼ばれるようなものの逆関数が、ノイズ推定を制御するために必要とされる。これにより、現在のフレームにアクティブ信号がない場合にのみ背景雑音特性が更新されることを保証する。しかし、上述したように、オーディオ信号セグメントがアクティブ信号を含むか否かを判定するのは容易なタスクではない。

従来、アクティブ信号が音声信号であると認識された場合、アクティビティ検出器は音声アクティビティ検出器（ＶＡＤ）と呼ばれていた。アクティビティ検出器に対するＶＡＤという用語は、入力信号が楽音を含みうる場合にも使用されることが多い。しかし、近年のコーデックにおいては、楽音がアクティブ信号として検出される場合にもアクティビティ検出器をサウンドアクティビティ検出器（ＳＡＤ）と呼ぶことも一般的である。

図１に示された背景雑音推定器は、非アクティブなオーディオ信号セグメントをローカライズするために一次検出部及び／又はハングオーバブロックからのフィードバックを利用する。本明細書において説明する技術を開発する際に、そのようなフィードバックへの依存を除去又は少なくとも軽減することが要求されている。従って、本明細書において開示する背景推定のために、本発明者は、アクティブ信号と背景信号との不明な混合を有する入力信号のみが使用可能である場合、背景信号の特性を識別するための信頼できる特徴量を特定できることが重要であると識別している。本発明者は、アクティブ信号が楽音であってもよいため、入力信号がノイズセグメントから開始する又は入力信号がノイズと混合された音声であると仮定することはできないことを更に認識している。

１つの態様は、現在のフレームが現在のノイズ推定値と同一のエネルギレベルを有してもよいが、周波数特性があまりに異なる恐れがあるために、現在のフレームを使用してノイズ推定値を更新するのが好ましくなくなることである。導入された近似性特徴に対する背景雑音の更新は、これらの場合において更新を防止するために使用されうる。

また、初期化中において、背景雑音がアクティブコンテンツを使用して更新される場合、ノイズ推定により、潜在的に結果としてＳＡＤからのクリッピングが生じうるため、誤った判定を回避しつつこれをできるだけ早く開始できるようにすることが望ましい。初期化中に近似性特徴量の初期化専用のバージョンを使用することにより、この問題を少なくとも部分的に解決できる。

本明細書において説明する解決方法は、背景雑音推定の方法に関し、特に、困難なＳＮＲ状況において適切に実行するオーディオ信号においてポーズを検出する方法に関する。図２〜図５を参照して、解決方法を以下に説明する。

音声符号化の分野においては、入力信号のスペクトル形状を分析するために、いわゆる線形予測を使用するのが一般的である。一般に分析は、フレーム毎に２回行われ、時間精度を向上するために、入力ブロックの５ｍｓブロック毎に生成されたフィルタがあるように、その後結果は補間される。

線形予測は、離散時間信号の将来値が前のサンプルの線形関数として推定される数値演算である。デジタル信号処理においては、線形予測は、線形予測符号化（ＬＰＣ）と呼ばれることが多いため、フィルタ理論の部分集合とみなされうる。音声符号化器における線形予測においては、線形予測フィルタＡ（ｚ）が入力音声信号に適用される。Ａ（ｚ）は、入力信号に適用される場合に入力信号からのフィルタＡ（ｚ）を使用してモデル化されうる冗長性を除去する全零フィルタである。従って、フィルタが入力信号の１つ又は複数の何らかのアスペクトをモデル化するのに成功する場合、フィルタからの出力信号は、入力信号より低いエネルギを有する。この出力信号を「残差」、「残差エネルギ」又は「残差信号」と示す。残差フィルタでも示されるそのような線形予測フィルタは、異なる数のフィルタ係数を有する異なるモデル次数であってもよい。例えば、音声を適切にモデル化するために、モデル次数１６の線形予測フィルタを必要としてもよい。従って、音声符号化器においては、モデル次数１６の線形予測フィルタＡ（ｚ）が使用されてもよい。

本発明者は、線形予測に関連した特徴量が、２０ｄＢ〜１０ｄＢ、場合によっては５ｄＢのＳＮＲ範囲のオーディオ信号においてポーズを検出するために使用できることを認識している。本明細書において説明する解決方法の実施形態によれば、オーディオ信号に対する種々のモデル次数の残差エネルギ間の関係が、オーディオ信号においてポーズを検出するために利用される。関係は、より低いモデル次数とより高いモデル次数との残差エネルギの比率である。残差エネルギ間の比率は、線形予測フィルタが１つのモデル次数と別のモデル次数との間でモデル化又は除去できていた信号エネルギの量の指標であるため、線形予測ゲインと呼ぶことができる。

残差エネルギは、線形予測フィルタＡ（ｚ）のモデル次数Ｍに依存する。線形予測フィルタに対するフィルタ係数を計算する一般的な方法は、レヴィンソン−ダービン（Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ）のアルゴリズムである。このアルゴリズムは、再帰的であり、次数Ｍの予測フィルタＡ（ｚ）を生成する処理であり、更に副産物として、より低いモデル次数の残差エネルギを生成する。このことは、本発明の実施形態に従って利用されうる。

図２は、オーディオ信号における背景雑音の推定の例示的な一般的な方法を示す。方法は、背景雑音推定器により実行されうる。方法は、フレーム又はフレームの部分等のオーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、オーディオ信号セグメントと関連付けられた少なくとも１つのパラメータを取得するステップ２０１を有する。

方法は、取得した少なくとも１つのパラメータに少なくとも基づいて、オーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するステップ２０２と、オーディオ信号セグメントがポーズを含む場合、オーディオ信号セグメントに基づいて背景雑音推定値を更新するステップ２０３とを更に有する。すなわち、方法は、取得した少なくとも１つのパラメータに少なくとも基づいてオーディオ信号セグメントにおいてポーズを検出する場合、背景雑音推定値を更新することを備える。

オーディオ信号セグメントに対して０次から２次の線形予測に進むことに関連した第１の線形予測ゲイン及びオーディオ信号セグメントに対して２次から１６次の線形予測に進むことに関連した第２の線形予測ゲインとして、線形予測ゲインが説明されうる。また、あるいは、少なくとも１つのパラメータを取得することは、判定すること、計算すること、導出すること又は作成することとして説明されうる。モデル次数０、２及び１６の線形予測に関連した残差エネルギは、通常の符号化処理の一部として線形予測を実行する符号化器の一部から取得、受信又は検索、すなわち符号化器によりどうにかして提供されてもよい。それにより、本明細書において説明する解決方法の計算の複雑さは、特に背景雑音を推定するために残差エネルギを導出する必要がある場合と比較して軽減されるであろう。

線形予測特徴量に基づいて取得される少なくとも１つのパラメータは、背景雑音を更新するか否かに対する決定を改善する入力信号のレベルに依存しない分析を提供しうる。音声信号の通常のダイナミックレンジのためにエネルギに基づくＳＡＤの性能が限られる１０ｄＢ〜２０ｄＢのＳＮＲ範囲において、解決方法は特に有用である。

本明細書においては、とりわけ、変数Ｅ（０），．．．，Ｅ（ｍ），．．．，Ｅ（Ｍ）は、Ｍ＋１個のフィルタＡｍ（ｚ）のモデル次数０〜Ｍの残差エネルギを表す。なお、Ｅ（０）は単に入力エネルギである。本明細書において説明する解決方法に係るオーディオ信号分析は、０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された線形予測ゲインと、２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された線形予測ゲインとを分析することにより、いくつかの新しい特徴量又はパラメータを提供する。すなわち、０次から２次の線形予測に進む線形予測ゲインは、（２番目のモデル次数に対する）残差エネルギＥ（２）により分割された（０番目のモデル次数に対する）「残差エネルギ」Ｅ（０）と同一のものである。同様に、２次線形予測から１６次線形予測に進む線形予測ゲインは、（１６番目のモデル次数に対する）残差エネルギＥ（１６）により分割された（２番目のモデル次数に対する）「残差エネルギ」Ｅ（２）と同一のものである。パラメータの例及び予測ゲインに基づいてパラメータを判定することを以下に更により詳細に説明する。上述した一般的な実施形態に従って取得された少なくとも１つのパラメータは、背景雑音推定値を更新するか否かを評価するために使用される決定基準の一部を形成しうる。

少なくとも１つのパラメータ又は特徴量の長期安定性を向上するために、限定バージョンの予測ゲインが計算されうる。すなわち、少なくとも１つのパラメータを取得することは、事前定義済みの間隔で値を取るように、０次から２次の線形予測及び２次から１６次の線形予測に進むことに関連した線形予測ゲインを制限することを含みうる。例えば線形予測ゲインは、例えば以下の式１及び式６において示されるように、０〜８の間の値を取るように制限されうる。

少なくとも１つのパラメータを取得することは、例えばローパスフィルタリングを使用して、第１の線形予測ゲイン及び第２の線形予測ゲインの各々の少なくとも１つの長期推定値を生成することを更に含んでもよい。次に、そのような少なくとも１つの長期推定値は、少なくとも１つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づく。例えば線形予測ゲインに関連した第１の長期推定値及び第２の長期推定値がオーディオ信号における変化に異なる方法で反応する１つ以上の長期推定値が生成されうる。例えば第１の長期推定値は、第２の長期推定値より速く変化に反応しうる。あるいは、そのような第１の長期推定値は、短期推定値で示されてもよい。

少なくとも１つのパラメータを取得することは、オーディオ信号セグメントと関連付けられた線形予測ゲインのうちの１つと線形予測ゲインの長期推定値との差分、例えば以下に説明する絶対差分Gd_0_2（式３）を判定することを更に含んでもよい。あるいは又は更に、例えば以下の式９におけるような２つの長期推定値間の差分が判定されてもよい。あるいは、判定することという用語は、計算すること、作成すること又は導出することと交換可能である。

少なくとも１つのパラメータを取得することは、上述したように線形予測ゲインのローパスフィルタリングを含みうるため、推定において考慮されるセグメントの数に依存して、一部が短期推定値とも呼ばれうる長期推定値を導出する少なくとも１つのローパスフィルタのフィルタ係数は、例えば現オーディオ信号セグメントのみに関連した線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する予測ゲインの例えば長期平均値と示された平均値又は長期推定値との間の関係に依存してもよい。これは、予測ゲインの例えば更なる長期推定値を生成するために行われてもよい。ローパスフィルタリングは、２つ以上のステップにおいて実行されてもよい。各ステップの結果、オーディオ信号セグメントにおけるポーズの存在に関して決定を行うために使用されるパラメータ又は推定値が得られうる。例えば、種々の方法でオーディオ信号における変化を反映する種々の長期推定値（以下に説明するG1_0_2（式２）及びGad_0_2（式４）、並びに／あるいはG1_2_16（式７）、G2_2_16（式８）、及びGad_2_16（式１０）等）が、現在のオーディオ信号セグメントにおいてポーズを検出するために分析又は比較されうる。

オーディオ信号セグメントがポーズを含むか否かを判定するステップ２０２は、オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づいてもよい。スペクトル近似尺度は、現在処理されているオーディオ信号セグメントの「周波数帯域毎の」エネルギレベルが現在の背景雑音推定値、例えば現在のオーディオ信号セグメントの分析の前に行われた前の更新の結果である初期値又は推定値の「周波数帯域毎の」エネルギレベルにどのくらい近接しているかを示すものである。スペクトル近似尺度を判定又は導出する例を式１２及び式１３において以下に挙げる。スペクトル近似尺度は、現在の背景雑音推定値と比較して周波数特性が大きく異なる低エネルギフレームに基づいてノイズ更新を防止するために使用されうる。例えば、周波数帯域にわたる平均エネルギは、現在の信号セグメント及び現在の背景雑音推定値に対して同等に低くてよいが、スペクトル近似尺度は、エネルギが周波数帯域にわたり異なる方法で分布されるかを示すであろう。エネルギ分布におけるそのような差異は、フレーム等の現在の信号セグメントが低レベルのアクティブコンテンツでありえ、フレームに基づく背景雑音推定値の更新が、例えば同様のコンテンツを有する将来のフレームの検出を防止することを示唆しうる。サブバンドＳＮＲがエネルギの増加に最も敏感であるため、低レベルのアクティブコンテンツを使用しても、背景雑音、例えば低周波数の車のノイズと比較して高い周波数の音声の部分にその特定の周波数範囲が存在しない場合、結果として背景雑音推定値が大きく更新されうる。そのような更新の後、音声を検出するのはより困難になるであろう。

既に示唆したように、スペクトル近似尺度は、現在分析されているオーディオ信号セグメントのサブバンドでも示される周波数帯域の集合及び周波数帯域の集合に対応する現在の背景雑音推定値に基づいて導出、取得又は計算されうる。更にこれは、以下に更により詳細に例示及び説明され、図５に示される。

上述したように、スペクトル近似尺度は、現在処理されているオーディオ信号セグメントの現在の周波数帯域当たりのエネルギレベルを現在の背景雑音推定値の周波数帯域当たりのエネルギレベルと比較することにより、導出、取得又は計算されうる。しかし、まず第１に、すなわちオーディオ信号の分析開始時の第１の期間又は第１の数のフレームの間に、例えば信頼できる背景雑音推定値がまだ更新されていないため、信頼できる背景雑音推定値がない恐れがある。従って、スペクトル近似値を判定するための開始期間が適用されてもよい。そのような初期化期間中において、現在のオーディオ信号セグメントの周波数帯域当たりのエネルギレベルは、例えば設定可能な一定値でありうる初期の背景雑音推定値と代わりに比較される。更に以下の例においては、この初期背景雑音推定値は、例示的な値Ｅ_min＝０．００３５に設定される。初期化期間の後、手順は、通常の動作に切り替わり、現在処理されているオーディオ信号セグメントの現在の周波数帯域当たりのエネルギレベルを現在の背景雑音推定値の周波数帯域当たりのエネルギレベルと比較しうる。初期化期間の長さは、例えば信頼でき及び／又は満足のいく背景雑音推定値等が提供されるまでにかかる時間を示すシミュレーション又はテストに基づいて設定されうる。以下において使用される例においては、初期の背景雑音推定値（現在のオーディオ信号に基づいて導出された「実際の」推定値ではなく）との比較は、最初の１５０個のフレームの間に実行される。

少なくとも１つのパラメータは、更に以下の符号において例示され、NEW_POS_BGで示され、及び／又は更に以下に説明する複数のパラメータのうちの１つ以上であってもよく、それにより、ポーズを検出するために決定基準又は決定基準における構成要素が形成される。換言すると、線形予測ゲインに基づいて取得された２０１少なくとも１つのパラメータ又は特徴は、以下に説明するパラメータのうちの１つ以上であってもよく、以下に説明するパラメータのうちの１つ以上を含み、及び／又は以下に説明するパラメータのうちの１つ以上に基づいてもよい。

残差エネルギＥ（０）及びＥ（２）に関連した特徴量又はパラメータ
図３は、例示的な一実施形態に係るＥ（０）及びＥ（２）に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。図３に示されるように、予測ゲインはＥ（０）／Ｅ（２）として最初に計算される。限定バージョンの予測ゲインは、以下のように計算される。

G_0_2=max(0,min(8,E(0)/E(2))) （式１）
ただし、Ｅ（０）は、入力信号のエネルギを表し、Ｅ（２）は、２次線形予測の後の残差エネルギである。式１の数式は、予測ゲインを０〜８の間隔に制限する。予測ゲインは、通常の場合にはゼロより大きいべきであるが、例えばゼロに近い値に対しては例外が発生する恐れがあるため、「ゼロより大きい」制限（０＜）が有用であろう。予測ゲインを最大８に制限する理由は、本明細書において説明する解決方法の目的のために、予測ゲインが有効な線形予測ゲインを示す約８又は８より大きいことを認識することで十分なためである。なお、２つの異なるモデル次数間の残差エネルギに差がない場合、線形予測ゲインは、より高いモデル次数のフィルタがより低いモデル次数のフィルタと比較してオーディオ信号をモデル化するのに成功しないことを示す１となる。また、予測ゲインG_0_2は、以下の数式において大きすぎる値を取る場合、導出されたパラメータの安定性を危うくする恐れがある。なお、８は、特定の実施形態に対して選択されている値の一例にすぎない。あるいは、パラメータG_0_2は、例えばepsP_0_2又はｇ_{LP_0_2}と示されうる。

次に、制限された予測ゲインは、２つのステップにおいてフィルタリングされ、このゲインの長期推定値を作成する。第１のローパスフィルタリング、すなわち第１の長期特徴又はパラメータを導出することは、以下のように行われる。

G1_0_2=0.85 G1_0_2 + 0.15 G_0_2, （式２）
ただし、上式における第２の「G1_0_2」は、前オーディオ信号セグメントからの値として読み出される。背景専用入力のセグメントがあると、一般にこのパラメータは、入力における背景雑音の種類に応じて０又は８となる。あるいは、パラメータG1_0_2は、例えばP_0_2_lp、又は、／ｇ_{LP_0_2}で示されうる。次に、別の特徴又はパラメータは、以下に従って第１の長期特徴量G1_0_2とフレーム毎の制限された予測ゲインG_0_2との差分を用いて生成又は計算されうる。

Gd_0_2=abs(G1_0_2-G_0_2) （式３）
これにより、予測ゲインの長期推定値と比較して現在のフレームの予測ゲインの表示が得られる。あるいは、パラメータGd_0_2は、例えばepsP_0_2_ad又はｇ_{ad_0_2}で示されうる。図４において、この差分は、第２の長期推定値又は特徴Gad_0_2を生成するために使用される。これは、以下に従って長期差分が現在推定されている平均差より高いか又は低いかに応じて種々のフィルタ係数を適用するフィルタを使用して行われる。

Gad_0_2 = (1-a) Gad_0_2 + a Gd_0_2 （式４）
ここで、Gd_0_2＜Gad_0_2のときは、ａ＝０．１であり、そうでなければ、ａ＝０．２である。

ただし、上式における２つめの「Gad_0_2」は、前オーディオ信号セグメントからの値として読み出される。

あるいは、パラメータGad_0_2は、例えばGlp_0_2、epsP_0_2_ad_lp、又は、／ｇ_{ad_0_2}で示されうる。フィルタリングが時折の高いフレーム差をマスクキングするのを防止するために、不図示の別のパラメータが導出されうる。すなわち、第２の長期特徴Gad_0_2は、そのようなマスキングを防止するためにフレーム差と組み合わされてもよい。このパラメータは、以下のように予測ゲイン特徴量のフレームバージョンGd_0_2及び長期バージョンGad_0_2の最大値を取ることにより導出されうる。

Gmax_0_2 = max(Gad_0_2, Gd_0_2) （式５）
あるいは、パラメータGmax_0_2は、例えばepsP_0_2_ad_lp_max又はｇ_{max_0_2}で示されうる。

残差エネルギＥ（２）及びＥ（１６）に関連した特徴量又はパラメータ
図４は、例示的な一実施形態に係るＥ（２）及びＥ（１６）に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。図４に示されるように、予測ゲインは、Ｅ（２）／Ｅ（１６）として最初に計算される。２次残差エネルギと１６次残差エネルギとの差分又は関係を用いて生成された特徴量又はパラメータは、０次残差エネルギと２次残差エネルギとの間の関係に関連して上述した特徴又はパラメータとは僅かに異なる方法で導出される。

ここでも、制限された予測ゲインは以下のように計算される。

G_2_16 = max(0, min(8, E(2)/E(16))) （式６）
だだし、Ｅ（２）は、２次線形予測後の残差エネルギを表し、Ｅ（１６）は、１６次線形予測後の残差エネルギを表す。あるいは、パラメータG_2_16は、例えばepsP_2_16又はｇ_{LP_2_16}で示されうる。次に、この制限された予測ゲインは、このゲインの２つの長期推定値を作成するために使用される。長期推定値が以下において示されるように増加するか又はしない場合、フィルタ係数は異なる。

G1_2_16=(1-a) G1_2_16 + a G_2_16 （式７）
ただし、G_2_16＞G1_2_16のときは、ａ＝０．２であり、そうでなければ、ａ＝０．０３である。

あるいは、パラメータG1_2_16は、例えばepsP_2_16_lp、又は、／ｇ_{LP_2_16}で示されうる。

第２の長期推定値は、以下に従うような一定のフィルタ係数を使用する。

G2_2_16=(1-b) G2_2_16 + b G_2_16、ただし、ｂ＝０．０２（式８）
あるいは、パラメータG2_2_16は、例えばepsP_2_16_lp2、又は、／ｇ_{LP2_0_2}で示されうる。

殆どの種類の背景信号に対して、G1_2_16及びG2_2_16の双方は、０に近接するが、１６次線形予測が必要とされるコンテンツに対して種々の応答を有する。これは、一般に音声及び他のアクティブコンテンツに対するものである。第１の長期推定値G1_2_16は、通常、第２の長期推定値G2_2_16より高くなる。長期特徴量間のこの差分は、以下に従って測定される。

Gd_2_16 = G1_2_16 - G2_2_16 （式９）
あるいは、パラメータGd_2_16は、epsP_2_16_dlp又はｇ_{ad_2_16}で示されうる。

次に、Gd_2_16は、以下に従って第３の長期特徴量を作成するフィルタへの入力として使用されてうる。

Gad_2_16 = (1-c) Gad_2_16 + c Gd_2_16 （式１０）
ただし、Gd_2_16＜Gad_2_16のときは、ｃ＝０．０２であり、そうでなければｃ＝０．０５である。

このフィルタは、第３の長期信号が増加するか否かに応じて種々のフィルタ係数を適用する。あるいは、パラメータGad_2_16は、例えばepsP_2_16_dlp_lp2、又は、／ｇ_{ad_2_16}で示されうる。ここでも、長期信号Gad_2_16は、フィルタリングが現在のフレームに対する時折の高い入力をマスキングするのを防止するために、フィルタ入力信号Gd_2_16と組み合わされてもよい。次に、最後のパラメータは、特徴量の長期バージョン及びフレーム又はセグメントの最大値である。

Gmax_2_16 = max(Gad_2_16, Gd_2_16) （式１１）
あるいは、パラメータGmax_2_16は、例えばepsP_2_16_dlp_max又はｇ_{max_0_2}で示されうる。

スペクトル近似／差尺度
スペクトル近似特徴は、サブバンドエネルギが計算され、サブバンド背景雑音推定値と比較される現在の入力フレーム又はセグメントの周波数分析を使用する。スペクトル近似パラメータ又は特徴量は、例えば現在のセグメント又はフレームが前の背景雑音推定値にかなり近接するか、あるいは少なくともそれから離れすぎないことを保証するために、上述の線形予測ゲインと関連したパラメータと組み合わせて使用されてもよい。

図５は、スペクトル近似又は差の尺度の計算を示すブロック図である。初期化期間、例えば１５０個の最初のフレームの間において、初期の背景雑音推定値に対応する定数との比較が行われる。初期化の後、それは、通常の動作に進み、背景雑音推定値と比較する。なお、スペクトル分析により２０個のサブバンドに対するサブバンドエネルギが生成されるが、音声エネルギが配置されるこれらの帯域にそれが主にあるため、ここでのnonstaBの計算はサブバンドｉ＝２，．．．１６のみを使用する。ここで、nonstaBは非定常性を反映する。

従って、初期化中、nonstaBは、ここでは以下のようにＥｍｉｎ＝０．００３５に設定されるＥｍｉｎを使用して計算される。

nonstaB = sum(abs(log(Ecb(i)+1)-log(Emin+1))) （式１２）
ただし、ｓｕｍは、ｉ＝２．．．１６にわたって出される。

これは、初期化中の背景雑音推定における決定誤差の影響を軽減するために行われる。初期化期間の後、以下に従って、それぞれのサブバンドの現在の背景雑音推定値を使用して計算が行われる。

nonstaB = sum(abs(log(Ecb(i)+1)-log(Ncb(i)+1))) （式１３）
ただし、ｓｕｍは、ｉ＝２．．．１６にわたって出される。

対数の前に定数１を各サブバンドエネルギに加算することにより、低エネルギフレームに対するスペクトル差に対する感度は低下する。あるいは、パラメータnonstaBは、例えばnon_staB又はnonstat_Bで示されうる。

図６は、背景推定器の例示的な一実施形態を示すブロック図である。図６における実施形態は、入力オーディオ信号を適切な長さ、例えば５ｍｓ〜３０ｍｓのフレーム又はセグメントに分割する入力フレーミング６０１に対するブロックを含む。実施形態は、入力信号のフレーム又はセグメント毎の本明細書においてパラメータでも示される特徴を計算する特徴抽出６０２に対するブロックを更に含む。実施形態は、背景推定値が現在のフレームにおける信号に基づいて更新されてもよいか否か、すなわち信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するための更新決定論理６０３に対するブロックを更に含む。実施形態は、更新決定論理が背景推定値を更新するのが適切であると示す場合にそのように実行するための背景更新器６０４を更に含む。例示された実施形態においては、背景推定値は、サブバンド毎に、すなわち多数の周波数帯域に対して導出されうる。

本明細書において説明する解決方法は、本明細書の附属書Ａ及び更には文献国際公開第ＷＯ２０１１／０４９５１４号において説明された背景推定に対する前の解決方法を改善するために使用されてもよい。以下、この前に説明した解決方法のコンテキストにおいて、本明細書において説明する解決方法を説明する。背景雑音推定器の実施形態の符号の実現例からの符号の例を挙げる。

以下、Ｇ．７１８に基づく符号化器における本発明の実施形態に対して、実際の実現例の詳細を説明する。この実現例は、引用により本明細書に組み込まれる附属書Ａ及び国際公開第ＷＯ２０１１／０４９５１４号における解決方法において説明するエネルギ特徴量の多くを使用する。以下に提示する以上の更なる詳細については、附属書Ａ及び国際公開第ＷＯ２０１１／０４９５１４号を参照されたい。

国際公開第ＷＯ２０１１／０４９５１４号において、以下のエネルギ特徴量が定義されている。

Etot;
Etot_l_lp;
Etot_v_h;
totalNoise;
sign_dyn_lp;

国際公開第ＷＯ２０１１／０４９５１４号においては、以下の相関特徴量が定義されている。

aEn;
harm_cor_cnt
act_pred
cor_est

附属書Ａにおいて与えられる解決方法においては、以下の特徴量が定義される。

Etot_v_h;
lt_cor_est = 0.01f*cor_est + 0.99f*lt_cor_est;
lt_tn_track = 0.03f* (Etot - totalNoise ＜ 10) + 0.97f*lt_tn_track;
lt_tn_dist = 0.03f* (Etot - totalNoise) + 0.97f*lt_tn_dist;
lt_Ellp_dist = 0.03f* (Etot - Etot_l_lp) + 0.97f*lt_Ellp_dist;
harm_cor_cnt
low_tn_track_cnt

附属書Ａにおいて与えられる解決方法からの雑音更新論理を図７に示す。附属書Ａの雑音推定器の本明細書において説明する解決方法に関連した改善点は、特徴を計算する部分７０１と、種々のパラメータに基づいてポーズ決定が行われる部分７０２と、更にポーズが検出されるか否かに基づいて種々の措置が取られる部分７０３とに主に関連する。更に改善点は、例えば本明細書において説明する解決方法を導入する前は検出されなかったであろう新しい特徴に基づいてポーズが検出される場合に更新されうる背景推定値を更新すること７０４に影響を及ぼす恐れがある。本明細書において説明する例示的な実現例においては、本明細書において導入する新しい特徴は、上記及び図６においてＥｃｂ（ｉ）に対応する現在のフレームのサブバンドエネルギｅｎｒ［ｉ］、並びに上記及び図６においてＮｃｂ（ｉ）に対応する現在の背景雑音推定値ｂｃｋｒ［ｉ］を使用して判定されるnon_staBから開始して、以下のように計算される。以下の最初のコード部分の最初の部分は、適切な背景推定値が導出されている前のオーディオ信号の最初の１５０個のフレームに対する特殊な初期手順に関連する。

/*背景に対する非定常性特徴を計算する(スペクトル近似特徴non_staBを計算する)*/
if (ini_frame ＜ 150)
{
/*初期化中、更新を含まない*/
if ( i ＞= 2 && i ＜= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(E_MIN + 1.0f));
}
}
else
{
/*初期化の後、背景推定値と比較する*/
if ( i ＞= 2 && i ＜= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(bckr[i] + 1.0f));
}
}

if (non_staB ＞= 128)
{
non_staB = 32767.0/256.0f;
}

以下のコード部分は、線形予測残差エネルギに対する、すなわち線形予測ゲインに対する、新たな特徴量を計算する方法を示す。ここで、残差エネルギは、ｅｐｓＰ［ｍ］（前に使用されたＥ（ｍ）と比較されたい）と命名される。

/*-----------------------------------------------------------------*
*線形予測効率０〜２次
*(線形予測フィルタの０次から２次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/
epsP_0_2 = max(0 , min(8, epsP[0] / epsP[2]));
epsP_0_2_lp = 0.15f * epsP_0_2 + (1.0f-0.15f) * st-＞epsP_0_2_lp;
epsP_0_2_ad = (float) fabs(epsP_0_2 - epsP_0_2_lp );
if (epsP_0_2_ad ＜ epsP_0_2_ad_lp)
{
epsP_0_2_ad_lp = 0.1f * epsP_0_2_ad + (1.0f - 0.1f) * epsP_0_2_ad_lp;
}
else
{
epsP_0_2_ad_lp = 0.2f * epsP_0_2_ad + (1.0f - 0.2f) * epsP_0_2_ad_lp;
}
epsP_0_2_ad_lp_max = max(epsP_0_2_ad,st-＞epsP_0_2_ad_lp);

/*-----------------------------------------------------------------*
*線形予測効率２〜１６次
*(線形予測フィルタの２次から１６次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/

epsP_2_16 = max(0 , min(8, epsP[2] / epsP[16]));
if (epsP_2_16 ＞ epsP_2_16_lp)
{
epsP_2_16_lp = 0.2f * epsP_2_16 + (1.0f-0.2f) * epsP_2_16_lp;
}
else
{
epsP_2_16_lp = 0.03f * epsP_2_16 + (1.0f-0.03f) * epsP_2_16_lp;
}
epsP_2_16_lp2 = 0.02f * epsP_2_16 + (1.0f-0.02f) * epsP_2_16_lp2;

epsP_2_16_dlp = epsP_2_16_lp-epsP_2_16_lp2;

if (epsP_2_16_dlp ＜ epsP_2_16_dlp_lp2 )
{
epsP_2_16_dlp_lp2 = 0.02f * epsP_2_16_dlp + (1.0f-0.02f) * epsP_2_16_dlp_lp2;
}
else
{
epsP_2_16_dlp_lp2 = 0.05f * epsP_2_16_dlp + (1.0f-0.05f) * epsP_2_16_dlp_lp2;
}
epsP_2_16_dlp_max = max(epsP_2_16_dlp,epsP_2_16_dlp_lp2);

以下のコードは、実際の更新決定、すなわち背景雑音推定値を更新するか否かを判定するために使用される尺度、閾値及びフラグの組み合わせの作成を示す。線形予測ゲイン及び／又はスペクトル近似に関連したパラメータのうちの少なくともいくつかを太字で示す。

現在のフレーム又はセグメントがアクティブコンテンツを含む場合に背景雑音推定値の更新を行わないことが重要であるため、更新が行われるかを決定するためにいくつかの条件を評価する。雑音更新論理における主な決定ステップは、更新が行われるか否かであり、これは、以下で下線が引かれた論理式の評価により構成される。新たなパラメータNEW_POS_BG（附属書Ａ及び国際公開第ＷＯ２０１１／０４９５１４号における解決方法に対して新しい）は、ポーズ検出器であり、線形予測フィルタの０次から２次及び２次から１６次モデルに進む線形予測ゲインに基づいて取得され、tn_iniは、スペクトル近似に関連した特徴に基づいて取得される。ここで、例示的な実施形態に従って、新しい特徴を使用する決定論理が後続する。

上述したように、線形予測からの特徴量は、音声信号の通常のダイナミックレンジのためにエネルギに基づくＳＡＤの性能が限られる１０ｄＢ〜２０ｄＢのＳＮＲ範囲において特に有用である背景雑音更新に対する決定を向上させる入力信号のレベルに依存しない分析を提供する。

背景近似特徴量は、初期化及び通常の動作の双方に対して使用可能であるため、背景雑音推定も向上させる。初期化中、それにより、主に車のノイズに対して一般的な低周波数成分を有する背景雑音（より低いレベルの）に対する迅速な初期化が可能になる。更に特徴量は、現在の背景推定値と比較して周波数特性が大きく異なる低エネルギフレームを使用するノイズ更新を防止するために使用可能である。これは、現在のフレームが低レベルのアクティブコンテンツであってもよく、且つ更新により、同様のコンテンツを有する将来のフレームの検出を防止できることを示唆する。

図８〜図１０は、それぞれのパラメータ又は尺度が１０ｄＢＳＮＲの車のノイズの背景における音声に対してどのように挙動するかを示す。図８〜図１０において、各ドット「・」はフレームエネルギを表す。図８及び図９ａ〜図９ｃに対して、エネルギは、G_0_2及びG_2_16に基づく特徴とより比較できるように１０で分割されている。図は、第１の発話に対する近似位置がフレーム１３１０〜１４２０にあり、第２の発話に対する近似位置がフレーム１５００〜１６１０にある２つの発話を含むオーディオ信号に対応する。

図８は、車のノイズを有する１０ｄＢＳＮＲ音声に対するフレームエネルギ（／１０）（ドット「・」）、並びに特徴量G_0_2（円「○」）及びGmax_0_2（プラス「＋」）を示す。なお、モデル次数２の線形予測を使用してモデル化されうる信号において何らかの相関があるため、G_0_2は車のノイズの間８である。特徴量Gmax_0_2は、発話の間は（この場合）１．５を超え、音声バーストの後は０に低下する。決定論理の特定の実現例においては、Gmax_0_2は、この特徴量を使用するノイズ更新を可能にするように、０．１を下回る必要がある。

図９ａは、フレームエネルギ（／１０）（ドット「・」）、並びに特徴量G_2_16（円「○」）、G1_2_16（ばつ印「×」）、G2_2_16（プラス「＋」）を示す。図９ｂは、フレームエネルギ（／１０）（ドット「・」）、並びに特徴量G_2_16（円「○」）、Gd_2_16（ばつ印「×」）、及びGad_2_16（プラス「＋」）を示す。図９ｃは、フレームエネルギ（／１０）（ドット「・」）、並びに特徴量G_2_16（円「○」）及びGmax_2_16（プラス「＋」）を示す。図９ａ〜図９ｃに示す図は、車のノイズを有する１０ｄＢＳＮＲ音声にも関連する。特徴量は、各パラメータをより見やすくするために３つの図に示される。なお、G_2_16（円「○」）は、より高いモデル次数からのゲインがこの種のノイズに対して低いことを示す車のノイズ（すなわち、発話の外側）の間、ちょうど１を上回る。発話の間、特徴量Gmax_2_16（図９ｃにおいてプラス「＋」）は、増加して、再度０に低下する。決定論理の特定の実現例においては、更に特徴量Gmax_2_16は、ノイズ更新を可能にするために０．１より低くなる必要がある。この特定のオーディオ信号サンプルにおいて、これは発生しない。

図１０は、車のノイズを有する１０ｄＢＳＮＲ音声に対するフレームエネルギ（ドット「・」）（今回は１０で分割されない）及び特徴量nonstaB（プラス「＋」）を示す。特徴量nonstaBは、雑音のみのセグメントの間は０〜１０の範囲にあり、発話に対してより大きくなる（周波数特性が音声に対して異なるため）。しかし、発話の間でさえ、特徴量nonstaBが０〜１０の範囲になるフレームがある。これらのフレームに対して、背景雑音更新を行う可能性があり、それにより背景雑音がより適切にトラッキングされる。

本明細書において開示する解決方法は、ハードウェア及び／又はソフトウェアで実現される背景雑音推定器に更に関連する。

背景雑音推定器、図１１ａ〜図１１ｃ
図１１ａは、背景雑音推定器の例示的な一実施形態を一般的な方法で示す。背景雑音推定器により、例えば音声及び／又は楽音を含むオーディオ信号における背景雑音を推定するように構成されたモジュール又はエンティティを参照する。符号化器１１００は、例えば図２及び図７を参照して上述した方法に対応する少なくとも１つの方法を実行するように構成される。符号化器１１００は、上述した方法の実施形態と同一の技術的な特徴、目的及び利点と関連付けられる。不要な繰り返しを回避するために、背景雑音推定器を簡単に説明する。

背景雑音推定器は、以下の通り実現され及び／又は説明されうる。

背景雑音推定器１００は、オーディオ信号の背景雑音を推定するように構成される。背景雑音推定器１１００は、処理回路網、すなわち処理手段１１０１と、通信インタフェース１１０２とを含む。処理回路網１１０１は、オーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲイン及びオーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインに基づいて、符号化器１１００によりNEW_POS_BG等の少なくとも１つのパラメータを取得、例えば判定又は計算するように構成される。

処理回路網１１０１は、背景雑音推定器により、少なくとも１つのパラメータに基づいてオーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するように更に構成される。オーディオ信号セグメントがポーズを含む場合、処理回路網１１０１は、背景雑音推定器により、オーディオ信号セグメントに基づいて背景雑音推定値を更新するように更に構成される。

例えば入出力（Ｉ／Ｏ）インタフェースで示されうる通信インタフェース１１０２は、他のエンティティ又はモジュールにデータを送出し、かつ、他のエンティティ又はモジュールからデータを受信するためのインタフェースを含む。例えば線形予測モデル次数０、２及び１６に関連した残差信号は、線形予測符号化を実行するオーディオ信号符号化器からＩ／Ｏインタフェースを介して取得、例えば受信されうる。

図１１ｂに示されるように、処理回路網１１０１は、処理手段、例えばＣＰＵ等のプロセッサ１１０３と、命令を格納又は保持するためのメモリ１１０４とを含みうる。そして、メモリは、処理手段１１０３により実行される場合に符号化器１１００により上述の動作を実行する例えばコンピュータプログラム１１０５の形態の命令を含む。

図１１ｃは、処理回路網１１０１の別の実現例を示す。ここで、処理回路網は、背景雑音推定器１１００により、オーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、NEW_POS_BG等の少なくとも１つのパラメータを取得、例えば判定又は計算するように構成される取得部又は取得モジュール、あるいは判定部又は判定モジュール１１０６を含む。処理回路網は、背景雑音推定器１１００により、少なくとも１つのパラメータに少なくとも基づいて、オーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するように構成された判定部又は判定モジュール１１０７を更に含む。オーディオ信号セグメントがポーズを含む場合、処理回路網１１０１は、背景雑音推定器により、オーディオ信号セグメントに基づいて背景雑音推定値を更新するように構成された更新部又は更新モジュール、あるいは推定部又は推定モジュール１１１０を更に含む。

処理回路網１１０１は、更に多くのユニット、例えば背景雑音推定器により線形予測ゲインをローパスフィルタリングすることで線形予測ゲインの１つ以上の長期推定値を作成するように構成されたフィルタ部又はフィルタモジュールを含みうる。あるいは、ローパスフィルタリング等の動作は、例えば判定部又は判定モジュール１１０７により実行されてもよい。

上述の背景雑音推定器の実施形態は、本明細書において説明する種々の方法の実施形態、例えば線形予測ゲインを制限及びローパスフィルタリングすること、線形予測ゲインと長期推定値との差分及び長期推定値間の差分を判定すること、及び／又はスペクトル近似尺度を取得及び使用すること等に対して構成されうる。

背景雑音推定器１１００は、背景雑音推定を実行するための更なる機能性、例えば附属書Ａにおいて例示されるような機能性等を含むと仮定されてもよい。

図１２は、例示的な一実施形態に係る背景推定器１２００を示す。背景推定器１２００は、例えばモデル次数０、２及び１６に対する残差エネルギを受信するための入力部を含む。背景推定器は、プロセッサと、プロセッサにより実行可能な命令を含むメモリとを更に含む。それにより、背景推定器は、本明細書において説明する一実施形態に係る方法を実行するために動作可能である。

従って、背景推定器は、図１３に示されるように、入出力部１３０１と、モデル次数０、２及び１６に対する残差エネルギからの特徴の最初の２つの集合を計算するための計算機１３０２と、スペクトル近似特徴を計算するための周波数分析機１３０３とを含んでもよい。

上述したような背景雑音推定器は、例えばＶＡＤ又はＳＡＤ、符号化器及び／又は復号化器、すなわちコーデックにおいて、並びに／あるいは通信デバイス等のデバイスにおいて含まれてもよい。通信デバイスは、移動電話、ビデオカメラ、録音機、タブレット、デスクトップ、ラップトップ、ＴＶセットトップボックス又はホームサーバ／ホームゲートウェイ／ホームアクセスポイント／ホームルータの形式のユーザ機器（ＵＥ）であってもよい。通信デバイスは、いくつかの実施形態においては、オーディオ信号を符号化及び／又はトランスコードするように構成された通信ネットワークデバイスであってもよい。そのような通信ネットワークデバイスの例としては、メディアサーバ、アプリケーションサーバ、ルータ、ゲートウェイ及び無線基地局等のサーバがある。通信デバイスは、船等の大型の船、飛行ドローン、飛行機及び車、バス又はトラック等の道路車両に位置付けられる、すなわち組み込まれるように更に構成されてもよい。そのような組み込みデバイスは、一般に車両テレマティクスユニット又は車両インフォテインメントシステムに属する。

本明細書において説明するステップ、機能、手順、モジュール、ユニット及び／又はブロックは、汎用電子回路網及び特定用途向け回路網の双方を含むあらゆる従来の技術、例えばディスクリート回路又は集積回路の技術を使用してハードウェアで実現されうる。

特定の例には、１つ以上の適切に構成されたデジタル信号プロセッサ及び他の知られている電子回路、例えば特定の機能を実行するように相互接続された個別の論理ゲート又は特定用途向け集積回路（ＡＳＩＣ）が含まれる。

あるいは、上述のステップ、機能、手順、モジュール、ユニット及び／又はブロックのうちの少なくともいくつかは、１つ以上の処理ユニットを含む適切な処理回路網が実行するために、コンピュータプログラム等のソフトウェアで実現されうる。ソフトウェアは、ネットワークノードにおけるコンピュータプログラムの使用前及び／又は使用中に、電子信号、光信号、無線信号又はコンピュータ読み取り可能な記憶媒体等のキャリアにより実行されうる。

本明細書において提示する１つ又は複数のフローチャートは、１つ以上のプロセッサにより実行される場合に１つ又は複数のコンピュータフローチャートと考えられてもよい。対応する装置は、プロセッサが実行する各ステップが機能モジュールに対応する機能モジュールのグループとして規定されてもよい。この場合、機能モジュールは、プロセッサ上で実行するコンピュータプログラムとして実現される。

処理回路網の例は、１つ以上のマイクロプロセッサ、１つ以上のデジタル信号プロセッサＤＳＰ、１つ以上の中央処理装置ＣＰＵ、並びに／あるいは１つ以上のフィールドプログラマブルゲートアレイＦＰＧＡ又は１つ以上のプログラマブルロジックコントローラＰＬＣ等のあらゆる適切なプログラマブル論理回路網を含むが、それに限定されない。すなわち、上述した種々のノードの構成におけるユニット又はモジュールは、アナログ回路及びデジタル回路の組み合わせ、並びに／あるいは例えばメモリに格納されたソフトウェア及び／又はファームウェアを用いて構成された１つ以上のプロセッサにより実現されうる。これらのプロセッサのうちの１つ以上及び他のデジタルハードウェアは、単一の特定用途向け集積回路ＡＳＩＣに含まれてもよい。あるいは、いくつかのプロセッサ及び種々のデジタルハードウェアは、個別にパッケージ化されるか、あるいはシステムオンチップＳｏＣにアセンブルされるかに関係なく、いくつかの別個の構成要素間に分散されてもよい。

提案された技術が実現されるあらゆる従来のデバイス又はユニットの一般的な処理機能を再利用してもよいことが、更に理解されるべきである。例えば、既存のソフトウェアのプログラムを作り直すか、あるいは新しいソフトウェア構成要素を追加することにより、既存のソフトウェアを再利用することが更に可能であってもよい。

上述の実施形態は単に例として挙げたものであり、提案技術はそれの例に限定されるものではないことが理解されるべきである。本発明の範囲から逸脱することなく種々の変形、組み合わせ及び変更が実施形態に対して行なわれうることは、当業者には理解されよう。特に、種々の実施形態における種々の部分的な解決方法は、技術的に可能な場合には他の構成において組み合わされることが可能である。

「備える」という用語を使用する場合、それは、限定しないもの、すなわち「から少なくとも構成される」ことを意味するものとして解釈されるべきである。

また、いくつかの別の実現例においては、ブロックにおいて示された機能／行為は、フローチャートにおいて示されたのとは異なる順序で行われてもよい。例えば、連続して示された２つのブロックは、実際には実質的に同時に実行されてもよく、あるいは当該機能性／行為に依存して場合によっては逆の順序で実行されてもよい。更に、フローチャート及び／又はブロック図の所定のブロックの機能性は、フローチャートの２つ以上のブロックの機能性及び／又は複数のブロックに分離されてもよく、及び／又はブロック図は、少なくとも部分的に統合されてもよい。最後に、他のブロックは、示されるブロック間に追加／挿入されてもよく、及び／又はブロック／動作は、本発明の概念の範囲から逸脱することなく省略されてもよい。

ユニットと対話する選択肢及び本開示内容内でのユニットの命名は、例示することのみを目的としたものであり、且つ、上述の方法のうちのいずれかを実行するのに適したノードは、提案された処理手順動作を実行できるように複数の別の方法で構成されうることが理解されるべきである。

また、本開示内容において説明するユニットは、論理エンティティであると考えられるべきであり、別個の物理エンティティとしての必要性を有さない。

単数形の要素を参照することは、特に指示のない限り、「１つ及び１つのみ」ではなく、むしろ「１つ以上」を意味することを意図する。当業者に知られている上述の実施形態の要素と構造的及び機能的に等価なものは全て、参考として本明細書に明確に取り入れられ、本明細書に含まれることを意図する。更に、本明細書において開示する技術が解決しようと試みる全ての問題を本明細書に含むために、デバイス又は方法がそれに対処する必要はない。

本明細書のいくつかの例においては、周知のデバイス、回路及び方法の詳細な説明は、不必要なまでに詳細に開示することでかえって説明する技術が曖昧にならない程度に省略した。本明細書において開示された技術の原理、態様及び実施形態を説明する全ての表現、並びに本発明の特定の例は、本発明の構造的な均等物及び機能的な均等物の双方を含むことを意図している。更に、そのような均等物は、現時点で公知の均等物、並びに将来開発されるであろう均等物、例えば構造に関係なく同一の機能を実行するように開発される任意の要素の双方を含むことを意図しているる。

附属書Ａ
以下の説明においては、図Ａ２〜図Ａ９を参照するが、例えば説明中の「図２」は図面中の図Ａ２に対応するものとする。

図２は、以下で提案する技術に係る背景雑音推定の方法の例示的な一実施形態を示すフローチャートである。方法は、ＳＡＤの一部であってもよい背景雑音推定器により実行されることを意図している。背景雑音推定器及びＳＡＤは、更に無線デバイス又はネットワークノードに含まれうるオーディオ符号化器に更に含まれてもよい。説明する背景雑音推定器の場合、雑音推定値を下に調整することは制限されていない。フレームが背景コンテンツ又はアクティブコンテンツであるかに関係なく、フレーム毎に可能な新しいサブバンド雑音推定値が計算される。新しい値は、現在の値より低い場合に背景フレームからのものである可能性が最も高いとして直接使用される。以下の雑音推定論理は、サブバンド雑音推定値が増加されうるかを決定し、そのように決定した場合、以前に計算された可能な新しいサブバンド雑音推定値に基づいてどのくらいの増加であるかを決定する第２のステップである。基本的に、この論理は、現在のフレームが背景フレームであるとの決定を下し、それが確かでない場合は元々推定されたものより少ない増加を可能にしてもよい。

図２に示す方法は、オーディオ信号セグメントのエネルギレベルが長期最小エネルギレベルlt_minより高い閾値を上回る場合（２０２：１）又はオーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を下回るが（２０２：２）、オーディオ信号セグメントにおいてポーズが検出されない場合（２０４：１）：
−オーディオ信号セグメントが楽音を含むと判定され（２０３：２）、且つ現在の背景雑音推定値が図２において「Ｔ」で示された最小値を超えて（２０５：１）、例えば以下の符号において2*E_MINとして更に例示される場合に、現在の背景雑音推定値を低下させること（２０６）を有する。

上記を実行し、且つ背景雑音推定値をＳＡＤに提供することにより、ＳＡＤは、より適切にサウンドアクティビティを検出できるようになる。また、誤った背景雑音推定値の更新から回復できるようになる。

あるいは、上述の方法において使用されたオーディオ信号セグメントのエネルギレベルは、例えば現在のフレームエネルギEtot又は現在の信号セグメントに対するサブバンドエネルギを合計することで計算可能な信号セグメント又はフレームのエネルギと呼ばれうる。

上記の方法において使用された他のエネルギ特徴量、すなわち長期最小エネルギレベルlt_minは、複数の前オーディオ信号セグメント又はフレームにわたり判定される推定値である。あるいは、lt_minは、例えばEtot_l_lpで示されうるlt_minを導出する１つの基本的な方法は、ある数の過去のフレームにわたり現在のフレームエネルギの履歴の最小値を使用する方法である。「現在のフレームエネルギ−長期最小推定値」として計算された値が、例えばTHR1で示された閾値を下回る場合、現在のフレームエネルギは、ここでは、長期最小エネルギに近接するか、あるいは長期最小エネルギに接近すると言う。すなわち、（Etot−lt_min）＜THR1の場合、現在のフレームエネルギEtotは、長期最小エネルギlt_minに接近すると判定されうる（２０２）。（Etot−lt_min）＝THR1の場合は、実現例に依存して決定され、２０２：１又は２０２：２のいずれかで示されうる。図２における符号２０２：１は、現在のフレームエネルギがlt_minに接近しないという決定を示し、２０２：２は、現在のフレームエネルギがlt_minに接近するという決定を示す。ＸＸＸ：Ｙの形式の図２における他の符号は、対応する決定を示す。特徴lt_minを以下に更に詳細に説明する。

現在の背景雑音推定値を超える最小値は、低下するように、ゼロ又は小さな正数であると仮定されてもよい。例えば、以下の符号において例示されるように、「totalNoise」で示され、例えば10*log10Σbackr[i]として判定されうる背景推定値の現在の合計エネルギは、当該低下を実現するためにゼロの最小値を超えることを要求されうる。あるいは又は更に、サブバンド背景雑音推定値を含むベクトルｂａｃｋｒ［ｉ］における各エントリは、低下を実行するために最小値E_MINと比較されうる。以下の符号の例においては、E_MINは小さな正数である。

なお、本明細書において提案する解決方法の好適な一実施形態によれば、オーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を上回るかの決定は、入力オーディオ信号から導出された情報のみに基づき、すなわち、サウンドアクティビティ検出器の決定からのフィードバックに基づかない。

現在のフレームがポーズを含むか否かを判定すること２０４は、１つ以上の基準に基づく種々の方法で実行されうる。ポーズ基準は、ポーズ検出器とも呼ばれうる。単一のポーズ検出器又は種々のポーズ検出器の組み合わせが適用されうる。ポーズ検出器を組み合わせることにより、各検出器は、種々の状態においてポーズを検出するために使用可能である。現フレームがポーズ、すなわち非アクティブを含みうる１つの指標は、フレームに対する相関特徴量が低いこと及び複数の前フレームも低い相関特徴量を有していたことである。現在のエネルギが長期最小エネルギに近接し、且つポーズが検出された場合、背景雑音は、図２に示されるように現在の入力に従って更新されうる。オーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を下回ることに加え、事前定義済みの数の連続する前オーディオ信号セグメントがアクティブ信号を含まないと判定されており、及び／又はオーディオ信号のダイナミックが閾値を超える場合、ポーズは検出されると考えられてもよい。これは、更に以下のコードの例においても示される。

背景雑音推定値の低下２０６により、背景雑音推定値が「高くなりすぎる」、すなわち本来の背景雑音に対して状況に対処できる。また、またこれは、例えば背景雑音推定値が実際の背景雑音から逸れることとして表現されてよい。高すぎる背景雑音推定値は、現在の信号セグメントがアクティブな音声又は楽音を含んでいても非アクティブであると判定されるＳＡＤによる不適切な決定を招く恐れがある。背景雑音推定値が高くなりすぎる理由は、例えばノイズ推定が楽音を背景と間違えており、且つノイズ推定値の増加を可能にしている楽音における誤った又は望ましくない背景雑音更新である。開示された方法により、例えば入力信号の後続のフレームが楽音を含むと判定される場合にそのように誤って更新された背景雑音推定値を調整できる。現在の入力信号セグメントエネルギが例えばサブバンドにおいて現在の背景雑音推定値より高い場合であっても、ノイズ推定値が減少する背景雑音推定値の強制的な低下により、このような調整が行われる。なお、背景雑音推定に対する上述の論理は、背景サブバンドエネルギの増加を制御するために使用される。現在のフレームサブバンドエネルギが背景雑音推定値より低い場合、それは、サブバンドエネルギを低下させることが常に許可されている。この機能は、図２に明示的には示されない。そのような減少は、通常、ステップサイズに対して固定の設定を有する。しかし、背景雑音推定値は、上述の方法に係る決定論理と関連付けられてのみ増加できるべきである。ポーズが検出される場合、更にエネルギ特徴及び相関特徴は、実際の背景雑音が更新される前に背景推定値増加に対する調整ステップサイズがどのくらいの大きさであるべきかを決定する２０７ために使用されてもよい。

上述したように、いくつかの楽音セグメントは、ノイズにあまりに類似するために背景雑音から分離するのが困難でありうる。従って、入力信号がアクティブ信号であったとしても、ノイズ更新論理により、サブバンドエネルギ推定値が偶発的に増加できてもよい。ノイズ推定値が本来より高くなりうるため、これにより問題が生じうる。

従来の背景雑音推定器においては、入力サブバンドエネルギが現在のノイズ推定値を下回った場合にのみ、サブバンドエネルギ推定値は低下しうる。しかし、いくつかの楽音セグメントがノイズにあまりに類似するために背景雑音から分離するのが困難でありうるため、本発明者等は、楽音に対する回復戦略が必要であることを認識している。ここで説明する実施形態においては、そのような回復は、入力信号が楽音のような特性に戻る場合に強制的なノイズ推定値低下により行われうる。すなわち、上述のエネルギ及びポーズの論理がノイズ推定値の増加を防止する場合（２０２：１、２０４：１）、入力が楽音であると疑われるかをテストし（２０３）、疑われる場合（２０３：２）、ノイズ推定値が最低レベルに到達するまで（２０５：２）、サブバンドエネルギは、フレーム毎に少量だけ低下する（２０６）。

上述したような背景推定器は、ＶＡＤ又はＳＡＤにおいて、及び／又は符号化器及び／又は復号器において含まれるか、あるいは実現されてよい。符号化器及び／又は復号器は、例えば移動電話、ラップトップ、タブレット等のユーザデバイスにおいて実現されてよい。背景推定器は、例えばコーデックの一部としてメディアゲートウェイ等のネットワークノードに更に含まれうる。

図５は、例示的な一実施形態に係る背景推定器の実現例を概略的に示すブロック図である。入力フレーミング部５１は、最初に入力信号を適切な長さ、例えば５ｍｓ〜３０ｍｓのフレームに分割する。フレーム毎に、特徴抽出器５２は、入力から少なくとも以下の特徴を計算する。１）特徴抽出器は周波数領域においてフレームを分析し、一組のサブバンドに対するエネルギを計算する。サブバンドは、背景推定のために使用されるのと同一のサブバンドである。２）特徴抽出器は、時間領域においてフレームを更に分析し、フレームがアクティブコンテンツを含むか否かを判定する際に使用されるcor_est及び／又はlt_cor_est等で示された相関を計算する。３）特徴抽出器は、長期最小エネルギlt_min等の現在の入力フレーム及び前の入力フレームのエネルギ履歴に対する特徴を更新するために、例えばEtotで示された現在のフレーム合計エネルギを更に利用する。次に、相関特徴量及びエネルギ特徴量が、更新決定論理ブロック５３に供給される。

ここに開示する解決方法に係る決定論理は、更新決定論理ブロック５３において実現される。ブロック５３においては、相関特徴量及びエネルギ特徴量は、現在のフレームエネルギが長期最小エネルギに近接するか否か、現在のフレームがポーズの一部である（アクティブ信号ではない）か否か及び現在のフレームが楽音の一部であるか否かに関する決定を下すために使用される。本明細書において説明する実施形態に係る解決方法は、背景雑音推定値を強固に更新するためにこれらの特徴及び決定が使用される方法を含む。

ここに開示する解決方法の実施形態のいくつかの実現例の詳細を以下に説明する。以下の実現例の詳細は、Ｇ．７１８に基づく符号化器における実施形態から得られる。本実施形態は、国際公開第ＷＯ２０１１／０４９５１４号及び国際公開第ＷＯ２０１１／０４９５１５号において説明された特徴のうちのいくつかを使用する。

以下の特徴量は、国際公開第ＷＯ２０１１／０４９５１４号において説明された修正済みのＧ．７１８において規定される。
Etot; 現在の入力フレームに対する合計エネルギ
Etot_l 最小エネルギ包絡線をトラッキングする
Etot_l_lp; 最小エネルギ包絡線Etot_lの平滑化バージョン
totalNoise; 背景推定値の現在の合計エネルギ
bckr[i]; サブバンド背景推定値を有するベクトル
tmpN[i]; 事前に計算された潜在的な新しい背景推定値
aEn; 複数の特徴を使用する背景検出器（カウンタ）
harm_cor_cnt 相関又は高調波事象を有する最後のフレームからのフレームをカウントする
act_pred 入力フレーム特徴のみからのアクティビティの予測
cor[i] ｉ＝０現在のフレームの最後、ｉ＝１現在のフレームの最初、ｉ＝２前のフレームの最後に対して、相関推定値を有するベクトル

以下の特徴量は、国際公開第ＷＯ２０１１／０４９５１５号において説明された修正済みのＧ．７１８において規定される。
Etot_h 最大エネルギ包絡線をトラッキングする
sign_dyn_lp; 平滑化された入力信号ダイナミクス

更に特徴量Etot_v_hは、国際公開第ＷＯ２０１１／０４９５１４号において規定されたが、本実施形態においては、修正されており、ここで以下のように実現される。

Etot_v = (float) fabs(*Etot_last - Etot);
if( Etot_v ＜ 7.0f) /*なお、ＶＡＤフラグ等はここでは使用されない*/
{
*Etot_v_h -= 0.01f;
if (Etot_v ＞ *Etot_v_h)
{
if ((*Etot_v -*Etot_v_h) ＞ 0.2f)
{
*Etot_v_h = *Etot_v_h + 0.2f;
}
else
{
*Etot_v_h = Etot_v; }}}

Etot_vは、フレーム間の絶対エネルギ変動、すなわちフレーム間の瞬間的なエネルギ変動の絶対値を測定する。上記の例においては、最後のフレームエネルギと現在のフレームエネルギとの差分が７個のユニットより小さい場合、２つのフレーム間のエネルギ変動は、「低い」と判定される。これは、現在のフレーム（及び前のフレーム）がポーズの一部であってもよい、すなわち背景雑音のみを含んでもよいことの指標として利用される。しかし、あるいはそのような低い変動性は、例えば音声バーストの中間で見つけられうる。変更可能なEtot_lastは、前のフレームのエネルギレベルである。

コードにおいて説明される上記のステップは、図２のフローチャートにおける「相関及びエネルギを計算／更新する」ステップの一部として、すなわち動作２０１の一部として実行されうる。国際公開第ＷＯ２０１１／０４９５１４号の実現例においては、ＶＡＤフラグは、現在のオーディオ信号セグメントが背景雑音を含んでいたか否かを判定するために使用された。本発明者等は、フィードバック情報への依存が問題となる恐れがあることを認識している。ここに開示する解決方法においては、背景雑音推定値を更新するか否かの決定は、ＶＡＤ（又はＳＡＤ）の決定に依存しない。

また、ここに開示する解決方法においては、国際公開第ＷＯ２０１１／０４９５１４号の実現例の一部ではない以下の特徴は、同一のステップ、すなわち図２に示された相関及びエネルギを計算／更新するステップの一部として計算／更新されてもよい。これらの特徴は、背景推定値を更新するか否かの決定論理において更に使用される。

より適切な背景推定を達成するために、多数の特徴を以下に規定する。例えば、新しい相関に関連した特徴cor_est及びlt_cor_estが規定される。特徴cor_estは、現在のフレームにおける相関の推定値であり、相関の平滑化された長期推定値であるlt_cor_estを生成するために更に使用される。

cor_est = (cor[0] + cor[1] + cor[2]) / 3.0f ;
st-＞lt_cor_est = 0.01f*cor_est + 0.99f * st-＞lt_cor_est;

上述したように、ｃｏｒ［ｉ］は相関推定値を含むベクトルであり、ｃｏｒ［０］は現在のフレームの最後を表し、ｃｏｒ［１］は現在のフレームの最初を表し、ｃｏｒ［２］は前のフレームの最後を表す。

また、どのくらいの頻度で背景推定値が現在のフレームエネルギに近接するかの長期推定値を与えるlt_tn_trackが計算される。現在のフレームエネルギが現在の背景推定値に十分に近接する場合、これは、背景が近接するか否かを信号送信する（１／０）条件により登録される。この信号は、長期尺度lt_tn_trackを形成するために使用される。

st-＞lt_tn_track = 0.03f* (Etot - st-＞totalNoise ＜ 10) + 0.97f*st-＞lt_tn_track;

この例においては、現在のフレームエネルギが背景推定値に近接している場合は、０．０３が追加され、そうでなければ、唯一残る項が前の値の０．９７倍である。この例において、「近接」は、現在のフレームエネルギEtotと背景推定値totalNoiseとの差分が単位１０を下回るものとして規定されている。「近接」については他の規定も可能である。

更に、現在の背景推定値Etotと現在のフレームエネルギtotalNoiseとの間の距離は、この距離の長期推定値を与える特徴量lt_tn_distを判定するために使用される。同様の特徴量lt_Ellp_distは、長期最小エネルギEtot_l_lpと現在のフレームエネルギEtotとの間の距離に対して作成される。

st-＞lt_tn_dist = 0.03f* (Etot - st-＞totalNoise) + 0.97f*st-＞lt_tn_dist;
st-＞lt_Ellp_dist = 0.03f* (Etot - st-＞Etot_l_lp) + 0.97f*st-＞lt_Ellp_dist;

先に導入された特徴量harm_cor_cntは、相関又は高調波事象を有する最後のフレームからの、すなわちアクティビティに関連するある特定の基準を満たすフレームからのフレームの数をカウントするために使用される。すなわち、条件harm_cor_cnt==0の場合、現在のフレームが相関又は高調波事象を示すため、これは、現在のフレームがアクティブフレームである可能性が最も高いことを示す。どのくらいの頻度でそのような事象が発生するかを示す長期の平滑化された推定値lt_haco_evを形成するためにこれが使用される。この場合、更新は対称的ではなく、すなわち以下に示すように、推定値が増加又は減少する場合に種々の時定数が使用される。

if (st-＞harm_cor_cnt == 0) /*おそらくアクティブの場合*/
{
st-＞lt_haco_ev = 0.03f + 0.97f*st-＞lt_haco_ev; /*長期推定値を増加する*/
}
else
{
st-＞lt_haco_ev = 0.99f*st-＞lt_haco_ev; /*長期推定値を低減する*/
}

先に導入された特徴量lt_tn_trackの低い値は、入力フレームエネルギがいくつかのフレームに対する背景エネルギに近接していないことを示す。これは、現在のフレームエネルギが背景エネルギ推定値に近接しないフレーム毎に、lt_tn_trackが減少するためである。lt_tn_trackは、現在のフレームエネルギが先に示したように背景エネルギ推定値に近接する場合にのみ増加する。この「非トラッキング」、すなわち背景推定値から遠いフレームエネルギがどのくらいの間続いているかをより適切に推定するために、このようにトラッキングのないフレームの数に対するカウンタlow_tn_track_cntは、以下のように形成される。

if (st-＞lt_tn_track＜0.05f) /*lt_tn_trackが低い場合*/
{
st-＞low_tn_track_cnt++; /*１をカウンタに追加する*/
}
else
{
st-＞low_tn_track_cnt=0; /*カウンタをリセットする*/
}

上記の例においては、「低い」は、値０．０５を下回るものとして規定されている。これは、異なる方法で選択可能な例示的な値として見られるべきである。

図２に示されたステップ「ポーズ及び楽音の判定を行う」に対して、背景検出でも示されるポーズ検出を形成するために、以下の３つのコード表現が使用される。他の実施形態及び実現例においては、ポーズ検出のために更に他の基準が追加されてもよい。実際の楽音判定は、相関特徴量及びエネルギ特徴量を用いてコードにおいて行われる。

１：bg_bgd = Etot ＜ Etot_l_lp + 0.6f * st-＞Etot_v_h;
Etotが背景雑音推定値に近接する場合、bg_bgdは、「１」又は「真」になる。bg_bgdは、他の背景検出器に対するマスクになる。すなわち、bg_bgdが「真」でない場合、以下の背景検出器２及び３を評価する必要はない。Etot_v_hは、代わりにN_varで示されうる雑音変動推定値である。Etot_v_hは、フレーム間の絶対エネルギ変動を測定するEtot_vを使用して入力合計エネルギ（ログ領域における）から導出される。なお、特徴量Etot_v_hは、小さな一定値、例えばフレーム毎に０．２を最大に増加させることのみに限定されない。Etot_l_lpは、最小エネルギ包絡線Etot_lの平滑化バージョンである。

２：aE_bgd = st-＞aEn == 0;
aEnがゼロの場合、aE_bgdは、「１」又は「真」になる。aEnは、アクティブ信号が現在のフレームに存在すると判定される場合に増分され、且つ現在のフレームがアクティブ信号を含まないと判定される場合に減少されるカウンタである。aEnは、ある特定の数、例えば６を上回っては増分されず、ゼロを下回るまで低下されないようにしてもよい。アクティブ信号を有さない６等の複数の連続したフレームの後、aEnはゼロに等しくなる。

３：
sd1_bgd = (st-＞sign_dyn_lp ＞ 15) && (Etot - st-＞Etot_l_lp ) ＜ st-＞Etot_v_h && st-＞harm_cor_cnt ＞ 20;
ここで、sd1_bgdは、３つの異なる条件が真である場合に「１」又は「真」になる。信号ダイナミクスsign_dyn_lpは高く、この例においては１５を上回る。現在のフレームエネルギは、背景推定値に近接する。ある特定の数のフレーム、この例においては２０個のフレームは、相関又は高調波事象なしで通過している。

bg_bgdの機能は、現在のフレームエネルギが長期最小エネルギに近接することを検出するためのフラグでありうる。後者の２つ、すなわちaE_bgd及びsd1_bgdは、異なる状態におけるポーズ又は背景の検出を表す。aE_bgdは、２つの最も一般的な検出器であり、sd1_bgdは、高いＳＮＲにおける音声ポーズを主に検出する。

ここに開示する技術の一実施形態に係る新しい決定論理は、以下のコードにおいて以下のように構成される。決定論理はマスキング条件bg_bgd、並びに２つのポーズ検出器aE_bgd及びsd1_bgdを含む。totalNoiseの最小エネルギ推定のトラッキング具合について長期統計を評価する第３のポーズ検出器もあってよい。第１の線が真であるかを評価した条件は、ステップサイズがどのくらいの大きさであるべきかに関する決定論理であり、updt_step及び実際のノイズ推定更新は、値を「st-＞bckr[i]=-」に割り当てることである。なお、tmpN[i]は、国際公開第ＷＯ２０１１／０４９５１４号において説明された解決方法に従って計算された前に計算された潜在的に新しいノイズレベルである。以下の決定論理は、以下の符号に関連して部分的に示される図２の部分２０９に従う。

if (bg_bgd && ( aE_bgd II sd1_bgd II st-＞lt_tn_track ＞0.90f ) ) /*２０２：２及び２０４：２の場合)*/
{
if( (st-＞act_pred ＜ 0.85f II ( aE_bgd && st-＞lt_haco_ev ＜ 0.05f ) ) &&
(st-＞lt_Ellp_dist ＜ 10 II sd1_bgd ) && st-＞lt_tn_dist＜40 &&
( (Etot - st-＞totalNoise ) ＜ 15.0f II st-＞lt_haco_ev ＜ 0.10f ) ) /*207*/
{
st-＞first_noise_updt = 1;
for( i=0; i＜ NB_BANDS; i++ )
{
st-＞bckr[i] = tmpN[i) /*208*/
}
}
else if (aE_bgd && st-＞lt_haco_ev ＜ 0.15f)
{
updt_step=0.1f;
if (st-＞act_pred ＞ 0.85f )
{
updt_step=0.01f /*207*/
}
if (updt_step ＞ 0.0f)
{
st-＞first_noise_updt = 1;
for[ i=0; i＜ NB_BANDS; i++ )
{
st-＞bckr[i] = st-＞bckr[i] + updt_step * (tmpN[i]-st-＞bckr[i]); /*208*/

}}}
else
{
(st-＞first_noise_updt) +=1;
}
}
else
{
/*楽音において更に低下させるようにbackrを低下させる場合*/ /*２０３：２及び２０５：１の場合*/
If ( st-＞low_tn_track_cnt ＞ 300 && st-＞lt_haco_ev ＞ 0.9f && st-＞ totalNoise ＞ 0.0f)
{
For ( i=0; i＜ NB_BANDS; i++)
{
If (st-＞bckr[i] ＞ 2 * E_MIN
{
St-＞bckr[i] = 0.98f * st-＞bckr[i]; /*206*/
}
}
}
Else
{
(st-＞first_noise_updt) += 1;
}
}

「/*楽音において．．．場合*/」から始まる最後のコードブロックにおけるコードセグメントは、現在の入力が楽音であると疑われる場合に使用される背景推定値の強制的な減少を含む。これは関数として決定される。すなわち、最小エネルギ推定と比較して背景雑音を不適切にトラッキングする長期間、ＡＮＤ、高調波事象又は相関事象の頻繁な発生、ＡＮＤ、最後の条件「totalNoise＞０」は、背景推定の現在の合計エネルギがゼロより大きいというチェックであり、これは、背景推定値の低下が考慮されうることを示す。また、「bckr[i]＞２」＊E_MIN」であるかが判定され、式中、E_MINは小さな正の数である。（例においては０．９８を乗算されることにより）低下するよう、エントリはE_MINを超える必要があるため、これは、サブバンド背景推定値を含むベクトルにおける各エントリのチェックである。これらのチェックは、背景推定値が小さすぎる値に低下することを回避するために作成される。

実施形態は、改善されたＳＡＤ／ＶＡＤの性能により、効率のよいＤＴＸ解決方法を実現し、且つクリッピングにより発生する音声品質又は楽音の劣化を回避できる背景雑音推定を向上させる。

Etot_v_hから国際公開第ＷＯ２０１１／０９５１４号において説明した決定フィードバックを除外することにより、ノイズ推定とＳＡＤとがより適切に分離される。ＳＡＤ機能／チューニングが変更される場合／時にノイズ推定が変更されないため、これは利点を有する。すなわち、背景雑音推定の判定は、ＳＡＤの機能とは無関係になる。また、ノイズ推定論理のチューニングは、背景推定値が変更される際にＳＡＤからの二次効果による影響を受けないため、より容易になる。

Claims

複数のオーディオ信号セグメントを含むオーディオ信号における背景雑音の推定のための背景雑音推定器の方法であって、
前記オーディオ信号セグメントに対する０次線形予測からの残差信号（Ｅ（０））と２次線形予測からの残差信号（Ｅ（２））との比率として計算された第１の線形予測ゲインと、
前記オーディオ信号セグメントに対する２次線形予測からの残差信号（Ｅ（２））と１６次線形予測からの残差信号（Ｅ（１６））との比率として計算された第２の線形予測ゲインとに基づいて、
１つのオーディオ信号セグメントと関連付けられた少なくとも１つのパラメータを取得するステップ（２０１）と、
少なくとも前記取得した少なくとも１つのパラメータに基づいて、前記オーディオ信号セグメントがポーズを含むか、すなわち前記オーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するステップ（２０２）と、
前記オーディオ信号セグメントがポーズを含む場合に、
前記オーディオ信号セグメントに基づいて背景雑音推定値を更新するステップ（２０３）と、
を有することを特徴とする方法。
前記少なくとも１つのパラメータを取得するステップは、事前定義済みの間隔で値を取るように、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインを制限するステップを含むことを特徴とする請求項１に記載の方法。
前記少なくとも１つのパラメータを取得するステップは、
例えばローパスフィルタリングを使用して、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインの各々の少なくとも１つの長期推定値を生成するステップを含み、前記長期推定値は、少なくとも１つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づくものである
ことを特徴とする請求項１又は２に記載の方法。
前記少なくとも１つのパラメータを取得するステップは、
前記オーディオ信号セグメントと関連付けられた前記線形予測ゲインのうちの一方と前記線形予測ゲインの長期推定値との差分、及び／又は、線形予測ゲインと関連付けられた２つの異なる長期推定値の間の差分を判定するステップ
を含むことを特徴とする請求項１乃至３のいずれか１項に記載の方法。
前記少なくとも１つのパラメータを取得するステップは、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインをローパスフィルタリングするステップを含むことを特徴とする請求項１乃至４のいずれか１項に記載の方法。
少なくとも１つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項５に記載の方法。
前記オーディオ信号セグメントがポーズを含むかを判定するステップは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくことを特徴とする請求項１乃至６のいずれか１項に記載の方法。
前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値とに基づいて、前記スペクトル近似尺度を取得するステップを更に有することを特徴とする請求項７に記載の方法。
初期化期間中において、どの前記スペクトル近似尺度が取得されるかに基づいて、初期値Ｅ_minが前記背景雑音推定値として使用されることを特徴とする請求項８に記載の方法。
複数のオーディオ信号セグメントを含むオーディオ信号における背景雑音を推定するための背景雑音推定器（１１００）であって、
前記オーディオ信号セグメントに対する０次線形予測からの残差信号と２次線形予測からの残差信号との比率として計算された第１の線形予測ゲインと、
前記オーディオ信号セグメントに対する２次線形予測からの残差信号と１６次線形予測からの残差信号との比率として計算された第２の線形予測ゲインとに基づいて、
少なくとも１つのパラメータを取得し、
少なくとも前記少なくとも１つのパラメータに基づいて、前記オーディオ信号セグメントがポーズを含むか、すなわち前記オーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定し、
前記オーディオ信号セグメントがポーズを含む場合に、
前記オーディオ信号セグメントに基づいて背景雑音推定値を更新する
ように構成されていることを特徴とする背景雑音推定器。
前記少なくとも１つのパラメータを取得することは、事前定義済みの間隔で値を取るように、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインを制限することを含むことを特徴とする請求項１０に記載の背景雑音推定器。
前記少なくとも１つのパラメータを取得することは、
例えばローパスフィルタリングを使用して、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインの各々の少なくとも１つの長期推定値を生成することを含み、前記長期推定値は、少なくとも１つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づくものである
ことを特徴とする請求項１０又は１１に記載の背景雑音推定器。
前記少なくとも１つのパラメータを取得することは、
前記オーディオ信号セグメントと関連付けられた前記線形予測ゲインのうちの一方と前記線形予測ゲインの長期推定値との差分、及び／又は、線形予測ゲインと関連付けられた２つの異なる長期推定値の間の差分を判定すること
を含むことを特徴とする請求項１０乃至１２のいずれか１項に記載の背景雑音推定器。
前記少なくとも１つのパラメータを取得することは、前記第１の線形予測ゲイン及び前記第２の線形予測ゲインをローパスフィルタリングすることを含むことを特徴とする請求項１０乃至１３のいずれか１項に記載の背景雑音推定器。
少なくとも１つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項１４に記載の背景雑音推定器。
前記オーディオ信号セグメントがポーズを含むかを判定することは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくように構成されていることを特徴とする請求項１０乃至１５のいずれか１項に記載の背景雑音推定器。
前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値に基づいて、前記スペクトル近似尺度を取得するように構成されていることを特徴とする請求項１６に記載の背景雑音推定器。
初期化期間中において、どの前記スペクトル近似尺度が取得されるかに基づいて、初期値Ｅ_minが前記背景雑音推定値として使用されることを特徴とする請求項１７に記載の背景雑音推定器。
請求項１０乃至１８のいずれか１項に記載の背景雑音推定器を備えることを特徴とするサウンドアクティビティ検出器ＳＡＤ。
請求項１０乃至１８のいずれか１項に記載の背景雑音推定器を備えることを特徴とするコーデック。
請求項１０乃至１８のいずれか１項に記載の背景雑音推定器を備えることを特徴とする無線デバイス。
請求項１０乃至１８のいずれか１項に記載の背景雑音推定器を備えることを特徴とするネットワークノード。
少なくとも１つのプロセッサ上で実行される場合に請求項１乃至９のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる命令を含むことを特徴とするコンピュータプログラム。
請求項２３に記載のコンピュータプログラムを含むキャリアであって、電子信号、光信号、無線信号、又はコンピュータ読み取り可能な記憶媒体のうちの１つであることを特徴とするキャリア。