JP2018041083A - オーディオ信号における背景雑音の推定 - Google Patents
オーディオ信号における背景雑音の推定 Download PDFInfo
- Publication number
- JP2018041083A JP2018041083A JP2017171326A JP2017171326A JP2018041083A JP 2018041083 A JP2018041083 A JP 2018041083A JP 2017171326 A JP2017171326 A JP 2017171326A JP 2017171326 A JP2017171326 A JP 2017171326A JP 2018041083 A JP2018041083 A JP 2018041083A
- Authority
- JP
- Japan
- Prior art keywords
- linear prediction
- audio signal
- background noise
- signal segment
- prediction gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Abstract
Description
図3は、例示的な一実施形態に係るE(0)及びE(2)に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。図3に示されるように、予測ゲインはE(0)/E(2)として最初に計算される。限定バージョンの予測ゲインは、以下のように計算される。
ただし、E(0)は、入力信号のエネルギを表し、E(2)は、2次線形予測の後の残差エネルギである。式1の数式は、予測ゲインを0〜8の間隔に制限する。予測ゲインは、通常の場合にはゼロより大きいべきであるが、例えばゼロに近い値に対しては例外が発生する恐れがあるため、「ゼロより大きい」制限(0<)が有用であろう。予測ゲインを最大8に制限する理由は、本明細書において説明する解決方法の目的のために、予測ゲインが有効な線形予測ゲインを示す約8又は8より大きいことを認識することで十分なためである。なお、2つの異なるモデル次数間の残差エネルギに差がない場合、線形予測ゲインは、より高いモデル次数のフィルタがより低いモデル次数のフィルタと比較してオーディオ信号をモデル化するのに成功しないことを示す1となる。また、予測ゲインG_0_2は、以下の数式において大きすぎる値を取る場合、導出されたパラメータの安定性を危うくする恐れがある。なお、8は、特定の実施形態に対して選択されている値の一例にすぎない。あるいは、パラメータG_0_2は、例えばepsP_0_2又はgLP_0_2と示されうる。
ただし、上式における第2の「G1_0_2」は、前オーディオ信号セグメントからの値として読み出される。背景専用入力のセグメントがあると、一般にこのパラメータは、入力における背景雑音の種類に応じて0又は8となる。あるいは、パラメータG1_0_2は、例えばP_0_2_lp、又は、/gLP_0_2で示されうる。次に、別の特徴又はパラメータは、以下に従って第1の長期特徴量G1_0_2とフレーム毎の制限された予測ゲインG_0_2との差分を用いて生成又は計算されうる。
これにより、予測ゲインの長期推定値と比較して現在のフレームの予測ゲインの表示が得られる。あるいは、パラメータGd_0_2は、例えばepsP_0_2_ad又はgad_0_2で示されうる。図4において、この差分は、第2の長期推定値又は特徴Gad_0_2を生成するために使用される。これは、以下に従って長期差分が現在推定されている平均差より高いか又は低いかに応じて種々のフィルタ係数を適用するフィルタを使用して行われる。
ここで、Gd_0_2<Gad_0_2のときは、a=0.1であり、そうでなければ、a=0.2である。
あるいは、パラメータGmax_0_2は、例えばepsP_0_2_ad_lp_max又はgmax_0_2で示されうる。
図4は、例示的な一実施形態に係るE(2)及びE(16)に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。図4に示されるように、予測ゲインは、E(2)/E(16)として最初に計算される。2次残差エネルギと16次残差エネルギとの差分又は関係を用いて生成された特徴量又はパラメータは、0次残差エネルギと2次残差エネルギとの間の関係に関連して上述した特徴又はパラメータとは僅かに異なる方法で導出される。
だだし、E(2)は、2次線形予測後の残差エネルギを表し、E(16)は、16次線形予測後の残差エネルギを表す。あるいは、パラメータG_2_16は、例えばepsP_2_16又はgLP_2_16で示されうる。次に、この制限された予測ゲインは、このゲインの2つの長期推定値を作成するために使用される。長期推定値が以下において示されるように増加するか又はしない場合、フィルタ係数は異なる。
ただし、G_2_16>G1_2_16のときは、a=0.2であり、そうでなければ、a=0.03である。
あるいは、パラメータG2_2_16は、例えばepsP_2_16_lp2、又は、/gLP2_0_2で示されうる。
あるいは、パラメータGd_2_16は、epsP_2_16_dlp又はgad_2_16で示されうる。
ただし、Gd_2_16<Gad_2_16のときは、c=0.02であり、そうでなければc=0.05である。
あるいは、パラメータGmax_2_16は、例えばepsP_2_16_dlp_max又はgmax_0_2で示されうる。
スペクトル近似特徴は、サブバンドエネルギが計算され、サブバンド背景雑音推定値と比較される現在の入力フレーム又はセグメントの周波数分析を使用する。スペクトル近似パラメータ又は特徴量は、例えば現在のセグメント又はフレームが前の背景雑音推定値にかなり近接するか、あるいは少なくともそれから離れすぎないことを保証するために、上述の線形予測ゲインと関連したパラメータと組み合わせて使用されてもよい。
ただし、sumは、i=2...16にわたって出される。
ただし、sumは、i=2...16にわたって出される。
Etot_l_lp;
Etot_v_h;
totalNoise;
sign_dyn_lp;
harm_cor_cnt
act_pred
cor_est
lt_cor_est = 0.01f*cor_est + 0.99f*lt_cor_est;
lt_tn_track = 0.03f* (Etot - totalNoise < 10) + 0.97f*lt_tn_track;
lt_tn_dist = 0.03f* (Etot - totalNoise) + 0.97f*lt_tn_dist;
lt_Ellp_dist = 0.03f* (Etot - Etot_l_lp) + 0.97f*lt_Ellp_dist;
harm_cor_cnt
low_tn_track_cnt
if (ini_frame < 150)
{
/*初期化中、更新を含まない*/
if ( i >= 2 && i <= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(E_MIN + 1.0f));
}
}
else
{
/*初期化の後、背景推定値と比較する*/
if ( i >= 2 && i <= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(bckr[i] + 1.0f));
}
}
if (non_staB >= 128)
{
non_staB = 32767.0/256.0f;
}
*線形予測効率0〜2次
*(線形予測フィルタの0次から2次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/
epsP_0_2 = max(0 , min(8, epsP[0] / epsP[2]));
epsP_0_2_lp = 0.15f * epsP_0_2 + (1.0f-0.15f) * st->epsP_0_2_lp;
epsP_0_2_ad = (float) fabs(epsP_0_2 - epsP_0_2_lp );
if (epsP_0_2_ad < epsP_0_2_ad_lp)
{
epsP_0_2_ad_lp = 0.1f * epsP_0_2_ad + (1.0f - 0.1f) * epsP_0_2_ad_lp;
}
else
{
epsP_0_2_ad_lp = 0.2f * epsP_0_2_ad + (1.0f - 0.2f) * epsP_0_2_ad_lp;
}
epsP_0_2_ad_lp_max = max(epsP_0_2_ad,st->epsP_0_2_ad_lp);
/*-----------------------------------------------------------------*
*線形予測効率2〜16次
*(線形予測フィルタの2次から16次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/
epsP_2_16 = max(0 , min(8, epsP[2] / epsP[16]));
if (epsP_2_16 > epsP_2_16_lp)
{
epsP_2_16_lp = 0.2f * epsP_2_16 + (1.0f-0.2f) * epsP_2_16_lp;
}
else
{
epsP_2_16_lp = 0.03f * epsP_2_16 + (1.0f-0.03f) * epsP_2_16_lp;
}
epsP_2_16_lp2 = 0.02f * epsP_2_16 + (1.0f-0.02f) * epsP_2_16_lp2;
epsP_2_16_dlp = epsP_2_16_lp-epsP_2_16_lp2;
if (epsP_2_16_dlp < epsP_2_16_dlp_lp2 )
{
epsP_2_16_dlp_lp2 = 0.02f * epsP_2_16_dlp + (1.0f-0.02f) * epsP_2_16_dlp_lp2;
}
else
{
epsP_2_16_dlp_lp2 = 0.05f * epsP_2_16_dlp + (1.0f-0.05f) * epsP_2_16_dlp_lp2;
}
epsP_2_16_dlp_max = max(epsP_2_16_dlp,epsP_2_16_dlp_lp2);
図11aは、背景雑音推定器の例示的な一実施形態を一般的な方法で示す。背景雑音推定器により、例えば音声及び/又は楽音を含むオーディオ信号における背景雑音を推定するように構成されたモジュール又はエンティティを参照する。符号化器1100は、例えば図2及び図7を参照して上述した方法に対応する少なくとも1つの方法を実行するように構成される。符号化器1100は、上述した方法の実施形態と同一の技術的な特徴、目的及び利点と関連付けられる。不要な繰り返しを回避するために、背景雑音推定器を簡単に説明する。
以下の説明においては、図A2〜図A9を参照するが、例えば説明中の「図2」は図面中の図A2に対応するものとする。
−オーディオ信号セグメントが楽音を含むと判定され(203:2)、且つ現在の背景雑音推定値が図2において「T」で示された最小値を超えて(205:1)、例えば以下の符号において2*E_MINとして更に例示される場合に、現在の背景雑音推定値を低下させること(206)を有する。
Etot; 現在の入力フレームに対する合計エネルギ
Etot_l 最小エネルギ包絡線をトラッキングする
Etot_l_lp; 最小エネルギ包絡線Etot_lの平滑化バージョン
totalNoise; 背景推定値の現在の合計エネルギ
bckr[i]; サブバンド背景推定値を有するベクトル
tmpN[i]; 事前に計算された潜在的な新しい背景推定値
aEn; 複数の特徴を使用する背景検出器(カウンタ)
harm_cor_cnt 相関又は高調波事象を有する最後のフレームからのフレームをカウントする
act_pred 入力フレーム特徴のみからのアクティビティの予測
cor[i] i=0現在のフレームの最後、i=1現在のフレームの最初、i=2前のフレームの最後に対して、相関推定値を有するベクトル
Etot_h 最大エネルギ包絡線をトラッキングする
sign_dyn_lp; 平滑化された入力信号ダイナミクス
if( Etot_v < 7.0f) /*なお、VADフラグ等はここでは使用されない*/
{
*Etot_v_h -= 0.01f;
if (Etot_v > *Etot_v_h)
{
if ((*Etot_v -*Etot_v_h) > 0.2f)
{
*Etot_v_h = *Etot_v_h + 0.2f;
}
else
{
*Etot_v_h = Etot_v; }}}
st->lt_cor_est = 0.01f*cor_est + 0.99f * st->lt_cor_est;
st->lt_Ellp_dist = 0.03f* (Etot - st->Etot_l_lp) + 0.97f*st->lt_Ellp_dist;
{
st->lt_haco_ev = 0.03f + 0.97f*st->lt_haco_ev; /*長期推定値を増加する*/
}
else
{
st->lt_haco_ev = 0.99f*st->lt_haco_ev; /*長期推定値を低減する*/
}
{
st->low_tn_track_cnt++; /*1をカウンタに追加する*/
}
else
{
st->low_tn_track_cnt=0; /*カウンタをリセットする*/
}
Etotが背景雑音推定値に近接する場合、bg_bgdは、「1」又は「真」になる。bg_bgdは、他の背景検出器に対するマスクになる。すなわち、bg_bgdが「真」でない場合、以下の背景検出器2及び3を評価する必要はない。Etot_v_hは、代わりにNvarで示されうる雑音変動推定値である。Etot_v_hは、フレーム間の絶対エネルギ変動を測定するEtot_vを使用して入力合計エネルギ(ログ領域における)から導出される。なお、特徴量Etot_v_hは、小さな一定値、例えばフレーム毎に0.2を最大に増加させることのみに限定されない。Etot_l_lpは、最小エネルギ包絡線Etot_lの平滑化バージョンである。
aEnがゼロの場合、aE_bgdは、「1」又は「真」になる。aEnは、アクティブ信号が現在のフレームに存在すると判定される場合に増分され、且つ現在のフレームがアクティブ信号を含まないと判定される場合に減少されるカウンタである。aEnは、ある特定の数、例えば6を上回っては増分されず、ゼロを下回るまで低下されないようにしてもよい。アクティブ信号を有さない6等の複数の連続したフレームの後、aEnはゼロに等しくなる。
sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp ) < st->Etot_v_h && st->harm_cor_cnt > 20;
ここで、sd1_bgdは、3つの異なる条件が真である場合に「1」又は「真」になる。信号ダイナミクスsign_dyn_lpは高く、この例においては15を上回る。現在のフレームエネルギは、背景推定値に近接する。ある特定の数のフレーム、この例においては20個のフレームは、相関又は高調波事象なしで通過している。
{
if( (st->act_pred < 0.85f II ( aE_bgd && st->lt_haco_ev < 0.05f ) ) &&
(st->lt_Ellp_dist < 10 II sd1_bgd ) && st->lt_tn_dist<40 &&
( (Etot - st->totalNoise ) < 15.0f II st->lt_haco_ev < 0.10f ) ) /*207*/
{
st->first_noise_updt = 1;
for( i=0; i< NB_BANDS; i++ )
{
st->bckr[i] = tmpN[i) /*208*/
}
}
else if (aE_bgd && st->lt_haco_ev < 0.15f)
{
updt_step=0.1f;
if (st->act_pred > 0.85f )
{
updt_step=0.01f /*207*/
}
if (updt_step > 0.0f)
{
st->first_noise_updt = 1;
for[ i=0; i< NB_BANDS; i++ )
{
st->bckr[i] = st->bckr[i] + updt_step * (tmpN[i]-st->bckr[i]); /*208*/
}}}
else
{
(st->first_noise_updt) +=1;
}
}
else
{
/*楽音において更に低下させるようにbackrを低下させる場合*/ /*203:2及び205:1の場合*/
If ( st->low_tn_track_cnt > 300 && st->lt_haco_ev > 0.9f && st-> totalNoise > 0.0f)
{
For ( i=0; i< NB_BANDS; i++)
{
If (st->bckr[i] > 2 * E_MIN
{
St->bckr[i] = 0.98f * st->bckr[i]; /*206*/
}
}
}
Else
{
(st->first_noise_updt) += 1;
}
}
Claims (24)
- 複数のオーディオ信号セグメントを含むオーディオ信号における背景雑音の推定のための背景雑音推定器の方法であって、
前記オーディオ信号セグメントに対する0次線形予測からの残差信号(E(0))と2次線形予測からの残差信号(E(2))との比率として計算された第1の線形予測ゲインと、
前記オーディオ信号セグメントに対する2次線形予測からの残差信号(E(2))と16次線形予測からの残差信号(E(16))との比率として計算された第2の線形予測ゲインとに基づいて、
1つのオーディオ信号セグメントと関連付けられた少なくとも1つのパラメータを取得するステップ(201)と、
少なくとも前記取得した少なくとも1つのパラメータに基づいて、前記オーディオ信号セグメントがポーズを含むか、すなわち前記オーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するステップ(202)と、
前記オーディオ信号セグメントがポーズを含む場合に、
前記オーディオ信号セグメントに基づいて背景雑音推定値を更新するステップ(203)と、
を有することを特徴とする方法。 - 前記少なくとも1つのパラメータを取得するステップは、事前定義済みの間隔で値を取るように、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインを制限するステップを含むことを特徴とする請求項1に記載の方法。
- 前記少なくとも1つのパラメータを取得するステップは、
例えばローパスフィルタリングを使用して、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインの各々の少なくとも1つの長期推定値を生成するステップを含み、前記長期推定値は、少なくとも1つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づくものである
ことを特徴とする請求項1又は2に記載の方法。 - 前記少なくとも1つのパラメータを取得するステップは、
前記オーディオ信号セグメントと関連付けられた前記線形予測ゲインのうちの一方と前記線形予測ゲインの長期推定値との差分、及び/又は、線形予測ゲインと関連付けられた2つの異なる長期推定値の間の差分を判定するステップ
を含むことを特徴とする請求項1乃至3のいずれか1項に記載の方法。 - 前記少なくとも1つのパラメータを取得するステップは、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインをローパスフィルタリングするステップを含むことを特徴とする請求項1乃至4のいずれか1項に記載の方法。
- 少なくとも1つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項5に記載の方法。
- 前記オーディオ信号セグメントがポーズを含むかを判定するステップは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくことを特徴とする請求項1乃至6のいずれか1項に記載の方法。
- 前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値とに基づいて、前記スペクトル近似尺度を取得するステップを更に有することを特徴とする請求項7に記載の方法。
- 初期化期間中において、どの前記スペクトル近似尺度が取得されるかに基づいて、初期値Eminが前記背景雑音推定値として使用されることを特徴とする請求項8に記載の方法。
- 複数のオーディオ信号セグメントを含むオーディオ信号における背景雑音を推定するための背景雑音推定器(1100)であって、
前記オーディオ信号セグメントに対する0次線形予測からの残差信号と2次線形予測からの残差信号との比率として計算された第1の線形予測ゲインと、
前記オーディオ信号セグメントに対する2次線形予測からの残差信号と16次線形予測からの残差信号との比率として計算された第2の線形予測ゲインとに基づいて、
少なくとも1つのパラメータを取得し、
少なくとも前記少なくとも1つのパラメータに基づいて、前記オーディオ信号セグメントがポーズを含むか、すなわち前記オーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定し、
前記オーディオ信号セグメントがポーズを含む場合に、
前記オーディオ信号セグメントに基づいて背景雑音推定値を更新する
ように構成されていることを特徴とする背景雑音推定器。 - 前記少なくとも1つのパラメータを取得することは、事前定義済みの間隔で値を取るように、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインを制限することを含むことを特徴とする請求項10に記載の背景雑音推定器。
- 前記少なくとも1つのパラメータを取得することは、
例えばローパスフィルタリングを使用して、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインの各々の少なくとも1つの長期推定値を生成することを含み、前記長期推定値は、少なくとも1つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づくものである
ことを特徴とする請求項10又は11に記載の背景雑音推定器。 - 前記少なくとも1つのパラメータを取得することは、
前記オーディオ信号セグメントと関連付けられた前記線形予測ゲインのうちの一方と前記線形予測ゲインの長期推定値との差分、及び/又は、線形予測ゲインと関連付けられた2つの異なる長期推定値の間の差分を判定すること
を含むことを特徴とする請求項10乃至12のいずれか1項に記載の背景雑音推定器。 - 前記少なくとも1つのパラメータを取得することは、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインをローパスフィルタリングすることを含むことを特徴とする請求項10乃至13のいずれか1項に記載の背景雑音推定器。
- 少なくとも1つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項14に記載の背景雑音推定器。
- 前記オーディオ信号セグメントがポーズを含むかを判定することは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくように構成されていることを特徴とする請求項10乃至15のいずれか1項に記載の背景雑音推定器。
- 前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値に基づいて、前記スペクトル近似尺度を取得するように構成されていることを特徴とする請求項16に記載の背景雑音推定器。
- 初期化期間中において、どの前記スペクトル近似尺度が取得されるかに基づいて、初期値Eminが前記背景雑音推定値として使用されることを特徴とする請求項17に記載の背景雑音推定器。
- 請求項10乃至18のいずれか1項に記載の背景雑音推定器を備えることを特徴とするサウンドアクティビティ検出器SAD。
- 請求項10乃至18のいずれか1項に記載の背景雑音推定器を備えることを特徴とするコーデック。
- 請求項10乃至18のいずれか1項に記載の背景雑音推定器を備えることを特徴とする無線デバイス。
- 請求項10乃至18のいずれか1項に記載の背景雑音推定器を備えることを特徴とするネットワークノード。
- 少なくとも1つのプロセッサ上で実行される場合に請求項1乃至9のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令を含むことを特徴とするコンピュータプログラム。
- 請求項23に記載のコンピュータプログラムを含むキャリアであって、電子信号、光信号、無線信号、又はコンピュータ読み取り可能な記憶媒体のうちの1つであることを特徴とするキャリア。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462030121P | 2014-07-29 | 2014-07-29 | |
US62/030,121 | 2014-07-29 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016552887A Division JP6208377B2 (ja) | 2014-07-29 | 2015-07-01 | オーディオ信号における背景雑音の推定 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019184033A Division JP6788086B2 (ja) | 2014-07-29 | 2019-10-04 | オーディオ信号における背景雑音の推定 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018041083A true JP2018041083A (ja) | 2018-03-15 |
JP2018041083A5 JP2018041083A5 (ja) | 2018-04-26 |
JP6600337B2 JP6600337B2 (ja) | 2019-10-30 |
Family
ID=53682771
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016552887A Active JP6208377B2 (ja) | 2014-07-29 | 2015-07-01 | オーディオ信号における背景雑音の推定 |
JP2017171326A Active JP6600337B2 (ja) | 2014-07-29 | 2017-09-06 | オーディオ信号における背景雑音の推定 |
JP2019184033A Active JP6788086B2 (ja) | 2014-07-29 | 2019-10-04 | オーディオ信号における背景雑音の推定 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016552887A Active JP6208377B2 (ja) | 2014-07-29 | 2015-07-01 | オーディオ信号における背景雑音の推定 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019184033A Active JP6788086B2 (ja) | 2014-07-29 | 2019-10-04 | オーディオ信号における背景雑音の推定 |
Country Status (19)
Country | Link |
---|---|
US (5) | US9870780B2 (ja) |
EP (3) | EP3175458B1 (ja) |
JP (3) | JP6208377B2 (ja) |
KR (3) | KR102267986B1 (ja) |
CN (3) | CN112927725A (ja) |
BR (1) | BR112017001643B1 (ja) |
CA (1) | CA2956531C (ja) |
DK (1) | DK3582221T3 (ja) |
ES (3) | ES2664348T3 (ja) |
HU (1) | HUE037050T2 (ja) |
MX (3) | MX365694B (ja) |
MY (1) | MY178131A (ja) |
NZ (1) | NZ728080A (ja) |
PH (1) | PH12017500031A1 (ja) |
PL (2) | PL3309784T3 (ja) |
PT (1) | PT3309784T (ja) |
RU (3) | RU2713852C2 (ja) |
WO (1) | WO2016018186A1 (ja) |
ZA (2) | ZA201708141B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112016014104B1 (pt) | 2013-12-19 | 2020-12-29 | Telefonaktiebolaget Lm Ericsson (Publ) | método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador |
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CA2956531C (en) * | 2014-07-29 | 2020-03-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN105897455A (zh) * | 2015-11-16 | 2016-08-24 | 乐视云计算有限公司 | 用于检测功能管理配置服务器运营的方法、合法客户端、cdn节点及系统 |
DE102018206689A1 (de) * | 2018-04-30 | 2019-10-31 | Sivantos Pte. Ltd. | Verfahren zur Rauschunterdrückung in einem Audiosignal |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN110110437B (zh) * | 2019-05-07 | 2023-08-29 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于相关区间不确定性理论的汽车高频噪声预测方法 |
CN111863016B (zh) * | 2020-06-15 | 2022-09-02 | 云南国土资源职业学院 | 一种天文时序信号的噪声估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
JP2007517249A (ja) * | 2003-12-29 | 2007-06-28 | ノキア コーポレイション | 暗騒音存在時の音声を改善するための方法および装置 |
JP2010530989A (ja) * | 2007-06-22 | 2010-09-16 | ヴォイスエイジ・コーポレーション | 音声区間検出および音声信号分類ための方法および装置 |
JP2016527564A (ja) * | 2013-08-06 | 2016-09-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | オーディオ信号分類方法及び装置 |
JP2017515138A (ja) * | 2014-07-29 | 2017-06-08 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | オーディオ信号における背景雑音の推定 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297213A (en) * | 1992-04-06 | 1994-03-22 | Holden Thomas W | System and method for reducing noise |
IT1257065B (it) * | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
JP3685812B2 (ja) * | 1993-06-29 | 2005-08-24 | ソニー株式会社 | 音声信号送受信装置 |
FR2715784B1 (fr) * | 1994-02-02 | 1996-03-29 | Jacques Prado | Procédé et dispositif d'analyse d'un signal de retour et annuleur d'écho adaptatif en comportant application. |
FR2720850B1 (fr) * | 1994-06-03 | 1996-08-14 | Matra Communication | Procédé de codage de parole à prédiction linéaire. |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6782361B1 (en) * | 1999-06-18 | 2004-08-24 | Mcgill University | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
DE10026872A1 (de) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector) |
WO2001084536A1 (de) * | 2000-04-28 | 2001-11-08 | Deutsche Telekom Ag | Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector) |
US7136810B2 (en) * | 2000-05-22 | 2006-11-14 | Texas Instruments Incorporated | Wideband speech coding system and method |
JP2002258897A (ja) * | 2001-02-27 | 2002-09-11 | Fujitsu Ltd | 雑音抑圧装置 |
KR100399057B1 (ko) * | 2001-08-07 | 2003-09-26 | 한국전자통신연구원 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7065486B1 (en) | 2002-04-11 | 2006-06-20 | Mindspeed Technologies, Inc. | Linear prediction based noise suppression |
US7454010B1 (en) * | 2004-11-03 | 2008-11-18 | Acoustic Technologies, Inc. | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
JP4551817B2 (ja) * | 2005-05-20 | 2010-09-29 | Okiセミコンダクタ株式会社 | ノイズレベル推定方法及びその装置 |
US20070078645A1 (en) * | 2005-09-30 | 2007-04-05 | Nokia Corporation | Filterbank-based processing of speech signals |
RU2317595C1 (ru) * | 2006-10-30 | 2008-02-20 | ГОУ ВПО "Белгородский государственный университет" | Способ обнаружения пауз в речевых сигналах и устройство его реализующее |
RU2417459C2 (ru) * | 2006-11-15 | 2011-04-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для декодирования аудиосигнала |
US9318117B2 (en) * | 2007-03-05 | 2016-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
KR101230183B1 (ko) * | 2008-07-14 | 2013-02-15 | 광운대학교 산학협력단 | 오디오 신호의 상태결정 장치 |
JP5513138B2 (ja) * | 2009-01-28 | 2014-06-04 | 矢崎総業株式会社 | 基板 |
US8244523B1 (en) * | 2009-04-08 | 2012-08-14 | Rockwell Collins, Inc. | Systems and methods for noise reduction |
JP5460709B2 (ja) * | 2009-06-04 | 2014-04-02 | パナソニック株式会社 | 音響信号処理装置および方法 |
DE102009034238A1 (de) | 2009-07-22 | 2011-02-17 | Daimler Ag | Statorsegment und Stator eines Hybrid- oder Elektrofahrzeuges |
DE102009034235A1 (de) | 2009-07-22 | 2011-02-17 | Daimler Ag | Stator eines Hybrid- oder Elektrofahrzeuges, Statorträger |
JP2013508773A (ja) | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
CA2778342C (en) * | 2009-10-19 | 2017-08-22 | Martin Sehlstedt | Method and background estimator for voice activity detection |
CN102136271B (zh) * | 2011-02-09 | 2012-07-04 | 华为技术有限公司 | 舒适噪声生成器、方法及回声抵消装置 |
CA2903681C (en) * | 2011-02-14 | 2017-03-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
BR112015002826B1 (pt) * | 2012-09-11 | 2021-05-04 | Telefonaktiebolaget L M Ericsson (Publ) | método, meio de armazenamento legível por computador, e, controlador de ruído de conforto para gerar parâmetros de controle de ruído de conforto |
CN103050121A (zh) * | 2012-12-31 | 2013-04-17 | 北京迅光达通信技术有限公司 | 线性预测语音编码方法及语音合成方法 |
CN103440871B (zh) * | 2013-08-21 | 2016-04-13 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
-
2015
- 2015-07-01 CA CA2956531A patent/CA2956531C/en active Active
- 2015-07-01 RU RU2018129139A patent/RU2713852C2/ru active
- 2015-07-01 ES ES15739357.0T patent/ES2664348T3/es active Active
- 2015-07-01 WO PCT/SE2015/050770 patent/WO2016018186A1/en active Application Filing
- 2015-07-01 CN CN202110082923.6A patent/CN112927725A/zh active Pending
- 2015-07-01 EP EP15739357.0A patent/EP3175458B1/en active Active
- 2015-07-01 RU RU2017106163A patent/RU2665916C2/ru active
- 2015-07-01 NZ NZ728080A patent/NZ728080A/en unknown
- 2015-07-01 MY MYPI2017700095A patent/MY178131A/en unknown
- 2015-07-01 KR KR1020197023763A patent/KR102267986B1/ko active IP Right Grant
- 2015-07-01 KR KR1020177002593A patent/KR101895391B1/ko not_active Application Discontinuation
- 2015-07-01 EP EP17202308.7A patent/EP3309784B1/en active Active
- 2015-07-01 KR KR1020187025077A patent/KR102012325B1/ko active IP Right Grant
- 2015-07-01 BR BR112017001643-5A patent/BR112017001643B1/pt active IP Right Grant
- 2015-07-01 PL PL17202308T patent/PL3309784T3/pl unknown
- 2015-07-01 EP EP19179575.6A patent/EP3582221B1/en active Active
- 2015-07-01 PL PL19179575T patent/PL3582221T3/pl unknown
- 2015-07-01 ES ES17202308T patent/ES2758517T3/es active Active
- 2015-07-01 DK DK19179575.6T patent/DK3582221T3/da active
- 2015-07-01 ES ES19179575T patent/ES2869141T3/es active Active
- 2015-07-01 PT PT172023087T patent/PT3309784T/pt unknown
- 2015-07-01 MX MX2017000805A patent/MX365694B/es active IP Right Grant
- 2015-07-01 US US15/119,956 patent/US9870780B2/en active Active
- 2015-07-01 CN CN202110082903.9A patent/CN112927724B/zh active Active
- 2015-07-01 MX MX2021010373A patent/MX2021010373A/es unknown
- 2015-07-01 CN CN201580040591.8A patent/CN106575511B/zh active Active
- 2015-07-01 HU HUE15739357A patent/HUE037050T2/hu unknown
- 2015-07-01 JP JP2016552887A patent/JP6208377B2/ja active Active
-
2017
- 2017-01-05 PH PH12017500031A patent/PH12017500031A1/en unknown
- 2017-01-18 MX MX2019005799A patent/MX2019005799A/es unknown
- 2017-09-06 JP JP2017171326A patent/JP6600337B2/ja active Active
- 2017-11-21 US US15/818,848 patent/US10347265B2/en active Active
- 2017-11-30 ZA ZA2017/08141A patent/ZA201708141B/en unknown
-
2019
- 2019-05-10 US US16/408,848 patent/US11114105B2/en active Active
- 2019-05-20 ZA ZA2019/03140A patent/ZA201903140B/en unknown
- 2019-10-04 JP JP2019184033A patent/JP6788086B2/ja active Active
-
2020
- 2020-01-14 RU RU2020100879A patent/RU2760346C2/ru active
-
2021
- 2021-08-03 US US17/392,908 patent/US11636865B2/en active Active
-
2023
- 2023-03-13 US US18/120,483 patent/US20230215447A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
JP2007517249A (ja) * | 2003-12-29 | 2007-06-28 | ノキア コーポレイション | 暗騒音存在時の音声を改善するための方法および装置 |
JP2010530989A (ja) * | 2007-06-22 | 2010-09-16 | ヴォイスエイジ・コーポレーション | 音声区間検出および音声信号分類ための方法および装置 |
JP2016527564A (ja) * | 2013-08-06 | 2016-09-08 | 華為技術有限公司Huawei Technologies Co.,Ltd. | オーディオ信号分類方法及び装置 |
JP2017515138A (ja) * | 2014-07-29 | 2017-06-08 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | オーディオ信号における背景雑音の推定 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6600337B2 (ja) | オーディオ信号における背景雑音の推定 | |
CN110265059B (zh) | 估计音频信号中的背景噪声 | |
NZ743390B2 (en) | Estimation of background noise in audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6600337 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |