JP2013508773A - 音声エンコーダの方法およびボイス活動検出器 - Google Patents

音声エンコーダの方法およびボイス活動検出器 Download PDF

Info

Publication number
JP2013508773A
JP2013508773A JP2012535163A JP2012535163A JP2013508773A JP 2013508773 A JP2013508773 A JP 2013508773A JP 2012535163 A JP2012535163 A JP 2012535163A JP 2012535163 A JP2012535163 A JP 2012535163A JP 2013508773 A JP2013508773 A JP 2013508773A
Authority
JP
Japan
Prior art keywords
snr
received frame
noise
frame
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012535163A
Other languages
English (en)
Inventor
マルティン シェルステッド,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2013508773A publication Critical patent/JP2013508773A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明の実施形態は、主ボイス活動検出器およびその方法に関する。実施形態の方法を使用することによって、入力信号のフレームがボイスを含むかどうかを判定することが可能である。その判定は、入力信号のフレームを受信することと、受信したフレームの第1のSNRを判定することと、判定された第1のSNRを適応しきい値と比較することと、前記比較に基づいて、受信したフレームがボイスを含むかどうかを検出することとによって達成される。適応しきい値は、少なくとも、雑音レベルの総雑音エネルギ、第2のSNRの推定値、および異なるフレームの間のエネルギ変化に基づく。
【選択図】なし

Description

本発明の実施形態は、方法およびボイス活動検出器(voice activity detector)に関し、具体的には、ボイス活動検出器のしきい値適合に関する。
会話音声に使用される音声コーディングシステムでは、符号化の効率を高めるために不連続送信(discontinuous transmission)(DTX)を使用することが一般的である。その理由は、会話音声が、たとえばある人が話しており他方の人が聞き入っている間に、音声に埋め込まれた大量の小休止を含むことにある。したがって、DTXを用いて、音声エンコーダは、平均して時間の約50%だけアクティブであり、残りを、コンフォートノイズ(comfort noise)を使用して符号化することができる。コンフォートノイズは、デコーダ側で生成される人工的雑音であり、エンコーダ側の雑音の特性に似るのみであり、したがって、より少ない帯域幅を必要とする。この特徴を有するいくつかの例のコーデックは、AMR NB(Adaptive Multi−Rate Narrowband)およびEVRC(Enhanced Variable Rate CODEC)である。AMR NBが、DTXを使用し、EVRCが、可変レート(VBR)を使用し、レート決定アルゴリズム(Rate Determination Algorithm)(RDA)が、VAD(ボイス活動検出(voice activity detection))判断に基づいて、フレームごとに使用すべきデータレートを判断することに留意されたい。
高品質DTX動作のために、すなわち劣化した音声品質なしで、入力信号内の音声の期間を検出することが重要であり、この検出は、DTXとRDAとの両方で使用されるボイス活動検出器(VAD)によって行われる。音声が、ボイスとも呼ばれることに留意されたい。図1に、一般化されたVAD 180の概略ブロック図を示し、このVAD 180は、入力として、実施態様に応じて5〜30msのデータフレームに分割された入力信号100をとり、出力160としてVAD判断を行う。すなわち、VAD判断160は、フレームが音声または雑音を含むかどうかのフレームごとの判断である。一般的なVAD 180は、サブバンドエネルギ推定値を提供する背景エスティメータ130と、特徴サブバンドエネルギを提供する特徴エクストラクタ120とを含む。フレームごとに、一般的なVAD 180は、特徴を計算し、アクティブフレームを識別するために、現在のフレームの特徴(1つまたは複数)は、特徴が背景信号についてどのように「見える」のかの推定値と比較される。
主判断「vad_prim」150は、主ボイス活動検出器140によって作られ、基本的に、現在のフレームの特徴と前の入力フレームから推定された背景特徴との比較にすぎず、ここで、しきい値より大きい差は、アクティブ主判断を引き起こす。ハングオーバ追加ブロック170は、最終判断「vad_flag」160を形成するために、過去の主判断に基づいて主判断を拡張するのに使用される。ハングオーバを使用する理由は、主に、音声バーストの音声中および後部のクリッピングの危険性の低減/除去にある。しかし、ハングオーバを使用して、音楽楽節内のクリッピングを避けることもできる。動作コントローラ110は、入力信号の特性に従って、主検出器のしきい値(1つまたは複数)およびハングオーバの長さを調整することができる。
VAD検出に使用できる複数の異なる特徴がある。最も基本的な特徴は、フレームエネルギを調べ、これをしきい値と比較して、そのフレームが音声であるか否かを判断することである。この方式は、SNRが高い条件については適度によく働くが、低いSNR(信号対雑音比)のケースについてはそうではない。低いSNRのケースでは、音声信号および雑音信号の特性を比較する他の測定基準を、その代わりに使用しなければならない。リアルタイム実施態様について、VAD機能性に関する追加の要件は、計算の複雑さであり、この計算の複雑さは、標準コーデック、たとえばAMR NB、AMR WB(Adaptive Multi−Rate Wideband)、EVRC、およびG.718(ITU−T勧告埋め込みスケーラブル音声およびオーディオコーデック)でのサブバンドSNR VADの周波数表現に反映されている。これらの例のコーデックは、さまざまな形のしきい値適合をも使用する。一般に、SNR推定にも使用される背景レベル推定値および音声レベル推定値を、判断フィードバックまたは更新用の独立副VADに基づくものとすることができる。どちらの場合でも、VAD=0は、入力信号が雑音と推定されると解釈されなければならず、VAD=1は、入力信号が音声と推定されると解釈されなければならない。レベル推定値に関するもう1つのオプションは、それぞれ背景および音声を追跡するのに最小入力エネルギおよび最大入力エネルギを使用することである。入力雑音の変動性について、スライディング時間ウィンドウにまたがる前のフレームの分散を計算することが可能である。もう1つの解決策は、負の入力SNRの量を監視することである。しかし、これは、負のSNRが入力雑音の変化に起因してのみ生じるという仮定に基づく。前のフレームのスライディング時間ウィンドウは、指定された個数の前のフレームについて注目する変数(フレームエネルギまたはサブバンドエネルギ)を有するバッファを作成することを暗示する。新しいフレームが到着する時に、バッファは、バッファから最も古い値を除去することと、最も新しい値を挿入することとによって更新される。
非定常雑音は、すべてのVADにとって、特に低いSNRの条件の下で、困難となる可能性があり、この低いSNRの条件は、システムの観点から、実際の音声と比較してより高いVAD活動と容量の低下とをもたらす。すなわち、音声を含まないフレームが、音声を含むと識別される。非定常雑音のうちで、VADが扱うのが最も困難な雑音は、バブル雑音であり、その理由は、その特性が、VADが検出するように設計された音声信号に相対的に近いことにある。バブル雑音は、通常、前景話者の音声レベルに対するSNRと背景話者の数との両方の特徴があり、主観的評価で使用される一般的定義は、バブルが40人以上の背景話者を有しなければならないこととなる。基本的な動機づけは、バブルについて、バブル雑音に含まれる話者の誰にも追従することが可能であってはならないことであり、これは、バブル話者の誰もが理解できるものになってはならないことを暗示する。バブル雑音の話者の数の増加に伴って、バブル雑音がより静止的になることにも留意されたい。背景に1人(または2〜3人)の話者だけがいる状態で、これらの話者は、通常、干渉する話者(1つまたは複数)と呼ばれる。さらなる問題になる点は、バブル雑音が、VADアルゴリズムが抑制してはならないある音楽に非常に似たスペクトル変化特性を有する可能性があることである。
前に述べたVAD解決策AMR NB/WB、EVRC、およびG.718には、いくつかのケースで既に適度なSNR(20dB)でバブル雑音に関する変化する度合の問題がある。その結果、DTXを使用することからの仮定される容量利益を実現できないことになる。実際の携帯電話システムでは、15〜20dB SNRでの適度なDTX/VBR動作を要求することが十分でない場合があることも、注目されてきた。可能な場合には、雑音タイプに依存して、5dBまたは0dB下で適度なDTX/VBR動作が望まれる。低い周波数背景雑音について、10〜15dBのSNRゲインを、VAD分析の前に信号を高域フィルタリングすることのみによってVAD機能性について達成することができる。音声に対するバブルの類似性に起因して、入力信号を高域フィルタリングすることによるゲインは非常に少ない。
入力信号が複数のサブバンドに分割され、SNRがバンドごとに判定されるサブバンドSNR原理に基づくVADについて、有意性しきい値(significance threshold)と呼ばれるサブバンドSNR計算での非線形性の導入が、バブル雑音およびオフィス背景雑音などの非定常雑音を伴う条件についてVAD性能を改善できることが示された。
バブルタイプの雑音を含むいくつかのタイプの入力雑音では、G.718が背景雑音の追跡に関して問題を提示していることも、注目されてきた。これは、正確な背景推定が、現在の入力を推定された雑音と比較するすべてのタイプのVADにとって不可欠なため、VADに関する問題を引き起こす。
品質の観点から、フェイルセーフVADを使用することが望ましく、疑わしい場合には、VADは雑音入力ではなく音声入力に信号を送り、これによって余分の活動をより大量に可能にすることが望ましい。これは、システム容量の観点から、ユーザのうちの少数だけが非静止背景雑音を有する状況にある限り、許容できる可能性がある。しかし、非静止環境にあるユーザの数が増加するにつれて、フェイルセーフVADの使用が、システム容量の大幅な損失を引き起こす可能性がある。したがって、非静止環境のより大きいクラスが通常VAD動作を使用して扱われるようにするために、フェイルセーフVAD動作と通常VAD動作との間の限界の押し上げに取り組むことが重要になりつつある。
有意性しきい値の使用によりVAD性能は改善しているが、これにより音声クリッピング、主に低SNR無声音の前端クリッピング、をも引き起こす場合があることが注目されている。
上で示したように、ある形のしきい値適合を使用することが、既に一般的となっている。従来技術から、
VADthr=f(Ntot)、
VADthr=f(Ntot,Esp)、または
VADthr=f(SNR,N
となる例があり、ここで、VADthrは、VADしきい値であり、Ntotは、推定された雑音エネルギであり、Espは、推定された音声エネルギであり、SNRは、推定された信号対雑音比であり、Nは、負のSNRに基づく推定された雑音変化である。
本発明の実施形態の目的は、改善された性能を有するVADを提供する機構を提供することにある。
この目的は、一実施形態に従って、VADしきい値VADthrを総雑音エネルギNtot、SNR推定値、およびNvarの関数とすることによって達成され、ここで、Nvarは、異なるフレームの間のエネルギ変化を示す。
本発明の実施形態の一態様によれば、入力信号のフレームがボイスを含むかどうかを判定するボイス活動検出器での方法が提供される。この方法では、入力信号のフレームが受信され、受信フレームの第1のSNRが判定される。その後、判定された第1のSNRが、適応しきい値と比較される。適応しきい値は、少なくとも雑音レベルの総雑音エネルギ、第2のSNRの推定値、および異なるフレームの間のエネルギ変化に基づく。前記比較に基づいて、受信フレームがボイスを含むかどうかが検出される。
本発明の実施形態のもう1つの態様によれば、ボイス活動検出器が検出される。ボイス活動検出器は、入力信号のフレームがボイスを含むかどうかを判定するボイス活動検出器の一部である主ボイス活動検出器とすることができる。ボイス活動検出器は、入力信号のフレームを受信するように構成された入力セクションを含む。ボイス活動検出器は、受信されたフレームの第1のSNRを判定し、前記判定された第1のSNRを適応しきい値と比較するように構成されたプロセッサをさらに含む。適応しきい値は、少なくとも雑音レベルの総雑音エネルギ、第2のSNRの推定値、および異なるフレームの間のエネルギ変化に基づく。さらに、プロセッサは、前記比較に基づいて、受信フレームがボイスを含むかどうかを検出するように構成される。
さらなる実施形態によれば、Edyn_LPと称するさらなるパラメータが導入され、したがって、VADthrは、少なくとも総雑音エネルギNtot、第2のSNR推定値Nvar、およびEdyn_LPに基づいて判定される。Edyn_LPは、受信フレームのエネルギダイナミクスを示す滑らかな入力ダイナミクスの測定値である。この実施形態では、適応しきい値VADthr=f(Ntot,SNR,Nvar,Edyn_LP)となる。
VADthrを選択する時にNvarまたはNvarおよびEdyn_LPを使用する利点は、背景雑音が非静止である場合であってもVADthrの増加を防ぐことが可能となる点にある。したがって、より信頼できるVADしきい値適合関数を達成することができる。特徴を新たに組合せることによって、入力雑音の特性をより的確に表現し、それに応じてしきい値を調整することが可能である。
本発明の実施形態によって改善されたVADしきい値適合を用いると、音声タイプ入力と、音楽セグメントがバブル雑音に見られるスペクトル変化に類似するケースでの音楽タイプ入力とに関する品質を維持しながら、非静止背景雑音および具体的にはバブル雑音の扱いで相当な改善を達成することが可能である。
従来技術による背景推定を用いる一般的なボイス活動検出器(VAD)を示す図である。 本発明の実施形態によるボイス活動検出器を概略的に示す図である。 本発明の実施形態による方法を示す流れ図である。
本発明の実施形態を、後で添付図面を参照してより十分に説明するが、添付図面には、本発明の好ましい実施形態が示されている。しかしながら、この実施形態は多数の異なる態様で実施することが可能で、本明細書に示された実施形態に限定されると解釈すべきではなく、これらの実施形態は、本開示が完全であり、本発明の範囲を当業者に十分に伝えるために提供される。図面では、同様の符号が同様の要素を指す。
さらに、当業者は、本明細書で説明される手段および機能を、プログラムされたマイクロプロセッサもしくは汎用コンピュータに関連して機能するソフトウェアを使用して、および/または特定用途向け集積回路(ASIC)を使用して実施できることを了解するであろう。また、これらの実施形態が、主に方法およびデバイスの形で説明されるが、実施形態を、コンピュータプログラム製品ならびにコンピュータプロセッサおよびプロセッサに結合されたメモリを含むシステムで実施することもでき、このメモリが、本明細書で開示される機能を実行できる1つまたは複数のプログラムを用いて符号化されることを了解されたい。
サブバンドSNRベースのVADについて、入力エネルギの適度な変化であっても、VADに関する偽陽性判断を引き起こす可能性があり、すなわち、VADは入力が雑音のみである時に音声を示す。サブバンドSNRベースのVADは、SNRがサブバンドごとに判定され、組み合わされたSNRがこれらのSNRに基づいて判定されることを暗示する。組み合わされたSNRを、異なるサブバンド上のすべてのSNRの和とすることができる。VADにおけるこの種の感度は、音声セグメントを見逃す確率が低いので、音声品質については良い。しかし、これらのタイプのエネルギ変化は、定常雑音、たとえばバブル雑音で典型的なので、これらの雑音は、過度なVAD活動を引きこす。したがって、本発明の実施形態では、ボイス活動検出のための改善された適応しきい値が導入される。
第1の実施形態では、雑音入力のフレームエネルギの変動性の改善されたエスティメータである雑音変化を示す第1の追加特徴Nvarが導入される。この特徴は、改善された適応しきい値が判定される時に、変数として使用される。異なるサブバンドSNRによって作成される結合SNRとすることができる第1のSNRが、改善された適応しきい値と比較されて、受信フレームが音声または背景雑音のどちらを含むのかが判定される。したがって、第1の実施形態では、VADに関するしきい値適合は、特徴すなわち雑音エネルギNtot、第2のSNR推定値SNR(下の擬似コード内のlp_snrに対応する)、および第1の追加特徴Nvarの関数として行われる。雑音エネルギNtotは、VAD=0の時の背景推定値内のサブバンドエネルギの総エネルギに基づく雑音レベルの推定値であり、第2のSNR推定値は、長期SNR推定値である。長期SNR推定値は、そのSNRが短期SNR推定値より長い時間にわたって測定されることを暗示する。
第2の実施形態では、第2の追加特徴Edyn_LPが導入される。Edyn_LPは、滑らかな入力ダイナミクスの測定値である。したがって、サブバンドSNR VADに関するしきい値適合は、特徴すなわち雑音エネルギNtot、第2のSNR推定値SNR、および新しい特徴雑音変化Nvarの関数として行われる。さらに、第2のSNR推定値が滑らかな入力ダイナミクスの測定値Edyn_lpより小さい場合には、第2のSNRは、適応しきい値の判定に使用される前に、上向きに調整される。
これらの変数に基づいてVAD判断を行うための適応しきい値を判定することによって、高感度VADを使用すべき時および感度を下げなければならない時に、よりよい制御を伴うしきい値適合を改善することが可能である。第1の追加雑音変化特徴は、主に、入力背景信号の非静止に応じて感度を調整するのに使用され、第2の滑らかな入力ダイナミクスの追加特徴は、しきい値適合に使用される第2のSNR推定値を調整するのに使用される。
システムの観点から、非定常雑音の感度を下げる能力は、高いSNRでの明瞭な定常雑音について符号化された音声の高い品質を維持しながら、非定常雑音(たとえば、バブル雑音)に関する過度の活動の低下をもたらす。
次では、諸実施形態に従って適応しきい値の計算に使用される特徴を説明する。
第2の実施形態によれば、改善された適応しきい値の判定に使用される2つの追加特徴がある。第1の追加特徴は、雑音変化エスティメータNvarである。
varは、現在のフレームの全サブバンドエネルギの和である入力エネルギと背景の前のフレームのエネルギとを比較することによって算出される雑音変化推定値である。したがって、雑音変化推定値は、前のフレームのVAD判断に基づく。VAD=0の時には、入力が背景雑音だけからなると仮定され、したがって、変動性を推定するために、新しい測定基準が、フレーム間エネルギ差の非線形関数として形成される。
一方は下から、他方は上からの2つの入力エネルギトラッカEtot_lおよびEtot_hが、滑らかな入力エネルギダイナミクスを示す第2の追加特徴Edyn_lpを作成するのに使用される。
tot_lは、下からのエネルギトラッカである。この値はフレームごとに、一定の小さな値だけ増分される。この新しい値が現在のフレームエネルギより大きい場合には、フレームエネルギが、新しい値として使用される。
tot_hは、上からのエネルギトラッカである。この値はフレームごとに、一定の小さな値だけ削減され、この新しい値が現在のフレームエネルギより小さい場合には、フレームエネルギが、新しい値として使用される。
滑らかな入力ダイナミクスを示すEdyn_lpは、入力信号ダイナミクスの長期推定値すなわち、音声エネルギと雑音エネルギとの間の差の推定値として働く。Edyn_lpは、各フレームの入力エネルギだけに基づく。Edyn_lpは、Etot_hと称する上からのエネルギトラッカすなわち大/最大エネルギトラッカと、Etot_lと称する下からのエネルギトラッカすなわち小/最小エネルギトラッカを使用する。その後、Edyn_lpが、大エネルギトラッカと小エネルギトラッカとの間の差の平滑化された値として形成される。
フレームごとに、エネルギトラッカの間の差が、低域フィルタへの入力として使用される。
dyn_lp=(1−α)Edyn_LP+α(Etot_h−Etot_l
まず、フレームエネルギ差の絶対値が、現在のフレームおよび最後のフレームに基づいて計算される。VAD=0の場合には、現在の変化推定値が、まず、一定の小さな値を使用して減らされる。
現在のエネルギ差が、現在の変化推定値より大きい場合には、新しい値は、現在の変化推定値がフレームごとに固定された定数をこえて増やしてはならないという条件を伴って、現在の変化推定値を置換する。
ここで図2に移ると、本発明の実施形態を実施できるボイス活動検出器200が示されている。この実施形態では、ボイス活動検出器200は、主ボイス活動検出器によって例示される。ボイス活動検出器200は、入力信号を受け取る入力セクション202と、ボイス活動検出判断を出力する出力セクション205とを含む。さらに、プロセッサ203が、VAD内に含まれ、メモリ204を、ボイス活動検出器200内に含めることもできる。メモリ204は、ソフトウェアコード部分と、以前の雑音レベルおよび音声レベルに関するヒストリ情報とを格納することができる。プロセッサ203は、1つまたは複数の処理ユニットを含むことができる。
VADが主VADによって例示される時に、主ボイス活動検出器の入力セクション202への入力信号201は、現在の入力フレームのサブバンドエネルギ推定値、図1に示された背景エスティメータからのサブバンドエネルギ推定値、長期雑音レベル、長期SNR計算用の長期音声レベル、および図1の特徴エクストラクタ120からの長期雑音レベル変化である。長期音声レベルおよび長期雑音レベルは、VADフラグを使用して推定される。VAD==0の時には、長期雑音推定値が、総雑音Ntot値の平滑化を使用して推定される。同様に、長期音声レベルは、VAD==1の時に、現在の入力フレームの総サブバンドエネルギに基づくEtot(入力フレームの総エネルギ)の平滑化を使用して更新される。
したがって、ボイス活動検出器200は、VAD判断を行うために受信したフレームの第1のSNRと適応しきい値とを比較するように構成されたプロセッサ203を含む。プロセッサ203は、一実施形態に従って、第1のSNR(snr_sum)を判定するように構成され、第1のSNRは、入力サブバンドエネルギレベルを背景エネルギレベルによって除算することによって形成される。したがって、VAD活動を判定するのに使用される第1のSNRは、たとえば異なるサブバンドSNRを加算することによって、異なるサブバンドSNRによって作成される結合SNRである。
適応しきい値は、特徴すなわち、第1の実施形態では雑音エネルギNtot、第2のSNRの推定値(SNR)、および第1の追加特徴Nvarの関数である。第2の実施形態では、適応しきい値を判定する時に、Edyn_lpも考慮に入れられる。第2のSNRは、例示される実施形態では、複数のフレームにまたがって測定された長期SNR(lp_snr)である。
さらに、プロセッサ203は、第1のSNRと適応しきい値との間の比較に基づいて、受信したフレームがボイスを含むかどうかを検出するように構成される。この判断を、主判断vad_prim 206と称し、この判断は、出力セクション205を介してハングオーバ追加に送られる。VADは、最終VAD判断を行う時にvad_prim 206を使用することができる。
さらなる実施形態によれば、プロセッサ203は、第2のSNRの現在の推定値が滑らかな入力ダイナミクスの測定値より小さい場合に、受信したフレームの第2のSNRの推定値を上向きに調整するように構成され、ここで、滑らかな入力ダイナミクスの測定値は、受信したフレームのエネルギダイナミクスを示す。
実施形態の詳細な説明がこれに続く。この説明では、G.718コーデック(ITU−T、「Frame error robust narrowband and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s」、ITU−T G.718、2008年6月でさらに説明される)が、この説明の基礎として使用される。
パラメータの説明を以下に示す。
Figure 2013508773
本発明の一態様によれば、入力信号のフレームがボイスを含むかどうかを判定するボイス活動検出器200内の方法は、図3の流れ図に示されているように提供される。この方法は、第1ステップ301で、入力信号のフレームを受信することと、受信したフレームの第1のSNRを判定すること302とを含む。第1のSNRを、異なるサブバンドの組み合わされたSNR、たとえば異なるサブバンドのSNRの和とすることができる。判定された第1のSNRは、適応しきい値と比較され303、ここで、適応しきい値は、第1の実施形態では、少なくとも総雑音エネルギNtot、第2のSNRの推定値SNR(lp_snr)、および第1の追加特徴Nvarに基づく。第2の実施形態では、適応しきい値を判定する時に、Edyn_lpも考慮に入れられる。第2のSNRは、例示される実施形態では、複数のフレームにまたがって計算された長期SNRである。さらに、前記比較に基づいて、受信したフレームがボイスを含むかどうかを検出する304。
本発明の実施形態によれば、受信したフレームで判定された第1のSNRは、受信したフレームの異なるサブバンドの結合SNRである。上の表に従ってsnr_sumとも称する第1の結合SNRを、
Figure 2013508773

として計算することができる。
しきい値を上で例示したsnr_sumに適用できるようになる前に、しきい値を、現在の入力条件および長期SNRに基づいて計算しなければならない。この例では、しきい値適合が、従来技術に従う長期SNR(lp_snr)のみに依存することに留意されたい。
Figure 2013508773
長期音声レベルおよび長期雑音レベルは、次のように計算される
Figure 2013508773
長期音声エネルギおよびフレームカウンタの初期化
Figure 2013508773
本発明の実施形態は、従来技術で使用される特徴と本発明の実施形態と共に導入される追加特徴との両方に基づくVADしきい値適合の改善された論理を使用する。次では、例の実施態様が、上で説明した基礎の擬似コードの変更として与えられる。
例にすぎないが、この説明で使用されるしきい値およびシステムパラメータには複数の定数があることに留意されたい。しかし、さまざまな入力信号に関するさらなる調整も、本発明の実施形態の範囲に含まれる。
上で述べたように、第2の実施形態は、新しい特徴すなわち、第1の追加特徴雑音変化Nvarと、滑らかな入力エネルギダイナミクスを示す第2の追加特徴Edyn_LPとを導入する。下の擬似コードでは、NvarがEtot_v_hと表され、Edyn_LPがsign_dyn_lpと表される。信号ダイナミクスsign_dyn_lpは、下のEtot_lおよび上のEtot_hから入力エネルギを追跡することによって推定される。その後、低域フィルタへの入力値して差分を使用して、平滑化された信号ダイナミクス測定値sign_dyn_lpを得る。実施形態をさらに明瞭にするために、太字で記述された擬似コードは、実施形態の新しい特徴に関係し、他の擬似コードは、従来技術に関係する。
Figure 2013508773
雑音分散推定は、フレームの間の絶対エネルギ変化すなわちフレームの間の瞬間エネルギ変化の絶対値を測定するEtot_vを使用して入力総エネルギから(log領域で)行われる。特徴Etot_v_hが、フレームごとに一定の小さな値0.2という最大値を増やすのみのために制限されることに留意されたい。さらに、変数Etot_lastは、前のフレームのエネルギレベルである。vad_flag==0である場合に、本発明の実施形態に従って音声バーストの終わりでの大きいエネルギ低下を防ぐために、最後のフレームを使用することも可能である。
Figure 2013508773
varとも表されるEtot_v_hは、入力信号の特徴を表すのに使用される、フレームの間のレベル変化の控えめな推定値を提供する特徴である。したがって、Etot_v_hは、推定値がどの程度急速に増加できるのかに関する制限と共に、雑音フレームに関するフレーム間のエネルギ変化のエンベロープ追跡の推定値を記述する。
実施形態によれば、フレームあたりの平均SNRは、次の形で実施できる有意性しきい値の使用を用いて質を高められる。
Figure 2013508773
この実施態様では、長期音声レベルおよび長期雑音レベルの推定値も、より正確なレベルのために改善された。音声レベルの初期化も、改善された。
初期化
Figure 2013508773
長期音声レベルおよび長期雑音レベルの推定
Figure 2013508773
2つの主要な変更が、本発明の実施形態によって導入される。第1の変更は、長期雑音レベルが必ず更新されることである。これは、VAD=1の場合であっても背景雑音推定値を下向きに更新できるので、動機づけられる。第2の変更は、長期音声レベル推定値が増加するレベルの場合により迅速な追跡を可能にすることであり、より迅速な追跡は、lp_speech推定値がVAD判断独立音声レベル推定値であるEtot_hより大きい場合に限って下向き調整についても可能となる。
実施形態による長期レベル推定値に関するこの新しい論理を用いて、雑音入力だけを用いる基本的な仮定は、SNRが低いことである。しかし、より迅速な追跡を用いて、入力音声は、より正しい長期レベル推定値を、また、それによってより良いSNR推定値を迅速に得る。
VADしきい値適合の改善された論理は、既存の特徴と新しい特徴との両方に基づく。既存の特徴SNR(lp_snr)は、次の例の実施態様で示されるように入力雑音変動(Etot_v_h)および入力雑音レベル(lp_noise)に関する新しい特徴によって補完され、長期音声レベル推定値と長期雑音レベル推定値と(lp_speech、lp_noise)の両方も、上で説明したように改善されていることに留意されたい。
Figure 2013508773
上の擬似コードの第1ブロックは、平滑化された入力エネルギダイナミクス測定値sign_dyn_lpがどのように使用されるのかを示す。現在のSNR推定値が平滑化された入力エネルギダイナミクス測定値sign_dyn_lpより小さい場合には、使用されるSNRは、一定の値だけ増やされる。しかし、変更されたSNR値は、平滑化された入力エネルギダイナミクス測定値sign_dyn_lpより大きくなることができない。
上の擬似コードの第2ブロックは、新しい特徴Etot_v_hおよびしきい値適合に使用されるsign_dyn_lpに依存するlp_snrに基づく改善されたVADしきい値適合を示す。
示される結果は、異なるタイプおよびSNRの背景雑音と明瞭な音声(レベル−26dBov)との混合の評価に基づく。明瞭な音声入力について、ハングオーバを全く伴わずに音声の活動値を得るためにフレームエネルギの固定されたしきい値を使用することが可能であり、このケースでは、しきい値は51%であった。
表2は、改善の降順で初期評価結果を示す
Figure 2013508773
この結果からわかるように、変更の組み合わせは、バブル雑音との混合の多くおよび5dB自動車雑音に関しては、低下した活動で相当なゲインがあったことを示している。
話者が128人でSNRが15dBのバブル雑音の例も一例あり、評価により活動は増加していることがわかる。2%はさほど大きな増加ではないが、基準の活動及び変更の組み合わせによる活動の双方に関しては、明瞭な音声は51%を下回っていることに留意されたい。したがって、このケースでは、組み合わされた変更での活動の増加が、実際に、基準との比較において混合された内容の主観的品質を改善する可能性がある。
改善がわずかまたは改善がない場合もあるが、これらは妥当なSNR(15および20)に対するものであり、これらの動作点に関しては、はるかに単純なエネルギベースのVADで妥当な性能が得られるであろう。
この表の評価された組合せのうちで、基準に対して妥当な活動となっているのは、15dB SNRでの自動車およびバブル128だけである。バブル64に関しては、51%の明瞭な入力に対して活動は57%で、基準は妥当な動作の境界線上にある。
これを、評価を行った8つの組合せのうちの6つを扱うことができる実施形態と比較することができる。活動が61%に達した組み合わせは、SNRが5dBのバブル64およびSNRが20dBのバブル32であり、ここで、基準に対する改善が30%単位程度であることを指摘しなければならない。
組み合わされた発明は、低いSNRでの自動車雑音についても改善を示し、これは、5dB SNRでの自動車雑音混合物に関する改善によって示され、ここで、基準は、66%活動を生成するが、組み合わされた発明の活動は50%である。
開示された発明の変更および他の実施形態を、前述の説明および関連する図面に提示された教示の利益を有する当業者は思い浮かべるであろう。したがって、本発明の実施形態が、開示された特定の実施形態に限定されてはならず、変更および他の実施形態が、本開示の範囲に含まれることが意図されていることを理解されたい。特定の用語が本明細書で使用される場合があるが、それらの用語は、包括的で記述的な意味でのみ使用され、限定のためには使用されない。

Claims (13)

  1. 入力信号のフレームがボイスを含むかどうかを判定するボイス活動検出器での方法であって、
    前記入力信号のフレームを受信すること(301)と、
    前記受信したフレームの第1信号対雑音比SNRを判定すること(302)と、
    前記判定された第1のSNRを適応しきい値と比較すること(303)であって、前記適応しきい値は、少なくとも雑音レベルの総雑音エネルギ、第2のSNRの推定値、および異なるフレームの間のエネルギ変化に基づく、比較を行うこと(303)と、
    前記比較に基づいて、前記受信したフレームがボイスを含むかどうかを検出すること(304)と
    を含む方法。
  2. 前記受信したフレームの前記判定された第1のSNRは、前記受信したフレームの異なるサブバンドの組み合わされたSNRである、請求項1に記載の方法。
  3. 有意性しきい値は、前記組み合わされた第1のSNRを判定するのに使用される、請求項2に記載の方法。
  4. 異なるフレームの間の前記エネルギ変化は、前記受信したフレームと雑音を含む最後に受信したフレームとの間のエネルギ変化である、請求項1ないし3のいずれか一項に記載の方法。
  5. 前記受信したフレームの前記第2のSNRの前記推定値は、複数のフレームにまたがって測定された長期SNR推定値である、請求項1ないし4のいずれか一項に記載の方法。
  6. 前記受信したフレームの前記第2のSNRの前記推定値は、前記第2のSNRの現在の推定値が滑らかな入力ダイナミクスの測定値より小さい場合に上向きに調整され、前記滑らかな入力ダイナミクスの測定値は、前記受信したフレームのエネルギダイナミクスを示す、請求項5に記載の方法。
  7. 入力信号のフレームがボイスを含むかどうかを判定するボイス活動検出器(200)であって、前記入力信号のフレームを受信するように構成された入力セクション(202)と、前記受信したフレームの第1信号対雑音比SNRを判定し、該判定された第1のSNRを適応しきい値と比較するように構成されたプロセッサとを含み、該適応しきい値が少なくとも雑音レベルの総雑音エネルギ、第2のSNRの推定値、および異なるフレームの間のエネルギ変化に基づいていて、前記比較に基づいて前記受信したフレームがボイスを含むかどうかを検出するボイス活動検出器(200)。
  8. 前記プロセッサ(203)は、前記受信したフレームの異なるサブバンドの組み合わされたSNRとして前記受信したフレームの前記第1のSNRを判定するように構成される、請求項7に記載のボイス活動検出器(200)。
  9. 前記プロセッサ(203)は、前記組み合わされた第1のSNRを判定するのに有意性しきい値を使用するように構成される、請求項8に記載のボイス活動検出器(200)。
  10. 異なるフレームの間の前記エネルギ変化は、前記受信したフレームと雑音を含む最後に受信したフレームとの間のエネルギ変化である、請求項7ないし9のいずれか一項に記載のボイス活動検出器(200)。
  11. 前記受信したフレームの前記第2のSNRの前記推定値は、複数のフレームにまたがって測定された長期推定値である、請求項7ないし10のいずれか一項に記載のボイス活動検出器(200)。
  12. 前記プロセッサ(203)は、前記受信したフレームの前記第2のSNRの現在の推定値が滑らかな入力ダイナミクスの測定値より小さい場合に、前記第2のSNRの前記推定値を上向きに調整するように構成され、前記滑らかな入力ダイナミクスの測定値は、前記受信したフレームのエネルギダイナミクスを示す、請求項11に記載のボイス活動検出器(200)。
  13. 前記ボイス活動検出器は、主ボイス活動検出器である、請求項7ないし12のいずれか一項に記載のボイス活動検出器(200)。
JP2012535163A 2009-10-19 2010-10-18 音声エンコーダの方法およびボイス活動検出器 Pending JP2013508773A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25296609P 2009-10-19 2009-10-19
US61/252,966 2009-10-19
PCT/SE2010/051117 WO2011049515A1 (en) 2009-10-19 2010-10-18 Method and voice activity detector for a speech encoder

Publications (1)

Publication Number Publication Date
JP2013508773A true JP2013508773A (ja) 2013-03-07

Family

ID=43900544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012535163A Pending JP2013508773A (ja) 2009-10-19 2010-10-18 音声エンコーダの方法およびボイス活動検出器

Country Status (8)

Country Link
US (2) US9401160B2 (ja)
EP (1) EP2491548A4 (ja)
JP (1) JP2013508773A (ja)
CN (1) CN102804261B (ja)
AU (1) AU2010308598A1 (ja)
CA (1) CA2778343A1 (ja)
IN (1) IN2012DN03323A (ja)
WO (1) WO2011049515A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170065488A (ko) * 2014-10-01 2017-06-13 삼성전자주식회사 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3726530B1 (en) * 2010-12-24 2024-05-22 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
BR112015014212B1 (pt) 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio
CN111145767B (zh) * 2012-12-21 2023-07-25 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
CN112992188B (zh) * 2012-12-25 2024-06-18 中兴通讯股份有限公司 一种激活音检测vad判决中信噪比门限的调整方法及装置
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
BR112016014104B1 (pt) 2013-12-19 2020-12-29 Telefonaktiebolaget Lm Ericsson (Publ) método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador
CN103854662B (zh) * 2014-03-04 2017-03-15 中央军委装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN107293287B (zh) 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
WO2016007528A1 (en) * 2014-07-10 2016-01-14 Analog Devices Global Low-complexity voice activity detection
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
PL3309784T3 (pl) 2014-07-29 2020-02-28 Telefonaktiebolaget Lm Ericsson (Publ) Szacowanie szumu tła w sygnałach audio
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US20160150315A1 (en) * 2014-11-20 2016-05-26 GM Global Technology Operations LLC System and method for echo cancellation
WO2016114788A1 (en) * 2015-01-16 2016-07-21 Hewlett Packard Enterprise Development Lp Video encoder
CN110895930B (zh) * 2015-05-25 2022-01-28 展讯通信(上海)有限公司 语音识别方法及装置
US9413423B1 (en) * 2015-08-18 2016-08-09 Texas Instruments Incorporated SNR calculation in impulsive noise and erasure channels
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
JP6759898B2 (ja) * 2016-09-08 2020-09-23 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
KR102512614B1 (ko) * 2018-12-12 2023-03-23 삼성전자주식회사 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
CN111048119B (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备
US20230162754A1 (en) * 2020-03-27 2023-05-25 Dolby Laboratories Licensing Corporation Automatic Leveling of Speech Content
TWI756817B (zh) * 2020-09-08 2022-03-01 瑞昱半導體股份有限公司 語音活動偵測裝置與方法
CN114283840B (zh) * 2021-12-22 2023-04-18 天翼爱音乐文化科技有限公司 一种指令音频生成方法、系统、装置与存储介质
CN114566152B (zh) * 2022-04-27 2022-07-08 成都启英泰伦科技有限公司 一种基于深度学习的语音端点检测方法
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2002366174A (ja) * 2001-06-01 2002-12-20 Telogy Networks Inc G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
WO2007091956A2 (en) * 2006-02-10 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) A voice detector and a method for suppressing sub-bands in a voice detector
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
WO2009000073A1 (en) * 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
EP1271470A1 (en) * 2001-06-25 2003-01-02 Alcatel Method and device for determining the voice quality degradation of a signal
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP2008546341A (ja) * 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
JP4568371B2 (ja) * 2006-11-16 2010-10-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
CN101681619B (zh) * 2007-05-22 2012-07-04 Lm爱立信电话有限公司 改进的话音活动性检测器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330598A (ja) * 1999-05-18 2000-11-30 Mitsubishi Electric Corp 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2002366174A (ja) * 2001-06-01 2002-12-20 Telogy Networks Inc G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
WO2007091956A2 (en) * 2006-02-10 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) A voice detector and a method for suppressing sub-bands in a voice detector
WO2008148323A1 (fr) * 2007-06-07 2008-12-11 Huawei Technologies Co., Ltd. Procédé et dispositif de détection d'activité vocale
JP2010529494A (ja) * 2007-06-07 2010-08-26 華為技術有限公司 音声活動を検出するための装置および方法
WO2009000073A1 (en) * 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification
JP2010530989A (ja) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170065488A (ko) * 2014-10-01 2017-06-13 삼성전자주식회사 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
KR102475869B1 (ko) * 2014-10-01 2022-12-08 삼성전자주식회사 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치

Also Published As

Publication number Publication date
CN102804261A (zh) 2012-11-28
EP2491548A4 (en) 2013-10-30
IN2012DN03323A (ja) 2015-10-23
US9401160B2 (en) 2016-07-26
AU2010308598A1 (en) 2012-05-17
WO2011049515A1 (en) 2011-04-28
EP2491548A1 (en) 2012-08-29
US20120215536A1 (en) 2012-08-23
US20160322067A1 (en) 2016-11-03
CN102804261B (zh) 2015-02-18
CA2778343A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP2013508773A (ja) 音声エンコーダの方法およびボイス活動検出器
US11361784B2 (en) Detector and method for voice activity detection
US11900962B2 (en) Method and device for voice activity detection
JP5712220B2 (ja) 音声活動検出のための方法および背景推定器
CN112927724B (zh) 用于估计背景噪声的方法和背景噪声估计器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140702

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150707