JP2015207002A - 音声区間検出器及び方法 - Google Patents

音声区間検出器及び方法 Download PDF

Info

Publication number
JP2015207002A
JP2015207002A JP2015100483A JP2015100483A JP2015207002A JP 2015207002 A JP2015207002 A JP 2015207002A JP 2015100483 A JP2015100483 A JP 2015100483A JP 2015100483 A JP2015100483 A JP 2015100483A JP 2015207002 A JP2015207002 A JP 2015207002A
Authority
JP
Japan
Prior art keywords
vad
determination
signal
external
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015100483A
Other languages
English (en)
Other versions
JP6096242B2 (ja
Inventor
マルチン セールステッド,
Sehlstedt Martin
マルチン セールステッド,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43900545&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2015207002(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of JP2015207002A publication Critical patent/JP2015207002A/ja
Application granted granted Critical
Publication of JP6096242B2 publication Critical patent/JP6096242B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

【課題】非定常背景雑音を処理する改善された音声区間検出器を提供する。
【解決手段】音声区間検出器(VAD)199は、受信した入力信号100における音声区間を検出するように構成されており、一次VAD判定を示すVADの一次音声区間検出部140からの信号と、少なくとも1つの外部VAD198からの音声区間判定を示す少なくとも1つの外部VADからの少なくとも1つの信号と、を受信する入力部と、受信した信号において示された音声区間判定同士を組み合わせて修正一次VAD判定を生成する組合せ論理145と、修正一次VAD判定をVADのハングオーバ付加部170に出力する出力部とを有する。
【選択図】図2

Description

本発明は、方法及び音声区間検出器に関し、特に、例えば非定常背景雑音を処理する改善された音声区間検出器に関する。
会話音声に対して使用される音声符号化方式において、符号化の効率を向上するために間欠送信(DTX)を使用することは一般的である。これは、1人が話している間に相手が聞いている等、会話音声が音声内に埋め込まれた多くの無音区間を含むためである。そのため、DTXを用いる場合、音声符号器は平均約50%の時間のみアクティブであり、残りの時間はコンフォートノイズを使用して符号化することができる。この特徴を有するコーデックのとしては例えばAMR NB(適応マルチレート狭帯域)がある。
高品質、すなわち音質が劣化しないDTX動作のためには、これは音声区間検出器(VAD)により入力信号における音声区間を検出することが重要である。図1に一般的なVAD180の概略ブロック図を示す。VAD180では、実施内容に依存して5〜30msのデータフレームに分割された入力信号100を入力として受信し、出力160としてVAD判定を生成する。VAD判定160は、フレームが音声を含むか又は雑音を含むかを示すフレーム毎の判定である。
VAD180は、サブバンドエネルギ推定値を提供する背景推定部130と、特徴であるサブバンドエネルギを提供する特徴抽出部120とを含む。VADは、フレーム毎に特徴を計算し、音声区間フレームを識別するために、現在のフレームの特徴が、その特徴が背景信号に対してどのように「見える」かを示す推定値と比較される。
一次音声区間検出部140により、一次判定「vad_prim」150が作成される。基本的に、これは現在のフレームの特徴と(前の入力フレームから推定される)背景特徴との単なる比較であり、差分が閾値より大きい場合に一次判定は音声区間(active)とされる。ハングオーバ付加部170は、過去の一次判定に基づいて一次VADからのVAD判定を拡張して最終VAD判定「vad_flag」160を形成するために使用される。すなわち、前のVAD判定が更に考慮される。ハングオーバを使用する理由は、主に、音声バーストにおいて音声の中間部や終端部をクリッピングしてしまうリスクを低減/回避するためである。また、ハングオーバは楽曲中の節のクリッピングを回避するためにも使用可能である。動作制御部110は、入力信号の特性に従って、一次音声区間検出部に対する閾値及び付加するハングオーバの長さを調整してもよい。
VADにおける検出に使用できる多くの異なる特徴が存在する。1つの特徴は、フレームエネルギーのみに注目し、これと閾値とを比較してフレームが音声を含むか否かを判定することである。この方式は、SNRが良好である状態に対しては十分良好に機能するが、低SNRの場合は十分に機能しない。低SNRの場合、音声信号及び雑音信号の特性を比較する他の測定基準を代わりに使用する必要がある。リアルタイム実装の場合、VADの機能性に更に求められる条件は演算量であり、これは、例えばAMR NB、AMR WB(適応マルチレート広帯域)及びG.718(ITU−T勧告のエンベデッドスケーラブル音声/オーディオコーデック)などの標準仕様コーデックにおけるサブバンドSNR VADの周波数表現に反映される。
サブバンドSNRベースのVADは異なるサブバンドのSNRを測定基準に組み合わせ、これが一次判定に対する閾値と比較される。サブバンドベースのVADにおいては、SNRはサブバンド毎に判定され、総合SNRがそれらのSNRに基づいて判定される。総合SNRは異なるサブバンドにおける全てのSNRの和であってもよい。異なる特性を有する複数の特徴が一次判定に使用される既知の解決策が更に存在する。しかし、双方の例において、入力信号の状態に適応させてハングオーバを付加して最終判定を形成するために使用される一次判定は1つしか存在しない。また、多くのVADは無音検出に対する入力エネルギー閾値を有する。すなわち、十分に低い入力レベルの場合、一次判定は非音声状態とされる。
サブバンドSNRの原理に基づくVADに対して、有意閾値と呼ばれるサブバンドSNRの計算への非線形性の導入により、非定常雑音(バブルノイズ、オフィス雑音)を有する状態に対するVADの性能を向上できることが示されている。
特に低SNR状態において、非定常雑音は全てのVADにとって処理が困難であり、その結果、実際の音声と比較してVADのアクティビティが高くなり、システムの観点から能力が低下する。非定常雑音のうち、最も困難なのはバブルノイズである。これは、バブルノイズの特性が、VADが検出するように設計される音声信号にバブルノイズ比較的類似しているためである。バブルノイズは、通常、前景話者の音声レベルに対するSNR及び背景話者の数の双方により特徴付けられる。(主観評価において使用される)一般的な定義では、バブルノイズバブルノイズは40人以上の背景話者を有する必要があり、バブルノイズであるためには、基本的にバブルノイズに含まれるどの話者も追跡できてはならない(バブル話者はいずれも明確にならない)。更に、バブルノイズの話者数が増加すると、それはより定常になる。背景に存在する話者が1人(又は数人)のみである場合、通常は当該話者を干渉話者(interfering talker(s))と呼ぶ。更なる問題点は、VADアルゴリズムで抑制できない、音楽に非常に類似する振動するスペクトル特性をバブルノイズが有する場合があることである。
前述のVADの解決策であるAMR NB/WB及びG.718では、既に適切なSNR(20dB)であるいくつかの例においてバブルノイズに関する種々の程度の問題が存在する。そのため、DTXの使用によっては想定される能力の改善は、実現できない。また、実際の移動電話システムでは、15〜20dBのSNRにおける適切なDTX動作を必要とするだけでは十分ではない。可能であれば、雑音の種類に依存して最低5dB、更には0dBにおける適切なDTX動作が望まれる。低周波数の背景雑音の場合には、VAD解析の前に信号をハイパスフィルタリングするだけで、VAD機能に対して10〜15dBのSNRの改善を達成できる。バブルノイズと音声とは類似するため、入力信号のハイパスフィルタリングによる改善は非常に少ない。
品質の観点から、フェールセーフVADを使用することが好ましい。これは、VADが処理した音声入力が不確かである場合には余裕をみて多めに音声区間と判定することを許容することが好ましいことを意味する。非定常背景雑音を有する状況に数人のユーザのみが存在する限り、これはシステム能力の観点から許容可能な場合がある。しかし、非定常環境に存在するユーザ数が増加した場合にフェールセーフVADを使用するとシステム能力が大きく損なわれる場合がある。従って、多くの非定常環境が通常のVAD動作を使用して処理されるように通常のVAD動作の領域をフェールセーフVAD動作の領域に対して広げる努力が重要となっている。
有意閾値を使用することによりVADの性能は向上するが、上述のように、それにより、主に低SNRの無声音の前端クリッピングである音声クリッピングが生じる場合がある。
既存の解決策の場合、新しい問題領域が識別されると、既に動作している状態に対するVADの挙動を変化させない既存のVADの新しい調整を見つけることは困難である場合がある。すなわち、新しい問題に対処するために調整を変更することはできても、既知の状態における挙動を変化させずに調整することはできない場合がある。
本発明の実施形態は、非定常背景又は他の発見された問題領域を処理するために既存のVADを再調整するための解決策を提供する。
従って、複数のVADを並行動作させて出力を組み合わせることにより、各VADの限界の影響をそれ程受けずに、異なるVADの長所を利用できる。
過剰に音声区間と判定されてしまうことを低減したい状況で使用される一実施形態において、第1のVADの一次判定は外部VADからの最終判定と論理積により組み合わされる。外部VADは第1のVADより積極的(aggressive)であるのが好ましい。積極的なVADとは、「通常」のVADと比較して音声区間と判定する割合が少なくなるように調整/構成されるVADを意味する。積極的なVADの主な目的は、通常/元のVADと比較して過剰に音声区間と判定されることを低減することである。なお、この積極性は、例えば雑音の種類又はSNRに関する何らかの特定の(又は限られた数の)状態のみに適用されてもよい。
別の実施形態は、過剰に音声区間と判定されることなく音声区間を追加したい状況において使用可能である。本実施形態において、第1のVADの一次判定は外部VADからの一次判定との論理和により組み合わされてもよい。
従って、本発明の実施形態の第1の態様によれば、受信した入力信号における音声区間を検出する音声区間検出器(VAD)における方法が提供される。この方法において、一次VAD判定を示す信号が前記VADの一次音声区間検出部から受信され、少なくとも1つの外部VADからの音声区間判定を示す少なくとも1つの信号が少なくとも1つの外部VADから受信される。前記受信した信号において示された音声区間判定同士が組み合わされて修正一次VAD判定が生成され、この修正一次VAD判定が前記VADのハングオーバ付加部に出力される。
本発明の実施形態の第2の態様によれば、音声区間検出器(VAD)が提供される。VADは、受信した入力信号における音声区間を検出するように構成されており、一次VAD判定を示す前記VADの一次音声区間検出部からの信号と、少なくとも1つの外部VADからの音声区間判定を示す少なくとも前記1つの外部VADからの少なくとも1つの信号とを受信する入力部を有する。VADは更に、前記受信した信号において示された前記音声区間判定同士を組み合わせて修正一次VAD判定を生成するプロセッサと、前記修正一次VAD判定を前記VADのハングオーバ付加部に出力する出力部とを有する。
既存のVADと1つ以上の外部VADとを組み合わせることにより、元のVADの内部状態にあまり影響を及ぼさずに総合的なVADの性能を向上できる。これは、例えばフレーム分類及びコーデックモード選択などの他のコーデック機能に対する必要条件であってもよい。
本発明の実施形態の更なる利点は、複数のVADの使用が通常の動作、すなわち入力信号のSNRが良好である場合の動作に影響を及ぼさないことである。通常のVADの機能が不十分である場合のみ、外部VADはVADの動作範囲を拡張できるようにするべきである。
外部VADが問題を生じる雑音に対して適切に動作する場合には、一実施形態の解決策により、外部VADは第1のVADからの一次判定を覆すことができ、すなわち、背景雑音のみに対して誤って音声区間と判定してしまうことを防止する。
更に、更なる外部VADを追加することにより、過剰に音声区間と判定してしまう量を低減でき、あるいは以前にクリッピングされた更なる音声(又はオーディオ)を検出できる。現在の入力状態に対する組合せ論理の適応は、外部VADによって過剰に音声区間と判定することの増加又は更なる音声クリッピングの導入を防止するために必要とされてもよい。組合せ論理は、通常のVADが適切に動作していないと識別された入力状態(雑音レベル、SNR又は雑音特性〔定常/非定常〕)においてのみ外部VADが使用されるように適応されてもよい。
従来技術に係る背景推定を用いる一般的なVADを示す図。 本発明の実施形態に係る複数のVADの組合せ論理を含む背景推定を用いるVADを示す図。 本発明の実施形態に係る組合せ論理を示す図。 本発明の実施形態に係る方法を示すフローチャート。
以下、本発明の好適な実施形態を示す添付の図面を参照して、本発明の実施形態を詳しく説明する。ただし、実施形態は多くの異なる形態で実施可能であって、本明細書に記載される実施形態に限定されるものとして解釈されるべきではない。これらの実施形態は、本開示が完璧で完全なものとなり且つ本発明の範囲を当業者に完全に理解させるように提供するものである。図面において、同一の参照符号は同一の要素を示すものとする。
また、本明細書で以下に説明する手段及び機能がプログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ/あるいは特定用途向け集積回路(ASIC)を使用して実施可能であることは当業者には理解されよう。また、主に方法及び装置の形態で本実施形態を説明するが、実施形態はコンピュータプログラム、並びにコンピュータプロセッサ及びそれに結合されたメモリを含むシステムで実施可能であり、その場合、メモリは本明細書で開示される機能を実行可能な1つ以上のプログラムを用いて符号化されることが更に理解されるであろう。
図2は、図1と同様に背景推定を用いる第1のVAD199を示す。VADが本発明の第1の実施形態に係る組合せ論理145を更に備える点が異なる。本実施形態において、第1のVADの性能は、ハングオーバ付加部170の前に設けられる組合せ論理145に外部VAD198からの外部vad_flag_HE190を導入することにより向上される。なお、SNRが良好である状態において、外部VAD198が使用される方法は一次音声区間検出部140及びVADの通常の挙動には影響を及ぼさない。第1のVADからの一次判定vad_primと外部VAD198からのvad_flag_HE190で示す最終判定との間の論理積を介して、組合せ論理145においてvad_prim’155で示す新規の一次判定を形成することにより、結果としてVADが過剰に音声区間と判定してしまうことを回避できる。外部VADであるVAD2を同様に概略的に示す図3に第1の実施形態を更に示す。図3を以下に更に説明する。
上述の実施形態に係る外部VADを用いる場合、加法性雑音の種類に対して過剰に音声区間と判定してしまうことを低減できる。これは、外部VADが元のVADからの誤った音声区間信号を防止できるため達成される。過剰に音声区間と判定することとは、VADが背景雑音のみを有するフレームを音声区間であると判定することを意味する。通常、この過剰に音声区間と判定してしまうのは、1)音声に類似する非定常の雑音(バブル)、あるいは2)非定常雑音又は他の誤検出された音声に類似する入力信号が存在するため背景雑音の推定が適切に動作していない場合の結果である。
第2の実施形態によれば、組合せ論理は、第1のVADからの一次判定vad_primと外部VADからのvad_prim_HEで示す一次判定との間の論理和を用いて、vad_prim’で示す新規の一次判定を形成する。このように、第1のVADにより実行された望ましくないクリッピングを補正するために音声区間を追加できる。
外部VAD198を同様に示す図4に第2の実施形態を示す。組合せ論理145は、第1のVAD199の一次VAD140の一次判定vad_prim150と外部VAD198からのvad_prim_he190で示す一次判定との間の論理和を介して、vad_prim’155で示す一次判定を形成する。そのため、外部VAD198は第1のVAD199が生じさせたクリッピングを回避するために使用可能である。従って、外部VAD198は第1のVAD199が生じさせた誤りを補正できる。これは、第1のVAD199で検出されなかった音声区間が外部VAD198により検出可能であることを意味する。過剰な音声区間の増加を回避するために、外部VADの一次判定を使用するのが有利である。
次に、図2に対応し且つ第3の実施形態を示す図5を参照する。第3の実施形態において、組合せ論理145は、第1のVAD140からの一次判定vad_prim150と外部VADからの一次判定190a及び最終判定190bとの組み合わせにより、vad_prim’155で示す新規の一次判定を形成する。これを図5に示す。これらの3つの判定は、組合せ論理145において論理積及び/又は論理和の何らかの組み合わせを使用することにより組み合わされてもよい。一例として、第1のVAD及び外部VADの一次判定を使用して論理和により組み合わせ、その後、論理積を使用して外部VADの最終判定と組み合わせることができる。その場合、以前にクリッピングされた区間を更に検出できる。
第4の実施形態によれば、2つ以上の外部VADからのVAD判定を組合せ論理に使用して、新規のVad_prim’を形成する。VAD判定は、一次及び/又は最終VAD判定であってもよい。2つ以上の外部VADが使用される場合、これらの外部VADは、第1のVADと組み合わされる前に組合せ可能である。例えば、Vad_prim&(external_vad_1&external_vad_2)である。
本明細書において、VADの一次判定は、一次音声区間検出部により作成された判定を意味する。この判定をVad_prim又はlocalVADと呼ぶ。VADの最終判定は、ハングオーバの付加後にVADにより作成された判定を意味する。本発明の実施形態に係る組合せ論理はVADにおいて導入され、VADのVad_prim及び外部VADからの外部VAD判定に基づいてVad_prim’を生成する。外部VAD判定は、1つ以上の外部VADの一次判定及び/又は最終判定であってもよい。組合せ論理は、第1のVADのVad_prim及び外部VADからの1つ以上のVAD判定に論理積又は論理和を適用することによりVad_prim’を生成するように構成される。
第1のVAD及び外部VADのブロック図である図3及び図4を参照する。ブロック図は、実施形態に係る元のVAD(VAD1)及び外部VAD(VAD2)から成る2つのVAD、並びに元のVADにおいて改善されたvad_primを生成する組合せ論理を示す。
図3及び図4に示すように、2つのVADは特徴抽出部を共有する。外部VADは、修正背景更新値及び一次音声区間検出部を使用してもよい。修正背景更新値は、通常の雑音更新のデッドロック回復が減速される背景雑音更新戦略による変更を含み、雑音をより適切に追跡するための雑音推定を可能にする雑音更新の別の可能性を追加する。修正された一次音声区間検出部は、入力のエネルギー変化に基づいて有意閾値及び更新された閾値の適応を追加してもよい。これらの2つの変更は並行して使用されてもよい。
従来技術において、以下に示すように、VAD1と示す第1のVADに対する一次判定を作成するために、可変SNR和snr_sumは計算された閾値thr1と比較され、入力信号が音声区間(Vad_prim=1に対応するlocalVAD=1)であるか又は雑音(Vad_prim=0に対応するlocalVAD=0)であるかが判定される。
localVAD=0;
if(snr_sum>thr1){
localVAD=1;
}
本発明の実施形態に係る組合せ論理を使用する場合、論理積は、第1のVADからのlocalVAD及び外部VADからのvad_flag_heと示す最終判定に適用される。すなわち、組合せ論理を使用する場合、一次音声区間検出部は第1のVADからのlocalVAD及び外部VADからのvad_flag_heの双方がアクティブである場合のみアクティブになることが許可される。すなわち、以下の通りである。
localVAD=0;
if(snr_sum>thr1&&vad_flag_he){
localVAD=1;
}
識別し易くするために、変更部分に下線を引いた。vad_flag_heの値が必要とされるため、ハングオーバの付加を含む外部VADのコードは修正VAD1判定を生成する前に実行される必要がある。
第5の実施形態においては、組合せ論理は信号に適応するように構成され、すなわち、現在の入力信号の特性に依存して組合せ論理を変更するように構成される。組合せ論理は推定SNRに依存してもよい。例えば、良好な状態では元のVADのみが使用されるように組合せ論理が構成される場合、更に積極的な第2のVADを使用してもよい。雑音状態の場合、積極的なVADは実施形態1と同様に使用される。このように適応される場合、積極的なVADは、SNRが良好である状態では音声クリッピングを生じなくなるが、雑音状態ではクリッピングされた音声フレームは雑音でマスキングされると想定される。
本発明の複数の実施形態の1つの目的は、非定常背景雑音に対して過剰に音声区間と判定してしまうことを低減することである。これは、複数の符号化された信号の音声区間を比較することによる客観的尺度を使用して測定可能である。しかし、この測定基準は、音声区間の減少が音声に影響を及ぼし始める時点、すなわち、音声フレームが背景雑音に置換される時点を示すものではない。なお、背景雑音を有する音声において、全ての音声フレームが可聴であるわけではない。いくつかの例において、実際、音声フレームは可聴劣化を引き起こさずに雑音に置換されてもよい。このため、いくつかの修正区分の主観評価を使用することも重要である。
以下に提示する客観的結果は、異なる雑音環境及び信号対雑音比(SNR)に対する複数言語の異なる音声サンプルに対して、種々の状態における音声と背景雑音との合成に基づくものである。
合成は、異なる雑音サンプル及び異なるSNR状態を用いて作成された。雑音は、非定常背景雑音の代表例である展示会雑音、オフィス雑音及びロビー雑音として分類された。音声及び雑音ファイルは、−26dBovに設定された音声レベル及び10〜30dBの範囲の4つの異なるSNRを用いて合成された。
その後、用意されたサンプルは、従来技術に係る元のVADを用いるコーデック及び本発明の実施形態に係る複合VAD解決策(デュアルVADと示す)を使用するコーデックの双方を使用して処理された。
客観的結果のために、異なるVAD解決策を使用する異なるコーデックにより生成された音声区間を比較した。以下の表に結果を示す。なお、表における音声区間の数値はそれぞれ、トータル120秒のサンプルに対して測定された。音声クリップのレベル調整に使用されたツールによれば、静かな音声ファイルの音声区間は21.9%であると推定された。
Figure 2015207002
結果は、図3に示す本発明の一実施形態により、音声区間が減少することを示している。
一実施形態によれば、VADの組合せ論理における方法は、図7のフローチャートに示されるように提供される。VADは、受信した入力信号における音声区間を検出する。一次VAD判定を示す上記VADの一次音声区間検出部からの信号及び少なくとも1つの外部VADからの音声区間判定を示す少なくとも1つの外部VADからの少なくとも1つの信号が受信される(1101)。受信信号において示された音声区間判定は、修正一次VAD判定を生成するために組み合わされる(1102)。修正一次VAD判定は、最終VAD判定の作成に使用されるために上記VADのハングオーバ付加部に出力される(1103)。
受信信号における音声区間判定は、一次VADからの信号及び少なくとも1つの外部VADからの信号の双方が音声を示す場合にのみ上記VADの修正一次VAD判定が音声を示すように論理積により組み合わされてもよい。
更に、受信信号における音声区間判定は、一次VADからの信号及び少なくとも1つの外部VADからの信号の少なくとも一方の信号が音声を示す場合に上記VADの修正一次VAD判定が音声を示すように論理和により組み合わされてもよい。
少なくとも1つの外部VADからの少なくとも1つの信号は、最終及び/又は一次VAD判定である外部VADからの音声区間判定を示してもよい。
別の実施形態によれば、受信した入力信号における音声区間を検出するように構成されたVADが図6に示すように提供される。VADは、一次VAD判定を示す上記VADの一次音声区間検出部からの信号150及び少なくとも1つの外部VADからの音声区間判定を示す少なくとも1つの外部VADからの少なくとも1つの信号190を受信する入力部502を備える。VADは、修正一次VAD判定を生成するために受信信号において示された音声区間判定を組み合わせるプロセッサ503と、前記VADのハングオーバ付加部に修正一次VAD判定155を出力する出力部505とを更に備える。VADは、履歴情報及び実施形態の方法を実行するソフトウェアコード部分を格納するメモリを更に備えてもよい。なお、上述したように、入力部502、プロセッサ503、メモリ504及び出力部505はVAD内の組合せ論理145において実現されてもよい。
一実施形態によれば、プロセッサ503は、一次VADからの信号及び少なくとも1つの外部VADからの信号の双方が音声を示す場合にのみ上記VADの修正一次VAD判定が音声を示すように論理積により受信信号内の音声区間判定を組み合わせるように構成される。
更なる一実施形態によれば、プロセッサ503は、一次VADからの信号及び少なくとも1つの外部VADからの信号の少なくとも一方の信号が音声を示す場合にのみ上記VADの修正一次VAD判定が音声を示すように論理和により受信信号内の音声区間判定を組み合わせるように構成される。
開示した発明の変形例及び他の実施形態は、前述の説明及び関連する図面において提示された教示の利益を有する当業者により着想されるであろう。従って、本発明の実施形態は開示された特定の実施形態に限定されないこと、並びに、変形例及び他の実施形態は本開示の範囲に含まれることを意図することが理解されるべきである。特定の用語が本明細書において使用されたが、それらは一般的及び説明的な意味で使用したにすぎず、限定するために使用したものではない。
特に低SNR状態において、非定常雑音は全てのVADにとって処理が困難であり、その結果、実際の音声と比較してVADのアクティビティが高くなり、システムの観点から能力が低下する。非定常雑音のうち、最も困難なのはバブルノイズである。これは、バブルノイズの特性が、VADが検出するように設計される音声信号にバブルノイズ比較的類似しているためである。バブルノイズは、通常、前景話者の音声レベルに対するSNR及び背景話者の数の双方により特徴付けられる。(主観評価において使用される)一般的な定義では、バブルノイズは40人以上の背景話者を有する必要があり、バブルノイズであるためには、基本的にバブルノイズに含まれるどの話者も追跡できてはならない(バブル話者はいずれも明確にならない)。更に、バブルノイズの話者数が増加すると、それはより定常になる。背景に存在する話者が1人(又は数人)のみである場合、通常は当該話者を干渉話者(interfering talker(s))と呼ぶ。更なる問題点は、VADアルゴリズムで抑制できない、音楽に非常に類似する振動するスペクトル特性をバブルノイズが有する場合があることである。

Claims (18)

  1. 受信した入力信号の音声区間を検出する音声区間検出器VAD(199)における方法であって、
    一次VAD判定を示す前記VADの一次音声区間検出部からの信号と、少なくとも1つの外部VADからの音声区間判定を示す前記少なくとも1つの外部VADからの少なくとも1つの信号とを受信するステップ(1101)と、
    前記受信した信号において示された前記音声区間判定同士を組み合わせて修正一次VAD判定を生成するステップ(1102)と、
    前記修正一次VAD判定を前記VADのハングオーバ付加部に出力するステップ(1103)と、
    を有することを特徴とする方法。
  2. 前記一次VADからの前記信号及び前記少なくとも1つの外部VADからの前記信号の双方が音声を示す場合にのみ前記VADの前記修正一次VAD判定が音声を示すように、前記受信した信号における前記音声区間判定同士が論理積により組み合わされることを特徴とする請求項1に記載の方法。
  3. 前記一次VADからの前記信号及び前記少なくとも1つの外部VADからの前記信号のうちの少なくとも一方の信号が音声を示す場合に前記VADの前記修正一次VAD判定が音声を示すように、前記受信した信号における前記音声区間判定同士が論理和により組み合わされることを特徴とする請求項1に記載の方法。
  4. 前記外部VADからの音声区間判定を示す前記少なくとも1つの外部VADからの前記少なくとも1つの信号は最終VAD判定であることを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 前記外部VADからの音声区間判定を示す前記少なくとも1つの外部VADからの前記少なくとも1つの信号は一次VAD判定であることを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  6. 前記少なくとも1つの外部VADは単一のVADであることを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. 前記少なくとも1つの外部VADは複数のVADであることを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  8. 入力信号の特性に依存して前記音声区間判定同士が組み合わされることを特徴とする請求項1乃至7のいずれか1項に記載の方法。
  9. 前記入力信号の特性は、推定された信号対雑音比及び背景特性の少なくとも一方を含むことを特徴とする請求項8に記載の方法。
  10. 受信した入力信号の音声区間を検出する音声区間検出器VAD(199)であって、
    一次VAD判定を示す前記VADの一次音声区間検出部からの信号(150)と、少なくとも1つの外部VAD(198)からの音声区間判定を示す前記少なくとも1つの外部VAD(198)からの少なくとも1つの信号(190)とを受信する入力部(502)と、
    前記受信した信号(150、190)において示された前記音声区間判定同士を組み合わせて修正一次VAD判定(155)を生成するプロセッサ(503)と、
    前記修正一次VAD判定を前記VAD(199)のハングオーバ付加部に出力する出力部(505)と、
    を有することを特徴とするVAD(199)。
  11. 前記プロセッサ(503)は、前記一次VADからの前記信号及び前記少なくとも1つの外部VADからの前記信号の双方が音声を示す場合にのみ前記VADの前記修正一次VAD判定が音声を示すように、前記受信した信号における前記音声区間判定同士を論理積により組み合わせることを特徴とする請求項10に記載のVAD(199)。
  12. 前記プロセッサ(503)は、前記一次VADからの前記信号及び前記少なくとも1つの外部VADからの前記信号のうちの少なくとも一方の信号が音声を示す場合に前記VADの前記修正一次VAD判定が音声を示すように、前記受信した信号における前記音声区間判定同士を論理和により組み合わせるように構成されることを特徴とする請求項10に記載のVAD(199)。
  13. 前記外部VADからの音声区間判定を示す前記少なくとも1つの外部VADからの前記少なくとも1つの信号は最終VAD判定であることを特徴とする請求項10乃至12のいずれか1項に記載のVAD(199)。
  14. 前記外部VADからの音声区間判定を示す前記少なくとも1つの外部VADからの前記少なくとも1つの信号は一次VAD判定であることを特徴とする請求項10乃至12のいずれか1項に記載のVAD(199)。
  15. 前記少なくとも1つの外部VADは単一のVADであることを特徴とする請求項10乃至14のいずれか1項に記載のVAD(199)。
  16. 前記少なくとも1つの外部VADは複数のVADであることを特徴とする請求項10乃至14のいずれか1項に記載のVAD(199)。
  17. 入力信号の特性に依存して前記音声区間判定同士が組み合わされることを特徴とする請求項10乃至16のいずれか1項に記載のVAD(199)。
  18. 前記入力信号の特性は、推定された信号対雑音比及び背景特性の少なくとも一方を含むことを特徴とする請求項17に記載のVAD(199)。
JP2015100483A 2009-10-19 2015-05-15 音声区間検出器及び方法 Active JP6096242B2 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US25296609P 2009-10-19 2009-10-19
US25285809P 2009-10-19 2009-10-19
US61/252,966 2009-10-19
US61/252,858 2009-10-19
US26258309P 2009-11-19 2009-11-19
US61/262,583 2009-11-19
US37681510P 2010-08-25 2010-08-25
US61/376,815 2010-08-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012534144A Division JP5793500B2 (ja) 2009-10-19 2010-10-18 音声区間検出器及び方法

Publications (2)

Publication Number Publication Date
JP2015207002A true JP2015207002A (ja) 2015-11-19
JP6096242B2 JP6096242B2 (ja) 2017-03-15

Family

ID=43900545

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012534144A Active JP5793500B2 (ja) 2009-10-19 2010-10-18 音声区間検出器及び方法
JP2015100483A Active JP6096242B2 (ja) 2009-10-19 2015-05-15 音声区間検出器及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2012534144A Active JP5793500B2 (ja) 2009-10-19 2010-10-18 音声区間検出器及び方法

Country Status (7)

Country Link
US (3) US9773511B2 (ja)
EP (1) EP2491549A4 (ja)
JP (2) JP5793500B2 (ja)
KR (1) KR20120091068A (ja)
CN (2) CN104485118A (ja)
BR (1) BR112012008671A2 (ja)
WO (1) WO2011049516A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2491549A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
ES2489472T3 (es) 2010-12-24 2014-09-02 Huawei Technologies Co., Ltd. Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada
EP2656341B1 (en) 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
US20140006019A1 (en) * 2011-03-18 2014-01-02 Nokia Corporation Apparatus for audio signal processing
EP3301676A1 (en) 2012-08-31 2018-04-04 Telefonaktiebolaget LM Ericsson (publ) Method and device for voice activity detection
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
WO2016007528A1 (en) 2014-07-10 2016-01-14 Analog Devices Global Low-complexity voice activity detection
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
WO2016143125A1 (ja) * 2015-03-12 2016-09-15 三菱電機株式会社 音声区間検出装置および音声区間検出方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10566007B2 (en) * 2016-09-08 2020-02-18 The Regents Of The University Of Michigan System and method for authenticating voice commands for a voice assistant
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN108899041B (zh) * 2018-08-20 2019-12-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202394A (ja) * 1995-01-27 1996-08-09 Kyocera Corp 音声検出器
JP2001516463A (ja) * 1996-07-16 2001-09-25 テラブス オペレーションズ,インコーポレイテッド 複数の行列式を利用する音声検出システム
JP2004317942A (ja) * 2003-04-18 2004-11-11 Denso Corp 音声処理装置、音声認識装置及び音声処理方法
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4167653A (en) * 1977-04-15 1979-09-11 Nippon Electric Company, Ltd. Adaptive speech signal detector
ES2047664T3 (es) * 1988-03-11 1994-03-01 British Telecomm Deteccion de actividad de voz.
US5276765A (en) 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH0734547B2 (ja) * 1988-06-16 1995-04-12 パイオニア株式会社 ミューティング制御回路
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
JP3176474B2 (ja) * 1992-06-03 2001-06-18 沖電気工業株式会社 適応ノイズキャンセラ装置
JPH07123236B2 (ja) * 1992-12-18 1995-12-25 日本電気株式会社 双方向通話状態検出回路
IN184794B (ja) 1993-09-14 2000-09-30 British Telecomm
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
WO2001033814A1 (en) * 1999-11-03 2001-05-10 Tellabs Operations, Inc. Integrated voice processing system for packet networks
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US6738358B2 (en) * 2000-09-09 2004-05-18 Intel Corporation Network echo canceller for integrated telecommunications processing
AU2001294989A1 (en) * 2000-10-04 2002-04-15 Clarity, L.L.C. Speech detection
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7031916B2 (en) 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
GB2379148A (en) * 2001-08-21 2003-02-26 Mitel Knowledge Corp Voice activity detection
KR101434071B1 (ko) * 2002-03-27 2014-08-26 앨리프컴 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
US7599432B2 (en) * 2003-12-08 2009-10-06 Freescale Semiconductor, Inc. Method and apparatus for dynamically inserting gain in an adaptive filter system
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
KR100631608B1 (ko) * 2004-11-25 2006-10-09 엘지전자 주식회사 음성 판별 방법
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
GB2430129B (en) 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
ES2525427T3 (es) 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
WO2008106036A2 (en) * 2007-02-26 2008-09-04 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
JP5446874B2 (ja) 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
CN103137139B (zh) * 2008-06-30 2014-12-10 杜比实验室特许公司 多麦克风语音活动检测器
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
EP2491549A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202394A (ja) * 1995-01-27 1996-08-09 Kyocera Corp 音声検出器
JP2001516463A (ja) * 1996-07-16 2001-09-25 テラブス オペレーションズ,インコーポレイテッド 複数の行列式を利用する音声検出システム
JP2004317942A (ja) * 2003-04-18 2004-11-11 Denso Corp 音声処理装置、音声認識装置及び音声処理方法
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Also Published As

Publication number Publication date
US11361784B2 (en) 2022-06-14
JP5793500B2 (ja) 2015-10-14
US20180247661A1 (en) 2018-08-30
JP6096242B2 (ja) 2017-03-15
US20170345446A1 (en) 2017-11-30
KR20120091068A (ko) 2012-08-17
EP2491549A1 (en) 2012-08-29
US20110264449A1 (en) 2011-10-27
WO2011049516A1 (en) 2011-04-28
BR112012008671A2 (pt) 2016-04-19
CN104485118A (zh) 2015-04-01
US9773511B2 (en) 2017-09-26
EP2491549A4 (en) 2013-10-30
JP2013508744A (ja) 2013-03-07
US9990938B2 (en) 2018-06-05
CN102576528A (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
JP6096242B2 (ja) 音声区間検出器及び方法
JP6671439B2 (ja) 音声アクティビティ検出のための方法及び装置
CN102667927B (zh) 语音活动检测的方法和背景估计器
KR101452014B1 (ko) 향상된 음성 액티비티 검출기
US20160322067A1 (en) Methods and Voice Activity Detectors for a Speech Encoders

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170215

R150 Certificate of patent or registration of utility model

Ref document number: 6096242

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250