JP6412132B2 - 音声活動検出方法及び装置 - Google Patents

音声活動検出方法及び装置 Download PDF

Info

Publication number
JP6412132B2
JP6412132B2 JP2016537092A JP2016537092A JP6412132B2 JP 6412132 B2 JP6412132 B2 JP 6412132B2 JP 2016537092 A JP2016537092 A JP 2016537092A JP 2016537092 A JP2016537092 A JP 2016537092A JP 6412132 B2 JP6412132 B2 JP 6412132B2
Authority
JP
Japan
Prior art keywords
frame
voice activity
parameter
vad
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016537092A
Other languages
English (en)
Other versions
JP2016529555A (ja
Inventor
チュ,チャンバオ
ユアン,ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51843162&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6412132(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2016529555A publication Critical patent/JP2016529555A/ja
Application granted granted Critical
Publication of JP6412132B2 publication Critical patent/JP6412132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は通信分野に関し、特に音声活動検出方法及び装置に関する。
正常の音声通話では、ユーザは時には話して、時に聞いている、この場合に、通話過程において非音声活動階段が発生し、正常な場合に通話両方は全体の非音声活動階段では通話両方の全体の音声符号化時間の50%を超える。非音声活動階段では、背景雑音のみがあり、背景雑音は通常にまったく役に立つ情報がない。この事実を利用して、音声周波数信号の処理過程では、音声活動検出(VAD)アルゴリズムによって音声活動と非音声活動を検出し、且つ異なる方法によってそれぞれ処理する。現代の多くの音声符号化基準、例えばAMR、AMR-WBは、いずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADはすべての典型な背景雑音でよい性能を達成することができない。特に非安定雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADは誤検出が発生して、対応な処理アルゴリズムは顕著に品質を低下させることがある。また、関連のVAD技術に判断が不正確である状況が存在し、例えばあるVAD技術は音声区間の前の数フレームで不正確に検出し、あるVADは音声区間の後の数フレームで不正確に検出する。
本発明の実施例は音声活動検出方法及び装置を提供し、関連VAD検出が不正確である問題を解決する。
音声活動検出方法であって、
連続的な音声活動のフレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることを含む。
好ましくは、前記方法は、
現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得ることと、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得ることと、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算することと、を更に含む。
好ましくは、前記方法は、
前のフレームで推定して得られた背景雑音エネルギーを取得することと、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得ることと、を更に含む。
好ましくは、前記前のフレームで推定して得られた背景雑音エネルギーを取得するのは、
前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
前のフレームサブバンド信号に基づき計算して前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータの値を得ることと、
前のフレームスペクトル振幅値に基づき計算して前のフレームスペクトル平坦度特徴パラメータと調性特徴パラメータを得ることと、
前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき計算して前のフレームの背景雑音識別子を得ることと、
前のフレーム調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレーム調性信号マークを計算することと、
前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームオールバンド背景雑音エネルギーを得ることと、を含む。
好ましくは、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重畳値又は直接重畳値であり、
前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比が前の係数をかけるものであり、
前記スペクトル平坦度特徴パラメータは1つ又は複数のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比が1つの係数をかけるものであり、
調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである。
好ましくは、該方法は、
現在フレームが第2フレーム及び第2フレーム後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足すことと、
vad_flagが0であると判定する際に、continuous_speech_num2を0にすることと、を更に含む。
好ましくは、現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0である。
好ましくは、前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、任意の1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を共同VAD判定結果として選択、以下の条件1〜3のいずれもが満たさない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を共同VAD判定結果として選択することであり、前記論理演算とは「又は」演算或いは「及び」演算を指し、
条件1:平均オールバンド信号対雑音比が、信号対雑音比閾値より大き
条件2:連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大き
条件3:調性信号マークが、1に設定されている、
を含む。
好ましくは、前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、いずれかの条件を満たす際に前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たさない際に前記少なくとも2つの既存のVAD判定結果の論理演算を出力として選択することであり、論理演算とは「又は」演算或いは「及び」演算を指し、
条件1、少なくとも2つの既存のVAD判定結果が、全部で1であ
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。
本発明の実施例は音声活動検出装置を更に提供し、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールを備える。
好ましくは、前記装置はパラメータ取得モジュールを更に備え、前記パラメータ取得モジュールは、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得るように設定される第3パラメータ取得ユニット、及び
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む。
好ましくは、前記パラメータ取得モジュールは、
前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニットを更に含む。
好ましくは、前記パラメータ取得モジュールは、
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足し、
vad_flagが0であると判定する際に、continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む。
本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得て、多種のパラメータに基づき総合的にVAD判定を行い、VAD判定の正確さを向上させ、VAD検出が不正確である問題を解決する。
図1は本発明の実施例1による音声活動検出方法のフローチャートである。 図2は本発明の実施例2による音声活動検出方法のフローチャートである。 図3は本発明の実施例4による音声活動検出装置の構造模式図である。 図4は図3におけるパラメータ取得モジュール302の構造模式図である。
VAD検出が不正確である問題を解決するために、本発明の実施例は音声活動検出方法を提供する。以下で、図面を参照して本発明の実施例を詳しく説明する。衝突しない場合に、本出願における実施例及び実施例における特徴を相互に任意で組み合わせることができる。
以下、図面を結合して、本発明の実施例1を説明する。
本発明の実施例は音声活動検出方法を提供して、該方法によってVADを完成する手順は図1に示すように、以下のステップを含み、
ステップ101、少なくとも2種の既存のVADの判定結果を取得し、
ステップ102、現在フレームのサブバンド信号及びスペクトル振幅値を取得し、
本発明の実施例においてフレーム長が20msで、サンプリングレートが32kHzであるオーディオストリームを例として説明する。他のフレーム長とサンプリングレートの条件で、本発明の実施例が提供する音声活動検出方法が同様に適用する。
現在フレーム時間領域信号をフィルタ群ユニットに入力し、サブバンドフィルタリング計算を行い、フィルタ群のサブバンド信号を取得する。
本発明の実施例において1つ40チャンネルのフィルタ群を採用して、本発明の実施例が提供する技術的解決手段は他のチャンネル数のフィルタ群に対して同様に適用する。
その後、フィルタ群サブバンド信号に時間-周波数変換を行い、且つ計算してスペクトル振幅値を得る。
ステップ103、サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得、スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得る。
前記スペクトル重心特徴パラメータは全部又は部分サブバンド信号エネルギーの加重累積値と非加重累積値の比である。
各フィルタ群サブバンドのエネルギーに基づき計算してスペクトル重心特徴パラメータを得、スペクトル重心特徴パラメータはフィルタ群サブバンドエネルギーの加重加算の和とサブバンドエネルギーの直接加算の和との比を求めるか又は他のスペクトル重心特徴パラメータ値を平滑化フィルタリングすることにより得られる。
スペクトル重心特徴パラメータは以下のサブステップを採用して実現する:
1、スペクトル重心特徴パラメータ計算に用いるサブバンド区間を表1に示すように区分する。
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の希望する比であり、又は該比値に1つ係数を掛ける。
最も新たな複数のフレーム信号のフレームエネルギーパラメータで計算して時間領域安定性特徴パラメータを取得する。本発明の実施例において最も新たな40フレーム信号のフレームエネルギーパラメータを採用して計算して時間領域安定性特徴パラメータを取得する。計算ステップは以下の通りである。
調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連値を計算することにより得られたものであり、又は続いて該関連値を平滑化フィルタリングして得られたものである。
前後の2つのフレームの信号のイントラスペクトル差分係数の関連値の計算方法は以下の通りであり、
スペクトル振幅値に基づき計算して調性特徴パラメータを得、そのうち、調性特徴パラメータは全部スペクトル振幅値又は部分スペクトル振幅値に基づき計算して得られる。
その計算ステップは以下の通りであり、
1、部分(8個のスペクトル係数より小さくない)又は全部スペクトル振幅値と隣接するスペクトル振幅値を差分演算し、且つ差分結果が0より小さい値を0に設定し、1組の非負のスペクトル差分係数を得る。
ステップ104、調性信号マークを計算し、本発明の実施例3における調性信号計算の手順を参照する。
ステップ105、前のフレームで推定して得られたオールバンド背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して平均オールバンド信号対雑音比を得る。
ステップ106、連続的な音声活動フレームの数を取得する。
連続的な音声活動フレーム数continuous_speech_num2はVAD判定結果により計算することができ、初期値を0とし、VADマークvad_flagマークが1である場合continuous_speech_num2に1を加え、vad_flagが0であると判定する場合、continuous_speech_num2を0にする。
ステップ107、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得る。
本ステップにおいて、前記既存のVAD判定結果又は共同VAD判定結果が1である場合は音声活動フレームと示し、前記既存のVAD判定結果又は共同VAD判定結果が0である場合は非音声活動フレームと示す。なお、1、0値で音声活動フレームと非音声活動フレームを示すことは標記方式のみであり、他の値又は他の方式でVAD判定を標記区分する異なる結果の手段はいずれも本発明の実施例の保護範囲の内にある。
以下、2種の実現方法を例として説明し、実施過程は他の共同方法があってよい。
以下の任意の1つの条件を満たす場合は少なくとも2種の既存のVADの判定結果の論理演算を選択して共同VAD判定結果とし、以下のいずれの条件を満たさない場合は前記少なくとも2種の既存のVAD判定結果における1つの既存のVAD判定結果を選択して共同VAD判定結果とし、そのうち、前記論理演算とは「又は」演算或いは「及び」演算である。
条件1、平均オールバンド信号対雑音比は信号対雑音比閾値より大きい。
条件2、continuous_speech_num2は連続的な音声活動フレーム数閾値より大きいとともに平均オールバンド信号対雑音比は信号対雑音比閾値より大きい。
条件3、調性信号マークを1にする。
前記既存のVAD判定結果又は共同VAD判定結果は1である場合は音声活動フレームとして示し、前記既存のVAD判定結果又は共同VAD判定結果が0である場合は非音声活動フレームとして示し、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、任意の条件を満たす場合は前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たさない場合は前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とすることであり、そのうち、論理演算とは「又は」演算或いは「及び」演算である:
条件1、少なくとも2つの既存のVAD判定結果がすべて1である
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きいとともに調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きいとともに平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。
本発明の実施例におけるステップ101〜ステップ106は厳密なタイミング関係がなく(そのうち、ステップ102、103及び104のタイミング順序を逆にすることができない)、本発明の実施例の共同VAD判定を行う場合に必要な連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果を取得する手段であれば、本発明の実施例の保護範囲に属する。
以下、図面を参照しながら、本発明の実施例2を説明する。
図2に示すように、前のフレーム背景雑音エネルギーの計算方法を提出し、前のフレームの背景雑音エネルギーは平均オールバンド信号対雑音比を計算することに用いられる。前のフレームの背景雑音エネルギーの計算手順が現在フレームの背景雑音エネルギーの計算手順と同じであり、本発明の実施例は現在フレームのオールバンド背景雑音エネルギーの計算方法を提出する。
ステップ201、現在フレームのサブバンド信号及びスペクトル振幅値を取得し、計算方法をステップ102に示す。
ステップ202、サブバンド信号に基づき計算して現在のフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータの値を得る。スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得る。計算方法をステップ103に示す。
ステップ203:現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータ計算に基づき現在フレームの背景雑音識別子を得る。背景雑音識別子は現在フレームが雑音信号であるかどうかを示すことに用いられ、雑音信号であると、背景雑音識別子を1にし、そうでないと、0にする。
本発明の実施例は1つの背景雑音識別子background_flagにより現在フレームが背景雑音であるかどうかを指示し、且つ現在フレームが背景雑音であると判定すると、背景雑音識別子background_flagを1に設定し、そうでないと、背景雑音識別子background_flagを0にすると設定する。
時間領域安定性特徴パラメータ、スペクトル重心特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータ、現在フレームエネルギーパラメータに基づき現在フレームが雑音信号であるかどうかを検出する。雑音信号ではないと、背景雑音識別子background_flagを0にする。
ステップ204、調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき調性信号マークを計算し、そのステップは本発明の実施例3における調性信号計算手順を示す。
以下、本発明の実施例3を説明する。
本発明の実施例は音声活動検出方法を提供し、本発明の実施例1と実施例2に提供された技術的解決手段と合わせて、調性信号マークを計算することができることは、
調性特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、スペクトル重心特徴パラメータに基づき現在フレームが調性信号であるかどうかを判断することを含む。
調性信号であるかどうかを判断する場合、以下の操作を実行する:
1、調性フレームマークtonality_ frameで現在フレームが調性フレームであるかどうかを指示する。
本発明の実施例においてtonality_ frameの値が1であることは現在フレームが調性フレームであることを示し、0は現在フレームが非調性フレームであることを示す。
以下、図面を参照しながら、本発明の実施例4を説明する。
本発明の実施例は音声活動検出装置を更に提供し、図3に示すように、該装置は、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュール301を含む。
好ましくは、前記装置はパラメータ取得モジュール302を更に含み、前記パラメータ取得モジュール302の構造は、図4に示すように、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット3021と、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット3022と、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得、計算方法が本発明の実施例3を参照することができるように設定される第3パラメータ取得ユニット3023と、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニット3024と、を含む。
好ましくは、前記パラメータ取得モジュール302は、更に、
前のフレームで推定して得られた背景雑音エネルギーを取得し、計算方法が本発明の実施例2を参照してよいように設定される第5パラメータ取得ユニット3025と、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニット3026と、を含む。
好ましくは、前記パラメータ取得モジュール302は、
現在フレームが第1フレームである場合、前記連続的な音声活動フレーム数が0であると確定するように設定される第7パラメータ取得ユニット3027を更に含み、
現在フレームが第2フレーム及び第2フレーム以後の音声フレームである場合、前の共同VAD判定結果により現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、共同VADマークvad_flagマークが1である場合continuous_speech_num2に1を加える。
vad_flagが0と判定する場合、continuous_speech_num2を0にする。
好ましくは、前記パラメータ取得モジュール302は更に、
少なくとも2種の既存のVAD判定結果を取得するように設定される第8パラメータ取得ユニット3028を含む。
本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク、少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得、多種のパラメータに基づき総合にVAD判定を行うことを実現し、VAD判定の正確性を向上させ、VADの検出が不正確である問題を解決する。
当業者は、上記実施例の全部又は一部のステップがコンピュータプログラムプロセスで実現することができることを理解することができ、前記コンピュータプログラムはコンピュータ可読記憶媒体に記憶されることができ、前記コンピュータプログラムは対応するハードウェアプラットフォーム(例えばシステム、デバイス、装置、機器等)で実行し、実行する際、方法の実施例のステップの1つ又はその組み合わせを含む。
選択可能に、上記実施例の全部又は一部のステップは集積回路を使用して実現することもでき、これらのステップはそれぞれ1つの集積回路モジュールに製造されるか、又はそれらの中の複数のモジュール又はステップを単一の集積回路モジュールに製造して実現することができる。このように、本発明は任意の特定のハードウェアとソフトウェアの組合せに限定されない。
上記実施例における各装置/機能モジュール/機能ユニットは汎用の計算装置を採用して実現することができ、それらは単一の計算装置に集積されてもよいし、複数の計算装置からなるネットワークに分布されてもよい。
上記実施例における各装置/機能モジュール/機能ユニットはソフトウェア機能モジュールで実現するとともに独立な製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶することができる。上記のコンピュータ読み取り可能な記憶媒体は読み取り専用メモリ、磁気ディスク又はCD等であってよい。
任意の当業者は、本発明に開示された技術範囲内には、簡単に考えられる変換又は切替がいずれも本発明の保護範囲に属すべきである。このため、本発明の保護範囲は請求の範囲に記載の保護範囲を標準とすべきである。
本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得、多種のパラメータに基づき総合にVAD判定を行うことを実現し、VAD判定の正確性を向上させ、VAD検出が不正確である問題を解決する。

Claims (14)

  1. 音声活動検出方法であって、
    現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
    サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
    スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
    調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき調性信号マークを計算することと、
    連続的な音声活動フレーム数、平均オールバンド信号対雑音比、前記調性信号マーク及び少なくとも2種の既存の音声活動検出(VAD)判定結果に基づき最終的な共同VAD判定結果を得ることと、を含む音声活動検出方法。
  2. 前記方法は、
    前のフレームで推定して得られた背景雑音エネルギーを取得することと、
    前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得ることと、を更に含む請求項1に記載の音声活動検出方法。
  3. 前記前のフレームで推定して得られた背景雑音エネルギーを取得することは、
    前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
    前のフレームのサブバンド信号に基づき前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
    前のフレームのスペクトル振幅値に基づき前のフレームのスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
    前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき前のフレームの背景雑音識別子を計算して得ることと、
    前のフレームの調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレームの調性信号マークを計算することと、
    前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームのオールバンド背景雑音エネルギーを得ることと、を含む請求項2に記載の音声活動検出方法。
  4. 前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重畳値又は直接重畳値であり、
    前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
    前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比に1つの係数をかけたものであり、
    前記スペクトル平坦度特徴パラメータは一部のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比に1つの係数をかけたものであり、
    前記調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである請求項3に記載の音声活動検出方法。

  5. 該方法は、
    現在フレームが第2フレーム及び第2フレーム後の音声フレームの際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
    共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足すことと、
    共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にすることと、を更に含む請求項1に記載の音声活動検出方法。
  6. 現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数continuous_speech_num2が0である請求項8に記載の音声活動検出方法。
  7. 前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
    条件1:平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
    条件2:連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
    条件3:調性信号マークが、1に設定されている、
    との条件の中、前記条件1〜3の中のいずれか1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を選択して共同VAD判定結果とし、前記条件1〜3のいずれもが満たされない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を選択して共同VAD判定結果とし、前記論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。
  8. 前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
    条件1、少なくとも2つの既存のVAD判定結果が、全部で1である、
    条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている、
    条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
    との条件の中、前記条件1〜3の中のいずれか一つの条件を満たす際に前記共同VAD判定結果が1であり、前記条件1〜3のいずれもが満たされない際に前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とし、論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。
  9. 音声活動検出装置であって、
    パラメータ取得モジュールと、
    連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールと、を備え
    前記パラメータ取得モジュールは、
    現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
    サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得るように設定される第2パラメータ取得ユニット、
    スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得るように設定される第3パラメータ取得ユニット、及び
    調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む音声活動検出装置。
  10. 前記パラメータ取得モジュールは、
    前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
    前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得るように設定される第6パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。
  11. 前記パラメータ取得モジュールは、
    現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
    現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
    共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足し、
    共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。
JP2016537092A 2013-08-30 2014-05-16 音声活動検出方法及び装置 Active JP6412132B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310390795.7 2013-08-30
CN201310390795.7A CN104424956B9 (zh) 2013-08-30 2013-08-30 激活音检测方法和装置
PCT/CN2014/077704 WO2014177084A1 (zh) 2013-08-30 2014-05-16 激活音检测方法和装置

Publications (2)

Publication Number Publication Date
JP2016529555A JP2016529555A (ja) 2016-09-23
JP6412132B2 true JP6412132B2 (ja) 2018-10-24

Family

ID=51843162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016537092A Active JP6412132B2 (ja) 2013-08-30 2014-05-16 音声活動検出方法及び装置

Country Status (7)

Country Link
US (1) US9978398B2 (ja)
EP (1) EP3040991B1 (ja)
JP (1) JP6412132B2 (ja)
KR (1) KR101831078B1 (ja)
CN (1) CN104424956B9 (ja)
PL (1) PL3040991T3 (ja)
WO (1) WO2014177084A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN105261375B (zh) 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
CN105654947B (zh) * 2015-12-30 2019-12-31 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
WO2018106971A1 (en) * 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
IT201700044093A1 (it) * 2017-04-21 2018-10-21 Telecom Italia Spa Metodo e sistema di riconoscimento del parlatore
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN109285563B (zh) * 2018-10-15 2022-05-06 华为技术有限公司 在线翻译过程中的语音数据处理方法及装置
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
KR20200114019A (ko) 2019-03-27 2020-10-07 주식회사 공훈 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치
CN110431625B (zh) * 2019-06-21 2023-06-23 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
CN111739562B (zh) * 2020-07-22 2022-12-23 上海大学 一种基于数据选择性和高斯混合模型的语音活动检测方法
CN112908350B (zh) * 2021-01-29 2022-08-26 展讯通信(上海)有限公司 一种音频处理方法、通信装置、芯片及其模组设备
CN115862685B (zh) * 2023-02-27 2023-09-15 全时云商务服务股份有限公司 一种实时语音活动的检测方法、装置和电子设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884255A (en) 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
JP4123835B2 (ja) 2002-06-13 2008-07-23 松下電器産業株式会社 雑音抑圧装置および雑音抑圧方法
US7860718B2 (en) 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
JP5737808B2 (ja) 2011-08-31 2015-06-17 日本放送協会 音響処理装置およびそのプログラム
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
CN103117067B (zh) * 2013-01-19 2015-07-15 渤海大学 一种低信噪比下语音端点检测方法

Also Published As

Publication number Publication date
WO2014177084A1 (zh) 2014-11-06
CN104424956A (zh) 2015-03-18
EP3040991A4 (en) 2016-09-14
JP2016529555A (ja) 2016-09-23
US9978398B2 (en) 2018-05-22
CN104424956B9 (zh) 2022-11-25
PL3040991T3 (pl) 2021-08-02
KR101831078B1 (ko) 2018-04-04
KR20160039677A (ko) 2016-04-11
CN104424956B (zh) 2018-09-21
US20160203833A1 (en) 2016-07-14
EP3040991A1 (en) 2016-07-06
EP3040991B1 (en) 2021-04-14

Similar Documents

Publication Publication Date Title
JP6412132B2 (ja) 音声活動検出方法及び装置
JP6635440B2 (ja) 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置
Moattar et al. A simple but efficient real-time voice activity detection algorithm
CN105261375B (zh) 激活音检测的方法及装置
US9959886B2 (en) Spectral comb voice activity detection
US7508948B2 (en) Reverberation removal
KR101895391B1 (ko) 오디오 신호의 배경 잡음 추정
JP6493889B2 (ja) 音声信号を検出するための方法および装置
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
WO2019067718A2 (en) ACOUSTIC REACTION DETECTION IN CONFERENCE SYSTEMS
KR20110068637A (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
CN113870885B (zh) 蓝牙音频啸叫检测和抑制方法、装置、介质及设备
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
CN104867497A (zh) 一种语音降噪方法
WO2015085946A1 (zh) 语音信号处理方法、装置及服务器
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
CN110265058A (zh) 估计音频信号中的背景噪声
CN111508512A (zh) 语音信号中的摩擦音检测
US9349383B2 (en) Audio bandwidth dependent noise suppression
CN113905310B (zh) 一种蓝牙音频的啸叫检测和抑制方法、装置及介质
WO2023172609A1 (en) Method and audio processing system for wind noise suppression
CN116884423A (zh) 混响检测与抑制方法、系统、介质及设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180727

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180927

R150 Certificate of patent or registration of utility model

Ref document number: 6412132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250