JP6412132B2 - 音声活動検出方法及び装置 - Google Patents
音声活動検出方法及び装置 Download PDFInfo
- Publication number
- JP6412132B2 JP6412132B2 JP2016537092A JP2016537092A JP6412132B2 JP 6412132 B2 JP6412132 B2 JP 6412132B2 JP 2016537092 A JP2016537092 A JP 2016537092A JP 2016537092 A JP2016537092 A JP 2016537092A JP 6412132 B2 JP6412132 B2 JP 6412132B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- voice activity
- parameter
- vad
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
Description
連続的な音声活動のフレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることを含む。
現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得ることと、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得ることと、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算することと、を更に含む。
前のフレームで推定して得られた背景雑音エネルギーを取得することと、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得ることと、を更に含む。
前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
前のフレームサブバンド信号に基づき計算して前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータの値を得ることと、
前のフレームスペクトル振幅値に基づき計算して前のフレームスペクトル平坦度特徴パラメータと調性特徴パラメータを得ることと、
前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき計算して前のフレームの背景雑音識別子を得ることと、
前のフレーム調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレーム調性信号マークを計算することと、
前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームオールバンド背景雑音エネルギーを得ることと、を含む。
前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比が前の係数をかけるものであり、
前記スペクトル平坦度特徴パラメータは1つ又は複数のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比が1つの係数をかけるものであり、
調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである。
現在フレームが第2フレーム及び第2フレーム後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足すことと、
vad_flagが0であると判定する際に、continuous_speech_num2を0にすることと、を更に含む。
以下の条件1〜3の中、任意の1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を共同VAD判定結果として選択し、以下の条件1〜3のいずれもが満たされない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を共同VAD判定結果として選択することであり、前記論理演算とは「又は」演算或いは「及び」演算を指し、
条件1:平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件2:連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件3:調性信号マークが、1に設定されている、
を含む。
以下の条件1〜3の中、いずれかの条件を満たす際に前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たされない際に前記少なくとも2つの既存のVAD判定結果の論理演算を出力として選択することであり、論理演算とは「又は」演算或いは「及び」演算を指し、
条件1、少なくとも2つの既存のVAD判定結果が、全部で1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールを備える。
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得るように設定される第3パラメータ取得ユニット、及び
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む。
前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニットを更に含む。
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足し、
vad_flagが0であると判定する際に、continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む。
ステップ101、少なくとも2種の既存のVADの判定結果を取得し、
ステップ102、現在フレームのサブバンド信号及びスペクトル振幅値を取得し、
本発明の実施例においてフレーム長が20msで、サンプリングレートが32kHzであるオーディオストリームを例として説明する。他のフレーム長とサンプリングレートの条件で、本発明の実施例が提供する音声活動検出方法が同様に適用する。
1、スペクトル重心特徴パラメータ計算に用いるサブバンド区間を表1に示すように区分する。
スペクトル振幅値に基づき計算して調性特徴パラメータを得、そのうち、調性特徴パラメータは全部スペクトル振幅値又は部分スペクトル振幅値に基づき計算して得られる。
その計算ステップは以下の通りであり、
1、部分(8個のスペクトル係数より小さくない)又は全部スペクトル振幅値と隣接するスペクトル振幅値を差分演算し、且つ差分結果が0より小さい値を0に設定し、1組の非負のスペクトル差分係数を得る。
条件2、continuous_speech_num2は連続的な音声活動フレーム数閾値より大きいとともに平均オールバンド信号対雑音比は信号対雑音比閾値より大きい。
条件3、調性信号マークを1にする。
以下の条件1〜3の中、任意の条件を満たす場合は前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たされない場合は前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とすることであり、そのうち、論理演算とは「又は」演算或いは「及び」演算である:
条件1、少なくとも2つの既存のVAD判定結果が、すべて1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きいとともに、調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きいとともに、平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。
調性特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、スペクトル重心特徴パラメータに基づき現在フレームが調性信号であるかどうかを判断することを含む。
1、調性フレームマークtonality_ frameで現在フレームが調性フレームであるかどうかを指示する。
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュール301を含む。
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット3021と、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット3022と、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得、計算方法が本発明の実施例3を参照することができるように設定される第3パラメータ取得ユニット3023と、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニット3024と、を含む。
前のフレームで推定して得られた背景雑音エネルギーを取得し、計算方法が本発明の実施例2を参照してよいように設定される第5パラメータ取得ユニット3025と、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニット3026と、を含む。
現在フレームが第1フレームである場合、前記連続的な音声活動フレーム数が0であると確定するように設定される第7パラメータ取得ユニット3027を更に含み、
現在フレームが第2フレーム及び第2フレーム以後の音声フレームである場合、前の共同VAD判定結果により現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、共同VADマークvad_flagマークが1である場合continuous_speech_num2に1を加える。
少なくとも2種の既存のVAD判定結果を取得するように設定される第8パラメータ取得ユニット3028を含む。
Claims (14)
- 音声活動検出方法であって、
現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき調性信号マークを計算することと、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、前記調性信号マーク及び少なくとも2種の既存の音声活動検出(VAD)判定結果に基づき最終的な共同VAD判定結果を得ることと、を含む音声活動検出方法。 - 前記方法は、
前のフレームで推定して得られた背景雑音エネルギーを取得することと、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得ることと、を更に含む請求項1に記載の音声活動検出方法。 - 前記前のフレームで推定して得られた背景雑音エネルギーを取得することは、
前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
前のフレームのサブバンド信号に基づき前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
前のフレームのスペクトル振幅値に基づき前のフレームのスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき前のフレームの背景雑音識別子を計算して得ることと、
前のフレームの調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレームの調性信号マークを計算することと、
前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームのオールバンド背景雑音エネルギーを得ることと、を含む請求項2に記載の音声活動検出方法。 - 前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重畳値又は直接重畳値であり、
前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比に1つの係数をかけたものであり、
前記スペクトル平坦度特徴パラメータは一部のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比に1つの係数をかけたものであり、
前記調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである請求項3に記載の音声活動検出方法。 -
-
-
- 該方法は、
現在フレームが第2フレーム及び第2フレーム後の音声フレームの際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足すことと、
共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にすることと、を更に含む請求項1に記載の音声活動検出方法。 - 現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数continuous_speech_num2が0である請求項8に記載の音声活動検出方法。
- 前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
条件1:平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件2:連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件3:調性信号マークが、1に設定されている、
との条件の中、前記条件1〜3の中のいずれか1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を選択して共同VAD判定結果とし、前記条件1〜3のいずれもが満たされない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を選択して共同VAD判定結果とし、前記論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。 - 前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
条件1、少なくとも2つの既存のVAD判定結果が、全部で1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
との条件の中、前記条件1〜3の中のいずれか一つの条件を満たす際に前記共同VAD判定結果が1であり、前記条件1〜3のいずれもが満たされない際に前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とし、論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。 - 音声活動検出装置であって、
パラメータ取得モジュールと、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールと、を備え、
前記パラメータ取得モジュールは、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得るように設定される第2パラメータ取得ユニット、
スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得るように設定される第3パラメータ取得ユニット、及び
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む音声活動検出装置。 - 前記パラメータ取得モジュールは、
前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得るように設定される第6パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。 - 前記パラメータ取得モジュールは、
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足し、
共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310390795.7 | 2013-08-30 | ||
CN201310390795.7A CN104424956B9 (zh) | 2013-08-30 | 2013-08-30 | 激活音检测方法和装置 |
PCT/CN2014/077704 WO2014177084A1 (zh) | 2013-08-30 | 2014-05-16 | 激活音检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016529555A JP2016529555A (ja) | 2016-09-23 |
JP6412132B2 true JP6412132B2 (ja) | 2018-10-24 |
Family
ID=51843162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016537092A Active JP6412132B2 (ja) | 2013-08-30 | 2014-05-16 | 音声活動検出方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9978398B2 (ja) |
EP (1) | EP3040991B1 (ja) |
JP (1) | JP6412132B2 (ja) |
KR (1) | KR101831078B1 (ja) |
CN (1) | CN104424956B9 (ja) |
PL (1) | PL3040991T3 (ja) |
WO (1) | WO2014177084A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013111784B4 (de) * | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
CN105261375B (zh) | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
CN105654947B (zh) * | 2015-12-30 | 2019-12-31 | 中国科学院自动化研究所 | 一种获取交通广播语音中路况信息的方法及系统 |
CN107305774B (zh) * | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
IT201700044093A1 (it) * | 2017-04-21 | 2018-10-21 | Telecom Italia Spa | Metodo e sistema di riconoscimento del parlatore |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN109427345B (zh) * | 2017-08-29 | 2022-12-02 | 杭州海康威视数字技术股份有限公司 | 一种风噪检测方法、装置及系统 |
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN109285563B (zh) * | 2018-10-15 | 2022-05-06 | 华为技术有限公司 | 在线翻译过程中的语音数据处理方法及装置 |
CN109801646B (zh) * | 2019-01-31 | 2021-11-16 | 嘉楠明芯(北京)科技有限公司 | 一种基于融合特征的语音端点检测方法和装置 |
CN111292758B (zh) * | 2019-03-12 | 2022-10-25 | 展讯通信(上海)有限公司 | 语音活动检测方法及装置、可读存储介质 |
KR20200114019A (ko) | 2019-03-27 | 2020-10-07 | 주식회사 공훈 | 음성의 피치 정보에 기초한 화자 식별 방법 및 그 장치 |
CN110431625B (zh) * | 2019-06-21 | 2023-06-23 | 深圳市汇顶科技股份有限公司 | 语音检测方法、语音检测装置、语音处理芯片以及电子设备 |
US11823706B1 (en) * | 2019-10-14 | 2023-11-21 | Meta Platforms, Inc. | Voice activity detection in audio signal |
CN111739562B (zh) * | 2020-07-22 | 2022-12-23 | 上海大学 | 一种基于数据选择性和高斯混合模型的语音活动检测方法 |
CN112908350B (zh) * | 2021-01-29 | 2022-08-26 | 展讯通信(上海)有限公司 | 一种音频处理方法、通信装置、芯片及其模组设备 |
CN115862685B (zh) * | 2023-02-27 | 2023-09-15 | 全时云商务服务股份有限公司 | 一种实时语音活动的检测方法、装置和电子设备 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884255A (en) | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
JP4123835B2 (ja) | 2002-06-13 | 2008-07-23 | 松下電器産業株式会社 | 雑音抑圧装置および雑音抑圧方法 |
US7860718B2 (en) | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
EP2162880B1 (en) * | 2007-06-22 | 2014-12-24 | VoiceAge Corporation | Method and device for estimating the tonality of a sound signal |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102044242B (zh) * | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
KR20120091068A (ko) | 2009-10-19 | 2012-08-17 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 음성 활성 검출을 위한 검출기 및 방법 |
US8626498B2 (en) | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
EP2561508A1 (en) * | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
WO2012083554A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | A method and an apparatus for performing a voice activity detection |
CN102741918B (zh) * | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
JP5737808B2 (ja) | 2011-08-31 | 2015-06-17 | 日本放送協会 | 音響処理装置およびそのプログラム |
US9111531B2 (en) | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
CN103117067B (zh) * | 2013-01-19 | 2015-07-15 | 渤海大学 | 一种低信噪比下语音端点检测方法 |
-
2013
- 2013-08-30 CN CN201310390795.7A patent/CN104424956B9/zh active Active
-
2014
- 2014-05-16 EP EP14791094.7A patent/EP3040991B1/en active Active
- 2014-05-16 JP JP2016537092A patent/JP6412132B2/ja active Active
- 2014-05-16 KR KR1020167005654A patent/KR101831078B1/ko active IP Right Grant
- 2014-05-16 PL PL14791094T patent/PL3040991T3/pl unknown
- 2014-05-16 US US14/915,246 patent/US9978398B2/en active Active
- 2014-05-16 WO PCT/CN2014/077704 patent/WO2014177084A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2014177084A1 (zh) | 2014-11-06 |
CN104424956A (zh) | 2015-03-18 |
EP3040991A4 (en) | 2016-09-14 |
JP2016529555A (ja) | 2016-09-23 |
US9978398B2 (en) | 2018-05-22 |
CN104424956B9 (zh) | 2022-11-25 |
PL3040991T3 (pl) | 2021-08-02 |
KR101831078B1 (ko) | 2018-04-04 |
KR20160039677A (ko) | 2016-04-11 |
CN104424956B (zh) | 2018-09-21 |
US20160203833A1 (en) | 2016-07-14 |
EP3040991A1 (en) | 2016-07-06 |
EP3040991B1 (en) | 2021-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6412132B2 (ja) | 音声活動検出方法及び装置 | |
JP6635440B2 (ja) | 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置 | |
Moattar et al. | A simple but efficient real-time voice activity detection algorithm | |
CN105261375B (zh) | 激活音检测的方法及装置 | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US7508948B2 (en) | Reverberation removal | |
KR101895391B1 (ko) | 오디오 신호의 배경 잡음 추정 | |
JP6493889B2 (ja) | 音声信号を検出するための方法および装置 | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
WO2019067718A2 (en) | ACOUSTIC REACTION DETECTION IN CONFERENCE SYSTEMS | |
KR20110068637A (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
CN113870885B (zh) | 蓝牙音频啸叫检测和抑制方法、装置、介质及设备 | |
CN104867499A (zh) | 一种用于助听器的分频段维纳滤波去噪方法和系统 | |
CN104867497A (zh) | 一种语音降噪方法 | |
WO2015085946A1 (zh) | 语音信号处理方法、装置及服务器 | |
JP2010112995A (ja) | 通話音声処理装置、通話音声処理方法およびプログラム | |
CN110265058A (zh) | 估计音频信号中的背景噪声 | |
CN111508512A (zh) | 语音信号中的摩擦音检测 | |
US9349383B2 (en) | Audio bandwidth dependent noise suppression | |
CN113905310B (zh) | 一种蓝牙音频的啸叫检测和抑制方法、装置及介质 | |
WO2023172609A1 (en) | Method and audio processing system for wind noise suppression | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180727 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20180806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6412132 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |