JP6412132B2

JP6412132B2 - 音声活動検出方法及び装置

Info

Publication number: JP6412132B2
Application number: JP2016537092A
Authority: JP
Inventors: チュ，チャンバオ; ユアン，ハオ
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-08-30
Filing date: 2014-05-16
Publication date: 2018-10-24
Anticipated expiration: 2034-05-16
Also published as: WO2014177084A1; CN104424956A; EP3040991A4; JP2016529555A; US9978398B2; CN104424956B9; PL3040991T3; KR101831078B1; KR20160039677A; CN104424956B; US20160203833A1; EP3040991A1; EP3040991B1

Description

本発明は通信分野に関し、特に音声活動検出方法及び装置に関する。

正常の音声通話では、ユーザは時には話して、時に聞いている、この場合に、通話過程において非音声活動階段が発生し、正常な場合に通話両方は全体の非音声活動階段では通話両方の全体の音声符号化時間の50%を超える。非音声活動階段では、背景雑音のみがあり、背景雑音は通常にまったく役に立つ情報がない。この事実を利用して、音声周波数信号の処理過程では、音声活動検出（VAD）アルゴリズムによって音声活動と非音声活動を検出し、且つ異なる方法によってそれぞれ処理する。現代の多くの音声符号化基準、例えばAMR、AMR-WBは、いずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADはすべての典型な背景雑音でよい性能を達成することができない。特に非安定雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADは誤検出が発生して、対応な処理アルゴリズムは顕著に品質を低下させることがある。また、関連のVAD技術に判断が不正確である状況が存在し、例えばあるVAD技術は音声区間の前の数フレームで不正確に検出し、あるVADは音声区間の後の数フレームで不正確に検出する。

本発明の実施例は音声活動検出方法及び装置を提供し、関連VAD検出が不正確である問題を解決する。

音声活動検出方法であって、
連続的な音声活動のフレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることを含む。

好ましくは、前記方法は、
現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得ることと、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得ることと、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算することと、を更に含む。

好ましくは、前記方法は、
前のフレームで推定して得られた背景雑音エネルギーを取得することと、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得ることと、を更に含む。

好ましくは、前記前のフレームで推定して得られた背景雑音エネルギーを取得するのは、
前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
前のフレームサブバンド信号に基づき計算して前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータの値を得ることと、
前のフレームスペクトル振幅値に基づき計算して前のフレームスペクトル平坦度特徴パラメータと調性特徴パラメータを得ることと、
前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき計算して前のフレームの背景雑音識別子を得ることと、
前のフレーム調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレーム調性信号マークを計算することと、
前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームオールバンド背景雑音エネルギーを得ることと、を含む。

好ましくは、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重畳値又は直接重畳値であり、
前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比が前の係数をかけるものであり、
前記スペクトル平坦度特徴パラメータは1つ又は複数のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比が1つの係数をかけるものであり、
調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである。

好ましくは、該方法は、
現在フレームが第2フレーム及び第2フレーム後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足すことと、
vad_flagが0であると判定する際に、continuous_speech_num2を0にすることと、を更に含む。

好ましくは、現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0である。

好ましくは、前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、任意の1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を共同VAD判定結果として選択し、以下の条件1〜3のいずれもが満たされない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を共同VAD判定結果として選択することであり、前記論理演算とは「又は」演算或いは「及び」演算を指し、
条件1：平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件2：連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件3：調性信号マークが、1に設定されている、
を含む。

好ましくは、前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、いずれかの条件を満たす際に前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たされない際に前記少なくとも2つの既存のVAD判定結果の論理演算を出力として選択することであり、論理演算とは「又は」演算或いは「及び」演算を指し、
条件1、少なくとも2つの既存のVAD判定結果が、全部で1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。

本発明の実施例は音声活動検出装置を更に提供し、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールを備える。

好ましくは、前記装置はパラメータ取得モジュールを更に備え、前記パラメータ取得モジュールは、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得るように設定される第3パラメータ取得ユニット、及び
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む。

好ましくは、前記パラメータ取得モジュールは、
前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニットを更に含む。

好ましくは、前記パラメータ取得モジュールは、
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
共同VADマークvad_flagマークが1である際に、continuous_speech_num2に1を足し、
vad_flagが0であると判定する際に、continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む。

本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得て、多種のパラメータに基づき総合的にVAD判定を行い、VAD判定の正確さを向上させ、VAD検出が不正確である問題を解決する。

図1は本発明の実施例1による音声活動検出方法のフローチャートである。図2は本発明の実施例2による音声活動検出方法のフローチャートである。図3は本発明の実施例4による音声活動検出装置の構造模式図である。図4は図3におけるパラメータ取得モジュール302の構造模式図である。

VAD検出が不正確である問題を解決するために、本発明の実施例は音声活動検出方法を提供する。以下で、図面を参照して本発明の実施例を詳しく説明する。衝突しない場合に、本出願における実施例及び実施例における特徴を相互に任意で組み合わせることができる。

以下、図面を結合して、本発明の実施例1を説明する。

本発明の実施例は音声活動検出方法を提供して、該方法によってVADを完成する手順は図1に示すように、以下のステップを含み、
ステップ101、少なくとも2種の既存のVADの判定結果を取得し、
ステップ102、現在フレームのサブバンド信号及びスペクトル振幅値を取得し、
本発明の実施例においてフレーム長が20msで、サンプリングレートが32kHzであるオーディオストリームを例として説明する。他のフレーム長とサンプリングレートの条件で、本発明の実施例が提供する音声活動検出方法が同様に適用する。

現在フレーム時間領域信号をフィルタ群ユニットに入力し、サブバンドフィルタリング計算を行い、フィルタ群のサブバンド信号を取得する。

本発明の実施例において1つ40チャンネルのフィルタ群を採用して、本発明の実施例が提供する技術的解決手段は他のチャンネル数のフィルタ群に対して同様に適用する。

その後、フィルタ群サブバンド信号に時間-周波数変換を行い、且つ計算してスペクトル振幅値を得る。

ステップ103、サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得、スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得る。

前記スペクトル重心特徴パラメータは全部又は部分サブバンド信号エネルギーの加重累積値と非加重累積値の比である。

各フィルタ群サブバンドのエネルギーに基づき計算してスペクトル重心特徴パラメータを得、スペクトル重心特徴パラメータはフィルタ群サブバンドエネルギーの加重加算の和とサブバンドエネルギーの直接加算の和との比を求めるか又は他のスペクトル重心特徴パラメータ値を平滑化フィルタリングすることにより得られる。

スペクトル重心特徴パラメータは以下のサブステップを採用して実現する：
1、スペクトル重心特徴パラメータ計算に用いるサブバンド区間を表1に示すように区分する。

前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の希望する比であり、又は該比値に1つ係数を掛ける。

最も新たな複数のフレーム信号のフレームエネルギーパラメータで計算して時間領域安定性特徴パラメータを取得する。本発明の実施例において最も新たな40フレーム信号のフレームエネルギーパラメータを採用して計算して時間領域安定性特徴パラメータを取得する。計算ステップは以下の通りである。

調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連値を計算することにより得られたものであり、又は続いて該関連値を平滑化フィルタリングして得られたものである。

前後の2つのフレームの信号のイントラスペクトル差分係数の関連値の計算方法は以下の通りであり、
スペクトル振幅値に基づき計算して調性特徴パラメータを得、そのうち、調性特徴パラメータは全部スペクトル振幅値又は部分スペクトル振幅値に基づき計算して得られる。
その計算ステップは以下の通りであり、
1、部分（8個のスペクトル係数より小さくない）又は全部スペクトル振幅値と隣接するスペクトル振幅値を差分演算し、且つ差分結果が0より小さい値を0に設定し、1組の非負のスペクトル差分係数を得る。

ステップ104、調性信号マークを計算し、本発明の実施例3における調性信号計算の手順を参照する。

ステップ105、前のフレームで推定して得られたオールバンド背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して平均オールバンド信号対雑音比を得る。

ステップ106、連続的な音声活動フレームの数を取得する。

連続的な音声活動フレーム数continuous_speech_num2はVAD判定結果により計算することができ、初期値を0とし、VADマークvad_flagマークが1である場合continuous_speech_num2に1を加え、vad_flagが0であると判定する場合、continuous_speech_num2を0にする。

ステップ107、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得る。

本ステップにおいて、前記既存のVAD判定結果又は共同VAD判定結果が1である場合は音声活動フレームと示し、前記既存のVAD判定結果又は共同VAD判定結果が0である場合は非音声活動フレームと示す。なお、1、0値で音声活動フレームと非音声活動フレームを示すことは標記方式のみであり、他の値又は他の方式でVAD判定を標記区分する異なる結果の手段はいずれも本発明の実施例の保護範囲の内にある。

以下、2種の実現方法を例として説明し、実施過程は他の共同方法があってよい。

以下の任意の1つの条件を満たす場合は少なくとも2種の既存のVADの判定結果の論理演算を選択して共同VAD判定結果とし、以下のいずれの条件もを満たさない場合は前記少なくとも2種の既存のVAD判定結果における1つの既存のVAD判定結果を選択して共同VAD判定結果とし、そのうち、前記論理演算とは「又は」演算或いは「及び」演算である。

条件1、平均オールバンド信号対雑音比は信号対雑音比閾値より大きい。
条件2、continuous_speech_num2は連続的な音声活動フレーム数閾値より大きいとともに平均オールバンド信号対雑音比は信号対雑音比閾値より大きい。
条件3、調性信号マークを1にする。

前記既存のVAD判定結果又は共同VAD判定結果は1である場合は音声活動フレームとして示し、前記既存のVAD判定結果又は共同VAD判定結果が0である場合は非音声活動フレームとして示し、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
以下の条件1〜3の中、任意の条件を満たす場合は前記共同VAD判定結果が1であり、以下の条件1〜3のいずれもが満たされない場合は前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とすることであり、そのうち、論理演算とは「又は」演算或いは「及び」演算である：
条件1、少なくとも2つの既存のVAD判定結果が、すべて1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きいとともに、調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きいとともに、平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
を含む。

本発明の実施例におけるステップ101〜ステップ106は厳密なタイミング関係がなく（そのうち、ステップ102、103及び104のタイミング順序を逆にすることができない）、本発明の実施例の共同VAD判定を行う場合に必要な連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果を取得する手段であれば、本発明の実施例の保護範囲に属する。

以下、図面を参照しながら、本発明の実施例2を説明する。

図2に示すように、前のフレーム背景雑音エネルギーの計算方法を提出し、前のフレームの背景雑音エネルギーは平均オールバンド信号対雑音比を計算することに用いられる。前のフレームの背景雑音エネルギーの計算手順が現在フレームの背景雑音エネルギーの計算手順と同じであり、本発明の実施例は現在フレームのオールバンド背景雑音エネルギーの計算方法を提出する。

ステップ201、現在フレームのサブバンド信号及びスペクトル振幅値を取得し、計算方法をステップ102に示す。

ステップ202、サブバンド信号に基づき計算して現在のフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータの値を得る。スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得る。計算方法をステップ103に示す。

ステップ203：現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータ計算に基づき現在フレームの背景雑音識別子を得る。背景雑音識別子は現在フレームが雑音信号であるかどうかを示すことに用いられ、雑音信号であると、背景雑音識別子を1にし、そうでないと、0にする。

本発明の実施例は1つの背景雑音識別子background_flagにより現在フレームが背景雑音であるかどうかを指示し、且つ現在フレームが背景雑音であると判定すると、背景雑音識別子background_flagを1に設定し、そうでないと、背景雑音識別子background_flagを0にすると設定する。

時間領域安定性特徴パラメータ、スペクトル重心特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータ、現在フレームエネルギーパラメータに基づき現在フレームが雑音信号であるかどうかを検出する。雑音信号ではないと、背景雑音識別子background_flagを0にする。

ステップ204、調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき調性信号マークを計算し、そのステップは本発明の実施例3における調性信号計算手順を示す。

以下、本発明の実施例3を説明する。

本発明の実施例は音声活動検出方法を提供し、本発明の実施例1と実施例2に提供された技術的解決手段と合わせて、調性信号マークを計算することができることは、
調性特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、スペクトル重心特徴パラメータに基づき現在フレームが調性信号であるかどうかを判断することを含む。

調性信号であるかどうかを判断する場合、以下の操作を実行する：
1、調性フレームマークtonality_ frameで現在フレームが調性フレームであるかどうかを指示する。

本発明の実施例においてtonality_ frameの値が1であることは現在フレームが調性フレームであることを示し、0は現在フレームが非調性フレームであることを示す。

以下、図面を参照しながら、本発明の実施例4を説明する。

本発明の実施例は音声活動検出装置を更に提供し、図3に示すように、該装置は、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュール301を含む。

好ましくは、前記装置はパラメータ取得モジュール302を更に含み、前記パラメータ取得モジュール302の構造は、図4に示すように、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット3021と、
サブバンド信号に基づき計算して現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を得るように設定される第2パラメータ取得ユニット3022と、
スペクトル振幅値に基づき計算してスペクトル平坦度特徴パラメータと調性特徴パラメータの値を得、計算方法が本発明の実施例3を参照することができるように設定される第3パラメータ取得ユニット3023と、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニット3024と、を含む。

好ましくは、前記パラメータ取得モジュール302は、更に、
前のフレームで推定して得られた背景雑音エネルギーを取得し、計算方法が本発明の実施例2を参照してよいように設定される第5パラメータ取得ユニット3025と、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき計算して前記平均オールバンド信号対雑音比を得るように設定される第6パラメータ取得ユニット3026と、を含む。

好ましくは、前記パラメータ取得モジュール302は、
現在フレームが第1フレームである場合、前記連続的な音声活動フレーム数が0であると確定するように設定される第7パラメータ取得ユニット3027を更に含み、
現在フレームが第2フレーム及び第2フレーム以後の音声フレームである場合、前の共同VAD判定結果により現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、共同VADマークvad_flagマークが1である場合continuous_speech_num2に1を加える。

vad_flagが0と判定する場合、continuous_speech_num2を0にする。

好ましくは、前記パラメータ取得モジュール302は更に、
少なくとも2種の既存のVAD判定結果を取得するように設定される第8パラメータ取得ユニット3028を含む。

本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク、少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得、多種のパラメータに基づき総合にVAD判定を行うことを実現し、VAD判定の正確性を向上させ、VADの検出が不正確である問題を解決する。

当業者は、上記実施例の全部又は一部のステップがコンピュータプログラムプロセスで実現することができることを理解することができ、前記コンピュータプログラムはコンピュータ可読記憶媒体に記憶されることができ、前記コンピュータプログラムは対応するハードウェアプラットフォーム（例えばシステム、デバイス、装置、機器等）で実行し、実行する際、方法の実施例のステップの1つ又はその組み合わせを含む。

選択可能に、上記実施例の全部又は一部のステップは集積回路を使用して実現することもでき、これらのステップはそれぞれ1つの集積回路モジュールに製造されるか、又はそれらの中の複数のモジュール又はステップを単一の集積回路モジュールに製造して実現することができる。このように、本発明は任意の特定のハードウェアとソフトウェアの組合せに限定されない。

上記実施例における各装置/機能モジュール/機能ユニットは汎用の計算装置を採用して実現することができ、それらは単一の計算装置に集積されてもよいし、複数の計算装置からなるネットワークに分布されてもよい。

上記実施例における各装置/機能モジュール/機能ユニットはソフトウェア機能モジュールで実現するとともに独立な製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶することができる。上記のコンピュータ読み取り可能な記憶媒体は読み取り専用メモリ、磁気ディスク又はCD等であってよい。

任意の当業者は、本発明に開示された技術範囲内には、簡単に考えられる変換又は切替がいずれも本発明の保護範囲に属すべきである。このため、本発明の保護範囲は請求の範囲に記載の保護範囲を標準とすべきである。

本発明の実施例は音声活動検出方法及び装置を提供し、連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得、多種のパラメータに基づき総合にVAD判定を行うことを実現し、VAD判定の正確性を向上させ、VAD検出が不正確である問題を解決する。

Claims

音声活動検出方法であって、
現在フレームのサブバンド信号及びスペクトル振幅値を取得することと、
サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき調性信号マークを計算することと、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、前記調性信号マーク及び少なくとも2種の既存の音声活動検出（VAD）判定結果に基づき最終的な共同VAD判定結果を得ることと、を含む音声活動検出方法。
前記方法は、
前のフレームで推定して得られた背景雑音エネルギーを取得することと、
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得ることと、を更に含む請求項1に記載の音声活動検出方法。
前記前のフレームで推定して得られた背景雑音エネルギーを取得することは、
前のフレームのサブバンド信号及びスペクトル振幅値を取得することと、
前のフレームのサブバンド信号に基づき前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得ることと、
前のフレームのスペクトル振幅値に基づき前のフレームのスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得ることと、
前のフレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータに基づき前のフレームの背景雑音識別子を計算して得ることと、
前のフレームの調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前のフレームの調性信号マークを計算することと、
前のフレームの背景雑音識別子、フレームエネルギーパラメータ、調性信号マーク、前の第2のフレームのオールバンド背景雑音エネルギーに基づき、前のフレームのオールバンド背景雑音エネルギーを得ることと、を含む請求項2に記載の音声活動検出方法。
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重畳値又は直接重畳値であり、
前記スペクトル重心特徴パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値の比であり、又は前記比を平滑化フィルタリングして得られる値であり、
前記時間領域安定性特徴パラメータは複数の隣接する2つのフレームエネルギー振幅重畳値の分散と複数の隣接する2つのフレームエネルギー振幅重畳値平方の所望の比、又は前記比に1つの係数をかけたものであり、
前記スペクトル平坦度特徴パラメータは一部のスペクトル振幅値の幾何平均と算術平均の比であり、又は前記比に1つの係数をかけたものであり、
前記調性特徴パラメータは前後の2つのフレームの信号のイントラスペクトル差分係数の関連係数を計算して得られ、又は続いて前記関連係数を平滑化フィルタリングして得られたものである請求項3に記載の音声活動検出方法。
該方法は、
現在フレームが第2フレーム及び第2フレーム後の音声フレームの際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算することと、
共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足すことと、
共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にすることと、を更に含む請求項1に記載の音声活動検出方法。
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数continuous_speech_num2が0である請求項8に記載の音声活動検出方法。
前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
条件1：平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件2：連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きい、
条件3：調性信号マークが、1に設定されている、
との条件の中、前記条件1〜3の中のいずれか1つの条件を満たす際に少なくとも2種の既存のVADの判定結果の論理演算を選択して共同VAD判定結果とし、前記条件1〜3のいずれもが満たされない際に前記少なくとも2種の既存のVAD判定結果の中の1つの既存のVAD判定結果を選択して共同VAD判定結果とし、前記論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。
前記既存のVAD判定結果又は共同VAD判定結果が1である際に音声活動フレームとして表示され、前記既存のVAD判定結果又は共同VAD判定結果が0である際に非音声活動フレームとして表示され、前記連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得ることは、
条件1、少なくとも2つの既存のVAD判定結果が、全部で1である、
条件2、少なくとも2つの既存のVAD判定結果の和が、共同判定閾値より大きく、且つ調性信号マークが、1に設定されている、
条件3、連続的な音声活動フレーム数continuous_speech_num2が、連続的な音声活動フレーム数閾値より大きく、且つ平均オールバンド信号対雑音比が、信号対雑音比閾値より大きく、調性信号マークが、1に設定されている、
との条件の中、前記条件1〜3の中のいずれか一つの条件を満たす際に前記共同VAD判定結果が1であり、前記条件1〜3のいずれもが満たされない際に前記少なくとも2つの既存のVAD判定結果の論理演算を選択して出力とし、論理演算とは「又は」演算或いは「及び」演算を指すことを含む請求項1に記載の音声活動検出方法。
音声活動検出装置であって、
パラメータ取得モジュールと、
連続的な音声活動フレーム数、平均オールバンド信号対雑音比、調性信号マーク及び少なくとも2種の既存のVAD判定結果に基づき最終的な共同VAD判定結果を得るように設定される共同判定モジュールと、を備え、
前記パラメータ取得モジュールは、
現在フレームのサブバンド信号及びスペクトル振幅値を取得するように設定される第1パラメータ取得ユニット、
サブバンド信号に基づき現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ及び時間領域安定性特徴パラメータの値を計算して得るように設定される第2パラメータ取得ユニット、
スペクトル振幅値に基づきスペクトル平坦度特徴パラメータと調性特徴パラメータの値を計算して得るように設定される第3パラメータ取得ユニット、及び
調性特徴パラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータに基づき前記調性信号マークを計算するように設定される第4パラメータ取得ユニットを含む音声活動検出装置。
前記パラメータ取得モジュールは、
前のフレームで推定して得られた背景雑音エネルギーを取得するように設定される第5パラメータ取得ユニット、及び
前記前のフレームで推定して得られた背景雑音エネルギー、現在フレームのフレームエネルギーパラメータに基づき前記平均オールバンド信号対雑音比を計算して得るように設定される第6パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。
前記パラメータ取得モジュールは、
現在フレームが第1フレームである際に、前記連続的な音声活動フレーム数が0であると確定し、
現在フレームが第2フレーム及び第2フレームの後の音声フレームである際に、前の共同VAD判定結果によって現在の連続的な音声活動フレーム数continuous_speech_num2を計算し、
共同VADマークvad_flagマークが1である際に、前記連続的な音声活動フレーム数continuous_speech_num2に1を足し、
共同VADマークvad_flagマークが0であると判定された際に、前記連続的な音声活動フレーム数continuous_speech_num2を0にするように設定される第7パラメータ取得ユニットを更に含む請求項12に記載の音声活動検出装置。