JP6635440B2

JP6635440B2 - 音声区間補正フレーム数の取得方法、音声区間検出方法及び装置

Info

Publication number: JP6635440B2
Application number: JP2017566850A
Authority: JP
Inventors: ジュー，チャンバオ; ユエン，ハオ
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-06-26
Filing date: 2015-11-05
Publication date: 2020-01-22
Anticipated expiration: 2035-11-05
Also published as: WO2016206273A1; JP2018523155A; RU2684194C1; US10522170B2; KR20180008647A; CN106328169A; US20180158470A1; EP3316256A4; CA2990328C; EP3316256A1; CA2990328A1; CN106328169B; KR102042117B1

Description

本願は通信分野に関するが、通信分野に制限されない。

正常な音声通話において、ユーザは時には話し、時には聴き、この場合に、通話過程において非音声区間段階は発生することになり、正常な場合に通話の両方の全体の非音声区間段階は通話の両方の全体の音声符号化時間の50%を超える必要がある。非音声区間段階において、背景雑音だけがあり、背景雑音の中で一般的にいかなる有用な情報がない。この事実を利用して、音声周波数信号処理過程において、音声区間検出（Voice Activity Detection、VADと略称）アルゴリズムによって音声区間及び非音声区間を検出して、異なる方法によってそれぞれ処理する。数多くの音声コーディング規約、例えば適応マルチレート（Adaptive Multi-Rate、AMR）、適応マルチレート広帯域（Adaptive Multi-Rate Wideband、AMR-WBと略称）はいずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADはすべての典型背景雑音でいずれも良い性能を達することができない。特に非安定の雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADは誤検出が発生し、対応する処理アルゴリズムに顕著な品質低下が発生することがある。

以下は、本文で詳細的に説明した主題の概要である。本概要は請求項の保護範囲を制限するためのものではない。

本発明の実施例は音声区間検出（VAD）の正確率が低い問題を解決するために、音声区間補正フレーム数の取得方法、音声区間検出方法及び装置を提供する。

本発明の実施例は音声区間補正フレーム数の取得方法を提供し、前記方法は、
オーディオ符号化に用いられる、音声区間補正フレーム数の取得方法であって、現在のフレームの音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得することと、を含み、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するのは、
前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は１つの定数及び前記音声区間保持フレーム数の中の最大値である。

選択的に、前記現在のフレームの音声区間検出判定結果を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得することと、を含む。

選択的に、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータは振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度特性パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものであり、
調性特性パラメータは前後の2つのフレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。

選択的に、前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき前記音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出判定の判定信号対雑音比閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記音声区間検出判定結果を取得することと、を含む。

選択的に、前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき音声区間補正フレーム数を取得するのは、
前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい際に、前記音声区間補正フレーム数は1つの定数及び前記音声区間保持フレーム数の中の最大値であることを含む。

選択的に、前記音声区間保持フレーム数を取得するのは、
前記音声区間保持フレーム数の初期値を設定することを含む。

選択的に、前記音声区間保持フレーム数を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記現在のフレームの音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得することと、を含む。

選択的に、前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を取得するのは、
前記現在のフレームの前の1つのフレームを利用して計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、前記長時間信号対雑音比を計算して取得し、前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、前記平均全帯域信号対雑音比を取得することを含む。

選択的に、前記現在音声区間保持フレーム数を修正する前提条件は、音声区間マークが、前記現在のフレームが音声区間フレームであることを指示することである。

選択的に、前記現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得するのは、
前記音声区間保持フレーム数を取得する際に、前記連続音声フレーム数がある設定された第1閾値より小さく、且つ前記長時間信号対雑音比がある設定された閾値より小さいと、前記音声区間保持フレーム数は最小の連続音声区間フレーム数から前記連続音声フレーム数を引くものに等しく、前記平均全帯域信号対雑音比がある設定された閾値より大きく、且つ前記連続音声フレーム数がある設定された第2閾値より大きいと、前記長時間信号対雑音比の大きさに基づき前記音声区間保持フレーム数の値を設定することを含む。

選択的に、前記背景雑音更新回数を取得するのは、
背景雑音更新識別子を取得することと、
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む。

選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新回数初期値を設定することを含む。

選択的に、前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新識別子は前記現在のフレームが背景雑音であることを指示し、且つ前記背景雑音更新回数が設定された閾値より小さい際に、前記背景雑音更新回数に1を足すことを含む。

選択的に、前記背景雑音更新識別子を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、フレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づき、スペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む。

選択的に、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはフレームエネルギー振幅の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。

選択的に、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得するのは、
前記背景雑音更新識別子を第1予め設定された値として設定することと、
前記時間領域安定性特性パラメータがある設定された閾値より大きいという条件、
前記スペクトル重心特性パラメータ値の平滑化フィルタリング値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値もある設定された閾値より大きいという条件、
前記調性特性パラメータ又は前記調性特性パラメータを平滑化フィルタリングした値がある設定された閾値より大きく、且つ時間領域安定性特性パラメータ値が設定された閾値より大きいという条件、
各サブバンドのスペクトルの平坦度特性パラメータ又は前記各サブバンドのスペクトルの平坦度特性パラメータをそれぞれ平滑化フィルタリングした値がそれぞれに対応する設定された閾値より小さいという条件、
又は、前記フレームエネルギーパラメータの値が設定された閾値より大きいという条件、のうちのいずれかの条件が成立すると、前記現在のフレームが雑音信号ではないことを判断し、且つ前記背景雑音更新識別子を第2予め設定された値として設定することと、を含む。

本発明の実施例は音声区間検出方法を提供し、前記方法は、
オーディオ符号化に用いられる、音声区間検出方法であって、
第１音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算することと、
第２音声区間検出判定結果を取得することと、
前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算することと、を含み、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するのは、
前記第１音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は１つの定数と前記音声区間保持フレーム数の中の最大値である。

選択的に、前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するのは、
前記第２音声区間検出判定結果は前記現在のフレームが非音声区間フレームであること
を指示し、且つ前記音声区間補正フレーム数は０より大きい際に、前記音声区間検出判定結果を音声区間フレームとして設定し、且つ前記音声区間補正フレーム数から１を引くことを含む。

選択的に、前記第1音声区間検出判定結果を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の1つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得することと、を含む。

選択的に、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、或いは前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータは振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度特性パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものであり、
調性特性パラメータは前後の2つのフレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。

選択的に、前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第1音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の1つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出の判定閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記第1音声区間検出判定結果を取得することと、を含む。

選択的に、前記音声区間保持フレーム数を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、前記長時間信号対雑音比、前記平均全帯域信号対雑音比、前記第1音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正することと、を含む。

選択的に、前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得するのは、
前記現在のフレームの前の1つのフレームを利用して計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、前記長時間信号対雑音比を計算して取得し、前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、前記平均全帯域信号対雑音比を取得することを含む。

選択的に、前記現在音声区間保持フレーム数を修正するのは、
連続音声フレーム数がある設定された第1閾値より小さく、且つ前記長時間信号対雑音比がある設定された閾値より小さいと、前記音声区間保持フレーム数は最小の連続音声区間フレーム数から前記連続音声フレーム数を引くものに等しく、前記平均全帯域信号対雑音比がある設定された第2閾値より大きく、且つ前記連続音声フレーム数がある設定された閾値より大きいと、前記長時間信号対雑音比の大きさに基づき前記音声区間保持フレーム数の値を設定することを含む。

選択的に、前記背景雑音更新識別子を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき、フレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む。

選択的に、前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、又は前記比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはフレームエネルギー振幅の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数のスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。

選択的に、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得するのは、
前記背景雑音更新識別子を第1予め設定された値として設定することと、
前記時間領域安定性特性パラメータがある設定された閾値より大きいという条件、
前記スペクトル重心特性パラメータ値の平滑化フィルタリング値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値もある設定された閾値より大きいという条件、
前記調性特性パラメータ又は前記調性特性パラメータを平滑化フィルタリングした値がある設定された閾値より大きく、且つ前記時間領域安定性特性パラメータ値が設定された閾値より大きいという条件、
各サブバンドのスペクトルの平坦度特性パラメータ又は前記各サブバンドのスペクトルの平坦度特性パラメータをそれぞれ平滑化フィルタリングした値がそれぞれに対応する設定された閾値より小さいという条件、
又は、前記フレームエネルギーパラメータの値が設定された閾値より大きいという条件、のうちのいずれかの条件が成立すると、前記現在のフレームが雑音信号ではないことを判断し、且つ前記背景雑音更新識別子を第2予め設定された値として設定することと、を含む。

選択的に、前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき音声区間補正フレーム数を計算するのは、
前記第1音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい際に、前記音声区間補正フレーム数は1つの定数と前記音声区間保持フレーム数の中の最大値であることを含む。

本発明の実施例は音声区間補正フレーム数の取得装置を提供し、前記装置は、
現在のフレームの音声区間検出判定結果を取得するように設定される第1取得ユニット、
音声区間保持フレーム数を取得するように設定される第2取得ユニット、
背景雑音更新回数を取得するように設定される第3取得ユニット、及び
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第4取得ユニットを備える。

本発明の実施例は音声区間検出装置を提供し、前記装置は、
第１音声区間検出判定結果を取得するように設定される第５取得ユニット、
音声区間保持フレーム数を取得するように設定される第６取得ユニット、
背景雑音更新回数を取得するように設定される第７取得ユニット、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第１計算ユニット、
第２音声区間検出判定結果を取得するように設定される第８取得ユニット、及び
前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するように設定される第２計算ユニットを備える。

コンピュータ可読記憶媒体であって、コンピュータ実行可能な命令が記憶され、前記コンピュータ実行可能な命令は上記のいずれか1項の方法を実行することに用いられる。

本発明の実施例は音声区間補正フレーム数の取得方法、音声区間検出方法及び装置を提供し、まず、第1音声区間検出判定結果を取得し、音声区間保持フレーム数を取得し、背景雑音更新回数を取得し、再び前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算して、第2音声区間検出判定結果を取得し、最後に前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、前記音声区間検出判定結果を計算することによって、VAD検出の正確率を向上させることができる。

図面と詳細的な説明を読んで理解した後に、その他の方面を分かることができる。

図1は本発明の実施例1による音声区間検出方法のフローチャートである。図2は本発明の実施例1におけるVAD判定結果を取得する過程模式図である。図3は本発明の実施例2による背景雑音検出方法のフローチャートである。図4は本発明の実施例3によるVAD判定における現在音声区間保持フレーム数の修正方法のフローチャートである。図5は本発明の実施例4による音声区間補正フレーム数の取得方法のフローチャートである。図6は本発明の実施例4による音声区間補正フレーム数の取得装置の構造模式図である。図7は本発明の実施例5による音声区間検出方法のフローチャートである。図8は本発明の実施例5による音声区間検出装置の構造模式図である。

以下、図面を参照して本発明の実施形態を詳細的に説明する。なお、衝突しない場合に、本願における実施例及び実施例における特徴を互いに組み合わせることができる。

図面のフローチャートで示したステップは、例えば1群のコンピュータ実行可能な命令のコンピューターシステムに実行されることができる。且つ、フローチャートで論理的順序を示したが、ある場合に、ここでの順序と異なる順序で示し又は説明したステップを実行することができる。

実施例1
本発明の実施例は音声区間検出方法を提供し、図1に示すように、該方法は下記ステップ101〜105を含む。

ステップ101、現在のフレームのサブバンド信号及びスペクトル振幅を取得する。

本実施例において、フレーム長が20msで、サンプリングレートが32kHzであるオーディオストリームを例として説明する。その他のフレーム長及びサンプリングレートの条件で、本文の方法も同様に適用する。

フィルタ群サブバンド信号に対して時間周波数変換を行い、且つスペクトル振幅を計算して取得する。

ステップ102、サブバンド信号に基づき現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得する。

前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比であり、
各フィルタ群サブバンドのエネルギーに基づきスペクトル重心特性パラメータを計算して取得し、スペクトル重心特性パラメータは、フィルタ群サブバンドエネルギー加重を加算する和とサブバンドエネルギーを直接に加算する和との比を求めること、又はその他のスペクトル重心特性パラメータ値を平滑化フィルタリングすることにより取得するものである。

スペクトル重心特性パラメータは下記サブステップa〜cによって実現することができる。

前記スペクトルの平坦度特性パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。

なお、本発明の実施例において、前記プリセットの複数のスペクトルは技術者の経験に基づき選択された一部のスペクトルであってもよく、実際の状況に応じて選択された一部のスペクトルであってもよい。

本実施例はスペクトル振幅を3つの周波数帯域に分割して、これらの3つの周波数帯域のスペクトルの平坦度特性を計算し、その分割方式は下記の表の通りである。

調性特性パラメータは前後の2フレーム信号のイントラスペクトル差分係数の相関値を計算することによって取得され、又は続いて該相関値を平滑化フィルタリングして取得される。

前後の2フレーム信号のイントラスペクトル差分係数の相関値の計算方法は、
スペクトル振幅に基づき調性特性パラメータを計算して取得し、調性特性パラメータは全部のスペクトル振幅又は一部のスペクトル振幅に基づき計算して得られることができる。

ステップ103、現在のフレームの前の1つのフレームから取得した背景雑音エネルギー、現在のフレームのフレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、現在のフレームの信号対雑音比パラメータを計算して取得する。

現在のフレームの前の1つのフレームの背景雑音エネルギーは既存の方法によって取得されてもよい。

現在のフレームは開始フレームである場合に、信号対雑音比サブバンド背景雑音エネルギーの値はデフォルトの初期値を使用する。現在のフレームの前の1つのフレーム信号対雑音比サブバンド背景雑音エネルギーの推定は、現在のフレームの信号対雑音比サブバンド背景エネルギーの推定の原理と同様であり、現在のフレームの信号対雑音比サブバンド背景エネルギーの推定については、本実施例のステップ107を参照する。現在のフレームの信号対雑音比パラメータは既存の信号対雑音比の計算方法によって実現することができる。選択的に、以下の方法を採用する。

ステップ104、現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータに基づき、現在のフレームの調性マークを計算して取得する。

ステップ105、調性マーク、信号対雑音比パラメータ、スペクトル重心特性パラメータ、フレームエネルギーパラメータに基づき、VAD判定結果を計算して取得し、図2に示すように、ステップは以下のステップ105a〜105gである。

現在のフレームの最終のVAD判定結果を取得する。

なお、実施例1は以下のステップ106〜107を更に含んでもよい。

ステップ106、現在のフレームのVAD判定結果、調性特性パラメータ、信号対雑音比パラメータ、調性マーク、時間領域安定性特性パラメータに基づき、背景雑音更新識別子を計算し、計算方法については後述の実施例2を参照することができる。

ステップ107、背景雑音更新識別子及び現在のフレームのフレームエネルギーパラメータ、現在のフレームの前の1つのフレームの全帯域背景雑音エネルギーに基づき、現在のフレームの背景雑音エネルギーを取得し、前記現在のフレームの背景雑音エネルギーは次のフレーム信号対雑音比パラメータの計算に用いられる。

背景雑音更新識別子に基づき背景雑音更新を行うか否かを判断し、背景雑音更新識別子が1であると、全帯域背景雑音エネルギー推定値と現在のフレーム信号のエネルギーに基づき背景雑音更新を行う。背景雑音エネルギー推定はサブバンド背景雑音エネルギー推定及び全帯域背景雑音エネルギー推定を含む。

実施例2
本発明の実施例は背景雑音検出方法の実施例を更に提供し、図3に示すように、該方法は以下のステップ201〜203を含む。

ステップ201、現在のフレームのサブバンド信号及びスペクトル振幅を取得する。

ステップ202、サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得し、
前記フレームエネルギーパラメータは各サブバンド信号エネルギーの加重重ね合わせ値又は直接重ね合わせ値であり、
前記スペクトル重心特性パラメータは全部又は一部のサブバンド信号エネルギーの加重累積値と非加重累積値との比、又は該比を平滑化フィルタリングして得られた値であり、
前記時間領域安定性特性パラメータはエネルギー振幅重ね合わせ値の分散と振幅重ね合わせ値平方の所望の比、又は該比に1つの係数を乗けるものであり、
前記スペクトルの平坦度パラメータはプリセットの複数の平滑なスペクトル振幅の幾何平均数と算術平均数との比、又は該比に1つの係数を乗けるものである。

ステップ201及びステップ202は以上で同様である方法を採用することができ、ここで繰り返して説明しない。

ステップ203、スペクトル重心特性パラメータ、時間領域安定性特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータ、現在のフレームエネルギーパラメータに基づき背景雑音検出を行い、現在のフレームが背景雑音であるか否かを判断する。

仮に現在のフレームが背景雑音である。

本実施例は背景雑音更新識別子background_flagによって現在のフレームが背景雑音であるか否かを指示し、且つ現在のフレームが背景雑音であることを判断すると、背景雑音更新識別子background_flagを1として設定し（第1予め設定された値）、そうでないと背景雑音更新識別子background_flagを0として設定する（第2予め設定された値）ことを約束する。

時間領域安定性特性パラメータ、スペクトル重心特性パラメータ、スペクトルの平坦度特性パラメータ、調性特性パラメータ、現在のフレームエネルギーパラメータに基づき、現在のフレームが雑音信号であるか否かを検出する。雑音信号ではないと、背景雑音更新識別子background_flagを0とする。

実施例3
本発明の実施例はVAD判定における音声区間保持フレーム数の修正方法を更に提供し、図4に示すように、該方法は以下のステップ301〜303を含む。

理解できるように、現在音声区間保持フレーム数を修正する前提条件は、音声区間マークが、現在のフレームが音声区間フレームであることを指示することである。

実施例4
本発明の実施例は音声区間補正フレーム数の取得方法を提供し、図5に示すように、ステップは以下の401〜404である。

401、本発明の実施例1の方法によって現在のフレーム音声区間検出判定結果を取得する。

402、本発明による実施例3によって音声区間保持フレーム数を取得する。

403、背景雑音更新回数update_countを取得する。ステップは以下の403a〜403bである。
403a、本発明による実施例2によって背景雑音更新識別子background_flagを計算する。
403b、背景雑音更新識別子は背景雑音であることを指示し、且つ背景雑音更新回数が1000より小さいと、背景雑音更新回数に1を足す。背景雑音更新回数の初期値を0として設定する。

404、現在のフレームの音声区間検出判定結果、背景雑音更新回数及び音声区間保持フレーム数に基づき、音声区間補正フレーム数warm_hang_numを取得する。

現在のフレーム音声区間検出判定結果は音声区間フレームであり、且つ背景雑音更新回数は予め設定された閾値、例えば12より小さいと、音声区間補正フレーム数は定数、例えば20及び音声区間保持フレーム数の中の最大値として選択する。

また、405を更に含んでもよく、VAD判定結果に基づき、音声区間補正フレーム数はVAD判定結果を修正し、
VAD判定結果は現在のフレームが非音声区間フレームであることを指示し、且つ音声区間補正フレーム数が0より大きいと、現在のフレームを音声区間フレームとして設定し、同時に音声区間補正フレーム数から1を引く。

前述の音声区間補正フレーム数の取得方法に対応して、本発明の実施例は音声区間補正フレーム数の取得装置60を更に提供し、図6に示すように、該取得装置60は、
現在のフレームの音声区間検出判定結果を取得するように設定される第1取得ユニット61、
音声区間保持フレーム数を取得するように設定される第2取得ユニット62、
背景雑音更新回数を取得するように設定される第3取得ユニット63、及び
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第4取得ユニット64を備える。

本実施例における音声区間補正フレーム数の取得装置の各ユニットの動作フロー及び動作原理については、上記の方法実施例における説明を参照し、ここで繰り返して説明しない。

実施例5
本発明の実施例は音声区間検出方法を提供し、図7に示すように、ステップは以下の501〜505である。

501、本発明の実施例1の方法によって第1音声区間検出判定結果vada_flagを取得し、第2音声区間検出判定結果vadb_flagを取得する。

なお、第2音声区間検出判定結果vadb_flagは既存のいずれかの音声区間検出判定手段によって取得され、既存の音声区間検出判定手段に対して、本文ではここで詳細的に説明しない。

502、本発明による実施例3によって音声区間保持フレーム数を取得する。

503、背景雑音更新回数update_countを取得する。ステップは以下の503a〜503bである。
503a、本発明による実施例2によって背景雑音更新識別子background_flagを計算する。
503b、背景雑音更新識別子は背景雑音であることを指示し、且つ背景雑音更新回数が1000より小さいと、背景雑音更新回数に1を足す。背景雑音更新回数の初期値を0として設定する。

504、vada_flag、背景雑音更新回数及び音声区間保持フレーム数に基づき、音声区間補正フレーム数warm_hang_numを計算し、
vada_flagは音声区間フレームであることを指示し、且つ背景雑音更新回数が12より小さいと、音声区間補正フレーム数は20及び音声区間保持フレーム数の中の最大値として選択する。

505、vadb_flag、音声区間補正フレーム数に基づきVAD判定結果を計算し、
vadb_flagは現在のフレームが非音声区間フレームであることを指示し、且つ音声区間補正フレーム数が0より大きいと、現在のフレームを音声区間フレームとして設定し、同時に音声区間補正フレーム数から1を引く。

前述の音声区間検出方法に対応して、本発明の実施例は音声区間検出装置を更に提供し、図8に示すように、該検出装置80は、
第1音声区間検出判定結果を取得するように設定される第5取得ユニット81、
音声区間保持フレーム数を取得するように設定される第6取得ユニット82、
背景雑音更新回数を取得するように設定される第7取得ユニット83、
前記第1音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第1計算ユニット84、
第2音声区間検出判定結果を取得するように設定される第8取得ユニット85、及び
前記音声区間補正フレーム数及び前記第2音声区間検出判定結果に基づき、前記音声区間検出判定結果を計算するように設定される第2計算ユニット86を備える。

本実施例における音声区間検出装置の各ユニットの動作フロー及び動作原理については、上記の方法実施例における説明を参照し、ここで繰り返して説明しない。

現代の数多くの音声符号化標準、例えばAMR、AMR-WBはいずれもVAD機能をサポートする。効率上で、これらのエンコーダのVADは全部の典型背景雑音で良い性能を達成することができない。特に非安定雑音、例えばオフィス雑音で、これらのエンコーダのVAD効率はいずれも低い。音楽信号に対して、これらのVADには誤検出が発生して、対応する処理アルゴリズムに顕著な品質低下があることがある。

本発明の実施例による技術的解決手段は、既存のVADアルゴリズムの欠点を克服し、VADが不安定雑音に対する検出効率を向上させると同時に音楽検出の正確率も向上させる。これにより、本発明の実施例による技術的解決手段を採用した音声周波数信号処理アルゴリズムはより良い性能を達成することができる。

また、本発明の実施例による背景雑音検出方法によれば、背景雑音の推定はより正確で安定であり、VAD検出の正確率の向上に有利である。本発明の実施例が同時に提供した調性信号検出方法は、調性音楽検出の正確率を向上させる。本発明の実施例が同時に提供した音声区間保持フレーム数の修正方法によれば、異なる雑音及び信号対雑音比で、VADアルゴリズムは性能や効率においてより良いバランスを取ることができる。本発明の実施例が同時に提供したVAD判定における信号対雑音比閾値判定の調整方法によれば、VAD判定アルゴリズムは異なる信号対雑音比でいずれも良い正確率を達成し、品質を確保する場合に、効率を更に向上させることができる。

当業者は、上記実施例の全部又は一部のステップがコンピュータプログラムプロセスで実現することができ、前記コンピュータプログラムがコンピュータ読み取り可能な記憶媒体に記憶されることができ、前記コンピュータプログラムが対応のハードウェアプラットフォーム（例えばシステム、デバイス、装置、機器等）で実行し、実行する際、方法の実施例のステップの1つ又はその組み合わせを含むことを理解することができる。

選択的に、上記実施例の全部又は一部のステップは集積回路を使用して実現することもでき、これらのステップはそれぞれ各集積回路モジュールに製造されるか、又はそれらの中の複数のモジュール又はステップを単一の集積回路モジュールに製造して実現することができる。

上記実施例における装置/機能モジュール/機能ユニットは汎用の計算装置を採用して実現することができ、それらは単一の計算装置に集積されてもよく、複数の計算装置からなるネットワークに分布されてもよい。

上記実施例における装置/機能モジュール/機能ユニットはソフトウェア機能モジュールで実現するとともに独立な製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶することができる。上記コンピュータ読み取り可能な記憶媒体は読み取り専用メモリ、磁気ディスク又はCD等であってもよい。

本発明の実施例による技術的解決手段は、既存のVADアルゴリズムの欠点を克服し、VADが不安定雑音に対する検出効率を向上させると同時に音楽検出の正確率も向上させる。これにより、本発明の実施例による技術的解決手段を採用した音声周波数信号処理アルゴリズムはより良い性能を達成することができる。また、本発明の実施例による背景雑音検出方法によれば、背景雑音の推定はより正確で安定であり、VAD検出の正確率の向上に有利である。本発明の実施例が同時に提供した調性信号検出方法は、調性音楽検出の正確率を向上させる。本発明の実施例が同時に提供した音声区間保持フレーム数の修正方法によれば、異なる雑音及び信号対雑音比で、VADアルゴリズムは性能や効率においてより良いバランスを取ることができる。本発明の実施例が同時に提供したVAD判定における信号対雑音比閾値判定の調整方法によれば、VAD判定アルゴリズムは異なる信号対雑音比でいずれも良い正確率を達成し、品質を確保する場合に、効率を更に向上させることができる。

Claims

オーディオ符号化に用いられる、音声区間補正フレーム数の取得方法であって、現在のフレームの音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得することと、を含み、
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するのは、
前記現在のフレームの音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は１つの定数及び前記音声区間保持フレーム数の中の最大値である音声区間補正フレーム数の取得方法。
前記現在のフレームの音声区間検出判定結果を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の１つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得することと、を含む請求項１に記載の方法。
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の１つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出判定の判定信号対雑音比閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記音声区間検出判定結果を取得することと、を含む請求項２に記載の方法。
前記音声区間保持フレーム数を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記現在のフレームの音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正して前記音声区間保持フレーム数を取得することと、を含む請求項１に記載の方法。
前記背景雑音更新回数を取得するのは、
背景雑音更新識別子を取得することと、
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む請求項１に記載の方法。
前記背景雑音更新識別子を取得するのは、
前記現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む請求項５に記載の方法。
オーディオ符号化に用いられる、音声区間検出方法であって、
第１音声区間検出判定結果を取得することと、
音声区間保持フレーム数を取得することと、
背景雑音更新回数を取得することと、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算することと、
第２音声区間検出判定結果を取得することと、
前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算することと、を含み、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するのは、
前記第１音声区間検出判定結果は音声区間フレームであり、且つ前記背景雑音更新回数は予め設定された閾値より小さい場合、前記音声区間補正フレーム数は１つの定数と前記音声区間保持フレーム数の中の最大値である音声区間検出方法。
前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するのは、
前記第２音声区間検出判定結果は前記現在のフレームが非音声区間フレームであること
を指示し、且つ前記音声区間補正フレーム数は０より大きい際に、前記音声区間検出判定結果を音声区間フレームとして設定し、且つ前記音声区間補正フレーム数から１を引くことを含む請求項７に記載の方法。
前記第１音声区間検出判定結果を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき前記現在のフレームのフレームエネルギーパラメータ、スペクトル重心特性パラメータ及び時間領域安定性特性パラメータを計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータを計算して取得することと、
前記現在のフレームの前の１つのフレームを利用して取得した背景雑音エネルギー、前記フレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーに基づき、前記現在のフレームの信号対雑音比パラメータを計算して取得することと、
前記フレームエネルギーパラメータ、前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータに基づき、前記現在のフレームの調性マークを計算して取得することと、
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第１音声区間検出判定結果を計算して取得することと、を含む請求項７に記載の方法。
前記調性マーク、前記信号対雑音比パラメータ、前記スペクトル重心特性パラメータ、前記フレームエネルギーパラメータに基づき、前記第１音声区間検出判定結果を計算して取得するのは、
前記現在のフレームの前の１つのフレームによって計算して得られた平均長時間音声区間信号エネルギーと平均長時間背景雑音エネルギーとの比によって、長時間信号対雑音比を計算して取得することと、
前記現在のフレームに最も近い複数のフレームの全帯域信号対雑音比の平均値を計算して、平均全帯域信号対雑音比を取得することと、
前記スペクトル重心特性パラメータ、前記長時間信号対雑音比、連続音声区間フレーム個数及び連続雑音フレーム個数に基づき、音声区間検出の判定閾値を取得することと、
前記音声区間検出の判定閾値及び前記信号対雑音比パラメータに基づき、初期の音声区間検出判定結果を計算して取得することと、
前記調性マーク、前記平均全帯域信号対雑音比、前記スペクトル重心特性パラメータ及び前記長時間信号対雑音比に基づき、前記初期の音声区間検出判定結果を修正して、前記第１音声区間検出判定結果を取得することと、を含む請求項９に記載の方法。
前記音声区間保持フレーム数を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づき長時間信号対雑音比及び平均全帯域信号対雑音比を計算して取得し、前記現在のフレームの前の複数のフレームの音声区間検出の判定結果、長時間信号対雑音比、平均全帯域信号対雑音比、前記第１音声区間検出判定結果に基づき、現在音声区間保持フレーム数を修正することと、を含む請求項７に記載の方法。
前記背景雑音更新回数を取得するのは、
背景雑音更新識別子を取得することと、
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算することと、を含む請求項７に記載の方法。
前記背景雑音更新識別子に基づき前記背景雑音更新回数を計算するのは、
前記背景雑音更新識別子は前記現在のフレームが背景雑音であることを指示し、且つ前記背景雑音更新回数は設定された閾値より小さい際に、前記背景雑音更新回数に１を足すことを含む請求項１２に記載の方法。
前記背景雑音更新識別子を取得するのは、
現在のフレームのサブバンド信号及びスペクトル振幅を取得することと、
前記サブバンド信号に基づきフレームエネルギーパラメータ、スペクトル重心特性パラメータ、時間領域安定性特性パラメータの値を計算して取得し、前記スペクトル振幅に基づきスペクトルの平坦度特性パラメータ及び調性特性パラメータの値を計算して取得することと、
前記スペクトル重心特性パラメータ、前記時間領域安定性特性パラメータ、前記スペクトルの平坦度特性パラメータ、前記調性特性パラメータ、前記フレームエネルギーパラメータに基づき背景雑音検出を行い、前記背景雑音更新識別子を取得することと、を含む請求項１２に記載の方法。
現在のフレームの音声区間検出判定結果を取得するように設定される第１取得ユニット、
音声区間保持フレーム数を取得するように設定される第２取得ユニット、
背景雑音更新回数を取得するように設定される第３取得ユニット、及び
前記現在のフレームの音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を取得するように設定される第４取得ユニットを備える音声区間補正フレーム数の取得装置。
第１音声区間検出判定結果を取得するように設定される第５取得ユニット、
音声区間保持フレーム数を取得するように設定される第６取得ユニット、
背景雑音更新回数を取得するように設定される第７取得ユニット、
前記第１音声区間検出判定結果、前記背景雑音更新回数及び前記音声区間保持フレーム数に基づき、音声区間補正フレーム数を計算するように設定される第１計算ユニット、
第２音声区間検出判定結果を取得するように設定される第８取得ユニット、及び
前記音声区間補正フレーム数及び前記第２音声区間検出判定結果に基づき、最終音声区間検出判定結果を計算するように設定される第２計算ユニットを備える音声区間検出装置。