JP6606167B2

JP6606167B2 - 音声区間検出方法及び装置

Info

Publication number: JP6606167B2
Application number: JP2017502979A
Authority: JP
Inventors: ジュー，チャンバオ; ユアン，ハオ
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-07-18
Filing date: 2014-10-24
Publication date: 2019-11-13
Anticipated expiration: 2034-10-24
Also published as: EP3171363B1; CN105261375A; CA2955652C; RU2017103938A; CN105261375B; KR20170035986A; WO2015117410A1; ES2959448T3; CA2955652A1; EP4273861A3; EP3171363A4; US20170206916A1; RU2680351C2; RU2017103938A3; JP2017521720A; KR102390784B1; EP4273861A2; EP3171363A1; US10339961B2

Description

本発明は、通信分野に関し、特に、音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤと略称）方法及び装置に関する。

正常な音声通話中に、ユーザは話したり聞いたりしていて、このような場合、通話中に非音声区間段階が存在し、正常な場合、通話中の両方の非音声区間段階の合計が通話両方の総音声符号化時間の５０%を超える。非音声区間段階において、背景雑音のみが存在し、背景雑音の場合、通常何の有用な情報もない。当該事実を利用して、音声周波数信号の処理において、ＶＡＤアルゴリズムによって音声区間と非音声区間を検出し、異なる方法でそれぞれ処理する。例えば、適応多重レートＡＭＲ(ＡｄａｐｔｉｖｅＭｕｌｔｉｐｌｅＲａｔｅ)、適応多重レート広帯域ＡＭＲ−ＷＢ(ＡｄａｐｔｉｖｅＭｕｌｔｉｐｌｅＲａｔｅ−ＷｉｄｅＢａｎｄ)等の現代の多くの音声符号化標準はＶＡＤ機能を支援している。効率方面から見ると、このような符号器のＶＡＤが全ての典型的な背景雑音で良好の性能を実現できるのではない。特に、非安定的な雑音ではこのような符号器のＶＡＤ効率はいずれも低い。一方、音楽信号に対して、このようなＶＡＤは誤った検出を行うこともあって、対応する処理アルゴリズムの品質を顕著に低下させてしまう。そして、既存のＶＡＤ技術には判定ミスが発生する場合もあって、例えば、一部のＶＡＤ技術が音声セグメント（voice segment）の前の幾つかのフレームでの検出が正確でないことがあれば、ＶＡＤが音声セグメントの後ろの幾つかのフレームでの検出が正確でないこともある。
既存技術における上記問題について、未だに有効な解決案が提示されていない。

既存技術において既存のＶＡＤ方案の検出が正確でない等の技術課題に対し、本発明は、少なくとも上記技術課題を解決できる音声区間検出方法及び装置を提供する。

本発明の一実施例によると、第１特徴組(first feature category)中の少なくとも一つの第１種類の特徴パラメータ(first class feature)と、第２特徴組(second feature category)中の少なくとも一つの第２種類の特徴パラメータ(second class feature)と、少なくとも二つの現存のＶＡＤ判定結果(VAD judgment results)と、を取得することと、ここで、前記第１種類の特徴パラメータと前記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータであって、前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得ることと、を含むＶＡＤ方法を提供する。

前記第１種類の特徴パラメータが、連続音声区間フレームの数量(the number of continuous active frames)、全帯域平均信号対雑音比(the average total signal-to-noise ratio (SNR) of all sub-bands)、調性信号フラグ(the tonality signal flag)の中の少なくも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、前記第２種類の特徴パラメータは、雑音タイプフラグ(the flag of noise type)、平滑長時間平均周波数領域信号対雑音比(the smoothed average long-time frequency domain SNR)、連続雑音フレームの数量(the number of continuous noise frames)、周波数領域信号対雑音比(the frequency domain SNR)の中の少なくとも一つを含むことが好ましい。

前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、ａ）前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値(the initial value of combined VAD)として選択することと、ｂ）前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行することと、ここで、前記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、ｃ）前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とすることと、ｄ）予め設定された条件を満たす場合、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を前記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行することと、ｅ）前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果（the combined VAD judgment result）とすることと、を含むことが好ましい。

前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、ａ）前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択することと、ｂ）前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行することと、ここで、前記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、ｃ）前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とすることと、ｄ）予め設定された条件を満たす場合、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を前記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行することと、ｅ）前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択することと、を含むことが好ましい。

前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、ａ)前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択することと、ｂ)前記雑音タイプフラグが静音を指示する場合、前記平滑長時間平均周波数領域信号対雑音比が閾値を越えていて、且つ前記調性信号フラグが非調性信号を指示する場合、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択することを含み、ここで、前記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであることが好ましい。

前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、ａ)前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択することと、ｂ)前記雑音タイプフラグが非静音を指示し、且つ予め設定された条件を満たす場合、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を前記連合ＶＡＤ判定結果とすることと、を含むことが好ましい。

前記予め設定された条件が、条件１：前記全帯域平均信号対雑音比が第１の閾値を越えていること、条件２：前記全帯域平均信号対雑音比が第２の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、条件３：前記調性信号フラグが調性信号を指示することの中の少なくとも一つを含むことが好ましい。

前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、前記連続雑音フレームの数量が第１の指定閾値を越えていて、且つ前記全帯域平均信号対雑音比が第２の指定閾値未満であると、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＡＮＤ演算を行って、演算結果を前記連合ＶＡＤ検出結果とし、そうでないと、前記少なくとも二つの現存のＶＡＤ判定結果から任意の一つの現存のＶＡＤ判定結果を前記連合ＶＡＤ検出結果として選択することと、を含むことが好ましい。

前記平滑長時間平均周波数領域信号対雑音比と前記雑音タイプフラグを、
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は前記一つ前のフレームの連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、前記一つ前のフレームの第１の予め設定された時間区間での平均長時間音声区間フレームエネルギー（average energy of long-time active frames）と一つ前のフレームの長時間平均背景雑音エネルギー（average energy of long-time background noise）から、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
前記現在フレームの第２の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第２の時間区間での長時間信号対雑音比（the long-time SNR）を計算し、
前記一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は前記現在フレームの前記連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第３の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定することが好ましい。

前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定することが、
雑音タイプを非静音に設定し、前記長時間信号対雑音比が第１の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第２の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含むことが好ましい。

本発明の他の一実施例によると、第１特徴組中の少なくとも一つの第１種類の特徴パラメータと、第２特徴組中の少なくとも一つの第２種類の特徴パラメータと、少なくとも二つの現存のＶＡＤ判定結果とを取得するように構成される取得手段と、ここで、前記第１種類の特徴パラメータと前記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータであって、前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得るように構成される検出手段と、を含む音声区間検出ＶＡＤ装置を提供する。

前記取得手段が、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの前記第１種類の特徴パラメータを取得するように構成される第１の取得ユニットと、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの前記第２種類の特徴パラメータを取得するように構成される第２の取得ユニットと、を含むことが好ましい。

本発明によると、第１特徴組中の第１種類の特徴パラメータ、第２特徴組中の第２種類の特徴パラメータ及び少なくとも二つの現存のＶＡＤ判定結果に基づいて連合検出を行う技術手段を用いて、既存技術においてＶＡＤ方案の検出が正確でない等の技術課題を解決し、ＶＡＤの正確性を向上させ、ユーザ体験を高めることができる。

ここで説明する図面は本発明を一層理解させるためのもので、本願の一部を構成し、本発明に示す実施例及びその説明は本発明を解釈するもので、本発明を限定するものではない。
本発明の実施例に係るＶＡＤ方法を示すフローチャートである。本発明の実施例に係るＶＡＤ装置の構造を示すブロック図である。本発明の実施例に係るＶＡＤ装置の他の構造を示すブロック図である。本発明の実施例１に係るＶＡＤ方法を示すフローチャートである。

以下、図面を参照しつつ実施例を結合して、本発明を詳しく説明する。尚、矛盾しない限り、本願の実施例及び実施例中の特徴は互いに組合せられる。

ＶＡＤ検出が正確でない問題を解決するため、以下の実施例で対応する解決案を提示し、以下詳しく説明する。

図１は本発明の実施例に係るＶＡＤ方法を示すフローチャートである。図１に示すように、該方法はステップＳ１０２〜Ｓ１０４を含む。

第１特徴組（first feature category）（特徴群（feature category）１とも呼ばれる）中の少なくとも一つの第１種類の特徴パラメータと、第２特徴組（second feature category）（特徴群（feature category）２とも呼ばれる）中の少なくとも一つの第２種類の特徴パラメータと、少なくとも二つの現存のＶＡＤ判定結果と、を取得し（ステップＳ１０２）、ここで、上記第１種類の特徴パラメータと上記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータである。

第１種類の特徴パラメータと、第２種類の特徴パラメータと、上記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得る（ステップＳ１０４）。

上記各処理ステップによると、第１特徴組と第２特徴組中の少なくとも一つのパラメータと少なくとも二つの現存のＶＡＤ判定結果に基づいてＶＡＤの連合検出を行うことができるので、ＶＡＤの正確性を向上させることができる。

本実施例において、第１種類の特徴パラメータは、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値である。

第２種類の特徴パラメータは、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つを含む。ここで、平滑長時間平均周波数領域信号対雑音比は、所定の時間内（長時間）の複数の周波数領域信号対雑音比の平均値をとって、且つ平滑化処理を行った後に得た周波数領域信号対雑音比と理解することができる。

ステップＳ１０４の実現方式はさまざまであって、例えば以下の方式で実現することができる：
以下の幾つかの実現方式に記載の判定終了は、ある一つの実現方式のプロセスを終了したことを指し、そのプロセスを終了した後は連合ＶＡＤ判定結果を修正しないことを指すのではない。

第１種類の実現方式：以下のステップで実行する：
ａ）上記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択し、
ｂ）上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のＶＡＤ判定結果中の上記初期値としていないＶＡＤフラグを上記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行し、ここで、上記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
ｃ）上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とし、
ｄ）予め設定された条件を満たす場合、上記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を上記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行し、
ｅ）上記雑音タイプフラグが静音を指示する場合、上記少なくとも二つの現存のＶＡＤ判定結果中の上記初期値としていないＶＡＤフラグを上記連合ＶＡＤ判定結果として選択する。

第２種類の実現方式
ａ）上記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択し、
ｂ）上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のＶＡＤ判定結果中の上記初期値としていないＶＡＤフラグを上記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行し、ここで、上記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
ｃ）上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した上記ＶＡＤ判定結果を上記連合ＶＡＤ判定結果とし、
ｄ）予め設定された条件を満たす場合、上記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を上記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行し、
ｅ）上記少なくとも二つの現存のＶＡＤ判定結果中の上記初期値としていないＶＡＤフラグを上記連合ＶＡＤ判定結果として選択する。

第３種類の実現方式
上記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択し、
上記雑音タイプフラグが静音を指示する場合、上記平滑長時間平均周波数領域信号対雑音比が閾値を越えていて、且つ上記調性信号フラグが非調性信号を指示すると、上記少なくとも二つの現存のＶＡＤ判定結果中の上記初期値としていないＶＡＤフラグを上記連合ＶＡＤ判定結果として選択し、ここで、上記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示する。

第４種類の実現方式
ａ)上記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択し、
ｂ)上記雑音タイプフラグが非静音を指示し、且つ予め設定された条件を満たす場合、上記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を上記連合ＶＡＤ判定結果とする。

尚、第１種類の実現方式、第２種類の実現方式、第４種類の実現方式に記載の予め設定された条件は、以下の中の少なくとも一つを含む：
条件１：上記全帯域平均信号対雑音比が第１の閾値を越えること、
条件２：上記全帯域平均信号対雑音比が第２の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
条件３：上記調性信号フラグが調性信号を指示すること。
尚、第３種類の実現方式と第４種類の実現方式とを結合することができる。

第５種類の実現方式
上記連続雑音フレームの数量が第１の指定閾値を越えていて、且つ上記全帯域平均信号対雑音比が第２の指定閾値未満であると、上記少なくとも二つの現存のＶＡＤ判定結果に論理ＡＮＤ演算を行って、演算結果を上記連合ＶＡＤ検出結果とし、そうでないと、上記少なくとも二つの現存のＶＡＤ判定結果から任意の一つの現存のＶＡＤ判定結果を上記連合ＶＡＤ検出結果として選択する。
尚、第５種類の実現方式と前の四つの実現方式とを結合することができる。

本実施例の一好適な実施例において、上記平滑長時間平均周波数領域信号対雑音比と上記雑音タイプフラグは以下の方式で確定される：

現在フレームの一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は上記一つ前のフレームの連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、上記一つ前のフレームの第１の予め設定された時間区間での平均長時間音声区間フレームエネルギーと一つ前のフレームの長時間平均背景雑音エネルギーから、現在フレームの長時間平均音声区間フレームエネルギーと上記現在フレームの長時間平均背景雑音エネルギーを計算し、
上記現在フレームの第２の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、上記現在フレームの上記第２の時間区間での長時間信号対雑音比を計算し、
上記一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は上記現在フレームの上記連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、上記一つ前のフレームの平均周波数領域信号対雑音比から、上記現在フレームの第３の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
上記長時間信号対雑音比と上記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する。尚、平滑長時間平均周波数領域信号対雑音比は、予め設定された時間区間での平均周波数領域信号対雑音比に平滑化処理を行って得たものである。

雑音タイプフラグの判定について、一好適な実施形態において以下のような形態であることができるが、これに限定されることはない：
雑音タイプを非静音に設定し、上記長時間信号対雑音比が第１の予め設定された閾値を越えていて、且つ上記平滑長時間平均周波数領域信号対雑音比が第２の予め設定された閾値を越えている場合、上記雑音タイプフラグを静音に設定する。

一好適な実施形態において、上記連続音声区間フレームの数量と上記連続雑音フレームの数量を以下の方式で確定することができる：
上記現在フレームが非初期化フレームである場合、上記現在フレームの一つ前のフレームの連合ＶＡＤ判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算し、又は、
上記現在フレームが非初期化フレームである場合、上記一つ前のフレームの少なくとも二つの現存のＶＡＤ判定結果と上記一つ前のフレームの連合ＶＡＤ判定結果から一つのＶＡＤ判定結果を選択し、現在選択された上記ＶＡＤ判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算する。

本実施例の一好適な実施形態において、上記連続音声区間フレームの数量と連続雑音フレームの数量を以下の方式で確定する：
上記一つ前のフレームの連合ＶＡＤ判定結果を指示する又は現在選択された上記ＶＡＤ判定結果を指示するＶＡＤフラグが音声区間フレームを指示する場合、連続音声区間フレームの数量を１加算し、そうでないと、連続音声区間フレームの数量を０に設定し、上記一つ前のフレームの連合ＶＡＤ判定結果を指示する又は現在選択された上記ＶＡＤ判定結果を指示するＶＡＤフラグが非音声区間フレームを指示する場合、連続雑音フレームの数量を１加算し、そうでないと、連続雑音フレームの数量を０に設定する。

本実施例において、さらにＶＡＤ装置を提供し、図２に示すように、該装置は、
第１特徴組中の少なくとも一つの第１種類の特徴パラメータと、第２特徴組中の少なくとも一つの第２種類の特徴パラメータと、少なくとも二つの現存のＶＡＤ判定結果とを取得する取得手段２０と、ここで、上記第１種類の特徴パラメータと上記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータであって、
取得手段２０に接続されて、上記第１種類の特徴パラメータと、上記第２種類の特徴パラメータと、上記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得る検出手段２２と、を含む。

一好適な実施例において、図３に示すように、取得手段２０はさらに、
連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの第１種類の特徴パラメータを取得するように構成される第１の取得ユニット２００と、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの第２種類の特徴パラメータを取得するように構成される第２の取得ユニット２０２と、を含む。

尚、本実施例に記載の上記各手段をソフトウェア又はハードウェアで実現することができ、ハードウェアで実現する場合、一好適な実施形態において、取得手段２０が第１のプロセッサに位置し、検出手段２２が第２のプロセッサ中に位置する方式、又は上記二つの手段を同一のプロセッサに設ける方式で実現することができるが、これに限定されることはない。

上記実施例を一層理解するように、以下、好適な実施例を結合して詳しく説明する。
以下の実施例に記載のＯＲ演算とＡＮＤ演算は以下のように定義する：
二つのＶＡＤ中の任意の一つのＶＡＤ出力フラグが音声区間フレームであると、二つのＶＡＤのＯＲ演算ＯＲの結果は音声区間フレームであって、二つが共に非音声区間フレームである場合、ＯＲ演算ＯＲの結果は非音声区間フレームであって、
二つのＶＡＤ中の任意の一つのＶＡＤ出力フラグが非音声区間フレームであると、二つのＶＡＤのＡＮＤ演算ＡＮＤの結果は非音声区間フレームであって、二つが共に音声区間フレームである場合、ＡＮＤ演算ＡＮＤの結果は音声区間フレームであって、
ここで、以下の実施例に記載のＶＡＤがどのＶＡＤであると明記されていないと、二つの現存のＶＡＤ、又は連合ＶＡＤ、又は対応する機能を実現可能な他のＶＡＤであることを表す。

以下の幾つかの実現方式に記載の判定終了は、ある一つの実現方式のプロセスを終了したことを指し、そのプロセスを終了した後は連合ＶＡＤ判定結果を修正しないことを指すのではない。

実施例１
本実施例においてＶＡＤ方法を提供し、図４に示すように、該方法は以下のステップを含む：
現存の二つのＶＡＤの出力結果を取得する（ステップＳ４０２）。
現在フレームのサブバンド信号及びスペクトル振幅値を取得する（ステップＳ４０４）。

本発明の実施例において、フレームの長さが２０ｍｓで、サンプリング率が３２ｋＨｚであるオーディオストリームを例に具体的に説明する。その他のフレーム長さとサンプリング率の条件でも本発明の実施例で提供する音声区間連合検出方法を応用できる。

現在フレームの時間領域信号をフィルタ組ユニットに入力して、サブバンドフィルタ計算を行って、フィルタ組サブバンド信号を得る。

本実施例において、４０通路のフィルタ組を利用するが、本発明の実施例で提供する技術案は他の通路数のフィルタ組にも適用する。

現在フレームの時間領域信号を４０通路のフィルタ組に入力し、サブバンドフィルタ計算を行って、１６個の時間サンプル点上の４０個のサブバンドのフィルタ組サブバンド信号Ｘ［ｋ、ｌ］を得て、０≦ｋ＜４０、０≦ｌ＜１６であって、ここでｋはフィルタ組サブバンドのインテックスで、その値は係数に対応するサブバンドを表し、ｌは各サブバンドの時間サンプル点のインテックスであって、以下のステップによって実現する：

１：最近の６４０個のオーディオ信号サンプル値をデータバッファに記憶する。
２：データバッファ中のデータを４０個ビット遷移し、最初の４０個のサンプル値をデータバッファから除去し、４０個の新しいサンプル点を０から３９の位置に記憶する。
バッファ中のデータxにウィンドウ係数（Window Coefficient）を掛け算して、数値組ｚを得て、計算式は、
ｚ［ｎ］＝ｘ［ｎ］・Ｗ_qmf［ｎ］;０≦ｎ＜６４０であって、
ここで、Ｗ_qmf はフィルタ組ウィンドウ係数である。

以下の擬似コードを用いて計算して一つの８０点のデータｕを得る。
ｆｏｒ（ｎ＝０；ｎ＜８０；ｎ＋＋）
{ ｕ［ｎ］＝０；
ｆｏｒ（ｊ＝０；ｊ＜８；ｊ＋＋）
{
ｕ［ｎ］＋＝ｚ［ｎ＋ｊ・８０］；
}
}

以下の方程式で計算して数値組ｒとｉを得る：

以下の方程式で計算して一番目の時間サンプル点上の４０個の複素数のサブバンドサンプル値を得て、Ｘ［ｋ、ｌ］＝Ｒ（ｋ）＋ｉＩ（ｋ）,０≦ｋ＜４０、ここで、Ｒ（ｋ）とＩ（ｋ）はそれぞれ、フィルタ組サブバンド信号Ｘの第ｌ個の時間サンプル点上の係数の実数部と虚数部であって、その計算式は、

である。

３：本フレームの全てのデータをフィルタ組によってフィルタ処理するまで、２の計算プロセスを重複して、最後の出力結果がフィルタ組サブバンド信号Ｘ［ｋ、ｌ］である。

４：上記計算プロセスを完成した後、４０個のサブバンドの１６個の時間サンプル点のフィルタ組サブバンド信号Ｘ［ｋ、ｌ］を得て、ここで０≦ｋ＜４０、０≦ｌ＜１６、である。

その後、フィルタ組サブバンド信号に時間周波数変換を行って、計算してスペクトル振幅値を得る。

ここで、フィルタ組サブバンドの全部又はフィルタ組サブバンドの一部に時間周波数変換を行ってスペクトル振幅値を計算すると、いずれも本発明の実施例を実現することができる。本発明の実施例に記載の時間周波数変換方法は、離散フーリエ変換ＤＦＴ(ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ)、高速フーリエ変換ＦＦＴ(ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ)、離散コサイン変換ＤＣＴ(ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ)又は離散サイン変換ＤＳＴ（ＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）であることができる。本発明の実施例においてはＤＦＴを例にしてその実現方法を具体的に説明する。計算プロセスは以下のとおりである：
インテックスが０から９である各フィルタ組サブバンド上の１６個の時間サンプル点データに１６点のＤＦＴ変換を行って、スペクトルの解像度を一層向上させ、また、各周波数点の振幅値を計算して、スペクトル振幅値Ｘ_{DEF_AMP}を得る。

時間周波数変換計算式は、

である。

各周波数点の振幅値は以下のように計算する：
まず、数値組Ｘ_DFT ［ｋ,j］の各点上のエネルギーを計算し、計算式は、

であって、ここで、Ｒｅ（Ｘ_DFT［ｋ,j］）、Ｉｍ（Ｘ_DFT［ｋ,j］）、はそれぞれ、スペクトル係数Ｘ_DFT［ｋ,j］の実数部と虚数部を表す。

ｋが偶数であると、以下の方程式で各周波数点上のスペクトル振幅値を計算する：

ｋが奇数であると、以下の方程式で各周波数点上のスペクトル振幅値を計算する：

Ｘ_{DFT_AMP}は時間周波数変換後のスペクトル振幅値である。

フレームエネルギーパラメータは、各サブバンド信号エネルギーを重み付けして積算した値又は直接に積算した値である（ステップＳ４０６）。

サブバンド信号から計算して現在フレームのフレームエネルギーパラメータを得て、具体的には、
ｓｂ＿ｐｏｗｅｒ［ｋ］＝

０＜＝ｋ＜ｂａｎｄ＿ｎｕｍである。

一定のサブバンド内でエネルギーｓｂ＿ｐｏｗｅｒを積算すると、フレームエネルギー２を得ることができる：
Ｆｒａｍｅ＿ｅｎｅｒｇｙ２＝

フレームエネルギー１はｆｒａｍｅ＿ｅｎｅｒｇｙ＝ｆｒａｍｅ＿ｅｎｅｒｇｙ２＋ｆａｃ＊ｓｂ＿ｐｏｗｅｒ［０］である。

サブバンドを区画すると、信号対雑音比サブバンドを得ることができ、各サブバンド内のエネルギーを積算すると、現在フレームの信号対雑音比サブバンドエネルギーｆｒａｍｅ＿ｓｂ＿ｅｎｅｒｇｙを得ることができる：
ｆｒａｍｅ＿ｓｂ＿ｅｎｅｒｇｙ［ｉ］＝

背景雑音フラグの修正値と現在フレームのフレームエネルギーパラメータ、一つ前のフレームの全帯域背景雑音エネルギーから、サブバンド背景雑音エネルギーと全帯域背景雑音エネルギーを含む現在フレームの背景雑音エネルギーを推定する。背景雑音フラグの計算についてはステップＳ４３０を参照できる。

スペクトル重心特徴パラメータは、全部又は一部のサブバンド信号エネルギーの重み付けして積算した値と重み付けせずに積算した値の比であって、又はその比を平滑化フィルタ処理して得た値である（ステップＳ４０８）。スペクトル重心特徴パラメータは以下のステップで実現できる：
スペクトル重心特徴パラメータの計算に用いられるサブバンド区間を以下のように区画する：

ａのスペクトル重心特徴パラメータ計算区間区画方式と以下の式を用いて、計算して、二つのスペクトル重心特徴パラメータ値を得て、それぞれ、第１の区間スペクトル重心特徴パラメータと第２の区間スペクトル重心特徴パラメータである。

第２の区間スペクトル重心特徴パラメータｓｐ＿ｃｅｎｔｅｒ［２］に平滑化フィルタ演算を行って、平滑スペクトル重心特徴パラメータ値である第２の区間スペクトル重心特徴パラメータ値の平滑化フィルタ値：ｓｐ＿ｃｅｎｔｅｒ［０］＝ｆａｃ＊ｓｐ＿ｃｅｎｔｅｒ［０］＋(１−ｆａｃ)＊ｓｐ＿ｃｅｎｔｅｒ［２］を得た。

時間領域安定性特徴パラメータは、振幅値積算値の分散と振幅値積算値平方と所望の比であって、又はその比に一つの係数を掛け算したものである。最も新しいＮフレーム信号のフレームエネルギーパラメータから、時間領域安定性特徴パラメータを計算する（ステップＳ４１０）。第ｎフレームのフレームエネルギーｆｒａｍｅ＿ｅｎｅｒｇｙがｆｒａｍｅ＿ｅｎｅｒｇｙ［ｎ］であるとすると、その振幅値は

であって、ここで、ｅ＿ｏｆｆｓｅｔは一つのオフセット値であって、その範囲は［０，０．１］である。

現在フレームから前の第Ｎフレームまでの隣接する二つのフレームのエネルギー振幅値を加算し、Ｎ／２個の振幅値積算値を得る：
Ａｍｐ_t2（ｎ）＝Ａｍｐ_t1（−２ｎ）＋Ａｍｐ_t1（−２ｎ−１）；０≦ｎ＜２０;
ここで、ｎ＝０である場合、Ａｍｐ_t1［ｎ］は、現在フレームのエネルギー振幅値を示し、ｎ＜０である場合、Ａｍｐ_t1［ｎ］は現在フレームから前のｎフレームのエネルギー振幅値を示す。

最も接近するＮ／２個の振幅値積算値の分散と平均エネルギーの比を計算して、時間領域安定性特徴パラメータｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅを得る。その計算方程式は、

である。
Ｎが異なる値であると、異なる時間領域の安定性を計算することができる。

調性特徴パラメータは、前後の二つのフレーム信号のフレーム内のスペクトル差分係数の関連値を計算して得られるものであって、又は継続して該関連値に平滑化フィルタ処理を行って得られるものである。調性特徴パラメータをスペクトル振幅値を利用して計算する（ステップＳ４１２）。その計算ステップは以下のようである：

ａ)隣接するスペクトル振幅値に差分演算を行って、差分結果が０未満である値を０にセットして、１組の負ではないスペクトル差分係数ｓｐｅｃ＿ｌｏｗ＿ｄｉｆ［］を得る。
ｂ)ステップａで算出した現在フレームの負ではないスペクトル差分係数と一つ前のフレームの負ではないスペクトル差分係数の関連係数を求めて、第１の調性特徴パラメータ値を得る。その計算方程式は、

である。

ここで、ｐｒｅ＿ｓｐｅｃ＿ｌｏｗ＿ｄｉｆは、一つ前のフレームのスペクトル差分係数である。以下の式で各種類の調性特徴パラメータを計算することができる:
ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［０］＝ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ;
ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［１］＝ｐｒｅ＿ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［１］＊０．９６ｆ＋ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ＊０．０４ｆ;
ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［２］＝ｐｒｅ＿ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［２］＊０．９０ｆ＋ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ＊０．１ｆ;
ここで、ｐｒｅ＿ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅは、一つ前のフレームの調性特徴パラメータである。

スペクトル平坦度特徴パラメータは、一部のスペクトル振幅値の幾何平均数と算術平均数の比であって、又はその比に一つの係数を掛け算したものである。スペクトル振幅値ｓｐｅｃ＿ａｍｐ［］に平滑化処理を行って、平滑化後の振幅スペクトル：ｓｍｏｏｔｈ＿ｓｐｅｃ＿ａｍｐ[i]＝ｓｍｏｏｔｈ＿ｓｐｅｃ＿ａｍｐ［ｉ］＊ｆａｃ＋ｓｐｅｃ＿ａｍｐ［ｉ］＊（１−ｆａｃ）を得て、ここで、０＜＝ｉ＜ＳＰＥＣ＿ＡＭＰ＿ＮＵＭであって、平滑化した振幅スペクトルを三つのバンドに区画し、当該三つのバンドのスペクトル平坦度特徴を計算する（ステップＳ４１４）。表２にスペクトル平坦度バンド区画を示す。

スペクトル平坦度は、スペクトル振幅又は平滑スペクトル振幅の幾何平均数gｅo＿mｅａｎ[ｋ]と算数平均数ａｒｉ＿ｍｅａｎ［ｋ］の比である。Ｎ[ｋ]＝ｓｐｅｃ＿ａｍｐ＿ｅｎｄ［ｋ］−ｓｐｅｃ＿ａｍｐ＿ｓｔａｒｔ［ｋ］＋１が、スペクトル平坦度ＳＦＦ[ｋ]を計算する振幅スペクトルの数量であるとする。

ＳＦＦ［ｋ］＝ｇｅｏ＿ｍｅａｎ［ｋ］／ａｒｉ＿ｍｅａｎ［ｋ］

現在フレームのスペクトル平坦度にさらに平滑化処理を行って、平滑化後のスペクトル平坦度ｓＳＦＭ［ｋ］＝ｆａｃ＊ｓＳＦＭ［ｋ］＋(１−ｆａｃ)ＳＦＦ［ｋ］を得る。

一つ前のフレームの推定した背景雑音エネルギー、現在フレームのフレームエネルギーパラメータ及び信号対雑音比サブバンドエネルギーから、現在フレームの信号対雑音比パラメータを計算する（ステップＳ４１６）。周波数領域信号対雑音比の計算ステップは以下のようである：

一つ前のフレームの背景雑音フラグが１である場合、サブバンド背景雑音エネルギーを更新し、更新用の擬似コードは、
ｓｂ＿ｂｇ＿ｅｎｅｒｇｙ［ｉ］＝ｓｂ＿ｂｇ＿ｅｎｅｒｇｙ［ｉ］＊０.９０ｆ＋ｆｒａｍｅ＿ｓｂ＿ｅｎｅｒｇｙ［ｉ］＊０．１ｆである。

現在フレームのサブバンドエネルギーと一つ前のフレームの推定したサブバンド背景雑音エネルギーから、各サブバンドの信号対雑音比を計算し、各サブバンドの信号対雑音比が一定の閾値未満であると０にセットし、具体的には、
ｓｎｒ＿ｓｕｂ［ｉ］＝ｌｏｇ２（（ｆｒａｍｅ＿ｓｂ＿ｅｎｅｒｇｙ［ｉ］＋０.０００１ｆ)／(ｓｂ＿ｂｇ＿ｅｎｅｒｇｙ［ｉ］＋０．０００１ｆ))で、ｓｎｒ＿ｓｕｂ［ｉ］が−０.１未満であると、０にセットする。

全てのサブバンドの信号対雑音比の平均値が周波数領域信号対雑音比ｓｎｒである。具体的には、

である。

長時間平滑周波数領域信号対雑音比と長時間信号対雑音比ｌｔ＿ｓｎｒ＿ｏｒｇに基づいて、雑音タイプフラグを取得する（ステップＳ４１８）。

長時間信号対雑音比は、平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーの比率である。一つ前のフレームのＶＡＤフラグに基づいて、平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーを更新し、ＶＡＤフラグが非音声区間フレームである場合、長時間平均背景雑音エネルギーを更新し、ＶＡＤフラグが音声区間フレームである場合、平均長時間音声区間フレームエネルギーを更新し、具体的には、
平均長時間音声区間フレームエネルギー：ｌｔ＿ａｃｔｉｖｅ＿ｅｎｇ＝ｆｇ＿ｅｎｅｒｇｙ／ｆｇ＿ｅｎｅｒｇｙ＿ｃｏｕｎｔで、
長時間平均背景雑音エネルギー：ｌｔ＿ｉｎａｃｔｉｖｅ＿ｅｎｇ＝ｂｇ＿ｅｎｅｒｇｙ／ｂｇ＿ｅｎｅｒｇｙ＿ｃｏｕｎｔであって、
ここで、

で、iは音声区間フレームインテックス値である。

で、jは非音声区間フレームインテックス値である。

長時間信号対雑音比：ｌｔ＿ｓｎｒ＿ｏｒｇ＝ｌｏｇ１０（ｌｔ＿ａｃｔｉｖｅ＿ｅｎｇ／ｌｔ＿ｉｎａｃｔｉｖｅ＿ｅｎｇ）で、
雑音タイプの初期値を非静音に設定し、ｌｆ＿ｓｎｒ＿ｓｍｏｏｔｈが設定された閾値ＴＨＲ１を越えていて、且つｌｔ＿ｓｎｒ＿ｏｒｇが設定された閾値ＴＨＲ２を越えている場合、雑音タイプを静音に設定する。
ここで、ｌｆ＿ｓｎｒ＿ｓｍｏｏｔｈの計算プロセスはステップＳ４２０を参照できる。

ステップＳ４１８に記載のＶＡＤの選択は二つのＶＡＤ中の一つのＶＡＤを選択することであるが、二つのＶＡＤ中の一つのＶＡＤを選択することに限定されず、連合ＶＡＤを選択することもできる。

以下の方法で平滑長時間平均周波数領域信号対雑音比ｌｆ＿ｓｎｒ＿ｓｍｏｏｔｈを計算する（ステップＳ４２０）。

ｌｆ＿ｓｎｒ＿ｓｍｏｏｔｈ＝ｌｆ＿ｓｎｒ＿ｓｍｏｏｔｈ＊ｆａｃ＋(１−ｆａｃ)＊ｌ＿ｓｎｒ;
ここで、ｌ＿ｓｎｒ＝ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ／ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＿ｃｏｕｎｔ−ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ／ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＿ｃｏｕｎｔで、
ここで、ｌ＿ｓｐｅｅｃｈ＿ｓｎｒとｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＿ｃｏｕｎｔは、音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターで、ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒとｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＿ｃｏｕｎｔは、非音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターである。現在フレームが初期フレームである場合、初期化を行う：
ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＝０.５ｆ;
ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＝５.０ｆ;
ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＿ｃｏｕｎｔ＝１;
ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＿ｃｏｕｎｔ＝１;

現在フレームが初期フレームではない場合、あるＶＡＤ判定フラグに基づいて、以上の四つのパラメータを更新する。ＶＡＤフラグが現在が非音声区間フレームであることを指示する場合、以下の方式で更新する：
ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＝ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＋ｓｎｒ;
ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＿ｃｏｕｎｔ＝ｌ＿ｓｉｌｅｎｃｅ＿ｓｎｒ＿ｃｏｕｎｔ＋１。

ＶＡＤフラグが現在フレームが音声区間フレームであることを指示する場合、
ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＝ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＋ｓｎｒ;
ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＿ｃｏｕｎｔ＝ｌ＿ｓｐｅｅｃｈ＿ｓｎｒ＿ｃｏｕｎｔ＋１である。

ステップＳ４２０に記載のＶＡＤの選択は二つのＶＡＤ中の一つのＶＡＤを選択することであるが、二つのＶＡＤ中の一つのＶＡＤを選択することに限定されず、連合ＶＡＤを選択することもできる。

第１フレームである場合、連続雑音フレームの数量を一つの初期値に設定し、本実施例においては０に設定する。第２フレーム及びその以降のフレームである場合、ＶＡＤによって非音声区間フレームであると判定された場合、連続雑音フレームの数量を１加算し、そうでないと、連続雑音フレームの数量を０に設定する（ステップＳ４２２）。

ステップＳ４２２に記載のＶＡＤの選択は二つのＶＡＤ中の一つのＶＡＤを選択することであるが、二つのＶＡＤ中の一つのＶＡＤを選択することに限定されず、連合ＶＡＤを選択することもできる。

現在フレームのフレームエネルギーパラメータ、調性特徴パラメータｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ、時間領域安定性特徴パラメータｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ、スペクトル平坦度特徴パラメータｓＳＦＭ、スペクトル重心特徴パラメータｓｐ＿ｃｅｎｔｅｒから、現在フレームの調性フラグを計算し、現在フレームが調性信号であるか否かを判定する。調性信号であると判定された場合、音楽フレームであると認める（ステップＳ４２４）。以下の操作を実行する：

ａ)現在フレームの信号が非調性信号であって、一つの調性フレームフラグｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｆｒａｍｅで現在フレームが調性フレームであるか否かを指示すると仮説する。ｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｆｒａｍｅの値が１であると、現在フレームが調性フレームであることを示す、０であると、現在フレームが非調性フレームであることを示し、

ｂ)調性特徴パラメータｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［０］又はその平滑化フィルタ後ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［１］の値が対応する設定された閾値を越えるか否かを判定し、上記条件中の少なくとも一つが成立すると、ステップｃ)を実行し、そうでないと、ステップｄ)を実行し、

ｃ)時間領域安定性特徴パラメータ値ｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］が設定された閾値未満であって、スペクトル重心特徴パラメータ値ｓｐ＿ｃｅｎｔｅｒ［０］が設定された閾値を超えていて、且つ三つのスペクトル平坦度中の一つが対応する閾値未満であると、現在フレームが調性フレームであると判定し、調性フレームフラグｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｆｒａｍｅの値を１に設定し、継続してステップｄ)を実行し、

ｄ)調性フレームフラグｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｆｒａｍｅに基づいて、調性程度特徴パラメータｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅを更新し、ここで、調性程度パラメータｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅの初期値は音声区間検出装置が動作を開始する際に設定され、その範囲は[０，１]であって、
現在の調性フレームフラグが、現在フレームが調性フレームであることを指示すると、以下の方程式で調性程度特徴パラメータｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅを更新する：

ｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅ＝ｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅ＊ｆａｃ＋（１−ｆａｃ）。
現在フレームが調性フレームではないと、以下の式でｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅを更新する：
ｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅ＝ｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅ＊ｆａｃ。

ｅ）更新後の調性程度特徴パラメータｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅに基づいて、現在フレームが調性信号であるか否かを判定し、調性フラグｍｕｓｉｃ＿ｂａｃｋｇｏｕｎｄ＿ｆの値を設定し、
調性程度特徴パラメータｍｕｓｉｃ＿ｂａｃｋｇｒｏｕｎｄ＿ｒａｔｅがある設定された閾値を越えていると、現在フレームが調性信号であると判定し、そうでないと、現在フレームが非調性信号であると判定する。

全帯域平均信号対雑音比は、幾つかのフレームの全帯域信号対雑音比の平均値である。以下の方法で計算する（ステップＳ４２６）。

一つ前のフレームの背景雑音フラグが１である場合、現在フレームのエネルギーを全帯域背景雑音エネルギーのアキュムレータｔ＿ｂｇ＿ｅｎｅｒｇｙ＿ｓｕｍに積算し、全帯域背景雑音エネルギーのカウンターｔｂｇ＿ｅｎｅｒｇｙ＿ｃｏｕｎｔの値に１を加算する；

全帯域背景雑音エネルギーｔ＿ｂｇ＿ｅｎｅｒｇｙ＝ｔ＿ｂｇ＿ｅｎｅｒｇｙ＿ｓｕｍ／ｔｂｇ＿ｅｎｅｒｇｙ＿ｃｏｕｎｔである。
現在フレームのフレームエネルギーから、現在フレームの全帯域信号対雑音比を計算する：
ｔｓｎｒ＝ｌｏｇ２（ｆｒａｍｅ＿ｅｎｅｒｇｙ＋０．０００１ｆ）／(ｔ＿ｂｇ＿ｅｎｅｒｇｙ＋０．０００１ｆ);
幾つかのフレームの全帯域信号対雑音比の平均をとって、全帯域平均信号対雑音比を得る。

ここで、Ｎは最も接近するＮフレームで、ｔｓｎｒ［ｉ］は第ｉフレームのｔｓｎｒを示す。

連続音声区間フレームの数量は、第１フレームの場合に初期値に設定する。本実施例において０に設定する。現在フレームが第２フレーム及び第２フレーム以降の音声フレームである場合、ＶＡＤ判定結果から、現在の連続音声区間フレームの数量を計算し（ステップＳ４２８）、具体的には、
ＶＡＤフラグが１である場合、連続音声区間フレームの数量に１を加算し、そうでないと、連続音声区間フレームの数量を０に設定する。

ステップＳ４２８に記載のＶＡＤの選択は二つのＶＡＤ中の一つのＶＡＤを選択することであるが、二つのＶＡＤ中の一つのＶＡＤを選択することに限定されず、連合ＶＡＤを選択することもできる。

現在フレームのフレームエネルギーパラメータ、スペクトル重心特徴パラメータ、時間領域安定性特徴パラメータ、スペクトル平坦度特徴パラメータ、調性特徴パラメータから、現在フレームの初期背景雑音フラグを計算し、現在フレームのＶＡＤ判定結果、調性特徴パラメータ、信号対雑音比パラメータ、調性フラグ、時間領域安定性特徴パラメータに基づいて、初期背景雑音フラグを修正して、最終的な背景雑音フラグを得て、背景雑音フラグに基づいて背景雑音検出を行う（ステップＳ４３０）。

背景雑音フラグは、背景雑音エネルギーの更新を行うか否かを指示するもので、その値は１又は０であって、１である場合、背景雑音エネルギーの更新を行い、０である場合は背景雑音エネルギーの更新を行わない。

まず、現在フレームが背景雑音フレームであるとすると、以下のいずれかの条件が成立する場合、現在フレームが雑音信号ではないと判定する：
ａ）、時間領域安定性パラメータｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］が設定された閾値を越えていて、その閾値範囲は０.０５〜０.３０である。

ｂ）、スペクトル重心ｓｐ＿ｃｅｎｔｅｒ［０］と時間領域安定性ｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］がそれぞれ対応する閾値を越えていて、ｓｐ＿ｃｅｎｔｅｒ［０］とｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］の閾値範囲はそれぞれ、２〜６、０.００１〜０.１である。

ｃ）、調性特徴パラメータｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［１］と時間領域安定性ｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］がそれぞれ対応する閾値を越えていて、ｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅ［１］とｌｔｄ＿ｓｔａｂｌｅ＿ｒａｔｅ［５］の閾値範囲はそれぞれ０.４〜０.６、０.０５〜０.１５である。

ｄ）、各サブバンドのスペクトル平坦度特徴パラメータ又はそれぞれの平滑化フィルタ後の値がいずれもそれぞれに対応する設定された閾値未満であって、その閾値範囲は０.７０〜０.９２である。

ｅ）、現在フレームのエネルギーｆｒａｍｅ＿ｅｎｅｒｇｙが設定された閾値を越えていて、その閾値範囲は５０〜５００であって、又は長時間平均エネルギーによって動的閾値を設定する。
ｆ）、調性特徴パラメータｆ＿ｔｏｎａｌｉｔｙ＿ｒａｔｅが対応する閾値を越えている。

ｇ）、ａ)〜ｆ)ステップによって、初期背景雑音フラグを得て、その後、初期背景雑音フラグを修正し、信号対雑音比パラメータ、調性特徴パラメータ、時間領域安定性特徴パラメータが対応する閾値未満であって、同時にｖａｄ＿ｆｌａｇとｍｕｓｉｃ＿ｂａｃｋｇｏｕｎｄ＿ｆが０に設定されると、背景雑音フラグを１に更新する。

ステップＳ４３０に記載のＶＡＤの選択は二つのＶＡＤ中の一つのＶＡＤを選択することであるが、二つのＶＡＤ中の一つのＶＡＤを選択することに限定されず、連合ＶＡＤを選択することもできる。

特徴群１中の少なくとも一つの特徴と、特徴群２中の少なくとも一つの特徴と、２種類の現存の音声区間検出（ＶＡＤ）判定結果から、最終的な連合ＶＡＤ判定結果を得る（ステップＳ４３２）。

現存の二つのＶＡＤがＶＡＤ＿ＡとＶＡＤ＿Ｂであって、出力フラグがｖａｄａ＿ｆｌａｇとｖａｄｂ＿ｆｌａｇであって、連合ＶＡＤの出力フラグがｖａｄ＿ｆｌａｇで、ＶＡＤフラグが０であると非音声区間フレームを示し、１であると音声区間フレームを示すと仮設する。具体的に以下のように判定する：

ｖａｄｂ＿ｆｌａｇをｖａｄ＿ｆｌａｇ初期値として選択し、
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば０.２を超えていて、且つ連合ＶＡＤの初期値ｖａｄ＿ｆｌａｇが０であると、ｖａｄａ＿ｆｌａｇを連合ＶＡＤの出力として選択し、判定を終了し、そうでないと、ステップｃ)を実行する。

平滑長時間平均周波数領域信号対雑音比が設定された閾値である例えば１０.５未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択したｖａｄ＿ｆｌａｇ初期値を連合ＶＡＤ判定結果とし、
以下の条件の中のいずれかを満たす場合、二つのＶＡＤの論理ＯＲ演算結果を連合ＶＡＤの出力として選択し、判定を終了し、そうでないと、ステップｅ)を実行し、

条件１：全帯域平均信号対雑音比が閾値１、例えば２.２を超えている；
条件２：全帯域平均信号対雑音比が閾値２、例えば１.５を超えていて、且つ連続音声区間フレームの数量が閾値、例えば４０を越えている；
条件３：調性信号フラグが１である；
雑音タイプが静音であると、ｖａｄａ＿ｆｌａｇを連合ＶＡＤの出力として選択し、判定を終了する。

実施例２：
実施例１のステップＳ４３２において、以下の方式で実施することもできる：
特徴群１中の少なくとも一つの特徴と、特徴群２中の少なくとも一つの特徴と、２種類の現存の音声区間検出（ＶＡＤ）判定結果から、最終的な連合ＶＡＤ判定結果を得る。

現存の二つのＶＡＤがＶＡＤ＿ＡとＶＡＤ＿Ｂであって、出力フラグがｖａｄａ＿ｆｌａｇとｖａｄｂ＿ｆｌａｇであって、連合ＶＡＤの出力フラグがｖａｄ＿ｆｌａｇで、ＶＡＤフラグが０であると非音声区間フレームを示し、１であると音声区間フレームを示すと仮設する。具体的に以下のように判定する：
ｖａｄｂ＿ｆｌａｇをｖａｄ＿ｆｌａｇ初期値として選択し、
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば０.２を超えていて、且つ連合ＶＡＤの初期値ｖａｄ＿ｆｌａｇが０であると、ｖａｄａ＿ｆｌａｇを連合ＶＡＤの出力として選択し、判定を終了し、そうでないと、ステップｃ)を実行し、
平滑長時間平均周波数領域信号対雑音比が設定された閾値未満である例えば１０.５未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)中のｖａｄ＿ｆｌａｇ初期値を連合ＶＡＤ判定結果とし、
以下の条件の中のいずれかを満たす場合、二つのＶＡＤの論理ＯＲ演算結果を連合ＶＡＤの出力として選択し、判定を終了し、そうでないと、ステップｅ)を実行し、
条件１：全帯域平均信号対雑音比が閾値１、例えば２.０を超えている；
条件２：全帯域平均信号対雑音比が閾値２、例えば１.５を超えていて、且つ連続音声区間フレームの数量が閾値、例えば３０を越えている；
条件３：調性信号フラグが１である；
ｖａｄａ＿ｆｌａｇを連合ＶＡＤの出力として選択し、判定を終了する。

実施例３：
実施例１ステップＳ４３２において、以下の方式で実施することもできる：
特徴群１中の少なくとも一つの特徴と、特徴群２中の少なくとも一つの特徴と、２種類の現存の音声区間検出（ＶＡＤ）判定結果から、最終的な連合ＶＡＤ判定結果を得る。

現存の二つのＶＡＤがＶＡＤ＿ＡとＶＡＤ＿Ｂであって、出力フラグがｖａｄａ＿ｆｌａｇとｖａｄｂ＿ｆｌａｇであって、連合ＶＡＤの出力フラグがｖａｄ＿ｆｌａｇで、ＶＡＤフラグが０であると非音声区間フレームを示し、１であると音声区間フレームを示すと仮設する。具体的に以下のように判定する：
ｖａｄｂ＿ｆｌａｇをｖａｄ＿ｆｌａｇ初期値として選択し、
雑音タイプが静音であると、ステップｃ)を実行し、そうでないと、ステップｄ)を実行し、
平滑長時間周波数領域信号対雑音比が１２.５を超えていて、且つｍｕｓｉｃ＿ｂａｃｋｇｏｕｎｄ＿ｆが０であると、ｖａｄ＿ｆｌａｇをｖａｄａ＿ｆｌａｇに設定し、そうでないと、ステップａ)にて選択したｖａｄ＿ｆｌａｇ初期値を連合ＶＡＤ判定結果とし、
全帯域平均信号対雑音比が２.０を超えていると、又は全帯域平均信号対雑音比が１.５を超えていて、且つ連続音声区間フレームの数量が３０を超えていると、又は調性信号フラグが１であると、二つのＶＡＤの論理ＯＲ演算ＯＲ(ｖａｄａ＿ｆｌａｇ, ｖａｄｂ＿ｆｌａｇ)を連合ＶＡＤの出力として選択し、そうでないと、ステップａ)にて選択したｖａｄ＿ｆｌａｇ初期値を連合ＶＡＤ判定結果とする。

実施例４：
実施例１のステップＳ４３２において、以下の方式で実施することもできる：
特徴群１中の少なくとも一つの特徴と、特徴群２中の少なくとも一つの特徴と、２種類の現存の音声区間検出（ＶＡＤ）判定結果から、最終的な連合ＶＡＤ判定結果を得る。

現存の二つのＶＡＤがＶＡＤ＿ＡとＶＡＤ＿Ｂであって、出力フラグがｖａｄａ＿ｆｌａｇとｖａｄｂ＿ｆｌａｇであって、連合ＶＡＤの出力フラグがｖａｄ＿ｆｌａｇで、ＶＡＤフラグが０であると非音声区間フレームを示し、１であると音声区間フレームを示すと仮設する。具体的に以下のように判定する：
ｖａｄｂ＿ｆｌａｇをｖａｄ＿ｆｌａｇ初期値として選択し、
雑音タイプが静音であると、ステップｃ)を実行し、そうでないと、ステップｄ)を実行し、
平滑長時間平均周波数領域信号対雑音比が１２.５を超えていて、且つｍｕｓｉｃ＿ｂａｃｋｇｏｕｎｄ＿ｆが０であると、ｖａｄ＿ｆｌａｇをｖａｄａ＿ｆｌａｇに設定し、そうでないと、ステップｅ)を実行し、
全帯域平均信号対雑音比が１.５を超えていると、又は全帯域平均信号対雑音比が１.０を超えていて、且つ連続音声区間フレームの数量が３０を超えていると、又は調性信号フラグが１であると、二つのＶＡＤの論理ＯＲ演算ＯＲ(ｖａｄａ＿ｆｌａｇ,ｖａｄｂ＿ｆｌａｇ)を連合ＶＡＤの出力として選択し、そうでないと、ステップｅ)を実行し、
連続雑音フレームの数量が１０を超えていて、且つ全帯域平均信号対雑音比が０.１未満であると、二つの現存のＶＡＤ出力フラグのＡＮＤ演算ＡＮＤ(ｖａｄａ＿ｆｌａｇ,ｖａｄｂ＿ｆｌａｇ)を連合ＶＡＤの出力として選択し、そうでないと、ｖａｄｂ＿ｆｌａｇを連合ＶＡＤの出力として選択する。

実施例５：
実施例１のステップＳ４３２において、以下の方式で実施することもできる：
特徴群１中の少なくとも一つの特徴と、特徴群２中の少なくとも一つの特徴と、２種類の現存の音声区間検出（ＶＡＤ）判定結果から、最終的な連合ＶＡＤ判定結果を得る。

現存の二つのＶＡＤがＶＡＤ＿ＡとＶＡＤ＿Ｂであって、出力フラグがｖａｄａ＿ｆｌａｇとｖａｄｂ＿ｆｌａｇであって、連合ＶＡＤの出力フラグがｖａｄ＿ｆｌａｇで、ＶＡＤフラグが０であると非音声区間フレームを示し、１であると音声区間フレームを示すと仮設する。具体的に以下のように判定する：
ｖａｄｂ＿ｆｌａｇをｖａｄ＿ｆｌａｇ初期値として選択し、
雑音タイプが静音であると、ステップｃ)を実行し、そうでないと、ステップｄ)を実行し、
ｍｕｓｉｃ＿ｂａｃｋｇｏｕｎｄ＿ｆが０であると、二つのＶＡＤの論理ＯＲ演算ＯＲ(ｖａｄａ＿ｆｌａｇ,ｖａｄｂ＿ｆｌａｇ)を連合ＶＡＤの出力として選択し、そうでないと、ｖａｄａ＿ｆｌａｇを連合ＶＡＤの出力として選択し、
全帯域平均信号対雑音比が２.０を超えていると、又は全帯域平均信号対雑音比が１.５を超えていて、且つ連続音声区間フレームの数量が３０を超えていると、又は調性信号フラグが１であると、二つのＶＡＤの論理ＯＲ演算ＯＲ(ｖａｄａ＿ｆｌａｇ,ｖａｄｂ＿ｆｌａｇ)を連合ＶＡＤの出力として選択し、そうでないと、ステップａ)にて選択したｖａｄ＿ｆｌａｇ初期値を連合ＶＡＤ判定結果とする。

他の実施例において、上記実施例及び好適な実施形態に記載の技術案を実行するためのソフトウェアをさらに提供する。

他の実施例において、上記ソフトウェアが記憶される記憶媒体をさらに提供し、該記憶媒体は、光ディスク、フロッピー（登録商標）ディスク、ハードディスク、書き込み・消去可能なメモリ等を含むが、これらに限定されることはない。

上記した本発明の各手段又は各ステップを共通の計算装置によって実現することができ、単独の計算装置に集中させることができれば、複数の計算装置から構成されるネットワークに分布させることもでき、さらに計算装置が実行可能なプログラムコードによって実現することもできるので、それらを記憶装置に記憶させて計算装置によって実行することができ、場合によっては、他の順で図に示す又は説明したステップを実行することができ、又はそれぞれ集積回路手段に製作し、又はそれらの中の複数の手段又はステップを単一の集積回路手段に製作して実現できることは当業者にとって明らかなことである。このように、本発明は如何なる特定のハードウェアとソフトウェアの結合にも限定されない。

以上は、本発明の好適な実施例に過ぎず、本発明を限定するものではない。当業者であれば本発明にさまざまな修正や変形が可能である。本発明の精神や原則内での全ての修正、置換、改良などは本発明の保護範囲内に含まれる。

本発明の実施例で提供する上記技術案によると、第１特徴組中の第１種類の特徴パラメータと、第２特徴組中の第２種類の特徴パラメータと、少なくとも二つの現存のＶＡＤ判定結果とに基づいて連合検出を行う技術手段を用いることで、既存技術においてＶＡＤ方案の検出が正確でない等の技術課題を解決し、ＶＡＤの正確性を向上させ、ユーザ体験を高めることができる。

Claims

第１特徴組中の少なくとも一つの第１種類の特徴パラメータと、第２特徴組中の少なくとも一つの第２種類の特徴パラメータと、少なくとも二つの現存の音声区間検出ＶＡＤ判定結果と、を取得することと、ここで、前記第１種類の特徴パラメータと前記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータであって、
前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得ることと、を含み、
前記第１種類の特徴パラメータが、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
前記第２種類の特徴パラメータは、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つを含み、
前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行うことが、
ａ）前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択することと、
ｂ）前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行することと、ここで、前記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
ｃ）前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とすることと、
ｄ）予め設定された条件を満たす場合、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を前記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行することと、
ｅ）前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とすることと、を含む音声区間検出ＶＡＤ方法。
前記予め設定された条件が、
条件１：前記全帯域平均信号対雑音比が第１の閾値を越えていること、
条件２：前記全帯域平均信号対雑音比が第２の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
条件３：前記調性信号フラグが調性信号を指示することの中の少なくとも一つを含む請求項１に記載の方法。
前記平滑長時間平均周波数領域信号対雑音比と前記雑音タイプフラグを、
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は前記一つ前のフレームの連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、前記一つ前のフレームの第１の予め設定された時間区間での平均長時間音声区間フレームエネルギーと一つ前のフレームの長時間平均背景雑音エネルギーから、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
前記現在フレームの第２の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第２の予め設定された時間区間での長時間信号対雑音比を計算し、
前記一つ前のフレームに対応する少なくとも二つの現存のＶＡＤ判定結果又は前記現在フレームの前記連合ＶＡＤ判定結果中の任意の一つのＶＡＤ判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第３の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定する請求項１に記載の方法。
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定することが、
雑音タイプを非静音に設定し、前記長時間信号対雑音比が第１の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第２の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含む請求項３に記載の方法。
第１特徴組中の少なくとも一つの第１種類の特徴パラメータと、第２特徴組中の少なくとも一つの第２種類の特徴パラメータと、少なくとも二つの現存の音声区間検出ＶＡＤ判定結果とを取得するように構成される取得手段と、ここで、前記第１種類の特徴パラメータと前記第２種類の特徴パラメータはいずれもＶＡＤ検出に用いられる特徴パラメータであって、
前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合ＶＡＤ判定結果を得るように構成される検出手段と、を含み、
前記取得手段が、
連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの前記第１種類の特徴パラメータを取得するように構成される第１の取得ユニットと、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの前記第２種類の特徴パラメータを取得するように構成される第２の取得ユニットと、を含み、
前記検出手段は、
ａ）前記少なくとも二つの現存のＶＡＤ判定結果から一つのＶＡＤ判定結果を連合ＶＡＤの初期値として選択するステップと、
ｂ）前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップｃ）を実行するステップと、ここで、前記ＶＡＤフラグはＶＡＤ判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
ｃ）前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップｄ)を実行し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とするステップと、
ｄ）予め設定された条件を満たす場合、前記少なくとも二つの現存のＶＡＤ判定結果に論理ＯＲ演算を行って、演算結果を前記連合ＶＡＤ判定結果とし、そうでないと、ステップｅ)を実行するステップと、
ｅ）前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のＶＡＤ判定結果中の前記初期値としていないＶＡＤフラグを前記連合ＶＡＤ判定結果として選択し、そうでないと、ステップａ)にて選択した前記ＶＡＤ判定結果を前記連合ＶＡＤ判定結果とするステップとにより、
前記第１種類の特徴パラメータと、前記第２種類の特徴パラメータと、前記少なくとも二つの現存のＶＡＤ判定結果に基づいて音声区間検出を行う音声区間検出ＶＡＤ装置。