JP6606167B2 - 音声区間検出方法及び装置 - Google Patents
音声区間検出方法及び装置 Download PDFInfo
- Publication number
- JP6606167B2 JP6606167B2 JP2017502979A JP2017502979A JP6606167B2 JP 6606167 B2 JP6606167 B2 JP 6606167B2 JP 2017502979 A JP2017502979 A JP 2017502979A JP 2017502979 A JP2017502979 A JP 2017502979A JP 6606167 B2 JP6606167 B2 JP 6606167B2
- Authority
- JP
- Japan
- Prior art keywords
- vad
- noise
- determination result
- noise ratio
- flag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 53
- 238000000034 method Methods 0.000 claims description 47
- 230000007774 longterm Effects 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 description 26
- 238000001228 spectrum Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 238000009499 grossing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 1
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- User Interface Of Digital Computer (AREA)
Description
既存技術における上記問題について、未だに有効な解決案が提示されていない。
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記一つ前のフレームの連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの第1の予め設定された時間区間での平均長時間音声区間フレームエネルギー(average energy of long-time active frames)と一つ前のフレームの長時間平均背景雑音エネルギー(average energy of long-time background noise)から、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
前記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第2の時間区間での長時間信号対雑音比(the long-time SNR)を計算し、
前記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記現在フレームの前記連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定することが好ましい。
雑音タイプを非静音に設定し、前記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含むことが好ましい。
以下の幾つかの実現方式に記載の判定終了は、ある一つの実現方式のプロセスを終了したことを指し、そのプロセスを終了した後は連合VAD判定結果を修正しないことを指すのではない。
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、そうでないと、ステップc)を実行し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
c)上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とし、
d)予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とし、そうでないと、ステップe)を実行し、
e)上記雑音タイプフラグが静音を指示する場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択する。
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが静音を指示し、且つ上記周波数領域信号対雑音比が予め設定された閾値を越えていて、上記初期値が非音声区間フレームである場合、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、そうでないと、ステップc)を実行し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示し、
c)上記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した上記VAD判定結果を上記連合VAD判定結果とし、
d)予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とし、そうでないと、ステップe)を実行し、
e)上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択する。
上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
上記雑音タイプフラグが静音を指示する場合、上記平滑長時間平均周波数領域信号対雑音比が閾値を越えていて、且つ上記調性信号フラグが非調性信号を指示すると、上記少なくとも二つの現存のVAD判定結果中の上記初期値としていないVADフラグを上記連合VAD判定結果として選択し、ここで、上記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示する。
a)上記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択し、
b)上記雑音タイプフラグが非静音を指示し、且つ予め設定された条件を満たす場合、上記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を上記連合VAD判定結果とする。
条件1:上記全帯域平均信号対雑音比が第1の閾値を越えること、
条件2:上記全帯域平均信号対雑音比が第2の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
条件3:上記調性信号フラグが調性信号を指示すること。
尚、第3種類の実現方式と第4種類の実現方式とを結合することができる。
上記連続雑音フレームの数量が第1の指定閾値を越えていて、且つ上記全帯域平均信号対雑音比が第2の指定閾値未満であると、上記少なくとも二つの現存のVAD判定結果に論理AND演算を行って、演算結果を上記連合VAD検出結果とし、そうでないと、上記少なくとも二つの現存のVAD判定結果から任意の一つの現存のVAD判定結果を上記連合VAD検出結果として選択する。
尚、第5種類の実現方式と前の四つの実現方式とを結合することができる。
上記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、上記現在フレームの上記第2の時間区間での長時間信号対雑音比を計算し、
上記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は上記現在フレームの上記連合VAD判定結果中の任意の一つのVAD判定結果、上記一つ前のフレームの平均周波数領域信号対雑音比から、上記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
上記長時間信号対雑音比と上記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する。尚、平滑長時間平均周波数領域信号対雑音比は、予め設定された時間区間での平均周波数領域信号対雑音比に平滑化処理を行って得たものである。
雑音タイプを非静音に設定し、上記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ上記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、上記雑音タイプフラグを静音に設定する。
上記現在フレームが非初期化フレームである場合、上記現在フレームの一つ前のフレームの連合VAD判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算し、又は、
上記現在フレームが非初期化フレームである場合、上記一つ前のフレームの少なくとも二つの現存のVAD判定結果と上記一つ前のフレームの連合VAD判定結果から一つのVAD判定結果を選択し、現在選択された上記VAD判定結果から、上記現在フレームの連続音声区間フレームの数量と連続雑音フレームの数量を計算する。
上記一つ前のフレームの連合VAD判定結果を指示する又は現在選択された上記VAD判定結果を指示するVADフラグが音声区間フレームを指示する場合、連続音声区間フレームの数量を1加算し、そうでないと、連続音声区間フレームの数量を0に設定し、上記一つ前のフレームの連合VAD判定結果を指示する又は現在選択された上記VAD判定結果を指示するVADフラグが非音声区間フレームを指示する場合、連続雑音フレームの数量を1加算し、そうでないと、連続雑音フレームの数量を0に設定する。
第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存のVAD判定結果とを取得する取得手段20と、ここで、上記第1種類の特徴パラメータと上記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
取得手段20に接続されて、上記第1種類の特徴パラメータと、上記第2種類の特徴パラメータと、上記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合VAD判定結果を得る検出手段22と、を含む。
連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの第1種類の特徴パラメータを取得するように構成される第1の取得ユニット200と、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの第2種類の特徴パラメータを取得するように構成される第2の取得ユニット202と、を含む。
以下の実施例に記載のOR演算とAND演算は以下のように定義する:
二つのVAD中の任意の一つのVAD出力フラグが音声区間フレームであると、二つのVADのOR演算ORの結果は音声区間フレームであって、二つが共に非音声区間フレームである場合、OR演算ORの結果は非音声区間フレームであって、
二つのVAD中の任意の一つのVAD出力フラグが非音声区間フレームであると、二つのVADのAND演算ANDの結果は非音声区間フレームであって、二つが共に音声区間フレームである場合、AND演算ANDの結果は音声区間フレームであって、
ここで、以下の実施例に記載のVADがどのVADであると明記されていないと、二つの現存のVAD、又は連合VAD、又は対応する機能を実現可能な他のVADであることを表す。
本実施例においてVAD方法を提供し、図4に示すように、該方法は以下のステップを含む:
現存の二つのVADの出力結果を取得する(ステップS402)。
現在フレームのサブバンド信号及びスペクトル振幅値を取得する(ステップS404)。
2:データバッファ中のデータを40個ビット遷移し、最初の40個のサンプル値をデータバッファから除去し、40個の新しいサンプル点を0から39の位置に記憶する。
バッファ中のデータxにウィンドウ係数(Window Coefficient)を掛け算して、数値組zを得て、計算式は、
z[n]=x[n]・Wqmf[n];0≦n<640であって、
ここで、Wqmf はフィルタ組ウィンドウ係数である。
for(n=0;n<80;n++)
{ u[n]=0;
for(j=0;j<8;j++)
{
u[n]+=z[n+j・80];
}
}
以下の方程式で計算して一番目の時間サンプル点上の40個の複素数のサブバンドサンプル値を得て、X[k、l]=R(k)+iI(k),0≦k<40、ここで、R(k)とI(k)はそれぞれ、フィルタ組サブバンド信号Xの第l個の時間サンプル点上の係数の実数部と虚数部であって、その計算式は、
である。
インテックスが0から9である各フィルタ組サブバンド上の16個の時間サンプル点データに16点のDFT変換を行って、スペクトルの解像度を一層向上させ、また、各周波数点の振幅値を計算して、スペクトル振幅値XDEF_AMPを得る。
まず、数値組XDFT [k,j]の各点上のエネルギーを計算し、計算式は、
であって、ここで、Re(XDFT[k,j])、Im(XDFT[k,j])、はそれぞれ、スペクトル係数XDFT[k,j]の実数部と虚数部を表す。
kが奇数であると、以下の方程式で各周波数点上のスペクトル振幅値を計算する:
XDFT_AMPは時間周波数変換後のスペクトル振幅値である。
frame_sb_energy[i]=
スペクトル重心特徴パラメータの計算に用いられるサブバンド区間を以下のように区画する:
であって、ここで、e_offsetは一つのオフセット値であって、その範囲は[0,0.1]である。
Ampt2(n)=Ampt1(−2n)+Ampt1(−2n−1);0≦n<20;
ここで、n=0である場合、Ampt1[n]は、現在フレームのエネルギー振幅値を示し、n<0である場合、Ampt1[n]は現在フレームから前のnフレームのエネルギー振幅値を示す。
である。
Nが異なる値であると、異なる時間領域の安定性を計算することができる。
b)ステップaで算出した現在フレームの負ではないスペクトル差分係数と一つ前のフレームの負ではないスペクトル差分係数の関連係数を求めて、第1の調性特徴パラメータ値を得る。その計算方程式は、
である。
f_tonality_rate[0]=f_tonality_rate;
f_tonality_rate[1]=pre_f_tonality_rate[1]*0.96f+f_tonality_rate*0.04f;
f_tonality_rate[2]=pre_f_tonality_rate[2]*0.90f+f_tonality_rate*0.1f;
ここで、pre_f_tonality_rateは、一つ前のフレームの調性特徴パラメータである。
SFF[k]=geo_mean[k]/ari_mean[k]
sb_bg_energy[i]=sb_bg_energy[i]*0.90f+frame_sb_energy[i]*0.1fである。
snr_sub[i]=log2((frame_sb_energy[i]+0.0001f)/(sb_bg_energy[i]+0.0001f))で、snr_sub[i]が−0.1未満であると、0にセットする。
平均長時間音声区間フレームエネルギー:lt_active_eng=fg_energy/fg_energy_countで、
長時間平均背景雑音エネルギー:lt_inactive_eng=bg_energy/bg_energy_countであって、
ここで、
で、iは音声区間フレームインテックス値である。
で、jは非音声区間フレームインテックス値である。
雑音タイプの初期値を非静音に設定し、lf_snr_smoothが設定された閾値THR1を越えていて、且つlt_snr_orgが設定された閾値THR2を越えている場合、雑音タイプを静音に設定する。
ここで、lf_snr_smoothの計算プロセスはステップS420を参照できる。
ここで、l_snr=l_speech_snr/l_speech_snr_count−l_silence_snr/l_silence_snr_countで、
ここで、l_speech_snrとl_speech_snr_countは、音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターで、l_silence_snrとl_silence_snr_countは、非音声区間フレーム周波数領域信号対雑音比のアキュムレータとカウンターである。現在フレームが初期フレームである場合、初期化を行う:
l_silence_snr=0.5f;
l_speech_snr=5.0f;
l_silence_snr_count=1;
l_speech_snr_count=1;
l_silence_snr=l_silence_snr+snr;
l_silence_snr_count=l_silence_snr_count+1。
l_speech_snr=l_speech_snr+snr;
l_speech_snr_count=l_speech_snr_count+1である。
現在の調性フレームフラグが、現在フレームが調性フレームであることを指示すると、以下の方程式で調性程度特徴パラメータmusic_background_rateを更新する:
現在フレームが調性フレームではないと、以下の式でmusic_background_rateを更新する:
music_background_rate=music_background_rate*fac。
調性程度特徴パラメータmusic_background_rateがある設定された閾値を越えていると、現在フレームが調性信号であると判定し、そうでないと、現在フレームが非調性信号であると判定する。
現在フレームのフレームエネルギーから、現在フレームの全帯域信号対雑音比を計算する:
tsnr=log2(frame_energy+0.0001f)/(t_bg_energy+0.0001f);
幾つかのフレームの全帯域信号対雑音比の平均をとって、全帯域平均信号対雑音比を得る。
ここで、Nは最も接近するNフレームで、tsnr[i]は第iフレームのtsnrを示す。
VADフラグが1である場合、連続音声区間フレームの数量に1を加算し、そうでないと、連続音声区間フレームの数量を0に設定する。
a)、時間領域安定性パラメータltd_stable_rate[5]が設定された閾値を越えていて、その閾値範囲は0.05〜0.30である。
f)、調性特徴パラメータf_tonality_rateが対応する閾値を越えている。
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば0.2を超えていて、且つ連合VADの初期値vad_flagが0であると、vada_flagを連合VADの出力として選択し、判定を終了し、そうでないと、ステップc)を実行する。
以下の条件の中のいずれかを満たす場合、二つのVADの論理OR演算結果を連合VADの出力として選択し、判定を終了し、そうでないと、ステップe)を実行し、
条件2:全帯域平均信号対雑音比が閾値2、例えば1.5を超えていて、且つ連続音声区間フレームの数量が閾値、例えば40を越えている;
条件3:調性信号フラグが1である;
雑音タイプが静音であると、vada_flagを連合VADの出力として選択し、判定を終了する。
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であって、且つ周波数領域信号対雑音比が設定された閾値である例えば0.2を超えていて、且つ連合VADの初期値vad_flagが0であると、vada_flagを連合VADの出力として選択し、判定を終了し、そうでないと、ステップc)を実行し、
平滑長時間平均周波数領域信号対雑音比が設定された閾値未満である例えば10.5未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)中のvad_flag初期値を連合VAD判定結果とし、
以下の条件の中のいずれかを満たす場合、二つのVADの論理OR演算結果を連合VADの出力として選択し、判定を終了し、そうでないと、ステップe)を実行し、
条件1:全帯域平均信号対雑音比が閾値1、例えば2.0を超えている;
条件2:全帯域平均信号対雑音比が閾値2、例えば1.5を超えていて、且つ連続音声区間フレームの数量が閾値、例えば30を越えている;
条件3:調性信号フラグが1である;
vada_flagを連合VADの出力として選択し、判定を終了する。
実施例1ステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
平滑長時間周波数領域信号対雑音比が12.5を超えていて、且つmusic_backgound_fが0であると、vad_flagをvada_flagに設定し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とし、
全帯域平均信号対雑音比が2.0を超えていると、又は全帯域平均信号対雑音比が1.5を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag, vadb_flag)を連合VADの出力として選択し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とする。
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
平滑長時間平均周波数領域信号対雑音比が12.5を超えていて、且つmusic_backgound_fが0であると、vad_flagをvada_flagに設定し、そうでないと、ステップe)を実行し、
全帯域平均信号対雑音比が1.5を超えていると、又は全帯域平均信号対雑音比が1.0を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、ステップe)を実行し、
連続雑音フレームの数量が10を超えていて、且つ全帯域平均信号対雑音比が0.1未満であると、二つの現存のVAD出力フラグのAND演算AND(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、vadb_flagを連合VADの出力として選択する。
実施例1のステップS432において、以下の方式で実施することもできる:
特徴群1中の少なくとも一つの特徴と、特徴群2中の少なくとも一つの特徴と、2種類の現存の音声区間検出(VAD)判定結果から、最終的な連合VAD判定結果を得る。
vadb_flagをvad_flag初期値として選択し、
雑音タイプが静音であると、ステップc)を実行し、そうでないと、ステップd)を実行し、
music_backgound_fが0であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、vada_flagを連合VADの出力として選択し、
全帯域平均信号対雑音比が2.0を超えていると、又は全帯域平均信号対雑音比が1.5を超えていて、且つ連続音声区間フレームの数量が30を超えていると、又は調性信号フラグが1であると、二つのVADの論理OR演算OR(vada_flag,vadb_flag)を連合VADの出力として選択し、そうでないと、ステップa)にて選択したvad_flag初期値を連合VAD判定結果とする。
Claims (5)
- 第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存の音声区間検出VAD判定結果と、を取得することと、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果とに基づいて、音声区間検出を行って、連合VAD判定結果を得ることと、を含み、
前記第1種類の特徴パラメータが、連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくも一つを含み、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
前記第2種類の特徴パラメータは、雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つを含み、
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行うことが、
a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択することと、
b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行することと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、
d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行することと、
e)前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とすることと、を含む音声区間検出VAD方法。 - 前記予め設定された条件が、
条件1:前記全帯域平均信号対雑音比が第1の閾値を越えていること、
条件2:前記全帯域平均信号対雑音比が第2の閾値を越えていて、且つ連続音声区間フレームの数量が予め設定された閾値を越えていること、
条件3:前記調性信号フラグが調性信号を指示することの中の少なくとも一つを含む請求項1に記載の方法。 - 前記平滑長時間平均周波数領域信号対雑音比と前記雑音タイプフラグを、
現在フレームの一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記一つ前のフレームの連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの第1の予め設定された時間区間での平均長時間音声区間フレームエネルギーと一つ前のフレームの長時間平均背景雑音エネルギーから、現在フレームの平均長時間音声区間フレームエネルギーと前記現在フレームの長時間平均背景雑音エネルギーを計算し、
前記現在フレームの第2の予め設定された時間区間での平均長時間音声区間フレームエネルギーと長時間平均背景雑音エネルギーから、前記現在フレームの前記第2の予め設定された時間区間での長時間信号対雑音比を計算し、
前記一つ前のフレームに対応する少なくとも二つの現存のVAD判定結果又は前記現在フレームの前記連合VAD判定結果中の任意の一つのVAD判定結果、前記一つ前のフレームの平均周波数領域信号対雑音比から、前記現在フレームの第3の予め設定された時間区間での平滑長時間平均周波数領域信号対雑音比を計算し、
前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定する方式で確定する請求項1に記載の方法。 - 前記長時間信号対雑音比と前記平滑長時間平均周波数領域信号対雑音比に基づいて、雑音タイプフラグを判定することが、
雑音タイプを非静音に設定し、前記長時間信号対雑音比が第1の予め設定された閾値を越えていて、且つ前記平滑長時間平均周波数領域信号対雑音比が第2の予め設定された閾値を越えている場合、前記雑音タイプフラグを静音に設定することを含む請求項3に記載の方法。 - 第1特徴組中の少なくとも一つの第1種類の特徴パラメータと、第2特徴組中の少なくとも一つの第2種類の特徴パラメータと、少なくとも二つの現存の音声区間検出VAD判定結果とを取得するように構成される取得手段と、ここで、前記第1種類の特徴パラメータと前記第2種類の特徴パラメータはいずれもVAD検出に用いられる特徴パラメータであって、
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存の音声区間検出判定結果に基づいて、音声区間検出を行って、連合VAD判定結果を得るように構成される検出手段と、を含み、
前記取得手段が、
連続音声区間フレームの数量、全帯域平均信号対雑音比、調性信号フラグの中の少なくとも一つの前記第1種類の特徴パラメータを取得するように構成される第1の取得ユニットと、ここで、該全帯域平均信号対雑音比は所定の数量のフレームに対する全帯域信号対雑音比の平均値であって、
雑音タイプフラグ、平滑長時間平均周波数領域信号対雑音比、連続雑音フレームの数量、周波数領域信号対雑音比の中の少なくとも一つの前記第2種類の特徴パラメータを取得するように構成される第2の取得ユニットと、を含み、
前記検出手段は、
a)前記少なくとも二つの現存のVAD判定結果から一つのVAD判定結果を連合VADの初期値として選択するステップと、
b)前記雑音タイプフラグが静音を指示し、且つ前記周波数領域信号対雑音比が予め設定された閾値を越えていて、前記初期値が非音声区間フレームである場合、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップc)を実行するステップと、ここで、前記VADフラグはVAD判定結果が音声区間フレーム又は非音声区間フレームであることを指示するためのものであって、
c)前記平滑長時間平均周波数領域信号対雑音比が予め設定された閾値未満であると、又は雑音タイプが静音ではないと、ステップd)を実行し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とするステップと、
d)予め設定された条件を満たす場合、前記少なくとも二つの現存のVAD判定結果に論理OR演算を行って、演算結果を前記連合VAD判定結果とし、そうでないと、ステップe)を実行するステップと、
e)前記雑音タイプフラグが静音を指示すると、前記少なくとも二つの現存のVAD判定結果中の前記初期値としていないVADフラグを前記連合VAD判定結果として選択し、そうでないと、ステップa)にて選択した前記VAD判定結果を前記連合VAD判定結果とするステップとにより、
前記第1種類の特徴パラメータと、前記第2種類の特徴パラメータと、前記少なくとも二つの現存のVAD判定結果に基づいて音声区間検出を行う音声区間検出VAD装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410345942.3A CN105261375B (zh) | 2014-07-18 | 2014-07-18 | 激活音检测的方法及装置 |
CN201410345942.3 | 2014-07-18 | ||
PCT/CN2014/089490 WO2015117410A1 (zh) | 2014-07-18 | 2014-10-24 | 激活音检测的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017521720A JP2017521720A (ja) | 2017-08-03 |
JP6606167B2 true JP6606167B2 (ja) | 2019-11-13 |
Family
ID=53777227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017502979A Active JP6606167B2 (ja) | 2014-07-18 | 2014-10-24 | 音声区間検出方法及び装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US10339961B2 (ja) |
EP (2) | EP4273861A3 (ja) |
JP (1) | JP6606167B2 (ja) |
KR (1) | KR102390784B1 (ja) |
CN (1) | CN105261375B (ja) |
CA (1) | CA2955652C (ja) |
ES (1) | ES2959448T3 (ja) |
RU (1) | RU2680351C2 (ja) |
WO (1) | WO2015117410A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN107305774B (zh) * | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN107767860B (zh) * | 2016-08-15 | 2023-01-13 | 中兴通讯股份有限公司 | 一种语音信息处理方法和装置 |
CN107331386B (zh) * | 2017-06-26 | 2020-07-21 | 上海智臻智能网络科技股份有限公司 | 音频信号的端点检测方法、装置、处理系统及计算机设备 |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN107393558B (zh) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN108665889B (zh) * | 2018-04-20 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
CN108806707B (zh) | 2018-06-11 | 2020-05-12 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、设备及存储介质 |
CN108962284B (zh) * | 2018-07-04 | 2021-06-08 | 科大讯飞股份有限公司 | 一种语音录制方法及装置 |
CN108848435B (zh) * | 2018-09-28 | 2021-03-09 | 广州方硅信息技术有限公司 | 一种音频信号的处理方法和相关装置 |
EP3800640A4 (en) * | 2019-06-21 | 2021-09-29 | Shenzhen Goodix Technology Co., Ltd. | VOICE DETECTION METHOD, VOICE DETECTION DEVICE, VOICE PROCESSING CHIP AND ELECTRONIC DEVICE |
US11830519B2 (en) | 2019-07-30 | 2023-11-28 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Multi-channel acoustic event detection and classification method |
US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
CN115116441A (zh) * | 2022-06-27 | 2022-09-27 | 南京大鱼半导体有限公司 | 一种语音识别功能的唤醒方法、装置及设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
US20020116186A1 (en) * | 2000-09-09 | 2002-08-22 | Adam Strauss | Voice activity detector for integrated telecommunications processing |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
US8756063B2 (en) | 2006-11-20 | 2014-06-17 | Samuel A. McDonald | Handheld voice activated spelling device |
WO2008108721A1 (en) | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
US8503686B2 (en) | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
CN102044242B (zh) * | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
EP2491549A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
CN102804261B (zh) * | 2009-10-19 | 2015-02-18 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
EP2561508A1 (en) | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
EP3252771B1 (en) * | 2010-12-24 | 2019-05-01 | Huawei Technologies Co., Ltd. | A method and an apparatus for performing a voice activity detection |
EP2494545A4 (en) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES |
WO2012127278A1 (en) * | 2011-03-18 | 2012-09-27 | Nokia Corporation | Apparatus for audio signal processing |
EP3537436B1 (en) * | 2011-10-24 | 2023-12-20 | ZTE Corporation | Frame loss compensation method and apparatus for voice frame signal |
CN104424956B9 (zh) | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
CN106575511B (zh) * | 2014-07-29 | 2021-02-23 | 瑞典爱立信有限公司 | 用于估计背景噪声的方法和背景噪声估计器 |
CN106328169B (zh) * | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
US9672841B2 (en) * | 2015-06-30 | 2017-06-06 | Zte Corporation | Voice activity detection method and method used for voice activity detection and apparatus thereof |
-
2014
- 2014-07-18 CN CN201410345942.3A patent/CN105261375B/zh active Active
- 2014-10-24 US US15/326,842 patent/US10339961B2/en active Active
- 2014-10-24 JP JP2017502979A patent/JP6606167B2/ja active Active
- 2014-10-24 EP EP23183896.2A patent/EP4273861A3/en active Pending
- 2014-10-24 KR KR1020177004532A patent/KR102390784B1/ko active IP Right Grant
- 2014-10-24 EP EP14882109.3A patent/EP3171363B1/en active Active
- 2014-10-24 WO PCT/CN2014/089490 patent/WO2015117410A1/zh active Application Filing
- 2014-10-24 CA CA2955652A patent/CA2955652C/en active Active
- 2014-10-24 ES ES14882109T patent/ES2959448T3/es active Active
- 2014-10-24 RU RU2017103938A patent/RU2680351C2/ru active
Also Published As
Publication number | Publication date |
---|---|
EP3171363B1 (en) | 2023-08-09 |
CN105261375A (zh) | 2016-01-20 |
CA2955652C (en) | 2022-04-05 |
RU2017103938A (ru) | 2018-08-20 |
CN105261375B (zh) | 2018-08-31 |
KR20170035986A (ko) | 2017-03-31 |
WO2015117410A1 (zh) | 2015-08-13 |
ES2959448T3 (es) | 2024-02-26 |
CA2955652A1 (en) | 2015-08-13 |
EP4273861A3 (en) | 2023-12-20 |
EP3171363A4 (en) | 2017-07-26 |
US20170206916A1 (en) | 2017-07-20 |
RU2680351C2 (ru) | 2019-02-19 |
RU2017103938A3 (ja) | 2018-08-31 |
JP2017521720A (ja) | 2017-08-03 |
KR102390784B1 (ko) | 2022-04-25 |
EP4273861A2 (en) | 2023-11-08 |
EP3171363A1 (en) | 2017-05-24 |
US10339961B2 (en) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6606167B2 (ja) | 音声区間検出方法及び装置 | |
CN104424956B9 (zh) | 激活音检测方法和装置 | |
RU2684194C1 (ru) | Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности | |
US9672841B2 (en) | Voice activity detection method and method used for voice activity detection and apparatus thereof | |
CN109119096B (zh) | 一种vad判决中当前激活音保持帧数的修正方法及装置 | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
US20230007394A1 (en) | A method for audio rendering by an apparatus | |
CN112530450A (zh) | 频域中的样本精度延迟识别 | |
CN116741201A (zh) | 音频接收端的啸叫检测方法、系统、解码方法及解码器 | |
CN116524950A (zh) | 一种音频信号处理方法、装置、设备及介质 | |
KR20090082699A (ko) | 노이지 음성 신호의 처리 방법 및 이를 위한 컴퓨터 판독가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190823 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6606167 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |