CN110689905B - 一种用于视频会议系统的语音活动检测系统 - Google Patents

一种用于视频会议系统的语音活动检测系统 Download PDF

Info

Publication number
CN110689905B
CN110689905B CN201910842478.1A CN201910842478A CN110689905B CN 110689905 B CN110689905 B CN 110689905B CN 201910842478 A CN201910842478 A CN 201910842478A CN 110689905 B CN110689905 B CN 110689905B
Authority
CN
China
Prior art keywords
current frame
noise
signal
marking
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910842478.1A
Other languages
English (en)
Other versions
CN110689905A (zh
Inventor
王向辉
黄绍锋
靳冠军
张升辉
刘晓霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Hepu Accoustic Technology Co ltd
Original Assignee
Xi'an Hepu Accoustic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Hepu Accoustic Technology Co ltd filed Critical Xi'an Hepu Accoustic Technology Co ltd
Priority to CN201910842478.1A priority Critical patent/CN110689905B/zh
Publication of CN110689905A publication Critical patent/CN110689905A/zh
Application granted granted Critical
Publication of CN110689905B publication Critical patent/CN110689905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本发明属于语音信号处理领域,公开了一种用于视频会议系统的语音活动检测系统。分别对获取的带噪时域信号做瞬态冲击噪声检测、浊音/清音分类、基于语音存在概率的检测、基于信噪比的检测以及带噪语音信号的能量检测,通过各个模块的判决结果得到最终的语音活动检测结果。本发明对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。相较于现有技术,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。

Description

一种用于视频会议系统的语音活动检测系统
技术领域
本发明属于语音信号处理领域,具体涉及一种用于视频会议系统的语音活动检测系统。
背景技术
通常,在视频会议系统中,摄像头会根据定位算法给出的角度转动,以获取当前说话人的视频。但是,在会议室环境中随时会有各种各样的干扰源。当干扰源存在时,如果摄像头转向干扰源的方向,会给参会人员非常不好的体验。这时,我们就需要对当前的信号做语音活动检测。如果检测出语音信号,则摄像头转向定位算法给出的角度。如果没有检测出语音信号,则摄像头保持不动。
会议室环境中典型的干扰源分为两类,第一类为准平稳噪声,如风扇或空调的声音。准平稳噪声的功率谱密度变化较为缓慢,而语音信号的功率谱密度变化相对较快。第二类为非平稳噪声,非平稳噪声包括瞬态冲击噪声和非瞬态冲击噪声。瞬态冲击噪声具有瞬时能量较大,持续时间短的特点,比如敲桌子、敲门以及敲击键盘的声音。非瞬态冲击噪声的持续时间和人说话时单个词的持续时间相近,比如挪动椅子以及翻书的声音。绝大多数语音信号包含浊音,即有清晰的谐波结构,而绝大多数会议室场景中典型的非瞬态冲击噪声为清音,即没有清晰的谐波结构。
语音活动检测算法有很多,首先,比较典型的一类是通过跟踪输入信号的功率变化,确定输入信号中是否包含语音信号。当背景噪声较为平稳,即为功率谱密度变化比较缓慢的准平稳噪声时,此类算法效果较好。但对于非平稳噪声,此类算法容易将非常不平稳的噪声成分判别为语音信号。另一类典型的算法是根据输入带噪语音信号和其线性预测编码的自相关值来做语音活动检测。此类方法的缺点是在信噪比较低时不能准确的做出语音活动检测。此外,还有一类基于机器学习的语音活动检测算法。此类算法的问题是泛化能力较差,即,对训练过的噪声场景,性能较好,但对于没有出现在训练集的噪声场景,性能较差。
发明内容
本发明的目的在于提供一种用于视频会议系统的语音活动检测系统,用以解决现有技术中的在会议室环境下语音活动检测效果不准确的问题。
为了实现上述任务,本发明采用以下技术方案:
一种用于视频会议系统的语音活动检测系统,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
进一步的,瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足
Figure BDA0002194159970000031
Figure BDA0002194159970000032
则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号
Figure BDA0002194159970000033
获取
Figure BDA0002194159970000034
在一段时间之内的最小统计量
Figure BDA0002194159970000041
和在当前帧之后第U帧在一段时间之内最小统计量
Figure BDA0002194159970000042
步骤a3:设定二级门限σ,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若
Figure BDA0002194159970000043
则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
Figure BDA0002194159970000044
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
进一步的,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf
Figure BDA0002194159970000045
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
进一步的,所述信噪比检测模块的检测方法为:
估计当前帧的后验信噪比
Figure BDA0002194159970000046
和先验信噪比
Figure BDA0002194159970000047
并计算经过时域平滑频域平均的先验信噪比
Figure BDA0002194159970000048
如果当前帧满足
Figure BDA0002194159970000049
Figure BDA00021941599700000410
μ1和μ2表示调节因子,则标记当前帧为语音信号,否则标记当前帧为噪声信号。
进一步的,所述语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,标记当前帧为噪声信号,否则标记当前帧为语音信号;
Figure BDA0002194159970000051
其中,
Figure BDA0002194159970000052
表示先验语音不存在概率,
Figure BDA0002194159970000053
进一步的,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的
Figure BDA0002194159970000054
若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的
Figure BDA0002194159970000055
作为当前帧的
Figure BDA0002194159970000056
步骤c2:根据当前帧的E(n)和
Figure BDA0002194159970000057
进行判断,如果当前帧满足
Figure BDA0002194159970000058
且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,μ3表示调节因子。
更进一步的,所述语音信噪比检测模块中
Figure BDA0002194159970000059
Figure BDA00021941599700000510
表示前一帧的经过时域平滑的平均先验信噪比,αSNR为遗忘因子。
本发明与现有技术相比具有以下技术特点:
(1)基于视频会议系统的环境,能够对对瞬态冲击噪声、非瞬态冲击噪声以及准平稳噪声有较好的检测效果。
(2)相较于现有技术,本发明具有检测结果对典型的会议室噪声鲁棒、对信噪比鲁棒、算法运算复杂度低、易于实现等优点。
(3)本发明可以非常容易的从视频会议场景扩展到其他场景,如智能家居及车载系统。
附图说明
图1所示为本发明的方法流程示意图;
图2所示为典型的语音活动检测方法及装置示意图;
图3所示为当存在挪动椅子的噪声时的语音活动检测结果;
图4所示为图3所示带噪语音信号的时频图;
图5所示为当存在敲桌子的噪声时的语音活动检测结果;
图6所示为图5带噪语音信号的时频图。
具体实施方式
实施例
在本实施例中公开了一种用于视频会议系统的语音活动检测系统,如图1和图2所示。需要说明的是本发明中的语音活动检测方法还可应用于其他场景。比如,教育录播系统的应用场景、审讯系统的应用场景等。应用本发明可以有效地区分音频信号中语音信号和噪声信号。
一种用于视频会议系统的语音活动检测系统,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号。
具体的,在带噪语音信号中,当瞬态冲击噪声单独出现时,检测瞬态冲击噪声是否存在较为容易。但是当语音信号(或非瞬态冲击噪声)和瞬态冲击噪声同时存在时,则检测瞬态冲击噪声是否存在较为困难。因此,给出瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间内的最小统计量Smin(k,n);
具体的,时域带噪语音信号表示为y(t)=x(t)+v(t)+b(t),其中,y,x,v以及b分别表示带噪信号、纯净语音信号、瞬态/非瞬态冲击噪声信号和准平稳背景噪声信号,t表示离散时间点;
将时域信号y(t)分帧、加窗后,做快速傅里叶变换,得到频域带噪信号Y(k,n),
Figure BDA0002194159970000081
其中,h表示窗函数,T表示窗函数的长度(也是语音信号帧的长度),M表示两个相邻帧之间的步进长度,零均值随机变量Y(k,n),X(k,n),V(k,n),B(k,n),分别为y(t),x(t),v(t),b(t)在第n帧第k个频点的傅立叶变换值,其中k∈{0,1,...,K-1};
具体的,频域平滑为
Figure BDA0002194159970000082
其中,bω(q)表示归一化窗函数,时域平滑在频域平滑之后,采取一阶递归平滑的方式,表示为:S(k,n)=αsS(k,n-1)+(1-αs)Sf(k,n);
步骤a2:设定初级门限γ0和ε0,其中γ0的取值范围为4.5-5,ε0的取值范围为1.5-1.8,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足
Figure BDA0002194159970000083
Figure BDA0002194159970000084
则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差,Bmin的取值范围为1.5-1.7;
获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号
Figure BDA0002194159970000085
获取
Figure BDA0002194159970000086
在一段时间内的的最小统计量
Figure BDA0002194159970000087
和在当前帧之后第U帧在一段时间内的最小统计量
Figure BDA0002194159970000088
U一般应设置为大于瞬态冲击噪声持续时间,小于语音信号持续时间,U的取值范围为10-20,一段时间内通常为6-12帧。
由于在估计
Figure BDA0002194159970000091
时,已经将比较强的瞬态冲击噪声排除,可以获得更加鲁棒的语音信号(或非瞬态冲击噪声)的功率谱密度估计结果以及更高的时间分辨率,改善对最小统计量的估计性能,得到更加精确的最小统计量估计结果
Figure BDA0002194159970000092
步骤a3:设定二级门限σ,σ的取值范围为5-8,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若
Figure BDA0002194159970000093
则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
Figure BDA0002194159970000094
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,N1设置为10-20,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
具体的,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
具体的,假设带噪信号具有清晰的谐波结构(浊音),在理想情况下,我们可以将其表示为
Figure BDA0002194159970000095
其中,a(i)表示第i个谐波的能量,f0表示基频,δ(·)为狄拉克函数,Iv为谐波个数。将Y(f)转化到对数频域,记为Y(c),其中c=log f。将Y(f)转化到对数频域,可以使各次谐波之间的距离和基频无关,同时可使带噪信号的低频段分辨率较高,由于在此同样将带噪语音信号做分帧处理,我们将Y(c)表示为Y(c,n)。
具体的,为防止每帧带噪信号Y(c,n)中存在较强的窄带干扰,我们将其做压缩处理得到Y′(c,n)=Y(c,n)β(c,n),其中,β(c,n)为压缩因子,为估计β(c,n),首先估计带噪信号Y(c,n)的功率谱密度。先对带噪信号做对数频域平滑,然后,用一阶递归平滑的方式对频域平滑后的信号做时域平滑,记为S(c,n)。再估计带噪信号的长时(通常时长大于20帧)平均功率谱密度L(c,n),则压缩因子表示为
Figure BDA0002194159970000101
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu
h(c)的冲击响应表示为h(c)=ξ-log[η-cos(2πec)],定义域设为log(0.5)<c<log(Iv+0.5),除此之外,设h(c)=0。其中η控制h(c)峰的宽度,ξ的选择准则为使∫h(c)dc=0。因为我们选择h(c)为零均值,所以h(c)可以有效地抑制背景噪声B(c,n)中的白噪声成分。同时,由于h(c)的各个峰值近似对称,所以其可以有效地抑制准平稳噪声。
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf
Figure BDA0002194159970000102
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
具体的,信噪比检测模块的检测方法为:
估计当前帧的后验信噪比
Figure BDA0002194159970000103
和先验信噪比
Figure BDA0002194159970000104
并计算经过时域平滑频域平均的先验信噪比
Figure BDA0002194159970000105
如果当前帧满足
Figure BDA0002194159970000106
Figure BDA0002194159970000107
μ1和μ2表示调节因子,则标记当前帧为语音信号,否则标记当前帧为噪声信号。
其中
Figure BDA0002194159970000108
Figure BDA0002194159970000109
表示前一帧的经过时域平滑的平均先验信噪比,αSNR为遗忘因子取值为大于零小于1;
具体的,定义后验信噪比
Figure BDA0002194159970000111
先验信噪比
Figure BDA0002194159970000112
其中λx(k,n)为语音信号的功率谱密度,λd(k,n)为准平稳噪声的功率谱密度;
我们以下式估计带噪语音信号的先验信噪比:
Figure BDA0002194159970000113
其中,
Figure BDA0002194159970000114
表示当语音信号存在时的语音信号对数谱幅值估计器,
Figure BDA0002194159970000115
αG为遗忘因子取值为大于零小于1;其中
Figure BDA0002194159970000116
Figure BDA0002194159970000117
的估计值,即
Figure BDA0002194159970000118
Figure BDA0002194159970000119
表示估计得到的噪声功率谱密度,其估计方法为
Figure BDA00021941599700001110
其中
Figure BDA00021941599700001111
Figure BDA00021941599700001112
为估计得到的当前帧的噪声功率谱密度,αd为遗忘因子,取值范围为大于零小于1,p(k,n)为条件语音存在概率,其在语音存在概率检测模块中测得,κ为补偿因子,取值范围为1-2。
具体的,语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,N2设置为10-20,标记当前帧为噪声信号,否则标记当前帧为语音信号;
Figure BDA00021941599700001113
其中,
Figure BDA00021941599700001114
表示先验语音不存在概率,
Figure BDA00021941599700001115
Figure BDA00021941599700001116
根据带噪信号瞬态冲击噪声检测的估计方法,先估计出
Figure BDA0002194159970000121
然后分别定义
Figure BDA0002194159970000122
Figure BDA0002194159970000123
γ1为固定门限值,取值范围为2.5-3。
具体的,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的
Figure BDA0002194159970000124
若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的
Figure BDA0002194159970000125
作为当前帧的
Figure BDA0002194159970000126
步骤c2:根据当前帧的E(n)和
Figure BDA0002194159970000127
进行判断,如果当前帧满足
Figure BDA0002194159970000128
且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,取值范围为10-8-10-5,μ3表示调节因子,取值范围为0.2-0.3。
如图3-图6所示,本发明可以有效的在瞬态冲击噪声、非瞬态冲击噪声和准平稳背景噪声干扰下,准确的检测出语音信号。
如图3所示为当存在挪动椅子的噪声及其他干扰噪声时,本发明的语音活动检测结果。其中虚线代表语音活动检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为挪动椅子的噪声及其他干扰噪声。图4所示为图3所示带噪信号的时频图。
如图5所示为存在敲桌子的噪声时,本发明的语音活动检测结果。其中虚线代表语音检测结果。幅值为1时,表示检测结果为语音信号,为0时为噪声信号。椭圆中的信号为敲桌子的噪声。图6所示为图5带噪信号的时频图。
本发明既可用于多通道麦克风阵列做完回声消除、回声抑制、波束形成及降噪后的单通道语音信号,也可直接用于单通道降噪前或降噪后的语音信号。

Claims (6)

1.一种用于视频会议系统的语音活动检测系统,其特征在于,包括语音信号获取模块、瞬态冲击噪声检测模块、浊音清音分类模块、信噪比检测模块、语音存在概率检测模块、带噪语音信号能量检测模块和最终判决模块;
所述语音信号获取模块用于利用麦克风阵列获取带噪语音信号;
所述瞬态冲击噪声检测模块用于获取带噪语音信号的当前帧,并判断当前帧是否存在瞬态冲击噪声,若不存在瞬态冲击噪声则将当前帧标记为语音信号,若存在瞬态冲击噪声则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述浊音清音分类模块用于获取带噪语音信号的当前帧,判断当前帧为浊音或者清音,若当前帧为浊音则将当前帧标记为语音信号,若当前帧为清音则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述信噪比检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音信噪比和对应门限值的关系,若满足门限值则标记将将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述语音存在概率检测模块用于获取带噪语音信号的当前帧,判断当前帧的语音存在概率和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述带噪语音信号能量检测模块用于获取带噪语音信号的当前帧,结合语音存在概率检测模块的标记结果判断当前帧的频域平均能量和对应门限的关系,若满足门限值则将当前帧标记为语音信号,否则将当前帧标记为噪声信号,然后将标记结果传递给最终判决模块;
所述最终判决模块用于根据所有模块的标记结果进行判决,当所有模块都标记当前帧为语音信号时,最终判决模块输出当前帧为语音信号,否则输出当前帧为噪声信号;
所述瞬态冲击噪声检测模块的检测方法包括如下子步骤:
步骤a1:获得当前帧的频域带噪语音信号Y(k,n),对Y(k,n)进行平滑得到初次平滑的频域带噪语音信号S(k,n),其中k表示第k个频点k∈{1,2,3,...,K},K为正整数,n表示当前帧的帧数,所述平滑包括频域平滑和时域平滑,获取S(k,n)在一段时间之内的最小统计量Smin(k,n);
步骤a2:设定初级门限γ0和ε0,对于当前帧的每个频点进行初级判断,若当前帧的第k个频点满足
Figure FDA0003258682450000021
Figure FDA0003258682450000022
则标记该频点不存在瞬态冲击噪声,否则标记该频点存在瞬态冲击噪声,其中,Bmin表示Smin(k,n)的估计偏差;
获取当前帧中所有不存在瞬态冲击噪声的频点再次进行平滑,得到二次平滑的频域带噪语音信号
Figure FDA0003258682450000023
获取
Figure FDA0003258682450000024
在一段时间之内的最小统计量
Figure FDA0003258682450000025
和在当前帧之后第U帧在一段时间之内最小统计量
Figure FDA0003258682450000026
步骤a3:设定二级门限σ,对于当前帧中每个可能存在瞬态冲击噪声的频点进行二级判断,若
Figure FDA0003258682450000027
则标记该频点存在瞬态冲击噪声,否则标记该频点不存在瞬态冲击噪声,其中,
Figure FDA0003258682450000028
步骤a4:获得二级判断后当前帧存在瞬态冲击噪声的频点的个数,若当前帧存在瞬态冲击噪声的频点的个数大于频点个数门限N1,则标记当前帧为存在瞬态冲击噪声,否则标记当前帧不存在瞬态冲击噪声。
2.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,浊音清音分类模块的分类方法包括如下子步骤:
步骤b1:获得当前帧的对数频域带噪语音信号Y(c,n),对Y(c,n)进行压缩得到Y′(c,n);
步骤b2:令Y′(c,n)和梳状滤波器h(c)进行卷积得到Y′(c,n)*h(c),然后将Y′(c,n)*h(c)的三个最大峰值的能量和以及Y′(c,n)的平均能量作为特征,输入高斯混合模型,得到当前帧的浊音可能概率pv和当前帧的清音可能概率pu
步骤b3:根据pv和pu利用式Ⅰ计算当前帧属于浊音的概率pvf
Figure FDA0003258682450000031
如果pvf≥p0,则标记当前帧为浊音,否则,标记当前帧为清音。
3.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,所述信噪比检测模块的检测方法为:
估计当前帧的后验信噪比
Figure FDA0003258682450000032
和先验信噪比
Figure FDA0003258682450000033
并计算经过时域平滑频域平均的先验信噪比
Figure FDA0003258682450000034
如果当前帧满足
Figure FDA0003258682450000035
Figure FDA0003258682450000036
μ1和μ2表示调节因子,则标记当前帧为语音信号,否则标记当前帧为噪声信号。
4.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,所述语音存在概率检测模块的检测方法为:
利用式Ⅱ计算当前帧中每个频点的语音存在概率p(k,n),如果当前帧满足p(k,n)≤p1的频点的个数大于频点个数门限N2时,标记当前帧为噪声信号,否则标记当前帧为语音信号;
Figure FDA0003258682450000037
其中,
Figure FDA0003258682450000038
表示先验语音不存在概率,
Figure FDA0003258682450000039
5.如权利要求1所述的用于视频会议系统的语音活动检测系统,其特征在于,带噪语音信号能量检测模块的检测方法为:
步骤c1:计算当前帧的带噪语音信号的频域平均能量E(n),若语音存在概率检测模块标记当前帧为语音信号,则计算当前帧的E(n)经过时域平滑后得到的
Figure FDA0003258682450000041
若语音存在概率检测模块标记当前帧为噪声信号,则将上一帧的
Figure FDA0003258682450000042
作为当前帧的
Figure FDA0003258682450000043
步骤c2:根据当前帧的E(n)和
Figure FDA0003258682450000044
进行判断,如果当前帧满足
Figure FDA0003258682450000045
且E(n)>E0,则标记当前帧为语音信号,否则标记当前帧为噪声信号,其中,E0表示能量门限,μ3表示调节因子。
6.如权利要求3所述的用于视频会议系统的语音活动检测系统,其特征在于,所述语音信噪比检测模块中
Figure FDA0003258682450000046
Figure FDA0003258682450000047
表示前一帧的经过时域平滑的平均先验信噪比,αSNR为遗忘因子。
CN201910842478.1A 2019-09-06 2019-09-06 一种用于视频会议系统的语音活动检测系统 Active CN110689905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910842478.1A CN110689905B (zh) 2019-09-06 2019-09-06 一种用于视频会议系统的语音活动检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910842478.1A CN110689905B (zh) 2019-09-06 2019-09-06 一种用于视频会议系统的语音活动检测系统

Publications (2)

Publication Number Publication Date
CN110689905A CN110689905A (zh) 2020-01-14
CN110689905B true CN110689905B (zh) 2021-12-21

Family

ID=69107861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910842478.1A Active CN110689905B (zh) 2019-09-06 2019-09-06 一种用于视频会议系统的语音活动检测系统

Country Status (1)

Country Link
CN (1) CN110689905B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205826B (zh) * 2021-05-12 2022-06-07 北京百瑞互联技术有限公司 一种lc3音频噪声消除方法、装置及存储介质
CN113470623B (zh) * 2021-08-12 2023-05-16 成都启英泰伦科技有限公司 一种自适应语音端点检测方法及检测电路

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101179283A (zh) * 2007-09-28 2008-05-14 杭州国芯科技有限公司 脉冲噪声的检测及抑制方法
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN104424954A (zh) * 2013-08-20 2015-03-18 华为技术有限公司 噪声估计方法与装置
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
CN104952458B (zh) * 2015-06-09 2019-05-14 广州广电运通金融电子股份有限公司 一种噪声抑制方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101197130A (zh) * 2006-12-07 2008-06-11 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101179283A (zh) * 2007-09-28 2008-05-14 杭州国芯科技有限公司 脉冲噪声的检测及抑制方法
CN104424954A (zh) * 2013-08-20 2015-03-18 华为技术有限公司 噪声估计方法与装置
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN108346425A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种语音活动检测的方法和装置、语音识别的方法和装置
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Sub-Threshold Noise Transient Simulator Based on Integrated Random Telegraph and Thermal Noise Modeling;Marco Donato;《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems》;20170620;第643 - 656页 *
瞬态噪声环境下改进的语音端点检测算法;李丹;《兰州工业学院学报》;20190615(第3期);第56-61页 *
语音中瞬态噪声抑制算法研究;王兆伟;《中国优秀硕士学位论文全文数据库》;20130916(第9期);I136-39 *

Also Published As

Publication number Publication date
CN110689905A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN108831499B (zh) 利用语音存在概率的语音增强方法
Aneeja et al. Single frequency filtering approach for discriminating speech and nonspeech
Upadhyay et al. Single channel speech enhancement: using Wiener filtering with recursive noise estimation
CN105103230B (zh) 信号处理装置、信号处理方法、信号处理程序
CN110689905B (zh) 一种用于视频会议系统的语音活动检测系统
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
Jangjit et al. A new wavelet denoising method for noise threshold
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
Nie et al. Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement.
May et al. Assessment of broadband SNR estimation for hearing aid applications
CN104200815B (zh) 一种基于相关分析的音频噪声实时检测方法
Zhu et al. Modified complementary joint sparse representations: a novel post-filtering to MVDR beamforming
Diether et al. Efficient blind estimation of subband reverberation time from speech in non-diffuse environments
Tang et al. Speech Recognition in High Noise Environment.
Zong et al. Pitch detection using EMD-based AMDF
Ou et al. Soft Decision Based Gaussian‐Laplacian Combination Model for Noisy Speech Enhancement
Heese et al. Speech-codebook based soft voice activity detection
Azarpour et al. Binaural noise PSD estimation for binaural speech enhancement
Lim et al. Acoustic blur kernel with sliding window for blind estimation of reverberation time
Hepsiba et al. Computational intelligence for speech enhancement using deep neural network
TWI749547B (zh) 應用深度學習的語音增強系統
Gong et al. Noise power spectral density matrix estimation based on modified IMCRA
Zhang et al. Gain factor linear prediction based decision-directed method for the a priori SNR estimation
Unoki et al. Unified denoising and dereverberation method used in restoration of MTF-based power envelope
Sharmida et al. A robust observation model for automatic speech recognition with Adaptive Thresholding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant