CN106356076A - 基于人工智能的语音活动性检测方法和装置 - Google Patents
基于人工智能的语音活动性检测方法和装置 Download PDFInfo
- Publication number
- CN106356076A CN106356076A CN201610814980.8A CN201610814980A CN106356076A CN 106356076 A CN106356076 A CN 106356076A CN 201610814980 A CN201610814980 A CN 201610814980A CN 106356076 A CN106356076 A CN 106356076A
- Authority
- CN
- China
- Prior art keywords
- signal
- energy
- described signal
- noise
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 206010068319 Oropharyngeal pain Diseases 0.000 description 3
- 201000007100 Pharyngitis Diseases 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000686 essence Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了基于人工智能的语音活动性检测方法和装置,所述方法包括:获取待处理的当前帧信号;分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值;根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数;根据语音活动性判断参数确定出该信号是否为语音信号。应用本发明所述方案,能够提高检测结果的准确性等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的语音活动性检测方法和装置。
【背景技术】
目前,人工智能技术已经得到了广泛应用,人工智能(ArtificialIntelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
如语音活动性检测(VAD,Voice Activity Detection)是机器人语音交互过程中的一项重要技术。
机器人需要对获取到的当前帧信号进行识别,以确定其中是否存在语音信息,即确定该信号是否为语音信号,如果为语音信号,后续可相应地响应用户的需求等。
对获取到的各帧信号进行识别,以确定各帧信号是否为语音信号的操作即可称为语音活动性检测。
现有技术中,主要基于语音信号的一些规则特征来进行语音活动性检测,比如,利用语音信号与噪声信号之间的某些特征的差异进行区分,包括信号能量、过零率、倒谱、长时谱等,通过阈值比较和逻辑运算,确定是否为语音信号。其中比较典型的方法包括双门限检测法和基于自相关极大值的语音活动性检测方法等。
但上述方法受环境噪声的影响很大,因此检测结果的准确性较低。
【发明内容】
本发明提供了基于人工智能的语音活动性检测方法和装置,能够提高检测结果的准确性。
具体技术方案如下:
一种基于人工智能的语音活动性检测方法,包括:
获取待处理的当前帧信号;
分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值;
根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数;
根据所述语音活动性判断参数确定出所述信号是否为语音信号。
一种基于人工智能的语音活动性检测装置,包括:获取单元、第一能量估计单元、第二能量估计单元和语音活动性判断单元;
所述获取单元,用于获取待处理的当前帧信号,并将所述信号分别发送给所述第一能量估计单元和所述第二能量估计单元;
所述第一能量估计单元,用于确定出所述信号的信号能量估计值,将所述信号能量估计值发送给所述语音活动性判断单元;
所述第二能量估计单元,用于确定出所述信号的基频和谐波能量之和估计值,将所述基频和谐波能量之和估计值发送给所述语音活动性判断单元;
所述语音活动性判断单元,用于根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数,根据所述语音活动性判断参数确定出所述信号是否为语音信号。
基于上述介绍可以看出,采用本发明所述方案,根据语音的浊音中独有的基频和谐波特征,并结合信号能量,来实现语音活动性检测,从而克服了现有技术中的问题,进而提高了语音活动性检测结果的准确性。
【附图说明】
图1为本发明所述基于人工智能的语音活动性检测方法实施例的流程图。
图2为本发明所述基于人工智能的语音活动性检测装置实施例的组成结构示意图。
图3为现有一段语音信号的波形与频谱图。
图4为采用本发明所述方案对图3所示语音信号进行语音活动性检测的检测结果示意图。
【具体实施方式】
语音由清音和浊音结合而成,语音学中,将发音时声带振动的音称为浊音,将发音时声带不振动的音称为清音。对于语音来说,浊音的能量和持续时间均远大于清音,因此,任何有意义的语音片段中必然会包含一定长度的浊音。浊音又主要包括基频和谐波两部分,对浊音进行分析可知,其能量主要集中在基频和谐波中。
各种环境噪声均不具备浊音的这种特征,因此,只要能够在信号中检测到浊音的谐波特征等,再结合语音能量一般高于噪声能量的特点,即可比较准确地确定出信号是否为语音信号。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
实施例一
图1为本发明所述基于人工智能的语音活动性检测方法实施例的流程图,如图1所示,包括以下具体实现方式。
在11中,获取待处理的当前帧信号;
在获取到待处理的当前帧信号之后,还可对该信号进行预处理;
在12中,分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值;
在13中,根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数;
在14中,根据语音活动性判断参数确定出该信号是否为语音信号。
以下分别对上述各部分的具体实现进行详细说明。
1)预处理
在获取到待处理的当前帧信号之后,分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值之前,可先对该信号进行预处理。
预处理主要包括:依次对该信号进行加窗处理、快速傅里叶变换(FFT,FastFourier Transformation)以及求取频谱能量。
可选择汉明窗来对该信号进行加窗处理,汉明窗表示如下:
相应地,加窗处理后的信号可表示为:
swin(n)=hamm(n)·s(n),n=1,…,L; (2)
s(n)表示加窗处理之前的信号,L表示该信号(数字信号)的帧长,L一般为2的正整数次方,如256,以便于进行快速傅里叶变换。
之后,可对该信号的加窗处理结果swin(n)进行快速傅里叶变换,得到频域信号如下:
sfft(k)=FFT[swin(n)],k=1,…,L; (3)
进一步地,可在式(3)的基础上求取出该信号的频谱能量:
sspectrum(k)=abs[sfft(k)],k=1,…,L; (4)
abs表示取模运算。
2)信号能量估计值
首先,可根据该信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L;之后,可根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出该信号的信号能量估计值Elg。
binfmax=floor(A/fs·L); (5)
floor表示向下取整,A表示预先设定的频率值,A大于3400Hz,由于语音信号的频率范围为20~3400Hz,因此A的取值需要大于3400Hz,具体取值可根据实际需要而定,比如可为4000Hz,信号的采样率fs可为16KHz等。
在得到binfmax之后,可计算出该信号的能量值如下:
即将式(4)中k的取值从1~binfmax时分别对应的sspectrum(k)的平方求和之后再求平均。
语音信号的能量通常用分贝进行表示,这跟人耳的听觉效应有关,采用分贝表示声音的大小更符合人耳对声音大小变化分辨的听觉习惯,因此,可对式(6)中得到的E取log10,从而得到信号能量估计值Elg如下:
Elg=lg(1+E)。 (7)
3)基频和谐波能量之和估计值
语音信号的基频的频率范围一般为60~400Hz,谐波频率是基频频率的整数倍,因此浊音在频率上存在均匀分布的能量极值,其间隔等于基频,浊音即使受到各种环境噪声的影响,一般也至少能够保持3~5个能量比较明显的谐波成分,因此,可搜寻距离基频最近的N条谐波,以所有可能的基频与对应的N条谐波能量之和为比较标准,取能量最大的频点作为基频位置,从而最终确定出信号的基频和谐波能量之和估计值。
具体地,可首先确定出基频对应的离散频点fw的取值范围[flower,fupper],之后,可针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和,并将取值最大的作为基频和谐波能量之和估计值Eval。
N为大于1的正整数,具体取值可根据实际需要而定,比如可为4。
flower=floor(B1/fs·L);(8)
fupper=floor(B2/fs·L);(9)
B1表示基频频率的最小取值,B2表示基频频率的最大取值,如B1的取值可为60Hz,B2的取值可为400Hz。
参照式(4),sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k),n·fw小于L,假设N的取值为4,那么式(10)中,分别将sspectrum(1·fw)、sspectrum(2·fw)、sspectrum(3·fw)、sspectrum(4·fw)和sspectrum(5·fw)相加求和。
在针对位于取值范围[flower,fupper]内的每个fw的取值,分别计算出对应的之后,可选取出其中取值最大的作为所需的基频和谐波能量之和估计值Eval,即:
4)语音活动性判断
对于11中获取到的当前帧信号,在分别按照2)和3)中所述方式获取到该信号的信号能量估计值Elg以及基频和谐波能量之和估计值Eval之后,可进一步得到该信号的语音活动性判断参数Ecomb如下:
Ecomb=max{0,Elg-Elg,noise}·max{0,Eval-Eval,noise}; (12)
Elg,noise表示预先确定的噪声条件下的信号能量阈值;
Eval,noise表示预先确定的噪声条件下的基频和谐波能量阈值。
对于一段包含语音信号的待处理信号来说,通常初始的一段时间内均为环境噪声,接下来才会出现语音信号,因此在初始阶段,可不进行语音活动性判断,而是对计算得到的Elg和Eval进行跟踪,以确定噪声条件下这两个特征的基本阈值,即Elg,noise和Eval,noise,从而作为后续语音活动性判断的标准。
具体跟踪过程可如下所示:
对于获取到的待处理的当前帧信号,确定该信号的帧号是否小于或等于M,M为大于1的正整数,信号的帧号为正整数;
若是,且该信号的帧号p=1,则将该信号的Elg作为Elg,noise,将该信号的Eval作为Eval,noise,即有:
Elg,noise=Elg,Eval,noise=Eval; (13)
若是,且该信号的帧号p满足1<p<=M,则根据该信号的Elg对Elg,noise进行更新,并根据该信号的Eval对Eval,noise进行更新;
更新后的Elg,noise=0.9·Elg,noise+0.1·Elg; (14)
更新后的Eval,noise=0.9·Eval,noise+0.1·Eval; (15)
若否,则根据该信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise,确定出该信号的Ecomb。
M的具体取值可根据实际需要而定,比如可为20,通过上述介绍可以看出,对于前20帧信号,可不进行语音活动性判断,并将根据第20帧信号的Elg和Eval进行更新后的Elg,noise和Eval,noise作为最终所需的Elg,noise和Eval,noise。
之后,从第21帧信号开始,可分别按照式(12)计算出Ecomb,并可将计算得到的Ecomb与预先设定的判决门限Ethreshold进行比较,若Ecomb≥Ethreshold,则可确定该信号为语音信号,若Ecomb<Ethreshold,则可确定该信号为非语音信号。
Ethreshold的具体取值同样可根据实际需要而定,较佳地,取值范围可为0.07~0.15。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
实施例二
图2为本发明所述基于人工智能的语音活动性检测装置实施例的组成结构示意图,如图2所示,包括:获取单元21、第一能量估计单元22、第二能量估计单元23和语音活动性判断单元24。
获取单元21,用于获取待处理的当前帧信号,并将该信号分别发送给第一能量估计单元22和第二能量估计单元23;
第一能量估计单元22,用于确定出该信号的信号能量估计值,将信号能量估计值发送给语音活动性判断单元24;
第二能量估计单元23,用于确定出该信号的基频和谐波能量之和估计值,将基频和谐波能量之和估计值发送给语音活动性判断单元24;
语音活动性判断单元24,用于根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数,根据语音活动性判断参数确定出该信号是否为语音信号。
以下分别对上述各单元的具体功能进行详细介绍。
1)获取单元21
获取单元21在获取到待处理的当前帧信号之后,可先对该信号进行预处理,之后将进行预处理后的信号发送给第一能量估计单元22和第二能量估计单元23。
具体地,获取单元21可对该信号依次进行以下预处理:对该信号进行加窗处理、快速傅里叶变换以及求取频谱能量。
可选择汉明窗来对该信号进行加窗处理,汉明窗表示如下:
相应地,加窗处理后的信号可表示为:
swin(n)=hamm(n)·s(n),n=1,...,L; (2)
s(n)表示加窗处理之前的信号,L表示该信号(数字信号)的帧长,L一般为2的正整数次方,如256,以便于进行快速傅里叶变换。
之后,可对该信号的加窗处理结果swin(n)进行快速傅里叶变换,得到频域信号如下:
sfft(k)=FFT[swin(n)],k=1,...,L; (3)
进一步地,可在式(3)的基础上求取出该信号的频谱能量:
sspectrum(k)=abs[sfft(k)],k=1,...,L; (4)
abs表示取模运算。
2)第一能量估计单元22
第一能量估计单元22可根据该信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L,并根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出该信号的信号能量估计值Elg。
binfmax=floor(A/fs·L); (5)
floor表示向下取整,A表示预先设定的频率值,A大于3400Hz,由于语音信号的频率范围为20~3400Hz,因此A的取值需要大于3400Hz,具体取值可根据实际需要而定,比如可为4000Hz,信号的采样率fs可为16KHz等。
在得到binfmax之后,可计算出该信号的能量值如下:
即将式(4)中k的取值从1~binfmax时分别对应的sspectrum(k)的平方求和之后再求平均。
语音信号的能量通常用分贝进行表示,这跟人耳的听觉效应有关,采用分贝表示声音的大小更符合人耳对声音大小变化分辨的听觉习惯,因此,可对式(6)中得到的E取log10,从而得到信号能量估计值Elg如下:
Elg=lg(1+E)。 (7)
3)第二能量估计单元23
第二能量估计单元23可首先确定出基频对应的离散频点fw的取值范围[flower,fupper],之后,可针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和并将取值最大的作为基频和谐波能量之和估计值Eval。
N为大于1的正整数,具体取值可根据实际需要而定,比如可为4。
flower=floor(B1/fs·L); (8)
fupper=floor(B2/fs·L); (9)
B1表示基频频率的最小取值,B2表示基频频率的最大取值,如B1的取值可为60Hz,B2的取值可为400Hz。
参照式(4),sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k),n·fw小于L,假设N的取值为4,那么式(10)中,分别将sspectrum(1·fw)、sspectrum(2·fw)、sspectrum(3·fw)、sspectrum(4·fw)和sspectrum(5·fw)相加求和。
在针对位于取值范围[flower,fupper]内的每个fw的取值,分别计算出对应的之后,可选取出其中取值最大的作为所需的基频和谐波能量之和估计值Eval,即:
4)语音活动性判断单元24
对于获取到的当前帧信号,语音活动性判断单元24在分别获取到该信号的信号能量估计值Elg和基频和谐波能量之和估计值Eval之后,可得到该信号的语音活动性判断参数Ecomb如下:
Ecomb=max{0,Elg-Elg,noise}·max{0,Eval-Eval,noise}; (12)
Elg,noise表示预先确定的噪声条件下的信号能量阈值;
Eval,noise表示预先确定的噪声条件下的基频和谐波能量阈值。
对于一段包含语音信号的待处理信号来说,通常初始的一段时间内均为环境噪声,接下来才会出现语音信号,因此在初始阶段,可不进行语音活动性判断,而是对计算得到的Elg和Eval进行跟踪,以确定噪声条件下这两个特征的基本阈值,即Elg,noise和Eval,noise,从而作为后续语音活动性判断的标准。
为此,语音活动性判断单元24还可进一步进行以下处理:
对于获取到的待处理的当前帧信号,确定该信号的帧号是否小于或等于M,M为大于1的正整数,信号的帧号为正整数;
若是,且该信号的帧号p=1,则将该信号的Elg作为Elg,noise,将该信号的Eval作为Eval,noise,即有:
Elg,noise=Elg,Eval,noise=Eval; (13)
若是,且该信号的帧号p满足1<p<=M,则根据该信号的Elg对Elg,noise进行更新,并根据该信号的Eval对Eval,noise进行更新;
更新后的Elg,noise=0.9·Elg,noise+0.1·Elg; (14)
更新后的Eval,noise=0.9·Eval,noise+0.1·Eval; (15)
若否,则根据该信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise,确定出该信号的Ecomb。
M的具体取值可根据实际需要而定,比如可为20,通过上述介绍可以看出,对于前20帧信号,语音活动性判断单元24可不进行语音活动性判断,并将根据第20帧信号的Elg和Eval进行更新后的Elg,noise和Eval,noise作为最终所需的Elg,noise和Eval,noise。
之后,从第21帧信号开始,语音活动性判断单元24可分别按照式(12)计算出Ecomb,并可将计算得到的Ecomb与预先设定的判决门限Ethreshold进行比较,若Ecomb≥Ethreshold,则可确定该信号为语音信号,若Ecomb<Ethreshold,则可确定该信号为非语音信号。
Ethreshold的具体取值同样可根据实际需要而定,较佳地,取值范围可为0.07~0.15。
总之,采用本发明所述方案,根据语音的浊音中独有的基频和谐波特征,并结合信号能量,来实现语音活动性检测,从而克服了现有技术中的问题,进而提高了语音活动性检测结果的准确性;而且,本发明所述方案可适用于各种环境,具有广泛适用性。
图3为现有一段语音信号的波形与频谱图,如图3所示,其中存在4段明显的语音信号,用矩形框进行了标注,可以看出,时域上,语音信号的幅度和能量相比于噪声均高出不少,频域上,在语音信号存在的地方,会出现明显的基频与谐波特征(如矩形框中所示)。
图4为采用本发明所述方案对图3所示语音信号进行语音活动性检测的检测结果示意图,如图4所示,0表示不存在语音信号,可以看出,检测结果非常准确,而且对于中间出现的短时干扰噪声(如矩形框中所示)也能够准确地进行区分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种基于人工智能的语音活动性检测方法,其特征在于,包括:
获取待处理的当前帧信号;
分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值;
根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数;
根据所述语音活动性判断参数确定出所述信号是否为语音信号。
2.根据权利要求1所述的方法,其特征在于,
所述分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值之前,进一步包括:对所述信号进行预处理。
3.根据权利要求2所述的方法,其特征在于,
所述对所述信号进行预处理包括:依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量;
其中,对所述信号的快速傅里叶变换结果sfft(k)进行取模运算,得到所述信号的频谱能量sspectrum(k),k=1,...,L,所述L表示所述信号的帧长。
4.根据权利要求3所述的方法,其特征在于,
所述确定出所述信号的信号能量估计值包括:
根据所述信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L;
根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出所述信号的信号能量估计值Elg。
5.根据权利要求4所述的方法,其特征在于,
所述确定出离散频点binfmax包括:
计算预先设定的频率值A与所述fs之商,将所述商与所述L的乘积向下取整,得到所述binfmax,所述A大于3400Hz;
所述确定出所述信号的信号能量估计值Elg包括:
分别计算k的取值从1~binfmax时对应的sspectrum(k)的平方值;
计算各平方值的均值;
对所述均值与1的相加之和取log10,得到所述Elg。
6.根据权利要求3所述的方法,其特征在于,
所述确定出所述信号的基频和谐波能量之和估计值包括:
确定出基频对应的离散频点fw的取值范围[flower,fupper];
针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数;
将取值最大的作为所述基频和谐波能量之和估计值Eval。
7.根据权利要求6所述的方法,其特征在于,
确定出所述flower包括:
计算基频频率的最小取值B1与采样率fs之商,将所述商与所述L的乘积向下取整,得到所述flower;
确定出所述fupper包括:
计算基频频率的最大取值B2与所述fs之商,将所述商与所述L的乘积向下取整,得到所述fupper;
所述针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和包括:
计算n的取值从1到(1+N)时分别对应的sspectrum(n·fw)的相加之和,将计算结果作为所述所述sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k),n·fw小于L。
8.根据权利要求1所述的方法,其特征在于,
所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数包括:
计算所述信号的信号能量估计值Elg与预先确定的噪声条件下的信号能量阈值Elg,noise之差,得到第一差值;
计算所述信号的基频和谐波能量之和估计值Eval与预先确定的噪声条件下的基频和谐波能量阈值Eval,noise之差,得到第二差值;
计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积,得到所述信号的语音活动性判断参数Ecomb。
9.根据权利要求8所述的方法,其特征在于,
所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数之前,进一步包括:
确定所述信号的帧号是否小于或等于M,M为大于1的正整数,所述信号的帧号为正整数;
若是,且所述信号的帧号p=1,则将所述信号的Elg作为所述Elg,noise,将所述信号的Eval作为所述Eval,noise;
若是,且所述信号的帧号p满足1<p<=M,则根据所述信号的Elg对所述Elg,noise进行更新,更新后的Elg,noise等于0.9与Elg,noise的乘积以及0.1与Elg的乘积之和,并根据所述信号的Eval对所述Eval,noise进行更新,更新后的Eval,noise等于0.9与Eval,noise的乘积以及0.1与Eval的乘积之和;
若否,则根据所述信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise,确定出所述信号的Ecomb。
10.根据权利要求1~9中任一项所述的方法,其特征在于,
所述根据所述语音活动性判断参数确定出所述信号是否为语音信号包括:
将所述语音活动性判断参数与预先设定的判决门限进行比较;
若所述语音活动性判断参数小于所述判决门限,则确定所述信号为非语音信号,否则,确定所述信号为语音信号。
11.一种基于人工智能的语音活动性检测装置,其特征在于,包括:获取单元、第一能量估计单元、第二能量估计单元和语音活动性判断单元;
所述获取单元,用于获取待处理的当前帧信号,并将所述信号分别发送给所述第一能量估计单元和所述第二能量估计单元;
所述第一能量估计单元,用于确定出所述信号的信号能量估计值,将所述信号能量估计值发送给所述语音活动性判断单元;
所述第二能量估计单元,用于确定出所述信号的基频和谐波能量之和估计值,将所述基频和谐波能量之和估计值发送给所述语音活动性判断单元;
所述语音活动性判断单元,用于根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数,根据所述语音活动性判断参数确定出所述信号是否为语音信号。
12.根据权利要求11所述的装置,其特征在于,
所述获取单元进一步用于,
对所述信号进行预处理,将进行预处理后的信号发送给所述第一能量估计单元和所述第二能量估计单元。
13.根据权利要求12所述的装置,其特征在于,
所述获取单元依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量;
其中,对所述信号的快速傅里叶变换结果sfft(k)进行取模运算,得到所述信号的频谱能量sspectrum(k),k=1,...,L,所述L表示所述信号的帧长。
14.根据权利要求13所述的装置,其特征在于,
所述第一能量估计单元根据所述信号的帧长L和采样率fs,确定出离散频点binfmax,binfmax小于L,并根据k的取值从1~binfmax时分别对应的sspectrum(k),确定出所述信号的信号能量估计值Elg。
15.根据权利要求14所述的装置,其特征在于,
所述第一能量估计单元计算预先设定的频率值A与所述fs之商,将所述商与所述L的乘积向下取整,得到所述binfmax,所述A大于3400Hz;
所述第一能量估计单元分别计算k的取值从1~binfmax时对应的sspectrum(k)的平方值,计算各平方值的均值,对所述均值与1的相加之和取log10,得到所述Elg。
16.根据权利要求13所述的装置,其特征在于,
所述第二能量估计单元确定出基频对应的离散频点fw的取值范围[flower,fupper],并针对位于所述取值范围内的每个fw的取值,分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数,将取值最大的作为所述基频和谐波能量之和估计值Eval。
17.根据权利要求16所述的装置,其特征在于,
所述第二能量估计单元计算基频频率的最小取值B1与采样率fs之商,将所述商与所述L的乘积向下取整,得到所述flower,计算基频频率的最大取值B2与所述fs之商,将所述商与所述L的乘积向下取整,得到所述fupper;
所述第二能量估计单元计算n的取值从1到(1+N)时分别对应的sspectrum(n·fw)的相加之和,将计算结果作为所述所述sspectrum(n·fw)表示当k的取值为n·fw时对应的sspectrum(k),n·fw小于L。
18.根据权利要求11所述的装置,其特征在于,
所述语音活动性判断单元计算所述信号的信号能量估计值Elg与预先确定的噪声条件下的信号能量阈值Elg,noise之差,得到第一差值,计算所述信号的基频和谐波能量之和估计值Eval与预先确定的噪声条件下的基频和谐波能量阈值Eval,noise之差,得到第二差值,计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积,得到所述信号的语音活动性判断参数Ecomb。
19.根据权利要求18所述的装置,其特征在于,
所述语音活动性判断单元进一步用于,
确定所述信号的帧号是否小于或等于M,M为大于1的正整数,所述信号的帧号为正整数;
若是,且所述信号的帧号p=1,则将所述信号的Elg作为所述Elg,noise,将所述信号的Eval作为所述Eval,noise;
若是,且所述信号的帧号p满足1<p<=M,则根据所述信号的Elg对所述Elg,noise进行更新,更新后的Elg,noise等于0.9与Elg,noise的乘积以及0.1与Elg的乘积之和,并根据所述信号的Eval对所述Eval,noise进行更新,更新后的Eval,noise等于0.9与Eval,noise的乘积以及0.1与Eval的乘积之和;
若否,则根据所述信号的Elg和Eval以及最新得到的Elg,noise和Eval,noise,确定出所述信号的Ecomb。
20.根据权利要求11~19中任一项所述的装置,其特征在于,
所述语音活动性判断单元将所述语音活动性判断参数与预先设定的判决门限进行比较,若所述语音活动性判断参数小于所述判决门限,则确定所述信号为非语音信号,否则,确定所述信号为语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610814980.8A CN106356076B (zh) | 2016-09-09 | 2016-09-09 | 基于人工智能的语音活动性检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610814980.8A CN106356076B (zh) | 2016-09-09 | 2016-09-09 | 基于人工智能的语音活动性检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106356076A true CN106356076A (zh) | 2017-01-25 |
CN106356076B CN106356076B (zh) | 2019-11-05 |
Family
ID=57859589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610814980.8A Active CN106356076B (zh) | 2016-09-09 | 2016-09-09 | 基于人工智能的语音活动性检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106356076B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019101123A1 (zh) * | 2017-11-22 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 语音活性检测方法、相关装置和设备 |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
WO2020253073A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030125934A1 (en) * | 2001-12-14 | 2003-07-03 | Jau-Hung Chen | Method of pitch mark determination for a speech |
CN1912992A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 一种基于谐波特征的浊音检测方法 |
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
EP2410519A1 (en) * | 2008-07-11 | 2012-01-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN103067322A (zh) * | 2011-12-09 | 2013-04-24 | 微软公司 | 评估单通道音频信号中的音频帧的语音质量的方法 |
CN103310800A (zh) * | 2012-03-06 | 2013-09-18 | 中国科学院声学研究所 | 一种抗噪声干扰的浊语音检测方法及系统 |
US20140309992A1 (en) * | 2013-04-16 | 2014-10-16 | University Of Rochester | Method for detecting, identifying, and enhancing formant frequencies in voiced speech |
-
2016
- 2016-09-09 CN CN201610814980.8A patent/CN106356076B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030125934A1 (en) * | 2001-12-14 | 2003-07-03 | Jau-Hung Chen | Method of pitch mark determination for a speech |
CN1912992A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 一种基于谐波特征的浊音检测方法 |
CN1912993A (zh) * | 2005-08-08 | 2007-02-14 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
EP2410519A1 (en) * | 2008-07-11 | 2012-01-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
CN103067322A (zh) * | 2011-12-09 | 2013-04-24 | 微软公司 | 评估单通道音频信号中的音频帧的语音质量的方法 |
CN103310800A (zh) * | 2012-03-06 | 2013-09-18 | 中国科学院声学研究所 | 一种抗噪声干扰的浊语音检测方法及系统 |
US20140309992A1 (en) * | 2013-04-16 | 2014-10-16 | University Of Rochester | Method for detecting, identifying, and enhancing formant frequencies in voiced speech |
Non-Patent Citations (1)
Title |
---|
国雁萌 等: "复杂噪声环境中的语音端点检测", 《声学学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019101123A1 (zh) * | 2017-11-22 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 语音活性检测方法、相关装置和设备 |
US11138992B2 (en) | 2017-11-22 | 2021-10-05 | Tencent Technology (Shenzhen) Company Limited | Voice activity detection based on entropy-energy feature |
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
WO2020253073A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN113192488A (zh) * | 2021-04-06 | 2021-07-30 | 青岛信芯微电子科技股份有限公司 | 一种语音处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106356076B (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Renevey et al. | Entropy based voice activity detection in very noisy conditions. | |
Gonzalez et al. | PEFAC-A pitch estimation algorithm robust to high levels of noise | |
US8428945B2 (en) | Acoustic signal classification system | |
CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
Ying et al. | A probabilistic approach to AMDF pitch detection | |
EP2083417B1 (en) | Sound processing device and program | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
EP1850328A1 (en) | Enhancement and extraction of formants of voice signals | |
EP3526792B1 (en) | Voice activity detection method and apparatus | |
CN108682432B (zh) | 语音情感识别装置 | |
US6718302B1 (en) | Method for utilizing validity constraints in a speech endpoint detector | |
Vikram et al. | Estimation of Hypernasality Scores from Cleft Lip and Palate Speech. | |
CN106356076A (zh) | 基于人工智能的语音活动性检测方法和装置 | |
Khoa | Noise robust voice activity detection | |
Sigmund | Statistical analysis of fundamental frequency based features in speech under stress | |
Hanilçi et al. | Comparing spectrum estimators in speaker verification under additive noise degradation | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
Sadjadi et al. | Robust front-end processing for speaker identification over extremely degraded communication channels | |
CN106920558B (zh) | 关键词识别方法及装置 | |
Pati et al. | A comparative study of explicit and implicit modelling of subsegmental speaker-specific excitation source information | |
Zhang et al. | An endpoint detection algorithm based on MFCC and spectral entropy using BP NN | |
Nosan et al. | Speech recognition approach using descend-delta-mean and MFCC algorithm | |
Nafisah et al. | Mel-frequencies Stochastic Model for Gender Classification based on Pitch and Formant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |