CN107564512B - 语音活动侦测方法及装置 - Google Patents

语音活动侦测方法及装置 Download PDF

Info

Publication number
CN107564512B
CN107564512B CN201610505487.8A CN201610505487A CN107564512B CN 107564512 B CN107564512 B CN 107564512B CN 201610505487 A CN201610505487 A CN 201610505487A CN 107564512 B CN107564512 B CN 107564512B
Authority
CN
China
Prior art keywords
current frame
probability
energy
short
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610505487.8A
Other languages
English (en)
Other versions
CN107564512A (zh
Inventor
孙廷玮
柯逸倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201610505487.8A priority Critical patent/CN107564512B/zh
Publication of CN107564512A publication Critical patent/CN107564512A/zh
Application granted granted Critical
Publication of CN107564512B publication Critical patent/CN107564512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

语音活动侦测方法及装置,所述方法包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。上述的方案,可以提高语音活动侦测的准确率。

Description

语音活动侦测方法及装置
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音活动侦测方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便,如当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中语音活动侦测方法,存在着语音识别速度慢且准确率低的问题。
发明内容
本发明实施例解决的问题是提高语音识别的准确率。
为解决上述问题,本发明实施例提供了一种语音活动侦测方法,包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
可选地,所述计算得到当前帧的频谱能量、短时能量和周期数,包括:对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
可选地,所述基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量,包括:将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
可选地,在采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,所述方法还包括:对当前帧进行三电平中心削波处理。
可选地,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,所述方法还包括:滤除各个帧的直流偏移。
可选地,在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,所述方法还包括:对当前帧采用汉明窗进行加窗处理。
可选地,所述基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,包括:
Figure BDA0001036720220000031
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值。
可选地,所述采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵,包括:
Figure BDA0001036720220000032
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率。
可选地,所述基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,包括:OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值。
可选地,所述多个非重叠的帧中的各个帧的时长为15ms。
本发明实施例还提供了一种语音活动侦测装置,所述装置包括:分帧处理单元,适于将输入的声音数据划分为多个非重叠的帧;特征向量计算单元,适于对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;概率计算单元,适于基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;概率空间矩阵构建单元,适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;语音活动侦测单元,适于基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
可选地,所述特征向量计算单元适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
可选地,所述特征向量计算单元适于将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
可选地,所述装置还包括:削波处理单元适于在所述采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,对当前帧进行三电平中心削波处理。
可选地,所述装置还包括:直流偏移滤除单元,适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,滤除当前帧的直流偏移。
可选地,所述装置还包括:加窗处理单元,适于在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,对当前帧采用汉明窗进行加窗处理。
可选地,所述概率计算单元适于采用如下的公式计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率:
Figure BDA0001036720220000051
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值。
可选地,所述概率空间矩阵构建单元构建的当前帧的概率空间矩阵为:
Figure BDA0001036720220000052
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率。
可选地,所述语音活动侦测单元适于采用如下的公式计算得到当前帧对应的VAD向量:OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值。
可选地,所述分帧处理单元划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。
与现有技术相比,本发明的技术方案具有以下的优点:
上述的方案,通过计算当前帧的频谱能量、短时能量和周期数三个特征值分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,构建对应的概率空间矩阵,并基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,并在确定所述VAD向量中的语音类别分值、非语音类别分值和静音类别分值的最大值为语音类别分值时,确定当前帧中包括语音信息,由于采用包括频谱能量、短时能量和周期数的特征向量,可以不受噪音类型的影响,因而可以提高语音识别的准确率。
进一步地,在所述采用短时自相关函数对各个帧进行周期估计之前,对各个帧进行三电平中心削波处理,可以节省计算各个帧的周期估计的计算量,因而可以进一步节省计算资源。
进一步地,在对每个帧进行离散傅立叶变换运算得到对应的频谱能量之前,滤除各个帧的直流偏移,可以消除直流偏移对于信号的影响,因而可以进一步提高语音活动侦测的准确性。
进一步地,在对每个帧进行离散傅立叶变换运算得到对应的频谱能量之前,对各个帧采用汉明窗进行加窗处理,可以消除不同帧之间的频谱能量泄露,因而可以进一步提高语音活动侦测的准确性。
附图说明
图1是本发明实施例中的一种语音活动侦测方法的流程图;
图2是本发明实施例中的一种概率空间的示意图;
图3是本发明实施例中的另一种语音活动侦测方法的流程图;
图4是本发明实施例中的语音活动侦测装置的结构示意图。
具体实施方式
现有技术中的一种语音活动侦测(Voice Activity Detection,VAD)方法,通过将获取的待识别的声音数据划分为多个重叠的声音帧,并对每个声音帧进行快速傅立叶变换运算,得到对应的频谱能量;对所述多个重叠的声音帧的频谱能量进行遍历,将遍历到的当前声音帧的频谱能量划分为无重叠的多个子带;根据当前声音帧的多个子带的频谱能量,计算得到当前声音帧的能量均方根;当确定当前声音帧的能量均方根大于预设的阈值时,确定当前声音帧中包括语音信息。
上述的VAD方法可以在噪音变化的速度小于语音追踪能力,且语音片段的能量水平高于噪音片段的能量水平时,可以获取较好的性能。但是,当上述情况发生变化时,存在着语音检测准确性低的问题。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过将当前声音帧的能量均方根与对应的阈值进行比较,来确定当前声音帧中是否包括语音信息,可以节省语音识别的计算资源和时间,并可以提高语音识别的准确率。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法,可以包括如下步骤:
步骤S101:将输入的声音数据划分为多个非重叠的帧。
在具体实施中,所述重叠的帧中各个帧的时长为15ms。
步骤S102:对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数。
在具体实施中,语音信号并非是静态的,但与非语音信号相比,语音帧之间的频谱特性具有较大的相似性。在移动手机的环境中,动态噪音帧之间的频谱特性也就有相似性。因此,帧与帧之间的线性独立性对于区分非语音信号和动态噪音信号具有重要的参考意义。同时,使用单一的参数不足以在动态噪音环境中区分语音信号和静音信号。另外,因测量重要性随着环境进行变化,使用具有一个固定阈值的二元决策法来检测语音/静默信号也会导致检测的准确性的降低。
而本发明实施例中的语音活动侦测方法分别使用包括频谱能量、短时能量和周期数的三个特征值的特征向量来表示对应的帧,因而可以增强语音活动侦测的准确性。
步骤S103:基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。
在具体实施中,请参见图2所示,预先建立语音类别的概率空间A、非语音类别的概率空间B和静音类别的概率空间C,对于一个给定的测量值即特征值,可以非线性地计算得到所述测量值相对于每个类别的均值的概率空间,即相应的特征向量落入语音类别概率空间的概率、落在噪音类别概率空间的概率和落在静音类别的概率空间的概率。例如,在本发明一实施例中可以采用如下的公式计算得到所述测量值相对于每个类别的均值的概率空间:
Figure BDA0001036720220000081
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值。
通过上述的公式(1)可以看出,根据频谱能量、短时能量和周期数计算得到的落在语音类别、非语音类别和静音类别中概率均为非负数,且最大的概率为1,当计算得到的概率的数值落入对应的类别的标准差的均值时达到最大。
因此,通过上述的公式计算得到的概率可以用于测量给定的特征值与各个类别之间的接近程度。当将多维度特征值应用于分类问题时,各个参数的可以用于衡量自身与各个类别的均值之间的距离。接着,通过对特定参数的概率空间的相对重要性的衡量,可以成功对各个帧进行分类。
步骤S104:采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。
在具体实施中,在分别计算当前帧的频谱能量、短时能量和周期数分别落在语音类别概率空间的概率、落在预设的噪音类别概率空间的概率和落在预设的静音类别概率空间的概率时,可以采用得到的九个概率的数值构建如下的3*3的概率空间矩阵:
Figure BDA0001036720220000091
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率。
其中,采用上述的公式(2)构建的概率空间矩阵可以用于表征对应的帧。
步骤S105:基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值。
在具体实施中,在计算得到当前帧的概率空间矩阵时,可以采用如下的公式计算当前帧对应的VAD向量:
OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)] (3)
其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值。
通过公式(2)和公式(3)可以知道语音类别分值Sv(e+i+p)等于Sve、Svi和Svp之和,非语音类别分值Sμ(e+i+p)等于Sμe、Sμi和Sμp之和,静音类别分值Ss(e+i+p)等于Sse、Ssi和Ssp之和。
步骤S106:当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
在具体实施中,当计算得到语音类别分值Sv(e+i+p),非语音类别分值Sμ(e+i+p)和静音类别分值Ss(e+i+p)时,可以根据三个值的比较结果,确定当前帧属于语音帧、非语音帧还是静音帧。具体而言,可以将三个值中数值较大的数值对应的类别,作为当前帧的类别。例如,当计算得到的语音类别分值Sv(e+i+p),非语音类别分值Sμ(e+i+p)和静音类别分值Ss(e+i+p)分别为0.2、0.7和0.1时,将当前帧归为非语音帧。
在具体实施中,本发明实施例中的语音活动侦测方法可以在计算得到当前帧对应的频谱能量、短时能量和周期数之前,可以进行相应的处理,以进一步提高语音活动侦测的准确性,具体请参见图2。
图3是本发明实施例中的另一种语音活动侦测方法的流程图。参见图3,在具体实施中,本发明实施例中的语音活动侦测方法可以包括如下的步骤:
步骤S301:将输入的声音数据划分为多个非重叠的帧。
在本发明一实施例中,所述多个非重叠的帧中的各个帧的时长为15ms,且每个帧包括120个采样点,可以在尽量减少缓冲时间的基础上,使得其长度也足以获取每个帧的全部属性。
步骤S302:对遍历至的当前帧进行直流偏移滤除处理。
在具体实施中,通过各个帧分别进行直流偏移(DC shift)以得到无偏移语音信号,从而可以消除直流偏移的影响,进而可以提高语音活动侦测的准确性。
步骤S303:对遍历至的当前帧进行加窗处理,并计算当前帧的频谱能量。
在具体实施中,划分得到的多个非重叠的帧的并不是平滑地在帧尾处接近于零,由此产生的非连续性导致额外的频谱元素的产生即频谱泄露。因此,在本发明一实施例中,可以将各个帧采用进行加窗处理,如将当前帧乘以采样点为120个的汉明窗,以消除频谱泄露,以进一步提高语音活动侦测的准确性。
步骤S304:计算当前帧的短时能量。
在具体实施中,假定输入的声音数据随着时间缓慢地变化,通过各个帧的短时能量可以反映出幅度(magnitude)的变化。在本发明一实施例中,各个帧的短时能量,可以通过将当前帧中的各个采样点对应的离散傅里叶变换(DFT)的幅度的平方相加得到。
步骤S305:对当前帧进行三电平中心削波处理,并计算当前帧的周期数。
在具体实施中,通过在时域中计算短时自相关函数的局部最大值可以确定周期性信号的波峰,当语音信号是周期性变化时,对应的自相关函数也以同样的周期变化。但是,短时自相关函数的局限性在于一个周期内可能存在多个波峰。其中,因快速变化的共振频率产生的周期性出现的误导性的波峰,会导致声音跟踪响应的阻尼振荡。同时,自相关函数的在实时应用中的难处在于需要大量的计算。
因此,在本发明一实施例中,可以将在计算各个帧的周期数之前,分别对各个帧执行三级电平削波(3-level center clipping)处理,以节约计算时间,并消除声音信号中的其他因素对周期性造成的影响,以提高周期数计算的准确性,进而可以提高语音活动侦测的准确性。
这里需要指出的是,步骤303至305之间的执行顺序并不受上述的限制。
步骤S306:基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。
步骤S307:采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。
步骤S308:基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值。
步骤S309:当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
上述的步骤S306~S309可以参照前一实施例中相应步骤的介绍执行,在此不再赘述。
下面将对上述的方法对应的装置做进一步详细的介绍。
图4示出了本发明实施例中的一种语音活动侦测装置的结构。参见图3,本发明实施例中的语音活动侦测装置400可以包括分帧处理单元401、特征向量计算单元402、概率计算单元403、概率空间矩阵构建单元404和语音活动侦测单元405,其中:
分帧处理单元401,适于将输入的声音数据划分为多个非重叠的帧。
在本发明一实施例中,所述分帧处理单元401划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。
特征向量计算单元402,适于对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数。
在具体实施中,所述特征向量计算单元402适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
在具体实施中,所述特征向量计算单元402适于将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
概率计算单元403,适于基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率。
在本发明一实施例中,所述概率计算单元403适于采用如下的公式计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率:
Figure BDA0001036720220000131
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值。
概率空间矩阵构建单元404,适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵。
在具体实施中,所述概率空间矩阵构建单元404构建的当前帧的概率空间矩阵为:
Figure BDA0001036720220000132
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率。
语音活动侦测单元405,适于基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
在具体实施中,所述语音活动侦测单元405适于采用如下的公式计算得到当前帧对应的VAD向量:OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值。
在本发明一实施例中,为了节省计算各个帧的周期估计的计算量本发明实施例中的语音活动侦测装置400还可以包括削波处理单元406,其中:
削波处理单元406,适于在所述采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,对当前帧进行三电平中心削波处理。
在本发明一实施例中,为了消除直流偏移对于信号的影响,以进一步提高语音活动侦测的准确性,本发明实施例中的语音活动侦测装置400还可以包括滤除单元407,其中:
滤除单元407,适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,滤除当前帧的直流偏移。
在本发明一实施例中,为了消除不同帧之间的频谱能量泄露,以进一步提高语音活动侦测的准确性,本发明实施例中的语音活动侦测装置400还可以包括加窗处理单元408,其中:
加窗处理单元408,适于在所述对遍历至的当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,对当前帧采用汉明窗进行加窗处理。
与现有技术相比,本发明的技术方案具有以下的优点:
上述的方案,通过计算当前帧的频谱能量、短时能量和周期数三个特征值分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,构建对应的概率空间矩阵,并基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,并在确定所述VAD向量中的语音类别分值、非语音类别分值和静音类别分值的最大值为语音类别分值时,确定当前帧中包括语音信息,由于采用包括频谱能量、短时能量和周期数的特征向量,可以不受噪音类型的影响,因而可以提高语音识别的准确率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (14)

1.一种语音活动侦测方法,其特征在于,包括:
将输入的声音数据划分为多个非重叠的帧;
对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;
基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,包括:
Figure FDA0002770083330000011
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示当前帧的频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值;
采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵如下:
Figure FDA0002770083330000012
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率;
基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;所述当前帧对应的VAD向量为:OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值;
当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
2.根据权利要求1所述的语音活动侦测方法,其特征在于,所述计算得到当前帧的频谱能量、短时能量和周期数,包括:
对当前帧进行离散傅立叶变换运算得到对应的频谱能量;
基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;
采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
3.根据权利要求2所述的语音活动侦测方法,其特征在于,所述基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量,包括:将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
4.根据权利要求2所述的语音活动侦测方法,其特征在于,在采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,还包括:对当前帧进行三电平中心削波处理。
5.根据权利要求2所述的语音活动侦测方法,其特征在于,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,还包括:滤除各个帧的直流偏移。
6.根据权利要求2所述的语音活动侦测方法,其特征在于,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,还包括:对当前帧采用汉明窗进行加窗处理。
7.根据权利要求1所述的语音活动侦测方法,其特征在于,所述多个非重叠的帧中的各个帧的时长为15ms。
8.一种语音活动侦测装置,其特征在于,包括:
分帧处理单元,适于将输入的声音数据划分为多个非重叠的帧;
特征向量计算单元,适于对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;
概率计算单元,适于基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,包括:
Figure FDA0002770083330000031
其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示当前帧的频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值;
概率空间矩阵构建单元,适于采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵如下:
Figure FDA0002770083330000032
其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率;
语音活动侦测单元,适于基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;所述当前帧对应的VAD向量为:OVAD=[1 1 1]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值;
当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。
9.根据权利要求8所述的语音活动侦测装置,其特征在于,所述特征向量计算单元适于对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。
10.根据权利要求9所述的语音活动侦测装置,其特征在于,所述特征向量计算单元适于将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。
11.根据权利要求9所述的语音活动侦测装置,其特征在于,还包括:削波处理单元适于在所述采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,对当前帧进行三电平中心削波处理。
12.根据权利要求9所述的语音活动侦测装置,其特征在于,还包括:直流偏移滤除单元,适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量,滤除当前帧的直流偏移。
13.根据权利要求9所述的语音活动侦测装置,其特征在于,还包括:加窗处理单元,适于在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,对当前帧采用汉明窗进行加窗处理。
14.根据权利要求8所述的语音活动侦测装置,其特征在于,所述分帧处理单元划分得到的所述多个非重叠的帧中的各个帧的时长为15ms。
CN201610505487.8A 2016-06-30 2016-06-30 语音活动侦测方法及装置 Active CN107564512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610505487.8A CN107564512B (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610505487.8A CN107564512B (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Publications (2)

Publication Number Publication Date
CN107564512A CN107564512A (zh) 2018-01-09
CN107564512B true CN107564512B (zh) 2020-12-25

Family

ID=60969351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610505487.8A Active CN107564512B (zh) 2016-06-30 2016-06-30 语音活动侦测方法及装置

Country Status (1)

Country Link
CN (1) CN107564512B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136715B (zh) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
CN112637833B (zh) * 2020-12-21 2022-10-11 新疆品宣生物科技有限责任公司 通讯终端信息检测方法和设备
CN113270118B (zh) * 2021-05-14 2024-02-13 杭州网易智企科技有限公司 语音活动侦测方法及装置、存储介质和电子设备
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2663568A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101515454A (zh) * 2008-02-22 2009-08-26 杨夙 一组用于语音、音乐、噪音自动分类的信号特征提取方法
CN101896971A (zh) * 2008-01-28 2010-11-24 高通股份有限公司 用于使用多个麦克风进行上下文处理的系统、方法及设备
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN201765819U (zh) * 2010-01-22 2011-03-16 西安烽火电子科技有限责任公司 一种低功耗话音端点检测模块
CN102194452A (zh) * 2011-04-14 2011-09-21 西安烽火电子科技有限责任公司 复杂背景噪声中的语音激活检测方法
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2663568A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method
CN101399039A (zh) * 2007-09-30 2009-04-01 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN101896971A (zh) * 2008-01-28 2010-11-24 高通股份有限公司 用于使用多个麦克风进行上下文处理的系统、方法及设备
CN101515454A (zh) * 2008-02-22 2009-08-26 杨夙 一组用于语音、音乐、噪音自动分类的信号特征提取方法
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN201765819U (zh) * 2010-01-22 2011-03-16 西安烽火电子科技有限责任公司 一种低功耗话音端点检测模块
CN102194452A (zh) * 2011-04-14 2011-09-21 西安烽火电子科技有限责任公司 复杂背景噪声中的语音激活检测方法
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sound classification in hearing aids inspired by auditory scene analysis;Buchler等;《EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING》;20051231(第18期);全文 *
一种多特征语音端点检测算法及实现;果永振等;《通信技术》;20031231(第1期);全文 *

Also Published As

Publication number Publication date
CN107564512A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
US11475907B2 (en) Method and device of denoising voice signal
CN107564512B (zh) 语音活动侦测方法及装置
US20200227071A1 (en) Analysing speech signals
EP2828856B1 (en) Audio classification using harmonicity estimation
CN104103278A (zh) 一种实时语音去噪的方法和设备
CN105118522B (zh) 噪声检测方法及装置
CN106033669B (zh) 语音识别方法及装置
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN110111811B (zh) 音频信号检测方法、装置和存储介质
CN106024017A (zh) 语音检测方法及装置
CN109074814A (zh) 一种噪声检测方法及终端设备
WO2013170610A1 (zh) 检测基音周期的正确性的方法和装置
CN110895930B (zh) 语音识别方法及装置
US11915718B2 (en) Position detection method, apparatus, electronic device and computer readable storage medium
CN106816157A (zh) 语音识别方法及装置
CN112735466B (zh) 一种音频检测方法及装置
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN115273909A (zh) 语音活性检测方法、装置、设备及计算机可读存储介质
CN107993666A (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN107564544A (zh) 语音活动侦测方法及装置
CN113316075A (zh) 一种啸叫检测方法、装置及电子设备
Chin et al. Improved voice activity detection for speech recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant