CN103996399B - 语音检测方法和系统 - Google Patents

语音检测方法和系统 Download PDF

Info

Publication number
CN103996399B
CN103996399B CN201410161339.XA CN201410161339A CN103996399B CN 103996399 B CN103996399 B CN 103996399B CN 201410161339 A CN201410161339 A CN 201410161339A CN 103996399 B CN103996399 B CN 103996399B
Authority
CN
China
Prior art keywords
state
threshold value
cepstrum
parameter threshold
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410161339.XA
Other languages
English (en)
Other versions
CN103996399A (zh
Inventor
刘轶
张勇
王昕�
程刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Beike Risound Polytron Technologies Inc
Original Assignee
Shenzhen Beike Risound Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Beike Risound Polytron Technologies Inc filed Critical Shenzhen Beike Risound Polytron Technologies Inc
Priority to CN201410161339.XA priority Critical patent/CN103996399B/zh
Publication of CN103996399A publication Critical patent/CN103996399A/zh
Application granted granted Critical
Publication of CN103996399B publication Critical patent/CN103996399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种语音检测方法和系统。所述方法包括:预处理输入的原始语音信号得到若干帧数字信号;对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量;根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态;根据每一帧数字信号所处状态对所述数字信号进行分割得到所述原始语音信号中的语音信号和噪音信号。所述系统包括:预处理模块、特征提取模块、估计模块和分割模块。采用本发明能提高非平稳噪音的检测率。

Description

语音检测方法和系统
技术领域
本发明涉及语音识别技术,特别是涉及一种语音检测方法和系统。
背景技术
活动语音检测,即端点检测,是对语音信号中的有声片段和无声片段进行分割,以提高语音识别过程中的识别率。现有的活动语音检测算法是通过提取音频信号特征值和预先设定好的门限值进行比较来噪音,较为简洁。
但是,由于语音信号和背景噪音具有非平稳性,因此,现有的活动语音检测算法识别率不高,无法非平稳噪音的检测率不高。
发明内容
基于此,有必要提供一种能提高非平稳噪音的检测率的语音检测方法。
此外,还有必要提供一种能提高非平稳噪音的检测率的语音检测系统。
一种语音检测方法,包括如下步骤:
预处理输入的原始语音信号得到若干帧数字信号;
对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量;
根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态;
根据每一帧数字信号所处状态对所述数字信号进行分割得到所述原始语音信号中的语音信号和噪音信号。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为起始状态,则判断所述倒谱距离是否大于或者等于第一倒谱参数阈值,且所述短时平均能量是否大于或等于第一能量参数阈值,若为是,则
对起始状态持续时间参数进行递增运算;
进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则将当前数字信号所处状态置为活跃状态;
所述第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为活跃状态,则判断所述倒谱距离是否大于或者等于第二倒谱参数阈值,且所述短时平均能量是否大于或等于第二能量参数阈值,若为否,则
根据所述倒谱距离和所述短时平均能量将所述当前数字信号所处状态置为起始状态或活跃状态;
所述第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧时行有限状态机估计,以得到每一帧数字信号所处状态的步骤还包括:
若判断到所述倒谱距离大于或者等于第二倒谱参数阈值,且所述短时平均能量大于或等于第二能量参数阈值,则
对活跃状态持续时间参数进行递增运算;
进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足大于进入持续状态的帧数阈值,若为是,则
将当前数字信号所处状态置为持续状态。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为持续状态,则判断所述倒谱距离是否小于或者等于第三倒谱参数阈值,且所述短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则将当前数字信号所处状态置为不活跃状态;
若为否,则将当前数字信号所处状态置为持续状态;
所述第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,则判断所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量是否大于或等于第四能量参数阈值,若为否,则
根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或者结束状态,并得到最后一帧数字信号所对应的帧;
所述第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
在其中一个实施例中,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若判断到所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量大于或等于第四能量参数阈值,则
根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
一种语音检测系统,包括:
预处理模块,用于预处理输入的原始语音信号得到若干帧数字信号;
特征提取模块,用于对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量;
估计模块,用于根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态;
分割模块,用于根据每一帧数字信号所处状态对所述数字信号进行分割得到所述原始语音信号中的语音信号和噪音信号。
在其中一个实施例中,所述估计模块包括:
起始特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为起始状态,则判断所述倒谱距离是否大于或者等于第一倒谱参数阈值,且所述短时平均能量是否大于或等于第一能量参数阈值,若为是,则通知起始参数运算单元;
所述起始参数运算单元用于对起始状态持续时间参数进行递增运算;
静音帧持续判断单元,用于进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则将当前数字信号所处状态置为活跃状态;
所述第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
在其中一个实施例中,所述估计模块包括:
活跃特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为活跃状态,则判断所述倒谱距离是否大于或者等于第二倒谱参数阈值,且所述短时平均能量是否大于或等于第二能量参数阈值,若为否,则通知状态设置单元;
所述状态设置单元用于根据所述倒谱距离和所述短时平均能量将所述当前数字信号所处状态置为起始状态或活跃状态;
所述第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
在其中一个实施例中,所述估计模块还包括:
活跃参数运算单元,用于若判断到所述倒谱距离大于或者等于第二倒谱参数阈值,且所述短时平均能量大于或等于第二能量参数阈值,则对活跃状态持续时间参数进行递增运算;
活跃参数判断单元,用于进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足进入持续状态的帧数阈值,若为是,则将当前数字信号所处状态置为持续状态。
在其中一个实施例中,所述估计模块还用于若当前数字信号所对应的前一帧数字信号所处状态为持续状态,则判断所述倒谱距离是否小于或者等于第三倒谱参数阈值,且所述短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则将当前数字信号所处状态置为不活跃状态,若为否,则将当前数字信号所处状态置为持续状态;
所述第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
在其中一个实施例中,所述估计模块包括:
不活跃特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,则判断所述倒谱距离是否大于或者等于第四倒谱参数阈值,且所述短时平均能量是否大于或等于第四能量参数阈值,若为否,则通知不活跃处理单元;
所述不活跃处理单元用于根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或结束状态,并得到最后一帧数字信号所对应的帧;
所述第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
在其中一个实施例中,所述估计模块还包括:
结束处理单元,用于若判断到所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量大于或等于第四能量参数阈值,则根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
上述语音检测方法和系统,对输入的原始语音信号进行预处理以得到若干帧数字信号,对每一帧数字信号进行特征提取得到倒谱距离和短时平均能量,根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态,根据每一帧数字信号所处状态对数字信号进行分割即可得到原始语音信号中的语音信号和噪音信号,由于对原始语音信号所进行的预处理将使得提取得到的特征参数,即倒谱距离和短时平均能量更为可靠,且每一帧数字信号均有其所对应的特征参数,而在短时间内,即每一帧数字信号可认为是近似平稳的,因此,每一帧信号的倒谱距离和短时平均能量将体现了其短时特性,因此,有效提高了非平稳噪音的检测率。
附图说明
图1为一个实施例中语音检测方法的流程图;
图2为一个实施例中根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的方法流程图;
图3为另一个实施例中根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的方法流程图;
图4为另一个实施例中根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的方法流程图;
图5为另一个实施例中根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的方法流程图;
图6为一个实施例中语音检测系统的结构示意图;
图7为一个实施例中估计模块的结构示意图;
图8为另一个实施例中估计模块的结构示意图;
图9为另一个实施你中估计模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种语音检测方法,包括如下步骤:
步骤S10,预处理输入的原始语音信号得到若干帧数字信号。
本实施例中,对输入的原始语音信号进行预处理,以得到该原始语音信号中所包含的若干帧数字信号,进而使得后续所进行的特征提取更为可靠、鲁棒性更强,其中,该数字信号可能为语音信号,也可能为噪音信号,因此需要通过后续的步骤检测出原始语音信号中的语音信号。
预处理过程中,对输入的原始语音信号首先进行预加重,以对原始语音信号中的语音高频部分进行加重,增加原始语音信号的高频分辨率。
具体的实施例中,所采用的预加重滤波器的传输函数为H(z)=1-0.95z-1。设n时刻采样得到的原始语音信号为s(n),经过预加重后的结果为
s(n)=s(n)-0.95s(n-1)。
然后对预加重的原始语音信号进行分帧,由于语音信号是一种随时间变化的非平稳信号,但在10毫秒至30毫秒的短时间内可被认为是近似平稳的,因此,对预加重的原始语音信号进行分帧,以提取出原始语音信号中的短时特性,大为方便了语音信号的准确检测。具体的,信号帧长为512个采样点,帧移为256个采样点。
经过分帧处理后,将所得到的每帧数字信号进行加窗处理,以减小帧起始和结束处信号的不连续性。在优选的实施例中,选择汉明窗进行加窗处理,窗长为512个采样点,窗函数为:
w(n)=0.54-0.46·cos[2πn/(N-1)],n=0,1,…,511
步骤S30,对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量。
本实施例中,在每一帧数字信号中提取得到倒谱距离和短时平均能量这两类特征参数,以用于对当前数字信号进行有限状态机的估计。
具体的,信号短时平均能量定义为:
其中,xw(n)为加窗处理后所得到的数字信号,N为数据信号所对应的帧长。
倒谱距离定义为MFCC(Mel频率倒谱系数)距离,为计算得到每一帧数字信号的倒谱距离,将首先计算该帧数字信号的MFCC特征参数,其计算过程包括:
(1)对每一帧数字信号进行FFT变换(Fast Fourier Transformation,快速傅氏变换)得到频域信号,并由频域信号计算频谱的平方以进一步得到相应的短时能量。
(2)使用如下Mel域滤波器组对短时能量进行滤波,再取对数幅度进行压缩以得到对数谱能量:
其中,M为滤波器个数,m为每一个滤波器,X(k)为FFT变换系数,Hm(k)为三角滤波器,其频率响应为:
f(m)是三角滤波器的中心频率,其满足:
Mel(f[m+1])-Mel(f[m])=Mel(f[m])-Mel(f[m-1])
(3)对数谱能量通过DCT变换得到倒谱系数,即MFCC系数,取前12个作为所要的MFCC系数。
(4)得到上述12维的MFCC系数之后,其倒谱距离计算参数为:
其中,mfcc0(i),i=0,2,…,11,为第一帧数字信号计算得到的MFCC系数。
步骤S50,根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态。
本实施例中,通过进行有限状态机估计所得到的数字信号所处状态包括起始状态(begin)、活跃状态(active)、持续状态(on)、不活跃状态(inactive)和结束状态(end)这五个状态。由起始状态经由活跃状态、持续状态、不活跃状态至结束状态即完成了一个循环周期,其中,对于起始状态而言,其可转换为活跃状态;对于活跃状态而言,其可转换为起始状态、活跃状态和持续状态;对于持续状态而言,其可转换持续状态和不活跃状态;对于不活跃状态而言,其可转换为持续状态、不活跃状态和结束状态。
步骤S70,根据每一帧数字信号所处状态对数字信号进行分割得到原始语音信号中的语音信号和噪音信号。
本实施例中,根据有限状态机估计所得到的数字信号所处状态即可判断当前数字信号是否存在语音信号。具体的,判断数字信号所处状态是否为活跃状态、持续状态和不活跃状态中的一种,若为是,则判定该数字信号为语音信号,若为否,则判定该数字信号为噪音信号。
如图2所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为起始状态,上述步骤S50包括:
步骤S510a,判断倒谱距离是否大于或等于第一倒谱参数阈值,且短时平均能量是否大于或等于第一能量参数阈值,若为是,则进入步骤S520a,若为否,则进入步骤S550a。
本实施例中,第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
步骤S520a,对起始状态持续时间参数进行递增运算。
本实施例中,在判断到倒谱距离大于或等于第一倒谱参数阈值,且短时平均能量大于或等于第一能量参数阈值时,将起始状态持续时间参数加1。
步骤S530a,进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则进入步骤S540a,若为否,则不做任何处理。
步骤S540a,将当前数字信号所处状态置为活跃状态。
步骤S550a,将起始状态持续时间参数置为0。
如图3所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为活跃状态,上述步骤S50包括:
步骤S510b,判断倒谱距离是否大于或者等于第二倒谱参数阈值,且短时平均能量是否大于或等于第二能量参数阈值,若为否,则进入步骤S520b,若为是,则进入步骤S530b。
本实施例中,第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
步骤S520b,根据倒谱距离和短时平均能量将当前数字信号所处状态设置为起始状态或活跃状态。
本实施例中,将活动状态持续时间参数置为0,并进一步判断倒谱距离是否大于或等于第一倒谱参数阈值,并且短时平均能量是否大于或等于第一能量参数阈值,若为否,则处于活跃状态下,连续小于进入活跃状态的阈值帧数置为1。
若判断到倒谱距离大于或等于第一倒谱参数阈值,并且短时平均能量大于或等于第一能量参数阈值,则将处于活跃状态下,连续小于进入持续状态的阈值帧数加1,将处于活跃状态下,连续小于进入活跃状态的阈值帧数置为0。
进一步判断处于活跃状态下连续小于进入持续状态的阈值帧数是否等于6,或者处于活跃状态下连续小于进入活跃状态的阈值帧数是否等于6,若为否,则将当前数字信号所处状态设置活跃状态,若为是,则将当前数字信号所处状态设置为起始状态,并将处于活跃状态下连续小于进入持续状态的阈值帧数置为0,将处于活跃状态下连续小于进入活跃状态的阈值帧数置为0。
步骤S530b,对活跃状态持续时间参数进行递增运算。
本实施例中,将活跃状态持续时间参数加1,并将活跃状态下连续小于进入持续状态的阈值帧数置为0。
步骤S540b,进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足大于进入持续状态的帧数阈值,若为是,则进入步骤S550b,若为否,则不做任何处理。
步骤S550b,将当前数字信号所处状态置为持续状态。
本实施例中,在将当前数字信号所处状态置为持续状态时,还将活动状态持续时间参数置为0。
如图4所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为持续状态,上述步骤S50包括:
步骤S510c,判断倒谱距离是否小于或者等于第三倒谱参数阈值,且短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则进入步骤S520c,若为否,则进入步骤S530c。
本实施例中,第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
步骤S520c,将当前数字信号所处状态置为不活跃状态。
步骤S530c,将当前数字信号所处状态置为持续状态。
如图5所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,上述步骤S50包括:
步骤S510d,判断倒谱距离大于或者等于第四倒谱参数阈值,且短时平均能量是否大于或等于第四能量参数阈值,若为否,则进入步骤S520d,若为是,进入步骤S530d。
本实施例中,第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
步骤S520d,根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或者结束状态,并得到最后一帧数字信号所对应的帧。
本实施例中,将不活跃状态持续时间参数加1,并进一步判断不活跃状态持续时间参数是否大于或等于处于持续状态,满足从持续状态到结束状态连续帧数阈值,若为否,则将最后一帧数字信号的序号置为当前帧的序号,进一步判断当前检测的帧数是否小于35,若为是,则将当前数字信号所处状态置为不活跃状态,将不活跃状态持续时间参数置为0,将数字信号从静音转换到活跃状态时当前检测帧的帧序号置为0,将数字信号结束后需要补加的静音帧数置为1。
若判断到当前检测的帧数不小于35,则判断由活跃状态到结束状态有效帧的帧数是否小于0,若为是,则将最后一帧的序号置为前一帧的序号,将当前数字信号所处状态置为结束状态,将不活跃状态持续时间参数置为0。
步骤S530,根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
本实施例中,若判断到倒谱距离大于或者等于第四倒谱参数阈值,且短时平均能量大于或等于第四能量参数阈值时,进一步判断结束状态持续时间参数是否小于不活跃状态持续时间参数与20之间的商,若为是,则对结束状态持续时间参数进行自增运算,并将当前数字信号所处状态设置为不活跃状态。
如图6所示,在一个实施例中,一种语音检测系统,包括预处理模块10、特征提取模块30、估计模块50和分割模块70。
预处理模块10,用于预处理输入的原始语音信号得到若干帧数字信号。
本实施例中,预处理模块10对输入的原始语音信号进行预处理,以得到该原始语音信号中所包含的若干帧数字信号,进而使得后续所进行的特征提取更为可靠、鲁棒性更强,其中,该数字信号可能为语音信号,也可能为噪音信号,因此需要通过后续的步骤检测出原始语音信号中的语音信号。
预处理过程中,预处理模块10对输入的原始语音信号首先进行预加重,以对原始语音信号中的语音高频部分进行加重,增加原始语音信号的高频分辨率。
具体的实施例中,所采用的预加重滤波器的传输函数为H(z)=1-0.95z-1。设n时刻采样得到的原始语音信号为s(n),经过预加重后的结果为
s(n)=s(n)-0.95s(n-1)。
然后对预加重的原始语音信号进行分帧,由于语音信号是一种随时间变化的非平稳信号,但在10毫秒至30毫秒的短时间内可被认为是近似平稳的,因此,对预加重的原始语音信号进行分帧,以提取出原始语音信号中的短时特性,大为方便了语音信号的准确检测。具体的,信号帧长为512个采样点,帧移为256个采样点。
经过分帧处理后,将所得到的每帧数字信号进行加窗处理,以减小帧起始和结束处信号的不连续性。在优选的实施例中,选择汉明窗进行加窗处理,窗长为512个采样点,窗函数为:
w(n)=0.54-0.46·cos[2πn/(N-1)],n=0,1,…,511
特征提取模块30,用于对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量。
本实施例中,在每一帧数字信号中提取得到倒谱距离和短时平均能量这两类特征参数,以用于对当前数字信号进行有限状态机的估计。
具体的,信号短时平均能量定义为:
其中,xw(n)为加窗处理后所得到的数字信号,N为数据信号所对应的帧长。
倒谱距离定义为MFCC距离,为计算得到每一帧数字信号的倒谱距离,将首先计算该帧数字信号的MFCC特征参数,其计算过程包括:
(1)对每一帧数字信号进行FFT变换得到频域信号,并由频域信号计算频谱的平方以进一步得到相应的短时能量。
(2)使用如下Mel域滤波器组对短时能量进行滤波,再取对数幅度进行压缩以得到对数谱能量:
其中,M为滤波器个数,m为每一个滤波器,X(k)为FFT变换系数,Hm(k)为三角滤波器,其频率响应为:
f(m)是三角滤波器的中心频率,其满足:
Mel(f[m+1])-Mel(f[m])=Mel(f[m])-Mel(f[m-1])
(3)对数谱能量通过DCT变换得到倒谱系数,即MFCC系数,取前12个作为所要的MFCC系数。
(4)得到上述12维的MFCC系数之后,其倒谱距离计算参数为:
其中,mfcc0(i),i=0,2,…,11,为第一帧数字信号计算得到的MFCC系数。
估计模块50,用于根据倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态。
本实施例中,通过进行有限状态机估计所得到的数字信号所处状态包括起始状态(begin)、活跃状态(active)、持续状态(on)、不活跃状态(inactive)和结束状态(end)这五个状态。由起始状态经由活跃状态、持续状态、不活跃状态至结束状态即完成了一个循环周期,其中,对于起始状态而言,其可转换为活跃状态;对于活跃状态而言,其可转换为起始状态、活跃状态和持续状态;对于持续状态而言,其可转换持续状态和不活跃状态;对于不活跃状态而言,其可转换为持续状态、不活跃状态和结束状态。
分割模块70,用于根据每一帧数字信号所处状态对数字信号进行分割得到原始语音信号中的语音信号和噪音信号。
本实施例中,分割模块70根据有限状态机估计所得到的数字信号所处状态即可判断当前数字信号是否存在语音信号。具体的,分割模块70判断数字信号所处状态是否为活跃状态、持续状态和不活跃状态中的一种,若为是,则判定该数字信号为语音信号,若为否,则判定该数字信号为噪音信号。
如图7所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为起始状态,所述估计模块50包括起始特征判断单元510a、起始参数运算单元520a。
起始特征判断单元510a,用于判断倒谱距离是否大于或等于第一倒谱参数阈值,且短时平均能量是否大于或等于第一能量参数阈值,若为是,则通知起始参数运算单元520a,若为否,则将起始状态持续时间参数置为0。
本实施例中,第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
起始参数运算单元520a,用于对起始状态持续时间参数进行递增运算。
本实施例中,在判断到倒谱距离大于或等于第一倒谱参数阈值,且短时平均能量大于或等于第一能量参数阈值时,起始参数运算单元520a将起始状态持续时间参数加1。
静音帧持续判断单元530a,用于进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则将当前数字信号所处状态置为活跃状态。
如图8所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为活跃状态,所述估计模块50包括活跃特征判断单元510b、状态设置单元520b、活跃参数运算单元530b和活跃参数判断单元540b。
活跃特征判断单元510b,用于判断倒谱距离是否大于或者等于第二倒谱参数阈值,且短时平均能量是否大于或等于第二能量参数阈值,若为否,则通知状态设置单元,若为是,则通知活跃参数运算单元530b。
本实施例中,第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
状态设置单元520b,用于根据倒谱距离和短时平均能量将当前数字信号所处状态设置为起始状态或活跃状态。
本实施例中,状态设置单元520b将活动状态持续时间参数置为0,并进一步判断倒谱距离是否大于或等于第一倒谱参数阈值,并且短时平均能量是否大于或等于第一能量参数阈值,若为否,则处于活跃状态下,连续小于进入活跃状态的阈值帧数置为1。
若判断到倒谱距离大于或等于第一倒谱参数阈值,并且短时平均能量大于或等于第一能量参数阈值,则将处于活跃状态下,连续小于进入持续状态的阈值帧数加1,将处于活跃状态下,连续小于进入活跃状态的阈值帧数置为0。
进一步判断处于活跃状态下连续小于进入持续状态的阈值帧数是否等于6,或者处于活跃状态下连续小于进入活跃状态的阈值帧数是否等于6,若为否,则将当前数字信号所处状态设置活跃状态,若为是,则将当前数字信号所处状态设置为起始状态,并将处于活跃状态下连续小于进入持续状态的阈值帧数置为0,将处于活跃状态下连续小于进入活跃状态的阈值帧数置为0。
活跃参数运算单元530b,用于对活跃状态持续时间参数进行递增运算。
本实施例中,将活跃状态持续时间参数加1,并将活跃状态下连续小于进入持续状态的阈值帧数置为0
活跃参数判断单元540b,用于进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足进入持续状态的帧数阈值,若为是,则将当前数字信号所处状态置为持续状态,若为否,则不做任何处理。
在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为持续状态,估计模块50还用于判断倒谱距离是否小于或者等于第三倒谱参数阈值,且短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则将当前数字信号所处状态置为不活跃状态,若为否,则将当前数字信号所处状态置为持续状态。
本实施例中,第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
如图9所示,在一个实施例中,当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,估计模块50包括不活跃特征判断单元510c、不活跃处理单元520c和结束处理单元530c。
不活跃特征判断单元510c,用于判断倒谱距离是否大于或等于第四倒谱参数阈值,且短时平均能量是否大于或等于第四能量参数阈值,若为否,则通知不活跃处理单元520c,若为是,则通知结束处理单元530c。
本实施例中,第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
不活跃处理单元520c,用于根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或结束状态,并得到最后一帧数字信号所对应的帧。
本实施例中,不活跃处理单元520c将不活跃状态持续时间参数加1,并进一步判断不活跃状态持续时间参数是否大于或等于处于持续状态,满足从持续状态到结束状态连续帧数阈值,若为否,则将最后一帧数字信号的序号置为当前帧的序号,进一步判断当前检测的帧数是否小于35,若为是,则将当前数字信号所处状态置为不活跃状态,将不活跃状态持续时间参数置为0,将数字信号从静音转换到活跃状态时当前检测帧的帧序号置为0,将数字信号结束后需要补加的静音帧数置为1。
若判断到当前检测的帧数不小于35,则判断由活跃状态到结束状态有效帧的帧数是否小于0,若为是,则将最后一帧的序号置为前一帧的序号,将当前数字信号所处状态置为结束状态,将不活跃状态持续时间参数置为0。
结束处理单元530c,用于根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
本实施例中,若判断到倒谱距离大于或者等于第四倒谱参数阈值,且短时平均能量大于或等于第四能量参数阈值时,结束处理单元530c进一步判断结束状态持续时间参数是否小于不活跃状态持续时间参数与20之间的商,若为是,则对结束状态持续时间参数进行自增运算,并将当前数字信号所处状态设置为不活跃状态。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种语音检测方法,包括如下步骤:
预处理输入的原始语音信号得到若干帧数字信号;
对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量;
根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态;
根据每一帧数字信号所处状态对所述数字信号进行分割得到所述原始语音信号中的语音信号和噪音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为起始状态,则判断所述倒谱距离是否大于或者等于第一倒谱参数阈值,且所述短时平均能量是否大于或等于第一能量参数阈值,若为是,则
对起始状态持续时间参数进行递增运算;
进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则将当前数字信号所处状态置为活跃状态;
所述第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
3.根据权利要求1所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为活跃状态,则判断所述倒谱距离是否大于或者等于第二倒谱参数阈值,且所述短时平均能量是否大于或等于第二能量参数阈值,若为否,则
根据所述倒谱距离和所述短时平均能量将所述当前数字信号所处状态置为起始状态或活跃状态;
所述第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
4.根据权利要求3所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态的步骤还包括:
若判断到所述倒谱距离大于或者等于第二倒谱参数阈值,且所述短时平均能量大于或等于第二能量参数阈值,则
对活跃状态持续时间参数进行递增运算;
进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足大于进入持续状态的帧数阈值,若为是,则
将当前数字信号所处状态置为持续状态。
5.根据权利要求1所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为持续状态,则判断所述倒谱距离是否小于或者等于第三倒谱参数阈值,且所述短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则将当前数字信号所处状态置为不活跃状态;
若为否,则将当前数字信号所处状态置为持续状态;
所述第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
6.根据权利要求1所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态的步骤包括:
若当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,则判断所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量是否大于或等于第四能量参数阈值,若为否,则
根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或者结束状态,并得到最后一帧数字信号所对应的帧;
所述第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
7.根据权利要求6所述的方法,其特征在于,所述根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,以得到每一帧数字信号所处状态的步骤包括:
若判断到所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量大于或等于第四能量参数阈值,则
根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
8.一种语音检测系统,其特征在于,包括:
预处理模块,用于预处理输入的原始语音信号得到若干帧数字信号;
特征提取模块,用于对每一帧数字信号进行特征提取,以得到倒谱距离和短时平均能量;
估计模块,用于根据所述倒谱距离和短时平均能量逐帧进行有限状态机估计,根据当前数字信号所对应的前一帧数字信号状态,判断所述倒谱距离与前一帧数字信号状态对应的倒谱参数阈值的关系以及短时平均能量与前一帧数字信号状态对应的能量参数阈值的关系,以得到每一帧数字信号所处状态;
分割模块,用于根据每一帧数字信号所处状态对所述数字信号进行分割得到所述原始语音信号中的语音信号和噪音信号。
9.根据权利要求8所述的系统,其特征在于,所述估计模块包括:
起始特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为起始状态,则判断所述倒谱距离是否大于或者等于第一倒谱参数阈值,且所述短时平均能量是否大于或等于第一能量参数阈值,若为是,则通知起始参数运算单元;
所述起始参数运算单元用于对起始状态持续时间参数进行递增运算;
静音帧持续判断单元,用于进一步判断递增运算所得到的起始状态持续时间参数是否大于或等于静音帧持续阈值,若为是,则将当前数字信号所处状态置为活跃状态;
所述第一倒谱参数阈值和第一能量参数阈值是与语音由起始状态转换到活跃状态所对应的。
10.根据权利要求8所述的系统,其特征在于,所述估计模块包括:
活跃特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为活跃状态,则判断所述倒谱距离是否大于或者等于第二倒谱参数阈值,且所述短时平均能量是否大于或等于第二能量参数阈值,若为否,则通知状态设置单元;
所述状态设置单元用于根据所述倒谱距离和所述短时平均能量将所述当前数字信号所处状态置为起始状态或活跃状态;
所述第二倒谱参数阈值和第二能量参数阈值是与语音由活跃状态转换到持续状态所对应的。
11.根据权利要求10所述的系统,其特征在于,所述估计模块还包括:
活跃参数运算单元,用于若判断到所述倒谱距离大于或者等于第二倒谱参数阈值,且所述短时平均能量大于或等于第二能量参数阈值,则对活跃状态持续时间参数进行递增运算;
活跃参数判断单元,用于进一步判断递增运算所得到的活跃状态持续时间参数是否大于或者等于活跃状态下连续满足进入持续状态的帧数阈值,若为是,则将当前数字信号所处状态置为持续状态。
12.根据权利要求8所述的系统,其特征在于,所述估计模块还用于若当前数字信号所对应的前一帧数字信号所处状态为持续状态,则判断所述倒谱距离是否小于或者等于第三倒谱参数阈值,且所述短时平均能量是否小于或等于预设的第三能量参数阈值,若为是,则将当前数字信号所处状态置为不活跃状态,若为否,则将当前数字信号所处状态置为持续状态;
所述第三倒谱参数阈值和第三能量参数阈值是与语音由持续状态转换到不活跃状态所对应的。
13.根据权利要求8所述的系统,其特征在于,所述估计模块包括:
不活跃特征判断单元,用于若当前数字信号所对应的前一帧数字信号所处状态为不活跃状态,则判断所述倒谱距离是否大于或者等于第四倒谱参数阈值,且所述短时平均能量是否大于或等于第四能量参数阈值,若为否,则通知不活跃处理单元;
所述不活跃处理单元用于根据不活跃状态持续时间参数将当前数字信号所处状态置为不活跃状态或结束状态,并得到最后一帧数字信号所对应的帧;
所述第四倒谱参数阈值和第四能量参数阈值是与语音由不活跃状态转换到持续状态所对应的。
14.根据权利要求13所述的系统,其特征在于,所述估计模块还包括:
结束处理单元,用于若判断到所述倒谱距离大于或者等于第四倒谱参数阈值,且所述短时平均能量大于或等于第四能量参数阈值,则根据结束状态持续时间参数将当前数字信号所处状态置为不活跃状态或持续状态。
CN201410161339.XA 2014-04-21 2014-04-21 语音检测方法和系统 Active CN103996399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410161339.XA CN103996399B (zh) 2014-04-21 2014-04-21 语音检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410161339.XA CN103996399B (zh) 2014-04-21 2014-04-21 语音检测方法和系统

Publications (2)

Publication Number Publication Date
CN103996399A CN103996399A (zh) 2014-08-20
CN103996399B true CN103996399B (zh) 2017-07-28

Family

ID=51310542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410161339.XA Active CN103996399B (zh) 2014-04-21 2014-04-21 语音检测方法和系统

Country Status (1)

Country Link
CN (1) CN103996399B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106024017A (zh) * 2015-03-18 2016-10-12 展讯通信(上海)有限公司 语音检测方法及装置
CN105072067B (zh) * 2015-08-27 2018-02-23 西安电子科技大学 一种低信噪比下突发信号的检测方法
CN108242241B (zh) * 2016-12-23 2021-10-26 中国农业大学 一种纯语音快速筛选方法及其装置
CN108573712B (zh) * 2017-03-13 2020-07-28 北京贝塔科技股份有限公司 语音活性检测模型生成方法、系统及语音活性检测方法、系统
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
CN116705025A (zh) * 2023-08-02 2023-09-05 泉州市三川通讯技术股份有限责任公司 一种车载终端通信方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH036599A (ja) * 1989-06-02 1991-01-14 Brother Ind Ltd 鼻子音開放点検出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN1758331A (zh) * 2005-10-31 2006-04-12 浙江大学 基于基音频率的快速音频分割方法
CN1897109A (zh) * 2006-06-01 2007-01-17 电子科技大学 一种基于mfcc的单一音频信号识别方法
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法

Also Published As

Publication number Publication date
CN103996399A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN103996399B (zh) 语音检测方法和系统
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
CN103886871A (zh) 语音端点的检测方法和装置
CN103117067B (zh) 一种低信噪比下语音端点检测方法
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
WO2015196760A1 (zh) 一种麦克风阵列语音检测方法及装置
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108682432B (zh) 语音情感识别装置
EP3739582B1 (en) Voice detection
Pang Spectrum energy based voice activity detection
EP4189677B1 (en) Noise reduction using machine learning
CN103474074B (zh) 语音基音周期估计方法和装置
CN103440872A (zh) 瞬态噪声的去噪方法
CN111540342B (zh) 一种能量阈值调整方法、装置、设备及介质
US20160322064A1 (en) Method and apparatus for signal extraction of audio signal
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
WO2013170610A1 (zh) 检测基音周期的正确性的方法和装置
Labied et al. An overview of automatic speech recognition preprocessing techniques
CN108847218B (zh) 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN109920444B (zh) 回声时延的检测方法、装置以及计算机可读存储介质
US11610601B2 (en) Method and apparatus for determining speech presence probability and electronic device
TWI684912B (zh) 語音喚醒裝置及方法
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
TW200811833A (en) Detection method for voice activity endpoint

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518057, W406 building, building four, west of Shenzhen Hong Kong Research and production base, Nanshan District hi tech Zone, Shenzhen, Guangdong

Applicant after: Shenzhen Beike risound Polytron Technologies Inc

Address before: 518057, W406 building, building four, west of Shenzhen Hong Kong Research and production base, Nanshan District hi tech Zone, Shenzhen, Guangdong

Applicant before: Shenzhen Beike Ruisheng Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant