CN107564544A - 语音活动侦测方法及装置 - Google Patents
语音活动侦测方法及装置 Download PDFInfo
- Publication number
- CN107564544A CN107564544A CN201610504768.1A CN201610504768A CN107564544A CN 107564544 A CN107564544 A CN 107564544A CN 201610504768 A CN201610504768 A CN 201610504768A CN 107564544 A CN107564544 A CN 107564544A
- Authority
- CN
- China
- Prior art keywords
- subband
- mrow
- msubsup
- value
- activity detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Complex Calculations (AREA)
Abstract
语音活动侦测方法及装置,所述方法包括:将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;采用离散沃尔什变换,计算各个子带的小波系数集;根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量;根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值;根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值;将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。上述的方案,可以提高语音活动侦测的准确性。
Description
技术领域
本发明涉及语音检测技术领域,特别是涉及一种语音活动侦测方法及装置。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音活动侦测方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音检测系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
现有技术,基于能量估计的语音活动侦测方法,对噪音较为敏感,当噪音类型发生变化时,存在着检测准确性差的问题。
发明内容
本发明实施例解决的问题是如何提高语音活动侦测的准确性。
为解决上述问题,本发明实施例提供了一种语音活动侦测方法,所述语音活动侦测方法包括:将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;采用离散沃尔什变换,计算各个子带的小波系数集;根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量;根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值;根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值;将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。
可选地,J=3。
可选地,所述采用离散沃尔什变换,计算各个子带的小波系数集,包括:其中,表示第K个子带的第n个小波系数,DWT(.)表示离散沃尔什运算,且K=1…4,n=1…N,N为预设的数值。
可选地,所述根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量,包括:其中,表示第K个子带的Teager能量,T[.]表示TEO运算。
可选地,所述根据各个子带的Teager能量,计算各个子带的子带域自相关函数值,包括:且:其中,表示第K个子带的子带域自相关函数值,k=0….p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
可选地,所述根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值,包括:其中,表示第K个子带的平均增量值,Δ[.]表示平均增量运算。
本发明实施例还提供了一种语音活动侦测装置,包括:小波分解单元,适于将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;小波变换计算单元,适于采用离散沃尔什变换,计算各个子带的小波系数集;Teager能量算子计算单元,适于根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量;自相关函数计算单元,适于根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值;平均增量计算单元,适于根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值;语音活动侦测计算单元,适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。
可选地,J=3。
可选地,所述小波变换计算单元适于采用如下的公式计算各个子带的小波系数集:其中,表示第K个子带的第n个小波系数,DWT(.)表示离散沃尔什运算,且K=1…4,n=1…N,N为预设的数值。
可选地,所述Teager能量算子计算单元,适于采用如下的公式极端得到各个子带的Teager能量:其中,表示第K个子带的Teager能量,T[.]表示TEO运算。
可选地,所述自相关函数计算单元适于采用如下的公式计算各个子带的子带域自相关函数值:且:其中,表示第K个子带的子带域自相关函数值,k=0….p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
可选地,所述平均增量计算单元适于采用如下的公式计算得到各个子带的平均增量值:其中,表示第K个子带的平均增量值,Δ[.]表示平均增量运算。
与现有技术相比,本发明的技术方案具有以下的优点:
上述的方案,将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值,以确定是否对输入的声音信号进行检测,由于小波变换和Teager能量算子、自相关函数相结合计算得到的含噪语音信号的VAD值不受噪音类型的影响,因此,可以提高语音活动侦测的准确性。
附图说明
图1是本发明实施例中的一种语音活动侦测方法的流程图;
图2是本发明实施例中的执行三层小波分解的过程示意图;
图3是本发明实施例中的一种语音活动侦测装置的结构示意图。
具体实施方式
正如背景技术而言,现有技术中的语音活动侦测(Voice Activity Detection,VAD)方法,通常基于待分析的声音片段的能量来进行语音活动侦测。采用这种VAD法进行语音活动侦测较为简单,且不需要进行任何的噪音属性的估计。然而,基于能量的VAD法对于噪音较为敏感,当噪音类型发生变化时,会造成检测性能的降低,影响了检测的准确性。特别是语音片段中的静音片段,可能会因能量较低而被标识为噪音片段。因此,现有技术中基于能量的VAD法存在着语音识别准确性低的问题。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值,以确定是否对输入的声音信号进行检测,使得计算得到的含噪语音信号的VAD值不受噪音类型的影响,因而可以提高语音活动侦测的准确性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法,可以包括:
步骤S101:将获取的含噪语音信号进行J层小波分解,得到J+1个子带。
在具体实施中,小波变换(Wavelet Transform,WT)是基于时频信号的分析方法。小波变换是一种窗口大小不变但形状可变的窗技术。当需要较为准确的低频信息时,可以使用较长时间的时间间隔;当需要较为准确的高频信息时,可以使用较短的区域。语音信号中通常包括较多的瞬时元素和非静态属性。使用WT的多分辩分析属性,高频范围需要较高的时间分辨率来检测信号中的快速变换的瞬时元素,而低频范围则需要较高的频率分辨率,以对随着时间缓慢变化的波峰进行较为准确地跟踪。
请参见图2,在本发明一实施例中,可以对输入的含噪语音信号S执行三层小波分解,得到4个不均匀(non-uniform)的子带。具体而言,执行第一层小波分解L1分别得到子带D1和A1,对子带A1执行第二层小波分解L2分别得到子带D2和A2,对子带A2执行第三层小波分解L3分别得到子带D3和A3。最终,执行三层小波分解得到四个不均匀的子带分别为子带D1、D2、D3和A3。例如,子带D1的范围为2000Hz~4000Hz,子带D2的范围为1000Hz~2000Hz,子带D3的范围为500Hz~1000Hz,子带A3的的范围为0Hz~500Hz。
这里需要指出的是,J为大于或等于1的整数,本领域的技术人员可以根据实际的需要进行设置,在此不做限制。
步骤S102:采用离散沃尔什变换,计算各个子带的小波系数集。
在具体实施中,可以采用如下的公式计算得到各个子带的小波系数集,即:
其中,表示第K个子带的第n个小波系数,S(n)表示第K个子带中的第n个采样点的频谱能量,DWT(.)表示离散沃尔什运算,且K=1…4,n=1…N,N为预设的数值。
步骤S103:根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量。
在具体实施中,在计算得到各个子带的小波系数集时,可以采用如下的公式计算得到各个子带的Teager能量,即:
Tj=S(n)2-S(n+1)S(n-1) (3)
其中,表示第K个子带的Teager能量,T[.]表示Teager能量算子(TeagerEnergy Operator,TEO)运算,Tj表示离散时间信号的Teager能量算子系数,S(n-1)表示第K个子带中的第n-1个采样点的频谱能量,S(n+1)表示第K个子带中的第n+1个采样点的频谱能量。
这里需要指出的是,对各个子带采用Teager能量算子进行处理,可以对所述含噪语音信号中的噪音进行抑制,并可以增强语音活动侦测的周期性,从而可以提高语音活动侦测的准确性。
步骤S104:根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值。
在具体实施中,在计算得到各个子带的Teager能量时,可以采用如下的公式计算得到各个子带的子带域自相关函数值,包括:
其中,表示第K个子带的子带域自相关函数值,k=0….p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
步骤S105:根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值。
在具体实施中,为了从子带域自相关函数的斜坡中获取周期性的密度,在计算得到各个子带的子带域自相关函数值时,可以采用平均增量(Mean-Delta,MD)法,即如下的公式计算得到各个子带的平均增量值,即:
其中,表示第K个子带的平均增量值,Δ[.]表示平均增量运算。
步骤S106:将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值。
在具体实施中,当计算得到各个子带的平均增量值时,可以将计算得到的各个子带的平均增量值进行相加,得到所述含噪语音信号的VAD分值,即:
其中,VADout表示所述含噪语音信号的VAD分值。
步骤S107:判断所述含噪语音信号的语音活动侦测分值是否大于预设的阈值;当判断结果为是时,可以执行步骤S108,反之,则可以对于下一段的含噪语音信号从步骤S101开始执行。
在具体实施中,所述阈值可以为预先设定的固定数值,也可以根据实际的需要进行变化,本领域的技术人员可以根据实际的需要进行设置,在此不做限制。
步骤S108:确定所述含噪语音信号中包括语音信息。
在具体实施中,当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,可以确定所述含噪语音信号中包括语音信息。
在具体实施中,当将本发明实施例中的语音活动侦测方法应用与移动终端中的总听系统中时,在确定含噪语音信号中包括语音信号时,可以将对所述含噪语音信号中的语音信息进行识别,并可以根据所识别出的语音信息执行相应的操作。例如,当识别出的语音为“拨打XX的手机”时,移动终端便可以从移动终端中获取XX的手机号码的信息,并拨打。
上述对本发明实施例中的语音活动侦测方法做了详细的介绍,下面将结合图3对上述的方法对应的装置做进一步详细的介绍。
图3示出了本发明实施例中的一种语音活动侦测装置的结构示意图。参见图3,在具体实施中,本发明实施例中的语音活动侦测装置300可以包括:
小波分解单元301,适于将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;在本发明一实施例中,J=3。
小波变换计算单元302,适于采用离散沃尔什变换,计算各个子带的小波系数集。
在本发明一实施例中,所述小波变换计算单元302可以适于采用如下的公式计算各个子带的小波系数集:其中,表示第K个子带的第n个小波系数,DWT(.)表示离散沃尔什运算,且K=1…4,n=1…N,N为预设的数值。
Teager能量算子计算单元303,适于根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量。
在本发明一实施例中,所述Teager能量算子计算单元303适于采用如下的公式极端得到各个子带的Teager能量:其中,表示第K个子带的Teager能量,T[.]表示TEO运算。
自相关函数计算单元304,适于根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值。
在本发明一实施例中,所述自相关函数计算单元304适于采用如下的公式计算各个子带的子带域自相关函数值:且: 其中,表示第K个子带的子带域自相关函数值,k=0….p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
平均增量计算单元305,适于根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值。
在本发明一实施例中,所述平均增量计算单元305适于采用如下的公式计算得到各个子带的平均增量值:其中,表示第K个子带的平均增量值,Δ[.]表示平均增量运算。
语音活动侦测计算单元306,适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。
本发明实施例中的语音活动侦测装置,将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值,以确定是否对输入的声音信号进行检测,由于小波变换和Teager能量算子、自相关函数相结合计算得到的含噪语音信号的VAD值不受噪音类型的影响,因此,可以提高语音活动侦测的准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (12)
1.一种语音活动侦测方法,其特征在于,包括:
将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;
采用离散沃尔什变换,计算各个子带的小波系数集;
根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量;
根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值;
根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值;
将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;
当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。
2.根据权利要求1所述的语音活动侦测方法,其特征在于,J=3。
3.根据权利要求2所述的语音活动侦测方法,其特征在于,所述采用离散沃尔什变换,计算各个子带的小波系数集,包括:
<mrow>
<msubsup>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>D</mi>
<mi>W</mi>
<mi>T</mi>
<mo>{</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mn>3</mn>
<mo>}</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的第n个小波系数,DWT(.)表示离散沃尔什运算,且K=1...4,n=1...N,N为预设的数值。
4.根据权利要求3所述的语音活动侦测方法,其特征在于,所述根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量,包括:
<mrow>
<msubsup>
<mi>t</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>T</mi>
<mo>&lsqb;</mo>
<msubsup>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的Teager能量,T[.]表示TEO运算。
5.根据权利要求4所述的语音活动侦测方法,其特征在于,所述根据各个子带的Teager能量,计算各个子带的子带域自相关函数值,包括:
且:
<mrow>
<mi>R</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>p</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msubsup>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>+</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,表示第K个子带的子带域自相关函数值,k=0....p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
6.根据权利要求5所述的语音活动侦测方法,其特征在于,所述根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值,包括:
<mrow>
<msubsup>
<msup>
<mi>r</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>&Delta;</mi>
<mo>&lsqb;</mo>
<msubsup>
<mi>r</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的平均增量值,Δ[.]表示平均增量运算。
7.一种语音活动侦测装置,其特征在于,包括:
小波分解单元,适于将获取的含噪语音信号进行J层小波分解,得到J+1个子带,其中,J为预设的数值且J≥1;
小波变换计算单元,适于采用离散沃尔什变换,计算各个子带的小波系数集;
Teager能量算子计算单元,适于根据各个子带的小波系数集,对各个子带进行Teager能量算子处理,得到各个子带的Teager能量;
自相关函数计算单元,适于根据各个子带的Teager能量,计算得到各个子带的子带域自相关函数值;
平均增量计算单元,适于根据各个子带的子带域自相关函数值,采用平均增量法计算得到各个子带的平均增量值;
语音活动侦测计算单元,适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值;当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时,确定所述含噪语音信号中包括语音信息。
8.根据权利要求7所述的语音活动侦测装置,其特征在于,J=3。
9.根据权利要求8所述的语音活动侦测装置,其特征在于,所述小波变换计算单元适于采用如下的公式计算各个子带的小波系数集:
<mrow>
<msubsup>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>D</mi>
<mi>W</mi>
<mi>T</mi>
<mo>{</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mn>3</mn>
<mo>}</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的第n个小波系数,DWT(.)表示离散沃尔什运算,且K=1...4,n=1...N,N为预设的数值。
10.根据权利要求9所述的语音活动侦测装置,其特征在于,所述Teager能量算子计算单元,适于采用如下的公式极端得到各个子带的Teager能量:
<mrow>
<msubsup>
<mi>t</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>T</mi>
<mo>&lsqb;</mo>
<msubsup>
<mi>w</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的Teager能量,T[.]表示TEO运算。
11.根据权利要求10所述的语音活动侦测装置,其特征在于,所述自相关函数计算单元适于采用如下的公式计算各个子带的子带域自相关函数值:
且:
<mrow>
<mi>R</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>p</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msubsup>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>+</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,表示第K个子带的子带域自相关函数值,k=0....p,p表示所述子带域自相关函数的自相关长度,k表示样本偏移量,s(n)表示第K个子带的第n个采样点的频谱能量,s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。
12.根据权利要求11所述的语音活动侦测装置,其特征在于,所述平均增量计算单元适于采用如下的公式计算得到各个子带的平均增量值:
<mrow>
<msubsup>
<msup>
<mi>r</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<mi>&Delta;</mi>
<mo>&lsqb;</mo>
<msubsup>
<mi>r</mi>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
<mi>j</mi>
</msubsup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中,表示第K个子带的平均增量值,Δ[·]表示平均增量运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610504768.1A CN107564544A (zh) | 2016-06-30 | 2016-06-30 | 语音活动侦测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610504768.1A CN107564544A (zh) | 2016-06-30 | 2016-06-30 | 语音活动侦测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107564544A true CN107564544A (zh) | 2018-01-09 |
Family
ID=60968524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610504768.1A Pending CN107564544A (zh) | 2016-06-30 | 2016-06-30 | 语音活动侦测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107564544A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1451238A (zh) * | 2000-11-17 | 2003-10-22 | 皇家菲利浦电子有限公司 | 使用块匹配处理的视频编码方法 |
US20090299742A1 (en) * | 2008-05-29 | 2009-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for spectral contrast enhancement |
WO2012003523A1 (en) * | 2010-07-06 | 2012-01-12 | Rmit University | Emotional and/or psychiatric state detection |
CN102884575A (zh) * | 2010-04-22 | 2013-01-16 | 高通股份有限公司 | 话音活动检测 |
US20150106087A1 (en) * | 2013-10-14 | 2015-04-16 | Zanavox | Efficient Discrimination of Voiced and Unvoiced Sounds |
-
2016
- 2016-06-30 CN CN201610504768.1A patent/CN107564544A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1451238A (zh) * | 2000-11-17 | 2003-10-22 | 皇家菲利浦电子有限公司 | 使用块匹配处理的视频编码方法 |
US20090299742A1 (en) * | 2008-05-29 | 2009-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for spectral contrast enhancement |
CN102884575A (zh) * | 2010-04-22 | 2013-01-16 | 高通股份有限公司 | 话音活动检测 |
WO2012003523A1 (en) * | 2010-07-06 | 2012-01-12 | Rmit University | Emotional and/or psychiatric state detection |
US20150106087A1 (en) * | 2013-10-14 | 2015-04-16 | Zanavox | Efficient Discrimination of Voiced and Unvoiced Sounds |
Non-Patent Citations (2)
Title |
---|
史秋亮等: "基于小波包分解与能量特征提取的相关分析法", 《声学与电子工程》 * |
姚翀等: "基于小波域的Teager能量自相关系数的语音端点检测", 《煤炭技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660413A (zh) * | 2018-06-28 | 2020-01-07 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN110660413B (zh) * | 2018-06-28 | 2022-04-15 | 新唐科技股份有限公司 | 语音活动侦测系统 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN110827852B (zh) * | 2019-11-13 | 2022-03-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3040991B1 (en) | Voice activation detection method and device | |
CN1727860B (zh) | 语音噪音抑制方法和语音噪音抑制器 | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
Ureten et al. | Bayesian detection of radio transmitter turn-on transients. | |
US8223978B2 (en) | Target sound analysis apparatus, target sound analysis method and target sound analysis program | |
RU2680351C2 (ru) | Способ и устройство обнаружения голосовой активности | |
KR100745977B1 (ko) | 음성 구간 검출 장치 및 방법 | |
US6323412B1 (en) | Method and apparatus for real time tempo detection | |
Li et al. | A mixing matrix estimation algorithm for underdetermined blind source separation | |
CN101010722A (zh) | 音频信号中话音活动的检测 | |
CN113766073A (zh) | 会议系统中的啸叫检测 | |
CN111739542A (zh) | 一种特征声音检测的方法、装置及设备 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
CN109074814B (zh) | 一种噪声检测方法及终端设备 | |
CN103886865A (zh) | 声音处理装置、声音处理方法和程序 | |
CN106024017A (zh) | 语音检测方法及装置 | |
CN106033669A (zh) | 语音识别方法及装置 | |
CN106920543B (zh) | 语音识别方法及装置 | |
CN107564512B (zh) | 语音活动侦测方法及装置 | |
CN110556125A (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN107564544A (zh) | 语音活动侦测方法及装置 | |
CN106816157A (zh) | 语音识别方法及装置 | |
CN113674763B (zh) | 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN112735466B (zh) | 一种音频检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |