CN107564544A

CN107564544A - 语音活动侦测方法及装置

Info

Publication number: CN107564544A
Application number: CN201610504768.1A
Authority: CN
Inventors: 孙廷玮; 柯逸倩
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd; Spreadtrum Communications Inc
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09

Abstract

语音活动侦测方法及装置，所述方法包括：将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；采用离散沃尔什变换，计算各个子带的小波系数集；根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量；根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值；根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值；将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。上述的方案，可以提高语音活动侦测的准确性。

Description

语音活动侦测方法及装置

技术领域

本发明涉及语音检测技术领域，特别是涉及一种语音活动侦测方法及装置。

背景技术

移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。

移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便。例如，当用户驾驶车辆或者手中提有物品的时候。

语音活动侦测方法和总听系统(Always Listening System)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时，语音检测系统便会激活，并对检测到的声音信号进行识别，之后，移动终端便会根据所识别出的声音信号执行相应的操作，例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。

现有技术，基于能量估计的语音活动侦测方法，对噪音较为敏感，当噪音类型发生变化时，存在着检测准确性差的问题。

发明内容

本发明实施例解决的问题是如何提高语音活动侦测的准确性。

为解决上述问题，本发明实施例提供了一种语音活动侦测方法，所述语音活动侦测方法包括：将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；采用离散沃尔什变换，计算各个子带的小波系数集；根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量；根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值；根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值；将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。

可选地，J＝3。

可选地，所述采用离散沃尔什变换，计算各个子带的小波系数集，包括：其中,表示第K个子带的第n个小波系数，DWT(.)表示离散沃尔什运算，且K＝1…4，n＝1…N，N为预设的数值。

可选地，所述根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量，包括：其中，表示第K个子带的Teager能量,T[.]表示TEO运算。

可选地，所述根据各个子带的Teager能量，计算各个子带的子带域自相关函数值，包括：且：其中，表示第K个子带的子带域自相关函数值，k＝0….p，p表示所述子带域自相关函数的自相关长度，k表示样本偏移量，s(n)表示第K个子带的第n个采样点的频谱能量，s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。

可选地，所述根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值，包括：其中，表示第K个子带的平均增量值，Δ[.]表示平均增量运算。

本发明实施例还提供了一种语音活动侦测装置，包括：小波分解单元，适于将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；小波变换计算单元，适于采用离散沃尔什变换，计算各个子带的小波系数集；Teager能量算子计算单元，适于根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量；自相关函数计算单元，适于根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值；平均增量计算单元，适于根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值；语音活动侦测计算单元，适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。

可选地，J＝3。

可选地，所述小波变换计算单元适于采用如下的公式计算各个子带的小波系数集：其中，表示第K个子带的第n个小波系数，DWT(.)表示离散沃尔什运算，且K＝1…4，n＝1…N，N为预设的数值。

可选地，所述Teager能量算子计算单元，适于采用如下的公式极端得到各个子带的Teager能量：其中，表示第K个子带的Teager能量,T[.]表示TEO运算。

可选地，所述自相关函数计算单元适于采用如下的公式计算各个子带的子带域自相关函数值：且：其中，表示第K个子带的子带域自相关函数值，k＝0….p，p表示所述子带域自相关函数的自相关长度，k表示样本偏移量，s(n)表示第K个子带的第n个采样点的频谱能量，s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。

可选地，所述平均增量计算单元适于采用如下的公式计算得到各个子带的平均增量值：其中，表示第K个子带的平均增量值，Δ[.]表示平均增量运算。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值，以确定是否对输入的声音信号进行检测，由于小波变换和Teager能量算子、自相关函数相结合计算得到的含噪语音信号的VAD值不受噪音类型的影响，因此，可以提高语音活动侦测的准确性。

附图说明

图1是本发明实施例中的一种语音活动侦测方法的流程图；

图2是本发明实施例中的执行三层小波分解的过程示意图；

图3是本发明实施例中的一种语音活动侦测装置的结构示意图。

具体实施方式

正如背景技术而言，现有技术中的语音活动侦测(Voice Activity Detection，VAD)方法，通常基于待分析的声音片段的能量来进行语音活动侦测。采用这种VAD法进行语音活动侦测较为简单，且不需要进行任何的噪音属性的估计。然而，基于能量的VAD法对于噪音较为敏感，当噪音类型发生变化时，会造成检测性能的降低，影响了检测的准确性。特别是语音片段中的静音片段，可能会因能量较低而被标识为噪音片段。因此，现有技术中基于能量的VAD法存在着语音识别准确性低的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值，以确定是否对输入的声音信号进行检测，使得计算得到的含噪语音信号的VAD值不受噪音类型的影响，因而可以提高语音活动侦测的准确性。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法，可以包括：

步骤S101：将获取的含噪语音信号进行J层小波分解，得到J+1个子带。

在具体实施中，小波变换(Wavelet Transform，WT)是基于时频信号的分析方法。小波变换是一种窗口大小不变但形状可变的窗技术。当需要较为准确的低频信息时，可以使用较长时间的时间间隔；当需要较为准确的高频信息时，可以使用较短的区域。语音信号中通常包括较多的瞬时元素和非静态属性。使用WT的多分辩分析属性，高频范围需要较高的时间分辨率来检测信号中的快速变换的瞬时元素，而低频范围则需要较高的频率分辨率，以对随着时间缓慢变化的波峰进行较为准确地跟踪。

请参见图2，在本发明一实施例中，可以对输入的含噪语音信号S执行三层小波分解，得到4个不均匀(non-uniform)的子带。具体而言，执行第一层小波分解L1分别得到子带D1和A1，对子带A1执行第二层小波分解L2分别得到子带D2和A2，对子带A2执行第三层小波分解L3分别得到子带D3和A3。最终，执行三层小波分解得到四个不均匀的子带分别为子带D1、D2、D3和A3。例如，子带D1的范围为2000Hz～4000Hz，子带D2的范围为1000Hz～2000Hz，子带D3的范围为500Hz～1000Hz，子带A3的的范围为0Hz～500Hz。

这里需要指出的是，J为大于或等于1的整数，本领域的技术人员可以根据实际的需要进行设置，在此不做限制。

步骤S102：采用离散沃尔什变换，计算各个子带的小波系数集。

在具体实施中，可以采用如下的公式计算得到各个子带的小波系数集，即：

其中,表示第K个子带的第n个小波系数，S(n)表示第K个子带中的第n个采样点的频谱能量，DWT(.)表示离散沃尔什运算，且K＝1…4，n＝1…N，N为预设的数值。

步骤S103：根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量。

在具体实施中，在计算得到各个子带的小波系数集时，可以采用如下的公式计算得到各个子带的Teager能量，即：

T_j＝S(n)²-S(n+1)S(n-1) (3)

其中，表示第K个子带的Teager能量,T[.]表示Teager能量算子(TeagerEnergy Operator，TEO)运算，T_j表示离散时间信号的Teager能量算子系数，S(n-1)表示第K个子带中的第n-1个采样点的频谱能量，S(n+1)表示第K个子带中的第n+1个采样点的频谱能量。

这里需要指出的是，对各个子带采用Teager能量算子进行处理，可以对所述含噪语音信号中的噪音进行抑制，并可以增强语音活动侦测的周期性，从而可以提高语音活动侦测的准确性。

步骤S104：根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值。

在具体实施中，在计算得到各个子带的Teager能量时，可以采用如下的公式计算得到各个子带的子带域自相关函数值，包括：

其中，表示第K个子带的子带域自相关函数值，k＝0….p，p表示所述子带域自相关函数的自相关长度，k表示样本偏移量，s(n)表示第K个子带的第n个采样点的频谱能量，s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。

步骤S105：根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值。

在具体实施中，为了从子带域自相关函数的斜坡中获取周期性的密度，在计算得到各个子带的子带域自相关函数值时，可以采用平均增量(Mean-Delta，MD)法，即如下的公式计算得到各个子带的平均增量值，即：

其中，表示第K个子带的平均增量值，Δ[.]表示平均增量运算。

步骤S106：将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值。

在具体实施中，当计算得到各个子带的平均增量值时，可以将计算得到的各个子带的平均增量值进行相加，得到所述含噪语音信号的VAD分值，即：

其中，VADout表示所述含噪语音信号的VAD分值。

步骤S107：判断所述含噪语音信号的语音活动侦测分值是否大于预设的阈值；当判断结果为是时，可以执行步骤S108，反之，则可以对于下一段的含噪语音信号从步骤S101开始执行。

在具体实施中，所述阈值可以为预先设定的固定数值，也可以根据实际的需要进行变化，本领域的技术人员可以根据实际的需要进行设置，在此不做限制。

步骤S108：确定所述含噪语音信号中包括语音信息。

在具体实施中，当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，可以确定所述含噪语音信号中包括语音信息。

在具体实施中，当将本发明实施例中的语音活动侦测方法应用与移动终端中的总听系统中时，在确定含噪语音信号中包括语音信号时，可以将对所述含噪语音信号中的语音信息进行识别，并可以根据所识别出的语音信息执行相应的操作。例如，当识别出的语音为“拨打XX的手机”时，移动终端便可以从移动终端中获取XX的手机号码的信息，并拨打。

上述对本发明实施例中的语音活动侦测方法做了详细的介绍，下面将结合图3对上述的方法对应的装置做进一步详细的介绍。

图3示出了本发明实施例中的一种语音活动侦测装置的结构示意图。参见图3，在具体实施中，本发明实施例中的语音活动侦测装置300可以包括：

小波分解单元301，适于将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；在本发明一实施例中，J＝3。

小波变换计算单元302，适于采用离散沃尔什变换，计算各个子带的小波系数集。

在本发明一实施例中，所述小波变换计算单元302可以适于采用如下的公式计算各个子带的小波系数集：其中,表示第K个子带的第n个小波系数，DWT(.)表示离散沃尔什运算，且K＝1…4，n＝1…N，N为预设的数值。

Teager能量算子计算单元303，适于根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量。

在本发明一实施例中，所述Teager能量算子计算单元303适于采用如下的公式极端得到各个子带的Teager能量：其中，表示第K个子带的Teager能量,T[.]表示TEO运算。

自相关函数计算单元304，适于根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值。

在本发明一实施例中，所述自相关函数计算单元304适于采用如下的公式计算各个子带的子带域自相关函数值：且：其中，表示第K个子带的子带域自相关函数值，k＝0….p，p表示所述子带域自相关函数的自相关长度，k表示样本偏移量，s(n)表示第K个子带的第n个采样点的频谱能量，s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。

平均增量计算单元305，适于根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值。

在本发明一实施例中，所述平均增量计算单元305适于采用如下的公式计算得到各个子带的平均增量值：其中，表示第K个子带的平均增量值，Δ[.]表示平均增量运算。

语音活动侦测计算单元306，适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。

本发明实施例中的语音活动侦测装置，将小波变换和Teager能量算子、自相关函数相结合计算得到含噪语音信号的VAD值，以确定是否对输入的声音信号进行检测，由于小波变换和Teager能量算子、自相关函数相结合计算得到的含噪语音信号的VAD值不受噪音类型的影响，因此，可以提高语音活动侦测的准确性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音活动侦测方法，其特征在于，包括：

将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；

采用离散沃尔什变换，计算各个子带的小波系数集；

根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量；

根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值；

根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值；

将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；

当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。

2.根据权利要求1所述的语音活动侦测方法，其特征在于，J＝3。

3.根据权利要求2所述的语音活动侦测方法，其特征在于，所述采用离散沃尔什变换，计算各个子带的小波系数集，包括：

其中,表示第K个子带的第n个小波系数，DWT(.)表示离散沃尔什运算，且K＝1...4，n＝1...N，N为预设的数值。

4.根据权利要求3所述的语音活动侦测方法，其特征在于，所述根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量，包括：

其中，表示第K个子带的Teager能量,T[.]表示TEO运算。

5.根据权利要求4所述的语音活动侦测方法，其特征在于，所述根据各个子带的Teager能量，计算各个子带的子带域自相关函数值，包括：

且：

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>p</mi> <mo>-</mo> <mi>k</mi> </mrow> </msubsup> <mi>s</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，表示第K个子带的子带域自相关函数值，k＝0....p，p表示所述子带域自相关函数的自相关长度，k表示样本偏移量，s(n)表示第K个子带的第n个采样点的频谱能量，s(n+k)表示第K个子带中与第n个采样点之间的偏移量为k的采样点的频谱能量。

6.根据权利要求5所述的语音活动侦测方法，其特征在于，所述根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值，包括：

<mrow> <msubsup> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mrow> <mi>k</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>j</mi> </msubsup> <mo>=</mo> <mi>&Delta;</mi> <mo>&lsqb;</mo> <msubsup> <mi>r</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>j</mi> </msubsup> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

7.一种语音活动侦测装置，其特征在于，包括：

小波分解单元，适于将获取的含噪语音信号进行J层小波分解，得到J+1个子带，其中，J为预设的数值且J≥1；

小波变换计算单元，适于采用离散沃尔什变换，计算各个子带的小波系数集；

Teager能量算子计算单元，适于根据各个子带的小波系数集，对各个子带进行Teager能量算子处理，得到各个子带的Teager能量；

自相关函数计算单元，适于根据各个子带的Teager能量，计算得到各个子带的子带域自相关函数值；

平均增量计算单元，适于根据各个子带的子带域自相关函数值，采用平均增量法计算得到各个子带的平均增量值；

语音活动侦测计算单元，适于将各个子带的平均增量值进行相加得到所述含噪语音信号的语音活动侦测分值；当确定所述含噪语音信号的语音活动侦测分值大于预设的阈值时，确定所述含噪语音信号中包括语音信息。

8.根据权利要求7所述的语音活动侦测装置，其特征在于，J＝3。

9.根据权利要求8所述的语音活动侦测装置，其特征在于，所述小波变换计算单元适于采用如下的公式计算各个子带的小波系数集：

10.根据权利要求9所述的语音活动侦测装置，其特征在于，所述Teager能量算子计算单元，适于采用如下的公式极端得到各个子带的Teager能量：

其中，表示第K个子带的Teager能量，T[.]表示TEO运算。

11.根据权利要求10所述的语音活动侦测装置，其特征在于，所述自相关函数计算单元适于采用如下的公式计算各个子带的子带域自相关函数值：

且：

12.根据权利要求11所述的语音活动侦测装置，其特征在于，所述平均增量计算单元适于采用如下的公式计算得到各个子带的平均增量值：

其中，表示第K个子带的平均增量值，Δ[·]表示平均增量运算。