CN107564545A

CN107564545A - 语音活动侦测方法及装置

Info

Publication number: CN107564545A
Application number: CN201610505472.1A
Authority: CN
Inventors: 孙廷玮; 柯逸倩
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd; Spreadtrum Communications Inc
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09

Abstract

语音活动侦测方法及装置，所述方法包括：对输入的声音信号对应的声音数据进行分帧处理得到多个帧；对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值；当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。上述的方案，可以提高语音活动侦测的准确性。

Description

语音活动侦测方法及装置

技术领域

本发明涉及语音检测技术领域，特别是涉及一种语音活动侦测方法及装置。

背景技术

移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。

移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便。例如，当用户驾驶车辆或者手中提有物品的时候。

语音活动侦测方法和总听系统(Always Listening System)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时，语音检测系统便会激活，并对检测到的声音信号进行识别，之后，移动终端便会根据所识别出的声音信号执行相应的操作，例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。

现有技术中，基于能量估计的语音活动侦测方法，对噪音较为敏感，当噪音类型发生变化时，存在着检测准确性差的问题。

发明内容

本发明实施例解决的问题是如何提高语音活动侦测的准确性。

为解决上述问题，本发明实施例提供了一种语音活动侦测方法，包括：对输入的声音信号对应的声音数据进行分帧处理得到多个帧；对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值；当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

可选地，所述采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，包括：建立训练样本条件概率的对数似然函数；将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数；采用梯度法对所述偏导数做最小化得到所述超参数的最优解；基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

可选地，所述对数似然函数为：logp(y|X,γ)＝∫p(y|f,X,γ)p(y|X,γ)df；其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数，y表示当前帧X对应的语音活动侦测值，f表示所述高斯随机过程隐变量模型，γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。

可选地，所述将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数，包括：且M＝K+σ²I；其中，y^T表示当前帧的语音活动侦测分值的转置矩阵，K表示协方差函数，σ²表示预设的噪音功率，I表示单位矩阵。

可选地，所述多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz。

本发明实施例还提供了一种语音活动侦测装置，所述装置包括：分帧处理单元，适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧；语音活动侦测单元，适于对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值；当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

可选地，所述语音活动侦测单元适于建立训练样本条件概率的对数似然函数；将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数；采用梯度法对所述偏导数做最小化得到所述超参数的最优解；基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

可选地，所述语音活动侦测单元适于建立的对数似然函数为：logp(y|X,γ)＝∫p(y|f,X,γ)p(y|X,γ)df；其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数，y表示当前帧X对应的语音活动侦测值，f表示所述高斯随机过程隐变量模型，γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。

可选地，所述语音活动侦测单元将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数为：且M＝K+σ²I；其中，y^T表示当前帧的语音活动侦测分值的转置矩阵，K表示协方差函数，σ²表示预设的噪音功率，I表示单位矩阵。

可选地，所述分帧处理单元得到的多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，通过高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，并计算得到的语音活动侦测分值与预设的阈值进行比较，并在确定计算得到的语音活动侦测分值小于预设的阈值，确定当前帧中包括语音信号，因采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值可以不受噪音类型的影响，因而提高语音活动侦测的速度。

进一步地，由于各个声音帧中的帧长为20ms，采样点为160个，采样率为8kHz，可以在节约计算成本的同时，获得较好的语音活动侦测性能。

附图说明

图1是本发明实施例中的一种语音活动侦测方法的流程图；

图2是本发明实施例中的另一种语音活动侦测方法的流程图；

图3是本发明实施例中的一种语音检测装置的结构示意图。

具体实施方式

正如背景技术而言，现有技术中的语音活动侦测(Voice Activity Detection，VAD)法，通常基于待分析的声音片段的能量来进行语音活动侦测。采用这种VAD法进行语音活动侦测较为简单，且不需要进行任何的噪音属性的估计。然而，基于能量的VAD法对于噪音较为敏感，当噪音类型发生变化时，会造成检测性能的降低，影响了检测的准确性。特别是语音片段中的静音片段，可能会因能量较低而被标识为噪音片段。因此，现有技术中基于能量的VAD法存在着语音识别准确性低的问题。

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案通过高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，并在确定计算得到的语音活动侦测分值小于预设的阈值，确定当前帧中包括语音信号，可以提高语音活动侦测的速度。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语音活动侦测方法的流程图。如图1所示的语音活动侦测方法，可以包括如下的步骤：

步骤S101：对输入的声音信号对应的声音数据进行分帧处理得到多个帧。

在本发明一实施例中，所述多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz，以在节约计算成本的同时，获得较好的语音活动侦测性能

步骤S102：对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值。

在具体实施中，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值的过程，实质上是采用优化的长度尺度参数(length-scale parameters)即内核宽度(kernel width)，对包括语音信息的帧进行检测的过程。采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，进而确定当前帧是否为包括语音信息的帧的过程可以视为自动选取输入变量的相关维度的主动相关决策理论(AutomaticRelevance Determination，ARD)的特例。在ARD中，每个维度的相关性可以通过对所述长度尺度参数求逆进行确定。在当前帧对应的长度尺度参数非常大的时候，对应的协方差函数将会独立于当前帧，并因此可以自动地移除相应的干扰，因此，使用高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，可以不受噪音类型的影响，因而可以提高语音识别的准确性。

步骤S103：当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

在具体实施中，当采用高斯随机过程隐变量模型计算得到的当前帧的VAD分值，即对应的长度尺度参数的值小于预设的阈值时，可以确定当前帧中包括语音信息，即当前帧为语音帧；反之，当确定是当前帧的语音活动VAD分值大于预设的阈值时，可以确定当前帧中不包括语音信息，即当前帧为非语音帧。

下面将结合图2对本发明实施例中的语音活动侦测方法做进一步详细的介绍。

图2示出了本发明实施例中的另一种语音活动侦测方法的流程图。参见图2，在具体实施中，本发明实施例中的语音活动侦测方法可以包括如下的步骤：

步骤S201：对输入的声音信号对应的声音数据进行分帧处理得到多个帧。

在具体实施中，为了对所采集的声音信号进行处理，可以首先将采集到声音信号进行分帧处理，得到对应的多个帧。对采集的声音信号进行分帧，实质是对声音信号进行短时分析，短时分析是把声音信号分成具有固定周期的时间短段，每个时间短段是相对固定的持续声音片段。

步骤S202：对所述多个帧进行遍历，建立当前帧的训练样本条件概率的对数似然函数。

在具体实施中，当前帧对应的高斯随机过程隐变量模型的超参数的学习过程可以采用边缘相似性最大化来进行。

具体而言，可以首先建立当前帧对应的训练样本条件概率的对数似然函数，即：

logp(y|X,γ)＝∫p(y|f,X,γ)p(y|X,γ)df(1)

其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数，y表示当前帧X对应的VAD分值，f表示所述高斯随机过程隐变量模型，γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。

步骤S203：将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数。

在具体实施中，将当前帧的训练样本条件概率的对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数，即：

M＝K+σ²I (3)

其中，y^T表示当前帧的语音活动侦测分值的转置矩阵，K表示协方差函数，σ²表示预设的噪音功率，I表示单位矩阵。

在具体实施中，K是一个协方差函数，对于上述的公式(2)，通过采用平方指数协方差函数(Squared Exponential Covariance Function)即高斯内核来表示输入信号，即当前帧对应的声音数据，那么将是协方差函数K的阿达马积(Hadamard product)和两个连续的语音帧的距离。

步骤S204：采用梯度法对所述偏导数做最小化得到所述超参数的最优解。

在具体实施中，可以采用梯度法来对公式(2)的偏导数做最小化来估计得到所述超参数γ的最优解。通过数学计算，得到的超参数将均为正数。超参数γ的计算实质上时一个约束优化问题。在具体实施中，这种优化可以通过超参数γ的对数的非约束性优化得到解决。

步骤S205：基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

在具体实施中，当采用上述的过程计算得到当前帧对应的超参数的最优解时，便可以利用所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，即当前帧的VAD分值。

其中，在非语音帧(unvoiced frame)中，对于其中1～N个采样点，GP平滑器(GPsmoother)将全部输出为零，使得协方差函数K等于1，进而使得对应的长度尺度参数的数值变得非常大。因此，非语音帧可以通过对对应的长度尺度参数的数值进行监控进行确定。例如，当确定学习得到的当前帧的长度尺度参数的数值大于预设的阈值时，可以确定当前帧是非语音帧。

需要指出的是，在本发明实例中的梯度运算中，任何基于梯度的优化方法均可以用于学习超参数，以优化边缘相似性。

步骤S206：判断当前帧的语音活动侦测分值是否大于预设的阈值；当判断结果为是时，可以执行步骤S207，反之，则可以对于下一帧从步骤S201开始执行，直至遍历完成所述多个帧。

在具体实施中，所述阈值可以为预先设定的固定数值，也可以根据实际的需要进行变化，本领域的技术人员可以根据实际的需要进行设置，在此不做限制。

步骤S207：确定当前帧中包括语音信息。

在具体实施中，当确定当前帧的语音活动侦测分值大于预设的阈值时，可以确定当前帧中包括语音信息。

在具体实施中，当将本发明实施例中的语音活动侦测方法应用与移动终端中的总听系统中时，在确定当前帧中包括语音信号时，可以将对当前帧的语音信息进行识别，并可以根据所识别出的语音信息执行相应的操作。例如，当识别出的语音为“拨打XX的手机”时，移动终端便可以从移动终端中获取XX的手机号码的信息，并拨打。

上述对本发明实施例中的语音活动侦测方法做了详细的介绍，下面将结合图3对上述的方法对应的装置做进一步详细的介绍。

图3示出了本发明实施例中的一种语音活动侦测装置的结构示意图。如图3所示，在具体实施中，本发明实施例中的语音活动侦测装置可以包括：

分帧处理单元301，适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧。

语音活动侦测单元302，适于对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值。当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

在具体实施中，所述语音活动侦测单元302适于建立训练样本条件概率的对数似然函数；将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数；采用梯度法对所述偏导数做最小化得到所述超参数的最优解；基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

在具体实施中，所述语音活动侦测单元302适于建立的对数似然函数为：logp(y|X,γ)＝∫p(y|f,X,γ)p(y|X,γ)df；其中,logp(y|X,γ)表示当前帧X的训练样本条件概率的对数似然函数，y表示当前帧X对应的语音活动侦测值，f表示所述高斯随机过程隐变量模型，γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。

在具体实施中，所述语音活动侦测单元302将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数为：且M＝K+σ²I；其中，y^T表示当前帧的语音活动侦测分值的转置矩阵，K表示协方差函数，σ²表示预设的噪音功率，I表示单位矩阵。

在本发明一实施例中，所述分帧处理单元301得到的多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音活动侦测方法，其特征在于，包括：

对输入的声音信号对应的声音数据进行分帧处理得到多个帧；

对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值；

当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

2.根据权利要求1所述的语音活动侦测方法，其特征在于，所述采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值，包括：

建立训练样本条件概率的对数似然函数；

将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数；

采用梯度法对所述偏导数做最小化得到所述超参数的最优解；

基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

3.根据权利要求2所述的语音活动侦测方法，其特征在于，所述对数似然函数为：

logp(y|X，γ)＝∫p(y|f，X，γ)p(y|X，γ)df；

其中,logp(y|X，γ)表示当前帧X的训练样本条件概率的对数似然函数，y表示当前帧X对应的语音活动侦测值，f表示所述高斯随机过程隐变量模型，

γ表示所述当前帧X对应的高斯随机过程隐变量模型的超参数。

4.根据权利要求3所述的语音活动侦测方法，其特征在于，所述将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数，包括：

且

M＝K+σ²I；

5.根据权利要求1所述的语音活动侦测方法，其特征在于，所述多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz。

6.一种语音活动侦测装置，其特征在于，包括：

分帧处理单元，适于对输入的声音信号对应的声音数据进行分帧处理得到多个帧；

语音活动侦测单元，适于对所述多个帧进行遍历，采用预设的高斯随机过程隐变量模型计算遍历至的当前帧的语音活动侦测分值；当确定计算得出的语音活动侦测分值小于预设的阈值时，确定当前帧中包括语音信息。

7.根据权利要求6所述的语音活动侦测装置，其特征在于，所述语音活动侦测单元适于建立训练样本条件概率的对数似然函数；将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数；采用梯度法对所述偏导数做最小化得到所述超参数的最优解；基于所述超参数的最优解，计算得到对应的平方指数协方差函数的长度尺度参数值，作为当前帧的语音活动侦测分值。

8.根据权利要求7所述的语音活动侦测装置，其特征在于，所述语音活动侦测单元适于建立的对数似然函数为：

logp(y|X，γ)＝∫p(y|f，X，γ)p(y|X，γ)df；

9.根据权利要求8所述的语音活动侦测装置，其特征在于，所述语音活动侦测单元将所述对数似然函数对当前帧中的各个采样点对应的高斯随机过程隐变量模型的超参数求偏导，得到对应的偏导数为：

且

M＝K+σ²I；

10.根据权利要求7所述的语音活动侦测装置，其特征在于，所述分帧处理单元得到的多个帧中的每个帧的帧长为20ms，采样点为160个，采样率为8kHz。