CN112397093A

CN112397093A - 一种语音检测方法与装置

Info

Publication number: CN112397093A
Application number: CN202011402897.2A
Authority: CN
Inventors: 孙雅琳; 迟人俊; 桑海岩; 廉士国; 孙泽明
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-02-23
Anticipated expiration: 2040-12-04
Also published as: CN112397093B

Abstract

本申请实施例提供了一种语音检测方法和装置。该方法包括：将音频信号划分为多个具有时序性的音频帧，基于音频帧的声学特征，确定音频帧是有效语音的第一概率；获取与所述音频帧时序对齐的图像帧；基于所述图像帧的图像特征，确定所述图像帧中存在人物进行语音活动的第二概率；根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧，结合音频帧的时序性，可以得到音频信号中有效语音的起始点与终止点，从而实现语音端点检测。同时利用了音频信号的声学特征与对应的人物图像特征，在提高语音端点检测正确率的同时，避免因为使用两种特征而造成的错误结果的累加。

Description

一种语音检测方法与装置

技术领域

本申请涉及语音处理领域，更具体地，涉及一种语音检测方法与装置。

背景技术

语音端点检测，也称语音活动检测(voice activity detection，VAD)，是指从音频流中检测出有效语音片端，对语音和语音的区域进行区分。简单来说，语音端点检测就是从带有噪声的音频流中准确地定位出语音的开始点和结束点，排除噪音、静音等非有效语音，从而获得真正有效的语音片段。

语音端点检测在语音编码、语音识别、语音增强、说话人识别中起着非常重要的作用，是语音处理过程的重要组成部分。因此，希望提供一种方法，能够准确地从音频流中检测出有效语音。

发明内容

本申请实施例提供了一种语音检测方法和装置，以期获得准确地从音频流中检测出有效语音片段。

第一方面，本申请提供了一种语音检测方法，该方法包括：基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；获取与所述音频帧时序对齐的图像帧；基于所述图像帧的图像特征，确定第二概率，所述第二概率为所述图像帧中存在人物进行语音活动的概率；根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧。

基于上述方案，利用音频帧的声学特征确定音频帧包含有效音频的第一概率，并利用与音频帧对应的图像帧作为辅助，根据图像特征确定图像帧中存在人物进行语音活动的第二概率，进而根据第一概率和第二概率确定音频帧是有效音频帧的概率。通过将第一概率和第二概率结合，用图像特征去辅助音频帧是否包含有效音频的判断，有利于提高对有效音频检测的准确性。

并且，结合第一概率和第二概率，并不同于结合声学特征和图像特征，由于第一概率和第二概率通常可以使用两个不同的分类器来实现，二者往往互不相关、互不影响，因此不会将声学特征和图像特征融合可能出现的错误累加，更有利于提高音频检测的准确性。

可选地，所述音频帧是多个音频帧中的一个，所述图像帧是多个图像帧中的一个，所述多个音频帧与所述多个图像帧时序对齐。

可选地，在所述基于音频帧的声学特征，确定第一概率之前，所述方法还包括：基于注意力机制(attention mechanism)确定所述音频帧在音频帧片段中的注意力系数。

可选地，对所述多个音频帧进行分片段处理，得到至少一个音频帧片段，所述至少一个音频帧片段中的每个音频帧片段包括一个或多个音频帧。

可选地，所述基于音频帧的声学特征，确定第一概率，包括：通过预先训练好的语音检测模型，基于所述音频帧的声学特征，确定所述第一概率。

可选地，所述语音检测模型为卷积循环神经网络(convolutional recurrentneural network，CRNN)模型。

可选地，在所述基于所述图像帧的图像特征，确定第二概率之前，所述方法还包括：基于注意力机制获取所述图像帧中人物的嘴部特征。

可选地，所述嘴部特征包括如下一项或多项：嘴角张开的程度、嘴唇的形状、嘴唇分开的距离、牙齿露出的面积和舌头露出的面积。

可选地，所述基于所述图像帧的图像特征，确定第二概率，包括：通过预先训练的图像检测模型，基于所述嘴部特征确定所述第二概率。

可选地，所述图像检测模型为CRNN模型。

第二方面，提供了一种语音检测装置，包括用于实现第一方面和第一方面任一项中所述的语音端点检测方法的单元或模块。

第三方面，提供了一种语音检测装置，包括处理器，所述处理器用于执行第一方面和第一方面任一项中所述的语音检测方法。

第四方面，提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机实现第一方面和第一方面任一项中所述的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行第一方面以及第一方面任一项中所述的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1是本申请实施例提供的语音检测方法用于对一个音频帧的检测中的示意流程图；

图2是本申请实施例提供的对音频信号提取Fbank特征的流程示意图；

图3是本申请实施例提供的语音检测方法用于对多个音频帧的检测中的示意流程图；

图4是本申请实施例提供的音频帧与图形帧对应关系示意图；

图5是本申请实施例提供的语音检测方法的另一示意性流程图；

图6和图7是本申请实施例提供的语音检测装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为便于理解，首先对本申请中涉及到的术语做简单说明。

1、噪音：背景音可以称之为噪音。噪音可以包括外界环境的噪音，也有设备本身的噪音。

2、静音：连续若干帧能量值持续维持在低水平。理想情况下静音能量值为0，但实际无法做到，因为一般有背景音。因此，静音也理解为噪音，以与有效语音相对。

3、有效语音：在本申请实施例中，有效语音可以是指人物进行语音活动所发出的声音。所述人物例如可以是自然人，也可以是智能合成人。本申请实施例对此不作限定。

在本申请实施例中，音频信号主要可以包括有效语音和非有效语音。其中非有效语音具体可以包括上述噪音和静音。

4、端点：有效语音的开始点和结束点。端点例如可以包括噪音与有效语音的变化临界点。有效语音的开始点和结束点之间的音频帧可以构成一个有效语音片段。

5、有效语音帧：若音频帧中包含有效语音，则可认为该音频帧为有效语音帧，可将其作为有效语音片段输出。

6、训练：基于训练样本对神经网络进行训练，使得该神经网络预测出真正想要的目标值或与真正想要的目标值非常接近的值。

该训练样本比如可以包括特征，如声学特征，以及特征对应的标签，比如，有效语音、非有效语音。当通过大量的训练样本对神经网络进行训练时，可以通过例如损失函数(loss function)或目标函数(objective function)等，对神经网络进行收敛。其中，损失函数和目标函数是用于衡量预测值和目标值的差异的重要方程。以损失函数为例，损失函数的输出值(loss)越高，表示预测值与目标值的差异越大，那么神经网络的训练就变成了尽可能缩小这个loss的过程。

本申请提供了一种语音检测方法和装置，通过将基于音频帧的声学特征获得的是否包含有效音频的概率与基于图像帧的图像特征获得的是否存在人物进行语音活动的概率融合，判断音频帧是否为有效语音帧，可以提高语音检测的准确性。

为便于理解，下文首先结合图1详细说明本申请实施例提供的语音检测方法用于对一个音频帧进行语音检测的具体过程，然后结合图2详细说明本申请实施例提供的语音检测方法用于对多个音频帧进行语音检测的具体过程方法。

需要说明的是，下文结合图1和图2所描述的方法可以由语音检测装置执行，例如可以由配置在语音检测装置中的处理器来执行。

图1是本申请实施例提供的语音检测方法的示意性流程图。如图1所示，该语音检测方法100可以包括步骤110至步骤140。下面对方法100中的各个步骤做详细说明。

在步骤110中，基于音频帧的声学特征，确定第一概率。

该音频帧例如可以是从多个音频帧中获取的任意一个音频帧。该多个音频帧例如可以是对某一待检测的音频信号进行分帧处理得到的，且该多个音频帧之间具有时序关系。该音频信号例如可以是从视频信号中获取到的。该音频信号中可能包含了有效语音和噪音。其中，有效语音可以包括人物进行语音活动的声音信号，所述人物可以是真实的人物，也可以是智能合成人。本申请实施例对此不作限定。

对音频信号分帧处理的一种可能的实现方式是：将音频信号进行分段处理得到音频帧。其中，分段处理是将不定长的音频信号截取成具有固定帧长、并且前后帧有重叠的部分(后面统称为帧偏移)。固定帧长例如可以为20ms，帧偏移可以为固定帧长的1/2或1/3等，比如10ms，本申请实施例对此不做限定。

第一概率可以是指该音频帧包含有效语音的概率。第一概率可以基于音频帧的声学特征而确定。

其中，音频帧的声学特征可以为音频帧的滤波器组(filter bank，Fbank)特征，也可以为梅尔(Mel)滤波器频率倒谱系数(Mel frequency cepstral coefficient，MFCC)特征，还可以为语谱图特征等，本申请实施例对此不做限制。

这里结合图2，以Fbank特征的提取过程为例来说明对音频帧的声学特征的提取过程：如图2所示，对音频信号进行分帧处理可以得到音频帧。对音频帧进行加窗操作，让一帧信号两端的幅度渐变到0，然后将加窗后的音频帧信号做快速傅里叶变换(fast Fouriertransform，FFT)，得到音频帧的频域信号，然后可将该音频帧的频域信号输入至Mel滤波器组，以屏蔽掉一些不需要或者有噪声的频率，最后对留下的频域信号的能量取对数，即可得到该音频帧信号的Fbank特征。

应理解，上述过程中，得到的Fbank特征的维度与Mel滤波器组中滤波器的个数有关。示例性地，采用40个Mel滤波器，则输出Fbank特征的维度即为40。还应理解，上文仅为便于理解，结合图2示例性地描述了对音频帧的声学特征的提取过程。但这不应对本申请构成任何限定。如前所述，该声学特征也可以为MFCC特征或语谱图特征，其相关的提取过程也可以与图2所示不同。具体过程可参考现有技术，为了简洁，此处不做详述。

此外，在下文结合图3描述的对多个音频帧信号的语音检测过程中，该提取过程还可包括对音频信号进行预加重处理的过程。图中虽未予以示出，但这不应对本申请构成任何限定。

示例性地，基于音频帧的声学特征确定第一概率的一种可能的实现方式为：将一个音频帧的声学特征输入预先训练好的语音检测模型，通过该语音检测模型来进一步提取声学特征的特征，并进一步基于提取到的特征确定该音频帧包含有效语音的概率，也即上述第一概率。

其中，基于提取到的特征确定第一概率的过程例如可通过分类器来实现，该分类器例如可以是softmax分类器。例如，可以将提取到的特征输入至分类器，再由分类器输出第一概率。

应理解，在本申请实施例中，可以将分类器理解为是上述语音检测模型的一部分。但这不应对本申请构成任何限定。在另一些可能的设计中，该分类器也可以作为一个独立的部分而存在。本申请实施例对此不作限定。

这里，预先训练好的语音检测模型可以基于一个数据集训练得到。所述语音检测模型可以是CRNN，或者说，是基于CRNN训练得到的。基于CRNN训练的端点检测模型的基本思路是，利用网络的分层学习能力和区分性建模能力，依据大规模标注的语音库，以音素区分性为学习目标，从FBank特征中学习多种有效语音和非有效语音，实现帧层次上的有效语音和非有效语音的判决。

例如，上述用于训练的数据集可以包含有多个声学特征(示例性地，一个声学特征可以是一个多维向量)以及该多个声学特征对应的标签，标签可用于标定所对应的声学特征是有效语音还是非有效语音。可以理解，所述预先训练好的语音检测模型可以被用于提取声学特征的特征，并且得到的特征能够反映输入的音频帧包含的是有效语音还是非有效语音。示例性地，假设Mel滤波器组包括40个滤波器，可得到该音频帧的Fbank特征的维度为1×40。其中1代表个音频帧，40代表声学特征的维度。该音频帧的Fbank特征被输入至语音检测模型。经过语音检测模型进行判断后，可输出维度为1×2的结果。其中1代表1个音频帧，2代表输出的结果有两类，即分别对应输入的音频帧是包含有效语音的概率、输入的音频帧包含非有效语音的概率，且两者的值相加为1，其中该音频帧包含有效语音的概率可以作为第一概率。

需要说明的是，本申请实施例中，当确定某一音频帧包含有效语音后，并不直接将其确定为有效语音帧，而是结合图像识别作为辅助，来确定该音频帧是否为有效音频帧。在步骤120中，获取与该音频帧时序对齐的图像帧。

图像帧例如可以是与上文步骤110中所述的同一个视频信号中获取到的图像序列中的一帧。该图像序列可以包括按照时域顺序排列的多个图像帧。

在本申请实施例中，为了辅助检测语音信号，可以从该图像序列中获取与上述音频帧时序对齐的图像帧。

具体地，获取与一个音频帧帧长时间内的图像帧，即可得到与上述音频帧时序对齐的图像帧。

在步骤130中，基于图像帧的图像特征，确定第二概率。

其中，图像特征例如可以是加速稳健特征(speeded up robust features，SURF)，也可以是由基于加速片段检测特征(features from accelerated segment test，FAST)检测算法和基于二元鲁棒独立基本特征(binary robust independent elementaryfeatures，BRIEF)向量创建算法的一种特征提取算法(oriented FAST and rotatedBRIEF，ORB)提取得到的特征、局部二值模式(local binary pattern，LBP)特征、最早由Papageorgiou等人应用于人脸表示的HAAR特征等。可以理解，对图像帧进行这些图像特征的提取，可以得到关于图像帧中人物的特征，减少背景等不相关的特征因素。因此这里的图像特征例如可以是代表人物的一些关键面部特征，如眼睛、鼻子、眉毛、嘴以及脸的细节和轮廓等特征。

第二概率可以是指图像帧中存在人物进行语音活动的概率，或者说，图像帧中的人物正在进行语音活动的概率。

应理解，基于图像帧确定第二概率的主要原理是根据人物面部的局部特征，比如嘴部特征，确定人物是否在进行语音活动。其中，嘴部特征可以包括嘴角张开的程度、嘴唇的形状、嘴唇分开的距离、牙齿露出的面积和舌头露出的面积。

具体地，基于图像帧的图像特征确定第二概率的一种可能的实现方式为：基于提取的图像帧的图像特征，获取图像帧中人物的嘴部特征，将嘴部特征输入后续的预先训练得到的图像检测模型，进一步提取嘴部特征的特征，并进一步基于提取到的嘴部特征确定该图像帧的人物在进行语音活动的概率，也即上述第二概率。

其中，获取图像帧中人物的嘴部特征的一种可能的实现方式是，采用注意力机制获取图像帧中人物的嘴部特征。示例性地，图像帧的图像特征被输入到注意力模型中，注意力模型可以对图像特征(即关键面部特征)的不同部分赋予不同的注意力系数。例如，对于语音检测来说，由于说话与不说话时，嘴部发生的变化较大，因此注意力机制可能会对嘴部特征赋予较大的注意力系数。

应理解，嘴部特征是用于确定人物是否正在进行语音活动的一个较为重要的局部特征，但这并不代表对该图像特征的特征提取仅限于嘴部特征。与人物是否进行语音活动相关的其他关键面部特征也可能会被分配较小的注意力系数，与嘴部特征共同输入图像检测模型中，判断图像帧中人物是否在进行语音活动。

基于提取到的特征确定第二概率的过程例如可通过分类器来实现，该分类器例如可以是softmax分类器。例如，可以将提取到的嘴部特征输入至分类器，再由分类器输出第二概率。

应理解，在本申请实施例中，可以将分类器理解为是上述图像检测模型的一部分。但这不应对本申请构成任何限定。在另一些可能的设计中，该分类器也可以作为一个独立的部分而存在。本申请实施例对此不作限定。

另外，预先训练的图像检测模型，可以基于一个数据集训练得到。所述图像检测模型可以是CRNN，或者说，该图像检测模型是基于CRNN训练得到的。用于训练的数据集可以包含有多个嘴部特征(一个图像特征或嘴部特征可以是一个多个向量)以及多个嘴部特征对应的标签，所述标签标定所对应的嘴部特征是人物进行语音活动时的状态还是人物未进行语音活动时的状态。可以理解，所述预先训练好的图像检测模型可以被用于提取嘴部特征的特征，并且得到的特征能够反映对应的图像帧是否对应有效语音帧。

与上文所述的语音检测模型相似，该图像检测模型的输出也可以是维度为1×2的结果。其中1代表1个图像帧，2代表输出的结果有两类，即分别对应输入的图像帧中的人物在进行语音活动的概率、输入的图像帧中的人物不在进行语音活动的概率，且两者的值相加为1，其中该图像帧中的人物在进行语音活动的概率可以作为第二概率。在步骤140中，根据第一概率和第二概率，确定音频帧是否为有效语音帧。

第一概率与第二概率可以通过融合算法实现融合，共同判断音频帧是否为有效语音帧。

其中，融合算法可以是最大值融合、平均值融合、贝叶斯规则融合以及集成学习等方法，本申请实施例对此不作限制。

这里以平均值融合算法为例，说明根据第一概率和第二概率确定音频帧是否为有效语音帧的过程：假设第一概率的值为0.8，第二概率的值为0.4，则根据平均值融合算法容和后的结果为：(0.8+0.4)/2＝0.6，0.6具体代表的含义是基于音频帧的声学特征及其对应的图像特征，判断得到音频帧是有效语音帧的概率。如前所述，每个分类器输出的两个概率值的和均为1，那么相应地，得到的音频帧不是有效语音帧的概率为(0.2+0.6)/2＝0.4，而0.6大于0.4，所以可以确定该音频帧为有效语音帧。

因此，本申请实施例提供的语音检测方法不仅依据音频帧的声学特征检测音频帧是否包含有效语音，而且辅以音频帧对应的图像帧的图像特征检测图像帧是否存在人物进行语音活动，这样使语音检测的输入更加多元化，有利于提高检测的准确性。并且将两者的检测结果融合，使得融合模型的错误来自不同的检测分类器，而来自不同检测分类器的错误往往互不相关、互不影响，不会造成错误的进一步累加，从而可以进一步提高检测的准确性。

上文所提供的语音检测方法以一个音频帧为例描述了基于图像帧的辅助确定音频帧是否为有效语音帧的过程。此方法可应用于语音端点检测中，以获得语音片段。下文将结合图3对此过程做更详细地说明。

图3是本申请实施例提供的语音检测方法的另一示意性流程图。如图3所示，该方法300包括步骤310至步骤390。

在步骤310中，对待检测的音频信号进行处理得到音频帧的声学特征。

如前所述，该音频信号可以是从视频信号中获取到的音频信号。关于该音频信号的相关说明可参考方法100中的相关描述，为了简洁，此处不再赘述。可选地，步骤310具体可以包括如下步骤3101至步骤3104中的一个或多个步骤。

步骤3101，对音频信号进行预加重。

对音频信号进行预加重，目的在于对音频信号中的高频分量进行补偿。预加重是一个对音频预先增强的过程。示例性地，预加重可以通过将音频信号输入一个高通滤波器实现。

步骤3102，对预加重后的音频信号进行采样率转换。

因为获取到的音频信号可能具有不同的采样率，所以对音频信号进行采样率转换，得到统一采样率的音频信号。

在对音频信号进行采样率转换时，采用的采样率可以是16千赫兹(kHz)，也可以是其他的如8kHz，本申请实施例对此不做限制。

步骤3103，对采样率转换后的音频信号进行分帧处理，得到多个音频帧。

一种可能的实现方式是：将各个音频信号进行分段处理得到音频帧。其中，分段处理是将不定长的音频信号截取成具有固定帧长，并且前后帧有重叠的部分(后面统称为帧偏移)。固定帧长可以为20ms，帧偏移可以为10ms，两者也可以为其他值，本申请实施例对此不做限制。

步骤3104，对每个音频帧提取声学特征。

语音检测装置可以遍历该音频帧片段中的每个音频帧，对每个音频帧分别提取声学特征。语音检测装置对每个音频帧提取声学特征的具体过程可参看上文方法100的步骤110中的相关描述，为了简洁，此处不再赘述。

在步骤320中，对得到多个音频帧的声学特征进行分片段处理，得到至少一个音频帧片段。

对提取得到多个音频帧的Fbank声学特征进行分片段处理，即从多个音频帧的声学特征中依次取出连续的x个帧对应的声学特征，作为一个帧片段。多个音频帧可以被划分为y(y大于或等于1，且为整数)个帧片段。

应理解，x可以为32、64、128等，在极端情况下可以为1或者前面所述的所有音频帧的个数。本申请实施例对于x的具体取值不作限定。

对该多个音频帧的声学特征进行分片段处理，一方面为后续利用注意力机制获取帧与帧声学特征之间的关系提供便利，进而达到优化语音检测结果的效果。另一方面，采用由多个帧组成的帧片段而不是单帧的形式输入后续的语音检测模型，可以提高语音检测的效率。

在步骤330中，基于每个音频帧的声学特征，确定每个音频帧包含有效语音的概率。

语音检测装置可以遍历该音频帧片段中的每个音频帧，分别基于每个音频帧的声学特征，确定每个音频帧包含有效语音的概率。

前已述及，对每个音频帧包含有效语音的概率的确定可通过预先训练好的语音检测模型来实现。在本实施例中，同一个音频帧片段的声学特征可以一同输入至该语音检测模型中。例如，假设每个音频帧片段包括64个音频帧，每个音频帧的声学特征可表示为维度为40的向量，则可得到一个音频帧片段的声学特征可表示为64×40维的矩阵。将该矩阵输入语音检测模型，可以得到64×2维的矩阵，该矩阵代表64个音频帧分别对应的属于有效语音的概率和属于噪音的概率。

应理解，语音检测装置基于每个音频帧的声学特征确定包含有效语音的概率的具体过程，以及语音检测模型的相关描述可参看上文方法100中步骤110中的相关描述，为了简洁，此处不再赘述。

可选地，在步骤330之前，该方法300还包括：步骤340，基于注意力机制确定每个音频帧在音频帧片段中的注意力系数。

注意力机制会对音频帧片段中的每个音频帧赋予一个注意力系数，该系数代表每个音频帧与音频帧片段中其他帧的相似度或者关联程度，能够依据此判断音频帧片段的各个帧的之间的联系，为后续语音检测模型进行语音检测提供更多信息，从而使检测结果更准确。其中，相似度可以通过点积、余弦(cosine)相似性等计算得到。

其中，注意力系数的计算过程可以为：针对每个音频帧计算与音频片段的各个帧的相似度，得到每个音频帧相对于各个音频帧的相似度系数，然后对相似度系数归一化并输入softmax激活函数，得到每个音频帧相对于各个音频帧的权重，然后将每个音频帧相对于各个音频帧的权重与各个音频帧各自的声学特征相乘并求和，得到含有注意力系数的音频帧的声学特征。

与之对应，步骤330可以进一步包括：基于每个音频帧的声学特征以及每个音频帧在音频帧片段中的注意力系数，确定每个音频帧的声学特征包含有效语音的概率。

应理解，在得到含有注意力系数的音频帧片段的声学特征后，确定每个音频帧包含有效语音的概率具体过程可参看上文步骤330中的相关描述，为了简洁，此处不再赘述。

在步骤350中，获取与多个音频帧时序对齐的多个图像帧。

图像帧例如可以是同一个视频信号中获取到的图像序列中的一帧。该图像序列包括按照时域顺序排列的多个图像帧。

在本申请实施例中，为了辅助检测语音信号，可以从该图像序列中获取到与上述步骤110中所述的多个音频帧时序对齐的多个图像帧。换言之，该多个图像帧中的每个图像帧可与多个音频帧中的一个音频帧时序对齐。举例来说，一个图像帧可以看作是一个固定帧长内的音频帧对应的一个图像。具体可参考图4。

在步骤360中，获取每个图像帧中人物的嘴部特征。

在步骤370中，基于每个图像帧中人物的嘴部特征，确定每个图像帧中存在人物进行语音活动的概率。

与上文所述的音频帧片段相对应，语音检测装置也可对图像帧进行分片段处理，得到与上述至少一个音频帧片段时序对齐的至少一个图像帧片段。每个图像帧片段中包含的图像帧数量和与其时序对齐的音频帧片段中包含的音频帧数量相同。

如步骤330所述，如果每个音频帧片段包括64个音频帧，则对应有64个图像帧一同输入语音检测装置，最终输出64×2维的矩阵，该矩阵代表64个图像帧分别对应的存在人物进行语音活动的概率和存在人物没有进行语音活动的概率。

语音检测装置可以遍历该图像帧片段中的每个图像帧，对每个图像帧分别提取嘴部特征，进而根据嘴部特征确定各图像帧中是否存在人物在进行语音活动。

应理解，语音检测装置对每个图像帧提取嘴部特征，并根据嘴部特征确定是否存在人物进行语音活动的具体过程可参看上文方法100中的步骤130的相关描述，为了简洁，此处不再赘述。

在步骤380中，根据每个音频帧包含有效语音的概率及其对应的图像帧中存在任务进行语音活动的概率，确定每个音频帧是否为有效语音帧。

根据每个音频帧包含有效语音的概率及其对应的图像帧中存在人物进行语音活动的概率，确定音频帧是否为有效语音帧的过程与方法100中的步骤140的相关描述类似，为了简洁，此处不再赘述。

不同的是，对于多个音频帧和多个图像帧，会有对应的多个输出概率依次进行步骤140的相关操作。例如，对于64个音频帧和64个图像帧，对应的64个音频帧的输出概率和64个图像帧的输出概率依此进行步骤140的相关操作，可以得到64个概率，依据64个概率分别确定每个音频帧是否包含有效语音。

在步骤390中，基于每个音频帧是否为有效语音帧的判断，确定该音频信号的语音端点。如前所述，一个音频信号中的多个音频帧是有时序性的，根据检测出的各有效语音帧及其时序关系，可以进一步识别出该音频信号中有效语音的起始点与终点，从而得到了有效语音的端点。

图5是本申请实施例提供的语音检测方法的另一示意性流程图。如图5所示，各音频帧经过声学特征的提取后，可以被输入至注意力模型。注意力模型基于注意力机制为每个音频帧分配注意力系数，被分配注意力系数的各音频帧被依次输入CNN、RNN进一步提取特征，被提取的特征输入分类器，可得到各音频帧包含有效语音的概率。

与上述各音频帧时序对齐的各图像帧经过图像特征的提取后，可以被输入至注意力模型。注意力模型基于注意力机制获取图像帧的局部特征，如嘴部特征。局部特征被依次输入CNN、RNN进一步提取特征，被提取的特征输入分类器，可以得到各图像帧存在人物进行语音活动的概率。

最后，将两个分类器分别输出的概率输入至多模态融合模型，由多模态融合模型进行概率的融合，得到各音频帧分别为有效语音帧的概率。

应理解，图5所示的流程是基于本申请实施例提供的语音检测方法的一种可能的实现方式，而不应对本申请构成任何限定。基于相同的构思，本领域的技术人员可以对其中的一个或多个步骤进行删减、替换，也可增加其他的步骤，以达到相同或相似的效果。这些变换均应落入本申请的保护范围内。

下文将结合图6和图7详细说明本申请实施例提供的语音检测装置。

图6为本申请提供的一种语音检测装置，该装置可用于实现上述方法实施例中语音检测的功能。其中，该装置可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

如图6所示，该装置600可以包括：确定模块610和获取模块620。其中，确定模块610可用于基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；获取模块620可用于获取与所述音频帧时序对齐的图像帧；确定模块610还可用于基于所述图像帧的图像特征，确定第二概率，所述第二概率为所述图像帧中存在人物进行语音活动的概率；确定模块610可用于根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧。

可选地，确定模块610还可用于基于注意力机制确定所述音频帧在音频帧片段中的权重注意力系数。

可选地，确定模块610还可用于通过预先训练好的语音检测模型，基于所述音频帧的声学特征，确定所述第一概率。

可选地，确定模块610还可用于基于注意力机制获取所述图像帧中人物的嘴部特征。

可选地，确定模块610还可用于通过预先训练的图像检测模型，基于所述嘴部特征确定所述第二概率。

应理解，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

图7是本申请实施例提供的语音检测装置的另一示意性框图。该装置可用于实现上述方法实施例中语音检测的功能。其中，该装置可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

如图7所示，该装置700可以包括至少一个处理器710，用于实现本申请实施例提供的方法实施例中的语音检测方法。示例性地，处理器710可以基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；处理器710还可以用于获取与所述音频帧时序对齐的图像帧；处理器710还可以基于所述图像帧的图像特征，确定第二概率，所述第二概率为所述图像帧中存在人物进行语音活动的概率；处理器710还可以根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧。

应理解，该装置700可用于执行上述各个方法实施例的步骤。具体内容可参见上文各个方法实施例的详细描述，此处不再赘述。

该装置700还可以包括至少一个存储器720，用于存储程序指令和/或数据。存储器720和处理器710耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器710可能和存储器720协同操作。处理器710可能执行存储器720中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。

该装置700还可以包括通信接口730，用于通过传输介质和其它设备进行通信，从而用于装置700中的装置可以和其它设备进行通信。所述通信接口730例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器710可利用通信接口730输入输出数据，并用于实现图1、图3和图4对应的实施例中所述的语音检测方法。

本申请实施例中不限定上述处理器710、存储器720以及通信接口730之间的具体连接介质。本申请实施例在图7中以处理器710、存储器720以及通信接口730之间通过总线740连接。总线740在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请还提供一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得电子设备执行图1、图3和图5所示实施例中任意一个实施例的方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)。当所述计算机程序被运行时，使得电子设备执行图1、图3和图5所示实施例中任意一个实施例的方法。

应理解，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本说明书中使用的术语“单元”、“模块”等，可用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，各功能单元的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行所述计算机程序指令(程序)时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音检测方法，其特征在于，包括：

基于音频帧的声学特征，确定第一概率，所述第一概率为所述音频帧包含有效语音的概率；

获取与所述音频帧时序对齐的图像帧；

基于所述图像帧的图像特征，确定第二概率，所述第二概率为所述图像帧中存在人物进行语音活动的概率；

根据所述第一概率和所述第二概率，确定所述音频帧是否为有效语音帧。

2.根据权利要求1所述的方法，其特征在于，所述音频帧是多个音频帧中的一个，所述图像帧是多个图像帧中的一个，所述多个音频帧与所述多个图像帧时序对齐。

3.根据权利要求2所述的方法，其特征在于，在所述基于音频帧的声学特征，确定第一概率之前，所述方法还包括：

基于注意力机制确定所述音频帧在音频帧片段中的注意力系数。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于音频帧的声学特征，确定第一概率，包括：

通过预先训练好的语音检测模型，基于所述音频帧的声学特征，确定所述第一概率。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述基于所述图像帧的图像特征，确定第二概率之前，所述方法还包括：

基于注意力机制获取所述图像帧中人物的嘴部特征。

6.根据权利要求5所述的方法，其特征在于，所述嘴部特征包括如下一项或多项：嘴角张开的程度、嘴唇的形状、嘴唇分开的距离、牙齿露出的面积和舌头露出的面积。

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述图像帧的图像特征，确定第二概率，包括：

通过预先训练的图像检测模型，基于所述嘴部特征确定所述第二概率。

8.一种语音检测装置，其特征在于，包括用于实现如权利要求1至7中任一项所述的方法的模块。

9.一种语音检测装置，其特征在于，包括处理器，所述处理器用于执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得计算机执行如权利要求1至7中任一项所述的方法。