CN110648656A

CN110648656A - 语音端点检测方法、装置、电子设备及存储介质

Info

Publication number: CN110648656A
Application number: CN201910804076.2A
Authority: CN
Inventors: 曲贺; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-01-03

Abstract

本公开示出了一种语音端点检测方法、装置、电子设备及存储介质，首先对待检测语音进行分帧处理，得到多个待检测音帧，然后提取各待检测音帧的频率特征、能量特征和过零率特征，将各待检测音帧的频率特征、能量特征和过零率特征输入语音检测模型中，获得各待检测音帧的检测结果，再根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声，能量特征和过零率特征对歌曲和语音有较高的区分度，因此，同时采用频率特征、能量特征和过零率特征，不但可以对纯语音信号准确地进行检测，而且对包含音乐信号的语音也能进行很好地区分，提高了语音端点检测的准确率，相对现有技术具有更强的鲁棒性。

Description

语音端点检测方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音端点检测方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，语音识别已经广泛应用于各行各业，在语音识别系统中，语音端点检测(VAD)发挥着重要作用。由于语音在识别时存在着大量的静音、各种噪声等，严重干扰语音识别的性能，增加了语音识别系统的负担，因此，在语音识别系统中，往往是先对语音进行端点检测，即给定连续输入的语音，输出期望语音片段的起始点和结束点，从而可以过滤掉静音，噪声等，提高语音识别系统的性能。

现有VAD技术中，多采用MFCC特征进行语音端点检测，即首先提取语音帧的MFCC特征，然后将MFCC特征输入预先训练得到的VAD语音检测模型中，根据检测结果确定起始点和结束点。然而，对于包含音乐的语音(如有背景音乐的语音或说唱结合的语音等)，采用MFCC特征无法准确地进行端点检测。

发明内容

本公开提供一种语音端点检测方法、装置、电子设备及存储介质，以至少解决相关技术无法对包含音乐的语音准确地进行端点检测的问题。本公开的技术方案如下：

根据本公开的第一方面，提供一种语音端点检测方法，所述方法包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

提取各所述待检测音帧的频率特征、能量特征和过零率特征；

将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果，所述检测结果包括语音帧和非语音帧；

根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点。

在一种可选的实现方式中，所述频率特征包括梅尔频率倒谱系数或对数谱特征，所述能量特征包括低短时能量比，所述过零率特征包括高过零率比。

在一种可选的实现方式中，所述语音检测模型包括第一特征融合层和第一分类层，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤，包括：

将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征；

将各所述待检测音帧的融合特征输入所述第一分类层中，获得各所述待检测音帧的检测结果。

在一种可选的实现方式中，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

将各所述待检测音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各所述待检测音帧的拼接特征矩阵；

基于预先训练得到的权重矩阵，对各所述待检测音帧的拼接特征矩阵进行线性映射，得到各所述待检测音帧的融合特征。

基于预先训练得到的置换矩阵，对各所述待检测音帧的拼接特征矩阵所包含的列向量进行置换，得到各所述待检测音帧的融合特征。

在一种可选的实现方式中，所述根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点的步骤，包括：

将所述待检测语音中第一个检测结果为语音帧的待检测音帧确定为所述待检测语音的起始点，将所述待检测语音中最后一个检测结果为语音帧的待检测音帧确定为所述待检测语音的结束点。

在一种可选的实现方式中，在所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤之前，还包括：

获取样本集合，所述样本集合中包括多个待训练音帧以及各所述待训练音帧的类别标注，所述类别标注为语音帧或非语音帧；

提取各所述待训练音帧的频率特征、能量特征和过零率特征；

将各所述待训练音帧的频率特征、能量特征和过零率特征作为网络模型的输入，根据所述网络模型的输出结果以及各所述待训练音帧的类别标注，对所述网络模型进行训练，将训练后的网络模型确定为所述语音检测模型。

在一种可选的实现方式中，所述网络模型包括第二特征融合层和第二分类层，所述将各所述待训练音帧的频率特征、能量特征和过零率特征作为网络模型的输入，根据所述网络模型的输出结果以及各所述待训练音帧的类别标注，对所述网络模型进行训练，将训练后的网络模型确定为所述语音检测模型的步骤，包括：

将各所述待训练音帧的频率特征、能量特征和过零率特征输入所述第二特征融合层中，得到各所述待训练音帧的融合特征；

将各所述待训练音帧的融合特征作为所述第二分类层的输入，将所述第二分类层的输出结果与各所述待训练音帧的类别标注进行对比，根据对比结果对所述网络模型的参数进行调整，将训练后的网络模型确定为所述语音检测模型。

在一种可选的实现方式中，所述将各所述待训练音帧的频率特征、能量特征和过零率特征输入所述第二特征融合层中，得到各所述待训练音帧的融合特征的步骤，包括：

将各所述待训练音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各所述待训练音帧的拼接特征矩阵；

基于初始化的权重矩阵，对各所述待训练音帧的拼接特征矩阵进行线性映射，得到各所述待训练音帧的融合特征；

所述将各所述待训练音帧的融合特征作为所述第二分类层的输入，将所述第二分类层的输出结果与各所述待训练音帧的类别标注进行对比，根据对比结果对所述网络模型的参数进行调整，将训练后的网络模型确定为所述语音检测模型的步骤，包括：

将各所述待训练音帧的融合特征作为所述第二分类层的输入，将所述第二分类层的输出结果与各所述待训练音帧的类别标注进行对比，根据对比结果对初始化的权重矩阵进行优化，对所述第二分类层中的参数进行调整，将训练后的网络模型确定为所述语音检测模型，其中，所述第二分类层包括时延神经网络和长短期记忆网络。

基于初始化的置换矩阵，对各所述待训练音帧的拼接特征矩阵所包含的列向量进行置换，得到各所述待训练音帧的融合特征；

将各所述待训练音帧的融合特征作为所述第二分类层的输入，将所述第二分类层的输出结果与各所述待训练音帧的类别标注进行对比，根据对比结果对初始化的置换矩阵进行优化，对所述第二分类层中的参数进行调整，将训练后的网络模型确定为所述语音检测模型，其中，所述第二分类层包括时延神经网络和长短期记忆网络。

根据本公开的第二方面，提供一种语音端点检测装置，所述装置包括：

抽帧模块，被配置为对待检测语音进行分帧处理，得到多个待检测音帧；

第一提取模块，被配置为提取各所述待检测音帧的频率特征、能量特征和过零率特征；

检测模块，被配置为将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果，所述检测结果包括语音帧和非语音帧；

确定模块，被配置为根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点。

在一种可选的实现方式中，所述语音检测模型包括第一特征融合层和第一分类层，所述检测模块包括：

第一融合单元，被配置为将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征；

分类单元，被配置为将各所述待检测音帧的融合特征输入所述第一分类层中，获得各所述待检测音帧的检测结果。

在一种可选的实现方式中，所述第一融合单元具体被配置为：

在一种可选的实现方式中，所述确定模块具体被配置为：

在一种可选的实现方式中，所述装置还包括：

样本获取模块，被配置为获取样本集合，所述样本集合中包括多个待训练音帧以及各所述待训练音帧的类别标注，所述类别标注为语音帧或非语音帧；

第二提取模块，被配置为提取各所述待训练音帧的频率特征、能量特征和过零率特征；

训练模块，被配置为将各所述待训练音帧的频率特征、能量特征和过零率特征作为网络模型的输入，根据所述网络模型的输出结果以及各所述待训练音帧的类别标注，对所述网络模型进行训练，将训练后的网络模型确定为所述语音检测模型。

在一种可选的实现方式中，所述网络模型包括第二特征融合层和第二分类层，所述训练模块包括：

第二融合单元，被配置为将各所述待训练音帧的频率特征、能量特征和过零率特征输入所述第二特征融合层中，得到各所述待训练音帧的融合特征；

训练单元，被配置为将各所述待训练音帧的融合特征作为所述第二分类层的输入，将所述第二分类层的输出结果与各所述待训练音帧的类别标注进行对比，根据对比结果对所述网络模型的参数进行调整，将训练后的网络模型确定为所述语音检测模型。

在一种可选的实现方式中，所述第二融合单元具体被配置为：

所述训练单元具体被配置为：

根据本公开的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语音端点检测方法。

根据本公开的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的语音端点检测方法。

根据本公开的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的语音端点检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开技术方案，提供了应用于电子设备的语音端点检测方法、装置、电子设备及存储介质，首先对待检测语音进行分帧处理，得到多个待检测音帧，然后提取各待检测音帧的频率特征、能量特征和过零率特征，将各待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各待检测音帧的检测结果，再根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声，能量特征和过零率特征对歌曲和语音有较高的区分度，因此，同时采用频率特征、能量特征和过零率特征，不但可以对纯语音信号准确地进行检测，而且对包含音乐信号的语音也能进行很好地区分，提高了语音端点检测的准确率，相对现有技术具有更强的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音端点检测方法的流程图。

图2是根据一示例性实施例示出的一种获得各待检测音帧的检测结果的流程图。

图3是根据一示例性实施例示出的一种语音端点检测方法的流程示意图。

图4是根据一示例性实施例示出的一种获得语音检测模型的流程图。

图5是根据一示例性实施例示出的一种语音端点检测装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音端点检测方法的流程图，如图1所示，该方法应用于电子设备，可以包括以下步骤。

在步骤S11中，对待检测语音进行分帧处理，得到多个待检测音帧。

在具体实现中，可以根据预设帧长和预设帧移对待检测语音进行分帧处理，例如帧长为25ms，帧移为10ms，帧长和帧移的具体数值可以根据实际应用需求设定。

在步骤S12中，提取各待检测音帧的频率特征、能量特征和过零率特征。

其中，频率特征可以包括MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)或对数谱特征(Fbank)。由于FBank特征相关性较高，因此采用MFCC特征可以具有更好的判别度，可以更准确地进行语音检测。

能量特征可以包括低短时能量比(LowShort-TimeEnergyRatio，LSTER)，低短时能量比LSTER指一个音频片段中能量低于阈值的子帧个数占该音频片段中子帧总数的比例。在本实施例中，低短时能量比LSTER具体指的是各待检测音帧中能量低于阈值的子帧个数占各待检测音帧中子帧总数的比例。在实际应用中，低短时能量比LSTER可以采用以下公式计算：

其中，LSTER(n)表示第n帧的LSTER特征，N表示各待检测音帧的子帧数，n-lc和n+rc表示求和的范围，表示从第n-lc帧开始到n+rc帧结束的求和。sgn(x)是符号函数，表示若x值的内容若大于0，则sgn(x)值为1；若x值的内容小于0，否则为-1；否则为0。STE(n)表示第n帧的短时能量，例如可以取N＝100；rc＝50；lc＝50。

过零率特征可以包括高过零率比。过零率(ZeroCrossingRate，ZCR)是指在每帧中，语音信号通过零点(从正变为负或从负变为正)的次数，高过零率比(high zerocrossing rate ratio，HZCRR)，是对过零率ZCR的统计特征，表征过零率高于指定过零率的占比。在实际应用中，高过零率比HZCRR可以采用以下公式计算：

其中，HZCRR(n)表示第n帧的HZCRR特征，N表示各待检测音帧的子帧数，n-lc和n+rc表示求和的范围，表示从第n-lc帧开始到n+rc帧结束的求和。sgn(x)是符号函数，表示若x值的内容若大于0，则sgn(x)值为1；若x值的内容小于0，否则为-1；否则为0。ZCR(n)表示第n帧的过零率，例如可以取N＝100；rc＝50；lc＝50。

在步骤S13中，将各待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各待检测音帧的检测结果，检测结果包括语音帧和非语音帧。

在具体实现中，语音检测模型可以首先对输入的各待检测音帧的频率特征、能量特征和过零率特征进行特征融合，然后再对融合特征进行分类，得到各待检测音帧的检测结果。

语音检测模型可以通过以下方式预先训练得到，首先提取待训练音帧的频率特征、能量特征和过零率特征，将这些特征输入深度神经网络模型，根据深度神经网络模型的实际输出以及待训练音帧的类别标注(语音帧或非语音帧)，采用梯度下降法和反向传播法，对深度神经网络模型进行训练得到。后续实施例会详细介绍语音检测模型的训练过程。

在步骤S14中，根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。

在具体实现中，可以将待检测语音中第一个检测结果为语音帧的待检测音帧确定为待检测语音的起始点，将待检测语音中最后一个检测结果为语音帧的待检测音帧确定为待检测语音的结束点。

本实施例提供的语音端点检测方法，首先对待检测语音进行分帧处理，得到多个待检测音帧，然后提取各待检测音帧的频率特征、能量特征和过零率特征，将各待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各待检测音帧的检测结果，再根据各待检测音帧的检测结果，确定待检测语音的起始点和结束点。由于频率特征能够准确地区分静音和噪声，能量特征和过零率特征对歌曲和语音有较高的区分度，因此，同时采用频率特征、能量特征和过零率特征，不但可以对纯语音信号准确地进行检测，而且对包含音乐信号的语音也能进行很好地区分，提高了语音端点检测的准确率，相对现有技术具有更强的鲁棒性。

在本实施例一种可选的实现方式中，本实施例中的语音检测模型可以包括第一特征融合层和第一分类层，参照2和图3，在步骤S13中具体可以包括：

在步骤S21中，将各待检测音帧的频率特征、能量特征和过零率特征输入第一特征融合层中，得到各待检测音帧的融合特征。

在具体实现中，可以首先提取各待检测音帧的MFCC特征、LSTER特征和HZCRR特征，并把MFCC特征、LSTER特征和HZCRR特征输入第一特征融合层进行特征融合，得到各待检测音帧的融合特征。

参照图3，MFCC特征(40维)，LSTER的平方(1维，LSTER特征)和HZCRR的平方(1维，HZCRR特征)，经过一个特征融合层，得到42维融合特征，将融合特征输入到第一分类层中(如深度神经网络模型)。其中，特征融合层可以是一个线性层，也可以是一个列交换层。

本步骤的一种实现方式中，将各待检测音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各待检测音帧的拼接特征矩阵；基于预先训练得到的权重矩阵，对各待检测音帧的拼接特征矩阵进行线性映射，得到各待检测音帧的融合特征。

本实现方式中，第一特征融合层为线性层。线性层进行特征融合是首先对MFCC特征、LSTER特征和HZCRR特征进行concat(特征拼接)，得到42维拼接特征矩阵，然后再采用权重矩阵W对拼接特征矩阵进行线性映射/线性变换，得到各待检测音帧的融合特征。线性层可以表示如下：融合特征＝concat(x1，x2，x3)*W，其中concat是把x1，x2，x3的输入维度进行拼接，x1表示MFCC特征，x2表示LSTER特征，x3表示HZCRR特征，拼接后的维度变成了40+1+1＝42维。权重矩阵W可以在训练语音检测模型的过程中确定。

本步骤的另一种实现方式中，将各待检测音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各待检测音帧的拼接特征矩阵；基于预先训练得到的置换矩阵，对各待检测音帧的拼接特征矩阵所包含的列向量进行置换，得到各待检测音帧的融合特征。

本实现方式中，第一特征融合层为列交换层。列交换层进行特征融合是首先对MFCC特征、LSTER特征和HZCRR特征进行concat(特征拼接)，得到42维拼接特征矩阵，然后采用置换矩阵V对拼接特征矩阵中的42个列向量进行置换，得到各待检测音帧的融合特征。线性层可以表示如下：融合特征＝concat(x1，x2，x3)*V，其中，置换矩阵V可以在训练语音检测模型的过程中确定。

在步骤S22中，将各待检测音帧的融合特征输入第一分类层中，获得各待检测音帧的检测结果。

参照图3，第一分类层可以是一个TDNN+LSTM模型，输入是42维的融合特征，输出层是2个节点，softmax做为激活，采用交叉熵作为损失函数，每一待检测音帧都输出一个检测结果(语音帧或非语音帧)。

本实施例融合了MFCC、LSTER和HZCRR特征，提升了语音端点检测的准确率，同时以深度神经网络TDNN+LSTM作为模型，使本方案具有更好的区分能力和更强的鲁棒性。

在本实施例一种可选的实现方式中，在步骤S13之前，本实施例提供的语音端点检测方法还可以包括：获取语音检测模型的步骤，参照图4，获取语音检测模型的步骤具体可以包括：

在步骤S41中，获取样本集合，样本集合中包括多个待训练音帧以及各待训练音帧的类别标注，类别标注为语音帧或非语音帧。

在具体实现中，可以采集多条语音，并对语音进行分帧处理，得到多个待训练音帧，然后对每个待训练音帧进行类别标注(语音帧或非语音帧)，从而获取样本集合。

在步骤S42中，提取各待训练音帧的频率特征、能量特征和过零率特征。

其中，频率特征可以包括各待训练音帧的MFCC特征或Fbank特征，能量特征可以包括待训练音帧的低短时能量比LSTER，过零率特征可以包括待训练音帧的高过零率比HZCRR。对于待训练音帧进行特征提取的过程，与上述步骤S12相同或相似，此处不再赘述。

在步骤S43中，将各待训练音帧的频率特征、能量特征和过零率特征作为网络模型的输入，根据网络模型的输出结果以及各待训练音帧的类别标注，对网络模型进行训练，将训练后的网络模型确定为语音检测模型。

在具体实现中，网络模型可以包括第二特征融合层和第二分类层，将各待训练音帧的频率特征(如MFCC特征)、能量特征(如LSTER特征)和过零率特征(如HZCRR特征)输入第二特征融合层中，得到各待训练音帧的融合特征；将各待训练音帧的融合特征作为第二分类层的输入，将第二分类层的输出结果与各待训练音帧的类别标注进行对比，根据对比结果对网络模型的参数进行调整，将训练后的网络模型确定为语音检测模型。

在模型训练的过程中，各待训练音帧逐个输入到网络模型中，对于每次输入的待训练音帧，可以得到网络模型的实际输出，可以基于实际输出和实际输入的待训练音帧的类别标签，来调整网络模型的参数。

在一种可选的实现方式中，在步骤S43中具体可以包括：

将各待训练音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各待训练音帧的拼接特征矩阵；基于初始化的权重矩阵，对各待训练音帧的拼接特征矩阵进行线性映射，得到各待训练音帧的融合特征；将各待训练音帧的融合特征作为第二分类层的输入，将第二分类层的输出结果与各待训练音帧的类别标注进行对比，根据对比结果对初始化的权重矩阵进行优化，对第二分类层中的参数进行调整，将训练后的网络模型确定为语音检测模型，其中，第二分类层包括时延神经网络和长短期记忆网络。

本实现方式中，第二特征融合层为线性层。线性层进行特征融合是首先对待训练音帧的MFCC特征(40维)、LSTER特征(1维)和HZCRR特征(1维)进行concat(特征拼接)，得到待训练音帧的拼接特征矩阵(42维)，然后再采用初始化的权重矩阵W0对拼接特征矩阵进行线性映射/线性变换，得到待训练音帧的融合特征。将融合特征输入第二分类层中，得到实际输出，将实际输出与待训练音帧的类别标注进行对比，采用梯度下降法和反向传播法，对初始化的权重矩阵WO进行优化，对第二分类层中的参数进行调整，将完成优化的权重矩阵确定为语音检测模型中的权重矩阵W，将训练后的第二特征融合层和第二分类层确定为语音检测模型。其中，第二分类层可以采用时延神经网络TDNN+长短期记忆网络LSTM，通常可以用3层TDNN模型+1层LSTM模型。

在另一种可选的实现方式中，在步骤S43中具体可以包括：

将各待训练音帧的频率特征、能量特征和过零率特征进行特征拼接，得到各待训练音帧的拼接特征矩阵；基于初始化的置换矩阵，对各待训练音帧的拼接特征矩阵所包含的列向量进行置换，得到各待训练音帧的融合特征；将各待训练音帧的融合特征作为第二分类层的输入，将第二分类层的输出结果与各待训练音帧的类别标注进行对比，根据对比结果对初始化的置换矩阵进行优化，对第二分类层中的参数进行调整，将训练后的网络模型确定为语音检测模型，其中，第二分类层包括时延神经网络和长短期记忆网络。

本实现方式中，第二特征融合层为列交换层。列交换层进行特征融合是首先对待训练音帧的MFCC特征(40维)、LSTER特征(1维)和HZCRR特征(1维)进行concat(特征拼接)，得到待训练音帧的拼接特征矩阵(42维)，然后采用初始化的置换矩阵V0对拼接特征矩阵中的42个列向量进行置换，得到待训练音帧的融合特征。将融合特征输入第二分类层中，得到实际输出，将实际输出与待训练音帧的类别标注进行对比，采用梯度下降法和反向传播法，对初始化的置换矩阵V0进行优化，对第二分类层中的参数进行调整，将完成优化的置换矩阵确定为语音检测模型中的置换矩阵V，将训练后的第二特征融合层和第二分类层确定为语音检测模型。其中，第二分类层可以采用时延神经网络TDNN+长短期记忆网络LSTM，通常可以用3层TDNN模型+1层LSTM模型。

本实施例提供的语音端点检测方法，采用深度神经网络作为语音检测模型，与现有的语音检测技术相比，具有更好的区分能力和更强的鲁棒性；进一步地，通过融合MFCC特征、LSTER特征和HZCRR特征，提升了语音端点检测VAD的准确率。

图5是根据一示例性实施例示出的一种语音端点检测装置框图。参照图5，该装置应用于电子设备，可以包括：

抽帧模块51，被配置为对待检测语音进行分帧处理，得到多个待检测音帧；

第一提取模块52，被配置为提取各所述待检测音帧的频率特征、能量特征和过零率特征；

检测模块53，被配置为将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果，所述检测结果包括语音帧和非语音帧；

确定模块54，被配置为根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点。

在一种可选的实现方式中，所述确定模块具体被配置为：

在一种可选的实现方式中，所述装置还包括：

所述训练单元具体被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是本公开示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成任一实施例所述的语音端点检测方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行任一实施例所述的语音端点检测方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成任一实施例所述的语音端点检测方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由装置800的处理器820执行以完成任一实施例所述的语音端点检测方法。可选地，该程序代码可以存储在装置800的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7是本公开示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。

参照图7，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行任一实施例所述的语音端点检测方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

A1、一种语音端点检测方法，所述方法包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

A2、根据A1所述的方法，所述频率特征包括梅尔频率倒谱系数或对数谱特征，所述能量特征包括低短时能量比，所述过零率特征包括高过零率比。

A3、根据A1所述的方法，所述语音检测模型包括第一特征融合层和第一分类层，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤，包括：

A4、根据A3所述的方法，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

A5、根据A3所述的方法，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

A6、根据A1所述的方法，所述根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点的步骤，包括：

A7、根据A1至A6任一项所述的方法，在所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤之前，还包括：

A8、根据A7所述的方法，所述网络模型包括第二特征融合层和第二分类层，所述将各所述待训练音帧的频率特征、能量特征和过零率特征作为网络模型的输入，根据所述网络模型的输出结果以及各所述待训练音帧的类别标注，对所述网络模型进行训练，将训练后的网络模型确定为所述语音检测模型的步骤，包括：

A9、根据A8所述的方法，所述将各所述待训练音帧的频率特征、能量特征和过零率特征输入所述第二特征融合层中，得到各所述待训练音帧的融合特征的步骤，包括：

A10、根据A8所述的方法，所述将各所述待训练音帧的频率特征、能量特征和过零率特征输入所述第二特征融合层中，得到各所述待训练音帧的融合特征的步骤，包括：

A11、一种语音端点检测装置，所述装置包括：

A12、根据A11所述的装置，所述频率特征包括梅尔频率倒谱系数或对数谱特征，所述能量特征包括低短时能量比，所述过零率特征包括高过零率比。

A13、根据A11所述的装置，所述语音检测模型包括第一特征融合层和第一分类层，所述检测模块包括：

A14、根据A13所述的装置，所述第一融合单元具体被配置为：

A15、根据A13所述的装置，所述第一融合单元具体被配置为：

A16、根据A11所述的装置，所述确定模块具体被配置为：

A17、根据A11至A16任一项所述的装置，所述装置还包括：

A18、根据A17所述的装置，所述网络模型包括第二特征融合层和第二分类层，所述训练模块包括：

A19、根据A18所述的装置，所述第二融合单元具体被配置为：

所述训练单元具体被配置为：

A20、根据A18所述的装置，所述第二融合单元具体被配置为：

所述训练单元具体被配置为：

Claims

1.一种语音端点检测方法，其特征在于，所述方法包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

2.根据权利要求1所述的方法，其特征在于，所述频率特征包括梅尔频率倒谱系数或对数谱特征，所述能量特征包括低短时能量比，所述过零率特征包括高过零率比。

3.根据权利要求1所述的方法，其特征在于，所述语音检测模型包括第一特征融合层和第一分类层，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

5.根据权利要求3所述的方法，其特征在于，所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入所述第一特征融合层中，得到各所述待检测音帧的融合特征的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各所述待检测音帧的检测结果，确定所述待检测语音的起始点和结束点的步骤，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，在所述将各所述待检测音帧的频率特征、能量特征和过零率特征输入预先训练得到的语音检测模型中，获得各所述待检测音帧的检测结果的步骤之前，还包括：

8.一种语音端点检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的语音端点检测方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的语音端点检测方法。