CN109036471B

CN109036471B - 语音端点检测方法及设备

Info

Publication number: CN109036471B
Application number: CN201810948464.3A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2020-06-30
Anticipated expiration: 2038-08-20
Also published as: CN109036471A

Abstract

本发明实施例提供一种语音端点检测方法及设备，该方法通过对待检测语音进行分帧处理，得到多个待检测音帧，获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率，使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类，进而根据所述VAD模型的输出结果确定语音段的起点和终点，能够提高语音端点检测的准确率。

Description

语音端点检测方法及设备

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音端点检测方法及设备。

背景技术

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(voiceactivity detection，VAD)。语音端点检测是指在连续音频信号中找出语音段的起始点和终止点。

在现有技术中，可以通过VAD技术来确定一段音频信号中语音段的起点和终点。在具体实现时，对音频信号进行分帧处理，基于传统的信号处理方法提取每个音帧的能量和过零率等特征，然后根据人为制定的一些规则，判读每个音帧为语音帧或者噪音帧，最后，将连续多个语音帧中的首个语音帧作为语音段的起点，将最后一个语音帧作为语音段的终点。

然而，现有的端点检测技术存在不准确的问题，检测准确度较低。

发明内容

本发明实施例提供一种语音端点检测方法及设备，以提高语音端点的准确度。

第一方面，本发明实施例提供一种语音端点检测方法，包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率；

根据所述VAD模型的输出结果确定语音段的起点和终点。

可选的，所述根据所述VAD模型的输出结果确定语音段的起点和终点，包括：

根据所述VAD模型的输出结果，确定各所述待检测音帧为语音帧或者噪音帧；

将第一个被分类为语音帧的音帧确定为语音段的起点，将最后一个被分类为语音帧的音帧确定为语音段的终点。

可选的，所述VAD模型用于输出各所述待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态。

可选的，所述根据所述VAD模型的输出结果，确定各所述待检测音帧为语音帧或者噪音帧，包括：

根据所述VAD模型的输出结果，获取各所述待检测音帧被分类为语音帧的概率以及噪音帧的概率；其中，所述待检测音帧被分类为语音帧的概率为所述待检测音帧被分类为如下状态的概率之和：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态；所述待检测音帧被分类为噪音帧的概率为所述待检测音帧被分类为如下状态的概率之和：噪音的起始状态、噪音的持续状态、噪音的结束状态；

根据各所述待检测音帧被分类为语音帧的概率以及噪音帧的概率，确定各所述待检测音帧为语音帧或者噪音帧。

可选的，所述将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型之前，还包括：

对待训练的语音进行分帧处理，得到多个待训练音帧；

获取各所述待训练音帧的声学特征以及各所述待训练音帧的声学特征对应的标签；所述标签用于指示待训练音帧的分类结果为声母、韵母或噪音；

根据各所述待训练音帧的声学特征以及各所述待训练音帧的声学特征对应的标签，对待训练的VAD模型进行训练，得到所述VAD模型。

可选的，所述获取各所述待训练音帧的声学特征对应的标签，包括：

将各所述待训练音帧的声学特征依次输入到已训练好的音素模型，所述音素模型用于输出各所述待训练音帧的声学特征对应的音素的状态，其中，所述音素为下述中的一种：M个声母分别对应的音素、N个韵母分别对应的音素、噪音对应的音素；所述状态为下述中的一种：起始状态、持续状态、结束状态；

根据所述音素模型的输出结果，确定各所述待训练音帧的声学特征对应的标签。

可选的，所述根据所述音素模型的输出结果，确定各所述待训练音帧的声学特征对应的标签，包括：

获取映射关系，所述映射关系用于将至少一个音素的状态映射一个标签；

根据所述映射关系，对所述音素模型输出的各所述待训练音帧的声学特征对应的音素的状态进行映射，得到各所述待训练音帧的声学特征对应的标签。

可选的，所述音素模型为高斯混合隐马尔可夫模型GMM-HMM模型。

可选的，所述VAD模型为深度神经网络模型。

第二方面，本发明实施例提供一种语音端点检测设备，包括：

分帧模块，用于对待检测语音进行分帧处理，得到多个待检测音帧；

检测模块，用于获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率；

确定模块，用于根据所述VAD模型的输出结果确定语音段的起点和终点。

可选的，所述确定模块具体用于：

可选的，还包括：训练模块，用于将将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型之前，

对待训练的语音进行分帧处理，得到多个待训练音帧；

可选的，所述训练模块具体用于：

可选的，所述VAD模型为深度神经网络模型。

第三方面，本发明实施例提供一种语音端点检测设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的语音端点检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的语音端点检测方法。

本发明实施例提供的语音端点检测方法及设备，该方法通过对待检测语音进行分帧处理，得到多个待检测音帧，获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率，使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类，进而根据所述VAD模型的输出结果确定语音段的起点和终点，能够提高语音端点检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别系统的语音识别原理示意图；

图2为本发明实施例提供的VAD模型获取流程图；

图3为本发明实施例提供的声学特征的示意图；

图4A为本发明实施例提供的获取各待训练音帧的标签的流程示意图一；

图4B为本发明实施例提供的获取各待训练音帧的标签的流程示意图二；

图5为本发明实施例提供的声学特征对应的标签的示意图；

图6为本发明实施例提供的语音端点检测方法的流程示意图一；

图7为本发明实施例提供的语音端点检测方法的流程示意图二；

图8为本发明实施例提供的语音端点检测设备的结构示意图一；

图9为本发明实施例提供的语音端点检测设备的结构示意图二；

图10为本发明实施例提供的语音端点检测设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的语音识别系统的语音识别原理示意图。语音识别(Automatic Speech Recognition，ASR)所要解决的问题是让计算机能够"听懂"人类的语音，将语音转化成文本。如图1所示，该语音识别系统的识别过程包括前端处理过程和后端处理过程。其中，前端可以为能够与用户进行语音交互的各种智能终端，例如智能手机、智能音箱、智能电视、智能冰箱等，本实施例对智能终端的实现方式不做特别限制。后端可以为能够进行数据逻辑处理的服务器，本领域技术人员可以理解，该后端也可以为智能终端的处理器。预先训练好声学模型和语言模型可以存储到后端。其中，声学模型对应于语音到音节概率的计算，语音模型对应于音节到字概率的计算。

在具体实现过程中，前端在接收到语音之后，对接收到的语音进行分帧处理，然后进行端点检测，在检测到语音段的起点后，对起点之后的语音帧进行降噪处理，然后进行特征提取直至检测到语音段的终点，根据提取到的声学特征、声学模型、语音模型进行解码，得到识别结果。在一种可能的实现方式中，解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中，基于最大后验概率，选择一条或多条最优路径作为识别结果(最优的输出字符序列)。

由此可见，在此过程中端点检测尤其重要，决定了语音识别系统的输入。然而现有技术中在进行语音端点检测时，由于语音段之前的噪音段被分类成语音，存在起点检测不准确的情况，同时在用户说话声越来越小或停顿时，存在终点检测不准确的情况等等，因此端点检测的准确度不够高。基于此，本发明实施例提供一种语音端点检测方法，以提高语音端点检测的准确度。

在本发明实施例中，通过语音活动性检测(voice activity detection，VAD)模型来进行语音端点检测。本发明实施例通过将待检测音帧的声学特征输入到已训练好的VAD模型中，VAD模型输出该待检测语音帧的声学特征被分类为声母、韵母和噪音的概率，根据VAD模型的输出结果确定语音段的起点和终点，来提高语音端点检测的准确度。本发明实施例中，给出了对VAD模型进行训练的一种可能的实现方式，对待训练的音帧进行精确的标签设置，以提高语音端点检测的准确度。下面分别从训练模型和使用模型两个方面分别进行详细说明。

图2为本发明实施例提供的VAD模型获取流程图。如图2所示，该方法包括：

S201：对待训练的语音进行分帧处理，得到多个待训练音帧。

在具体实现过程中，可以采集用户的多条语音作为待训练语音，例如采集1万条语音，每条大约几秒钟。针对每个待训练语音，对每个待训练语音进行分帧处理，得到多个待训练的音帧。

具体地，可以根据预设帧长和预设帧移来进行分帧处理，例如帧长为25ms，帧移为10ms。由此，每帧之间在时序上存在部分重叠。本领域技术人员可以理解，此处的帧长和帧移仅为示例性的，本实施例此处不做特别限制。

S202：获取各所述待训练音帧的声学特征以及各所述待训练音帧的声学特征对应的标签；所述标签用于指示待训练音帧的分类结果为声母、韵母或噪音。

在得到分帧结果后，提取每个音帧的声学特征。其中，该声学特征可以为梅尔滤波64维的特征，该声学特征还可以为梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)特征，还可以为感知线性预测(Perceptual Linear Predict ive，PLP)特征等，本实施例对声学特征的类型不做特别限制。

在得到每个音帧的声学特征后，根据每个音帧的声学特征，识别该音帧为声母、韵母或者噪音。对于识别音帧的方式，可以采用人工识别或者语音识别中的机器强制对齐方法等，本实施例对识别音帧为声母、韵母或者噪音的方式不作特别限制。

在获知每个音帧为声母、韵母或者噪音后之后，确定待训练的音帧的声学特征对应的标签。其中，该标签用于指示待训练的音帧的分类结果，即该音帧被分类为声母、韵母还是噪音。

由此，针对每条语音，训练的数据是由若干个{x，y}对组成。X是特征，y是标签(label)。

S203：根据各所述待训练音帧的声学特征以及各所述待训练音帧的声学特征对应的标签，对待训练的VAD模型进行训练，得到所述VAD模型。

在得到待训练音帧的声学特征以及待训练音帧对应的标签后，对待训练的VAD模型进行训练，得到训练后的VAD模型。

在本实施例中，该VAD模型为深度神经网络模型，该深度神经网络模型例如可以是循环神经网络(Recurrent Neural Networks，RNN)。具体地，例如可以采用长短期记忆网络(longshort-termmemory，LSTM)模型，或者选通重复单元(Gated Recurrent Unit，GRU)模型，其中，GRU模型为LSTM模型的一种变体。针对GRU模型，网络有多层RNN堆砌而成，最后的输出层是2个节点，softmax做为激活，采用交叉熵作为代价函数。每一帧都有分类结果。

本实施例通过训练获取的VAD模型，该VAD模型的训练充分考虑了每个音帧的声学特征以及该音帧的标签(即声母、韵母或者噪音)之间的映射关系，通过深度学习算法，学习上述声学特征与标签之间的映射关系，从而可以训练得到具有较高精度的VAD模型，能够提高语音端点检测的准确度。

下面采用一个具体的实施方式，来说明如何获取每个待训练音帧的标签。

图3为本发明实施例提供的声学特征的示意图。如图3所示，待训练语音经过分帧处理后，得到550帧音帧。横轴代表音帧的顺序，纵轴代表声学特征X。针对该声学特征X，采用人工标注或者语音识别中的机器强制对齐的方法，来获取每个音帧对应的标签。下面给出一种可选的获取各待训练音帧的标签的方法。

图4A为本发明实施例提供的获取各待训练音帧的标签的流程示意图一，图4B为本发明实施例提供的获取各待训练音帧的标签的流程示意图二。如图4A和4B所示，该方法包括：

S401：将各所述待训练音帧的声学特征依次输入到已训练好的音素模型，所述音素模型用于输出各所述待训练音帧的声学特征对应的音素的状态。

其中，所述音素为下述中的一种：M个声母分别对应的音素、N个韵母分别对应的音素、噪音对应的音素；所述状态为下述中的一种：起始状态、持续状态、结束状态。

需要说明的是，本实施例对于N和M的取值并不做具体限定。

具体的，汉语中的音素包括：23个声母和24个韵母，因此，可以针对23个声母和24个韵母分别进行音素建模。为了更好识别语音端点，本实施例中还可以将噪音作为一个音素单独建模，即共包括48个音素(23个声母、24个韵母、噪音)。

可选的，针对上述48个音素，建立高斯混合隐马尔可夫模型(Gaussian MixedModel And Hidden Markov Model，GMM-HMM)模型，得到所述音素模型，其中，对于音素模型的建立过程，可以采用现有的建模方法，本实施例不作具体描述。

其中，每个音素可以包括3个状态，分别为音素的起始状态、音素的持续状态和音素的结束状态，因此，48个音素共包括144个状态。

具体实现中，将每个待训练音帧的声学特征依次输入到上述已训练好的音素模型中，该音素模型的输出结果指示的是该音帧的声学特征对应哪个音素的哪个状态，即，音素模型的输出结果将对应上述的144个状态中的一个状态。

S402：根据所述音素模型的输出结果，确定各所述待训练音帧的声学特征对应的标签。

获取到所述音素模型对于各待训练音帧的输出结果后，可以根据输出结果所指示的音素的状态，确定出各待训练音帧的声学特征对应的标签。一种可选的实施方式中，如图4B所示，S402还可以进一步包括：

S4021：获取映射关系，所述映射关系用于将至少一个音素的状态映射一个标签。

S4022：根据所述映射关系，对所述音素模型输出的各所述待训练音帧的声学特征对应的音素的状态进行映射，得到各所述待训练音帧的声学特征对应的标签。

需要说明的是，本实施例对于上述映射关系，并不作具体限定，可以根据实际情况制定多种映射关系，只要所述映射关系用于将至少一个音素的状态映射一个标签即可。

一种可选的实施方式中，所述映射关系用于将一个音素的状态映射到一个标签，也就是说，音素的状态和标签之间是一一对应的关系，这样，得到的标签的数量与所述音素的状态的数量相同。

根据音素模型的输出结果，可以直接将各待训练音帧的声学特征对应的音素的状态作为各自的标签。例如：若音素模型输出的某个待训练音帧对应的音素的状态为1，则该待训练音帧对应的标签为1，若音素模型输出的某个待训练音帧对应的音素的状态为2，则该待训练音帧对应的标签为2。

该实施方式中，48个音素共包括144个状态，使得训练数据中共有144个标签，从而训练得到的VAD模型中会有144个输出节点。由于输出节点结果，可能不利于训练过程。因此，可以采用下述的另一种实施方式。

另一种可选的实施方式中，所述映射关系用于将至少两个音素的状态映射到一个标签，也就是说，音素的状态和标签之间是多对一的关系，这样，得到的标签的数量要小于所述音素的状态的数量。

表1各因素的状态与标签之间的映射关系

各音素的状态	标签
		噪音的起始状态	0
噪音的持续状态	1
		噪音的结束状态	2
第一个声母的起始状态	3
		第一个声母的持续状态	4
第一个声母的结束状态	5
		第二个声母的起始状态	3
第二个声母的持续状态	4
		第二个声母的结束状态	5
…	…
		第M个声母的起始状态	3
第M个声母的持续状态	4
		第M个声母的结束状态	5
第一个韵母的起始状态	6
		第一个韵母的持续状态	7
第一个韵母的结束状态	8
		第二个韵母的起始状态	6
第二个韵母的持续状态	7
		第二个韵母的结束状态	8
…	…
		第N个韵母的起始状态	6
第N个韵母的持续状态	7
		第N个韵母的结束状态	8

表1示例了其中一种可选的映射关系，如表1所示，将静音的起始状态映射到标签0，将静音的持续状态映射到标签1，将静音的结束状态映射到标签2；将所有声母的起始状态映射到标签3，将所有声母的持续状态映射到标签4，将所有声母的结束状态映射到标签5；将所有韵母的起始状态映射到标签6，将所有韵母的持续状态映射到标签7，将所有韵母的结束状态映射到标签8。

该实施方式中，经过表1所示的映射关系，48个音素的144个状态映射到了标签0至标签8，也就是说，训练得到的VAD模型中会有9个输出节点，减少了输出节点的数量，有利于VAD模型的训练过程。

图5为本发明实施例提供的声学特征对应的标签的示意图。将图3所示的550个待训练音帧对应的声学特征输入到音素模型中，得到输出结果，并根据表1所示的映射关系对输出结果进行标签映射，得到的各待训练音帧的标签如图5所示。

下面采用具体的实施例来说明本发明实施例通过该VAD模型来进行语音端点检测的方法。

图6为本发明实施例提供的语音端点检测方法的流程示意图一。如图6所示，本实施的方法，包括：

S601：对待检测语音进行分帧处理，得到多个待检测音帧。

其中，对于待检测语音进行分帧处理的过程，与上述S201类似，本实施例此处不做特别赘述。

S602：获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率。

在得到待检测的音帧之后，提取各所述待检测音帧的声学特征，然后将该待检测音帧的声学特征依次输入至上述实施例法训练好的VAD模型中。

该VAD模型针对每个声学特征都会输出一个分类结果，该分类结果用于指示所述声学特征被分类为声母、韵母和噪音的概率。例如：将某个待检测音帧的声学特征输入到VAD模型中，VAD模型可以输出该待检测音帧为声母的概率为0.7，为韵母的概率为0.1，为噪音的概率为0.2。

S603：根据所述VAD模型的输出结果确定语音段的起点和终点。

获取VAD模型针对每个待检测音帧的输出结果后，可以根据该输出结果确定各所述待检测音帧分别为语音帧或者噪音帧。具体的，可以将每个待检测音帧对应的声母概率和韵母概率相加，作为该待检测音帧为语音帧的概率，例如：上面的举例中，该待检测音帧为语音帧的概率为0.8(0.7+0.1＝0.8)，该待检测音帧为噪音帧的概率为0.2。进而根据该待检测音帧为语音帧的概率和为噪音帧的概率，可以确定出该待检测音帧为语音帧或者噪音帧。

经过上述过程，确定出各所述待检测音帧为语音帧或者噪音帧之后，可以进一步确定出语音段的起点和终点。假设经过上述判断过程后，第1帧至第10帧被确定为噪音帧，第11帧至第30帧被确定为语音帧，第30帧至第35帧被确定为噪音帧，则说明第11帧为语音段的起点，第30帧为语音段的终点。

本发明实施例提供的语音端点检测方法，通过对待检测语音进行分帧处理，得到多个待检测音帧，获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率，使得该VAD模型可以准确的对各待检测音帧的声学特征进行分类，进而根据所述VAD模型的输出结果确定语音段的起点和终点，能够提高语音端点检测的准确率。

图7为本发明实施例提供的语音端点检测方法的流程示意图二。如图7所示，本实施例的方法，可以包括：

S701：对待检测语音进行分帧处理，得到多个待检测音帧。

S702：获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态。

其中，S701与S702与图6实施例中的S601和S602类似，本实施例此处不再赘述。

与图6所示实施例不同的是，本实施例中的VAD模型可以输出各待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态。也就是说，本实施例中的VAD模型包括9个输出节点，可以精确分类声母、韵母和噪音的各三个状态。

S703：根据所述VAD模型的输出结果，确定各所述待检测音帧语音帧或者噪音帧。

具体的，由于VAD模型的输出结果中指示了各待检测音帧被分类为上述9个状态的概率，因此，可以根据所述VAD模型的输出结果，获取各所述待检测音帧被分类为语音帧的概率以及噪音帧的概率。

其中，所述待检测音帧被分类为语音帧的概率为所述待检测音帧被分类为如下状态的概率之和：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态。也就是说，将上述9个状态中，声母的三个状态以及韵母的三个状态的概率相加，得到待检测音帧被分类为语音帧的概率。

所述待检测音帧被分类为噪音帧的概率为所述待检测音帧被分类为如下状态的概率之和：噪音的起始状态、噪音的持续状态、噪音的结束状态。也就是说，将上述9个状态中，噪音的三个状态的概率相加，得到待检测音帧被分类为噪音帧的概率。

根据各所述待检测音帧被分类为语音帧的概率以及噪音帧的概率，确定各所述待检测音帧为语音帧或者噪音帧。一种可选的实施方式中，若某个待检测音帧被分类为语音帧的概率大于噪音帧的概率，则将该待检测音帧确定为语音帧，否则，确定为噪音帧。另一种可选的实施方式中，若某个待检测音帧被分类为语音帧的概率大于某个预设的值，则将该待检测音帧确定为语音帧，否则，确定为噪音帧。需要说明的是，上述两种实施方式仅为两种可选的实施方式，本实施例并不以此为限。

S704：将第一个被分类为语音帧的音帧确定为语音段的起点，将最后一个被分类为语音帧的音帧确定为语音段的终点。

可以理解的，经过上述分类过程，已经可以准确将各待检测音帧分类为语音帧或者噪音帧。因此，可以将第一个被分类为语音帧的音帧确定为语音段的起点，将最后一个被分类为语音帧的音帧确定为语音段的终点。

本实施例中，通过将各待检测音帧的声学特征输入到VAD模型中，VAD模型可以输出各待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态，使得VAD模型对各待检测音帧的声学特征的分类结果更加准确，进而根据VAD模型的输出结果，确定的语音段的起点和终点更加准确，进一步提高了语音端点检测的准确率。

图8为本发明实施例提供的语音端点检测设备的结构示意图一。如图8所示，该语音端点检测设备800包括：分帧模块801、检测模块802以及确定模块803。

分帧模块801，用于对待检测语音进行分帧处理，得到多个待检测音帧。

检测模块802，用于获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为声母、韵母和噪音的概率。

确定模块803，用于根据所述VAD模型的输出结果确定语音段的起点和终点。

本发明实施例提供的语音端点检测装置，可用于执行上述如图6所示的方法实施例的语音端点检测方法，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例提供的语音端点检测设备的结构示意图二。如图9所示，该语音端点检测设备800还包括：训练模块804。

可选的，确定模块803具体用于：

可选的，所述确定模块803具体用于：

可选的，训练模块804，用于将将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型之前，

对待训练的语音进行分帧处理，得到多个待训练音帧；

可选的，所述训练模块804具体用于：

可选的，所述VAD模型为深度神经网络模型。

本发明实施例提供的语音端点检测装置，可用于执行上述任一方法实施例的语音端点检测方法，其实现原理和技术效果类似，此处不再赘述。

图10为本发明实施例提供的语音端点检测设备的硬件结构示意图。如图10所示，本实施例提供的语音端点检测设备1000包括：至少一个处理器1001和存储器1002。该语音端点检测设备100还包括通信部件1003。其中，处理器1001、存储器1002以及通信部件1003通过总线1004连接。

在具体实现过程中，至少一个处理器1001执行所述存储器1002存储的计算机执行指令，使得至少一个处理器1001执行如上语音端点检测设备1000所执行的语音端点检测方法。

当本实施例的后端由服务器执行时，该通信部件1003可以将语音帧发送给服务器。

处理器1001的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图10所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上语音端点检测设备执行的语音端点检测方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音端点检测方法，其特征在于，包括：

对待检测语音进行分帧处理，得到多个待检测音帧；

获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态；

将第一个被分类为语音帧的音帧确定为语音段的起点，将最后一个被分类为语音帧的音帧确定为语音段的终点；

所述根据所述VAD模型的输出结果，确定各所述待检测音帧为语音帧或者噪音帧，包括：

2.根据权利要求1所述的方法，其特征在于，所述将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型之前，还包括：

对待训练的语音进行分帧处理，得到多个待训练音帧；

3.根据权利要求2所述的方法，其特征在于，所述获取各所述待训练音帧的声学特征对应的标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述音素模型的输出结果，确定各所述待训练音帧的声学特征对应的标签，包括：

5.根据权利要求4所述的方法，其特征在于，所述音素模型为高斯混合隐马尔可夫模型GMM-HMM模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述VAD模型为深度神经网络模型。

7.一种语音端点检测设备，其特征在于，包括：

检测模块，用于获取各所述待检测音帧的声学特征，并将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型；所述VAD模型用于输出各所述待检测音帧被分类为如下各状态的概率：声母的起始状态、声母的持续状态、声母的结束状态、韵母的起始状态、韵母的持续状态、韵母的结束状态、噪音的起始状态、噪音的持续状态、噪音的结束状态；

确定模块，用于根据所述VAD模型的输出结果，确定各所述待检测音帧为语音帧或者噪音帧；将第一个被分类为语音帧的音帧确定为语音段的起点，将最后一个被分类为语音帧的音帧确定为语音段的终点；

所述确定模块具体用于：

8.根据权利要求7所述的设备，其特征在于，还包括：训练模块，用于将将各所述待检测音帧的声学特征依次输入至语音活动性检测VAD模型之前，

对待训练的语音进行分帧处理，得到多个待训练音帧；

9.根据权利要求8所述的设备，其特征在于，所述训练模块具体用于：

10.根据权利要求9所述的设备，其特征在于，所述训练模块具体用于：

11.根据权利要求10所述的设备，其特征在于，所述音素模型为高斯混合隐马尔可夫模型GMM-HMM模型。

12.根据权利要求7-11任一项所述的设备，其特征在于，所述VAD模型为深度神经网络模型。

13.一种语音端点检测设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的语音端点检测方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的语音端点检测方法。