CN108766418A

CN108766418A - 语音端点识别方法、装置及设备

Info

Publication number: CN108766418A
Application number: CN201810509977.4A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-11-06
Anticipated expiration: 2038-05-24
Also published as: JP6800946B2; US10847179B2; JP2019204073A; CN108766418B; US20190362741A1

Abstract

本发明提供一种语音端点识别方法、装置及设备。本发明的方法，通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型，根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，可以在保证对起点帧识别的准确性尽可能高的同时，不影响终点帧识别的延迟时间；根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，可以在保证对终点帧识别延迟尽可能短的同时，不影响起点帧识别的准确性，从而可以在提高起点帧识别的准确性的同时，缩短终点帧识别的延迟时间。

Description

语音端点识别方法、装置及设备

技术领域

本发明涉及语音识别领域，尤其涉及一种语音端点识别方法、装置及设备。

背景技术

随着语音搜索业务的不断普及，越来越多的人开始使用自己的语音作为交互的手段。用户通过移动终端将输入的音频上传到服务器，服务器根据该音频进行语音识别。在语音交互中,准确地识别出语音的起点和终点是语音识别的重要部分。

现有技术中采用语音活性检测(Voice Activity Detector,简称VAD)模型来判断语音的起点和终点。在语音识别中，要求对语音起点检测的准确度尽可能高，语音终点的延迟尽可能短。现有的VAD模型通过对起点和终点采用完全相同的处理模型进行识别，要么对起点的识别不准确，出现起点的误检和漏检，导致系统性能下降；要么对终点识别延迟时间太长，导致响应用户的延迟过长。

发明内容

本发明提供一种语音端点识别方法、装置及设备，用以解决现有的VAD模型通过对起点和终点采用完全相同的处理模型进行识别，要么对起点的识别不准确，出现起点的误检和漏检，导致系统性能下降；要么对终点识别延迟时间太长，导致响应用户的延迟过长的问题。

本发明的一个方面是提供一种语音端点识别方法，包括：

提取待检测音频的各音频帧的声学特征；

根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，所述起点识别模型是用起点训练集对神经网络训练得到的；

根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，所述终点识别模型是用终点训练集对神经网络训练得到的。

本发明的另一个方面是提供一种语音端点识别装置，包括：

特征提取模块，用于提取待检测音频的各音频帧的声学特征；

起点识别模块，用于根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，所述起点识别模型是用起点训练集对神经网络训练得到的；

终点识别模块，用于根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，所述终点识别模型是用终点训练集对神经网络训练得到的。

本发明的另一个方面是提供一种计算机设备，包括：

存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，

所述处理器运行所述计算机程序时实现上述所述的语音端点识别方法。

本发明的另一个方面是提供一种计算机可读存储介质，存储有计算机程序，

所述计算机程序被处理器执行时实现上述所述的语音端点识别方法。

本发明提供的语音端点识别方法、装置及设备，通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型，根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，可以在保证对起点帧识别的准确性尽可能高的同时，不影响终点帧识别的延迟时间；根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，可以在保证对终点帧识别延迟尽可能短的同时，不影响起点帧识别的准确性，从而可以在提高起点帧识别的准确性的同时，缩短终点帧识别的延迟时间。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例一提供的语音端点识别方法流程图；

图2为本发明实施例二提供的语音端点识别方法流程图；

图3为本发明实施例三提供的确定起点训练集的流程图；

图4为本发明实施例三提供的确定终点训练集的流程图；

图5为本发明实施例四提供的语音端点识别装置的结构示意图；

图6为本发明实施例六提供的语音端点识别装置的结构示意图；

图7为本发明实施例七提供的计算机设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

首先对本发明所涉及的名词进行解释：

语音活性检测(Voice Activity Detector,简称VAD)：又称语音活动检测、语音端点检测、语音边界检测，是一种从音频信号流里识别和消除长时间的静音段的技术。

后验概率(A Posteriori Probability)：是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。

先验概率(A Priori Probability)：是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。先验概率是通过古典概率模型加以定义的，故又称为古典概率。

声学特征的提取：是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的语音端点识别方法流程图。本发明实施例针对现有的VAD模型通过对起点和终点采用完全相同的处理模型进行识别，要么对起点的识别不准确，出现起点的误检和漏检，导致系统性能下降；要么对终点识别延迟时间太长，导致响应用户的延迟过长的问题，提供了语音端点识别方法。如图1所示，该方法具体步骤如下：

步骤S101、提取待检测音频的各音频帧的声学特征。

本实施例中，首选获取待检测音频的各音频帧，分别提取各音频帧的声学特征。

其中，该声学特征可以是梅尔频率倒谱系数(Mel Frequency CepstralCoefficient，简称MFCC)、感知线性预测(Perceptual Linear Predictive，简称PLP)等等。

步骤S102、根据各音频帧的声学特征和起点识别模型，识别出各音频帧中的语音起点帧，起点识别模型是用起点训练集对神经网络训练得到的。

本实施例中，起点训练集中包括至少一组起点训练数据，一组起点训练数据包括一条起点训练音频的各帧的声学特征和标注信息。终点训练集包括至少一组终点训练数据，一组终点训练数据包括一条终点训练音频的各帧的声学特征和标注信息。

在实际应用中，本实施例包括两个阶段：训练阶段和检测阶段。

训练阶段为在对待检测音频的端点进行识别之前，训练得到起点识别模型和终点识别模型的过程。训练阶段具体包括：

预先获取语音识别的训练预料，训练预料是在实际使用中真实的语音材料，包括多个样本音频。例如，训练预料可以包括1万条用户录入的音频，每条音频大约几秒钟的长度。对训练预料中的每一条样本音频进行分帧处理，得到多个音频帧，采用预设的特征提取方法提取各音频帧的声学特征，并获取每个音频帧的标注信息。

截取该条样本音频的前第一时长的第一音频段，该第一音频段包括该条样本音频的语音起点；将该第一音频段作为一条起点训练音频，将该第一音频段内的各音频帧的声学特征和标注信息作为该条起点训练音频对应的一组起点训练数据，添加到起点训练集中。

截取该条样本音频的最后的第二时长的第二音频段，该第二音频段包括该条样本音频的语音终点；将该第二音频段作为一条终点训练音频，将该第二音频段内的各音频帧的声学特征和标注信息作为该条终点训练音频对应的一组终点训练数据，添加到终点训练集中。

此处采用起点识别模型和终点识别模型是通过不同的训练数据集对循环神经网络训练得到的。可以使用起点训练集对循环神经网络模型进行训练得到起点识别模型，使用终点训练集对循环神经网络模型进行训练得到终点识别模型。

利用起点训练集对神经网络进行训练，得到起点识别模型，利用终点训练集对神经网络进行训练，得到终点识别模型。

在检测阶段，通过步骤S101-S103，提取待检测音频的各音频帧的声学特征，并根据待检测音频的各音频帧的声学特征以及起点识别模型和终点识别模型，分别识别出待检测音频的语音起点帧和语音终点帧，从而可以确定待检测音频的语音起点和语音终点。

在获取到各音频帧的声学特征之后，该步骤中，根据各音频帧的声学特征和起点识别模型，可以识别出各音频帧中的语音起点帧。

可选的，可以将各音频帧的声学特征依次输入起点识别模型，根据起点识别模型的输出值确定当前的音频帧是否为待检测音频的语音起点帧；若当前的音频帧是语音起点帧，则继续将下一帧输入起点识别模型，以确定下一帧是否为待检测音频的语音起点帧，直至确定语音起点帧时，停止将后续的音频帧输入起点识别模型。

步骤S103、根据各音频帧的声学特征和终点识别模型，识别出各音频帧中的语音终点帧，终点识别模型是用终点训练集对神经网络训练得到的。

在获取到各音频帧的声学特征之后，该步骤中，根据各音频帧的声学特征和终点识别模型，可以识别出各音频帧中的语音终点帧。

可选的，可以在识别出语音起点帧之后，将待检测音频的语音起点帧之后的各音频帧依次输入终点识别模型，根据终点识别模型的输出值确定当前的音频帧是否是待检测音频的语音终点帧；若当前的音频帧是语音终点帧，则继续将下一帧输入终点识别模型，以确定下一帧是否为待检测音频的语音终点帧，直至确定语音终点帧时，停止将后续的音频帧输入终点识别模型。

另外，在本实施例的另一实施方式中，还可以将各音频帧按照时间先后顺序倒序地将各帧依次输入终点识别模型，先识别出待检测音频的语音终点帧，然后将语音终点帧之前的音频帧继续依次输入起点识别模型，识别出待检测音频的语音起点帧，本实施例对于识别语音起点帧和语音终点帧的先后顺序不做具体限定。

本发明实施例通过分别用起点训练集和终点训练集训练循环神经网络得到起点识别模型和终点识别模型，根据各音频帧的声学特征和起点识别模型，识别出各音频帧中的语音起点帧，可以在保证对起点帧识别的准确性尽可能高的同时，不影响终点帧识别的延迟时间；根据各音频帧的声学特征和终点识别模型，识别出各音频帧中的语音终点帧，可以在保证对终点帧识别延迟尽可能短的同时，不影响起点帧识别的准确性，从而可以在提高起点帧识别的准确性的同时，缩短终点帧识别的延迟时间。

实施例二

图2为本发明实施例二提供的语音端点识别方法流程图。在上述实施例一的基础上，本实施例中，可以将各音频帧的声学特征依次输入起点识别模型，根据起点识别模型的输出值确定当前的音频帧是否为待检测音频的语音起点帧，若当前的音频帧是语音起点帧，则继续将下一帧输入起点识别模型，以确定下一帧是否为待检测音频的语音起点帧，直至确定语音起点帧时，停止将后续的音频帧输入起点识别模型；在识别出语音起点帧之后，将待检测音频的语音起点帧之后的各音频帧依次输入终点识别模型，根据终点识别模型的输出值确定当前的音频帧是否是待检测音频的语音终点帧；若当前的音频帧是语音终点帧，则继续将下一帧输入终点识别模型，以确定下一帧是否为待检测音频的语音终点帧，直至确定语音终点帧时，停止将后续的音频帧输入终点识别模型。如图2所示，该方法具体步骤如下：

步骤S201、提取待检测音频的各音频帧的声学特征。

该步骤与上述步骤S101一致，此处不再赘述。

步骤S202、获取第一目标帧。

本实施例中，按照待检测音频中各音频帧的时间先后，将各音频帧的声学特征依次作为第一目标帧，通过步骤S203-S206对第一目标帧进行起点识别处理。

步骤S203、将第一目标帧的声学特征输入起点识别模型，计算第一目标帧是有效语音的概率值。

起点识别模型为循环神经网络模型，起点识别模型用于根据输入的第一目标帧的声学特征，计算并输出第一目标帧是有效语音的概率值。

可选的，第一目标帧是有效语音的概率值可以是第一目标帧是有效语音的后验概率值。

步骤S204、根据第一目标帧是有效语音的概率值与第一阈值的大小，确定第一目标帧是否是有效语音。

该步骤具体可以采用如下方式实现：

比较第一目标帧是有效语音的概率值与第一阈值的大小；若第一目标帧是有效语音的概率值大于第一阈值，则确定该第一目标帧是有效语音；若第一目标帧是有效语音的概率值小于或者等于第一阈值，则确定该第一目标帧不是有效语音。

其中，第一阈值可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

步骤S205、若第一目标帧是有效语音，将第一目标帧确定为语音起点帧。

该步骤中，若第一目标帧是有效语音，则说明第一目标帧是待检测音频中出现的第一个是有效语音的音频帧，将第一目标帧作为语音起点帧。

可选的，将第一目标帧确定为语音起点帧之后，还可以将语音起点帧的起始时刻作为待检测音频的语音起点。

在该步骤中确定语音起点帧之后，继续执行步骤S207-S211，从后续的各音频帧中确定语音终点帧。

步骤S206、若第一目标帧不是有效语音，将下一帧作为新的第一目标帧。

若第一目标帧不是有效语音，则说明还未出现待检测音频中的第一个是有效语音的音频帧，将下一个音频帧作为新的第一目标帧，继续对新的第一目标帧执行步骤S203-S206，对新的第一目标帧进行起点识别处理。

步骤S207、获取第二目标帧。

在确定语音起点帧之后，将语音起点帧之后的音频帧依次作为第二目标帧，通过后续步骤S207-S211对第二目标帧进行终点识别处理。

步骤S208、将第二目标帧的声学特征输入终点识别模型，计算第二目标帧是有效语音的概率值。

终点识别模型为循环神经网络模型，终点识别模型用于根据输入的第二目标帧的声学特征，计算并输出第二目标帧是有效语音的概率值。

可选的，第二目标帧是有效语音的概率值可以是第二目标帧是有效语音的后验概率值。

步骤S209、根据第二目标帧是有效语音的概率值与第二阈值的大小，确定第二目标帧是否是有效语音，第二阈值小于第一阈值。

该步骤具体可以采用如下方式实现：

比较第二目标帧是有效语音的概率值与第二阈值的大小；若第二目标帧是有效语音的概率值大于第二阈值，则确定该第二目标帧是有效语音；若第二目标帧是有效语音的概率值小于或者等于第二阈值，则确定该第二目标帧不是有效语音。

其中，第二阈值小于第一阈值。例如，第一阈值可以为0.6，第二阈值可以为0.4。

第二阈值可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

步骤S210、若第二目标帧不是有效语音，将第二目标帧确定为语音终点帧。

该步骤中，若第二目标帧不是有效语音，则说明第二目标帧是待检测音频中在起点语音帧之后出现的第一个不是有效语音的音频帧，将第二目标帧确定为语音终点帧。

可选的，将第二目标帧确定为语音终点帧之后，还可以将语音终点帧的起始时刻作为待检测音频的语音终点。

步骤S211、若第二目标帧是有效语音，将下一帧作为新的第二目标帧。

若第二目标帧是有效语音，则说明待检测音频中在语音起点帧之后还未出现不是有效语音的音频帧，将下一个音频帧作为新的第二目标帧，继续对新的第二目标帧执行步骤S208-S211，对新的第二目标帧进行终点识别处理。

通过步骤S208-S211对新的第二目标帧进行终点识别处理。

本发明实施例中，将各音频帧的声学特征依次输入起点识别模型，根据起点识别模型的输出值确定当前的音频帧是否为待检测音频的语音起点帧，若当前的音频帧是语音起点帧，则继续将下一帧输入起点识别模型，以确定下一帧是否为待检测音频的语音起点帧，直至确定语音起点帧时，停止将后续的音频帧输入起点识别模型；在识别出语音起点帧之后，将待检测音频的语音起点帧之后的各音频帧依次输入终点识别模型，根据终点识别模型的输出值确定当前的音频帧是否是待检测音频的语音终点帧；若当前的音频帧是语音终点帧，则继续将下一帧输入终点识别模型，以确定下一帧是否为待检测音频的语音终点帧，直至确定语音终点帧时，停止将后续的音频帧输入终点识别模型，可以提高语音端点识别的效率。

实施例三

图3为本发明实施例三提供的确定起点训练集的流程图；图4为本发明实施例三提供的确定终点训练集的流程图。在上述实施例一或者实施例二的基础上，本实施例中，在对待检测音频的端点进行识别之前，需要预先获取起点训练集和终点训练集，使用起点训练集和终点训练集分别对循环神经网络进行训练得到起点识别模型和终点识别模型，这一阶段为模型的训练阶段，具体包括准备训练数据、确定起点训练集和终点训练集和模型训练三个阶段。

其中，标注信息为第一属性值或者第二属性值，标注信息用于标注该样本是否为有效语音。标注信息为第一属性值表示音频帧为无效语音，标注信息为第二属性值表示音频帧为有效语音，第二属性值与第一属性值不同。

例如，第一属性值为0，第二属性值为1；或者第一属性值为“N”，第二属性值为“Y”等。本实施例对于第一属性值和第二属性值具体数据结构不做具体限定。

可选的，一条起点训练音频对应的一组起点训练数据可以采用{X，Y}的结构进行存储，其中X为该组起点训练数据中各音频帧的声学特征按照时间先后顺序排列成的序列，X可以称为该组起点训练数据的特征序列；Y为该组起点训练数据中各音频帧的标注按照与特征序列一致的顺序排列成的序列，Y可以称为该组起点训练数据的标注序列。

可选的，音频帧的标注信息可以采用人工标注，或者采用语音识别中的机器强制对齐的方式获的，本实施例对于音频帧的标注方法不做具体限定。

准备训练数据阶段包括：预先获取语音识别的训练预料，训练预料是在实际使用中真实的语音材料，包括多个样本音频。例如，训练预料可以包括1万条用户录入的音频，每条音频大约几秒钟的长度。对训练预料中的每一条样本音频进行分帧处理，得到多个音频帧，采用预设的特征提取方法提取各音频帧的声学特征，并获取每个音频帧的标注信息。

在训练阶段中，提取音频帧的声学特征采用与检测阶段中提取待检测音频的各音频帧的声学特征相同的特征提取方法实现，以提高对音频帧的识别的准确性。

可选的，对于训练预料中的某一段音频的分帧处理的方法可以采用与检测阶段中对待检测音频的分帧处理同样的方式实现，以提高对音频帧的识别的准确性。

由于语音信号的时变特性，声学特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3左右。对于训练预料中的某一段音频，可以每间隔预设时长提取一帧，每帧的帧长为预设帧长，对该段音频进行分帧处理，得到多个音频帧。

例如，可以每间隔预设时长提取一帧，每帧的帧长为预设帧长，对该段音频进行分帧处理，得到多个音频帧。可选的，预设时长可以为10毫秒，预设帧长可以为25毫秒。

确定起点训练集和终点训练集阶段包括：对于训练预料中的任意一条样本音频，截取该条样本音频的前第一时长的第一音频段，该第一音频段包括该条样本音频的语音起点；将该第一音频段作为一条起点训练音频，将该第一音频段内的各音频帧的声学特征和标注信息作为该条起点训练音频对应的一组起点训练数据，添加到起点训练集中。截取该条样本音频的最后的第二时长的第二音频段，该第二音频段包括该条样本音频的语音终点；将该第二音频段作为一条终点训练音频，将该第二音频段内的各音频帧的声学特征和标注信息作为该条终点训练音频对应的一组终点训练数据，添加到终点训练集中。

本实施例中，如图3所示，确定起点训练集具体可以采用如下步骤实现：

步骤S301、获取样本音频的各帧的声学特征和标注信息。

步骤S302、根据样本音频的各帧的标注信息，确定样本音频中的语音起始时刻，语音起始时刻之后第一预设时长内的音频段为有效语音段。

其中，第一预设时长为在确定语音起点时用于保证语音起点的置信度的延迟时间。第一预设时长可以由技术人员根据实际需要设定的，本实施例对于第一预设时长的值不做具体限定。例如第一预设时长可以为20帧的时长。

根据各帧的标注信息，可以确定样本音频中第一个出现的标注信息为第二属性值的帧，可以确定该帧为有效语音帧。通常样本音频中会有噪声的波动，不可以直接将该帧的起始时刻作为样本音频的语音起始时刻，而是预先设定一个第一预设时长的时间延迟，若该帧起始时刻之后的第一预设时长内的帧均为有效音语音，也即是持续出现了第一预设时长的有效语音，那么可以将该帧的起始时刻作为样本音频的语音起始时刻。

步骤S303、将样本音频的第一时刻之前的帧的标注信息设置为第一属性值，第一时刻＝语音起始时刻+第一预设时长。

为了保证语音起点的足够的置信度，将语音起始时刻之后第一预设时长的结束时刻作为该样本音频的语音起点，也即是将第一时刻作为样本音频的语音起点。该步骤中，将样本音频的第一时刻之前的帧的标注信息设置为第一属性值，也即是将样本音频的语音起点之前的帧标注为无效语音。

步骤S304、将样本音频的第一时刻与第二时刻之间的帧的标注信息设置为第二属性值。

其中第二预设时刻在第一时刻之后，第二时刻与第一时刻至少间隔第一预设时长。

可选的，第二时刻＝第一时刻+第一预设时长。

为了保证语音起点的足够的置信度，将语音起始时刻之后第一预设时长的结束时刻作为该样本音频的语音起点，也即是将第一时刻作为样本音频的语音起点。这样可以避免语音起点的误报。

该步骤中，将样本音频的第一时刻之后的帧的标注信息设置为第二属性值，也即是将样本音频的语音起点之后的帧标注为有效语音。

为了提高语音起点模型的准确度，截取该样本音频的前第一时长的第一音频段作为一条起点训练音频。这条起点训练音频为该样本音频自起始时刻起至第二时刻为止的音频段。

步骤S305、将样本音频的第二时刻之前的帧的声学特征和标注信息作为一组起点训练数据，添加到起点训练集中。

本实施例中，如图4所示，确定终点训练集具体可以采用如下步骤实现：

步骤S401、获取样本音频的各帧的声学特征和标注信息。

步骤S402、据样本音频的各帧的声学特征和标注信息，确定样本音频中的语音结束时刻，语音结束时刻之后第二预设时长内的音频段是无效语音段，第二预设时长小于第一预设时长。

其中，第二预设时长为在确定语音终点时用于保证语音终点的置信度的延迟时间。第二预设时长小于第一预设时长。第二预设时长可以由技术人员根据实际需要设定的，本实施例对于第二预设时长的值不做具体限定。

另外，在语音起始时刻，用户正在说话，并不需要系统的任何回应，第一预设时长越长，起点识别模型的置信度就越高；但是在语音结束时刻之后，用户等待系统及时地响应，对语音终点的识别需要平衡模型置信度和响应速度，因此第一预设时长可以设置得稍长一些，第二预设时长设置的稍短一些。例如，第一预设时长可以为20帧的时长，第二预设时长可以为10帧的时长。

根据各帧的标注信息，可以确定样本音频中最后一个出现的标注信息为第二属性值的帧，可以确定该帧为有效语音，该帧之后的帧为无效语音。与确定样本帧的语音起点同理，预先设定一个第二预设时长的时间延迟，若该帧结束时刻之后的第二预设时长内的帧均为无效音语音，也即是持续出现了第二预设时长的有效语音，那么可以将该帧的结束时刻作为样本音频的语音结束时刻。

步骤S403、将样本音频的第三时刻之后的帧的标注信息设置为第一属性值，第三时刻＝语音结束时刻+第二预设时长。

为了保证语音起点的置信度，将语音结束时刻之后第二预设时长的结束时刻作为该样本音频的语音终点，也即是将第三时刻作为样本音频的语音终点。该步骤中，将样本音频的第三时刻之后的帧的标注信息设置为第二属性值，也即是将样本音频的语音终点之后的帧标注为无效语音。

步骤S404、将样本音频的第四时刻与第三时刻之间的帧的标注信息设置为第一属性值，第四时刻＝第三时刻-第二预设时长。

可选的，第二时刻＝第一时刻+第一预设时长。

为了保证语音终点的置信度，将语音结束时刻之后第二预设时长的结束时刻作为该样本音频的语音终点，也即是将第三时刻作为样本音频的语音终点。这样可以避免语音终点的误报。

该步骤中，将样本音频的第三时刻之前的帧的标注信息设置为第二属性值，也即是将样本音频的语音终点之前的帧标注为有效语音。

为了提高语音终点模型的准确度，截取该样本音频的最后第二时长的第二音频段作为一条终点训练音频。这条终点训练音频为该样本音频自第四时刻起至结束时刻为止的音频段。

步骤S405、将样本音频的第四时刻之后的帧的声学特征和标注信息作为一组终点训练数据，添加到终点训练集中。

在确定起点训练集和终点训练集之后，在模型训练阶段，可以使用起点训练集对循环神经网络模型进行训练得到起点识别模型，使用终点训练集对循环神经网络模型进行训练得到终点识别模型。

可选的，采用的循环神经网络可以为LSTM(Long Short Term)网络，或者GRU(Gated Recurrent Unit)网络，或者其他循环神经网络。

可选的，起点识别模型和终点识别模型可以通过对同一类型的循环神经网络训练得到，也可以通过对两个不同类型的循环神经网络训练得到。

优选地，可以通过起点训练集和终点训练集分别对GRU网络进行训练得到起点识别模型和终点识别模型，以提高起点识别模型和终点识别模型的运算效率。

可选的，在对循环神经网络模型进行训练时，分别采用起点训练集和终点训练集，以softmax函数为激活函数，以交叉熵为代价函数对循环神经网络模型进行训练。

本实施例中，循环神经网络模型的输出层包括两个输出节点，一个输出节点的值表示音频帧是有效语音的概率信息；另一个输出节点的值表示音频帧是无效语音的概率信息。

另外，在本实施例的另一实施方式中，在识别出待检测音频的语音起点帧和语音终点帧之后，还可以将语音起点帧的起始时刻作为待检测音频的语音起点，将语音终点帧的起始时刻作为待检测音频的语音终点；截取待检测音频的语音起点和语音终点之间的第一音频段，将第一音频段发送给语音识别设备，从而可以只将有效语音段发送给语音识别设备，可以提高语音识别设备的处理效率。

可选的，在截取待检测音频的语音起点和语音终点之间的第一音频段之后，还可以获取语音起点之前的第三预设时长的第二音频段，将第二音频段和第一音频段发送给语音识别设备，第三预设时长大于第一预设时长，以消除第一预设时长的延迟的影响。

可选的，在确定语音起点帧之后，可以将待检测音频中在语音起点帧之前第三预设时长内的音频帧进行缓存。例如，第一预设时长为20帧的时长，第三预设时长可以为40帧的时长。

本发明实施例通过对于训练预料中的任意一条样本音频，通过预设设定的第一预设时长，确定样本音频中的语音起始时刻之后第一预设时长的第一时刻作为样本音频的语音起点，截取该条样本音频的前第一时长的第一音频段，将包括该条样本音频的语音起点的第一音频段内的各音频帧的声学特征和标注信息作为该条起点训练音频对应的一组起点训练数据，添加到起点训练集中，通过起点训练集训练得到的起点识别模型的置信度高，可以提高语音起点识别的准确性。同理，通过预设设定的第二预设时长，确定样本音频中的语音结束时刻之前第二预设时长的第三时刻作为样本音频的语音终点，截取该条样本音频的最后的包括语音终点的第二音频段，将该第二音频段内的各音频帧的声学特征和标注信息作为该条终点训练音频对应的一组终点训练数据，添加到终点训练集中，设置第二预设时长小于第一预设时长，可以平行终点识别模型的置信度和响应时间。

实施例四

图5为本发明实施例四提供的语音端点识别装置的结构示意图。本发明实施例提供的语音端点识别装置可以执行语音端点识别方法实施例提供的处理流程。如图5所示，该装置50包括：特征提取模块501，起点识别模块502和终点识别模块503。

具体地，特征提取模块501用于提取待检测音频的各音频帧的声学特征。

起点识别模块502用于根据各音频帧的声学特征和起点识别模型，识别出各音频帧中的语音起点帧，起点识别模型是用起点训练集对神经网络训练得到的。

终点识别模块503用于根据各音频帧的声学特征和终点识别模型，识别出各音频帧中的语音终点帧，终点识别模型是用终点训练集对神经网络训练得到的。

其中，起点训练集包括至少一组起点训练数据，一组起点训练数据包括一条起点训练音频的各帧的声学特征和标注信息。

终点训练集包括至少一组终点训练数据，一组终点训练数据包括一条终点训练音频的各帧的声学特征和标注信息。

标注信息为第一属性值或者第二属性值，第一属性值用于标注帧为无效语音，第二属性值用于标注帧为有效语音。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例五

在上述实施例四的基础上，本实施例中，起点识别模块还用于：

将各音频帧的声学特征依次作为第一目标帧，对第一目标帧进行以下起点识别处理：将第一目标帧的声学特征输入起点识别模型，计算第一目标帧是有效语音的概率值；根据第一目标帧是有效语音的概率值与第一阈值的大小，确定第一目标帧是否是有效语音；若第一目标帧不是有效语音，将下一个音频帧作为新的第一目标帧，对新的第一目标帧进行起点识别处理；若第一目标帧是有效语音，将第一目标帧确定为语音起点帧。

起点识别模块还用于：

将语音起点帧之后的音频帧依次作为第二目标帧，对第二目标帧进行以下终点识别处理：将第二目标帧的声学特征输入终点识别模型，计算第二目标帧是有效语音的概率值；根据第二目标帧是有效语音的概率值与第二阈值的大小，确定第二目标帧是否是有效语音，第二阈值小于第一阈值；若第二目标帧是有效语音，将下一个音频帧作为新的第二目标帧，对新的第二目标帧进行终点识别处理；若第二目标帧不是有效语音，将第二目标帧确定为语音终点帧。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例六

图6为本发明实施例六提供的语音端点识别装置的结构示意图。在上述实施例五的基础上，本实施例中，如图6所示，该装置50还包括：训练集确定模块504。

具体的，训练集确定模块504用于：

获取样本音频的各帧的声学特征和标注信息；根据样本音频的各帧的标注信息，确定样本音频中的语音起始时刻，语音起始时刻之后第一预设时长内的音频段为有效语音段；将样本音频的第一时刻之前的帧的标注信息设置为第一属性值，第一时刻＝语音起始时刻+第一预设时长；将样本音频的第一时刻与第二时刻之间的帧的标注信息设置为第二属性值，第二时刻＝第一时刻+第一预设时长；将样本音频的第二时刻之前的帧的声学特征和标注信息作为一组起点训练数据，添加到起点训练集中。

训练集确定模块504还用于：

获取样本音频的各帧的声学特征和标注信息；据样本音频的各帧的标注信息，确定样本音频中的语音结束时刻，语音结束时刻之后第二预设时长内的音频段是无效语音段，第二预设时长小于第一预设时长；将样本音频的第三时刻之后的帧的标注信息设置为第一属性值，第三时刻＝语音结束时刻+第二预设时长；将样本音频的第四时刻与第三时刻之间的帧的标注信息设置为第二属性值，第四时刻＝第三时刻-第二预设时长；将样本音频的第四时刻之后的帧的声学特征和标注信息作为一组终点训练数据，添加到终点训练集中。

可选的，该装置50还可以包括：提交模块。

提交模块用于：将语音起点帧的起始时刻作为待检测音频的语音起点；将语音终点帧的起始时刻作为待检测音频的语音终点；截取待检测音频的语音起点和语音终点之间的第一音频段；将第一音频段发送给语音识别设备。

可选的，提交模块还用于：

获取语音起点之前的第三预设时长的第二音频段，将第二音频段和第一音频段发送给语音识别设备，第三预设时长大于第一预设时长。

本发明实施例提供的装置可以具体用于执行上述实施例三所提供的方法实施例，具体功能此处不再赘述。

实施例七

图7为本发明实施例七提供的计算机设备的结构示意图。如图7所示，该设备70包括：处理器701，存储器702，以及存储在存储器702上并可由处理器701执行的计算机程序。

处理器701在执行存储在存储器702上的计算机程序时实现上述任一方法实施例提供的语音端点识别方法。

另外，本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例提供的语音端点识别方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种语音端点识别方法，其特征在于，包括：

提取待检测音频的各音频帧的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述各音频帧的声学特征和起点识别模型，识别出所述各音频帧中的语音起点帧，所述起点识别模型是用起点训练集对神经网络训练得到的，包括：

将所述各音频帧的声学特征依次作为第一目标帧，对所述第一目标帧进行以下起点识别处理：

将所述第一目标帧的声学特征输入所述起点识别模型，计算所述第一目标帧是有效语音的概率值；

根据所述第一目标帧是有效语音的概率值与第一阈值的大小，确定所述第一目标帧是否是有效语音；

若所述第一目标帧不是有效语音，将下一个音频帧作为新的第一目标帧，对所述新的第一目标帧进行所述起点识别处理；

若所述第一目标帧是有效语音，将所述第一目标帧确定为语音起点帧。

3.根据权利要求2所述的方法，其特征在于，所述根据所述各音频帧的声学特征和终点识别模型，识别出所述各音频帧中的语音终点帧，所述终点识别模型是用终点训练集对神经网络训练得到的，还包括：

将所述语音起点帧之后的音频帧依次作为第二目标帧，对所述第二目标帧进行以下终点识别处理：

将所述第二目标帧的声学特征输入所述终点识别模型，计算所述第二目标帧是有效语音的概率值；

根据所述第二目标帧是有效语音的概率值与第二阈值的大小，确定所述第二目标帧是否是有效语音，所述第二阈值小于所述第一阈值；

若所述第二目标帧是有效语音，将下一个音频帧作为新的第二目标帧，对所述新的第二目标帧进行所述终点识别处理；

若所述第二目标帧不是有效语音，将所述第二目标帧确定为语音终点帧。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述起点训练集包括至少一组起点训练数据，一组起点训练数据包括一条起点训练音频的各帧的声学特征和标注信息；

所述终点训练集包括至少一组终点训练数据，一组终点训练数据包括一条终点训练音频的各帧的声学特征和标注信息；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取样本音频的各帧的声学特征和标注信息；

根据所述样本音频的各帧的标注信息，确定所述样本音频中的语音起始时刻，所述语音起始时刻之后第一预设时长内的音频段为有效语音段；

将所述样本音频的第一时刻之前的帧的标注信息设置为第一属性值，所述第一时刻＝所述语音起始时刻+所述第一预设时长；

将所述样本音频的所述第一时刻与第二时刻之间的帧的标注信息设置为第二属性值，所述第二时刻＝所述第一时刻+所述第一预设时长；

将所述样本音频的所述第二时刻之前的帧的声学特征和标注信息作为一组起点训练数据，添加到所述起点训练集中。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取样本音频的各帧的声学特征和标注信息；

据所述样本音频的各帧的标注信息，确定所述样本音频中的语音结束时刻，所述语音结束时刻之后第二预设时长内的音频段是无效语音段，所述第二预设时长小于所述第一预设时长；

将所述样本音频的第三时刻之后的帧的标注信息设置为第一属性值，所述第三时刻＝所述语音结束时刻+所述第二预设时长；

将所述样本音频的第四时刻与所述第三时刻之间的帧的标注信息设置为第二属性值，所述第四时刻＝所述第三时刻-所述第二预设时长；

将所述样本音频的所述第四时刻之后的帧的声学特征和标注信息作为一组终点训练数据，添加到所述终点训练集中。

7.根据权利要求5所述的方法，其特征在于，在确定所述待检测音频的语音起点帧和语音终点帧之后，还包括：

将所述语音起点帧的起始时刻作为所述待检测音频的语音起点；

将所述语音终点帧的起始时刻作为所述待检测音频的语音终点；

截取所述待检测音频的语音起点和语音终点之间的第一音频段；

将所述第一音频段发送给语音识别设备。

8.根据权利要求7所述的方法，其特征在于，在所述截取所述待检测音频的语音起点和语音终点之间的第一音频段之后，还包括：

获取所述语音起点之前的第三预设时长的第二音频段，将所述第二音频段和所述第一音频段发送给语音识别设备，所述第三预设时长大于所述第一预设时长。

9.一种语音端点识别装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述起点识别模块还用于：

11.根据权利要求10所述的装置，其特征在于，所述终点识别模块还用于：

12.根据权利要求9-11任一项所述的装置，其特征在于，所述起点训练集包括至少一组起点训练数据，一组起点训练数据包括一条起点训练音频的各帧的声学特征和标注信息；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括训练集确定模块，所述训练集确定模块用于：

获取样本音频的各帧的声学特征和标注信息；

14.根据权利要求13所述的装置，其特征在于，所述训练集确定模块还用于：

获取样本音频的各帧的声学特征和标注信息；

15.根据权利要求13所述的装置，其特征在于，所述装置还包括提交模块，所述提交模块用于：

将所述第一音频段发送给语音识别设备。

16.根据权利要求15所述的装置，其特征在于，所述提交模块还用于：

17.一种计算机设备，其特征在于，包括：

所述处理器运行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。