CN108877779B

CN108877779B - 用于检测语音尾点的方法和装置

Info

Publication number: CN108877779B
Application number: CN201810958854.9A
Authority: CN
Inventors: 张雪薇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2020-03-20
Anticipated expiration: 2038-08-22
Also published as: CN108877779A

Abstract

本申请实施例公开了用于检测语音尾点的方法和装置。该方法的一具体实施方式包括：响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，该目标音频帧序列根据该音频流中的该语音头点之后的部分生成；对于该目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，该尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系；根据该目标音频帧序列中的音频帧的音频帧类型，确定该音频流中的语音尾点。该实施方式提供了新的检测语音尾点的方式。

Description

用于检测语音尾点的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于检测语音尾点的方法和装置。

背景技术

随着人工智能技术的发展，新型智能设备(例如智能音箱、智能交互机器人等)开始涌现，语音交互这种新型人机交互技术逐步被大众所接收，语音识别技术的重要性日益凸现。语音端点检测，即在连续的音频数据中找到语音的起点与尾点，是语音识别系统的重要组成部分，其准确性会对语音识别的准确性造成影响。

发明内容

本申请实施例提出了用于检测语音尾点的方法和装置。

第一方面，本申请实施例提供了一种用于检测语音尾点的方法，该方法包括：响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成；对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系；根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。

第二方面，本申请实施例提供了一种用于检测语音尾点的装置，该装置包括：第一确定单元，被配置成响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成；生成单元，被配置成对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系；第二确定单元，被配置成根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于检测语音尾点的方法和装置，通过响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点，技术效果至少可以包括：提供了新的检测语音尾点的方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于检测语音尾点的方法的一个实施例的流程图；

图3是根据本申请的用于检测语音尾点的方法的一个应用场景的示意图；

图4是根据本申请的用于检测语音尾点的方法的又一个实施例的流程图；

图5是根据本申请的步骤403的一种可选的实现方式的流程图。

图6是根据本申请的用于检测语音尾点的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于检测语音尾点的方法或用于检测语音尾点的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102通过网络103与服务器104交互，以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用，例如音频采集类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102可以是硬件，也可以是软件。当终端设备101、102为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器104可以是提供各种服务的服务器，例如对终端设备101、102采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。

需要说明的是，本申请实施例所提供的用于检测语音尾点的方法一般由服务器104执行，相应地，用于检测语音尾点的装置一般设置于服务器104中。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供端点确定服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于检测语音尾点的方法可以通过服务器104执行，也可以通过终端设备101、102执行，还可以通过服务器104和终端设备101、102共同执行，本申请对此不做限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，其示出了用于检测语音尾点的方法的一个实施例的流程200。本实施例主要以该方法应用于有一定运算能力的电子设备中来举例说明，该电子设备可以是图1示出的服务器104，也可以是图1示出的终端设备101。该用于检测语音尾点的方法，包括以下步骤：

步骤201，响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值。

通常，如果音频流中包括语音数据，语音数据与非语音数据的分界点可以作为语音端点。语音端点可以包括语音头点和语音尾点。语音头点可以是语音数据的起始点。语音尾点可以是语音数据的终止点。

在本实施例中，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成。

可选的，如果上述执行主体为终端，终端可以利用终端上的声音采集装置采集音频数据，将采集到音频数据打包为一个或者多个音频数据包，按序排列音频数据包从而得到音频流。在这里，声音采集装置可以是各种形式的能够辅助确定声音发出声音时的位置的装置。作为示例，声音采集装置可以是各种形式的麦克风。

可选的，如果上述执行主体为服务器，服务器可以从终端接收终端采集的音频流。

可选的，上述执行主体获取到的音频数据，可以是声音采集装置采集的原始数据，也可以是对声音采集装置采集的原始数据处理之后得到的数据。作为示例，上述处理可以是对原始数据的强度信息进行了过滤，而保留了频谱信息。

在本实施例中，上述音频流可以通过终端设备实时采集。音频流中可能包括语音、语音之外的背景噪音或者静音。需要说明的是，本申请中语音可以指人发出的声音。

在本实施例中，确定目标音频序列中的音频帧对应的音频特征值可以通过各种方式实现。

在这里，音频流可以包括至少一个音频数据包，音频数据包可以包括预定数目个音频采样点。音频流中的音频数据包按照语音发出的时序排列出音频数据包序列。如果在音频流中的N个音频数据包中检测到语音头点，那么可以将此第N个音频数据包中的语音头点之后的音频数据对应的音频帧序列作为第一候选音频帧序列。如果语音较短，则可能在上述第一候选音频帧序列中检到语音尾点；如果语音较长，则可能从上述第一候选音频帧序列中不能检到语音尾点。在从上述第一候选音频帧序列不能检测语音尾点的情况下，可以将上述音频流中的第N个音频数据包之后的音频数据包，比如第N+1个音频数据包，进行分帧得到第二候选音频帧序列。

可以理解，第一候选音频帧序列和第二候选音频帧序列，均是根据音频流中语音头点之后的部分生成的，可以被认为是目标音频帧序列。可选的，可以在检测到音频流中的语音头点之后，根据语音头点之后、音频流包括的所有音频数据包生成目标音频帧序列；还可以在检测到语音头点之后，对音频流中的音频数据包，逐包生成音频帧序列，检测到语音尾点则对之后的音频数据包不再处理。

作为示例，可以先确定音频流对应的音频特征值，再确定目标音频序列，在从中音频流对应的音频特征值选取的目标音频序列对应的音频特征值。也可以先确定目标音频序列，再从目标音频序列提取目标音频序列对应的音频特征值。

在这里，音频特征值的预定义种类可以包括但不限于以下一项或多项：梅尔频率倒谱系数、感知线性预测系数、上述梅尔频率倒谱系数的一阶差分、梅尔频率倒谱系数的二阶差分、感知线性预测系数的一阶差分和感知线性预测系数的二阶差分。在实践中，音频特征值的种类可以根据应用场景具体设置，在此不做限定。

步骤202，对于目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型。

在本实施例中，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系。

在本实施例中，上述尾点检测模型可以是各种结构的模型。

在本实施例中，音频帧类型的划分方式可以根据实际应用场景确定。

在一些实施例中，音频帧类型可以包括语音类型或者非语音类型。即，音频帧类型可以划分为以下类型：语音类型和非语音类型。

在一些实施例中，可以对音频帧类型的划分相对于现有技术更为细致。划分出的音频帧类型可以包括(音频帧类型预先定义为以下种类)：语音类型、头静音类型、中间静音类型和尾静音类型。即，对于目标音频帧序列中的音频帧，生成的该音频帧的音频帧类型为以下类型中的一种：语音类型、头静音类型、中间静音类型和尾静音类型。

在这里，语音类型可以指示语音部分。头静音类型可以指示在语音之前的静音部分。中间静音类型可以指示连贯语音中间的停顿部分。尾静音类型可以指示语音之后的静音部分。在音频流中，音频数据包序列具有时序性，所以在语音的前后可以区分出头静音类型和尾静音类型。作为示例，对于语音之前的预定数目个静音类型的音频帧，将这些静音类型的音频帧的类型确定为头静音类型。对于语音之后的预定数目个静音类型的音频帧，将这些静音类型的音频帧的类型确定为尾静音类型。

需要说明的是，将音频帧类型区分为语音类型、头静音类型、中间静音类型和尾静音类型，技术效果至少可以包括：

第一，提供了新的划分音频帧类型的方式。

第二，对应静音类型，做相对于现有技术更为细致的区分，可以提高对静音类型的检测精度。

第三，检测语音端点通常是语音识别的基础上。在这里，将静音类型分为多个类型，可以根据静音的不同，准确截取完整的语句。现有技术中，对于静音不做区分，经常将中间静音误认为是语音结束，从而导致从语音流中截取的语音不完整。

步骤203，根据目标音频帧序列中的音频帧的音频帧类型，确定音频流中的语音尾点。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。

作为示例，音频帧类型可以包括语音类型或者非语音类型。如果连续出现的非语音类型的音频帧达到第一预定数目个，则确定此第一预定数目个音频帧帧的第一个音频帧为语音尾点。

作为示例，上述音频帧类型包括以下类型中的一种：语音类型、头静音类型、中间静音类型和尾静音类型。如果连续出现的尾静音类型达到第一预定数目个，则确定此第一预定数目个音频帧的第一个语音帧为语音尾点；还可以从此第一预定数目个音频帧的再往后数第二预定数目个音频帧，确定后数第二预定数目个音频帧所到的音频帧为语音尾点。可以理解再后数第二预定数目个音频帧的方式，可以进一步保障语音已经结束从而准确确定尾点。

在这里，预定数目可以根据实际应用场景确定。作为示例，中文语音场景中的预定数目和日语语音场景中的预定数目，可能会有所不同。

在本实施例中，语音的尾点可以用各种形式指示。作为示例，上述尾点用音频帧指示，也可以利用音频帧在音频序列中的位置指示。

本申请的上述实施例提供的方法，通过响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点，技术效果至少可以包括：

第一，提供了新的检测语音尾点的方式。

第二，本申请中的目标音频帧序列可以是音频流对应的音频帧序列的一部分。从而，可以减少导入尾点检测模型的数据量，减少尾点检测模型的计算量。

第三，本申请分开检测语音头点和语音尾点，通过在导入的数据上进行控制(即确保是头点之后的数据)，则可以搭建针对检测尾点的尾点检测模型，相对于现有技术同时识别头点和尾点的方式，针对性更强，从而，可以提高尾点检测的准确性。

第四，本申请以音频帧序列为粒度确定音频帧类型，可以细粒度地确定音频帧序列中的语音片段，为进一步检测语音尾点提供准确的依据，从而可以提高语音端点检测的准确性。

在一些实施例中，上述尾点检测模型可以是各种结构的尾点检测模型。

在一些实施例中，上述尾点检测模型可以基于长短时记忆网络建立。

在一些实施例中，上述尾点检测模型可以包括：卷积神经网络、长短时记忆网络和分类层，其中，上述卷积神经网络的输入为音频帧对应的音频特征值，上述卷积神经网络的输出为上述长短时记忆网络的输入，上述长短时记忆网络的输出为上述分类层的输入，上述分类层的输出为音频帧类型和对应的概率。

在这里，卷积神经网络可以包括卷积层，可选的，还可以包括归一化层。

在这里，长短时记忆网络可以包括长短时记忆层，可选的，还可以包括归一化层。

需要说明的是，长短时记忆网络有历史信息，根据过去的相关性信息判别当前帧的音频帧类型，从而，可以提高所确定的音频帧类型的准确度。

在这里，上述分类层可以利用各种分类函数实现，在此不做限定。例如，softmax函数。

可选的，上述尾点检测模型可以将分类函数输出的最大概率对应的音频帧类型，作为音频帧对应的音频帧类型。

在一些实施例中，上述长短时记忆网络可以包括：第一长短时记忆网络和第二长短时记忆网络。在这里，上述第一长短时记忆网络的输入为上述卷积神经网络的输出，上述第一长短时记忆网络的输出为上述第二长短时记忆网络的输入，上述第二长短时记忆网络的输出为上述分类层的输入。

在这里，利用两个长短时记忆网络，可以兼顾检测准确度和计算量的平衡。

在一些实施例中，上述尾点检测模型可以通过以下步骤建立：

第一步，获取音频数据集合。

在这里，音频数据对应的音频帧与音频帧类型对应。

可以理解，由音频数据可以生成音频帧，音频帧可以通过各种方式预先确定音频帧类型。

在这里，音频帧类型可以包括以下类型中的一种：语音类型、头静音类型、中间静音类型和尾静音类型。

在这里，上述音频数据集合可以是通过各种方式得到的。作为示例，上述音频帧类型可以是由人工标注的。

可选的，上述音频数据集合通过以下方式生成：获取原始音频数据集合。对上述原始音频数据集合中的原始音频数据进行语音识别，以及进行分帧操作得到音频帧。根据语音识别结果，生成原始音频数据的各个音频帧的音频帧类型。根据上述原始音频数据集合和所生成的音频帧的音频帧类型，生成音频数据集合。

需要说明的是，利用语音识别结果，标注音频数据集合，可以方便快捷地生成上述音频数据集合。在这里，对上述语音识别的具体方式不做限定。

第二步，对于音频数据集合中的音频数据，提取该音频数据对应的音频帧的预定义种类的音频特征值，以及生成音频特征值序列；将生成的音频特征值序列作为该音频数据对应的训练样本，以及生成训练样本集。

在这里，训练样本中的音频特征值与音频帧类型对应。即训练样本为音频特征值序列，音频特征值序列中的音频特征值与音频帧类型对应。

在这里，提取该音频数据对应的音频帧的预定义种类的音频特征值，提取的可以是该音频数据对应的全部或者部分音频帧的音频特征值。

可选的，从音频数据的音频帧中选取部分音频帧，以及提取选取出的部分音频帧的预定义种类的音频特征值。需要说明的是，选取部分音频帧，以及提取选取出的部分音频帧的音频特征值，可以理解为采用跳帧的方式对获得训练样本。由于音频数据通常具有连续性的特点，因此，采用跳帧的方式，可以既保证了音频信息的完整性，又减少了生成训练样本以及后续模型训练的计算量，提高模型训练速度。

第三步，将上述训练样本集中的训练样本作为初始尾点检测模型的输入，将与输入的训练样本对应的音频帧类型作为上述初始尾点检测模型的期望输出，训练初始尾点检测模型，得到尾点检测模型。

在这里，初始尾点检测模型可以是各种结构的神经网络，初始神经网络可以包括但不限于以下至少一项：卷积神经网络、循环神经网络，长短期记忆神经网络。

请参考图3，图3是根据本实施例的用于检测语音尾点的方法的应用场景的一个示意图。在图3的应用场景中：

用户301在唤醒智能音箱302之后，发出一段语音。作为示例，用户发出的语音为“请播放一首歌”。

智能音箱在被唤醒后，可以开始采集声音，从而获得音频流。

智能音箱可以检测音频流中的语音头点。作为示例，智能音箱可以确定语音“请播放一首歌”的头点。

智能音箱可以响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值。在这里，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成。作为示例，可以对上述音频流中的上述语音头点之后的部分移窗分帧，生成目标音频帧序列，再确定目标音频帧序列中的音频帧对应的音频特征值。

智能音箱可以对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型。在这里，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系。

智能音箱可以根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。作为示例，智能音箱可以确定语音“请播放一首歌”的尾点。

进一步参考图4，其示出了用于检测语音尾点的方法的又一个实施例的流程400。该用于检测语音尾点的方法的流程400，包括以下步骤：

步骤401，检测音频流中的语音头点。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以检测上述音频流中的语音头点。

在本实施例中，可以通过各种方式检测语音头点。

作为示例，可以利用现有的语音端点检测方式，检测语音头点。能量声音激活检测(Voice Activity Detection,VAD)，设定一个窗长，滑窗方式送入数据，判别该窗能量，窗能量大于阈值即为语音。在上述音频流中，第一次检测到的窗能量大于阈值的窗位置，可以认为是语音头点。

作为示例，可以对上述音频流进行移窗分帧，得到音频流对应的音频帧序列，提取上述音频帧序列对应的音频特征值。根据上述音频帧序列对应的音频特征值，检测语音头点。作为示例，可以通过上述音频帧序列对应的音频特征值和预先训练的头点检测模型检测语音头点。

步骤402，响应于检测到音频流中的语音头点，确定目标音频帧序列。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以响应于检测到音频流中的语音头点，确定目标音频帧序列。

作为示例，如果在检测头点之前进行了生成了音频流对应的音频帧序列，可以从上述音频帧序列中，将头点之后的部分截取出来作为上述目标音频帧。

作为示例，如果在检测头点之前没有生成音频流对应的音频帧序列，那么可以将音频流头点之后的部分选取出来，在对头点之后的部分分帧得到目标音频帧序列。

步骤403，对于目标音频帧序列中的音频帧，确定该音频帧对应的音频特征值。

在本实施例中，用于检测语音尾点的方法的执行主体(例如图1所示的智能音箱)可以对于目标音频帧序列中的音频帧，确定该音频帧对应的音频特征值。

可选的，该音频帧对应的音频特征值，可以根据具体场景自己定义。作为示例，可以将从该音频帧中提取的音频特征值，确定为该音频帧对应的音频特征值。

作为示例，可以根据该音频帧的在前音频帧和在后音频帧，生成该音频帧对应的音频特征值。

可选的，步骤403可以通过图5所示流程403实现，流程403包括：

步骤4031，获取在前音频特征值。

在这里，上述在前音频特征值提取自上述目标音频帧序列中的、自该音频帧开始前数预设数目个音频帧。

作为示例，预定数目可以是1或者2。

可选的，如果没有在前音频帧(例如音频帧序列的第一音频帧)，可以将自身的音频特征值复制预设数目份作为在前音频特征值。

步骤4032，获取在后音频特征值。

在这里，上述在后音频特征值提取自上述目标音频帧序列中的、自该音频帧开始后数上述预设数目个音频帧。

可选的，如果没有在后音频帧(例如音频帧序列的最后一个音频帧)，可以将自身的音频特征值复制预设数目份作为在后音频特征值。

步骤4033，拼接在前音频特征值、从该音频帧中提取的音频特征值和在后音频特征值，生成该音频帧对应的音频特征值。

需要说明的是，将在前音频特征值、再后音频特征值与提取自该音频帧的音频特征值进行拼接，得到该音频帧对应的音频特征值，则该音频帧对应的音频特征值可以带有在前音频帧和在后音频帧的音频信息，从而，可以后续确定音频帧类型的时候，可以参考前音频帧和在后音频帧的音频信息。由于音频较强的时序关联性，所以参考前后的音频帧的信息而确定的该音频帧(当前音频帧)的音频帧类型更为准确。

步骤404，对于目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型。

步骤405，根据目标音频帧序列中的音频帧的音频帧类型，确定音频流中的语音尾点。

在本实施例中步骤404和步骤405的具体操作与图2所示的实施例中步骤202和步骤203的操作基本相同，在此不再赘述。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于检测语音尾点的方法的流程400突出了检测语音头点和确定带有在前音频帧和在后音频帧的音频信息的音频特征值的步骤，从而，技术效果至少可以包括：

第一，提供了一种新的检测语音尾点的方式。

第二，本实施例所确定的音频帧对应的音频特征值可以带有在前音频帧和在后音频帧的音频信息，从而，可以后续确定音频帧类型的时候，可以参考前音频帧和在后音频帧的音频信息。由于音频较强的时序关联性，所以参考前后的音频帧的信息而确定的该音频帧(当前音频帧)的音频帧类型更为准确。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于检测语音尾点的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于检测语音尾点的装置600包括：第一确定单元601，被配置成响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成；生成单元602，被配置成对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系；第二确定单元603，被配置成根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。

在本实施例中，用于检测语音尾点的装置500的第一确定单元601、生成单元602和第二确定单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，音频帧类型包括：语音类型、头静音类型、中间静音类型和尾静音类型。

在本实施例的一些可选的实现方式中，上述装置还可以包括：检测单元(未示出)，被配置成检测上述音频流中的语音头点。

在本实施例的一些可选的实现方式中，上述第一确定单元，还被配置成：确定上述目标音频帧序列；对于上述目标音频帧序列中的音频帧，确定该音频帧对应的音频特征值。

在本实施例的一些可选的实现方式中，上述第一确定单元，还被配置成：获取在前音频特征值，其中，上述在前音频特征值提取自上述目标音频帧序列中的、自该音频帧开始前数预设数目个音频帧；获取在后音频特征值，其中，上述在后音频特征值提取自上述目标音频帧序列中的、自该音频帧开始后数上述预设数目个音频帧；拼接上述在前音频特征值、从该音频帧中提取的音频特征值和上述在后音频特征值，生成该音频帧对应的音频特征值。

在本实施例的一些可选的实现方式中，上述尾点检测模型包括：卷积神经网络、长短时记忆网络和分类层，其中，上述卷积神经网络的输入为音频帧对应的音频特征值，上述卷积神经网络的输出为上述长短时记忆网络的输入，上述长短时记忆网络的输出为上述分类层的输入，上述分类层的输出为音频帧类型和对应的概率。

在本实施例的一些可选的实现方式中，上述长短时记忆网络包括：第一长短时记忆网络和第二长短时记忆网络，其中，上述第一长短时记忆网络的输入为上述卷积神经网络的输出，上述第一长短时记忆网络的输出为上述第二长短时记忆网络的输入，上述第二长短时记忆网络的输出为上述分类层的输入。

在本实施例的一些可选的实现方式中，上述尾点检测模型通过以下步骤建立：获取音频数据集合，其中，音频数据集合中的音频数据对应的音频帧与音频帧类型相对应；对于音频数据集合中的音频数据，提取该音频数据对应的音频帧的预定义种类的音频特征值，以及生成音频特征值序列；将生成的音频特征值序列作为该音频数据对应的训练样本，以及生成训练样本集，其中，训练样本中的音频特征值与音频帧类型对应；将上述训练样本集中的训练样本作为初始尾点检测模型的输入，将与输入的训练样本对应的音频帧类型作为上述初始尾点检测模型的期望输出，训练初始尾点检测模型，得到尾点检测模型。

在本实施例的一些可选的实现方式中，上述音频数据集合通过以下方式生成：获取原始音频数据集合；对上述原始音频数据集合中的原始音频数据进行语音识别，以及进行分帧操作得到音频帧；根据语音识别结果，生成原始音频数据的各个音频帧的音频帧类型；根据上述原始音频数据集合和所生成的音频帧的音频帧类型，生成音频数据集合。

在本实施例的一些可选的实现方式中，上述提取该音频数据对应的音频帧的预定义种类的音频特征值，包括：从音频数据的音频帧中选取部分音频帧，以及提取选取出的部分音频帧的预定义种类的音频特征值。

需要说明的是，本申请实施例提供的用于检测语音尾点的装置中各单元的实现细节和技术效果可以参考本申请中其它实施例的说明，在此不再赘述。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU，Central Processing Unit)701，其可以根据存储在只读存储器(ROM，Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM，Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O，Input/Output)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分707；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元、生成单元和第二确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一确定单元还可以被描述为“确定目标音频帧序列中的音频帧对应的音频特征值的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，上述目标音频帧序列根据上述音频流中的上述语音头点之后的部分生成；对于上述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，上述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系；根据上述目标音频帧序列中的音频帧的音频帧类型，确定上述音频流中的语音尾点。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于检测语音尾点的方法，包括：

响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，所述目标音频帧序列根据所述音频流中的所述语音头点之后的部分生成；

对于所述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，所述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系，音频帧类型包括：语音类型、头静音类型、中间静音类型和尾静音类型；

根据所述目标音频帧序列中的音频帧的音频帧类型，确定所述音频流中的语音尾点。

2.根据权利要求1所述的方法，其中，在所述响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值之前，所述方法还包括：

检测所述音频流中的语音头点。

3.根据权利要求2所述的方法，其中，所述确定目标音频帧序列中的音频帧对应的音频特征值，包括：

确定所述目标音频帧序列；

对于所述目标音频帧序列中的音频帧，确定该音频帧对应的音频特征值。

4.根据权利要求3所述的方法，其中，所述确定该音频帧对应的音频特征值，包括：

获取在前音频特征值，其中，所述在前音频特征值提取自所述目标音频帧序列中的、自该音频帧开始前数预设数目个音频帧；

获取在后音频特征值，其中，所述在后音频特征值提取自所述目标音频帧序列中的、自该音频帧开始后数所述预设数目个音频帧；

拼接所述在前音频特征值、从该音频帧中提取的音频特征值和所述在后音频特征值，生成该音频帧对应的音频特征值。

5.根据权利要求1所述的方法，其中，所述尾点检测模型包括：卷积神经网络、长短时记忆网络和分类层，其中，所述卷积神经网络的输入为音频帧对应的音频特征值，所述卷积神经网络的输出为所述长短时记忆网络的输入，所述长短时记忆网络的输出为所述分类层的输入，所述分类层的输出为音频帧类型和对应的概率。

6.根据权利要求5所述的方法，其中，所述长短时记忆网络包括：第一长短时记忆网络和第二长短时记忆网络，其中，所述第一长短时记忆网络的输入为所述卷积神经网络的输出，所述第一长短时记忆网络的输出为所述第二长短时记忆网络的输入，所述第二长短时记忆网络的输出为所述分类层的输入。

7.根据权利要求1所述的方法，其中，所述尾点检测模型通过以下步骤建立：

获取音频数据集合，其中，音频数据集合中的音频数据对应的音频帧与音频帧类型相对应；

对于音频数据集合中的音频数据，提取该音频数据对应的音频帧的预定义种类的音频特征值，以及生成音频特征值序列；将生成的音频特征值序列作为该音频数据对应的训练样本，以及生成训练样本集，其中，训练样本中的音频特征值与音频帧类型对应；

将所述训练样本集中的训练样本作为初始尾点检测模型的输入，将与输入的训练样本对应的音频帧类型作为所述初始尾点检测模型的期望输出，训练初始尾点检测模型，得到尾点检测模型。

8.根据权利要求7所述的方法，其中，所述音频数据集合通过以下方式生成：

获取原始音频数据集合；

对所述原始音频数据集合中的原始音频数据进行语音识别，以及进行分帧操作得到音频帧；

根据语音识别结果，生成原始音频数据的各个音频帧的音频帧类型；

根据所述原始音频数据集合和所生成的音频帧的音频帧类型，生成音频数据集合。

9.根据权利要求7所述的方法，其中，所述提取该音频数据对应的音频帧的预定义种类的音频特征值，包括：

从音频数据的音频帧中选取部分音频帧，以及提取选取出的部分音频帧的预定义种类的音频特征值。

10.一种用于检测语音尾点的装置，包括：

第一确定单元，被配置成响应于检测到音频流中的语音头点，确定目标音频帧序列中的音频帧对应的音频特征值，其中，所述目标音频帧序列根据所述音频流中的所述语音头点之后的部分生成；

生成单元，被配置成对于所述目标音频帧序列中的音频帧，将该音频帧对应的音频特征值导入预先建立的尾点检测模型，生成该音频帧的音频帧类型，其中，所述尾点检测模型用于表征音频特征值与音频帧类型之间的对应关系，音频帧类型包括：语音类型、头静音类型、中间静音类型和尾静音类型；

第二确定单元，被配置成根据所述目标音频帧序列中的音频帧的音频帧类型，确定所述音频流中的语音尾点。

11.根据权利要求10所述的装置，其中，所述装置还包括：

检测单元，被配置成检测所述音频流中的语音头点。

12.根据权利要求11所述的装置，其中，所述第一确定单元，还被配置成：

确定所述目标音频帧序列；

13.根据权利要求12所述的装置，其中，所述第一确定单元，还被配置成：

14.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。