CN112331188A

CN112331188A - 一种语音数据处理方法、系统及终端设备

Info

Publication number: CN112331188A
Application number: CN201910698594.0A
Authority: CN
Inventors: 陈明
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-02-05

Abstract

本发明适用于计算机技术领域，提供了一种语音数据处理方法、系统及终端设备，包括：获取待处理语音数据；基于双门限端点检测法确定待处理语音数据中的静音音频片段；根据静音音频片段确定音频切分点；根据音频切分点对所述待处理语音数据进行切分，生成目标音频数据，目标音频数据通过基于双门限端点检测法，确定待处理语音数据中的静音音频片段，并根据静音音频片段确定待处理语音数据的切分点，从而对待处理语音数据进行切分，进而得到多个短时段音频，能够准确地在待处理语音数据的停顿处对语音数据进行切分，从而得到大量目标音频数据，实现了长时段的语音数据切分为多个目标音频数据，为语音识别模型提供大量训练数据。

Description

一种语音数据处理方法、系统及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种语音数据处理方法、系统及终端设备。

背景技术

语音识别技术是一种让机器通过识别和理解语音信号，并将语音信号转变为相应的文本或命令的技术，语音识别的目的就是让计算机能够“听懂”人类的语言，语音识别技术主要包括特征提取技术、模型匹配准则及模型训练技术这三个方面。通过特征提取技术提取语音信号中音频特征参数，通过模型匹配准则匹配对应的数学模型，通过模型训练技术对匹配的模型进行训练，以使匹配的模型能够输出对应的文本或命令。其中，模型训练时需要大量语音数据作为训练数据。目前主流的训练音频数据主要来自录音，通过录一句保存一个文件的方式来生成大量的语音数据，而通过一句一句地录音来生成大量的语音数据则会导致获取训练数据的成本高、耗时长且效率低下的问题。

综上所述，目前在获取语音识别模型的训练数据时存在成本高、耗时长且效率低下的问题。

发明内容

有鉴于此，本发明实施例提供了一种语音数据处理方法、系统及终端设备，以解决目前在获取语音识别模型的训练数据时存在成本高、耗时长且效率低下的问题。

本发明的第一方面提供了一种语音数据处理方法，包括：

获取待处理语音数据；

基于双门限端点检测法确定待处理语音数据中的静音音频片段；

根据所述静音音频片段确定音频切分点；

根据所述音频切分点对所述待处理语音数据进行切分，生成目标音频数据。

本发明的第二方面提供了一种语音数据处理系统，包括：

语音获取模块，用于获取待处理语音数据；

标签模块，用于基于双门限端点检测法确定待处理语音数据中的静音音频片段；

标记模块，用于根据所述静音音频片段确定音频切分点；

切分模块，用于根据所述音频切分点对所述待处理语音数据进行切分，生成目标音频数据。

本发明的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理语音数据；

根据所述静音音频片段确定音频切分点；

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理语音数据；

根据所述静音音频片段确定音频切分点；

本发明提供的一种语音数据处理方法、系统及终端设备，基于双门限端点检测法，确定待处理语音数据中的静音音频片段，并根据静音音频片段确定待处理语音数据的切分点，从而对待处理语音数据进行切分，进而得到多个短时段音频，能够准确地在待处理语音数据的停顿处对语音数据进行切分，从而得到大量目标音频数据，实现了长时段的语音数据切分为多个目标音频数据，为语音识别模型提供大量训练数据，有效地解决了目前在获取语音识别模型的训练数据时存在成本高、耗时长且效率低下的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种语音数据处理方法的实现流程示意图；

图2是待切分语音数据的频谱示意图；

图3是切分后目标音频数据的频谱示意图；

图4是本发明实施例二提供的对应实施例一步骤S102的实现流程示意图；

图5是本发明实施例三提供的对应实施例一步骤S103的实现流程示意图；

图6是音频切分点的位置示意图；

图7是本发明实施例四提供的一种语音数据处理系统的结构示意图；

图8是本发明实施例五提供的对应实施例四中检测模块102的结构示意图；

图9是本发明实施例六提供的对应实施例四中标记模块103的结构示意图；

图10是本发明实施例七提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

如图1所示，本实施例提供了一种语音数据处理方法，其具体包括：

步骤S101：获取待处理语音数据。

在具体应用中，上述待处理语音数据可以一段录音数据，也可以是从一段视频数据中提取的音频数据，在此不加以限制。需要说明的是，上述待处理语音数据是指能够进行切分得到多段独立目标音频数据的长时音频数据。还需要说明的是，上述对待处理语音数据进行切分是指在待处理语音数据的停顿处将该待处理语音数据分成多个音频片段。

在一个实施例中，上述待处理语音数据是从一段视频数据中提取得到的音频数据。上述获取待处理语音数据包括：获取视频数据；从所述视频数据中提取待处理语音数据，并将所述待处理语音数据的格式转换为目标格式。

在具体应用中，通过视频数据库下载视频数据，上述视频数据可以是影视片段的视频数据，可以是监控视频的视频数据，还可以是个人录制的视频数据等，在此不加以限制。

在具体应用中，通过ffmpeg(Fast Forward Mpeg)工具从视频数据中提取出待处理语音数据，并将提取的待处理语音数据转换为统一的格式，上述统一的格式包括但不限制于16khz格式、16bit格式、单通道格式和wav格式。需要说明的是，将待处理音数据转换为何种统一格式是根据实际需要进行选择的，在此不加以限制。

步骤S102：基于双门限端点检测法确定待处理语音数据中的静音音频片段。

在具体应用中，在获取到待处理语音数据后，对所述待处理语音数据进行分帧，以生成多个数据帧，并检测每个数据帧是否为静音音频，并基于检测结果确定待处理语音数据中的静音音频片段。需要说明的是，分帧是指对待处理音频数据进行加窗、分段处理，随着窗口的向右移动，对加窗后的音频信号逐步展开处理。

在具体应用中，上述静音音频片段是指满足预设帧数的连续数据帧，连续数据帧均为静音音频。

在具体应用中，双门限端点检测法能够检测出当前帧语音数据的静音和浊音(浊音或清音)。需要说明的是，双门限端点检测法是根据短时能量和短时平均过零率这两个特征值来实现对待切分语音数据的每一帧语音数据的检测，进而确定每一帧语音数据是否为静音音频数据。双门限端点检测法在进行静音和浊音检测时共有三个门限阈值，第一门限阈值为高短时能量阈值，第二门限阈值为低短时能量阈值，第三门限阈值为过零率阈值。需要说明的是，通过高短时能量阈值和低短时能量阈值区分语音数据是否为浊音，根据过零率阈值区分语音数据是否为清音。

在具体应用中，在分帧处理后分别计算每一帧语音数据的短时能量，进而得到待处理语音数据的短时能量，再计算每一帧语音数据的短时过零率，得到待处理语音数据的短时平均过零率，根据双门限端点检测法的高短时能量阈值和低短时能量阈值区分出每一帧语音数据是否为浊音，根据双门限端点检测法的过零率阈值区分每一帧语音数据是否为清音。

若当前帧语音数据即不是浊音也不是清音，则当前帧语音数据为静音语音数据。

需要说明的是，一段语音中包含静音部分和浊音部分，静音部分包含清音、噪音和无声。其中，浊音和清音是我们需要的语音。在进行语音数据切分时，不能破坏浊音段和清音段，清音段和浊音段的音频标签均为浊音标签。

还需要说明的是，上述低短时能量阈值、高短时能量阈值和过零率阈值可以根据多次试验结果进行选择和设置。示例性的，将高短时能量阈值设置为语音数据的所有帧的短时能量的一半，将低短时能量阈值设置为语音数据的静音部分的短时能量与高短时能量阈值之和的一半，将过零率阈值设置为平均过零率的3倍。示例性的，还可以将高短时能量阈值、低短时能量阈值和过零率阈值设置为唯一不变的数值，具体数据可以根据试验结果进行设置。

需要说明的是，上述短时能量是语音信号时域分析中的一种特征参数，由于语音信号的能量随时间变化的比较明显，一般静音部分的能量比浊音部分的能量小，因此能够用来区分静音部分和浊音部分。通过设置一个较高的短时能量(高短时能量阈值)和一个较低的短时能量(低短时能量阈值)就能够区分出语音数据的静音部分和浊音部分。具体的，判断高短时能量阈值是否被超过，若高短时能量阈值被超过则表明语音数据为浊音；通过低短时能量阈值扩大语音段的范围，将能量较低的浊音段也挑选出来，若该语音数据的短时能量没有超过低短时能量阈值，则该语音数据为静音语音数据。短时平均过零率也是语音信号时域分析中的一种特征参数，是指每帧内信号通过零值的次数。由于短时平均过零率可以在一定程度上反映频率的高低，因此在浊音段，一般具有较低的过零率，而在清音段具有较高的过零率，因此能够用来判断清浊音，具体的通过设置过零率阈值，当基于高短时能量阈值和低短时能量阈值确定该语音数据为静音时，判断语音数据的过零率是否超出过零率阈值，若超出过零率阈值则表明该语音数据为清音，若该语音数据的过零率不超过过零率阈值，则该语音数据为静音。

在具体应用中，通过多次试验，将N组预设门限阈值分别作为双门限端点检测法的门限阈值来确定试验语音数据的静音音频片段，并对静音音频片段进行切分处理，获取每次试验的语音切分结果，基于切分后语音数据的完整度(清音段和浊音段是否被破坏)来选择最优的门限阈值，将最优的门限阈值作为本实施例中得到双门限端点检测法的门限阈值。需要说明的是，切分后语音数据的完整度越高，则该试验结果对应的预设门限阈值越优，通过比对多组试验结果，选择最优的预设门限阈值，并固定使用最优的预设门限阈值对待切分语音数据进行标签标记和语音切分。需要说明的是，每组预设门限阈值包括预设高短时能量阈值、预设低短时能量阈值以及预设过零率阈值。

步骤S103：根据所述静音音频片段确定音频切分点。

在具体应用中，在切分语音数据时，只能在静音音频片段进行切割，因此在确定了待处理音频数据的静音音频片段后，根据静音音频片段的时长就能确定音频切分点。

步骤S104：根据所述音频切分点对所述待处理语音数据进行切分，生成目标音频数据。

在具体应用中，利用标记好的音频切分点，对待切分语音数据进行切分，即可得到切分后的目标音频数据。需要说明的是，目标音频数据是指用于语音识别模型的训练数据，是通过对待处理音频数据进行分段后得到音频片段。

在具体应用中，根据每一个静音音频片段标记好的音频切分点找出在待处理语音数据上对应的分割点，然后利用分割点对待处理语音数据进行切分，并将切分得到的语音数据进行保存，便能得到对应的目标音频数据。

需要说明的是，可以根据时间轴对应找出每一个静音音频片段标记好的音频切分点在待处理语音数据上的时间点，该时间点就是分割点。

示例性的，待处理语音数据A.wav有4处停顿(每次停顿时间不低于400ms)，其音频的频谱如图2所示。根据上述语音数据处理方法对上述待切分语音数据A.wav进行切分，得到如图3所示的五个音频数据：A_1.wav、A_2.wav、A_3.wav、A_4.wav和A_5.wav这5段目标音频数据。由图3可以，上述本实施例提供的语音数据切分方法能够有效的切分长时段音频，生成大量的短时段音频片段。

本实施例提供的语音数据处理方法，通过基于双门限端点检测法，确定待处理语音数据中的静音音频片段，并根据静音音频片段确定待处理语音数据的切分点，从而对待处理语音数据进行切分，进而得到多个短时段音频，能够准确地在待处理语音数据的停顿处对语音数据进行切分，从而得到大量目标音频数据，实现了长时段的语音数据切分为多个目标音频数据，为语音识别模型提供大量训练数据，有效地解决了目前在获取语音识别模型的训练数据时存在成本高、耗时长且效率低下的问题。

实施例二：

如图4所示，在本实施例中，实施例一中的步骤S102具体包括：

步骤S201：获取待处理语音数据的第一特征向量。

在具体应用中，获取待切分语音数据的第一特征向量V1(第一特征向量的维度为1x N)。以每256个点为一帧(一帧即为16ms)对第一特征向量进行分帧处理。需要说明的是，N为待切分语音数据的总点数，N为大于零的正整数，第一特征向量为能够表明待切分语音数据的数据特征向量。

步骤S202：基于双门限端点检测法判断第一特征向量的每一帧语音数据是否为静音音频数据。

在具体应用中，基于双门限端点检测法判断出每一帧语音数据是不是静音音频数据。

在具体应用中，双门限端点检测法能够检测出待切分语音数据的静音和浊音(包括清音)，双门限端点检测法根据短时能量和短时平均过零率这两个特征值对每一帧语音数据进行检测，进而确定每一帧语音数据是否为静音音频数据。

需要说明的是，通过双门限端点检测法判断出每一帧音频数据的音频属性，包括：静音音频数据、浊音音频数据及清音音频数据。

步骤S203：若当前帧语音数据为静音音频数据，则标记所述当前帧语音数据为静音帧。

步骤S204：获取所述待处理语音数据中不小于连续预设帧数的静音帧音频数据。

在具体应用中，上述不小于连续预设帧数的静音帧音频数据就是待处理语音数据中的静音音频片段。

在具体应用中，确定了当前帧语音数据是静音帧后，将满足不小于连续预设帧数的静音帧集合从待处理音频数据中筛选出来，则该静音帧集合即为静音音频片段。

在一个实施例中，根据所述双门限端点检测法的检测结果确定每一帧语音数据的音频标签；若当前帧语音数据为静音音频数据，则确定当前帧语音数据的音频标签为静音标签。

在具体应用中，若当前帧语音数据不为静音语音数据，则确定当前帧语音数据的音频数据为浊音标签。

在具体应用中，当前帧语音数据为静音音频数据，则将该帧标记为0，若当前帧语音数据不为静音音频数据，则将该帧标识为1，从而将第一特征向量转换为维度为1xK的第二特征向量V2，其中，K＝N/256。且第二特征向量是1xK的one-hot的向量。

在具体应用中，当音频标签为静音标签时，其对应的第二特征向量的值为0。

在具体应用中，预先设置的静音时长，根据静音时长筛选出待切分语音数据中满足静音时长的静音音频片段。

在具体应用中，根据预先设置的静音时长计算得到对应的帧数，则该帧数即为预设帧数。从待切分语音数据中筛选出所有满足预设帧数的静音音频片段。需要说明的是，静音音频片段即是连续的音频标签均为静音标签的片段。

示例性的，设置静音时长为400ms(长时语音的停顿点)，在第二特征向量V2中找出所有不少于连续25帧(即400ms)都为0的片段。假设这些片段分别为向量P1、P2、P3、…、Pn，其中Pi＝(0,0,0,…,0)，Pi中元素的个数大于等于25。

在一个实施例中，需要预先对双门限端点检测法的高短时能量阈值、低短时能量阈值以及过零率阈值进行设置。因此，上述步骤S102还包括以下步骤：

设置N组预设门限阈值；

基于所述N组预设门限阈值对试验语音数据进行标签标记和语音切分，获取试验结果；

根据试验结果选择所述双门限端点检测法的门限阈值。

需要说明的是，N为大于1的正整数。

在具体应用中，通过多次试验，将N组预设门限阈值分别作为双门限端点检测法的门限阈值来确定试验语音数据的每一帧语音数据的音频标签，并基于该音频标签对语音数据进行切分，获取每次试验的语音切分结果，并基于切分后语音数据的完整度(清音段和浊音段是否被破坏)来选择最优的门限阈值，并将最优的门限阈值作为本实施例中得到双门限端点检测法的门限阈值。需要说明的是，切分后语音数据的完整度越高，则该试验结果对应的预设门限阈值越优，通过比对多组试验结果，选择最优的预设门限阈值，并固定使用最优的预设门限阈值对待切分语音数据进行标签标记和语音切分。需要说明的是，每组预设门限阈值包括预设高短时能量阈值、预设低短时能量阈值以及预设过零率阈值。

实施例三：

如图5所示，在本实施例中，实施例一中的步骤S103具体包括：

步骤S301：获取所述静音音频片段的时长。

步骤S302：根据静音音频片段的时长确定所述静音音频片段的中间点。

在具体应用中，根据静音音频片段的时长，将静音音频片段的时长换算为帧数，通过帧数确定该静音音频片段的中间点。

示例性的，若某一静音音频片段的时长为640ms，则该静音音频片段的帧数为40帧，因此其中间点为帧数为20的位置。

步骤S303：标记所述静音音频片段的中间点为音频切分点。

在具体应用中，找出每个静音音频片段的中间点，并将中间点标记为音频切分点。再根据标记好的音频切分点对应到第一特征向量V1上，得到对应的分割点，然后利用这些分割点对第一特征向量进行切分。切分后就能够得到向量W1、W2、W3、…、Wm，将Wi写入音频中保存，即可得到切分后的音频W1.wav、W2.wav、W3.wav、…、Wm.wav。

示例性的，如图6所示，音频切分点即为帧数大于等于25帧的静音音频片段(数值为0)的中间点。需要说明的是，当静音音频片段大于等于25帧时，静音音频片段的中间点即为切分点；当静音音频片段小于25帧时，静音音频片段不会被切分。

实施例四：

如图7所示，本实施例提供一种语音数据处理系统100，用于执行实施例一中的方法步骤，其包括语音获取模块101、检测模块102、标记模块103以及切分模块104。

语音获取模块101用于获取待处理语音数据。

检测模块102用于基于双门限端点检测法确定待处理语音数据中的静音音频片段。

标记模块103用于根据所述静音音频片段确定音频切分点。

切分模块104用于根据所述音频切分点对所述待处理语音数据进行切分，生成目标音频数据。

需要说明的是，本发明实施例提供的语音数据处理系统，由于与本发明图1所示方法实施例基于同一构思，其带来的技术效果与本发明图1所示方法实施例相同，具体内容可参见本发明图1所示方法实施例中的叙述，此处不再赘述。

因此，本实施例提供的一种语音数据处理系统，通过基于双门限端点检测法，确定待处理语音数据中的静音音频片段，并根据静音音频片段确定待处理语音数据的切分点，从而对待处理语音数据进行切分，进而得到多个短时段音频，能够准确地在待处理语音数据的停顿处对语音数据进行切分，从而得到大量目标音频数据，实现了长时段的语音数据切分为多个目标音频数据，为语音识别模型提供大量训练数据，有效地解决了目前在获取语音识别模型的训练数据时存在成本高、耗时长且效率低下的问题。

实施例五：

如图8所示，在本实施例中，实施例四中的检测模块102包括用于执行图4所对应的实施例中的方法步骤的结构，其包括第一向量获取单元201、检测单元202、标记单元203以及获取单元204。

第一向量获取单元201用于获取待处理语音数据的第一特征向量。

判断单元202用于基于双门限端点检测法判断第一特征向量的每一帧语音数据是否为静音音频数据。

静音标签单元203用于若当前帧语音数据为静音音频数据，则标记所述当前帧语音数据为静音帧。

浊音标签单元204用于获取所述待处理语音数据中不小于连续预设帧数的静音帧音频数据。则所述静音帧音频数据为所述待处理语音数据中的静音音频片段。

实施例六：

如图9所示，在本实施例中，实施例四中的标记模块103包括用于执行图5所对应的实施例中的方法步骤的结构，其包括时长单元301、确定单元302以及标记单元303。

筛选单元301用于获取所述静音音频片段的时长。

确定单元302用于根据静音音频片段的时长确定所述静音音频片段的中间点。

标记单元303用于标记所述静音音频片段的中间点为音频切分点。

实施例七：

图10是本发明实施例五提供的终端设备的示意图。如图10所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如程序。所述处理器70执行所述计算机程序72时实现上述各个图片处理方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器70执行所述计算机程序72时实现上述系统实施例中各模块/单元的功能，例如图7所示模块101至104的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如，所述计算机程序72可以被分割成语音获取模块、检测模块、标记模块以及切分模块，各模块具体功能如下：

语音获取模块，用于获取待处理语音数据；

标记模块，用于根据所述静音音频片段确定音频切分点；

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端管理服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图10仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述无线终端中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，系统或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述设置为分离部件说明的单元可以是或者也可以不是物理上分开的，设置为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并设置为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取待处理语音数据；

根据所述静音音频片段确定音频切分点；

2.根据权利要求1所述的语音数据处理方法，其特征在于，所述基于双门限端点检测法确定待处理语音数据中的静音音频片段包括：

获取待处理语音数据的第一特征向量；

基于双门限端点检测法判断第一特征向量的每一帧语音数据是否为静音音频数据；

若当前帧语音数据为静音音频数据，则标记所述当前帧语音数据为静音帧；

获取所述待处理语音数据中不小于连续预设帧数的静音帧音频数据。

3.根据权利要求2所述的语音数据处理方法，其特征在于，所述基于双门限端点检测法判断第一特征向量的每一帧语音数据是否为静音音频数据，包括：

根据所述双门限端点检测法的检测结果确定每一帧语音数据的音频标签；

若当前帧语音数据为静音音频数据，则确定当前帧语音数据的音频标签为静音标签。

4.根据权利要求1所述的语音数据处理方法，其特征在于，在基于双门限端点检测法确定待处理语音数据中的静音音频片段之前，还包括：

对所述待处理音频数据进行分帧。

5.根据权利要求1所述的语音数据处理方法，其特征在于，所述根据所述静音音频片段确定音频切分点，包括：

获取所述静音音频片段的时长；根据所述静音音频片段的时长确定所述静音音频片段的中间点；

标记所述静音音频片段的中间点为音频切分点。

6.根据权利要求2所述的语音数据处理方法，其特征在于，在获取所述待处理语音数据的第一特征向量之前，还包括：

设置N组预设门限阈值；

根据试验结果选择所述双门限端点检测法的门限阈值，所述门限阈值用于判断语音数据是否为静音语音数据。

7.根据权利要求1所述的语音数据处理方法，其特征在于，所述获取待处理语音数据，包括：

获取视频数据；

从所述视频数据中提取待处理语音数据，并将所述待处理语音数据的格式转换为目标格式。

8.一种语音数据处理系统，其特征在于，包括：

语音获取模块，用于获取待处理语音数据；

检测模块，用于基于双门限端点检测法确定待处理语音数据中的静音音频片段；

标记模块，用于根据所述静音音频片段确定音频切分点；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音数据处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音数据处理方法的步骤。