CN110310626A

CN110310626A - 语音训练数据生成方法、装置、设备及可读存储介质

Info

Publication number: CN110310626A
Application number: CN201910432661.4A
Authority: CN
Inventors: 彭捷
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-10-08

Abstract

本发明涉及数据采集技术领域，公开了一种语音训练数据生成方法、装置、设备及可读存储介质，语音训练数据生成方法包括：获取音频文件以及所述音频文件对应的原文文本；对所述音频文件进行静音点检测，确定所述音频文件的静音点；根据所述静音点，将所述音频文件拆分为若干个音频片段文件；通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；从所述原文文本中确定所述识别结果对应的文本片段；将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

Description

语音训练数据生成方法、装置、设备及可读存储介质

技术领域

本发明涉及数据采集技术领域，尤其涉及语音训练数据生成方法、装置、设备及可读存储介质。

背景技术

近年来，基于深度神经元网络的语音识别技术已经越来越成熟，该技术需要利用大量语音数据训练深度神经元网络从而获取语音识别模型。

而目前普遍采用人工录制以及人工标注的方式，得到用于训练深度神经元网络的语音数据，人工工作量大、语音数据获取周期长，使得训练性能优良的语音识别模型需要付出较高的代价。

发明内容

本发明的主要目的在于提供一种语音训练数据生成方法、装置、设备及可读存储介质，旨在解决现有技术中生成大批量语音训练数据的效率低且成本高的技术问题。

为实现上述目的，本发明提供一种语音训练数据生成方法，所述语音训练数据生成方法包括以下步骤：

获取音频文件以及所述音频文件对应的原文文本；

对所述音频文件进行静音点检测，确定所述音频文件的静音点；

根据所述静音点，将所述音频文件拆分为若干个音频片段文件；

通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；

从所述原文文本中确定所述识别结果对应的文本片段；

将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。

可选的，所述对所述音频文件进行静音点检测，确定所述音频文件的静音点的步骤包括：

计算所述音频文件中每一语音帧的能熵比；

将能熵比小于预设阈值的语音帧标记为静音点。

可选的，所述从所述原文文本中确定所述识别结果对应的文本片段的步骤包括：

对所述原文文本进行切分，得到多个原文文本片段；

从所述多个原文文本片段中，确定所述识别结果对应的文本片段。

可选的，所述对所述原文文本进行切分，得到多个原文文本片段的步骤包括：

检测所述原文文本中是否存在目标字符；

若所述原文文本中存在目标字符，则将所述目标字符转换成其对应的中文字符，得到新的原文文本；

基于所述新的原文文本中的标点符号，对所述新的原文文本进行切分，得到多个原文文本片段。

可选的，所述从所述多个原文文本片段中，确定所述识别结果对应的文本片段的步骤包括：

计算所述识别结果与每个原文文本片段的编辑距离，得到所述识别结果对应的多个编辑距离；

从所述多个编辑距离中确定所述识别结果对应的最小编辑距离；

检测所述最小编辑距离是否小于预设阈值；

若最小编辑距离小于预设阈值，则将所述最小编辑距离对应的原文文本片段，作为所述识别结果对应的文本片段。

可选的，在所述将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据的步骤之后，还包括：

获取所述音频文件的场景标签；

基于所述场景标签对所述若干组语音训练数据进行标识。

可选的，所述基于所述场景标签对所述若干组语音训练数据进行标识的步骤包括：

获取所述场景标签的标识符，将所述标识符添加至所述若干组语音训练数据的属性信息中。

此外，为实现上述目的，本发明还提供一种语音训练数据生成装置，所述语音训练数据生成装置包括：

获取模块，用于获取音频文件以及所述音频文件对应的原文文本；

静音点检测模块，用于对所述音频文件进行静音点检测，确定所述音频文件的静音点；

拆分模块，用于根据所述静音点，将所述音频文件拆分为若干个音频片段文件；

识别模块，用于通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；

确定模块，用于从所述原文文本中确定所述识别结果对应的文本片段；

关联模块，用于将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。

可选地，所述静音点检测模块包括：

第一计算子单元，用于计算所述音频文件中每一语音帧的能熵比；

标记子单元，用于将能熵比小于预设阈值的语音帧标记为静音点。

可选地，所述确定模块包括：

切分单元，用于对所述原文文本进行切分，得到多个原文文本片段；

确定单元，用于从所述多个原文文本片段中，确定所述识别结果对应的文本片段。

可选地，所述切分单元包括：

第一检测子单元，用于检测所述原文文本中是否存在目标字符；

替换子单元，用于若所述原文文本中存在目标字符，则将所述目标字符转换成其对应的中文字符，得到新的原文文本；

切分子单元，用于基于所述新的原文文本中的标点符号，对所述新的原文文本进行切分，得到多个原文文本片段。

可选地，所述确定单元包括：

第二计算子单元，还用于计算所述识别结果与每个原文文本片段的编辑距离，得到所述识别结果对应的多个编辑距离；

确定子单元，用于从所述多个编辑距离中确定所述识别结果对应的最小编辑距离；

第二检测子单元，还用于检测所述最小编辑距离是否小于预设阈值；

判定子单元，用于若最小编辑距离小于预设阈值，则将所述最小编辑距离对应的原文文本片段，作为所述识别结果对应的文本片段。

可选地，所述获取模块，还用于获取所述音频文件的场景标签，所述语音训练数据生成装置还包括：

标识模块，用于基于所述场景标签对所述若干组语音训练数据进行标识。

可选的，所述标识模块还包括：

标识单元，用于获取所述场景标签的标识符，将所述标识符添加至所述若干组语音训练数据的属性信息中。

此外，为实现上述目的，本发明还提供一种语音训练数据生成设备，所述语音训练数据生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序，所述语音训练数据生成程序被所述处理器执行时实现如上所述的语音训练数据生成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如上所述的语音训练数据生成方法的步骤。

本发明中，基于音频文件中的静音点，将音频文件拆分成若干音频片段文件，通过通用模型对若干个音频片段进行识别，得到每个音频片段对应的识别结果。由于通用模型的识别准确率不够高，因此，从音频文件对应的原文文本中查找识别结果对应的文本片段，从而将识别结果对应的音频片段以及文本片段关联为一组语音训练数据。通过本发明，大大提高了生成语音训练数据的效率，且降低了生成成本。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图；

图2为本发明语音训练数据生成方法一实施例的流程示意图；

图3为图2中步骤S50的细化流程示意图；

图4为本发明语音训练数据生成装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的语音训练数据生成设备结构示意图。

本发明实施例语音训练数据生成设备可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备。

如图1所示，该语音训练数据生成设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的语音训练数据生成设备结构并不构成对语音训练数据生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音训练数据生成程序。

在图1所示的语音训练数据生成设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音训练数据生成程序，并执行以下语音训练数据生成方法的各个实施例的操作。

参照图2，图2为本发明语音训练数据生成方法一实施例的流程示意图。

本发明语音训练数据生成方法一实施例中，语音训练数据生成方法包括：

步骤S10，获取音频文件以及所述音频文件对应的原文文本；

本实施例中，可以从网络上获取音频文件，且一并获取音频文件对应的原文文本。例如一些有声小说作品，获取有声小说作品的音频文件以及小说原文文本。以下以某有声小说作品的音频文件以及原文文本为例，进行说明。

步骤S20，对所述音频文件进行静音点检测，确定所述音频文件的静音点；

本实施例中，可以通过计算音频文件中每一语音帧的能熵比的方式，确定音频文件中的静音点。

一实施例中，实施例中，首先计算音频文件的能熵比。能熵比是指每一语音帧的对数能量与短时谱熵的比值。针对每帧语音帧，若该语音帧的能熵比小于预设的阈值，则标记该语音帧为静音点(即静音点)。具体的，例如将阈值设置为0.1，一音频文件包括语音帧1～语音帧x，若语音帧8、语音帧9、语音帧10的能熵比均小于0.1，则标记语音帧8、语音帧9、语音帧10为该音频文件的静音点。

步骤S30，根据所述静音点，将所述音频文件拆分为若干个音频片段文件；

本实施例中，在录制音频文件时，朗读者是对着原文文本进行朗读，在朗读时会根据原文文本中的“，”以及“。”等标点符号，进行断句。例如原文文本为“专利文献作为技术信息最有效的载体，囊括了全球90％以上的最新技术情报”，由于“，”的存在，在朗读“体”和“囊”时，中间会有些许停顿，从而导致音频文件中会存在对应的静音点。通过检测音频文件中的静音点，即可根据检测到的静音点，将音频文件拆分成若干个音频片段文件。

步骤S40，通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；

本实施例中，语音识别是分领域的，一般会对专有领域训练对应的专用模型，识别效果会更准确。例如针对法律的、医学的、客服的等，通用模型是针对这些专用模型来说的，对大部分场景都可以识别，但精度会比专用模型在特定领域上差一点。通过通用模型对若干个音频片段进行识别，即可得到每个音频片段对应的识别结果。

步骤S50，从所述原文文本中确定所述识别结果对应的文本片段；

本实施例中，由于识别结果是通过通用模型得到的，导致识别结果的准确性是不够高的，因此，需要基于原文文本对识别结果进行纠错处理。纠错处理步骤如下：

首先对原文文本进行切分，得到多个原文文本片段，然后从所述多个原文文本片段中，确定所述识别结果对应的文本片段。

在一实施例中，可根据原文文本中的标点符号，将原文文本切分成多个原文文本片段，同时删除原文文本中的标点符号。例如，一原文文本为“这种文件记载了发明创造的内容，并且在一定时期内产生这样一种法律状态”，经过切分后，得到原文文本片段1：“这种文件记载了发明创造的内容”以及原文文本片段2：“并且在一定时期内产生这样一种法律状态”。若存在n个识别结果，以及m个原文文本片段。则分别计算每个识别结果与每个原文文本片段的相似度。对一个识别结果而言，即可得到对应的m个相似度，从m个相似度中选取最大相似度，然后以最大相似度对应的原文文本片段作为该识别结果对应的文本片段。如此，即可得到每个识别结果对应的文本片段。

步骤S60，将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。

本实施例中，基于步骤S10至步骤S50，得到每个识别结果对应的音频片段以及文本片段，则将每个识别结果对应的音频片段以及文本片段关联为一组语音训练数据，即可得到多组语音训练数据。

本实施例中，基于音频文件中的静音点，将音频文件拆分成若干音频片段文件，通过通用模型对若干个音频片段进行识别，得到每个音频片段对应的识别结果。由于通用模型的识别准确率不够高，因此，从音频文件对应的原文文本中查找识别结果对应的文本片段，从而将识别结果对应的音频片段以及文本片段关联为一组语音训练数据。通过本实施例，大大提高了生成语音训练数据的效率，且降低了生成成本。

进一步地，在本发明语音训练数据生成方法一实施例中，参照图3，图3为图2中步骤S50的细化流程示意图。

本实施例中，步骤S50包括：

步骤S501，对所述原文文本进行切分，得到多个原文文本片段；

本实施例中，可根据原文文本中的标点符号，将原文文本切分成多个原文文本片段，同时删除原文文本中的标点符号。例如，一原文文本为“这种文件记载了发明创造的内容，并且在一定时期内产生这样一种法律状态”，经过切分后，得到原文文本片段1：“这种文件记载了发明创造的内容”以及原文文本片段2：“并且在一定时期内产生这样一种法律状态”。

步骤S502，从所述多个原文文本片段中，确定所述识别结果对应的文本片段。

本实施例中，若存在n个识别结果，以及m个原文文本片段。则分别计算每个识别结果与每个原文文本片段的相似度。对一个识别结果而言，即可得到对应的m个相似度，从m个相似度中选取最大相似度，然后以最大相似度对应的原文文本片段作为该识别结果对应的文本片段。如此，即可得到每个识别结果对应的文本片段。

由于识别结果是通过通用模型得到的，导致识别结果的准确性是不够高的。在本实施例中，基于原文文本对识别结果进行纠错处理，提高了识别结果的准确性。

进一步地，在本发明语音训练数据生成方法一实施例中，步骤S501包括：

步骤S5011，检测所述原文文本中是否存在目标字符；

本实施例中，由于有些字符的文字表现形式与语音是不对应的。例如文字表现形式为“7％”，对应的语音是“百分之七”；文字表现形式为对应的语音为“七分之一”。当原文文本片段为“7％”时，若识别结果为“百分之七”，则该识别结果与原文文本是不匹配的。因此，需要将类似于“x％”、这样的目标字符，替换为中文字符。

步骤S5012，若所述原文文本中存在目标字符，则将所述目标字符转换成其对应的中文字符，得到新的原文文本；

本实施例中，当检测到原文文本中存在类似于“x％”、这样的目标字符，将其替换为对应的中文字符。例如将“7％”，替换为“百分之七”；将替换为“七分之一”。具体可通过正则表达式的技术实现。正则表达式，又称规则表达式。(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

步骤S5013，基于所述新的原文文本中的标点符号，对所述新的原文文本进行切分，得到多个原文文本片段。

本实施例中，因为在拆分音频文件时，是根据音频文件中的静音点进行拆分，而静音点是因为在录制音频文件时，由于朗读者根据原文文本中的一些标点符号(如逗号、句号等)进行断句而产生，为了使后续确定的识别结果对应的文本片段更加准确，在得到新的原文文本后，可根据新的原文文本中的标点符号，将新的原文文本切分成多个原文文本片段，同时删除新的原文文本中的标点符号。例如，一新的原文文本为“这种文件记载了发明创造的内容，并且在一定时期内产生这样一种法律状态”，经过切分后，得到原文文本片段1：“这种文件记载了发明创造的内容”以及原文文本片段2：“并且在一定时期内产生这样一种法律状态”。

进一步地，在本发明语音训练数据生成方法一实施例中，步骤S502包括：

步骤S5021，计算所述识别结果与每个原文文本片段的编辑距离，得到所述识别结果对应的多个编辑距离；

本实施例中，逐一计算每个识别结果与每个原文文本片段的编辑距离，得到每个识别结果对应的多个编辑距离。编辑距离越小，则识别结果与对应的原文文本片段越相似。

其中编辑距离(EditDistance)是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。以莱文斯坦距离为例，莱文斯坦距离又称Levenshtein距离，是编辑距离的一种。指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如将kitten编辑转成sitting，需要的最小编辑距离为3，具体编辑处理过程如下：

1、sitten(k→s)

2、sittin(e→i)

3、sitting(→g)

步骤S5022，从所述多个编辑距离中确定所述识别结果对应的最小编辑距离；

以某一识别结果为例，得到识别结果对应的多个编辑距离，然后从多个编辑距离中确定该识别结果对应的最小编辑距离。

步骤S5023，检测所述最小编辑距离是否小于预设阈值；

本实施例中，编辑距离代表了识别结果与对应的原文文本片段的相似度，且编辑距离越小，则识别结果与对应的原文文本片段越相似。因此，可设置一阈值，比如3(该值可根据实际需要进行设置)。若最小编辑距离大于该预设阈值，则说明识别结果与最小编辑距离对应的原文文本片段差别较大，该错误可能是由于前述对音频文件进行切分以及对原始文本进行切分的处理造成的，因此无法将当前最小编辑距离对应的原文文本片段，作为所述识别结果对应的文本片段。

步骤S5024，若最小编辑距离小于预设阈值，则将所述最小编辑距离对应的原文文本片段，作为所述识别结果对应的文本片段。

本实施例中，若最小编辑距离小于预设阈值，则说明识别结果与最小编辑距离对应的原文文本片段差别很小，该差别很大可能是由于通用模型识别精度不够造成的，因此，将最小编辑距离对应的原文文本片段，作为所述识别结果对应的文本片段，即实现了对识别结果进行纠错。然后将经过纠错处理的结果与其对应的音频片段作为一组训练数据，使得训练数据的可靠性更高，从而提高了对语音识别模型的训练效果。

进一步地，在本发明语音训练数据生成方法一实施例中，对所述音频文件进行静音点检测，确定所述音频文件的静音点的步骤包括：

计算所述音频文件中每一语音帧的能熵比，并将能熵比小于预设阈值的语音帧标记为静音点。

本实施例中，在录制音频文件时，朗读者是对着原文文本进行朗读，在朗读时会根据原文文本中的“，”以及“。”等标点符号，进行断句。例如原文文本为“专利文献作为技术信息最有效的载体，囊括了全球90％以上的最新技术情报”，由于“，”的存在，在朗读“体”和“囊”时，中间会有些许停顿，从而导致音频文件中会存在对应的静音点。本实施例中，首先计算音频文件的能熵比。能熵比是指每一语音帧的对数能量与短时谱熵的比值。针对每帧语音帧，若该语音帧的能熵比小于预设的阈值，则标记该语音帧为静音点(即静音点)。具体的，例如将阈值设置为0.1，一音频文件包括语音帧1～语音帧x，若语音帧8、语音帧9、语音帧10的能熵比均小于0.1，则标记语音帧8、语音帧9、语音帧10为该音频文件的静音点。针对一由语音帧1～语音帧x组成的音频文件而言，若语音帧8、语音帧9、语音帧10的能熵比均小于0.1，则标记语音帧8、语音帧9、语音帧10为该音频文件的静音点，根据当前标记的静音点，将音频文件拆分为语音帧1～语音帧7组成的音频片段文件以及语音帧11～语音帧x组成的音频片段文件。

进一步地，在本发明语音训练数据生成方法一实施例中，在步骤S60之后，还包括：

获取所述音频文件的场景标签；

基于所述场景标签对所述若干组语音训练数据进行标识。

本实施例中，考虑到在训练语音识别模型时，可能是要训练出用于某个特定领域的语音识别模型，例如用于医学领域的语音识别模型、用于法律领域的语音识别模型等。因此，在得到语音训练数据后，获取该语音训练数据的原始来源(即音频文件)的场景标签，场景标签即音频文件对应的技术领域名称对应的标签，例如预先设置医学领域对应的场景标签为A、法律领域对应的场景标签为B。然后基于场景标签对得到的语音训练数据进行标识。例如，场景标签为A，则对得到的若干组语音训练数据设置标识A。后续，若需要训练用于医学领域的语音识别模型，则提取该标识为A的若干组语音训练数据，方便了训练过程的数据选取。语音训练数据包括音频片段以及对应的文本片段，其本质来源是完整的音频文件，音频文件的场景标签是人为预先设置的，后续得到语音训练数据后，根据场景标签对语音训练数据进行标识，具体方式可以是在语音训练数据的属性信息中添加场景标签的标识符。

进一步地，基于所述场景标签对所述若干组语音训练数据进行标识的步骤包括：

本实施例中，音频文件的场景标签是人为预先设置的，例如预先设置医学领域对应的场景标签为A、法律领域对应的场景标签为B。且设置场景标签A的标识符为aa，场景标签B的标识符为bb。若当前获取的音频文件的场景标签为A，则将aa添加至若干组语音训练数据的属性信息中，以供后续需要训练医学领域的语音识别模型时，获取属性信息中包含标识符aa的语音训练数据即可。

参照图4，图4为本发明语音训练数据生成装置一实施例的功能模块示意图。

本发明语音训练数据生成装置一实施例中，语音训练数据生成装置包括：

获取模块10，用于获取音频文件以及所述音频文件对应的原文文本；

静音点检测模块20，用于对所述音频文件进行静音点检测，确定所述音频文件的静音点；

拆分模块30，用于根据所述静音点，将所述音频文件拆分为若干个音频片段文件；

识别模块40，用于通过通用模型对所述若干个音频片段进行识别，得到每个音频片段对应的识别结果；

确定模块50，用于从所述原文文本中确定所述识别结果对应的文本片段；

关联模块60，用于将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如上语音训练数据生成方法的各个实施例的操作。

本发明可读存储介质即计算机可读存储介质，本发明可读存储介质的具体实施例与上述语音训练数据生成方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音训练数据生成方法，其特征在于，所述语音训练数据生成方法包括以下步骤：

获取音频文件以及所述音频文件对应的原文文本；

从所述原文文本中确定所述识别结果对应的文本片段；

2.如权利要求1所述的语音训练数据生成方法，其特征在于，所述对所述音频文件进行静音点检测，确定所述音频文件的静音点的步骤包括：

计算所述音频文件中每一语音帧的能熵比；

将能熵比小于预设阈值的语音帧标记为静音点。

3.如权利要求1所述的语音训练数据生成方法，其特征在于，所述从所述原文文本中确定所述识别结果对应的文本片段的步骤包括：

对所述原文文本进行切分，得到多个原文文本片段；

4.如权利要求3所述的语音训练数据生成方法，其特征在于，所述对所述原文文本进行切分，得到多个原文文本片段的步骤包括：

检测所述原文文本中是否存在目标字符；

5.如权利要求3所述的语音训练数据生成方法，其特征在于，所述从所述多个原文文本片段中，确定所述识别结果对应的文本片段的步骤包括：

检测所述最小编辑距离是否小于预设阈值；

6.如权利要求1至5中任一项所述的语音训练数据生成方法，其特征在于，在所述将所述识别结果对应的音频片段以及文本片段关联为一组语音训练数据，得到若干组语音训练数据的步骤之后，还包括：

获取所述音频文件的场景标签；

基于所述场景标签对所述若干组语音训练数据进行标识。

7.如权利要求6所述的语音训练数据生成方法，其特征在于，所述基于所述场景标签对所述若干组语音训练数据进行标识的步骤包括：

8.一种语音训练数据生成装置，其特征在于，所述语音训练数据生成装置包括：

9.一种语音训练数据生成设备，其特征在于，所述语音训练数据生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音训练数据生成程序，所述语音训练数据生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有语音训练数据生成程序，所述语音训练数据生成程序被处理器执行时实现如权利要求1至7中任一项所述的语音训练数据生成方法的步骤。