CN117975934A

CN117975934A - 音频文本对的获取方法和装置、电子设备、存储介质

Info

Publication number: CN117975934A
Application number: CN202311871259.9A
Authority: CN
Inventors: 李亚伟; 胡云燎; 张博闻; 杨明祺
Original assignee: Shanghai Xiyu Jizhi Technology Co ltd
Current assignee: Shanghai Xiyu Jizhi Technology Co ltd
Priority date: 2023-12-31
Filing date: 2023-12-31
Publication date: 2024-05-03

Abstract

本申请提供了一种音频文本对的获取方法和装置，其中，该获取方法包括：获取与目标音频文件关联的原始文本；对所述目标音频文件进行语音识别，得到带时间戳的识别文本；对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；将所述文本对齐结果，切割为多个初始子段落；统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。通过上述方案可以准确高效地获取大量的音频文本对作为训练数据。

Description

音频文本对的获取方法和装置、电子设备、存储介质

技术领域

本申请涉及音频处理技术领域，具体地涉及音频文本对的获取方法和装置以及相关的电子设备和存储介质。

背景技术

TTS(Text To Speech，语音合成)是通过文本等自动合成语音，对于TTS而言，在模型训练的时候，需要大量的短条的音频文本对作为训练数据。目前，这些训练数据的获取主要有如下两种方式：

1)人工录制文本对应的语音，以得到训练数据，这种方式得到数据的成本较高，难获得大量的数据；

2)在仅有语音数据时，通过语音识别，将语音数据转换为对应的文本，并通过交叉验证等方式，得到训练数据，这种方式得到样本的准确率较低，尤其对于文本中的标点符号较难识别，很难得到准确的标点符号。

针对上述准确高效地获取大量的音频文本对作为训练数据，目前尚未提出有效的解决方案。

此背景技术的说明旨在帮助理解相关领域内的相关技术，并不代表承认背景技术内容属于现有技术。

发明内容

本申请目的在于提供一种音频文本对的获取方法和装置，可以准确高效地获取大量的音频文本对作为训练数据。

第一方面，本申请提供了一种音频文本对的获取方法，包括：

获取与目标音频文件关联的原始文本；

对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

将所述文本对齐结果，切割为多个初始子段落；

统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。

在一些实施例中，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

在当前位置点所述识别文本为文字内容，所述原始文本为空的情况下，删除所述识别文本当前位置点的文字内容；

在当前位置点所述原始文本为文字内容，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的文字内容；

在当前位置点所述识别文本与所述原始文本都存在文字内容，但文字内容不一致的情况下，将所述识别文本当前位置点的文字内容转换为第一拼音，将所述原始文本当前位置点的文字内容转换为第二拼音，确定所述第一拼音与所述第二拼音是否一致，在拼音一致的情况下，确定当前位置点已对齐，在拼音不一致的情况下，将识别文本当前位置点替换为原始文本当前位置点的文字内容。

确定当前位置点所述识别文本是否为预设语气词；

在当前位置点所述识别文本为预设语气词的情况下，将原始文本当前位置点替换为识别文本当前位置点的预设语气词。

在当前位置点所述原始文本为标点符号，所述识别文本是与所述原始文本不同的标点符号的情况下，将识别文本当前位置点的标点符号替换为原始文本当前位置点的标点符号；

在当前位置点所述原始文本为标点符号，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的标点符号；

在当前位置点所述识别文本为标点符号，所述原始文本无标点符号的情况下，删除所述识别文本当前位置点的标点符号。

在一些实施例中，统计所述多个初始子段落中各个初始子段落的字错率，包括：

统计当前初始子段落中字符总数；

根据文本对齐结果，统计当前初始子段落中存在替换、删除、插入操作的字符数；

确定存在替换、删除、插入操作的字符数占字符总数的比例；

将确定的比例，作为当前初始子段落的字错率。

在一些实施例中，根据各个初始子段落的字错率进行筛选，得到多个目标子段落，包括：

获取预设的判定阈值；

删除初始子段落中子错率超出所述判定阈值的段落，得到多个目标子段落。

在一些实施例中，将所述文本对齐结果，切割为多个初始子段落，包括：

获取预设的切分标点和/或预设的切分字长；

根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。

在一些实施例中，所述音频文本对为文本在前、音频在后的形式，用于作为对语音合成模型进行训练的第一训练数据。

在一些实施例中，所述音频文本对为音频在前、文本在后的形式，用于作为对语音识别模型进行训练的第二训练数据。

第二方面，本申请提供了一种音频文本对的获取装置，包括：

获取模块，用于获取与目标音频文件关联的原始文本；

识别模块，用于对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

对齐模块，用于对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

切割模块，用于将所述文本对齐结果，切割为多个初始子段落；

筛选模块，用于统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

生成模块，用于根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。

在一些实施例中，所述对齐模块包括：

第一处理单元，用于在当前位置点所述识别文本为文字内容，所述原始文本为空的情况下，删除所述识别文本当前位置点的文字内容；

第二处理单元，用于在当前位置点所述原始文本为文字内容，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的文字内容；

第三处理单元，用于在当前位置点所述识别文本与所述原始文本都存在文字内容，但文字内容不一致的情况下，将所述识别文本当前位置点的文字内容转换为第一拼音，将所述原始文本当前位置点的文字内容转换为第二拼音，确定所述第一拼音与所述第二拼音是否一致，在拼音一致的情况下，确定当前位置点已对齐，在拼音不一致的情况下，将识别文本当前位置点替换为原始文本当前位置点的文字内容。

在一些实施例中，所述切割模块包括：

获取单元，用于获取预设的切分标点和/或预设的切分字长；

切割单元，用于根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。

第三方面，本申请提供了一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请提供的音频文本对的获取方法，通过获取与目标音频文件关联的原始文本，和基于目标音频文件识别得到的带时间戳的识别文本，进行文本对齐，并将其切割为多个初始子段落，然后基于各个初始子段落的字错率进行筛选，以得到多个目标子段落。进一步，再根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，从而最终得到多个音频文本对，可以将这些音频文本对作为训练数据对模型进行训练。通过上述方案解决了现有的音频文本对获取所存在的成本过高、准确度较低的技术问题，达到了准确高效得到多个音频文本对的技术效果。

本申请实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

为了更明确地阐明本申请的实施例或现有技术中的技术方案，以下将对所需使用的附图进行简要介绍。需要明确的是，以下描述中的附图仅涵盖本申请的一些实施例，本领域的普通技术人员可以根据这些附图获得其他附图，而无需进行创造性工作，这些附图的目的是更好地说明技术细节以助于理解本申请的实施方式，其中：

图1是本申请提供的音频文本对的获取方法一种实施例的方法流程图；

图2是本申请提供的文本对齐处理时的逻辑示意图；

图3是本申请提供的长文本切分示意图；

图4是本申请提供的由长文本得到音频文本的流程示意图；

图5是本申请提供的对齐结果示例图；

图6是本申请提供的音频文本对的获取装置一种实施例的模块结构示意图；

图7是本申请提供的一种音频文本对的获取方法的电子设备的硬件结构框图。

具体实施方式

下面将对本申请的示例性实施例进行详细说明，示例的图示已在附图中展示。当涉及附图时，除非另有说明，不同附图中的相同数字或标记表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式，相反，它们仅是如本申请权利要求书所详述的、本说明书一个或多个实施例所涵盖的装置和方法的一些方面的示例。

在本说明书中所采用的术语“包括”及其变体均表示广泛包容，即“包括但不限于”所列事项。除非有特别申明，术语“或”指的是“和/或”，术语“基于”表示依赖于，或至少部分依赖于，术语“一个示例实施例”和“一个实施例”指的是至少一个示例实施例，术语“另一实施例”表示至少一个不同的实施例。术语“第一”、“第二”等等可指代不同或相同的对象。在下文中还可能包括其他明确的和隐含的定义。

图1是本申请提供的音频文本对的获取方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的，如图1所示，上述的音频文本对的获取方法可以包括如下步骤：

步骤101：获取与目标音频文件关联的原始文本；

其中，目标音频文件可以是电子书的音频，相应的，原始文本可以是电子书，目标音频可以是电视台的节目，相应的，原始文本为电视节目的台本，目标音频文件可以是电影，相应的，原始文本为电影对应的台词文本。对于这些资源都是可以从网络上或者资源池中获取到的。在获取到这些文件后，可以进行关联存储，例如：电影音频1-台词文本1、电影音频2-台词文本2…电子书音频1-电子书文本1、电子书音频2-电子书文本2。这些关联存储的文件都可以作为资源进行后续的音频文本对提取。

步骤102：对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

具体的，可以通过语音识别技术，对音频文件进行识别，即，识别出音频对应的文本，并记录每个文本字段对应音频的时间点，即，时间戳，从而形成带有时间戳的识别文本，基于文本内容可以定位到对应的音频位置。

然而，考虑到对于识别文本而言，在得到的过程中是通过语音识别技术实现的，有时会存在识别不准确的问题，例如：文字识别偏差、标点符合识别错误等，为了对这些可能的错误进行纠正，引入了视频文件对应的原始文本，两者进行比较处理，以实现识别文本的矫正。

步骤103：对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

在进行原始文本和识别文件对齐处理的时候，可以但不限于按照如下方式进行，如图2所示：

1)针对文本不一致的情况：

即，针对文字内容不同的情况下，优先以原始文本为准。

2)针对标点符号不一致的情况：

即，针对文字内容不同的情况下，也优先以原始文本为准。

3)针对文本中出现语气词的情况：

确定当前位置点所述识别文本是否为预设语气词；在当前位置点所述识别文本为预设语气词的情况下，将原始文本当前位置点替换为识别文本当前位置点的预设语气词。

即，针对语气词，优先以识别文本为准。

通过上述文本对齐过程中的一致性处理方式，可以提升识别出的识别文本的准确度。

步骤104：将所述文本对齐结果，切割为多个初始子段落；

即，对于文本对齐结果而言，是长文本，为了进行模型训练所需要的短文本。为了得到多个短文本，可以对文本对齐结果进行切割，从而得到多个短文本。

例如，可以获取预设的切分标点和/或预设的切分字长；根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。举例而言，可以设置“，”“。”“！”“？”为触发切割的标点符号，那么在切分的时候，如果遇到这些标点符号，就将这些标点符号作为切分点进行文本切分。进一步的，考虑到在实际实现的时候，有些语句太长，如果仅以标点符号作为切分点的话，那么会导致某些语句太长，为此，可以设置切分字长，例如，设定切分字长为10个字，那么如果基于标点符合切分后，存在过长的字段，则对这些字段再基于切分字长为基础进行切分，将过长的字段切分为最长10个字的字段。

如图3所示，对长文本进行切分，即，基于“切分标点和切分字长”确定出多个切分点：切分点1、切分点2等，从而将文本对齐结果切分为多个初始字段落，具体的，该文本对齐结果可以仅是文本对齐后的带时间戳的识别文本。

步骤105：统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

考虑到最终得到的目标子段落和生成的音频文本对需要尽量保证准确度，这样才能有效提升最终模型的准确度。为此，在本例中，设置了字错率和字错率阈值，以便对文本对齐结果错误较多的文本进行过滤。具体的，可以统计当前初始子段落中字符总数；根据文本对齐结果，统计当前初始子段落中存在替换、删除、插入操作的字符数；确定存在替换、删除、插入操作的字符数占字符总数的比例；将确定的比例，作为当前初始子段落的字错率。获取预设的判定阈值；删除初始子段落中子错率超出所述判定阈值的段落，以得到多个目标子段落。

步骤106：根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对语音合成模型进行训练。

对于上述方式所得到的多个音频文本对可以作为训练数据对模型进行训练，在本例中，得到的音频文本对可以对语音合成模型进行训练也可以对语音识别模型进行训练，例如：

1)在一些实施例中，所述音频文本对为文本在前、音频在后的形式，用于作为对语音合成模型进行训练的第一训练数据，从而训练好的语音合成模型将以文本作为输入，音频作为输出，

2)在另一些实施例中，所述音频文本对为音频在前、文本在后的形式，用于作为对语音识别模型进行训练的第二训练数据，从而训练好的语音识别模型将以音频作为输入，文本作为输出。

下面结合一个具体实施例对上述方法进行说明，然而，值得说明的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

在本例中，针对有对应文本资源(即，原始文本)的长语音(即，目标音频文件)进行对齐切割，以获取模型的训练数据。例如：一些电子书音频有对应的小说文本，电影电视剧等视频有对应的台词字幕文本等，这些文本资源中的数据都是比较准确的，但是也不是完全准确的，因此，再结合语音识别得到识别文本，两者进行互相校正，从而切割得到短条的语音文本对，以得到大量的训练数据。

以电子书为例，可以如图4所示，包括：先获取电子书的长音频，然后，对音频进行语音识别，得到识别文本，同时调取长音频对应的电子书文本，然后对识别文本和电子书文本进行长文本对齐，得到对齐后的匹配文本，对匹配文本进行切割、筛选，从而短音频文本对。

在进行语音识别的时候，可以是通过ASR(Auto Speech Recognition，语音识别)工具识别出的带时间戳的文本数据，在进行文本对齐的时候，可以是通过NW(Needleman_Wunsch，文本对齐算法)对识别文本和电子书文本进行对齐的，对齐结果可以如图5所示，其中，@为填充符号、cor表示正确、sub表示替换、del表示删除、ins表示插入。

具体的，在进行文本对齐的时候，可以按照如下规则进行：

1)将识别文本和电子书文本进行文本规范化处理，例如，将阿拉伯数字转换为汉字文本；

2)在对齐过程中，如果出现语气词或词组，例如：嗯、额、啊、的、哈、噢、呵等，则认为是在音频文件中包含对应的语音(即，识别文本中存在)，但是电子书文本中缺少的，因此，可以给电子书文本加上这些词；’，会认为音频中包含对应的语音，电子书文本中缺少，会给电子书文本加上去匹配ASR识别文本；

3)对于文本不一致的情况，可以先将该不一致的文本转换为拼音，如果拼音一致，可以将其对齐到一起；

4)对于标点符号不一致的情况下，以电子书文本为准。

进一步的，在进行切割的时候，可以通过标点符号、字长等，将文本切割为多个小段，因为在识别文本中存在对应的时间戳，在对文本进行切割的时候，也就实现了对音频的切割。

在进行筛选的时候，可以对切开的每小段统计对应的字错率，针对字错率高于阈值的段可以删除，其中，字错率可以通过如下公式计算得到：

其中，C表示字错率，S表示替换的字符数目，D表示删除的字符数目，I表示插入的字符数目，N表示总字符数。

在软件层面，上述音频文本对的获取装置可以如图6所示，包括：

获取模块601，用于获取与目标音频文件关联的原始文本；

识别模块602，用于对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

对齐模块603，用于对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

切割模块604，用于将所述文本对齐结果，切割为多个初始子段落；

筛选模块605，用于统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

生成模块606，用于根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对语音合成模型进行训练。

在一个实施方式中，对齐模块603可以包括：第一处理单元，用于在当前位置点所述识别文本为文字内容，所述原始文本为空的情况下，删除所述识别文本当前位置点的文字内容；第二处理单元，用于在当前位置点所述原始文本为文字内容，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的文字内容；第三处理单元，用于在当前位置点所述识别文本与所述原始文本都存在文字内容，但文字内容不一致的情况下，将所述识别文本当前位置点的文字内容转换为第一拼音，将所述原始文本当前位置点的文字内容转换为第二拼音，确定所述第一拼音与所述第二拼音是否一致，在拼音一致的情况下，确定当前位置点已对齐，在拼音不一致的情况下，将识别文本当前位置点替换为原始文本当前位置点的文字内容。

在一个实施方式中，切割模块604可以包括：获取单元，用于获取预设的切分标点和/或预设的切分字长；切割单元，用于根据预设的切分标点和/或预设的切分字长，将对齐后的识别文本，切割为多个初始子段落。

在一个实施方式中，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：确定当前位置点所述识别文本是否为预设语气词；在当前位置点所述识别文本为预设语气词的情况下，将原始文本当前位置点替换为识别文本当前位置点的预设语气词。

在一个实施方式中，对齐模块603具体可以用于在当前位置点所述原始文本为标点符号，所述识别文本是与所述原始文本不同的标点符号的情况下，将识别文本当前位置点的标点符号替换为原始文本当前位置点的标点符号；在当前位置点所述原始文本为标点符号，所述识别文本为空的情况下，在识别文本当前位置点插入原始文本当前位置点的标点符号；在当前位置点所述识别文本为标点符号，所述原始文本无标点符号的情况下，删除所述识别文本当前位置点的标点符号。

在一个实施方式中，筛选模块605具体可以用于统计当前初始子段落中字符总数；根据文本对齐结果，统计当前初始子段落中存在替换、删除、插入操作的字符数；确定存在替换、删除、插入操作的字符数占字符总数的比例；将确定的比例，作为当前初始子段落的字错率。

在一个实施方式中，筛选模块605具体可以用于获取预设的判定阈值；删除初始子段落中子错率超出所述判定阈值的段落，得到多个目标子段落。

在一个实施方式中，上述获取装置在根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对之后，还可以按照音频作为输入、文本作为输出的方式，将多个音频文本对转换为第一训练数据；通过所述第一训练数据，对语音识别模型进行训练。

在一个实施方式中，上述获取装置在根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对之后，还可以按照文本作为输入、音频作为输出的方式，将多个音频文本对转换为第二训练数据；通过所述第二训练数据，对语音合成模型进行训练。

本申请上述实施例所提供的方法实施例可以在电子设备、如移动终端、计算机终端或者类似的运算装置中执行。此外，本申请的实施例还提供能够实现上述实施例中的音频文本对的获取方法中全部步骤的一种电子设备的具体实施方式

图7示出了可以用来实施本申请实施例的方法或实现本申请实施例的电子设备700的示意图。在某些实施例中，电子设备的数量可能多于或少于图示的数量。在一些实施例中，可以使用单个或多个电子设备来实施。还可以在一些实施例中使用云端或分布式电子设备来实施。

如图7所示，电子设备700包括处理器710和存储器720。处理器用于执行存储在存储器中的程序，这些程序在计算机执行时能够实现上述各实施例中描述的方法、步骤或功能。处理器710可以包括各种类型的处理器，例如中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等。处理器710与存储器720之间通过总线730相互连接。总线730上还可以连接输入/输出(I/O)接口等。

所述电子设备的处理器用于调用所述存储器中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的音频文本对的获取方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤1：获取与目标音频文件关联的原始文本；

步骤2：对所述目标音频文件进行语音识别，得到带时间戳的识别文本；

步骤3：对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果；

步骤4：将所述文本对齐结果，切割为多个初始子段落；

步骤5：统计所述多个初始子段落中各个初始子段落的字错率，并根据各个初始子段落的字错率进行筛选，得到多个目标子段落；

步骤6：根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，得到多个音频文本对，其中，所述音频文本对用于作为训练数据对模型进行训练。

本申请的实施例还提供能够实现上述实施例中的音频文本对的获取方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的音频文本对的获取方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤1：获取与目标音频文件关联的原始文本；

步骤4：将所述文本对齐结果，切割为多个初始子段落；

从上述描述可知，本申请实施例通过获取与目标音频文件关联的原始文本，和基于目标音频文件识别得到的带时间戳的识别文本，进行文本对齐，并将其切割为多个初始子段落，然后基于各个初始子段落的字错率进行筛选，以得到多个目标子段落。进一步，再根据多个目标子段落中各子段落的时间戳，为多个目标子段落匹配目标音频文件，从而最终得到多个音频文本对，可以将这些音频文本对作为训练数据对模型进行训练。通过上述方案解决了现有的音频文本对获取所存在的成本过高、准确度较低的技术问题，达到了准确高效得到多个音频文本对的技术效果。

本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种音频文本对的获取方法，其特征在于，包括：

获取与目标音频文件关联的原始文本；

将所述文本对齐结果，切割为多个初始子段落；

2.根据权利要求1所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

确定当前位置点所述识别文本是否为预设语气词；

4.根据权利要求1所述的方法，其特征在于，对所述原始文本和所述识别文本进行文本对齐，得到文本对齐结果，包括：

5.根据权利要求1所述的方法，其特征在于，统计所述多个初始子段落中各个初始子段落的字错率，包括：

统计当前初始子段落中字符总数；

将确定的比例，作为当前初始子段落的字错率。

6.根据权利要求1所述的方法，其特征在于，根据各个初始子段落的字错率进行筛选，得到多个目标子段落，包括：

获取预设的判定阈值；

7.根据权利要求1所述的方法，其特征在于，将所述文本对齐结果，切割为多个初始子段落，包括：

获取预设的切分标点和/或预设的切分字长；

8.根据权利要求1所述的方法，其特征在于，所述音频文本对为文本在前、音频在后的形式，用于作为对语音合成模型进行训练的第一训练数据。

9.根据权利要求1所述的方法，其特征在于，所述音频文本对为音频在前、文本在后的形式，用于作为对语音识别模型进行训练的第二训练数据。

10.一种音频文本对的获取装置，其特征在于，包括：

获取模块，用于获取与目标音频文件关联的原始文本；

11.根据权利要求10所述的装置，其特征在于，所述对齐模块包括：

12.根据权利要求10所述的装置，其特征在于，所述切割模块包括：

获取单元，用于获取预设的切分标点和/或预设的切分字长；

13.一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，其特征在于，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至9中任一项所述方法的步骤。