CN112259083A

CN112259083A - 音频处理方法及装置

Info

Publication number: CN112259083A
Application number: CN202011111002.XA
Authority: CN
Inventors: 林倩倩; 吴凡; 卓邦声; 高强; 夏龙; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-22
Anticipated expiration: 2040-10-16
Also published as: CN112259083B

Abstract

本说明书提供音频处理方法及装置，其中所述音频处理方法包括：获取目标音频片段，以及与所述目标音频片段对应的目标文本；将所述目标音频片段转换为待处理子文本，并在所述目标文本中确定与所述待处理子文本匹配的目标子文本；利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征；根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集。

Description

音频处理方法及装置

技术领域

本说明书涉及音频处理技术领域，特别涉及音频处理方法及装置。

背景技术

随着互联网技术的发展，机器学习被应用到越来越多的场景，如语音翻译，风险预测，图像识别等等，而不同领域的不同模型需要采用预设的样本进行训练才能够使用，而在模型训练之前获取的数据通常是人工准备为主，主要包括数据提供和人工处理两个过程，但是该过程不仅成本高且效率慢，需要满足模型的训练需求将花费较多的时间，因此亟需一种有效的方案以解决该问题。

发明内容

有鉴于此，本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音频处理方法，包括：

获取目标音频片段，以及与所述目标音频片段对应的目标文本；

将所述目标音频片段转换为待处理子文本，并在所述目标文本中确定与所述待处理子文本匹配的目标子文本；

利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征；

根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集。

可选的，所述获取目标音频片段，包括：

获取音频文件，并确定所述音频文件对应的音量幅度特征；

根据所述音量幅度特征确定所述音频文件中的静默音频片段，并按照所述静默音频片段对所述音频文件进行切分；

根据切分结果确定所述目标音频片段。

可选的，所述获取与所述目标音频片段对应的目标文本，包括：

获取所述音频文件对应的初始文本，并识别所述初始文本中的字符标记；

删除所述字符标记中的非断句字符标记，并根据删除结果对所述初始文本进行标准化处理，获得所述目标文本。

可选的，所述将所述目标音频片段转换为待处理子文本，包括：

将所述目标音频片段输入至语音识别模型进行处理，获得所述语音识别模型输出的所述待处理子文本。

可选的，所述在所述目标文本中确定与所述待处理子文本匹配的目标子文本，包括：

确定所述目标文本中包含的多个初始子文本，并按照文本长度对所述多个初始子文本中的各个初始子文本进行排序，获得初始子文本列表；

计算所述待处理子文本与所述初始子文本列表中第i个初始子文本的匹配度，其中，i从1开始取值且i为正整数；

判断所述匹配度是否大于预设匹配度阈值；

若是，将所述第i个初始子文本确定所述目标子文本；

若否，i自增1，返回执行所述计算所述待处理子文本与所述初始子文本列表中第i个初始子文本的匹配度。

可选的，所述利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征步骤执行之前，还包括：

遍历所述目标文本，获得所述目标文本中的各个字符；

检测所述目标文本中的各个字符是否存在与预设词典中不匹配的字符，所述预设词典中记录字符与音标的对应关系；

若是，确定与所述预设词典中的字符不匹配的目标字符，并调用语音处理接口对所述目标字符进行处理；

根据处理结果确定所述目标字符对应的目标音标，并将所述目标字符和所述目标音标写入所述预设词典。

可选的，所述利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征，包括：

识别所述目标子文本中包含的多个字符，并查询所述预设词典确定所述多个字符分别对应的音标；

将所述音标和所述目标子文本输入至语音生成模型进行处理，获得参考音频片段；

根据所述预设的音频处理算法对所述目标音频片段和所述参考音频片段进行处理，获得所述区别特征。

可选的，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集步骤执行之前，还包括：

判断所述目标音频片段的音频时长是否大于预设时长阈值；

若大于，对所述目标音频片段进行切分，获得至少两个音频片段，并对所述目标子文本进行切分，获得至少两个子文本；

相应的，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集，包括：

确定所述至少两个音频片段与所述至少两个子文本的对应关系，根据所述对应关系和所述区别特征建立至少两个子样本对；

将所述至少两个子样本对写入所述样本集。

可选的，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集，包括：

在所述区别特征满足第一预设条件的情况下，基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第一样本对，并将所述第一样本对写入第一样本集；

或者，

在所述区别特征满足第二预设条件的情况下，基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第二样本对，并将所述第二样本对写入第二样本集。

可选的，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集步骤执行之后，还包括：

在所述样本集中选择设定数量的目标样本对；

基于所述目标样本对训练初始语音识别模型，并检测所述初始语音识别模型的损失值；

在所述损失值达到训练停止条件的情况下，获得目标语音识别模型。

根据本说明书实施例的第二方面，提供了一种音频处理装置，包括：

获取模块，被配置为获取目标音频片段，以及与所述目标音频片段对应的目标文本；

匹配模块，被配置为将所述目标音频片段转换为待处理子文本，并在所述目标文本中确定与所述待处理子文本匹配的目标子文本；

处理模块，被配置为利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征；

写入模块，被配置为根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音频处理方法的步骤。

本实施例提供的音频处理方法，在获取到目标音频片段和目标文本后，将目标音频片段转换为待处理子文本，同时在目标文本中确定与待处理子文本匹配的目标子文本，之后利用预设的音频处理算法对所述目标子文本和所述目标音频片段进行处理，获得所述区别特征，最后根据区别特征建立目标音频片段和目标子文本组成的样本对，并写入样本集，实现了在训练模型之前，可以通过两次对齐的方式准确的分析出目标音频片段所属的样本种类，之后写入相应的样本集，不仅可以节省准备样本数据的时间，还可以有效的提高后续训练模型的效率。

附图说明

图1是本说明书一实施例提供的一种音频处理方法的流程图；

图2是本说明书一实施例提供的一种音频处理方法中语音识别模型的结构示意图；

图3是本说明书一实施例提供的一种音频处理方法中评测算法的结构示意图；

图4是本说明书一实施例提供的一种应用于英语语音场景中的音频处理方法的处理流程图；

图5是本说明书一实施例提供的一种音频处理装置的结构示意图；

图6是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了一种音频处理方法，本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，在对语音识别问题采用深度神经网络等数据驱动的方案中，需要准备大量的语音-文本匹配的数据用于模型的训练，而目前常见的数据获取方法以人工准备为主，主要包括提供文本录制语音的方法和人工转录音频得到文本的方法，但是该方法不仅成本高且效率慢，难以满足大型数据的需求，并且训练模型所花费的时间也较长，因此提高数据预处理的效率，显着尤为重要。

图1示出了根据本说明书一实施例提供的一种音频处理方法的流程图，具体包括以下步骤：

步骤S102，获取目标音频片段，以及与所述目标音频片段对应的目标文本。

本实施例提供的音频处理方法，为了能够提高数据预处理的效率，以及节省数据预处理成本，在获取到目标音频片段和目标文本后，将目标音频片段转换为待处理子文本，同时在目标文本中确定与待处理子文本匹配的目标子文本，之后利用预设的音频处理算法对所述目标子文本和所述目标音频片段进行处理，获得所述区别特征，最后根据区别特征建立目标音频片段和目标子文本组成的样本对，并写入样本集，实现了在训练模型之前，可以通过两次对齐的方式准确的分析出目标音频片段所属的样本种类，之后写入相应的样本集，不仅可以节省准备样本数据的时间，还可以有效的提高后续训练模型的效率。

具体实施时，所述目标音频片段具体是指需要进行预处理的语音片段，即在训练模型之前，需要确定目标音频片段是否符合模型训练标准，且能否应用于模型的训练；所述目标文本具体是指目标音频片段所属的文本，即通过阅读目标文本中的文本段落从而得到语音文件，之后对语音文件进行处理切分，即可获得所述目标音频片段，也即是说，目标音频片段是通过阅读目标文本中的一个文本段落得到的音频。

基于此，由于在训练模型之前，不仅需要训练模型预测的精准度，还需要训练模型预测结果偏离错误答案的能力，因此在训练模型时需要采用大量的正负样本进行均衡性的训练，从而得到满足预测需求的可使用模型；因此在对目标音频片段进行处理的过程中，就需要根据目标音频片段与目标文本中相互匹配的子文本的相似度确定该段音频属于正样本还是负样本，若目标音频片段的中阅读者的发音正确、未漏词、未错词且未填词，说明该目标音频片段属于个方面都比较好的音频片段，即可与之匹配的子文本组成正样本用于训练后续使用的语音识别模型，若目标音频片段的中阅读者的发音错误和/或漏词和/或错词和/或填词，说明该目标音频片段属于个方面都比较差的音频片段，即可与之匹配的子文本组成负样本用于训练后续使用的语音识别模型。

此外，为了能够更进一步提高数据预处理的过程，节省数据准备时间，可以通过在LibriVox(一个公共领域的免费有声书库，其中包含大量有声读物，大部分是英语，它提供用户信息、用户语音和语音对应的书本信息等)音频资源分享平台获取音频，以及音频所属的文本作为待处理的语料，从而节省训练模型前录制语音的时间。

进一步的，在获取目标音频片段时，实则是获取音频文件，通过对音频文件进行标准化处理后以获得所述目标音频片段，实现后续的样本确定过程，本实施例中，具体实现方式如下所述：

获取音频文件，并确定所述音频文件对应的音量幅度特征；

根据切分结果确定所述目标音频片段。

具体的，所述音频文件具体是指训练模型前准备的音频文件，通过对所述音频文件进行处理后即可获得所述目标音频片段，而所述音频文件即可从上述LibriVox音频资源分享平台获取，此外，音频文件还可以从其他平台或者录制的方式获取，本实施例在此不作任何限定；所述音量幅度特征具体是指音频文件在时域维度的能量大小，通过所述音量幅度特征可以分析出所述音频文件中的发音音频片段和静默音频片段；所述发音音频片段具体是指音频文件中具有声源发音的片段，所述静默音频片段具体是指所述音频文件中声源未发声或发声较小对应的片段；通过所述静默音频片段可以分析出所述音频文件中声源发音时断句行为，以及音频文件中无用音频片段(无法使用的音频片段)，从而能够方便后续切分出所述目标音频片段。

基于此，在获取到所述音频文件之后，由于大部分音频文件都是较长且正确/错误都存在的音频文件，因此为了能够得到满足加入样本集训练模型的样本对，需要对所述音频文件进行处理，首先将音频文件处理为单声道16bit，采用率为16k的wav文件，之后确定其对应的音量幅度特征，通过所述音量幅度特征即可确定所述音频文件中的静默音频片段，说明在静默音频片段属于声源发声时的断句处，即可按照所述静默音频片段对所述音频文件进行切分，从而获得至少两段音频片段，但是由于音频文件的标准化程度问题，因此可能在获得的至少两段音频片段中存在无法正常使用的片段，此时可以对所述至少两段音频片段进行筛选，从而得到满足音频处理需求的所述目标音频片段。

实际应用中，由于按照所述静默音频片段对所述音频文件进行切分时，可能所述静默音频片段较多(即音频文件中声源在发声时，存在多处断句，如用户阅读一段佳句，可能断句好多次)因此会将音频文件切分成多个音频片段，那么能够使用的多个音频片段都可以作为所述目标音频片段，需要说明的是，多个目标音频片段的处理过程均可参见本实施例提供的音频处理方法，本实施例在此不作过多赘述。

更进一步的，在获取到所述音频文件并处理为所述目标音频片段之后，还需要获取所述目标音频片段所述的目标文本，本实施例中，具体实现方式如下所述：

具体的，所述初始文本具体是指所述音频文件所属的文本，即音频文件是通过用户阅读初始文本中的某一段落所录制的音频，所述字符标记具体是指所述初始文本中包含的标点符合，如逗号，句号，分号，双引号，括号等等，所述非断句字符标记具体是指不会对文本造成断句的标点符号，如双引号，括号，下划线等等，相应的断句字符标记具体是指会对文本造成断句的标点符合，如分号，句号，逗号，问号等等；相应的，标准化处理具体是指将初始文本处理为能够遍历使用的文本。

基于此，由于所述音频文件是从所述LibriVox音频资源分享平台、其他平台或者录制的方式获取，因此所述初始文本需要与所述音频文件的获取方式相同，从而才能够在后续进行目标音频片段对应目标子文本的确定，在获取到所述音频文件对应的初始文本之后，此时将识别所述初始文本中的字符标记，并删除所述字符标记中包含的非断句字符标记，从而方便后续进行处理；最后根据删除结果对所述初始文本进行标准化处理，以获得所述目标文本。

实际应用中，在对所述初始文本进行标准化处理的过程中，实则是按照断句字符标记将文本拆分成句子，并将句子进行格式转换(英文字母转化为大写格式)，从而获得满足使用需求的目标文本。

以所述音频文件为英文音频文件为例，以所述初始文本为英文小说为例进行音频处理方法的描述；基于此，在获得mp3格式的英文音频文件后，将其处理为单声道16bit，采样率为16k的wav文件，同时获取该英文音频文件所属的英文小说；之后识别英文小说中的标点符号，并删除小说中的双引号，破折号，下划线，括号……；之后将断句字符标记对应的语句中的英文字母转化为大写格式，从而得到满足使用需求的目标英文文本；再确定该英文音频文件对应的音量幅度特征，根据音量幅度特征的能量大小分析出英文音频文件中的静默音频片段，选择静默音频片段大于0.6s的位置对该音频文件进行切分，获得3个英文音频片段，分别为第一英文音频片段，第二英文音频片段和第三英文音频片段，而其中第三英文音频片段噪音过大不符合使用规则，则将第一英文音频片段和第二英文音频片段作为后续处理的音频片段，用于建立训练模型使用的样本对。

综上，在获取训练模型使用的数据之后，为了能够提高后续得到满足使用需求的训练样本，将对获取的音频片段和初始文本进行标准化处理，从而得到满足使用需求的目标音频片段和目标文本，以实现提高数据预处理的效率。

步骤S104，将所述目标音频片段转换为待处理子文本，并在所述目标文本中确定与所述待处理子文本匹配的目标子文本。

具体的，在上述获取到所述目标音频片段和所述目标文本的基础上，进一步的，将对所述目标音频片段转换为待处理子文本，所述待处理子文本具体是指所述目标音频片段语音转录后的文本，如将音频中的一句话转录为文字；同时由于所述目标音频片段中用户所阅读的内容来自于所述目标文本，因此可以在所述目标文本中确定与所述待处理子文本匹配的目标子文本，即能够在所述目标文本中找到用户所阅读的内容来自与目标文本中的哪个段落，从而方便进行分析目标音频片段的阅读准确性；其中，所述目标子文本即为所述目标音频片段中用户所阅读的内容所属的段落。

实际应用中，由于目标文本中存在的重复可能较多，如小说中的地名，姓名可能都重复出现，因此根据所述待处理子文本在所述目标文本中查找与之匹配的子文本时，将可能找到多个匹配的段落，而为了能够精准的分析匹配度，可以以字符级别的匹配方式进行，即如果待处理子文本与目标文本中的某一子文本的字符超过设定数目个完全匹配，则可以将该子文本标记为目标子文本，从而完成在所述目标文本中匹配目标子文本的过程。

进一步的，在将所述目标音频片段转换为待处理子文本的过程中，为了能够提高音频处理效率，可以通过语音识别模型实现，即将所述目标音频片段输入至语音识别模型进行处理，获得所述语音识别模型输出的所述待处理子文本。

实际应用中，所述语音识别模型可以是端到端的LAS(Listen Attend and Spell)模型，参见图2中(a)所示，当获得目标音频片段之后利用LAS模型即可完成语音至文本的转换，得到待处理子文本；参见图2中(b)所示，将目标音频片段转换为语音序列，之后输入至LAS模型，利用注意力机制来进行有效对齐，即根据模型中的Encoder(编码)层实现利用RNN从输入语音序列中提取语音的隐层标识，之后根据Attention(注意力)层得到和当前Decoder(解码)预测的文本有关的语音的隐层表示Context Vector(上下文向量)，最后利用Context Vector以及上一层Decoder的输出生成所述待处理子文本。

其中，X表示目标音频片段转换后的语音序列，h^enc表示Encoder得到语音的隐层表示，c_i是隐层表示Context Vector，y_i-1和y_i分别是上一时刻和当前时刻的预测输出，即y_i表示待处理子文本。由于LAS模型考虑了语音上下文的所有信息，所以LAS模型的处理精准度较高。需要说明的是，Decoder可以是LSTM(长短期记忆网络，Long Short-Term Memory)。

此外，所述语音识别模型还可以是Kaldi的语音识别工具中的深度神经网络模型，具体实施时，所述语音识别模型可以根据实际应用场景进行设定，本实施例在此不作任何限定，只要能够完成语音到文本的转换即可。

更进一步的，在获得所述待处理子文本之后，需要在所述目标文本中确定与所述待处理子文本匹配的目标子文本，而由于所述目标文本中包含大量的子文本，因此为了避免内存爆炸的问题，可以按照优先级的顺序进行递进式匹配，只要得到匹配度大于预设匹配度阈值的子文本，即作为所述目标子文本，本实施例中，具体实现方式如下所述：

S1，确定所述目标文本中包含的多个初始子文本，并按照文本长度对所述多个初始子文本中的各个初始子文本进行排序，获得初始子文本列表；

S2，计算所述待处理子文本与所述初始子文本列表中第i个初始子文本的匹配度，其中，i从1开始取值且i为正整数；

S3，判断所述匹配度是否大于预设匹配度阈值；

若是，执行S4，将所述第i个初始子文本确定所述目标子文本；

若否，i自增1，返回执行S2。

具体的，所述初始子文本具体是指所述目标文本中各个段落；所述初始子文本列表具体是指按照预设的排列顺序对各个段落进行排序后得到的列表；基于此，在确定所述目标文本中包含的多个初始子文本之后，可以根据各个子文本的文本长度按照从长到短的顺序进行排序，从而得到所述初始子文本序列，之后按照排列顺序计算所述待处理子文本与初始子文本列表中第i个初始子文本的匹配度，并判断所述匹配度是否大于预设匹配度阈值；若是，说明第i个初始子文本与所述待处理子文本的匹配度足够高，进一步说明目标音频片段中用户阅读的文本即为第i个初始子文本，则将其作为所述目标子文本即可，用于后续处理过程；若否，说明第i个初始子文本与所述待处理子文本的匹配度较低，进一步说明目标音频片段中用户阅读的文本不是第i个初始子文本，则i自增1，并返回执行步骤S2，直至确定匹配度高于预设匹配度阈值的子文本作为所述目标子文本。

实际应用中，匹配度阈值可以根据实际需求进行设定，如0.7、0.8或0.85等，本实施例在此不作任何限定，需要说明的是，匹配度阈值需要合理设定，如果设置的过高，将可能存在在目标文本中找不到目标子文本，如果设置的过低，将可能存在在目标文本中找到的目标子文本不够准确，从而影响后续音频处理过程。

此外，还可以通过Smith-Waterman(史密斯-沃特曼算法)对齐算法来找到识别出待处理子文本与目标文本中最佳对其区域，即将待处理子文本和目标文本采用Smith-Waterman算法逐段做字符级别的局部对齐。设置相关的参数为匹配正确得分match_score匹配错误罚分mismatch_score和空位罚分gap_score，之后将得分最高的子文本作为所述目标子文本。

需要说明的是，采用Smith-Waterman对齐算法其主要是应用了动态规则的思路，即在给定的打分方法下可以找出两个序列最优的局部比对，使得不会出现负分的情况，使得局部比对成为可能，而在Smith-Waterman对齐算法中回溯将从分数最高的矩阵元素开始，知道遇到分数为零的元素停止，以此来获得分数最高的局部比对结果，该算法实则主要分为两步，计算得分矩阵和寻找最优比对序列，具体如下所述：

首先确定置换矩阵及空位罚分方法：置换矩阵赋予每一碱基对或残基对匹配或错配的分数，相同或类似则赋予正值，不同或不相似赋予0分或者负分。空位罚分决定了引入或延长空位的分值。基于此，将根据比对的目的选择合适的置换矩阵及空位罚分。另外通过比较不同的置换矩阵及空位罚分的组合所带来的比对结果也可以协助进行选择；

其次确定初始化得分矩阵：得分矩阵的长度和宽度分别为两序列的长度+1。其首行和首列所有元素均设为0。额外的首行和首列得以让一序列从另一序列的任意位置开始进行比对，分值为零使其不受罚分。

再次打分：对得分矩阵的每一元素进行从左到右、从上到下的打分，考虑匹配或错配(对角线得分)，引入空位(水平或垂直得分)分别带来的结果，取最高值作为该元素的分值。如果分值低于0，则该元素分值为0。打分的同时记录下每一个分数的来源用来回溯。

最后回溯：通过动态规划的方法，从得分矩阵的最大分值的元素开始回溯直至分数为0的元素。具有局部最高相似性的片段在此过程中产生。具有第二高相似性的片段可以通过从最高相似性回溯过程之外的最高分位置开始回溯，即完成首次回溯之后，从首次回溯区域之外的最高分元素开始回溯，以得到第二个局部相似片段；即得到与目标音频片段对应的目标子文本。

其中，Smith-Waterman对齐算法具体计算过程如下所述：将要比对的序列(待处理子文本和目标文本)设置为A＝a₁a₂..a_n和B＝b₁b₂...b_m，其中n和m分别为序列A和B的长度；之后确定置换矩阵和空位罚分，s(a，b)组成序列的元素之间的相似性得分，用W_k表示长度为k的空位罚分，创建得分矩阵H并初始化其首行和首列，该矩阵的大小为n+1行和m+1列(注意计数从0开始)；其中H_k0＝H_0l＝0(0≤k≤n，0≤l≤m)，之后从左到右，从上到下进行打分，填充得分矩阵H剩余部分：H_ij＝max{H_i-1，j-1+s(a_i，b_j)，max_k≥1{H_i-k，j-Wk}，max_l≥1{H_i，j-l-W_l}，0}，(1≤i≤n，1≤j≤m)；其中，H_i-1，j-1+s(a_i，b_j)表示将a_i和b_j比对的相似性得分，H_i,j-l-W_l表示a_i位于一段长度为k的删除的末端的得分，H_i,j-l-W_l表示b_j位于一段长度为l的删除的末端的得分，0表示a_i和b_j到此为止无相似性，最后回溯，从矩阵H中得分最高的元素开始根据得分的来源回溯至上一位置，如此反复直至遇到得分为0的元素，即得到与目标音频片段对应的目标子文本。

沿用上例，当获得第一英文音频片段(用户针对“I want to climb mountains”进行阅读的音频片段)和第二英文音频片段(用户针对“I want to see the sunrise”进行阅读的音频片段)后，将第一英文音频片段输入至LAS模型进行文本转换，获得第一英文文本“I want to climb mountains”，将第二英文音频片段输入至LAS模型进行文本转换，获得第二英文文本“I want to see sunrise”。

之后确定目标英文文本中包含的6000个初始子文本，并根据各个初始子文本的文本长度按照从长到短的顺序排序，获得初始子文本列表，此时将计算第一英文文本“I wantto climb mountains”与第1个初始子文本的匹配度P1＝0.3，并确定匹配度P1＝0.3不大于预设匹配度阈值Pn＝0.7，则继续计算第一英文文本“I want to climb mountains”与第2个初始子文本的匹配度P2＝0.2，并确定匹配度P2＝0.2不大于预设匹配度阈值Pn＝0.7，继续计算……。

当计算到第一英文文本“I want to climb mountains”与第10个初始子文本的匹配度P10＝0.9时，确定第10个初始子文本与第一英文文本匹配，则将第10个初始子文本“Iwant to climb mountains”作为第一目标子文本；同理将计算第二英文文本“I want tosee sunrise”与初始子文本列表中初始子文本的匹配度，确定第二英文文本“I want tosee sunrise”与第5个初始子文本的匹配度为P5＝0.75，确定第5个初始子文本与第二英文文本匹配，则将第5个初始子文本“I want to see the sunrise”作为第二目标子样本，以用于后续进一步确定训练模型样本对。

综上，为了避免内存爆炸，且加快确定目标子文本的效率，将采用递进的方式进行匹配度的计算，当第i个初始子文本与待处理子文本的匹配度大于预设匹配度阈值，就将其确定为目标子文本，无需对后续的其他初始子文本继续进行匹配度的计算，可以有效的节省处理时间，以提高后续音频处理效率。

步骤S106，利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征。

具体的，在上述实现从目标文本中确定所述待处理子文本匹配的目标子文本的基础上，进一步的，还需要对目标音频片段进行自动打标，即确定目标音频片段适合作为正样本还是负样本，用于对模型的训练；而由于所述目标子文本是正确的文本，因此可以根据预设的音频处理算法对其进行处理，以得到所述目标音频片段中的区别特征，即通过预设的音频处理算法对目标子文本和所述目标音频片段进行处理，根据处理结果分析出所述目标音频片段相对于所述目标子文本存在的缺陷，以用于后续分析目标音频片段是否可以作为样本写入样本集；其中，所述区别特征具体是指所述目标音频片段与所述目标子文本相比存在的区别特征，如目标音频片段中用户阅读文本出现漏词、错词、多词都属于区别；所述预设的音频处理算法具体是指分析所述目标音频片段相对于标准的目标子文本存在的区别算法。

具体实施时，所述预设的音频处理算法可以是英语口语评测算法，所述英语口语评测算法具体是指对结合音频和子文本对用户发音进行评价的算法，从而确定目标音频片段中的区别特征；需要说明的是，英语口语评测模型包含声学模型和打分模型，其中声学模型经常采用HMM-GMM(HMM：隐马尔可夫模型，GMM：混合高斯模型)、HMM-DNN(DNN：深度神经网络)等方案，打分判错模型经常采用LR(逻辑回归)、GBDT(梯度提升决策树)等。

本实施例中所述声学模型采用HMM-DNN，打分模型采用GBDT，目的是为了能够精准的确定所述目标音频片段对应的区别特征；参见图3所示，声学模型(HMM-DNN)对音频抽取发音良好度(Goodness Of Pronunciation,GOP)、发音时长和音素发音概率等特征，打分判错模型GBDT通过声学模型抽取的特征对每个字的发音好坏进行打分，从而分析出目标音频片段相对于所述目标子文本是否存在漏词、错词和多词的问题，以实现分析目标音频片段的属性。

此外，所述预设的音频处理算法还可以采用GOP(Goodness of Pronunciation)算法实现，通过将目标音频片段和目标子文本做强制对齐，并把强制对齐得到的似然分数值与不清楚目标文本情况下得到的似然分数值进行比较，根据比较结果对所述目标音频片段进行评测，从而分析出目标音频片段的质量以及所述区别特征，实际应用中，所述预设的音频处理算法可以根据实际需求进行选择，本实施例在此不作任何限定。

此外，还可以将目标子文本转换为参考音频片段，之后将目标音频片段和参考音频片段进行比较，从而分析出所述目标音频片段相对于所述目标子文本的区别特征，而在此之前，如果需要精准的对所述目标子文本的区别特征进行确定，则需要满足目标子文本精准的转换为参考音频片段，即需要预先建立存储有字符和音标的词典，通过该词典可以确定文本中字符的发音，以生成所述参考音频片段；而该词典无法穷尽，因此可以在获得目标文本之后，遍历文本，选择词典中未出现的字符添加到词典中，实现对词典的扩充，从而达到对目标子文本的精准转换，本实施例中，具体实现方式如下所述：

遍历所述目标文本，获得所述目标文本中的各个字符；

若是，确定与所述预设词典中的字符不匹配的目标字符，并调用语音处理接口对所述目标字符进行处理；根据处理结果确定所述目标字符对应的目标音标，并将所述目标字符和所述目标音标写入所述预设词典；

若否，不作任何处理即可。

具体的，所述参考音频片段即为阅读准确的音频片段，即将所述目标子文本转换为参考音频片段，通过确定所述参考音频片段与所述目标音频片段的区别特征，从而根据区别特征分析出所述目标音频片段与所述参考音频片段的区别，以实现对所述目标音频片段进行打标，从而确定所述目标音频片段的样本属性。

基于此，首先遍历所述目标文本，获得所述目标文本中包含的各个字符，之后检测所述目标文本中的各个字符是否存在与所述预设词典中不匹配的字符；若否，说明所述目标文本中包含的全部字符都在预设词典中存在相应的音标，则直接进行后续的转换处理即可；若是，说明预设词典中包含的字符与音标的对应关系，存在无法确定目标文本中部分字符的音标，则此时筛选出所述目标文本中与所述预设词典中字符不匹配的目标字符，并调用语音处理接口对所述目标字符进行处理，即可根据处理结果确定所述目标字符对应的目标音标，最建立所述目标字符和所述目标音标的对应关系并写入预设词典即可。

实际应用中，语音处理接口可以实现所述目标文本的词汇可以建立在CMUdict的基础上，从CMUdict中去掉数字重音标记，词汇表外(OOV)单词的发音由Kaldi的SequiturG2P工具包生成，从而到所述目标字符对应的目标音标，并写入所述预设词典即可。

进一步的，在完成对所述预设词典的扩容之后，即可确定所述目标文本中包含的全部字符都可以在所述预设词典中找到相应的音标，此时为了能够将目标子文本精准的转换为参考音频片段，可以引入语音生成模型实现，本实施例中，具体实现方式如下所述：

具体的，首先识别所述目标子文本中包含的多个字符，其次查询所述预设的词典，即可确定所述多个字符分别对应的音标，最后将得到的全部音标和目标子文本输入至所述语音生成模型进行处理，即可输出与所述目标子文本匹配的参考音频片段。基于此，在将所述目标子文本转换为所述参考音频片段之后，由于需要精准的确定所述目标音频片段的属性才能够用于后续的模型训练，因此还需要根据所述参考音频片段分析所述目标音频片段的区别特征，即根据所述预设的音频处理算法对所述目标音频片段和所述参考音频片段进行处理，即可获得所述区别特征。

需要说明的是，在本实施例中，所述预设的音频处理算法是指对比目标音频片段和所述参考音频片段区别的算法，以实现分析出所述目标音频片段和所述目标子文本存在的区别特征，用于后续处理过程。

沿用上例，当确定第一英文文本“I want to climb mountains”对应的第一目标子文本“I want to climb mountains”，以及第二英文文本“I want to see sunrise”对应的第二目标子样本“I want to see the sunrise”之后，可以采用预设的英语口语评测模型对第一英文音频片段和第一英文文本进行处理，同时对第二英文音频片段和第二英文文本进行处理，从而得到第一英文音频片段与第一英文文本表达一致的结果；以及第二英文音频片段与第二英文文本相比漏了“the”单词的结果；

或者，采用参考音频片段处理的方式进行区别特征的确定，即对第一目标子文本和第二目标子文本进行转换，获得第一参考音频片段和第二参考音频片段，此时采用英语口语评测算法计算第一参考音频片段和第一英文音频片段区别特征，确定第一英文音频片段与第一参考音频片段一致；同时采用英语口语评测算法计算第二参考音频片段和第二英文音频片段区别特征，确定第二英文音频片段漏了“the”单词，即可根据区别特征确定第一英文音频片段和第二英文音频片段的属性，以用于后续将其加入符合训练需求的样本集。

实际应用中，可以通过设置筛选条件的方式对目标音频片段进行过滤筛选，即若筛选条件为分值高，错词，漏词，多词的情况少，可以认定目标音频片段为合格的音频片段，将不合格的音频片段剔除，即可得到符合训练模型需求的样本音频，用于后续进一步处理训练模型即可。

此外，为了能够构建符合模型训练需求的样本音频，可以对零碎的音频片段按照文章顺序进行合并，即将相邻的音频片段拼接在一起，同时也可以对过长的音频片段进行分割，从而得到满足模型训练需求的样本音频。需要说明的是，在将相邻的音频片段进行合并的过程中，需要按照各个音频片段的时长进行设定，若该音频片段末尾对应目标文本中的断句标点符号，且累计长度超过了第一设定时长则可以不合并；而对于时长超过第二设定时长的音频片段，可以按照断句标点符号进行分割，从而更好方便的对模型进行训练。

综上所述，为了能够获得满足模型训练需求的目标音频片段，可以采用第二次对齐的方法确定目标音频片段的区别特征，从而更加方便对所述目标音频片段进行打标，方便得出满足不同训练需求的样本音频片段。

步骤S108，根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集。

具体的，在上述确定所述目标音频片段与所述参考音频片段的区别特征的基础上，进一步的，为了能够直接应用于模型的训练，可以根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集；当需要训练模型时，即可直接从所述样本集中抽取样本对进行模型的训练。

实际应用中，为了方便下游训练模型将对不同的样本子集采用不同的需求，即获得的不同的样本对需要添加至不同的样本子集，而全部样本子集组成所述样本集；具体实施时，可以将样本集划分为clean样本子集和other样本子集，其中，clean样本子集是相对错误率更小的数据集合(第一正样本集合)；other样本子集是相对clean样本子集较弱的的数据集合(第二正样本集合)，需要说明的是，clean样本子集中包含的音频片段发音更准确，而other样本子集虽然也包含音频片段，但是发音准确度要低于clean样本子集，clean样本子集和other样本子集满足不同的应用场景。

并且在将样本对写入各个样本子集时，为了方便数据被调用，可以将各个样本子集设置为符合调用需求的架构，如将朗读者姓名映射为数字ID，样本子集的一级目录为clean/other，二级目录为朗读者ID，三级目录为段落ID(目标子文本在目标文本中的位置)，底层目录下包含多个目标音频片段(wav格式)以及目标文本，从而实现在训练模型是可以直接调用满足需求的音频片段进行使用，不仅可以节省训练模型的时间，还提高了前期数据预处理的效率。

而在此之前，为了能够得到满足模型训练需求的音频片段，可以将时长过长的音频片段进行切分，得到至少两个较短的音频片段，用于构建样本对写入样本集即可，本实施例中，具体实现方式如下所述：

判断所述目标音频片段的音频时长是否大于预设时长阈值；

若不大于，将所述目标音频片段和目标子文本写入样本集；

将所述至少两个子样本对写入所述样本集。

具体的，确定所述目标音频片段的音频时长，并判断所述音频时长是否大于预设时长阈值；若不大于，说明所述目标音频片段的时长可能较短，或者刚刚符合训练模型的需求，则直接将目标音频片段和目标子文本组成的样本对写入对应的样本集即可；若大于，说明所述目标音频片段的时长可能过长，不符合模型的输入需求，则可以对目标音频片段进行切分，获得至少两个音频片段，并对所述目标子文本进行切分，获得至少两个子文本；之后确定所述至少两个音频片段与所述至少两个子文本的对应关系，根据所述对应关系和所述区别特征建立至少两个子样本对，将所述至少两个子样本对写入所述样本集即可。

通过将过长的目标音频片段进行切分，从而得到满足训练需求的音频片段组成样本对，可以更加方便后续训练模型时进行使用，有效的节省模型训练前的数据预处理时间。

更进一步的，由于不同的区别特征将决定目标音频片段的属性，若区别特征表明目标音频片段与目标子文本的相似度较高，则说明目标音频片段存在的问题较低，可以将其作为正样本存储，本实施例中，具体实现方式如下所述：

在所述区别特征满足第一预设条件的情况下，基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第一样本对，并将所述第一样本对写入第一样本集；或者，在所述区别特征满足第二预设条件的情况下，基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第二样本对，并将所述第二样本对写入第二样本集。

其中，所述第一预设条件具体是指检测所述目标音频片段与目标子文本的区别程度，若区别特征满足第一预设条件，说明区别程度一般，则基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第一样本对，并将所述第一样本对写入第一样本集即可，所述第二预设条件具体是指检测所述目标音频片段与目标子文本的相近程度，若区别特征满足第二预设条件，说明相近程度较高，则基于所述区别特征建立所述目标音频片段与所述目标子文本组成的第二样本对，并将所述第二样本对写入第二样本集即可。

此外，在将所述目标音频片段和目标子样本组成的样本对写入样本集之后，若需要对模型进行训练，即可直接从样本集中选择样本对进行模型的训练，本实施例中，具体实现方式如下所述：

在所述样本集中选择设定数量的目标样本对；

沿用上例，在确定第一参考音频片段和第一英文音频片段的第一区别特征，以及第二参考音频片段和第二英文音频片段的第二区别特征之后，通过检测第一区别特征确定第一参考音频片段和第一英文音频片段相似度较高，说明第一英文音频片段可以作为正样本用于后续训练模型，则基于第一英文音频片段和第一目标子文本组成正样本对写入正样本集；检测第二区别特征确定第二参考音频片段和第二英文音频片段相似度较低，说明第二英文音频片段可以作为负样本用于后续训练模型，则基于第二英文音频片段和第二目标子文本组成负样本对写入负样本集。

当需要对初始语音识别模型进行训练时，可以根据训练需求在正样本集中和负样本集中选择设定数目正样本对和负样本对进行模型的训练，在训练模型时可以监控模型的损失值，当损失值达到停止训练条件时，即可获得满足使用需求的目标语音识别模型。

下述结合附图4，以本说明书提供的音频处理方法在英语语音场景中的应用为例，对所述音频处理方法进行进一步说明。其中，图4示出了本说明书一实施例提供的一种应用于英语语音场景中的音频处理方法的处理流程图，具体包括以下步骤：

步骤S402，获取英语音频文件，并确定英语音频文件对应的音量幅度特征。

步骤S404，根据音量幅度特征确定英语音频文件中的静默音频片段，并按照静默音频片段对英语音频文件进行切分。

步骤S406，根据切分结果确定多个目标音频片段。

步骤S408，获取英语音频文件对应的初始英语文本，并识别初始英语文本中的字符标记。

步骤S410，删除字符标记中非断句字符标记，并根据删除结果对初始英语文本进行标准化处理，获得目标英语文本。

步骤S412，将多个目标音频片段输入至LAS模型进行处理，获得多个目标音频片段分别对应的多个待处理子文本。

步骤S414，在目标英语文本中确定多个待处理子文本分别对应的多个目标子文本。

步骤S416，利用英语口语评测算法对多个目标子文本和多个目标音频片段进行处理。

步骤S418，根据处理结果筛选出满足预设过筛条件的候选音频片段，并确定候选音频片段对应的候选子文本。

步骤S420，对候选音频片段和候选子文本进行后处理，根据处理结果获得满足模型训练需求的样本。

与上述方法实施例相对应，本说明书还提供了音频处理装置实施例，图5示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取目标音频片段，以及与所述目标音频片段对应的目标文本；

匹配模块504，被配置为将所述目标音频片段转换为待处理子文本，并在所述目标文本中确定与所述待处理子文本匹配的目标子文本；

处理模块506，被配置为利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征；

写入模块508，被配置为根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集。

一个可选的实施例中，所述获取模块502，包括：

获取音频文件单元，被配置为获取音频文件，并确定所述音频文件对应的音量幅度特征；

切分音频文件单元，被配置为根据所述音量幅度特征确定所述音频文件中的静默音频片段，并按照所述静默音频片段对所述音频文件进行切分；

确定目标音频片段单元，被配置为根据切分结果确定所述目标音频片段。

一个可选的实施例中，所述获取模块502，包括：

获取初始文本单元，被配置为获取所述音频文件对应的初始文本，并识别所述初始文本中的字符标记；

删除单元，被配置为删除所述字符标记中的非断句字符标记，并根据删除结果对所述初始文本进行标准化处理，获得所述目标文本。

一个可选的实施例中，所述匹配模块504，包括：

模型处理单元，被配置为将所述目标音频片段输入至语音识别模型进行处理，获得所述语音识别模型输出的所述待处理子文本。

一个可选的实施例中，所述匹配模块504，包括：

确定初始子文本列表单元，被配置为确定所述目标文本中包含的多个初始子文本，并按照文本长度对所述多个初始子文本中的各个初始子文本进行排序，获得初始子文本列表；

计算匹配度单元，被配置为计算所述待处理子文本与所述初始子文本列表中第i个初始子文本的匹配度，其中，i从1开始取值且i为正整数；

判断匹配度单元，被配置为判断所述匹配度是否大于预设匹配度阈值；

若是，运行确定目标子文本单元，所述确定目标子文本单元，被配置为将所述第i个初始子文本确定所述目标子文本；

若否，i自增1，返回运行所述计算匹配度单元。

一个可选的实施例中，所述音频处理装置，还包括：

遍历目标文本模块，被配置为遍历所述目标文本，获得所述目标文本中的各个字符；

检测字符模块，被配置为检测所述目标文本中的各个字符是否存在与预设词典中不匹配的字符，所述预设词典中记录字符与音标的对应关系；

若是，运行确定目标字符模块，所述确定目标字符模块，被配置为确定与所述预设词典中的字符不匹配的目标字符，并调用语音处理接口对所述目标字符进行处理；

写入预设词典模块，被配置为根据处理结果确定所述目标字符对应的目标音标，并将所述目标字符和所述目标音标写入所述预设词典。

一个可选的实施例中，所述处理模块506，包括：

识别目标子文本单元，被配置为识别所述目标子文本中包含的多个字符，并查询所述预设词典确定所述多个字符分别对应的音标；

模型处理目标子文本单元，被配置为将所述音标和所述目标子文本输入至语音生成模型进行处理，获得所述参考音频片段；

音频处理单元，被配置为根据所述预设的音频处理算法对所述目标音频片段和所述参考音频片段进行处理，获得所述区别特征。

一个可选的实施例中，所述音频处理装置，还包括：

判断时长模块，被配置为判断所述目标音频片段的音频时长是否大于预设时长阈值；

若大于，运行切分模块，所述切分模块，被配置为对所述目标音频片段进行切分，获得至少两个音频片段，并对所述目标子文本进行切分，获得至少两个子文本；

相应的，所述写入模块508，包括：

确定子样本对单元，被配置为确定所述至少两个音频片段与所述至少两个子文本的对应关系，根据所述对应关系和所述区别特征建立至少两个子样本对；

写入样本集单元，被配置为将所述至少两个子样本对写入所述样本集。

一个可选的实施例中，所述写入模块508进一步被配置为：

一个可选的实施例中，所述音频处理装置，还包括：

选择模块，被配置为在所述样本集中选择设定数量的目标样本对；

训练模块，被配置为基于所述目标样本对训练初始语音识别模型，并检测所述初始语音识别模型的损失值；

确定目标语音识别模块，被配置为在所述损失值达到训练停止条件的情况下，获得目标语音识别模型。

本实施例提供的音频处理装置，在获取到目标音频片段和目标文本后，将目标音频片段转换为待处理子文本，同时在目标文本中确定与待处理子文本匹配的目标子文本，之后利用预设的音频处理算法对所述目标子文本和所述目标音频片段进行处理，获得所述区别特征，最后根据区别特征建立目标音频片段和目标子文本组成的样本对，并写入样本集，实现了在训练模型之前，可以通过两次对齐的方式准确的分析出目标音频片段所属的样本种类，之后写入相应的样本集，不仅可以节省准备样本数据的时间，还可以有效的提高后续训练模型的效率。

上述为本实施例的一种音频处理装置的示意性方案。需要说明的是，该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思，音频处理装置的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE502.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述获取目标音频片段，包括：

获取音频文件，并确定所述音频文件对应的音量幅度特征；

根据切分结果确定所述目标音频片段。

3.根据权利要求2所述的音频处理方法，其特征在于，所述获取与所述目标音频片段对应的目标文本，包括：

4.根据权利要求1所述的音频处理方法，其特征在于，所述将所述目标音频片段转换为待处理子文本，包括：

5.根据权利要求1或4所述的音频处理方法，其特征在于，所述在所述目标文本中确定与所述待处理子文本匹配的目标子文本，包括：

判断所述匹配度是否大于预设匹配度阈值；

若是，将所述第i个初始子文本确定所述目标子文本；

6.根据权利要求1所述的音频处理方法，其特征在于，所述利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征步骤执行之前，还包括：

遍历所述目标文本，获得所述目标文本中的各个字符；

7.根据权利要求6所述的音频处理方法，其特征在于，所述利用预设的音频处理算法对所述目标音频片段和所述目标子文本进行处理，获得所述目标音频片段对应的区别特征，包括：

8.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集步骤执行之前，还包括：

判断所述目标音频片段的音频时长是否大于预设时长阈值；

将所述至少两个子样本对写入所述样本集。

9.根据权利要求1或7所述的音频处理方法，其特征在于，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集，包括：

或者，

10.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述区别特征建立所述目标音频片段与所述目标子文本组成的样本对，并将所述样本对写入样本集步骤执行之后，还包括：

在所述样本集中选择设定数量的目标样本对；

11.一种音频处理装置，其特征在于，包括：

12.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至10任意一项所述音频处理方法的步骤。