CN112908308B

CN112908308B - 一种音频处理方法、装置、设备及介质

Info

Publication number: CN112908308B
Application number: CN202110143479.4A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2024-05-14
Anticipated expiration: 2041-02-02
Also published as: CN112908308A

Abstract

本申请公开了一种音频处理方法、装置、设备、介质，该方法包括：基于待对齐语音对应的文本信息以及预设的音素集合确定待对齐语音中包括的目标音素；基于目标音素确定对应的初步对齐后音素序列；基于初步对齐后音素序列生成合成语音，并基于合成语音和待对齐语音对初步对齐后音素序列进行校准，得到校准后音素序列；将校准后音素序列作为目标音素序列，并基于目标音素序列中各个音素对应的语音帧在待对齐语音中的起始位置和终止位置，对目标音素序列和待对齐语音进行时间对齐。这样能够对初步对齐后音素序列进行自校正和自调整，显著提升对齐精度。

Description

一种音频处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，特别涉及一种音频处理方法、装置、设备、介质。

背景技术

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。而音素对齐指的是将音频和音素在时间轴上对齐的技术。一般情况下，只有歌词的文本信息，没有字或者音素和音频对应的准确的时间戳信息，音素对齐技术是音频信号和文本信息，通过特定的算法得到音频和音素在时间轴上对齐的技术。

现有技术中的音素对齐方法如下，定义音素集合，接着进行语音样本数据采集和音素位置信息的标定，然后提取语音的声学特征，以及将语音转文本并参照音素集合进行音素拆分，再然后，训练每类音素的概率模型；再采用概率模型对声学特征进行处理，并将处理之后的音素位置信息映射得到音素的起始和终止位置。

发明人在实现本发明的过程中，发现上述现有技术可能存在以下不足，由于在音素对齐过程中，只是考虑训练概率模型，将声学特征转化为音素的概率值，会出现音素划分不准确，以及概率计算不准确问题，从而导致对齐之后的音素中存在较大误差，所以音素对齐精度较低。

发明内容

有鉴于此，本申请的目的在于提供一种音频处理方法、装置、设备、介质，能够对初步对齐后音素序列进行自校正和自调整，减小对齐误差，显著提升对齐精度。其具体方案如下：

第一方面，提供了一种音频处理方法，包括：

基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素；

基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列；

基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列；

将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

可选地，所述基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，包括：

基于预先获取到的文字与拼音对照表将获取到的待对齐语音对应的文本信息中的文字转换成对应的拼音；

基于预设的音素集合对所述拼音进行拆分，得到所述待对齐语音中包括的第一目标音素；

将所述音素集合中的第二目标音素和所述第一目标音素作为所述待对齐语音中包括的目标音素，其中，所述第二目标音素表示短停顿或静音音频对应的音素。

可选地，所述基于所述初步对齐后音素序列生成合成语音之前，还包括：

获取FastSpeech模型，并将所述FastSpeech模型中的时长估计模块删除；

对删除所述时长估计模块后的FastSpeech模型进行训练，得到所述语音合成模型，以便利用所述语音合成模型对所述初步对齐后音素序列进行处理，得到所述合成语音。

可选地，所述将所述校准后音素序列作为目标音素序列之前，还包括：

确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差；

判断所述偏差是否小于预设偏差阈值；

如果所述偏差小于预设偏差阈值，则将所述校准后音素序列作为目标音素序列。

可选地，所述判断所述偏差是否小于预设偏差阈值之后，还包括：

如果所述偏差不小于预设偏差阈值，则将所述校准后音素序列作为所述初步对齐后音素序列，并重新执行所述基于所述初步对齐后音素序列生成合成语音开始的步骤。

可选地，所述确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差，包括：

确定所述校准后音素序列中相比于所述初步对齐后音素序列被校准的音素数量，以便将所述音素数量作为所述校准后音素序列与所述初步对齐后音素序列之间的偏差。

可选地，所述基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，包括：

分别对所述合成语音和所述待对齐语音进行MFCC特征提取，得到第一MFCC特征矩阵和第二MFCC特征矩阵，其中，所述合成语音和所述待对齐语音的时长相同；

基于动态时间规整算法对所述第一MFCC特征矩阵和第二MFCC特征矩阵进行处理，得到规整矩阵，其中，所述规整矩阵用于记录所述第一MFCC特征矩阵和第二MFCC特征矩阵中MFCC特征的对应关系；

利用所述规整矩阵对所述初步对齐后音素序列进行校准，得到校准后音素序列。

第二方面，提供了一种音频处理装置，包括：

音素确定模块，用于基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素；

初步对齐模块，用于基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列；

语音合成模块，用于基于所述初步对齐后音素序列生成合成语音；

校准模块，用于基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列；

对齐模块，用于将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

第三方面，提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述公开的音频处理方法。

第四方面，提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的音频处理方法。

可见，本申请先基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，然后基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列，还需要基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，接着便可以将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。由此可见，本申请中在对待对齐语音进行初步音素对齐，得到初步对齐后音素序列之后，还需要基于初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，才将所述校准后音素序列作为目标音素序列，进行所述目标音素序列和所述待对齐语音之间的时间对齐，这样相比于现有技术来说，在得到初步对齐后音素序列之后，再对初步对齐后音素序列进行校准，使得最终得到的音素序列更接近所述待对齐音素序列中实际包括的音素序列，有自校正和自调整的作用，减小对齐误差，显著提升对齐精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的音频处理方案所适用的系统框架示意图；

图2为本申请公开的一种音频处理方法流程图；

图3为本申请公开的一种音频处理方法流程图；

图4为本申请公开的一种具体的音频处理方法流程图；

图5为本申请公开的一种合成语音和待对齐语音对比图；

图6为本申请公开的一种具体的音频处理方法部分流程图；

图7为本申请公开的一种校准过程示意图；

图8为本申请公开的一种音素对齐结果图；

图9为本申请公开的一种音频处理装置结构示意图；

图10为本申请公开的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中的音素对齐方法如下，定义音素集合，接着进行语音样本数据采集和音素位置信息的标定，然后提取语音的声学特征，以及将语音转文本并参照音素集合进行音素拆分，再然后，训练每类音素的概率模型；再采用概率模型对声学特征进行处理，并将处理之后的音素位置信息映射得到音素的起始和终止位置。这样由于在音素对齐过程中，只是考虑训练概率模型，将声学特征转化为音素的概率值，会出现音素划分不准确，以及概率计算不准确问题，从而导致对齐之后的音素中存在较大误差，所以音素对齐精度较低。有鉴于此，本申请提出了一种音频处理方法，能够对初步对齐后音素序列进行自校正和自调整，减小对齐误差，显著提升对齐精度。

为了便于理解，先对本申请的音频处理方法所适用的系统框架进行介绍。可以理解的是，本申请实施例中并不对计算机设备的数量进行限定，其可以是多个计算机设备共同协作完成音频处理功能。在一种可能的情况中，请参考图1。由图1可知，该硬件组成框架可以包括：第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。

在本申请实施例中，在此不具体限定第一计算机设备101与第二计算机设备102的硬件结构，第一计算机设备101与第二计算机设备102两者进行数据交互，实现音频处理功能。进一步，本申请实施例中并不对网络103的形式进行限定，如，网络103可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一计算机设备101和第二计算机设备102可以是同一种计算机设备，如第一计算机设备101和第二计算机设备102均为服务器；也可以是不同类型的计算机设备，如，第一计算机设备101可以是终端或智能电子设备，第二计算机设备102可以服务器。在又一种可能的情况中，可以利用计算能力强的服务器作为第二计算机设备102来提高数据处理效率及可靠性，进而提高音频处理效率。同时利用成本低、应用范围广的终端或智能电子设备作为第一计算机设备101，用于实现第二计算机设备102与用户之间的交互。

举例说明，请参考图2，终端在获取到待对齐语音和所述待对齐语音对应的文本信息之后，将所述待对齐语音和所述文本信息发送到服务器，所述服务端接收到所述待对齐语音和所述文本信息之后，基于所述文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，以及基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列，接着基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，然后便可以将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。所述服务端在对所述目标音素序列和所述待对齐语音进行时间对齐之后，可以基于对齐后的结果对所述待对齐语音进行修音等，并将修音后的所述待对齐语音发送回所述终端，以便所述终端在获取到播放指令时，对修音后的所述待对齐语音进行播放。

参见图3所示，本申请实施例公开了一种音频处理方法，该方法包括：

步骤S11：基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素。

在实际实施过程中，需要先获取待对齐语音以及所述待对齐语音对应的文本信息，其中，所述文本信息也即所述待对齐语音中的歌词等。然后再基于所述文本信息以及预设的音素集合确定出所述待对齐语音中包括的目标音素。

在具体的实施过程中，当前计算机设备可以先获取待对齐语音和所述待对齐语音对应的文本信息，再基于所述文本信息以及预设的音素集合确定出所述待对齐语音中包括的目标音素。其中，当前计算机设备获取所述待对齐语音包括通过自身输入单元获取所述待处理语音，如当前计算机设备通过语音采集模块采集所述待对齐语音，或者当前计算机设备从音频库中获取所述待对齐语音。当前计算机设备也可以通过网络(可以是有线网络或者是无线网络)获取其他设备发送的待对齐语音，当然，本申请实施例中并不限定其他设备(如其他计算机设备)获取所述待对齐语音的方式。例如，其他设备(如终端)可以接收用户通过语音输入模块输入的待对齐语音。所述文本信息可以为用户基于当前计算机设备中的文本输入模块输入，或者可以为当前计算机通过网络获取到的。

具体的，基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，包括：基于预先获取到的文字与拼音对照表将获取到的待对齐语音对应的文本信息中的文字转换成对应的拼音；基于预设的音素集合对所述拼音进行拆分，得到所述待对齐语音中包括的第一目标音素；将所述音素集合中的第二目标音素和所述第一目标音素作为所述待对齐语音中包括的目标音素，其中，所述第二目标音素表示短停顿或静音音频对应的音素。

其中，所述预设的音素集合中的大部分音素是将汉语拼音的声母和韵母拆开得到，部分音素是根据实际发音而设定的，共使用了65个音素，分别为[sp，_a，_e，_i，_o，_u，_v，a，ai，an，ang，ao，b，c，ch，d，e，ei，en，eng，er，f，g，h，i，ia，ian，iang，iao，ie，ii，iii，in，ing，iong，iou，j，k，l，m，n，o，ong，ou，p，q，r，s，sh，t，u，ua，uai，uan，uang，uei，uen，uo，v，van，ve，vn，x，z，zh]，其中，sp表示短停顿或者静音音频所对应的音素，带有_的表示单音素的音节。在实际的待对齐语音中大多会包括短停顿或者静音音频，所以本申请的实施例中预设了sp表示短停顿或者静音音频所对应的音素，使得现有技术中将短停顿或静音音频对应的音素识别为一般的声母或韵母带来的对齐精度低问题得到解决。

所以，基于所述文本信息和所述音素集合确定所述待对齐语音中包括的目标音素，具体包括：首先基于预先获取到的文字和拼音对照表将所述文本信息中的文字转换成对应的拼音，然后基于所述音素集合对所述拼音进行拆分，得到所述待对齐语音中包括的第一目标音素，然后再将所述音素集合中的第二目标音素(也即，上述的sp)和所述第一目标音素作为所述待对齐语音中包括的目标音素。例如，文本信息中包括的文字为“你好”，则基于预先获取到的文字和拼音对照表将所述文本信息中的文字转换成对应的拼音为“nihao”，基于所述音素集合对所述拼音进行划分，得到所述待对齐语音中包括的第一目标音素为n、i、h、ao，然后再将上述的sp以及n、i、h、ao一起作为所述待对齐语音的目标音素。

步骤S12：基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列。

确定出所述待对齐语音中包括的目标音素之后，便确定出了所述待对齐语音中具体包括哪些音素，所以还需要基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列。也即，确定出所述目标音素中各个音素在所述待对齐语音中的位置。

具体的，确定出所述目标音素之后，先从预设的混合高斯模型集合中确定出所述目标音素对应的混合高斯模型，然后利用所述目标音素对应的混合高斯模型和动态路径规划算法确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列。

其中，所述预设的混合高斯模型集合中包括前述65个音素对应的训练后的混合高斯模型，也即，所述混合高斯模型集合中包括65个训练完成的混合高斯模型，一个混合高斯模型对应着一个音素。所以需要先训练得到所述混合高斯模型集合中的各个混合高斯模型。其中，训练任一音素对应的混合高斯模型包括：获取标定该音素的语音样本数据，然后对各个所述语音样本数据进行声学特诊提取，利用提取出的声学特征训练初始化的混合高斯模型，直到模型收敛，得到该音素对应的训练后的混合高斯模型，其中，混合高斯模型可以为混合度为32的混合高斯模型，也即，可以为32个单高斯模型拟合之后得到的混合高斯模型。所述声学特征可以为MFCC特征(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)。

基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列，具体包括：利用所述目标音素对应的目标混合高斯模型确定所述待对齐语音对应的概率矩阵，然后利用动态路径规划算法对所述概率矩阵求最优对齐路径，得到所述待对齐语音对应的初步对齐后音素序列。

也即，当训练所述混合高斯模型时的声学特征为MFCC特征时，可以按照预设帧长、预设步长对所述待对齐语音进行分帧，然后对每个语音帧进行MFCC特征提取，每个语音帧可以得到一个39维的特征向量，再将各个语音帧的MFCC特征构成MFCC特征矩阵，利用所述目标音素对应的混合高斯模型分别对该MFCC特征矩阵进行计算，再将所述目标音素对应的混合高斯模型计算得到的结果组成概率矩阵，然后基于动态路径规划算法对所述概率矩阵求最优对齐路径，得到所述待对齐语音对应的初步对齐后音素序列。

步骤S13：基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列。

得到所述初步对齐后音素序列之后，所述初步对齐后音素序列中会存在部分没有对齐的音素，所以需要对所述初步对齐后音素进行校准。具体的，就是先基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列。

具体的，所述基于所述初步对齐后音素序列生成合成语音，包括：将所述初步对齐后音素序列输入到预先基于FastSpeech模型构建的语音合成模型生成对应的合成语音。在生成所述合成语音后，基于所述合成语音和所述待对齐语音便可以确定出所述初步对齐后音素序列中存在未对齐的音素，然后对未对齐的音素进行自校正和自调整，得到所述校准后音素序列。

步骤S14：将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

相应的，得到所述校准后音素序列之后，可以将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

也即，在基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准后，得到所述校准后音素序列之后，再将所述校准后音素序列作为所述目标音素序列，目标音素序列也即最终用于对齐时的音素序列，这样相比于现有技术中的直接将初步对齐后音素序列作为目标音素序列来说，可以减少对齐误差，提高对齐精度。

由于所述校准后对齐序列中各个音素对应着所述待对齐语音中的一个语音帧，所以基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，可以对所述目标音素序列和所述待对齐语音进行时间对齐。例如，音素n对应的是第一个语音帧，帧长为20ms，则将音素n与待对齐语音中的0ms到20ms部分对齐。

参见图4所示，本申请实施例公开了一种具体的音频处理方法，该方法包括：

步骤S21：基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素。

步骤S22：基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列。

步骤S21和步骤S22的具体实施过程可以参考前述实施例中公开的内容，在此不再进行赘述。

步骤S23：基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列。

得到所述初步对齐后音素序列之后，还需要基于所述初步对齐后音素序列生成合成语音，以及基于所述合成语音和所述待对齐语音对所述初步对齐后音素进行校准，得到校准后音素序列。

其中，所述基于所述初步对齐后音素序列生成合成语音，具体包括：利用预先基于FastSpeech模型构建的语音合成模型对所述初步对齐后音素序列进行处理，生成所述合成语音。

在利用预先基于FastSpeech模型构建的语音合成模型对所述初步对齐后音素序列进行处理，生成所述合成语音之前，需要先获取FastSpeech模型，并将所述FastSpeech模型中的时长估计模块删除；对删除所述时长估计模块后的FastSpeech模型进行训练，得到所述语音合成模型。

FastSpeech是一个基于深度学习网络的语音合成模型，其典型的优点在于使用非自回归的形式并且可以通过控制每个音素的发音时长信息得到相应时长的语音信号。本申请中基于FastSpeech模型构建的语音合成模型去掉了FastSpeech的时长估计模块，加速了模型收敛速度并提升了输入音素时长对合成语音的可控性。

得到所述基于FastSpeech模型构建的语音合成模型之后，将所述初步对齐后音素序列输入到所述基于FastSpeech模型构建的语音合成模型中，可以得到时长与所述待对齐语音相同的合成语音。然后再基于所述合成语音和所述待对齐语音对所述初步对齐后语音校准。

参见图5所示，为合成语音和待对齐语音对比图。从图中可以看出基于初步对齐后音素序列生成的合成语音相比于待对齐语音会存在较多误差，例如，图中的方框内部的对比。

步骤S24：确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差。

可以理解的是，上述过程只是对所述初步对齐后音素序列进行一轮校准，在一些情况下，第一轮校准之后得到的校准后音素序列中可能还是包括较多未对齐的音素，所以需要先确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差，以确定所述偏差是否满足要求。

具体的，可以确定所述校准后音素序列中相比于所述初步对齐后音素序列被校准的音素数量，以便将所述音素数量作为所述校准后音素序列与所述初步对齐后音素序列之间的偏差。例如，所述初步对齐后音素序列为n、i、i、h、ao、o、sh、i、j、ie，所述校准后音素序列为n、i、i、h、ao、ao、sh、i、j、ie，则所述初步对齐后音素序列与所述校准后音素序列之间的偏差为1。

步骤S25:判断所述偏差是否小于预设偏差阈值。

在确定出所述偏差之后，还需要判断所述偏差是否小于预设偏差阈值，其中，所述预设偏差阈值为预先基于设定的值，可以根据实际情况确定。

步骤S26：如果所述偏差小于预设偏差阈值，则将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

如果所述偏差小于所述预设偏差阈值，则表示所述校准后音素序列和所述初步对齐后音素序列之间的偏差已经逐渐稳定，且小于预设偏差阈值，所以将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

步骤S27：如果所述偏差不小于预设偏差阈值，则将所述校准后音素序列作为所述初步对齐后音素序列，并重新执行所述基于所述初步对齐后音素序列生成合成语音开始的步骤。

如果所述偏差不小于所述预设偏差阈值，则表示所述校准后音素序列与所述初步对齐后音素序列之间的偏差依然较大，还需要进行再校准，所以将所述校准后音素序列作为新的初步对齐后音素序列，重现开始执行所述基于所述初步对齐后音素序列生成合成语音开始的步骤。也即，在所述校准后音素序列与所述初步对齐后音素序列之间的偏差较大时，可以进行多轮校准。

这样先确定出所述校准后音素序列与所述初步对齐后音素序列之间的偏差，在所述偏差小于所述预设偏差阈值时，才将所述校准后音素序列作为所述目标音素序列，不断提升对齐精度，能克服一些音素对齐算法在长元音不准以及对齐精度不够的问题，可以使得最后得到的音素序列误差较小，进一步提高对齐精度。

参见图6所示，所述基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，包括：

步骤S31：分别对所述合成语音和所述待对齐语音进行MFCC特征提取，得到第一MFCC特征矩阵和第二MFCC特征矩阵，其中，所述合成语音和所述待对齐语音的时长相同。

在基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准的过程中，需要先分别对所述合成语音和所述待对齐语音进行MFCC特征提取，得到第一MFCC特征矩阵和第二MFCC特征矩阵，其中，所述合成语音和所述待对齐语音的时长相同。

先分别对所述合成语音和所述待对齐语音进行MFCC特征提取，得到第一MFCC特征矩阵和第二MFCC特征矩阵，在得到所述第一MFCC特征矩阵和所述第二MFCC特征矩阵的过程中，对所述合成语音和所述待对齐语音进行分帧时的帧长和步长均相同，且由于所述合成语音和所述待对齐语音的时长相同，所以分帧后的合成语音和待对齐语音包括的帧数也相同。例如，都是T帧，则所述第一MFCC特征矩阵和所述第二MFCC特征矩阵均为T×39的二维矩阵。

步骤S32：基于动态时间规整算法对所述第一MFCC特征矩阵和第二MFCC特征矩阵进行处理，得到规整矩阵，其中，所述规整矩阵用于记录所述第一MFCC特征矩阵和第二MFCC特征矩阵中MFCC特征的对应关系。

得到所述第一MFCC特征矩阵和第二MFCC特征之后，还需要基于动态时间规整算法(DTW，Dynamic Time Warping)对所述第一MFCC特征矩阵和第二MFCC特征矩阵进行处理，得到规整矩阵，其中，所述规整矩阵用于记录所述第一MFCC特征矩阵和第二MFCC特征矩阵中MFCC特征的对应关系。

当所述第一MFCC特征矩阵和所述第二MFCC特征矩阵均为T×39的二维矩阵时，利用所述动态时间规整算法可以得到T×T的规整矩阵M，记录了第i帧待对齐语音的MFCC特征对应了第j帧合成语音的MFCC特征。

步骤S33：利用所述规整矩阵对所述初步对齐后音素序列进行校准，得到校准后音素序列。

得到所述规整矩阵之后，便可以利用所述规整矩阵对所述初步对齐后音素序列进行校准，得到校准后音素序列。

参见图7所示，为校准过程示意图。将得到的规整矩阵M，应用到校准所述初步对齐后音素序列。初步对齐后音素序列为：n、n、i、i、h、ao、ao，规整矩阵M中的(3，3)和(3，4)表示校准后音素序列中的第三个音素对应初步对齐后音素序列的第三和第四个音素，(4，5)和(5，5)表示校准后音素序列中的第四和第五个音素对应初步对齐后音素序列的第五个音素，以此类推。得到校准后音素序列为n、n、i、h、h、ao、ao。

参见图8所示，为音素对齐结果图。歌曲【你的样子】首句歌词的文本信息为【我听到传来的谁的声音】。基于前述的音频处理方法对【我听到传来的谁的声音】的音素和对应的音频进行对齐后的结果便可以参见图8所示。

下面以某款K歌APP对用户演唱歌曲进行修音的过程为例，对本申请中的技术方案进行说明。

假设这款K歌APP通过安装该款K歌APP的智能设备的语音输入模块采集到用户演唱的待对齐语音《公路之歌》，该K歌APP从对应的歌词库中加载待对齐语音《公路之歌》对应的文本信息，然后基于所述文本信息和前述的包括65个音素的音素集合确定出待对齐语音《公路之歌》中包括目标音素，然后再基于所述目标音素确定所述待对齐语音《公路之歌》中各帧语音对应的音素，得到所述待对齐语音《公路之歌》对应的初步对齐后音素序列。

接着还需要基于所述初步对齐后音素序列生成合成语音，以及基于所述合成语音和所述待对齐语音《公路之歌》对所述初步对齐后音素序列进行校准，得到校准后音素序列，然后将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音《公路之歌》中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音《公路之歌》进行时间对齐。

然后基于音素对齐结果对所述待对齐语音《公路之歌》进行修音，例如将音素对齐结果中过长的音素截短，将时长达不到要求的音素时间延长等，然后在用户点击重新播放录音之后，可以将修音之后的用户演唱歌曲《公路之歌》播放出来。

参见图9所示，本申请实施例公开了一种音频处理装置，包括：

音素确定模块21，用于基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素；

初步对齐模块22，用于基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列；

语音合成模块23，用于基于所述初步对齐后音素序列生成合成语音；

校准模块24，用于基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列；

对齐模块25，用于将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。

可见，本申请先基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，然后基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列，还需要基于所述初步对齐后音素序生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，接着便可以将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。由此可见，本申请中在对待对齐语音进行初步音素对齐，得到初步对齐后音素序列之后，还需要基于初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，才将所述校准后音素序列作为目标音素序列，进行所述目标音素序列和所述待对齐语音之间的时间对齐，这样相比于现有技术来说，在得到初步对齐后音素序列之后，再对初步对齐后音素序列进行校准，使得最终得到的音素序列更接近所述待对齐音素序列中实际包括的音素序列，有自校正和自调整的作用，减小对齐误差，显著提升对齐精度。

在一些具体的实施过程中，所述音素确定模块21，用于：

在一些具体的实施过程中，所述音频处理装置，还包括：

语音合成模型构建模块，用于获取FastSpeech模型，并将所述FastSpeech模型中的时长估计模块删除；对删除所述时长估计模块后的FastSpeech模型进行训练，得到所述语音合成模型，以便利用所述语音合成模型对所述初步对齐后音素序列进行处理，得到所述合成语音。

在一些具体的实施过程中，所述音频处理装置，还包括：

偏差确定模块，用于确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差；

判断模块，用于判断所述偏差是否小于预设偏差阈值；

相应地，所述对齐模块25，用于在所述偏差小于预设偏差阈值时，则将所述校准后音素序列作为目标音素序列。

在一些具体的实施过程中，所述语音合成模块23，用于：

在所述偏差不小于预设偏差阈值时，则将所述校准后音素序列作为所述初步对齐后音素序列，并重新执行所述基于所述初步对齐后音素序列生成合成语音开始的步骤。

在一些具体的实施过程中，所述偏差确定模块，用于：

在一些具体的实施过程中，所述校准模块24，用于：

参见图10所示，为本申请实施例提供的一种电子设备30的结构示意图，该用户电子设备30具体可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑以及服务器等。

通常，本实施例中的电子设备30包括：处理器31和存储器32。

其中，处理器31可以包括一个或多个处理核心，比如四核心处理器、八核心处理器等。处理器31可以采用DSP(digital signal processing,数字信号处理)、FPGA(field-programmable gate array,现场可编程们阵列)、PLA(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器31也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(central processing unit,中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器31可以集成有GPU(graphics processing unit,图像处理器)，GPU用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中，处理器31可以包括AI(artificialintelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器32可以包括一个或多个计算机可读存储介质，计算机可读存储介质可以是非暂态的。存储器32还可以包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器32至少用于存储以下计算机程序321，其中，该计算机程序被处理器31加载并执行之后，能够实现前述任一实施例中公开的音频处理方法步骤。

在一些实施例中，电子设备30还可包括有显示屏33、输入输出接口34、通信接口35、传感器36、电源37以及通信总线38。

本技术领域人员可以理解，图10中示出的结构并不构成对电子设备30的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任一实施例中公开的音频处理方法。

其中，关于上述音频处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种音频处理方法、装置、设备、介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐；

其中，所述基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列，包括：

2.根据权利要求1所述的音频处理方法，其特征在于，所述基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，包括：

3.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述初步对齐后音素序列生成合成语音之前，还包括：

对删除所述时长估计模块后的FastSpeech模型进行训练，得到语音合成模型，以便利用所述语音合成模型对所述初步对齐后音素序列进行处理，得到所述合成语音。

4.根据权利要求1所述的音频处理方法，其特征在于，所述将所述校准后音素序列作为目标音素序列之前，还包括：

判断所述偏差是否小于预设偏差阈值；

5.根据权利要求4所述的音频处理方法，其特征在于，所述判断所述偏差是否小于预设偏差阈值之后，还包括：

6.根据权利要求4所述的音频处理方法，其特征在于，所述确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差，包括：

7.一种音频处理装置，其特征在于，包括：

对齐模块，用于将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐；

其中，所述校准模块，具体用于分别对所述合成语音和所述待对齐语音进行MFCC特征提取，得到第一MFCC特征矩阵和第二MFCC特征矩阵，其中，所述合成语音和所述待对齐语音的时长相同；基于动态时间规整算法对所述第一MFCC特征矩阵和第二MFCC特征矩阵进行处理，得到规整矩阵，其中，所述规整矩阵用于记录所述第一MFCC特征矩阵和第二MFCC特征矩阵中MFCC特征的对应关系；利用所述规整矩阵对所述初步对齐后音素序列进行校准，得到校准后音素序列。

8.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现权利要求1至6任一项所述的音频处理方法。

9.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的音频处理方法。