CN113536029A

CN113536029A - 一种对齐音频和文本的方法、装置、电子设备及存储介质

Info

Publication number: CN113536029A
Application number: CN202110896043.2A
Authority: CN
Inventors: 轩晓光; 陈传艺; 张超钢
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-10-22
Anticipated expiration: 2041-08-05
Also published as: CN113536029B

Abstract

本发明实施例提供了一种对齐音频和文本的方法、装置、电子设备及存储介质，获取目标文本和对应的目标音频；根据预设的词与音素的对应关系，确定目标文本中的词对应的第一音素；按照第一音素之间的第一音素顺序，在每一待处理音素后添加预设音素得到第二音素；基于目标音频中的各目标音频帧的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的目标概率；基于目标概率和第二音素之间的第二音素顺序，从第二音素中确定每一目标音频帧对应的目标音素；确定目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本，由电子设备确定每一目标音频帧在目标文本中对应的文本，可以提高对齐的效率。

Description

一种对齐音频和文本的方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种对齐音频和文本的方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的快速发展，播放终端为用户提供了丰富的功能。例如，歌曲播放、歌曲制作和歌曲录制等。一首歌曲包括文本部分(即歌词)和音频部分，播放终端在播放歌曲的音频时，可以同步的显示歌曲的歌词。因此，需对歌曲的歌词和音频进行对齐。

现有技术中，由技术人员根据播放的音频的内容，确定每一句歌词在音频中的位置。然后，按照确定出的位置，将每一句歌词与对应位置的音频进行对齐。然而，由人工对歌词和音频进行对齐，导致对齐的效率较低。

发明内容

本发明实施例的目的在于提供一种对齐音频和文本的方法、装置、电子设备及存储介质，以提高音频和文本对齐的效率。具体技术方案如下：

第一方面，为了达到上述目的，本发明实施例提供了一种对齐音频和文本的方法，所述方法包括：

获取待对齐的目标文本，以及获取所述目标文本对应的目标音频；

根据预设的词与音素的对应关系，确定所述目标文本包含的各个词对应的音素，作为第一音素；

按照所述第一音素之间的第一音素顺序，针对所述第一音素中的每一待处理音素，在该待处理音素后添加预设音素，得到第二音素；其中，所述待处理音素的延音的语音特征与所述待处理音素的语音特征不同；所述第一音素顺序为基于所述第一音素对应的词在所述目标文本中的顺序确定的；

基于所述目标音频中的各目标音频帧各自的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的概率，作为目标概率；其中，所述概率预测模型为基于预设训练样本进行训练得到的；所述预设训练样本包括：样本音频帧的频谱特征，以及每一样本音频帧与每一预设音素相对应的概率；

基于各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从所述第二音素中确定每一目标音频帧对应的目标音素；

确定所述目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

可选的，所述获取待对齐的目标文本，包括：

获取原始文本；

删除所述原始文本中的冗余文本内容，得到待对齐的目标文本。

可选的，所述根据预设的词与音素的对应关系，确定所述目标文本包含的各个词对应的音素，作为第一音素，包括：

针对所述目标文本中的每一个词，如果该词为中文，则确定该词的拼音音素，作为该词的第一音素；

如果该词为非中文，基于该词的国际音标确定该词的第一音素。

可选的，所述基于该词的国际音标确定该词的第一音素，包括：

如果存在与该词的国际音标的语音特征相同的拼音音素，确定该拼音音素为该词的第一音素；

如果不存在与该词的国际音标的语音特征相同的拼音音素，确定该词的国际音标为该词的第一音素。

可选的，所述获取所述目标文本对应的目标音频，包括：

获取所述目标文本对应的原始音频；

提取所述原始音频中包含人声的音频帧，得到目标音频。

可选的，所述概率预测模型通过以下步骤训练得到：

获取样本文本和所述样本文本对应的样本音频；

获取所述样本文本对应的样本音素，以及所述样本音频中的多个样本音频帧的频谱特征；其中，所述样本音频帧包括：包含人声且不包含伴奏声的音频帧，以及包含人声和伴奏声的音频帧；

基于样本音频帧与样本音素的对应关系，确定每一样本音频帧与每一预设音素相对应的概率，作为样本概率；其中，一个样本音频帧与对应的样本音素相对应的概率为第一数值；一个样本音频帧与除对应的样本音素外的其他音素相对应的概率为第二数值；

将各样本音频帧的频谱特征作为初始概率预测模型的输入数据，并将所述样本概率作为所述初始概率预测模型的输出数据，对所述初始概率预测模型的模型参数进行调整；

当所述初始概率预测模型达到预设收敛条件时，得到训练好的概率预测模型。

可选的，所述基于各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从所述第二音素中确定每一目标音频帧对应的目标音素，包括：

基于最短路径算法、各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从第一个目标音频帧与最后一个目标音频帧之间的多个路径中，确定出最短路径；其中，每一路径包含多个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，所述最短路径为各个路径中对应的各目标概率的和值最大的路径；

针对每一目标音频帧，确定所述最短路径中该目标音频帧对应的节点；

从所述第二音素中，确定该节点对应的音素，作为该目标音频帧对应的目标音素。

第二方面，为了达到上述目的，本发明实施例提供了一种对齐音频和文本的装置，所述装置包括：

获取模块，用于获取待对齐的目标文本，以及获取所述目标文本对应的目标音频；

第一确定模块，用于根据预设的词与音素的对应关系，确定所述目标文本包含的各个词对应的音素，作为第一音素；

添加模块，用于按照所述第一音素之间的第一音素顺序，针对所述第一音素中的每一待处理音素，在该待处理音素后添加预设音素，得到第二音素；其中，所述待处理音素的延音的语音特征与所述待处理音素的语音特征不同；所述第一音素顺序为基于所述第一音素对应的词在所述目标文本中的顺序确定的；

第二确定模块，用于基于所述目标音频中的各目标音频帧各自的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的概率，作为目标概率；其中，所述概率预测模型为基于预设训练样本进行训练得到的；所述预设训练样本包括：样本音频帧的频谱特征，以及每一样本音频帧与每一预设音素相对应的概率；

第三确定模块，用于基于各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从所述第二音素中确定每一目标音频帧对应的目标音素；

第四确定模块，用于确定所述目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

可选的，所述获取模块，具体用于获取原始文本；

可选的，所述第一确定模块，具体用于针对所述目标文本中的每一个词，如果该词为中文，则确定该词的拼音音素，作为该词的第一音素；

可选的，所述第一确定模块，具体用于如果存在与该词的国际音标的语音特征相同的拼音音素，确定该拼音音素为该词的第一音素；

可选的，所述获取模块，具体用于获取所述目标文本对应的原始音频；

提取所述原始音频中包含人声的音频帧，得到目标音频。

可选的，所述装置还包括：

训练模块，用于获取样本文本和所述样本文本对应的样本音频；

可选的，所述第三确定模块，具体用于基于最短路径算法、各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从第一个目标音频帧与最后一个目标音频帧之间的多个路径中，确定出最短路径；其中，每一路径包含多个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，所述最短路径为各个路径中对应的各目标概率的和值最大的路径；

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的对齐音频和文本的方法步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的对齐音频和文本的方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的对齐音频和文本的方法。

本发明实施例提供的一种对齐音频和文本的方法，获取待对齐的目标文本，以及获取目标文本对应的目标音频；根据预设的词与音素的对应关系，确定目标文本包含的各个词对应的音素，作为第一音素；按照第一音素之间的第一音素顺序，针对第一音素中的每一待处理音素，在该待处理音素后添加预设音素，得到第二音素；其中，待处理音素的延音的语音特征与待处理音素的语音特征不同；第一音素顺序为基于第一音素对应的词在目标文本中的顺序确定的；基于目标音频中的各目标音频帧各自的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的概率，作为目标概率；概率预测模型为基于预设训练样本进行训练得到的；预设训练样本包括：样本音频帧的频谱特征，以及每一样本音频帧与每一预设音素相对应的概率；基于各个目标音频帧对应的目标概率，以及第二音素之间的第二音素顺序，从第二音素中确定每一目标音频帧对应的目标音素；确定目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

基于上述处理，可以由电子设备确定每一目标音频帧在目标文本中对应的文本，相对于由人工对文本和音频进行对齐，可以提高对齐的效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种对齐音频和文本的方法的流程图；

图2为本发明实施例提供的一种获取目标文本的方法的流程图；

图3为本发明实施例提供的一种获取目标音频的方法的流程图；

图4为本发明实施例提供的另一种对齐音频和文本的方法的流程图；

图5为本发明实施例提供的另一种对齐音频和文本的方法的流程图；

图6为本发明实施例提供的一种概率预测模型训练方法的流程图；

图7为本发明实施例提供的一种第一个目标音频帧至最后一个目标音频帧之间路径示意图；

图8为本发明实施例提供的另一种对齐音频和文本的方法的流程图；

图9为本发明实施例提供的一种确定预设音素的流程图；

图10为本发明实施例提供一种对齐歌词与音频的方法的流程图；

图11为本发明实施例提供的一种KRC格式的歌词生成方法的流程图；

图12为本发明实施例提供的另一种对齐歌词和音频的方法的流程图；

图13为本发明实施例提供的一种对齐音频和文本的装置的结构图；

图14为本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种对齐文本和音频的方法。该方法可以应用于电子设备。电子设备可以为播放终端(例如，手机，电脑等)，或者电子设备也可以为播放终端对应的服务器。

当电子设备为播放终端时，电子设备可以基于本发明实施例提供的方法，对待对齐的目标文本和对应的目标音频进行对齐，即，从目标文本中确定每一目标音频帧对应的词，每一目标音频帧对应的词可以为一个，也可以为多个。进而，在用户通过电子设备播放每一目标音频帧时，电子设备可以显示该目标音频帧对应的词。

当电子设备为播放终端对应的服务器时，电子设备可以基于本发明实施例提供的方法，对待对齐的目标文本和对应的目标音频进行对齐，即，从目标文本中确定每一目标音频帧对应的词，电子设备可以向播放终端发送已对齐的目标文本和目标音频。进而，在用户通过播放终端播放每一目标音频帧时，播放终端可以显示该目标音频帧对应的词。

一种实现方式中，文本和对应的音频可以统称为音频资源。例如，音频资源表示歌曲时，则文本为歌词，音频为歌词的演唱音频；音频资源表示有声小说时，文本为小说文本，音频为小说文本的朗读音频。

当音频资源表示歌曲时，基于本发明实施例提供的方法，可以确定每一帧演唱音频对应的歌词。进而，在播放该歌曲时，可以同步显示每一帧演唱音频对应的歌词。

参见图1，图1为本发明实施例提供的一种对齐文本和音频的方法的流程图。该方法可以包括以下步骤：

S101：获取待对齐的目标文本，以及获取目标文本对应的目标音频。

S102：根据预设的词与音素的对应关系，确定目标文本包含的各个词对应的音素，作为第一音素。

S103：按照第一音素之间的第一音素顺序，针对第一音素中的每一待处理音素，在该待处理音素后添加预设音素，得到第二音素。

其中，待处理的延音的语音特征与待处理音素的语音特征不同。第一音素顺序为基于第一音素对应的词在目标文本中的顺序确定的。

S104：基于目标音频中的各目标音频帧各自的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的概率，作为目标概率。

其中，概率预测模型为基于预设训练样本进行训练得到的；预设训练样本包括：样本音频帧的频谱特征，以及每一样本音频帧与每一预设音素相对应的概率。

S105：基于各个目标音频帧对应的目标概率，以及第二音素之间的第二音素顺序，从第二音素中确定每一目标音频帧对应的目标音素。

S106：确定目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

基于本发明实施例提供的一种对齐文本和音频的方法，可以由电子设备确定每一目标音频帧在目标文本中对应的文本，相对于由人工对文本和音频进行对齐，可以提高对齐的效率。

在步骤S101中，一种实现方式中，电子设备可以直接获取待对齐的原始文本，作为目标文本。

或者，电子设备也可以对原始文本进行预处理，将预处理得到的文本作为目标文本。另一种实现方式中，参见图2，步骤S101可以包括以下步骤：

S201：获取原始文本。

S202：删除原始文本中的冗余文本内容，得到待对齐的目标文本。

冗余文本内容为在目标音频中无对应的音频的文本内容。一种实现方式中，冗余文本内容可以包括：与原始文本相关的制作信息。例如，原始文本为歌词时，冗余文本内容可以包括：歌词的作词信息、歌词对应的音频的演唱信息、作曲信息，以及非中文歌词的翻译信息、校对信息等。原始文本为小说文本时，冗余文本内容可以包括：小说文本的作者信息、出版信息、朗读者信息，以及在小说文本中插入的广告信息等。

目标音频中不包含冗余文本内容对应的音频，例如，歌曲的音频中不包含与歌词相关的制作信息的音频。如果直接对原始文本和目标音频进行对齐，会导致对齐的准确率较低。

因此，电子设备在获取原始文本之后，可以删除原始文本中的冗余文本内容，可以得到与目标音频一致的文本(即目标文本)。后续，电子设备可以基于本发明实施例提供的方法对目标文本和目标音频进行对齐，可以提高对齐的准确率。

一种实现方式中，电子设备中可以确定原始文本中，表示冗余文本内容的预设关键词，例如，作词，作曲，演唱，作者等。然后，电子设备可以删除原始文本中的预设关键词，得到目标文本。

在步骤S101中，一种实现方式中，电子设备还可以获取原始文本对应的原始音频，作为目标音频。原始音频帧可以为包含人声且不包含伴奏声的音频帧。或者原始音频帧可以为包含人声和伴奏声的音频帧。

或者，电子设备也可以对原始音频进行预处理，将预处理得到的音频作为目标音频。另一种实现方式中，参见图3，步骤S101可以包括以下步骤：

S301：获取目标文本对应的原始音频。

S302：提取原始音频中包含人声的音频帧，得到目标音频。

原始音频可以包括：包含人声的音频帧和不包含人声的音频帧。例如，目标文本为歌词时，目标文本对应的原始音频中包含间奏部分，间奏部分对应的音频帧不包含人声。或者，目标文本为小说文本时，在朗读小说文本的过程中会存在停顿的情况，停顿的时间对应的音频帧不包含人声。

如果直接对目标文本和原始音频进行对齐，会导致对齐的准确率较低。因此，电子设备在获取原始音频之后，可以提取原始音频中包含人声的音频帧，可以得到与目标文本一致的音频(即目标音频)。后续，电子设备可以基于本发明实施例提供的方法对目标文本和目标音频进行对齐，可以提高对齐的准确率。

一种实现方式中，电子设备可以对原始音频进行VAD(Voice ActivityDetection，语音活动检测)处理，得到原始音频中包含人声的音频帧，作为目标音频。

在本步骤S102中，音素是根据语音的自然属性划分出来的最小语音单位。预设的词与音素的对应关系中包括：中文词与拼音音素的对应关系，以及非中文词与IPA(International Phonetic Alphabet，国际音标)的对应关系。

国际音标共有48个音素。汉语拼音包括声母和韵母。声母有：b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w。韵母有：a、o、e、i、u、ü、ai、ei、ui、ao、ou、iu、ie、üe、er、an、en、in、un、ün、ang、eng、ing、ong。

在确定出目标文本对应的第一音素时，目标文本包含的词的排列顺序也就是目标文本对应的第一音素之间的顺序。例如，目标文本包括：生活真美好，目标文本对应的第一音素包括：sh，eng，h，u，o，zh，en，m，ei，h，ao。目标文本从“生”至“好”的顺序为第一音素从“sh”至“ao”的顺序。

在本发明的一个实施例中，在图1的基础上，参见图4，步骤S102可以包括以下步骤：

S1021：针对目标文本中的每一个词，如果该词为中文，则确定该词的拼音音素，作为该词的第一音素。

S1022：如果该词为非中文，基于该词的国际音标确定该词的第一音素。

一种实现方式中，目标文本中可以包含中文词和非中文词。针对目标文本中的每一个词，如果该词为中文，电子设备可以在中文词与拼音音素的对应关系中，确定该词的拼音音素，作为对应的第一音素。

如果该词为非中文，电子设备可以在非中文词与IPA的对应关系中，确定该词的国际音标，作为对应的第一音素。

另一种实现方式中，在图4的基础上，参见图5，步骤S1022可以包括以下步骤：

S10221：如果该词为非中文，且存在与该词的国际音标的语音特征相同的拼音音素，确定该拼音音素为该词的第一音素。

S10222：如果该词为非中文，且不存在与该词的国际音标的语音特征相同的拼音音素，确定该词的国际音标为该词的第一音素。

一种实现方式中，电子设备中可以存储有预设的拼音音素与国际音标的对应关系。针对目标文本中的每一个非中文词，如果预设的拼音音素与国际音标的对应关系中，记录了与该词的国际音标的语音特征相同的拼音音素，电子设备可以确定该拼音音素为该词的第一音素。如果预设的拼音音素与国际音标的对应关系中，未记录与该词的国际音标的语音特征相同的拼音音素，确定该词的国际音标为该词的第一音素。

后续，在确定每一目标音频帧与每一第二音素相对应的概率时，由于需要先确定每一目标音频帧与每一预设音素相对应的概率。如果直接将非中文词的国际音标，作为非中文词的第一音素，则预设音素中需要包括所有的拼音音素和所有的国际音标。相应的，在确定每一目标音频帧与每一预设音素相对应的概率时，电子设备的计算量较大。

如果将与非中文词的国际音标的语音特征相同的拼音音素，作为非中文词第一音素。预设音素可以包括：一部分国际音标和所有拼音音素，该部分国际音标为不存在与自身的语音特征相同的拼音音素的国际音标。相应的，相对于预设音素中包括所有的拼音音素和所有的国际音标，可以减少预设音素的数目，进而，在确定每一目标音频帧与每一预设音素相对应的概率时，可以减少电子设备的计算量，进一步提高对齐的效率。

在步骤S103中，电子设备可以从第一音素中，确定出延音的语音特征与自身的语音特征不同的音素(即待处理音素)。例如，待处理音素可以包括：ang，eng，ing，ong等。

由于待处理音素的延音的语音特征与自身的语音特征不同，如果待处理音素的延音所持续的时间较长，在对目标文本和目标音频进行对齐时，可能会将待处理音素的延音确定为其他的音素，进而，可能会将待处理音素的延音对应的音频帧，与其他音素所属的词对齐，进而，导致对齐的准确率较低。

因此，针对第一音素中的每一待处理音素，电子设备可以按照第一音素之间的第一音素顺序，在该待处理音素后添加预设音素，得到第二音素。例如，待处理音素为ang，eng，ing，ong时，预设音素可以为“ng”。

例如，目标文本可以包括：生活真美好，目标文本对应的第一音素包括：sh，eng，h，u，o，zh，en，m，ei，h，ao。第一音素中的待处理音素为：eng。电子设备可以在“eng”后添加“ng”，进而，可以得到第二音素包括：sh，eng，ng，h，u，o，zh，en，m，ei，h，ao。

后续，在确定每一目标音频帧对应的目标音素时，如果电子设备确定一个目标音频帧对应的音素为“ng”，则电子设备可以将“ng”的前一个音素，确定为该目标音频帧对应的目标音素。例如，针对上述实施例，如果电子设备确定一个目标音频帧对应的音素为“ng”，则电子设备可以确定该目标音频帧对应的音素为“eng”。相应的，可以将待处理音素的延音对应的音频帧，与待处理音素所属的词对齐，进而，可以提高对齐的准确率。

在本发明的一个实施例中，在对原始音频进行VAD处理时，由于算法误差的影响，提取的目标音标中可能仍存在不包含人声的音频帧。如果直接对目标音频帧与目标文本进行对齐，会导致对齐的准确率较低。

因此，电子设备可以在第二音素中添加“sil”，“sil”表示不包含人声的音频帧。例如，电子设备可以在每相邻的预设数目个音素后添加“sil”，或者电子设备可以在每一第二音素后添加“sil”。

示例性的，目标文本可以包括：生活真美好，目标文本对应的第一音素包括：sh，eng，h，u，o，zh，en，m，ei，h，ao。电子设备可以在每3个音素后添加“sil”，进而，可以得到第二音素包括：sh，eng，ng，sil，h，u，o，sil，zh，en，m，sil，ei，h，ao，sil。

后续，在确定每一目标音频帧对应的目标音素时，如果一个目标音频帧对应的目标音素为“sil”，则电子设备可以确定该目标音频帧为不包含人声的音频帧，以避免将该目标音频帧与目标文本中的词对齐，进而，可以提高对齐的准确率。

在步骤S104中，一个目标音频帧的频谱特征可以为该目标音频帧的MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)，或者也可以为该目标音频帧的LPCC(Linear Prediction Cepstral Coefficients，线性预测倒谱系数)，但并不限于此。

一种实现方式，当每一目标音频帧的频谱特征为该目标音频帧的梅尔频率倒谱系数时，电子设备可以通过如下方式，计算该目标音频帧的梅尔频率倒谱系数。

电子设备可以对目标音频进行预加重处理，以增加目标音频中的高频语音的频率，得到预加重后的目标音频。电子设备可以基于预设的窗口函数(例如，矩形窗函数、汉宁窗函数等)，对预加重后的目标音频进行分帧处理，得到多个目标音频帧。

然后，针对每一目标音频帧，电子设备可以对该目标音频帧进行FFT(FastFourier Transform，快速傅里叶变换)处理，得到该目标音频帧对应的频域信号。进而，基于该目标音频帧对应的频域信号，计算该目标音频帧的功率谱，并基于Mel(梅尔)频率滤波器对该目标音频帧的功率谱进行滤波，得到该目标音频帧对应的Mel频谱。

进而，电子设备可以对该目标音频帧对应的Mel频谱进行取对数处理，并对该目标音频帧对应的Mel频谱的对数进行DCT(Discrete Cosine Transform，离散余弦变换)处理，得到该目标音频帧的MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)。

概率预测模型可以为CNN(convolutional neural network，卷积神经网络)模型，或者概率预测模型也可以为CNN-TDNN(CNN-Time Delay Neural Network，卷积神经网络-时延神经网络)模型，但并不限于此。

一种实现方式中，电子设备可以将目标音频中的各目标音频帧各自的频谱特征输入至预先训练的概率预测模型，得到概率预测模型输出的每一目标音频帧与每一预设音素相对应的概率(可以称为第一概率)。

然后，电子设备可以从预设音素中确定出目标文本对应的第二音素。进而，电子设备可以从各第一概率中，确定出每一目标音频帧与每一第二音素相对应的概率(即目标概率)。

在本发明的一个实施例中，电子设备还可以基于预设的训练样本，对初始概率预测模型进行训练，以确定训练好的概率预测模型。

参见图6，图6为本发明实施例提供的一种概率预测模型训练方法的流程图，该方法可以包括以下步骤：

S601：获取样本文本和样本文本对应的样本音频。

S602：获取样本文本对应的样本音素，以及样本音频中的多个样本音频帧的频谱特征。

其中，样本音频帧包括：包含人声且不包含伴奏声的音频帧，以及包含人声和伴奏声的音频帧。

S603：基于样本音频帧与样本音素的对应关系，确定每一样本音频帧与每一预设音素相对应的概率，作为样本概率。

其中，一个样本音频帧与对应的样本音素相对应的概率为第一数值；一个样本音频帧与除对应的样本音素外的其他音素相对应的概率为第二数值。

S604：将各样本音频帧的频谱特征作为初始概率预测模型的输入数据，并将样本概率作为初始概率预测模型的输出数据，对初始概率预测模型的模型参数进行调整。

S605：当初始概率预测模型达到预设收敛条件时，得到训练好的概率预测模型。

样本音频帧可以包括：包含人声且不包含伴奏声的音频帧，以及包含人声和伴奏声的音频帧，可以提高预设的训练样本的多样性，进而，提高训练得到的概率预测模型的准确度。

针对样本文本和对应的样本音频，已预先确定其之间的对应关系，也就是，已经确定样本音频中的每一样本音频帧在样本文本中对应的词。针对每一样本音频帧，该样本音频帧在样本文本中对应的词的音素，即为该样本音频帧对应的样本音素。

一种实现方式中，针对每一样本音频帧，电子设备可以将该样本音频帧与对应的样本音素相对应的概率设置为第一数值，并将该样本音频帧与除对应的样本音素外的其他音素相对应的概率设置为第二数值，可以得到该样本音频帧与每一预设音素相对应的样本概率。

第一数值和第二数据均可以由技术人员根据经验设置，第一数值与第二数值不同，例如，第一数值可以为1，第二数值可以为0，但并不限于此。

进而，电子设备可以将各样本音频帧的频谱特征输入至初始概率预测模型，得到初始概率预测模型输出的每一样本音频帧与每一预设音素相对应的样本概率(可以称为预测概率)。电子设备可以计算表示预测概率与样本概率的差异性的损失函数值，基于计算得到的损失函数值对初始概率预测模型的模型参数进行调整。当初始概率预测模型达到预设收敛条件时，可以得到训练好的概率预测模型。

在步骤S105中，在确定出每一目标音频帧与每一第二音素相对应的目标概率之后，电子设备可以基于目标概率，从第二音素中确定每一目标音频帧对应的目标音素。

可以理解的是，各目标音频帧之间存在一定的顺序，第一个目标音频帧也就是目标音频中的起始音频帧，最后一个目标音频帧也就是目标音频中的终止音频帧。从第一个目标音频帧至最后一个目标音频帧存在的多个路径。

参见图7，图7为本发明实施例提供的一种第一个目标音频帧至最后一个目标音频帧之间路径示意图。目标文本可以为“你好”。目标文本对应的第二音素包括：n，i，h，ao。目标音频中包括：目标音频帧1，目标音频帧2，目标音频帧3。

图7中包含12个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，两个节点之间的箭头方向表示该两个节点之间的路径。例如，Pn1表示目标音频帧1与音素“n”相对应的目标概率，Pi2表示目标音频帧2与音素“i”相对应的目标概率，Ph1表示目标音频帧1与音素“h”相对应的目标概率，Pao1表示目标音频帧1与音素“ao”相对应的目标概率。

从目标音频帧1至目标音频帧3包括多个路径，例如，Pn1→Pi1→Ph1→Pao1为从目标音频帧1至目标音频帧3的一个路径。Pn2→Pi1→Ph1→Pao1为从目标音频帧1至目标音频帧3的一个路径。Pn2→Pi3→Ph1→Pao2为从目标音频帧1至目标音频帧3的一个路径。

可以理解的是，在从第二音素中，确定该目标音频帧对应的目标音素时，需要综合考虑各目标音频帧之间的顺序和第二音素之间的第二音素顺序。也就是说，针对每一目标音频帧，可以从该目标音频帧的前一音频帧对应的目标音素之后的第二音素中，确定该目标音频帧对应的目标音素。

一种实现方式中，针对从第一个目标音频帧至最后一个目标音频帧之间的每一路径，电子设备可以计算该路径中的各节点对应的目标概率的和值。然后，电子设备可以从各路径中，确定出对应的和值最大的路径(即最短路径)。进而，电子设备可以按照确定出的最短路径，从第二音素中，确定每一目标音频帧对应的目标音素。

另一种实现方式中，为了进一步提高对齐的效率，在图1的基础上，参见图8，步骤S105可以包括以下步骤：

S1051：基于最短路径算法、各个目标音频帧对应的目标概率，以及第二音素之间的第二音素顺序，从第一个目标音频帧与最后一个目标音频帧之间的多个路径中，确定出最短路径。

其中，每一路径包含多个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，最短路径为各个路径中对应的各目标概率的和值最大的路径。

S1052：针对每一目标音频帧，确定最短路径中该目标音频帧对应的节点。

S1053：从第二音素中，确定该节点对应的音素，作为该目标音频帧对应的目标音素。

最短路径算法可以为维特比算法，或者最短路径算法也可以为Dijkstra(迪杰斯特拉)算法，但并不限于此。

电子设备可以基于最短路径算法、各个目标音频帧对应的目标概率，以及第二音素之间的第二音素顺序，从多个路径中，确定出对应的各目标概率的和值最大的路径(即最短路径)。然后，针对每一目标音频帧，电子设备可以确定最短路径中该目标音频帧对应的节点，并确定该节点对应的第二音素，作为该目标音频帧对应的目标音素。

示例性的，针对图7所示的实施例，如果电子设备确定出的最短路径为Pn1→Pi2→Ph3→Pao3，则电子设备可以确定目标音频帧1对应的目标音素为“n”，目标音频帧2对应的目标音素为“i”，目标音频帧3对应的目标音素为“h”和“ao”。

在步骤S106中，电子设备可以确定目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

示例性的，针对图7所示的实施例，电子设备可以确定目标文本中，与目标音频帧1和目标音频帧2对齐的词为“你”，与目标音频帧3对齐的词为“好”。

后续，在播放每一目标音频帧时，电子设备可以显示该目标音频帧对应的词。例如，针对上述实施例，在播放目标音频帧1、目标音频帧2时，电子设备可以显示“你”，在播放目标音频帧3时，电子设备可以显示“好”。

在本发明的一个实施例中，在确定出目标文本中与每一目标音频帧对齐的文本之后，电子设备还可以根据目标文本与目标音频的对应关系，对原始文本与原始音频进行对齐。

一种实现方式中，电子设备可以根据目标文本中的每一个词对应的目标音频帧，确定该词在原始音频中对应的音频帧。如果一个词对应的目标音频帧位于冗余音频帧之前，冗余音频帧为原始音频帧中不包含人声的音频帧，电子设备可以直接确定该词对应的目标音频，作为该词在原始音频中对应的音频帧。如果一个词对应的目标音频帧位于冗余音频帧之后，则电子设备可以确定该词对应的目标音频帧与冗余音频帧的和值，该和值表示的音频帧为该词在原始音频中对应的音频帧。

然后，电子设备可以根据原始音频与目标文本中的词的对应关系，确定原始文本中的每一个词在原始音频中对应的音频帧。针对原始文本中的冗余文本内容中的每一个词，电子设备可以按照原始文本中各词的排列顺序，从目标文本包含的词中，确定位于该词之前，且距离该词最近的词(可以称为第一参考词)，以及位于该词之后，且距离该词最近的词(可以称为第二参考词)。进而，电子设备可以确定第一参考词对应的音频帧至第二参考词对应的音频帧之间的音频帧，作为该词在原始音频中对应的音频帧。

参见图9，图9为本发明实施例提供的一种确定预设音素的流程图。

不同语言对应的音素不同。例如，中文对应的音素为拼音音素，英文对应的音素为IPA，韩文对应的音素为韩文音标。

对于除拼音音素、IPA以外的其他音素，可以将该音素映射为IPA，也就是确定与该音素的语音特征相同的IPA。然后，将IPA映射为拼音音素，也就是确定与IPA的语音特征相同的拼音音素，作为预设音素。当除拼音音素、IPA以外的其他音素无法映射为IPA时，可以创建新的音素，将新的音素添加至预设音素中，也就是直接将该音素作为预设音素。进而，可以得到多个以拼音音素为基础的预设音素。

参见图10，图10为本发明实施例提供一种对齐歌词与音频的方法的流程图。

电子设备可以获取N个目标音频帧，并获取N个目标音频帧各自的频谱特征。电子设备可以将N个目标音频帧各自的频谱特征输入至深度学习神经网络(即前述实施例中的概率预测模型)，得到深度学习神经网络输出的每一目标音频帧与每一预设音素相对应的概率(即前述实施例中的第一概率)。

预设音素的数目为M时，各第一概率组成M×N的概率矩阵。该概率矩阵中第M行第N列的元素，表示第N个预设音素与第M个目标音频帧相对应的概率。例如，P11表示第1个预设音素与第1个目标音频帧相对应的概率，第一个音素为a时，P11表示预设音素a与第1个目标音频帧相对应的概率。

然后，电子设备可以获取目标歌词，例如，“你好”，并确定目标歌词对应的音素，例如歌词“你好”对应的音素包括：n，i，h，ao。进而，电子设备可以从包含各第一概率的概率矩阵中，确定出每一目标音频帧与目标歌词对应的每一音素相对应的概率(即前述实施例中的目标概率)。

目标歌词对应的音素的数目为K，各目标概率组成K×N的概率矩阵。例如，目标歌词对应的音素包括：n，i，h，ao时，各目标概率组成4×N的概率矩阵。该概率矩阵中第K行第N列的元素，表示第K个音素与第N个目标音频帧相对应的概率。例如，目标歌词对应的第一个音素为n，Pn1表示音素n与第1个目标音频帧相对应的概率。

进而，电子设备可以基于最短路径算法和目标概率，确定出从第一个目标音频帧至最后一个目标音频帧的最短路径，例如，最短路径可以为：Pn1→Pi2→……→PaoN。电子设备可以确定最短路径中该目标音频帧对应的节点，并确定该节点对应的音素，作为该目标音频帧对应的目标音素。进而，电子设备可以确定目标歌词中每一目标音频帧对应的目标音素所属的词，作为与该目标音频帧对齐的词。

参见图11，图11为本发明实施例提供的一种KRC(歌词文件扩展名)格式的歌词生成方法的流程图。

电子设备可以获取原始歌词，原始歌词中包括：歌名信息、作曲信息、编曲信息、演唱者信息等冗余信息。电子设备可以对原始歌词进行过滤，得到过滤歌词和目标歌词。

然后，电子设备可以基于本发明实施例提供的方法对目标歌词和目标音频进行对齐，确定与每一目标音频对齐的歌词。例如，音频帧t11与“第”对齐，音频帧t12与“一”对齐，音频帧t13与“行”对齐。

电子设备还可以将过滤歌词插入至对齐后的目标歌词中，即电子设备可以将目标音频帧与原始歌词进行对齐。由于原始歌词中“歌名，作曲：XXX，编曲：XXX，演唱：XXX”位于“第一行歌词”之前，因此“歌名，作曲：XXX，编曲：XXX，演唱：XXX”对应的音频帧位于“第一行歌词”对应的音频帧之前。因此，可以设置音频帧0与“歌名”对齐，音频帧t11/4与“作曲：XXX”对齐，音频帧2*t11/4与“编曲：XXX”对齐，音频帧3*t11/4与“演唱：XXX”对齐。同理，可以设置从t26至t31之间的音频帧(即音频帧t31-t26)与“男”对齐，并设置从t36至t41之间的音频帧(即音频帧t41-t36)与“女”对齐。

进而，可以得到目标音频帧与原始歌词的对应关系，并生成KRC格式的歌词，KRC格式的歌词中记录了原始歌词中的每一个词对应的音频帧。

参见图12，图12为本发明实施例提供的另一种对齐歌词和音频的方法的流程图。

电子设备可以获取原始音频，并对原始音频进行VAD处理，确定出原始音频中不包含人声的冗余音频帧(即，从te至ts之间的音频帧)。然后，从原始音频中提取出除冗余音频帧外的其他音频帧，得到目标音频帧。

然后，电子设备可以获取目标歌词。目标歌词可以包括：第一行歌词，第二行歌词，……。电子设备可以对目标音频和目标歌词进行对齐，确定每一目标音频帧对应的目标歌词，例如，音频帧t11与“第”对齐，音频帧t12对应与“一”对齐，音频帧t13与“行”对齐。

进而，电子设备可以根据确定出的每一目标音频帧对应的目标歌词，将目标歌词与原始音频进行对齐。如果目标歌词中的一个词对应的音频帧位于ts之前，则电子设备可以确定该词对应的目标音频即为该词在原始音频中对应的音频帧。如果目标歌词中的一个词对应的音频帧位于ts之后，则电子设备可以确定该词对应的目标音频帧与dt(即te-ts)的和值，该和值对应音频帧为该词在原始音频中对应的音频帧。

例如，“第一行歌词”中的“第”对应的目标音频帧t11位于ts之前，则电子设备可以确定目标音频帧t11为“第”在原始音频中对应的音频帧。“第二行歌词”中的“二”对应的目标音频帧t22位于ts之后，则确定目标音频帧t22+dt对应的音频帧为“二”在原始音频中对应的音频帧。

与图1的方法实施例相对应，参见图13，图13为本发明实施例提供的一种对齐音频和文本的装置的结构图，所述装置包括：

获取模块1301，用于获取待对齐的目标文本，以及获取所述目标文本对应的目标音频；

第一确定模块1302，用于根据预设的词与音素的对应关系，确定所述目标文本包含的各个词对应的音素，作为第一音素；

添加模块1303，用于按照所述第一音素之间的第一音素顺序，针对所述第一音素中的每一待处理音素，在该待处理音素后添加预设音素，得到第二音素；其中，所述待处理音素的延音的语音特征与所述待处理音素的语音特征不同；所述第一音素顺序为基于所述第一音素对应的词在所述目标文本中的顺序确定的；

第二确定模块1304，用于基于所述目标音频中的各目标音频帧各自的频谱特征和预先训练的概率预测模型，得到每一目标音频帧与每一第二音素相对应的概率，作为目标概率；其中，所述概率预测模型为基于预设训练样本进行训练得到的；所述预设训练样本包括：样本音频帧的频谱特征，以及每一样本音频帧与每一预设音素相对应的概率；

第三确定模块1305，用于基于各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从所述第二音素中确定每一目标音频帧对应的目标音素；

第四确定模块1306，用于确定所述目标文本中每一目标音频帧对应的目标音素所属的文本，作为与该目标音频帧对齐的文本。

可选的，所述获取模块1301，具体用于获取原始文本；

可选的，所述第一确定模块1302，具体用于针对所述目标文本中的每一个词，如果该词为中文，则确定该词的拼音音素，作为该词的第一音素；

可选的，所述第一确定模块1302，具体用于如果存在与该词的国际音标的语音特征相同的拼音音素，确定该拼音音素为该词的第一音素；

可选的，所述获取模块1301，具体用于获取所述目标文本对应的原始音频；

提取所述原始音频中包含人声的音频帧，得到目标音频。

可选的，所述装置还包括：

可选的，所述第三确定模块1304，具体用于基于最短路径算法、各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从第一个目标音频帧与最后一个目标音频帧之间的多个路径中，确定出最短路径；其中，每一路径包含多个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，所述最短路径为各个路径中对应的各目标概率的和值最大的路径；

基于本发明实施例提供的对齐音频和文本的装置，可以由电子设备确定每一目标音频帧在目标文本中对应的文本，相对于由人工对文本和音频进行对齐，可以提高对齐的效率。

本发明实施例还提供了一种电子设备，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信，

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于本发明实施例提供的电子设备，可以由电子设备确定每一目标音频帧在目标文本中对应的文本，相对于由人工对文本和音频进行对齐，可以提高对齐的效率。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一对齐音频和文本的方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一对齐音频和文本的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种对齐音频和文本的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待对齐的目标文本，包括：

获取原始文本；

3.根据权利要求1所述的方法，其特征在于，所述根据预设的词与音素的对应关系，确定所述目标文本包含的各个词对应的音素，作为第一音素，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于该词的国际音标确定该词的第一音素，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本对应的目标音频，包括：

获取所述目标文本对应的原始音频；

提取所述原始音频中包含人声的音频帧，得到目标音频。

6.根据权利要求1所述的方法，其特征在于，所述概率预测模型通过以下步骤训练得到：

获取样本文本和所述样本文本对应的样本音频；

7.根据权利要求1所述的方法，其特征在于，所述基于各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从所述第二音素中确定每一目标音频帧对应的目标音素，包括：

8.一种对齐音频和文本的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述获取模块，具体用于获取原始文本；

10.根据权利要求8所述的装置，其特征在于，所述第一确定模块，具体用于针对所述目标文本中的每一个词，如果该词为中文，则确定该词的拼音音素，作为该词的第一音素；

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块，具体用于如果存在与该词的国际音标的语音特征相同的拼音音素，确定该拼音音素为该词的第一音素；

12.根据权利要求8所述的装置，其特征在于，所述获取模块，具体用于获取所述目标文本对应的原始音频；

提取所述原始音频中包含人声的音频帧，得到目标音频。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述第三确定模块，具体用于基于最短路径算法、各个目标音频帧对应的目标概率，以及所述第二音素之间的第二音素顺序，从第一个目标音频帧与最后一个目标音频帧之间的多个路径中，确定出最短路径；其中，每一路径包含多个节点，每一节点表示一个目标音频帧和一个第二音素之间的目标概率，所述最短路径为各个路径中对应的各目标概率的和值最大的路径；

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。