CN113393830B

CN113393830B - 混合声学模型训练及歌词时间戳生成方法、设备、介质

Info

Publication number: CN113393830B
Application number: CN202110657042.2A
Authority: CN
Inventors: 张斌; 赵伟峰; 雷兆恒; 周文江; 张柏生; 李幸烨; 苑文波; 杨小康; 李童; 林艳秋; 曹利; 代玥; 胡鹏
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-10-11
Anticipated expiration: 2041-06-11
Also published as: CN113393830A

Abstract

本申请公开了一种混合声学模型训练及歌词时间戳生成方法、设备及计算机可读存储介质，在混合声学模型训练方法中，先获取初始的混合声学模型；再获取待训练音频及待训练音频对应的待训练音素，因为待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息，所以基于待训练音频及待训练音素对初始的混合声学模型进行训练的话，可以使得混合声学模型得到能够直接输出与输入音频对应的携带音素所属语种标识信息的音素信息，在此过程中，混合声学模型无需进行语种判断，也无需兼容单语种识别工具，能够精简混合声学模型的结构，且可以提高混合声学模型对音频进行多语种音素识别的效率。

Description

混合声学模型训练及歌词时间戳生成方法、设备、介质

技术领域

本申请涉及语言处理技术领域，更具体地说，涉及混合声学模型训练及歌词时间戳生成方法、设备、介质。

背景技术

当前，随着语言水平的提高，用户在交流等信息传输过程中，可能使用多种语言，比如使用中文和英文来进行信息传输，当用户按照此类信息传输方法与计算机等设备进行交互时，便需要计算机等设备具备多语言的处理能力，比如准确识别多语言音频的多语种音素等。在此过程中，计算机等设备可以对音频进行切分，得到音频片段，对音频片段进行语种判断，确定各个音频片段的语种，再应用与该语种对应的单语种识别工具对对应的音频片段进行识别，以得到该音频片段包含的音素内容。并且，为了降低方法的操作难度，可以借助神经网络搭建的混合声学模型来对音频的音素内容进行识别，然而，该混合声学模型在工作过程中仍需执行语种判断等操作，且需要兼容单语种识别工具，使得混合声学模型的结构复杂，且混合声学模型的训练需要用到音频、音频语种、及音素信息等，导致音频的多语种音素识别效率低。

综上所述，如何快速对音频进行多语种音素识别是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种混合声学模型训练方法，其能在一定程度上解决如何快速对音频进行多语种音素识别的技术问题。本申请还提供了一种歌词时间戳生成方法、电子设备及计算机可读存储介质。

为了实现上述目的，本申请提供如下技术方案：

第一方面，本申请提供一种混合声学模型训练方法，包括：

获取初始的所述混合声学模型；

获取待训练音频及所述待训练音频对应的待训练音素，其中，所述待训练音频包括单语种音频和混合语种音频，且所述待训练音素中的每个音素均携带有该音素所属语种的标识信息；

基于所述待训练音频及所述待训练音素对初始的所述混合声学模型进行训练，得到所述混合声学模型。

可选的，所述待训练音素中的中文音素为无声调的中文音素。

可选的，所述基于所述待训练音频及所述待训练音素对初始的所述混合声学模型进行训练，得到所述混合声学模型，包括：

提取所述待训练音频的训练梅尔倒数谱系数；

基于所述训练梅尔倒数谱系数及所述待训练音素对初始的所述混合声学模型进行训练，得到所述混合声学模型。

第二方面，本申请提供一种歌词时间戳生成方法，包括：

获取待处理音频；

将所述待处理音频输入如上任意所述的混合声学模型，确定所述待处理音频对应的各个第一类音素信息，且每个所述第一类音素信息中携带有该音素所属语种的标识信息；

获取所述待处理音频对应的歌词文本信息；

基于预先生成的混合发音词典，确定所述歌词文本信息对应的各个第二类音素信息，且每个所述第二类音素信息中携带有该音素所属语种的标识信息，其中，所述混合发音词典由目标文本及所述目标文本对应的目标音素组成，所述目标文本包括单语种文本及混合语种文本，且所述目标音素中的每个音素均携带有该音素所属语种的标识信息；

确定所述第一类音素信息与所述第二类音素信息间的对应关系；

基于所述对应关系将所述歌词文本信息和所述待处理音频进行对齐，并基于所述待处理音频的时间信息，确定所述歌词文本信息的目标时间戳信息。

可选的，所述第一类音素信息、所述第二类音素信息、所述待训练音素及所述目标音素中的中文音素均为无声调的中文音素。

可选的，所述获取待处理音频，包括：

获取用户生成的所述待处理音频；

所述确定所述歌词文本信息的目标时间戳信息之后，还包括：

获取所述歌词文本信息的标准时间戳信息；

基于所述目标时间戳信息及所述标准时间戳信息对用户生成所述待处理音频的过程进行评价。

可选的，所述基于预先训练的混合声学模型，确定所述待处理音频对应的各个第一类音素信息，包括：

对所述待处理音频进行分帧，得到待处理帧音频；

提取所述待处理帧音频的目标梅尔倒频谱系数；

将所述目标梅尔倒频谱系数输入预先训练的所述混合声学模型；

获取所述混合声学模型输出的各个所述第一类音素信息。

可选的，所述第一类音素信息、所述第二类音素信息、所述待训练音素及所述目标音素的数据结构包括：音素所属语种的标识信息、连接符、音素；其中，所述连接符用于连接所述音素所属语种的标识信息及所述音素。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本申请中，先获取初始的混合声学模型；再获取待训练音频及待训练音频对应的待训练音素，因为待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息，所以基于待训练音频及待训练音素对初始的混合声学模型进行训练的话，可以使得混合声学模型得到能够直接输出与输入音频对应的携带音素所属语种标识信息的音素信息，在此过程中，混合声学模型无需进行语种判断，也无需兼容单语种识别工具，能够精简混合声学模型的结构，且可以提高混合声学模型对音频进行多语种音素识别的效率。本申请提供的歌词时间戳生成方法、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种混合声学模型训练方法流程图；

图2为混合声学模型的结构示意图；

图3为本申请实施例提供的一种具体的混合声学模型训练方法流程图；

图4为本申请实施例提供的歌词时间戳生成方案的系统框架图；

图5为本申请实施例提供的一种歌词时间戳生成方法流程图；

图6为本申请中歌词时间戳生成框架的示意图；

图7为待处理音频与文本的对齐示意图；

图8为本申请实施例提供的一种具体的歌词时间戳生成方法流程图；

图9为本申请实施例提供的一种具体的歌词时间戳生成方法流程图；

图10为歌曲对齐结果示意图；

图11为本申请实施例提供的一种混合声学模型训练装置结构示意图；

图12为本申请实施例提供的一种歌词时间戳生成装置结构示意图；

图13为根据一示例性实施例示出的电子设备20结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，随着语言水平的提高，用户在交流等信息传输过程中，可能使用多种语言，比如使用中文和英文来进行信息传输，当用户按照此类信息传输方法与计算机等设备进行交互时，便需要计算机等设备具备多语言的处理能力，比如准确识别多语言音频的多语种音素等。在此过程中，计算机等设备可以对音频进行切分，得到音频片段，对音频片段进行语种判断，确定各个音频片段的语种，再应用与该语种对应的单语种识别工具对对应的音频片段进行识别，以得到该音频片段包含的音素内容。并且，为了降低方法的操作难度，可以借助神经网络搭建的混合声学模型来对音频的音素内容进行识别，然而，该混合声学模型在工作过程中仍需执行语种判断等操作，且需要兼容单语种识别工具，使得混合声学模型的结构复杂，且混合声学模型的训练需要用到音频、音频语种、及音素信息等，导致音频的多语种音素识别效率低。为了克服上述技术问题，本申请提供了一种混合声学模型训练方法及歌词时间戳生成方法、电子设备及计算机可读存储介质，能够快速对音频进行多语种音素识别。

图1为本申请实施例提供的一种混合声学模型训练方法流程图。参见图1所示，该混合声学模型训练方法包括：

步骤S101：获取初始的混合声学模型。

步骤S102：获取待训练音频及待训练音频对应的待训练音素，其中，待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息。

本实施例中，可以先获取初始的混合声学模型，再获取对混合声学模型进行训练所需的待训练音频以及待训练音频对比的待训练音素，由于混合声学模型用于对音频进行多音素识别，所以待训练音频需包括单语种音频和混合语种音频，以混合语种为中文和英语为例，单语种音频可以为中文音频和/或英语音频，混合语种音频则可以为中文音频和英语音频混合后的音频。

需要说明的是，本实施例中的待训练音素中的每个音素均携带有该音素所属语种的标识信息，这样，训练完成的混合声学模型可以直接输出音频的带语种标识信息的音素信息，借助该语种标识信息可以直接确定音素的所属语种信息，无需额外进行语种判断，且无需在混合声学模型内部兼容单语种识别工具，能够提高混合声学模型对音频进行多音素识别的效率。此外，由于待训练音频中包括单语种音频，所以训练完成的混合声学模型也可以直接对单语种音频进行音素识别，直接输出该音频对应的携带语种标识信息的音素信息。此外，混合声学模型的训练效果收到待训练音频及待训练音素的量的影响，所以可以根据实际需要来确定待训练音频及待训练音素的数据量。

可以理解的是，音素所属语种的标识信息的类型可以根据实际需要确定，比如可以为语种的前几个大写字母、语种的编号等，本申请在此不做具体限定。

步骤S103：基于待训练音频及待训练音素对初始的混合声学模型进行训练，得到混合声学模型。

本实施例中，在获取待训练音频及待训练音频对应的待训练音素之后，便可以基于待训练音频及待训练音素对初始的混合声学模型进行训练，得到混合声学模型。

需要说明的是，本实施例中混合声学模型的结构可以与现有混合声学模型的结构相同，相应的，混合声学模型的训练原理也可以与现有技术相同，不过与待训练音频及待训练音素相关的参数需进行调整。

比如基于现有的kaldi(卡尔迪)框架来搭建混合声学模型，如图2所示，其可以包括MFCC(Mel Frequency Cepstrum Coefficient，Mel频率倒谱系数)+CMVN(倒谱均值方差归一化)features模型、MFCC+CMVN(+FMLLR)features模型和MFCC(hires)+CMVN模型，以及GMM(Gaussian Mixed Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)单音素模型、DNN(Deep Neural Networks，深度神经网络)-HMM三音素模型、DNN等。此时，在混合声学模型的训练过程中，需要使用13维的MFCC对GMM-HMM进行训练，使用40维的MFCC对GNN-HMM进行训练。

但GMM-HMM模型、DNN-HMM模型等的训练原理与现有技术相同；比如GMM-HMM的目的是找到每一帧属于哪个音素的哪个状态，GMM-HMM的训练使用自我迭代式的EM算法，每一次EM后都比之前进步一些，接下来新一代GMM-HMM继承上一代GMM-HMM标记的数据，从头开始学习，每一代都发挥自己的最大潜力，然后把基业交给更具潜力的下一代，训练模型，测试模型，用模型标记数据，完成一个生命周期，再用标记的数据训练新的模型，循环往复下去，便可以得到训练好的GMM-HMM模型，在此过程中，所谓的“标记”指的是现阶段模型计算出哪一帧属于哪一个音素的哪个状态，且实验中可以对GMM-HMM进行3个回合的训练。其中，对于第一个开荒者(即monophone GMM)来说，采用平启动(Flat Start)的方法，即对于一条语音来说，按对应音素串所有的PDF(概率密度函数)数平分语音特征，每个片段的特征归为对应位置的PDF所有，当然也得考虑静音类音素，对于继承者来说，直接使用上一个GMM-HMM系统通过似然最大化强制对齐(Force Alignment)的结果，即标记，强制对齐时，每帧语音特征与每个PDF比对，可知它属于每个音素状态的可能性，每帧数据大可自顾自地选择相对概率最大的那个，但须保证有意义，即最终能够通过HMM串联回到参照文本，满足这个“强制”条件的情况下，虽然某些帧选择的不是概率最大的PDF，但总体上仍可保证有个尽可能高的分数，此时便是关于参考文本的似然最大。最后一代的GMM-HMM将数据打完标签后，递交给DNN进行有监督学习，训练过程是典型的分类器(Classifier)学习。DNN采用主流时延神经网络(Time Delay Neural Network，TDNN)。DNN的作用是替代了GMM来计算HMM的发射概率，既是每帧语音特征与每个PDF的得分。所有模型训练完成后，便可以得到训练好的混合声学模型。

本申请提供的混合声学模型训练方法，先获取初始的混合声学模型；再获取待训练音频及待训练音频对应的待训练音素，因为待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息，所以基于待训练音频及待训练音素对初始的混合声学模型进行训练的话，可以使得混合声学模型得到能够直接输出与输入音频对应的携带音素所属语种标识信息的音素信息，在此过程中，混合声学模型无需进行语种判断，也无需兼容单语种识别工具，能够精简混合声学模型的结构，且可以提高混合声学模型对音频进行多语种音素识别的效率。

本申请实施例提供的一种混合声学模型训练方法中，考虑到中文音素携带有声调，因为声调有四种，所以一个音素与声调结合后，会被细分为四个音素，如果将中文音素的声调也写入音素信息的话，会大大加大音素信息的数量，使得混合声学模型的计算量加大，模型复杂度提升，且对音频进行多语种音素识别的难度会相应加大，考虑到声调带来的上述不利影响，本实施例中，将待训练音素中的中文音素确定为无声调的中文音素，相应的，后续训练完成的混合声学模型也不会对中文音素的声调进行识别，保证了混合声学模型的多语种音素的识别效率。

图3为本申请实施例提供的一种具体的混合声学模型训练方法流程图。

参见图3所示，该混合声学模型训练方法包括：

步骤S201：获取初始的混合声学模型。

步骤S202：获取待训练音频及待训练音频对应的待训练音素，其中，待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息。

步骤S203：提取待训练音频的训练梅尔倒数谱系数。

步骤S204：基于训练梅尔倒数谱系数及待训练音素对初始的混合声学模型进行训练，得到预先训练的混合声学模型。

本实施例中，在获取待训练音频及待训练音频对应的待训练音素之后，便可以提取待训练音频的训练梅尔倒数谱系数，基于训练梅尔倒数谱系数及待训练音素对初始的混合声学模型进行训练，得到预先训练的混合声学模型，以快速完成混合声学模型的训练。

本申请的歌词时间戳生成方案中，采用的系统框架具体可以参见图4所示，具体可以包括：后台服务器01和与后台服务器01建立通信连接的若干数量的用户端02。

本申请中，后台服务器01用于执行歌词时间戳生成方法步骤，包括获取待处理音频；将待处理音频输入如上任意实施例所述的混合声学模型，确定待处理音频对应的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息；获取待处理音频对应的歌词文本信息；基于预先生成的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息；确定第一类音素信息与第二类音素信息间的对应关系；基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。

进一步的，后台服务器01中还可以设有音频数据库、混合声学模型数据库以及音素数据库等。其中，音频数据库用于保存各种音频，如歌曲、语音等。混合声学模型数据库中具体可以用于保存各种混合声学模型。音素数据库则可以用来保存各种音素，比如第一类音素信息等。可以理解的是，本申请中需确定歌词文本信息的目标时间戳信息，所以后台服务器01中还可以包括用于保存目标时间戳信息的音频处理结果数据库等。当然，本申请也可以将上述音频数据库设置在第三方的业务服务器中，通过上述业务服务器可以专门收集业务端上传的音频数据。如此一来，当后台服务器01需要使用音频时，可以通过向上述业务服务器发起相应的音频调用请求的方式来获取相应的音频。且本申请中，后台服务器01可以对一个或多个用户端02的歌词时间戳生成请求进行响应等。

图5为本申请实施例提供的一种歌词时间戳生成方法流程图；图6为本申请中歌词时间戳生成框架的示意图。参见图5和图6所示，该歌词时间戳生成方法包括：

步骤S301：获取待处理音频。

本实施例中，待处理音频指的是需要处理的音频，其类型、格式及获取方式等可以根据实际需要来确定，比如待处理音频可以为MIDI(Musical Instrument DigitalInterface)格式或MP3(MPEG Audio Layer 3)格式等的用户语音、用户歌曲等，待处理音频的处理需求也可以根据实际需要确定，比如语音识别需求等，本申请在此不做具体限定。

步骤S302：将待处理音频输入混合声学模型，确定待处理音频对应的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息。

本实施例中，因为在音频处理过程中，一般根据音素信息来对音频进行处理，所以在获取待处理音频之后，需基于预先训练的混合声学模型，确定待处理音频对应的各个第一类音素信息，也即确定待处理音频对应的所有第一类音素信息，且每个第一类音素信息中均携带有该音素所属语种的标识信息，这样，可以通过混合声学模型一次性得到所有的音素信息，且可以借助标识信息确定音素所属语种信息。

可以理解的是，由于本申请采用的是混合声学模型，且可以输出带语种标识信息的音素信息，所以本申请无需进行语种判断，只需将待处理音频的相应信息输入至混合声学模型，便可以得到相应的音素信息。

步骤S303：获取待处理音频对应的歌词文本信息。

本实施例中，考虑到在音频处理过程中，有时候会得到音频信息和音频的歌词文本信息，但音频信息和歌词文本信息并不对齐，此时，为了将音频与歌词文本相对齐，需要人工来进行对齐处理，但这种方式耗时耗力，效率低，为了解决该问题，本申请在基于混合声学模型确定第一类音素信息之后，可以获取待处理音频对应的歌词文本信息，以便后续将歌词文本信息与待处理音频相对应。

步骤S304：基于预先生成的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息。

本实施例中，因为待处理音频和歌词文本均是基于音素来生成的，所以可以通过音素来将待处理音频与歌词文本相对齐，在此过程中，考虑到歌词文本中可能包含多语言的文本数据，所以本申请需基于预先训练的混合发音词典来确定歌词文本信息对应的各个第二类音素信息，可以理解的是，因为混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息，所以本申请中的混合发音词典可以直接输出音素具体内容及该音素的语种信息，无需预先对歌词文本进行语种识别，也无需兼容单语种发音词典，且可以避免语种识别误差带来的音素识别误差，提高对歌词文本进行音素识别的准确性，进而可以提高音频与歌词文本对齐的准确性。

步骤S305：确定第一类音素信息与第二类音素信息间的对应关系。

步骤S306：基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。

本实施例中，在基于预先训练的混合发音词典，确定歌词文本信息对应的各个第二类音素信息之后，便可以确定第一类音素信息与第二类音素信息间的对应关系；基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。目标时间戳信息可以包括歌词文本中每个字的起始和终止时间以及每行字的起始时间和终止时间等，本申请在此不做具体限定。

需要说明的是，实际应用场景中，可以基于Viterbi(Viterbi Algorithm，维特比算法)来确定歌词文本信息的目标时间戳信息，此时，第一类音素信息可以为每帧音频对应的音素的状态值，比如PDF概率得分，通过Viterbi来将第一类音素信息与第二类音素信息进行的对应关系，相应的，在基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息的过程中，因为音频携带时间信息，所以便可以基于该对应关系确定每个音素的时间戳信息，再将音素组成单词，便可以确定相应单词的时间戳信息，再将单词组成词语，便可以确定相应词语的时间戳信息，最后将词语组成语句，便可以确定相应语句的时间戳信息，最后便可以得到歌词文本信息的目标时间戳信息。待处理音频与歌词文本的对齐示意图可以如图7所示等。

本实施例中，先获取待处理音频；然后基于预先训练的混合声学模型，确定待处理音频对应的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息，也即通过本申请中的混合声学模型可以直接得到携带有该音素所属语种的标识信息的第一类音素信息，所以本申请可以直接根据该标识信息确定第一类音素信息的音素内容及音素所属语种信息，可以快速得到准确的音素信息，并且可以基于预先生成的混合发音词典，快速确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，之后确定第一类音素信息与第二类音素信息间的对应关系，基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息，可以快速将歌词文本信息与待处理音频进行对齐，可以快速生成歌词时间戳信息。

本申请实施例提供的一种歌词时间戳生成方法中，考虑到中文音素携带声调的话，会加大音素信息的数量，使得混合声学模型的计算量加大，模型复杂度提升，且对音频进行多语种音素识别的难度会相应加大，并且使得歌词时间戳生成的效率降低，为了避免上述问题，本实施例中，将第一类音素信息、第二类音素信息、待训练音素及目标音素中的中文音素均设置为无声调的中文音素。

图8为本申请实施例提供的一种具体的歌词时间戳生成方法流程图。参见图8所示，该音频处理方法包括：

步骤S401：获取用户生成的待处理音频。

本实施例中，考虑到在进行语音测试等过程中，需要对用户的语感等进行测试，比如在歌手评价过程中，需要对歌手的歌唱准确性进行评价，在此过程中，便需要获取用户生成的待处理音频，并应用本申请中的混合声学模型及混合发音词典将待处理音频及对应的文本信息相对齐。

步骤S402：将待处理音频输入混合声学模型，确定待处理音频对应的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息。

步骤S403：获取待处理音频对应的歌词文本信息。

步骤S404：基于预先生成的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息。

步骤S405：确定第一类音素信息与第二类音素信息间的对应关系。

步骤S406：基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。

步骤S407：获取歌词文本信息的标准时间戳信息。

步骤S408：基于目标时间戳信息及标准时间戳信息对用户生成待处理音频的过程进行评价。

本实施例中，在得到歌词文本信息在待处理音频中的目标时间戳信息之后，便可以基于目标时间戳信息对用户生成待处理音频的过程进行评价，比如可以获取待处理音频与文本信息对齐后的标准时间戳信息，将该标准时间戳信息与目标时间戳信息进行比较，根据比较结果来对用户生成待处理音频的过程进行评价等。

图9为本申请实施例提供的一种具体的歌词时间戳生成方法流程图。参见图9所示，该歌词时间戳生成方法包括：

步骤S501：获取待处理音频。

步骤S502：对待处理音频进行分帧，得到待处理帧音频。

本实施例中，如果对整个待处理音频直接进行音素识别的话，会导致混合声学模型的工作负载过大，导致识别效率过低，为了避免此种情况，在基于预先训练的混合声学模型，确定待处理音频对应的各个第一类音素信息的过程中，可以先对待处理音频进行分帧，得到待处理帧音频，再以帧为单位对各个待处理帧音频进行音素识别，这样，每次混合声学模型识别的音频数据量较少，可以降低混合声学模型的工作负载，提高识别效率。

步骤S503：提取待处理帧音频的目标梅尔倒频谱系数。

步骤S504：将目标梅尔倒频谱系数输入混合声学模型。

本实施例中，虽然将待处理音频分帧为待处理帧音频，但待处理帧音频中包含的音频信息并非均对音素识别有用，也即待处理音频中包含对音素识别无用的信息，为了避免该无用信息对音素识别的负载，本申请可以只提取待处理帧音频中对音素识别有用的信息，再应用该信息进行音素识别，具体的，该有用信息的类型可以为梅尔倒频谱系数(MelFrequency Cepstrum Coefficient,MFCC)等，也即本申请中，可以提取待处理帧音频的目标梅尔倒频谱系数，再将目标梅尔倒频谱系数输入预先训练的混合声学模型，以得到第一类音素信息。

步骤S505：获取混合声学模型输出的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息。

本实施例中，在将目标梅尔倒频谱系数输入预先训练的混合声学模型之后，混合声学模型可以基于现有的Viterbi算法确定各个目标梅尔倒频谱系数所对应的音素状态信息，再根据该音素状态信息确定对应的第一类音素信息等，本申请在此不做具体限定。

步骤S506：获取待处理音频对应的歌词文本信息。

步骤S507：基于预先生成的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息。

步骤S508：确定第一类音素信息与第二类音素信息间的对应关系。

步骤S509：基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。

本申请实施例提供的歌词时间戳生成方法中，第一类音素信息、第二类音素信息、待训练音素及目标音素的数据结构可以包括：音素所属语种的标识信息、连接符、音素；其中，连接符用于连接音素所属语种的标识信息及音素。也即音素信息按照音素所属语种的标识信息、连接符、音素的数据结构进行组合，为例便于理解，以中文和英文音素为例对音素信息进行描述。

由于英文使用元音和辅音作为音素，而中文使用辅音和元音作为音素，所以原始的英文音素及中文音素的信息可以分别如表1和表2所示，需要说明的是，由于音素的复杂，本实施例借助表1和表2对现有音素进行了转换，使得音素呈现出一定规律性，便于计算机设备记载，当然，也可以直接应用现有音素的表达方式，本实施例不做具体限定，但由表1和表2可知，中文音素和英文音素中存在相同的音素信息，这会给音频处理带来困难，此时，若需要识别中英混合音素，可以将英文转换为中文谐音，再用中文音素进行表示，其音素识别结果如表3所示；而如果按照本申请的方法，给音素添加音素标记的话，假设将英文的标识信息用eng表示，中文的标识信息用chn表示，连接符用_表示，则本申请中的英文音素可以如表4所示，中文音素可以如表5所示，由表4和表5可知，本申请中的中英文音素间不存在相同的音素信息，也即本申请可以准确识别英文音素及中文信息，此时，无需进行谐音转换便可以识别出具体的音素信息，本申请的音素识别结果可以如表6所示。

表1现有英文音素信息示意表

表2现有中文音素信息示意表

表3现有音素识别示意表

英文单词	中文谐音	中文谐音发音词典
			HELLO	哈喽	h a1 l ou2
LEE	李	l i3
			LYNN	琳	l in2
JAKE	杰克	j ie2 k e4

表4本申请英文音素信息示意表

表5本申请中文音素信息示意表

表6本申请音素识别示意表

相应的，中英混合发音词典的样式可以如下：

HELLISH eng_HH eng_EH1 eng_L eng_IH0 eng_SH

HELLMER eng_HH eng_EH1 eng_L eng_M eng_ER0

HELLYER eng_HH eng_EH1 eng_L eng_IY0 eng_ER0

你们chn_n chn_i chn_m chn_en

你会chn_n chn_i chn_h chn_ui

你常笑chn_n chn_i chn_ch chn_ang chn_x chn_iao

应当指出，本实施例只示出了中英混合发音词典中部分中英文对应的音素信息，且文本信息在前，音素信息在后。实际应用中可以根据需要按此结构来构造相应的混合发音词典，本申请在此不做具体限定。

下面以某款音乐客户端APP的音频对齐过程为例，对本申请中的技术方案进行说明。

假设这款音乐客户端APP对歌曲《挥着翅膀的女孩》进行音频对齐，则整个过程可以包括以下步骤：

获取待处理歌曲《挥着翅膀的女孩》；

对待处理歌曲进行分帧，得到待处理帧歌曲；

提取待处理帧歌曲的目标梅尔倒频谱系数；

将目标梅尔倒频谱系数输入预先训练的混合声学模型；

获取混合声学模型输出的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息；

获取待处理歌曲对应的歌词文本信息；

基于预先训练的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息；其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息

确定第一类音素信息与第二类音素信息间的对应关系；

基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息，其最终结果可以如图10所示。

参见图11所示，本申请实施例还相应公开的一种混合声学模型训练装置，包括：

第一获取模块101，用于获取初始的混合声学模型；

第二获取模块102，用于获取待训练音频及待训练音频对应的待训练音素，其中，待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息；

第一训练模块103，用于基于待训练音频及待训练音素对初始的混合声学模型进行训练，得到混合声学模型。

本申请中，先获取初始的混合声学模型；再获取待训练音频及待训练音频对应的待训练音素，因为待训练音频包括单语种音频和混合语种音频，且待训练音素中的每个音素均携带有该音素所属语种的标识信息，所以基于待训练音频及待训练音素对初始的混合声学模型进行训练的话，可以使得混合声学模型得到能够直接输出与输入音频对应的携带音素所属语种标识信息的音素信息，在此过程中，混合声学模型无需进行语种判断，也无需兼容单语种识别工具，能够精简混合声学模型的结构，且可以提高混合声学模型对音频进行多语种音素识别的效率。

在一些具体实施例中，待训练音素中的中文音素为无声调的中文音素。

在一些具体实施例中，第一训练模块可以具体用于：提取待训练音频的训练梅尔倒数谱系数；基于训练梅尔倒数谱系数及待训练音素对初始的混合声学模型进行训练，得到混合声学模型。

参见图12所示，本申请实施例还相应公开一种歌词时间戳生成装置，应用于后台服务器，包括：

音频获取模块201，用于获取待处理音频；

第一类音素信息确定模块202，用于将所述待处理音频输入混合声学模型，确定待处理音频对应的各个第一类音素信息，且每个第一类音素信息中携带有该音素所属语种的标识信息；

歌词文本信息获取模块203，用于获取待处理音频对应的歌词文本信息；

第二类音素信息确定模块204，用于基于预先生成的混合发音词典，确定歌词文本信息对应的各个第二类音素信息，且每个第二类音素信息中携带有该音素所属语种的标识信息，其中，混合发音词典由目标文本及目标文本对应的目标音素组成，目标文本包括单语种文本及混合语种文本，且目标音素中的每个音素均携带有该音素所属语种的标识信息；

对应关系确定模块205，用于确定第一类音素信息与第二类音素信息间的对应关系；

时间戳信息确定模块206，用于基于对应关系将歌词文本信息和待处理音频进行对齐，并基于待处理音频的时间信息，确定歌词文本信息的目标时间戳信息。

在一些具体实施例中，第一类音素信息、第二类音素信息、待训练音素及目标音素中的中文音素均为无声调的中文音素。

在一些具体实施例中，音频获取模块可以具体用于：获取用户生成的待处理音频；

相应的，还可以包括：

标准时间戳信息获取模块，用于时间戳信息确定模块确定歌词文本信息的目标时间戳信息之后，获取歌词文本信息的标准时间戳信息；

评价模块，用于基于目标时间戳信息及标准时间戳信息对用户生成待处理音频的过程进行评价。

在一些具体实施例中，第一类音素信息确定模块可以具体用于：对待处理音频进行分帧，得到待处理帧音频；提取待处理帧音频的目标梅尔倒频谱系数；将目标梅尔倒频谱系数输入预先训练的混合声学模型；获取混合声学模型输出的各个第一类音素信息。

在一些具体实施例中，第一类音素信息、第二类音素信息、待训练音素及目标音素的数据结构包括：音素所属语种的标识信息、连接符、音素；其中，连接符用于连接音素所属语种的标识信息及音素。

进一步的，本申请实施例还提供了一种电子设备。图13是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图13为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量视频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种视频数据。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本申请实施例提供的音频处理装置、电子设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的音频处理中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种混合声学模型训练方法，其特征在于，包括：

获取初始的所述混合声学模型；

基于所述待训练音频及所述待训练音素对初始的所述混合声学模型进行训练，得到所述混合声学模型；

所述混合声学模型用于，基于输入的待处理音频确定所述待处理音频对应的各个第一类音素信息，且每个所述第一类音素信息中携带有该音素所属语种的标识信息，获取所述待处理音频对应的歌词文本信息，基于预先生成的混合发音词典，确定所述歌词文本信息对应的各个第二类音素信息，且每个所述第二类音素信息中携带有该音素所属语种的标识信息，其中，所述混合发音词典由目标文本及所述目标文本对应的目标音素组成，所述目标文本包括单语种文本及混合语种文本，且所述目标音素中的每个音素均携带有该音素所属语种的标识信息。

2.根据权利要求1所述的方法，其特征在于，所述待训练音素中的中文音素为无声调的中文音素。

3.根据权利要求1所述的方法，其特征在于，所述基于所述待训练音频及所述待训练音素对初始的所述混合声学模型进行训练，得到所述混合声学模型，包括：

提取所述待训练音频的训练梅尔倒数谱系数；

4.一种歌词时间戳生成方法，其特征在于，包括：

获取待处理音频；

将所述待处理音频输入如权利要求1-3任意一项所述的混合声学模型，确定所述待处理音频对应的各个第一类音素信息，且每个所述第一类音素信息中携带有该音素所属语种的标识信息；

获取所述待处理音频对应的歌词文本信息；

5.根据权利要求4所述的方法，其特征在于，所述第一类音素信息、所述第二类音素信息、所述待训练音素及所述目标音素中的中文音素均为无声调的中文音素。

6.根据权利要求4所述的方法，其特征在于，所述获取待处理音频，包括：

获取用户生成的所述待处理音频；

获取所述歌词文本信息的标准时间戳信息；

7.根据权利要求4至6任一项所述的方法，其特征在于，所述基于权利要求1-3任意一项所述混合声学模型，确定所述待处理音频对应的各个第一类音素信息，包括：

对所述待处理音频进行分帧，得到待处理帧音频；

提取所述待处理帧音频的目标梅尔倒频谱系数；

获取所述混合声学模型输出的各个所述第一类音素信息。

8.根据权利要求7所述的方法，其特征在于，所述第一类音素信息、所述第二类音素信息、所述待训练音素及所述目标音素的数据结构包括：音素所属语种的标识信息、连接符、音素；其中，所述连接符用于连接所述音素所属语种的标识信息及所述音素。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。