CN112420015A

CN112420015A - 一种音频合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112420015A
Application number: CN202011296891.1A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-26
Anticipated expiration: 2040-11-18
Also published as: CN112420015B

Abstract

本申请公开了一种音频合成方法、装置、设备及介质，获取干声音频；获取与干声音频对应的原始音素数据；获取对原始音素数据进行错误修复后得到的校准音素数据；将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声；基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。本申请可以本申请通过音素互验技术对不同类型的音素数据进行技术处理，获得更有效的音素结果以及干声音频，从而有利于神经网络模型的训练，提升训练效率与合成音频的音质。

Description

一种音频合成方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及音频合成技术领域，更具体地说，涉及一种音频合成方法、装置、设备及计算机可读存储介质。

背景技术

当前，在录制歌曲的过程中，会收集用户的干声，干声也即纯人声。音素，是人类语言中能够区别意义的最小声音单位。在歌词文本的先验信息，通过语音分析可以获得用户演唱每个音素的起止时间，即得到干声对应的音素结果，该音素结果可以用于神经网络模型的训练与合成，服务于音频的自动合成场景。在此过程中，需要有高精度的音素起止时间数据、干声音频及合适的数据处理方法，然而，申请人发现在合成音频的过程中至少存在如下问题：音素起止时间不够精确，合成的音频的质量较低。

综上所述，如何提高合成的音频的质量是目前本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种音频合成方法、装置、设备及计算机可读存储介质，能够提高合成的音频的质量。其具体方案如下：

第一方面，本申请公开了一种音频合成方法，包括：

获取干声音频；

获取与所述干声音频对应的原始音素数据，所述原始音素数据包括所述干声音频中音素的起止时间，所述起止时间包括开始时间与结束时间；

获取对所述原始音素数据进行错误修复后得到的校准音素数据；

将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；

将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声；

基于所述互验音素数据及所述互验干声对神经网络模型进行训练，以基于训练好的所述神经网络模型进行音频合成。

可选的，所述将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，包括：

在所述原始音素数据中，将持续时长小于预设时长的音素数据置为sil音素，得到筛除后原始音素数据；

在所述校准音素数据中，将持续时长小于所述预设时长的音素数据置为所述sil音素，得到筛除后校准音素数据；

在所述筛除后校准音素数据中，将起止时间与所述筛除后原始音素数据中的起止时间相同、但音素不同的音素置为所述sil音素，得到处理后的校准音素数据；

将所述处理后的校准音素数据确定为所述互验音素数据。

可选的，所述将所述处理后的校准音素数据确定为所述互验音素数据，包括：

确定出所述处理后的校准音素数据中的相邻音素数据；

若所述相邻音素数据的起止时间不连续，则在所述处理后的校准音素数据中，将所述相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为所述互验音素数据；

若所述相邻音素数据的起止时间连续，则直接将所述处理后的校准音素数据确定为所述互验音素数据。

可选的，所述将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声，包括：

获取所述互验音素数据中内容为sil的音素的目标起止时间；

在所述干声音频中，将起止时间与所述目标起止时间相同的干声内容置为静音，将调整后的所述干声音频作为所述互验干声。

可选的，所述将起止时间与所述目标起止时间相同的干声内容置为静音，包括：

确定出起止时间与所述目标起止时间相同的所述干声内容；

按照所述干声内容的生成顺序，将所述干声内容分为起始段干声内容、中间段干声内容及结束段干声内容；

对所述起始段干声内容进行淡出处理，将淡出处理结果作为所述起始段干声内容的静音结果；

直接将所述中间段干声内容置为静音；

对所述结束段干声内容进行淡入处理，将淡入处理结果作为所述结束段干声内容的静音结果。

可选的，所述对所述起始段干声内容进行淡出处理，包括：

将所述起始段干声内容的音频与预设cos函数相乘，得到所述淡出处理结果；

所述对所述结束段干声内容进行淡入处理，包括：

将所述结束段干声内容的音频与预设sin函数相乘，得到所述淡入处理结果。

可选的，所述获取干声音频，包括：

获取音频格式为WAV的所述干声音频。

第二方面，本申请公开了一种音频合成装置，包括：

干声音频获取模块，用于获取干声音频；

原始音素获取模块，用于获取与所述干声音频对应的原始音素数据，所述原始音素数据包括所述干声音频中音素的起止时间，所述起止时间包括开始时间与结束时间；

校准音素获取模块，用于获取对所述原始音素数据进行错误修复后得到的校准音素数据；

互验音素获取模块，用于将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；

互验干声获取模块，用于将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声；

模型训练模块，用于基于所述互验音素数据及所述互验干声对神经网络模型进行训练，以基于训练好的所述神经网络模型进行音频合成。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如上任一所述的音频合成方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现如上任一所述的音频合成方法。

本申请中，在获取干声音频、原始音素数据及校准音素数据之后，并不是直接应用校准音素数据或者原始音素数据对神经网络模型进行训练，而是先将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，由于互验音素数据是原始音素数据与校准音素数据中起止时间相同且内容相同的音素数据，所以互验音素数据为原始音素数据与校准音素数据中最准确的音素，也即本申请可以获取准确的互验音素数据，相应的，在干声音频中，将互验音素数据对应的干声确定为互验干声之后，可以得到与互验音素数据对应的准确的互验干声，这样，后续再基于互验音素数据及互验干声对神经网络模型进行训练的话，由于互验音素数据和互验干声的准确性高，所以可以使得神经网络模型的音频合成准确性高，如此基于训练好的神经网络模型进行音频合成的话，能够使得合成的音频的质量较高。此外，由于本申请中互验音素与互验干声的数据量小，所以本申请还可以加快神经网络模型的训练效率，进而提高音频合成的效率，也即本申请通过音素互验技术对不同类型的音素数据进行技术处理，获得更有效的音素结果以及干声音频，从而有利于神经网络模型的训练，提升训练效率与合成音频的音质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的音频合成方案所适用的系统框架示意图；

图2为本申请提供的一种音频合成方法流程图；

图3为本申请提供的一种具体的音频合成方法流程图；

图4为本申请提供的一种具体的音频合成方法流程图；

图5为本申请提供的一种具体的音频合成方法流程图；

图6为本申请提供的一种具体的音频合成方法流程图；

图7为原始音素、校准音素和互验音素的示意图；

图8为本申请提供的一种音频合成装置结构示意图；

图9为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，在录制歌曲的过程中，会产生用户的干声，干声也即无音乐的纯人声，产生的干声会以音频为载体，包含用户的歌唱信息。在歌词文本的先验信息，通过语音分析可以获得用户演唱每个音素的起止时间，即得到干声对应的音素结果，该音素结果可以用于神经网络模型的训练与合成，服务于音频的自动合成场景，在此过程中，需要有高精度的音素起止时间数据、干声音频及合适的数据处理方法，然而，合成的音频的质量较低。应当指出，在音频合成过程中，音素指的是人类语言中能够区别意义的最小声音单位。为了克服上述技术问题，本申请提供了一种音频合成方法，能够提高合成的音频的质量。

本申请的音频合成方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器01和与后台服务器01建立通信连接的若干数量的用户端02。

本申请中，后台服务器01用于执行音频合成方法步骤，包括获取干声音频；获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间，起止时间包括开始时间与结束时间；获取对原始音素数据进行错误修复后得到的校准音素数据；将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素确定为互验音素数据；将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声；基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

进一步的，后台服务器01中还可以设有干声音频数据库、原始音素数据库以及校准音素数据库、互验音素数据库、互验干声数据库。其中，干声音频数据库用于保存各种干声音频，如流行音乐歌唱家的干声音频、摇滚音乐歌唱家的干声音频、戏曲家的干声音频等。原始音素数据库中具体可以用于保存对干声音频中的音素及起止时间进行统计后得到的数据。校准音素数据库则可以用来保存对原始音素数据中的错误信息进行修复后得到的数据。互验音素数据库可以用来保存原始音素数据与校准音素数据中起止时间相同且内容相同的音素，互验干声数据库可以用来保存干声音频中与互验音素对应的干声。可以理解的是，经过本申请的音频合成方案对神经网络模型进行训练且合成音频之后，可以借助各类数据库保存相应的数据。这样一来，当后台服务器01接收到用户端02针对某一神经网络模型的音频合成请求之后，则可以直接从互验音素数据库中获取互验音素数据，从互验干声数据库中获取与互验音素对应的互验干声，无需再次展开执行获取干声音频；获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间；获取对原始音素数据进行错误修复后得到的校准音素数据；将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；在干声音频中，将互验音素数据对应的干声确定为互验干声的过程，从而有利于节省大量时间。另外，为了避免单一互验音素数据与互验干声给神经网络模型带来音频合成局限性，本申请中，还可以选择不同类型的互验音素数据及互验干声多次对神经网络模型进行训练，得到适用性更好的神经网络模型，进而提高音频合成的适用性。

当然，本申请也可以将上述各类数据库设置在第三方的业务服务器中，通过上述业务服务器可以专门收集业务端上传的数据。如此一来，当后台服务器01需要使用数据库时，可以通过向上述业务服务器发起相应的数据库调用请求的方式来获取相应的数据。

本申请中，后台服务器01可以对一个或多个用户端02的音频合成请求进行响应，可以理解的是，本申请不同的用户端02所发起的音频合成请求，可以是针对同一个干声的音频合成请求，也可以是针对不同干声发起的音频合成请求。

图2为本申请实施例提供的一种音频合成方法流程图。参见图2所示，该音频合成方法包括：

步骤S11：获取干声音频。

本实施例中，干声音频指的是用户录制的干声波形文件，干声音频的内容及音频格式可以根据实际需要确定，比如干声音频的音频格式可以为MP3音频格式、MP4音频格式、MIDI(Musical Instrument Digital Interface)音频格式、WAV(Waveform Audio FileFormat)音频格式等。

应当指出，因为MP3等有损编码方式会因为解码器的差异导致实际读取的音频在音频开头和结尾处有时间偏移，导致干声波形发生变化，为了避免此种情况，保证干声波形不变，具体应用场景中，因为WAV音频格式可以保证声音不失真，所以可以以WAV音频格式保存干声音频。

步骤S12：获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间。

本实施例中，音素是人类语言中能够区别意义的最小声音单位，当多个因素按照特定顺序进行组合之后，便可以生成干声，所以在音频合成的过程中，可以对干声音频中的音素信息进行分析，并将分析得到的结果用于后续的音频合成，也即在获取干声音频之后，可以获取与干声音频对应的原始音素数据，具体的，可以通过本领域常见的语音识别技术对干声音频和音素进行对齐处理，得到原始音素数据，该原始音素中的数据描述了每一个音素的起止时间，起止时间包括开始时间与结束时间。

为了便于理解，假设本申请中的音素以国际音标(IPA，International PhoneticAlphabet)的方式体现，IPA是一套用来标音的系统，以拉丁字母为基础，由国际语音学学会设计，作为口语声音的标准化标示方法，以汉字为例，当发出“我”这个的音时，实际上是先后发出了“u”和

这两个IPA，对应的拼音就是“wo”，也即本方案中的音素，指的就是诸如“u”和

这样的IPA。相应的，原始音素数据即为IPA及IPA的起止时间，比如原始音素数据中音素“p”的起止时间分别为10ms和30ms，音素“a”的起止时间分别为30ms和60ms，则原始音素数据可以以info＝[10,30,p；30,60,a；]这样的形式来表示，也即可以以[起始时间，终止时间，音素；]的格式表示原始音素数据，其中分号代表一个音素的数据结尾，当然也可以以其他方式表示原始音素数据，本申请在此不做具体限定。

步骤S13：获取对原始音素数据进行错误修复后得到的校准音素数据。

本实施例中，虽然借助语音识别技术能够获取原始音素数据，但是获得的原始音素数据中可能存在错误，比如音素的类型错误、音素的起止时间错误等，导致原始音素的准确性较差，如果直接以原始音素数据对神经网络模型进行训练的话，会使得神经网络模型的音频合成准确性较差，为了避免此种情况，提高神经网络模型的音频合成准确性，在获取原始音素数据之后，可以获取对原始音素数据进行错误修复后得到的校准音素数据，比如通过后处理技术对原始音素数据进行优化，修复原始音素数据中有错误的地方，获得精确度更高的校准音素数据等。

应当指出，对原始音素数据进行处理的后处理技术可以包括基频曲线提取、音频能量提取与音素对齐处理等，后处理技术的描述可以参阅现有技术，本申请在此不再赘述。

步骤S14：将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据。

本实施例中，虽然校准音素数据是对原始音素数据中的错误进行修复后得到的音素数据，但是校准音素数据中仍然可能存在错误信息，如果以校准音素数据为基础对神经网络模型进行训练的话，虽然与以原始音素数据为基础对神经网络模型进行训练的方法相比，可以提高神经网络模型的音频合成准确性，但终归难以保证神经网络模型的音频合成准确性最高，为了尽可能保证神经网络模型的音频合成准确性最高，在获取对原始音素数据进行错误修复后得到的校准音素数据之后，可以将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，由于互验音素为原始音素与校准音素中起止时间相同且内容相同的音素，所以互验音素数据为原始音素数据和校准音素数据中最准确的音素，所以后续基于互验音素数据对神经网络模型进行训练的话，能够保证神经网络模型的音频合成准确性最高，进而可以保证合成音频的质量。

应当指出，因为互验音素数据为原始音素数据与校准音素数据中起止时间相同且音素相同的音素数据，所以与原始音素数据及校准音素数据相比，互验音素数据的数据量较小，所以本申请以互验音素数据为基础对神经网络模型进行训练的话，还可以加快神经网络模型的训练效率，进而提高音频合成的效率。

步骤S15：将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声。

步骤S16：基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

本实施例中，在对合成音频的神经网络模型进行训练的过程中，不仅需要音素数据，还需要音频，因此在得到互验音素数据之后，还需要将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声，比如在干声音频中，将互验音素对应的干声确定为互验干声，这样，便可以基于互验音素数据及互验干声对神经网络模型进行训练，并且可以基于训练好的神经网络模型进行音频合成。

应当指出，在基于训练好的神经网络模型进行音频合成的过程中，可以获取待合成音频的音素信息，将该音素信息输入至训练好的神经网络模型，再接收训练好的神经网络模型输出的音频即可。神经网络模型的类型可以根据实际需要确定，比如可以为CNN(Convolutional Neural Networks，卷积神经网络)、DNN(Deep Neural Networks，深度神经网络)、waveRNN等神经网络模型。且本申请在合成音频之后，还可以将合成的音频进行播放或者存储，比如通过用户终端播放或其他方式播放，用本地磁盘进行存储、数据库进行存储等。

本申请中，在获取干声音频、原始音素数据及校准音素数据之后，并不是直接应用校准音素数据或者原始音素数据对神经网络模型进行训练，而是先将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，由于互验音素数据是原始音素数据与校准音素数据中起止时间相同且内容相同的音素数据，所以互验音素数据为原始音素数据与校准音素数据中最准确的音素数据，也即本申请可以获取准确的互验音素数据，相应的，在干声音频中，将互验音素数据对应的干声确定为互验干声之后，可以得到与互验音素数据对应的准确的互验干声，这样，后续再基于互验音素数据及互验干声对神经网络模型进行训练的话，由于互验音素数据和互验干声的准确性高，所以可以使得神经网络模型的音频合成准确性高，如此基于训练好的神经网络模型进行音频合成的话，能够使得合成的音频的质量较高。此外，由于本申请中互验音素数据与互验干声的数据量小，所以本申请还可以加快神经网络模型的训练效率，进而提高音频合成的效率，也即本申请通过音素互验技术对不同类型的音素数据进行技术处理，获得更有效的音素结果以及干声音频，从而有利于神经网络模型的训练，提升训练效率与合成音频的音质。

图3为本申请实施例提供的一种具体的音频合成方法流程图。参见图3所示，该音频合成方法包括：

步骤S21：获取干声音频。

步骤S22：获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间。

步骤S23：获取对原始音素数据进行错误修复后得到的校准音素数据。

步骤S24：在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据。

步骤S25：在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据。

步骤S26：将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据。

本实施例中，因为原始音素数据及校准音素数据中可能存在无效音素数据，如果将无效音素数据作为互验音素数据的话，会导致训练好的神经网络模型合成的音频中存在无效音素数据，影响合成的音频的质量，为了避免此种情况，可以先对原始音素数据及校准音素数据中的无效音素数据进行处理，再确定出互验音素数据。

可以理解的是，如果直接将原始音素数据与校准音素数据中的无效音素数据删除的话，会使得原始音素数据及校准音素数据中的音素数据在时间上存在断层，最终会使得训练好的神经网络模型合成的音频在时间上存在断层，影响合成音频的质量，为了避免此种情况，在将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据的过程中，可以在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据；在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据；将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素。应当指出，“sil”是指对应时间的干声为静音的音素。

实际应用中，预设无效规则的类型可以根据实际需要确定，比如预设无效规则可以为持续时长小于预设时长。比如音素数据中有一个起止时间为t，t+5ms的音素片段，该片段的音素数据不为“sil”，其中t为某一个时刻，由实际发音特点可知，一个发声持续时间只为5ms的人声片段是不合理的，因为可以将该时间段的音素数据判定为无效音素，并将该时间段的音素改为“sil”。

本实施例中，可以对原始音素数据及校准音素数据中的无效音素数据进行剔除，并且在剔除无效音素数据的过程中，保证了音素数据在时间上的连续性，可以保证训练好的神经网络模型合成的音频在时间上的连续性，保证音频合成的质量。

步骤S27：将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声。

步骤S28：基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

图4为本申请实施例提供的一种具体的音频合成方法流程图。参见图4所示，该音频合成方法包括：

步骤S31：获取干声音频。

步骤S32：获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间。

步骤S33：获取对原始音素数据进行错误修复后得到的校准音素数据。

步骤S34：在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据。

步骤S35：在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据。

步骤S36：在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但音素不同的音素数据置为sil音素，得到处理后的校准音素数据；将处理后的校准音素数据确定为互验音素数据。

本实施例中，在将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素的过程中，如果直接将互验音素数据从原始音素数据或者校准音素数据中提取出来的话，可能得到时间上不连续的互验音素数据，以时间上不连续的互验音素数据进行神经网络模型训练的话，会使得神经网络模型对互验音素数据中时间断层的处理能力较差，进而使得神经网络模型合成的音频质量难以保证，为了避免此种情况，在将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据的过程中，可以在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但音素不同的音素置为sil音素，得到处理后的校准音素数据；将处理后的校准音素数据确定为互验音素数据。也即借助sil音素将原始音素数据与校准音素数据中起止时间相同、但内容不同的音素数据无效化，且可以保证互验音素数据依然为时间上连续的音素数据。

应当指出，具体应用场景中，在将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据的过程中，还可以在筛除后原始音素数据中，将起止时间与筛除后校准音素数据中的起止时间相同、但音素不同的音素数据置为sil音素，得到处理后的原始音素数据；将处理后的原始音素数据确定为互验音素数据等。

也即本实施例中，通过将原始音素数据及校准音素数据中无效的音素数据置为sil音素，并且在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但音素不同的音素数据置为sil音素，得到处理后的校准音素数据，将处理后的校准音素数据确定为互验音素数据，最终得到不包含起止时间相同、但音素不同的音素数据且在时间上连续的互验音素数据，使得后续基于该互验音素对神经网络模型进行训练的话，可以保证神经网络模型对时间上连续的音素数据的处理能力，保证神经网络模型合成的音频的时间连续性。

步骤S37：将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声。

步骤S38：基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

图5为本申请实施例提供的一种具体的音频合成方法流程图。参见图5所示，该音频合成方法包括：

步骤S401：获取干声音频。

步骤S402：获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间。

步骤S403：获取对原始音素数据进行错误修复后得到的校准音素数据。

步骤S404：在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据。

步骤S405：在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据。

步骤S406：在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但内容不同的音素数据置为sil音素，得到处理后的校准音素数据。

步骤S407：确定出处理后的校准音素数据中的相邻音素数据。

步骤S408：判断相邻音素数据的起止时间是否连续；若相邻音素数据的起止时间不连续，则执行步骤S409；若相邻音素数据的起止时间连续，则执行步骤S410。

步骤S409：将相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为互验音素数据，执行步骤S411。

步骤S410：直接将处理后的校准音素数据确定为互验音素数据，执行步骤S411。

本实施例中，如果原始音素数据和校准音素数据中相邻音素数据的起止时间不连续的话，会导致得到的互验音素中也存在起止时间不连续的音素数据，从而使得互验音素数据在时间上不连续，为了保证互验音素数据在时间上连续，在将处理后的校准音素数据确定为互验音素数据的过程中，可以确定出处理后的校准音素数据中的相邻音素数据；判断相邻音素数据的起止时间是否连续；若相邻音素数据的起止时间不连续，则在处理后的校准音素数据中，将相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为互验音素数据；若相邻音素数据的起止时间连续，则直接将处理后的校准音素数据确定为互验音素数据。

应当指出，在判断相邻音素数据的起止时间是否连续的过程中，可以判断相邻音素数据中前一个音素数据的终止时间是否等于后一个音素数据的起始时间，若前一个音素数据的终止时间不等于后一个音素数据的起始时间，则可以判定相邻音素数据的起止时间不连续；相应的，在处理后的校准音素数据中，将相邻音素数据的起止时间调整为连续的过程中，可以将相邻音素数据中前一个音素数据的终止时间调整为后一个音素数据的起始时间，也可以将相邻音素数据中后一个音素数据的起始时间调整为前一个音素数据的终止时间等。

本实施例中，在将处理后的校准音素数据确定为互验音素数据的过程中，通过确定出处理后的校准音素数据中的相邻音素数据，并判断相邻音素数据的起止时间是否连续，若相邻音素数据的起止时间不连续，则在处理后的校准音素数据中，将相邻音素数据的起止时间调整为连续，保证了互验音素数据在时间上的连续性，可以为神经网络模型的训练过程提供时间上连续的互验音素数据，有助于神经网络模型输出时间上连续的合成音频，保证合成音频的质量。

步骤S411：将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声。

步骤S412：基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

图6为本申请实施例提供的一种具体的音频合成方法流程图。参见图6所示，该音频合成方法包括：

步骤S501：获取干声音频。

步骤S502：获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间。

步骤S503：获取对原始音素数据进行错误修复后得到的校准音素数据。

步骤S504：在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据。

步骤S505：在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据。

步骤S506：在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但内容不同的音素数据置为sil音素，得到处理后的校准音素数据。

步骤S507：确定出处理后的校准音素数据中的相邻音素数据。

步骤S508：判断相邻音素数据的起止时间是否连续；若相邻音素数据的起止时间不连续，则执行步骤S509；若相邻音素数据的起止时间连续，则执行步骤S510。

步骤S509：将相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为互验音素数据，执行步骤S511。

步骤S510：直接将处理后的校准音素数据确定为互验音素数据，执行步骤S511。

步骤S511：获取互验音素数据中内容为sil的音素的目标起止时间；在干声音频中，确定出起止时间与目标起止时间相同的干声内容。

步骤S512：按照干声内容的生成顺序，将干声内容分为起始段干声内容、中间段干声内容及结束段干声内容。

步骤S513：对起始段干声内容进行淡出处理，将淡出处理结果作为起始段干声内容的静音结果；直接将中间段干声内容置为静音。

步骤S514：对结束段干声内容进行淡入处理，将淡入处理结果作为结束段干声内容的静音结果，将调整后的干声音频作为互验干声。

本实施例中，在神经网络模型的训练过程中，需要为神经网络模型提供互验干声，为了保证互验干声在时间上连续，将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声的过程中，可以获取互验音素数据中内容为sil的音素的目标起止时间；在干声音频中，将起止时间与目标起止时间相同的干声内容置为静音，将调整后的干声音频作为互验干声。这样，互验干声中的音素数据在时间上连续，不会出现断层，有助于神经网络模型输出时间上连续的合成音频，保证合成音频的质量。

实际应用中，在干声音频中，将起止时间与目标起止时间相同的干声内容置为静音的过程中，在将干声内容置为静音的起始时刻和终止时刻，对干声内容的改变量较大，可能使得干声内容出现数据跳变，使得互验干声出现断层，为了避免此种情况，保证互验干声的平滑，在将起止时间与目标起止时间相同的干声内容置为静音的过程中，可以确定出起止时间与目标起止时间相同的干声内容；按照干声内容的生成顺序，将干声内容分为起始段干声内容、中间段干声内容及结束段干声内容；对起始段干声内容进行淡出处理，将淡出处理结果作为起始段干声内容的静音结果；直接将中间段干声内容置为静音；对结束段干声内容进行淡入处理，将淡入处理结果作为结束段干声内容的静音结果。

具体应用场景中，在对起始段干声内容进行淡出处理的过程中，可以将起始段干声内容的音频与预设cos函数相乘，得到淡出处理结果；相应的，在对结束段干声内容进行淡入处理的过程中，可以将结束段干声内容的音频与预设sin函数相乘，得到淡入处理结果。预设cos函数及预设sin函数的具体形式可以根据实际需要确定，比如预设cos函数及预设sin函数中均可以包括衰减强度指数等，以预设cos函数为例，包含衰减强度指数的预设cos函数可以为w＝y*cos(at)等，其中，y表示起始段干声内容的音频，w表示淡出处理结果，a表示控制淡出的衰减强度，t表示时间。

步骤S515：基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

下面以某款音乐客户端APP的音频合成过程为例，对本申请中的技术方案进行说明。

音乐客户端APP获取用户录入的干声音频；

音乐客户端APP通过语音识别技术对干声音频进行音频和音素的对齐处理，得到干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间，假设原始音素数据如图7所示，其中，黑色波形表示干声音频，sil、I、ts、a等表示音素数据，两个音素数据间的竖线表示间隔标记；

音乐客户端APP通过后处理技术对原始音素数据进行错误修复，得到校准音素数据，得到的校准音素数据如图7所示；

音乐客户端在原始音素数据中，将持续时长小于预设时长的音素数据置为sil音素，得到筛除后原始音素数据；

音乐客户端在校准音素数据中，将持续时长小于预设时长的音素数据置为sil音素，得到筛除后校准音素数据；

音乐客户端在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但内容不同的音素数据置为sil音素，得到处理后的校准音素数据；

音乐客户端确定出处理后的校准音素数据中的相邻音素数据；

音乐客户端判断相邻音素数据的起止时间是否连续；若相邻音素数据的起止时间不连续，则将相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为互验音素数据；若相邻音素数据的起止时间连续，则直接将处理后的校准音素数据确定为互验音素数据；最终得到的互验音素可以如图7所示；

音乐客户端获取互验音素数据中内容为sil的音素的目标起止时间；在干声音频中，确定出起止时间与目标起止时间相同的干声内容；

音乐客户端按照干声内容的生成顺序，将干声内容分为起始段干声内容、中间段干声内容及结束段干声内容，将起始段干声内容的音频与预设cos函数相乘，得到淡出处理结果，将淡出处理结果作为起始段干声内容的静音结果；直接将中间段干声内容置为静音；将结束段干声内容的音频与预设sin函数相乘，得到淡入处理结果，将淡入处理结果作为结束段干声内容的静音结果，将调整后的干声音频作为互验干声；

音乐客户端基于互验音素数据及互验干声对神经网络模型进行训练，并基于训练好的神经网络模型进行音频合成。

参见图8所示，本申请实施例还相应公开的一种音频合成装置，应用于后台服务器，包括：

干声音频获取模块11，用于获取干声音频；

原始音素获取模块12，用于获取与干声音频对应的原始音素数据，原始音素数据包括干声音频中音素的起止时间，起止时间包括开始时间与结束时间；

校准音素获取模块13，用于获取对原始音素数据进行错误修复后得到的校准音素数据；

互验音素获取模块14，用于将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据；

互验干声获取模块15，用于将互验音素数据与干声音频进行处理，得到互验音素数据对应的互验干声；

模型训练模块16，用于基于互验音素数据及互验干声对神经网络模型进行训练，以基于训练好的神经网络模型进行音频合成。

可见，本申请中，在获取干声音频、原始音素数据及校准音素数据之后，并不是直接应用校准音素数据或者原始音素数据对神经网络模型进行训练，而是先将原始音素数据与校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，由于互验音素数据是原始音素数据与校准音素数据中起止时间相同且音素相同的音素数据，所以互验音素数据为原始音素数据与校准音素数据中最准确的音素数据，也即本申请可以获取准确的互验音素数据，相应的，在干声音频中，将互验音素数据对应的干声确定为互验干声之后，可以得到与互验音素数据对应的准确的互验干声，这样，后续再基于互验音素数据及互验干声对神经网络模型进行训练的话，由于互验音素数据和互验干声的准确性高，所以可以使得神经网络模型的音频合成准确性高，如此基于训练好的神经网络模型进行音频合成的话，能够使得合成的音频的质量较高。此外，由于本申请中互验音素数据与互验干声的数据量小，所以本申请还可以加快神经网络模型的训练效率，进而提高音频合成的效率，也即本申请通过音素互验技术对不同类型的音素数据进行技术处理，获得更有效的音素结果以及干声音频，从而有利于神经网络模型的训练，提升训练效率与合成音频的音质。

在一些具体实施例中，互验音素获取模块14，具体包括：

原始音素筛除单元，用于在原始音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后原始音素数据；

校准音素筛除单元，用于在校准音素数据中，将满足预设无效规则的音素数据置为sil音素，得到筛除后校准音素数据；

互验音素确定单元，用于将筛除后原始音素数据与筛除后校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据。

在一些具体实施例中，预设无效规则包括持续时长小于预设时长。

在一些具体实施例中，互验音素确定单元，具体用于：在筛除后校准音素数据中，将起止时间与筛除后原始音素数据中的起止时间相同、但音素不同的音素数据置为sil音素，得到处理后的校准音素数据；将处理后的校准音素数据确定为互验音素数据。

在一些具体实施例中，互验音素确定单元，具体用于：确定出处理后的校准音素数据中的相邻音素数据；判断相邻音素数据的起止时间是否连续；若相邻音素数据的起止时间不连续，则在处理后的校准音素数据中，将相邻音素数据的起止时间调整为连续，将调整后的校准音素数据确定为互验音素数据；若相邻音素数据的起止时间连续，则直接将处理后的校准音素数据确定为互验音素。

在一些具体实施例中，互验干声获取模块15，具体包括：

目标起止时间获取单元，用于获取互验音素数据中内容为sil的音素的目标起止时间；

互验干声确定单元，用于在干声音频中，将起止时间与目标起止时间相同的干声内容置为静音，将调整后的干声音频作为互验干声。

在一些具体实施例中，互验干声确定单元，具体用于：确定出起止时间与目标起止时间相同的干声内容；按照干声内容的生成顺序，将干声内容分为起始段干声内容、中间段干声内容及结束段干声内容；对起始段干声内容进行淡出处理，将淡出处理结果作为起始段干声内容的静音结果；直接将中间段干声内容置为静音；对结束段干声内容进行淡入处理，将淡入处理结果作为结束段干声内容的静音结果。

在一些具体实施例中，互验干声确定单元，具体用于：将起始段干声内容的音频与预设cos函数相乘，得到淡出处理结果；将结束段干声内容的音频与预设sin函数相乘，得到淡入处理结果。

在一些具体实施例中，获取干声音频，干声音频获取模块11，具体包括：

干声音频获取单元，用于获取音频格式为WAV的干声音频。

进一步的，本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的音频合成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量视频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的音频合成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种视频数据。

进一步的，本申请实施例还公开了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的异常显示检测方法步骤。

本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频合成方法，其特征在于，包括：

获取干声音频；

2.根据权利要求1所述的方法，其特征在于，所述将所述原始音素数据与所述校准音素数据进行对比，将起止时间相同且音素相同的音素数据确定为互验音素数据，包括：

将所述处理后的校准音素数据确定为所述互验音素数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述处理后的校准音素数据确定为所述互验音素数据，包括：

确定出所述处理后的校准音素数据中的相邻音素数据；

4.根据权利要求3所述的方法，其特征在于，所述将所述互验音素数据与所述干声音频进行处理，得到所述互验音素数据对应的互验干声，包括：

获取所述互验音素数据中内容为sil的音素的目标起止时间；

5.根据权利要求4所述的方法，其特征在于，所述将起止时间与所述目标起止时间相同的干声内容置为静音，包括：

确定出起止时间与所述目标起止时间相同的所述干声内容；

直接将所述中间段干声内容置为静音；

6.根据权利要求5所述的方法，其特征在于，所述对所述起始段干声内容进行淡出处理，包括：

所述对所述结束段干声内容进行淡入处理，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取干声音频，包括：

获取音频格式为WAV的所述干声音频。

8.一种音频合成装置，其特征在于，包括：

干声音频获取模块，用于获取干声音频；

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的音频合成方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的音频合成方法。