CN115457923B

CN115457923B - 一种歌声合成方法、装置、设备及存储介质

Info

Publication number: CN115457923B
Application number: CN202211315339.1A
Authority: CN
Inventors: 王春惠; 何星
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-03-31
Anticipated expiration: 2042-10-26
Also published as: CN115457923A

Abstract

本发明提供一种歌声合成方法、装置、设备及存储介质，涉及计算机技术领域。该方法包括：获取目标歌曲的音乐数据；将音乐数据输入内容信息生成模型进行处理，输出与音乐数据对应的目标内容信息，其中，内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将音乐数据输入融合模型进行音色融合处理，输出目标音色信息；根据目标内容信息和目标音色信息，生成与目标歌曲对应的频谱信息；利用预设的音频合成策略，对频谱信息进行音频合成处理，生成目标歌曲音频。通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。

Description

一种歌声合成方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种歌声合成方法、装置、设备及存储介质。

背景技术

歌声合成是基于歌词、节奏以及音高等信息的声谱来合成的虚拟歌声技术。现有的歌声合成技术，通常直接使用歌谱中的音符、音素、音符时长、音高等信息进行声学特征预测。

大部分的歌声合成都是基于多个歌唱家歌唱的方式，通过嵌入一个线性层来学习不同的音色信息，这种情况存在一个很大的不足就是在数据量小的情况下会出现学习效果很差的情况，并且这种方式无法进行有效的音色创造，也无法进行细粒度音色融合，合成后的歌曲音频表现力也很差。

发明内容

有鉴于此，本发明提供一种歌声合成方法、装置、设备及存储介质，实现通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。

第一方面，本发明提供一种歌声合成方法，包括：

获取目标歌曲的音乐数据；

将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；

将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；

根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；

利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

优选地，根据本发明提供的一种歌声合成方法，所述将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，包括：

获取所述音乐数据的音节信息和电子乐谱信息；

将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型，输出所述目标内容信息。

优选地，根据本发明提供的一种歌声合成方法，

所述将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，包括：

将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息；

将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。

优选地，根据本发明提供的一种歌声合成方法，所述根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息，包括：

利用多头注意力块和残差块，将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理，得到每一层对应的归一化数据；

按预设顺序将多层所述归一化数据拼接处理成初始频谱数据；

将所述初始频谱数据输入注意力模型中，生成所述频谱信息。

优选地，根据本发明提供的一种歌声合成方法，所述利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频，包括：

利用所述音频合成策略调用预设的声码器；

利用所述声码器对所述频谱信息进行音频合成处理，生成所述目标歌曲音频。

优选地，根据本发明提供的一种歌声合成方法，所述声纹提取模型的训练步骤，包括：

获取音频训练样本；

将所述音频训练样本输入卷积神经网络中进行训练，输出与所述音频训练样本对应的音色信息样本；

计算所述音色信息样本和预设标准音色信息的信息差数据，根据所述信息差数据优化所述卷积神经网络，以得到所述声纹提取模型。

第二方面，本发明还提供一种歌声合成装置，包括：

获取模块，用于获取目标歌曲的音乐数据；

内容信息生成模块，用于将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过利用预设的歌声文本信息对初始神经网络进行训练得到的；

音色信息生成模块，用于将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；

频谱信息生成模块，用于根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；

音频合成模块，用于利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述歌声合成方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述歌声合成方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述歌声合成方法的步骤。

本发明提供的一种歌声合成方法、装置、设备及存储介质，通过获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。实现通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种歌声合成方法的流程示意图；

图2是本发明提供的图1中步骤S300的流程示意图；

图3是本发明提供的一种歌声合成装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先对本发明申请中的一些词汇作出解释：

歌曲指的是流行音乐、古代音乐、民谣音乐等等。

歌声，指声带经头腔和喉腔共鸣产生的乐音，与说话时声音的主要区别在于特定音高上元音的拖长与否。

音乐是一种艺术形式和文化活动，其媒介是按时组织的、有规律的声波（机械波的一种），它的基本要素包括强弱、调性、时长、音色。

下面结合图1-图4描述本发明的一种歌声合成方法、装置、设备及存储介质。

如图1所示，其为本发明实施例提供的一种歌声合成方法的实施流程示意图，一种歌声合成方法可以包括但不限于步骤S100至S500。

S100，获取目标歌曲的音乐数据；

S200，将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；

S300，将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；

S400，根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；

S500，利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

在一些实施例的步骤S100中，获取目标歌曲的音乐数据。

可以理解的是，计算机执行程序可以从数据库中获取目标歌曲的音乐数据。

需要说明的是，音乐数据至少可以包括但不限于：音节信息和电子乐谱信息。

在一些实施例的步骤S200中，将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息。

可以理解的是，在执行完步骤S100获取目标歌曲的音乐数据的步骤之后，其具体执行步骤可以为：计算机执行程序先获取所述音乐数据的音节信息和电子乐谱信息，再将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型，输出所述目标内容信息。

需要说明的是，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的。

在一些实施例的步骤S300中，将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息。

可以理解的是，在执行完步骤S200将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息的步骤之后，其具体执行步骤可以为：计算机执行程序先将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息，再将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。

需要说明的是，所述融合模型用于将所述音乐数据对应的音色信息互相融合。

在一些实施例的步骤S400中，根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息。

可以理解的是，在执行完步骤S300将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息的步骤之后，其具体执行步骤可以为：计算机执行程序首先利用多头注意力块和残差块，将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理，得到每一层对应的归一化数据；按预设顺序将多层所述归一化数据拼接处理成初始频谱数据；将所述初始频谱数据输入注意力模型中，生成所述频谱信息。

在一些实施例的步骤S500中，利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

可以理解的是，在执行完步骤S400根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息的步骤之后，其具体执行步骤可以为：计算机执行程序首先利用所述音频合成策略调用预设的声码器，利用所述声码器对所述频谱信息进行音频合成处理，生成所述目标歌曲音频。

在本发明的一些实施例中，所述将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，包括：

获取所述音乐数据的音节信息和电子乐谱信息；

可以理解的是，计算机执行程序首先获取音乐数据的音节信息和电子乐谱信息，再将所述音节信息和所述电子乐谱信息输入所述内容信息生成模型，输出所述目标内容信息。

需要说明的是，电子乐谱信息可以为目标歌曲的midi信息。

将预设的多个歌声文本信息输入初始神经网络进行训练，以得到成熟的内容信息生成模型。

通过内容信息生成模型处理音乐数据的音节信息和电子乐谱信息，从而输出与目光歌曲对应的目标内容信息。

如图2所示，在本发明的一些实施例中，步骤S300可以包括但不限于步骤S210至S220。

S210，将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息；

S220，将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。

在一些实施例的步骤S210中，将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息。

可以理解的是，计算机执行程序将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息。

需要说明的是，预设比例可以随意设定，在此不作具体限定。

比如，有100条音乐数据，将100条音乐数据都输入内容信息生成模型，输出对应的100条目标内容信息。同样地，将100条音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息，以根据提取出的每个所述音乐数据中每个演唱者分别对应的初始音色信息输入音色融合模型进行音色融合处理。

在一些实施例的步骤S220中，将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。

可以理解的是，在执行完步骤S210将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息的步骤之后，计算机执行程序将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成所述目标音色信息。

比如这100条音乐数据中有60个演唱者参与合唱，那么按照预设比例示意性地随机筛选出20个演唱者，将这20个演唱者对应的初始音色信息分别输入音色融合模型进行音色融合处理，从而根据预设融合策略生成目标音色信息。

进一步地，比如预设融合策略为将演唱者A的初始音色信息A1和演唱者B的初始音色信息B1融合一起，生成目标音色信息A1B1。

在本发明的一些实施例中，所述根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息，包括：

可以理解的是，利用多头注意力块和残差块，将位于神经网络每一层的目标内容信息和目标音色信息分别进行归一化处理，得到每一层对应的归一化数据。

需要说明的是，归一化方法有两种形式，一种是把数变为（0，1）之间的小数，一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理时方便提取，把数据映射到0～1范围之内处理，更加便捷快速。

一个神经网络所需的最佳层数(或残余块) ，这可能取决于数据集的复杂性。与其将层数视为一个需要调整的重要超参数，不如将跳跃连接添加到神经网络中，允许神经网络跳过对于那些没有实际用处且不会增加整体精度价值的层的训练。在某种程度上，跳跃连接使神经网络动态调整的数量，保持在最佳训练期间。

在按预设顺序将多层归一化数据拼接处理成初始频谱数据，多层至少包括但不限于多个隐藏层。将所述初始频谱数据输入注意力模型中，生成所述频谱信息。

利用多头注意力块和残差块，将位于神经网络每一层的目标内容信息和目标音色信息分别进行归一化处理，得到每一层对应的归一化数据，不仅可以提高网络的精度，而且能够减少数据量，即既能保证全局信息的完整性又能保证局部信息的精确性。

可以理解的是，注意力模型可以为但不限于Transformer的残差网络模型。

在本发明的实施例中，通过多头注意力机制来获取全局信息，通过残差网络来获取局部信息，之后融合局部信息和全局信息，进行频谱预测。这样能够很好的解决因为局部信息不足而导致频谱预测比较差的问题。

在本发明的一些实施例中，所述利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频，包括：

利用所述音频合成策略调用预设的声码器；

可以理解的是，利用所述音频合成策略调用预设的声码器，再利用所述声码器对所述频谱信息进行音频合成处理，生成所述目标歌曲音频。

需要说明的是，声码器在发送端对语音信号进行分析，提取出语音信号的特征参量加以编码和加密，以取得和信道的匹配，经信息通道传递到接受端，再根据收到的特征参量恢复原始语音波形。分析可在频域中进行，对语音信号作频谱分析，鉴别清浊音，测定浊音基频，进而选取清-浊判断、浊音基频和频谱包络作为特征参量加以传送。分析也可在时域中进行，利用其周期性提取一些参数进行线性预测，或对语音信号作相关分析。根据工作原理，

声码器可以包括但不限于：通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。

在本发明的一些实施例中，所述声纹提取模型的训练步骤，包括：

获取音频训练样本；

可以理解的是，计算机执行程序可以获取音频训练样本，利用音频训练样本训练初始的卷积神经网络，从而输出与音频训练样本对应的音色信息样本，再计算所述音色信息样本和预设标准音色信息的信息差数据，根据所述信息差数据优化调整所述卷积神经网络，以得到所述声纹提取模型，以利用训练好的声纹提取模型提取出对应的音色信息。

下面对本发明提供的一种歌声合成装置进行描述，下文描述的一种歌声合成装置与上文描述的一种歌声合成方法可相互对应参照。

参考图3所示，为本发明提供的一种歌声合成装置的结构示意图，一种歌声合成装置包括：

获取模块310，用于获取目标歌曲的音乐数据；

内容信息生成模块320，用于将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过利用预设的歌声文本信息对初始神经网络进行训练得到的；

音色信息生成模块330，用于将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；

频谱信息生成模块340，用于根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；

音频合成模块350，用于利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

可选地，根据本发明提供的一种歌声合成装置，内容信息生成模块320，用于获取所述音乐数据的音节信息和电子乐谱信息；

可选地，根据本发明提供的一种歌声合成装置，音色信息生成模块330，用于将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息；

可选地，根据本发明提供的一种歌声合成装置，频谱信息生成模块340，用于利用多头注意力块和残差块，将位于每一层的所述目标内容信息和所述目标音色信息分别进行归一化处理，得到每一层对应的归一化数据；

可选地，根据本发明提供的一种歌声合成装置，音频合成模块350，用于利用所述音频合成策略调用预设的声码器；

可选地，根据本发明提供的一种歌声合成装置，声纹提取模型的训练步骤用于获取音频训练样本；

本发明提供的一种歌声合成装置，通过获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。实现通过对解耦后的音色信息进行多音色融合，按任意比例融合生成新的目标音色信息，从而生成表现力强的目标歌曲音频。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行一种歌声合成方法，该方法包括：获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种歌声合成方法，该方法包括：获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种歌声合成方法，该方法包括：获取目标歌曲的音乐数据；将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的；将所述音乐数据输入融合模型进行音色融合处理，输出目标音色信息，其中，所述融合模型用于将所述音乐数据对应的音色信息互相融合；根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息；利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种歌声合成方法，其特征在于，包括：

获取目标歌曲的音乐数据；

将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，其中，所述内容信息生成模型是通过预设的歌声文本信息对初始神经网络进行训练得到的，所述目标内容信息是通过内容信息生成模型对所述音乐数据的音节信息和电子乐谱信息进行处理得到的；

将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成目标音色信息；

2.根据权利要求1所述的一种歌声合成方法，其特征在于，

所述将所述音乐数据输入内容信息生成模型进行处理，输出与所述音乐数据对应的目标内容信息，包括：

获取所述音乐数据的音节信息和电子乐谱信息；

3.根据权利要求1所述的一种歌声合成方法，其特征在于，

所述根据所述目标内容信息和所述目标音色信息，生成与所述目标歌曲对应的频谱信息，包括：

4.根据权利要求1所述的一种歌声合成方法，其特征在于，

所述利用预设的音频合成策略，对所述频谱信息进行音频合成处理，生成目标歌曲音频，包括：

利用所述音频合成策略调用预设的声码器；

5.根据权利要求1所述的一种歌声合成方法，其特征在于，

所述声纹提取模型的训练步骤，包括：

获取音频训练样本；

6.一种歌声合成装置，其特征在于，包括：

获取模块，用于获取目标歌曲的音乐数据；

音色信息生成模块，用于将所述音乐数据输入声纹提取模型进行提取处理，提取出在每个所述音乐数据中每个演唱者分别对应的初始音色信息；将预设比例的演唱者对应的所述初始音色信息分别输入音色融合模型进行音色融合处理，根据预设融合策略生成目标音色信息；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述歌声合成方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述歌声合成方法的步骤。