CN113421544B

CN113421544B - 歌声合成方法、装置、计算机设备及存储介质

Info

Publication number: CN113421544B
Application number: CN202110745514.XA
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-05-10
Anticipated expiration: 2041-06-30
Also published as: CN113421544A

Abstract

本发明公开了一种歌声合成方法、装置、计算机设备及存储介质，其中方法包括：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。通过上述方式，本发明能够使用图像优化模型对声学模型生成的梅尔频谱进行细节上的优化，然后再由声码器根据该优化后的梅尔频谱进行歌声合成，使得合成的歌声效果更好。

Description

歌声合成方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音合成技术领域，特别是涉及一种歌声合成方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的不断发展，语音交互能力越来越受到重视，能听、会说、会唱成为必备技能。越来越多的应用软件、智能设备开始采用语音合成技术来模拟人的说话内容，例如采用语音合成技术模拟人说话的内容以得到“学舌”的目的，或者采用语音合成技术来模拟人唱歌等与普通说话场景不同的语音。

现有的歌声合成模型通常包括声学模型和声码器两部分，其中，声学部分用于将文本映射成时间对齐的声学特征，声码器用于讲台声学特征转换问波形，目前，在声学模型中，有研究表明，使用梅尔频谱来作为声学模型与声码器之间的声学特征是合理有效的，近年来的成功的歌声合成模型也几乎都用到了梅尔频谱来衔接声学模型与声码器这两部分，因此，若果梅尔频谱的质量越高，声码器最终合成的歌声的质量越高，但是，使用高采样率的音频来作为训练对象生成质量更高的梅尔频谱会导致声学模型的搭建难度大增，因此，如何采用合理的方式优化梅尔频谱图像的质量变得尤为重要。

发明内容

本申请提供一种歌声合成方法、装置、计算机设备及存储介质，以解决现有的歌声合成过程中生成的梅尔频谱的质量不够高的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种歌声合成方法，包括：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

作为本申请的进一步改进，从待转换为歌声音频的MIDI文件中提取歌声特征并输入至预先训练好的声学模型，得到梅尔频谱，包括：获取用户输入的待转换为歌声音频的MIDI文件；从MIDI文件中提取得到音素特征、音长特征和音高特征；对音素特征、音长特征和音高特征进行拼接，得到输入特征；将输入特征输入至训练好的声学模型，得到梅尔频谱。

作为本申请的进一步改进，得到梅尔频谱之后，还包括：分析梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征；将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，包括：将优化后的梅尔频谱与优化前的梅尔频谱逐帧对应，以获知每帧优化后的梅尔频谱对应的基本频率和发声特征；将优化后的梅尔频谱输入至声码器，当声码器将当前帧的梅尔频谱转换为音频后，将当前帧对应的基本频率添加至音频中；判断音频的当前发声特征与当前帧对应的发声特征是否一致；若是，则保存音频；若否，则根据发声特征调整音频的当前发声特征再保存；根据所有保存的音频组合成歌声音频文件。

作为本申请的进一步改进，还包括预先训练声学模型，声学模型根据预先准备好的样本数据进行训练，声学模型包括ChariNet模型、Tacotron2和Fastspeech模型中的一种。

作为本申请的进一步改进，图像优化模型通过ResNet网络和UNet网络构建。

作为本申请的进一步改进，还包括预先训练声码器，声码器根据图像优化模型输出的优化后的梅尔频谱进行训练，声码器包括传统声码器Straight、传统声码器World、神经声码器WaveRnn、神经声码器WaveNet、神经声码器WaveGlow中的一种。

作为本申请的进一步改进，得到歌声音频文件之后，还包括：利用低通滤波对歌声音频文件进行滤波处理。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种歌声合成装置，包括：转化模块，用于从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；优化模块，用于利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；合成模块，用于将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机设备，计算机设备包括处理器、与处理器耦接的存储器，存储器中存储有程序指令，程序指令被处理器执行时，使得处理器执行如上述中任一项的歌声合成方法的步骤。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储介质存储有能够实现上述中任一项的歌声合成方法的程序指令。

本申请的有益效果是：本发明的歌声合成方法通过在声学模型生成梅尔频谱之后，将该梅尔频谱输入值预先训练好的图像优化模型中，通过该图像优化模型对梅尔频谱的图像进行优化，使得优化后的梅尔频谱上记录了更多的细节，在将优化后的梅尔频谱输入值声码器中，由声码器根据该优化后的梅尔频谱转换生成歌声音频文件，其用图像优化模型优化了梅尔频谱的图像，提升了梅尔频谱的质量，使得根据优化后的梅尔频谱生成的歌声质量更高，提升了用户体验。

附图说明

图1是本发明第一实施例的歌声合成方法的流程示意图；

图2是本发明第二实施例的歌声合成方法的流程示意图；

图3是本发明第三实施例的歌声合成方法的流程示意图；

图4是本发明第四实施例的歌声合成方法的流程示意图；

图5是本发明实施例的歌声合成装置的功能模块示意图；

图6是本发明实施例的计算机设备的结构示意图；

图7是本发明实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的歌声合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该歌声合成方法包括步骤：

步骤S101：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱。

需要说明的是，MIDI是Musical Instrument Digital Interface的简称，意为音乐设备数字接口，它是一种电子乐器之间以及电子乐器与电脑之间的统一交流协议。MIDI文件是一种描述性的音乐语言，将所要演奏的乐曲信息用字节进行描述，譬如在某一时刻使用什么乐器，以什么音符开始，以什么音调结束，加以什么伴奏等，也就说MIDI文件并不是一段录制好的声音，而是记录声音的信息，其本身并不包含波形数据，所以MIDI文件非常小巧，一个MIDI文件每存1分钟的音乐只用大约5～10KB。

在步骤S101中，在获取到待转换为歌声音频的MIDI文件后，从该MIDI文件中提取得到歌曲特征，再将该歌曲特征输入至声学模型中，由声学模型根据歌曲特征转换得到梅尔频谱。

进一步的，所述歌声合成方法还包括预先训练声学模型预先，该声学模型根据预先准备好的样本数据进行训练。该声学模型的训练步骤具体包括：将样本数据输入至待训练的声学模型中，得到样本预测梅尔频谱；将预测梅尔频谱与该样本数据对应的实际梅尔频谱进行比对，并根据比对结果反向更新该声学模型。

需要说明的是，声学模型包括ChariNet模型、Tacotron2和Fastspeech模型中的一种。本实施例中，优选地，该声学模型为Fastspeech模型。

其中，Fastspeech模型体系架构是基于自注意力神经网络和1D卷积中的自注意力的前馈网络，该Fastspeech模型将文本(音素)序列作为输入并非自回归地生成梅尔频谱，从而通过并行地生成梅尔频谱，大大加快了歌声合成过程。

步骤S102：利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到。

需要理解的是，梅尔频谱是一种图像。在步骤S102中，当获取到梅尔频谱后，将该梅尔频谱输入值预先训练好的图像优化模型中，通过该图像优化模型对梅尔频谱进行细节上的优化，从而提高梅尔频谱的质量。

需要说明的是，所述方法还包括根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本对图像优化模型进行训练，具体包括：

将声学模型输出的梅尔频谱样本输入至图像优化模型中进行优化，得到优化后的梅尔频谱样本；将优化后的梅尔频谱样本与预先准备好的高采样率梅尔频谱样本进行比对，并根据比对结果反向更新该图像优化模型。

在一些实施例中，该图像优化模型通过ResNet网络和UNet网络构建。

步骤S103：将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

在步骤S103中，在得到图像优化模型输出的优化后的梅尔频谱之后，将该优化后的梅尔频谱输入至预先训练好的声码器中，声码器根据该优化后的梅尔频谱生成相应歌声音频文件。

进一步，所述歌声合成方法还包括预先训练声码器，该声码器根据图像优化模型输出的优化后的梅尔频谱进行训练。需要说明的是，声码器包括传统声码器Straight、传统声码器World、神经声码器WaveRnn、神经声码器WaveNet、神经声码器WaveGlow中的一种。本实施例中，优选地，该声码器为神经声码器WaveGlow。

本发明第一实施例的歌声合成方法通过在声学模型生成梅尔频谱之后，将该梅尔频谱输入值预先训练好的图像优化模型中，通过该图像优化模型对梅尔频谱的图像进行优化，使得优化后的梅尔频谱上记录了更多的细节，在将优化后的梅尔频谱输入值声码器中，由声码器根据该优化后的梅尔频谱转换生成歌声音频文件，其用图像优化模型优化了梅尔频谱的图像，提升了梅尔频谱的质量，使得根据优化后的梅尔频谱生成的歌声质量更高，提升了用户体验。

图2是本发明第二实施例的歌声合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该歌声合成方法包括步骤：

步骤S201：获取用户输入的待转换为歌声音频的MIDI文件。

步骤S202：从MIDI文件中提取得到音素特征、音长特征和音高特征。

需要说明的是，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，例如，“我”子，其包括两个音素“w”和“o”。音长是指声音的长短，它决定于发音体振动时间的长短。音调是指各种不同高低的声音，是由发音物体振动频率的高低决定的，频率高声音就高，频率低声音就低。

步骤S203：对音素特征、音长特征和音高特征进行拼接，得到输入特征。

在步骤S203中，以一个例子为例进行说明，假设当前音素特征为“w”，音长特征为“10”，音高特征为“C1”，进行拼接后，得到的输入特征为：[w，w，w，w，w，w，w，w，w，w，C1，C1，C1，C1，C1，C1，C1，C1，C1，C1]，即根据音长特征将音素特征和音高特征对应的编码进行扩充后拼接形成输入特征。

步骤S204：将输入特征输入至训练好的声学模型，得到梅尔频谱。

在步骤S204中，将音素特征、音长特征、音高特征拼接得到的输入特征输入值声学模型后，由声学模型根据输入特征转换得到梅尔频谱。

步骤S205：利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到。

在本实施例中，图2中的步骤S205和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S206：将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

在本实施例中，图2中的步骤S206和图1中的步骤S103类似，为简约起见，在此不再赘述。

本发明第二实施例的歌声合成方法在第一实施例的基础上，通过从MIDI文件中获取音素特征、音长特征和音高特征，将音素特征、音长特征和音高特征拼接后输入至声学模型，从而生成的梅尔频谱中不仅仅包含有音素，还包含有音长和音高，从而使得最后在根据梅尔频谱合成的歌声正常。

图3是本发明第三实施例的歌声合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。如图3所示，该歌声合成方法包括步骤：

步骤S301：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱。

在本实施例中，图3中的步骤S301和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S302：分析梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征。

需要说明的是，梅尔频谱由多帧图像按时序关系依次连接构成，在步骤S302中，在声学模型生成梅尔频谱之后，分析该梅尔频谱，从而获知每帧梅尔频谱对应的基本频率和发生特征，该发声特征实时反映在当前阶段是否有声音发出。

步骤S303：利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到。

在本实施例中，图3中的步骤S303和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S304：将优化后的梅尔频谱与优化前的梅尔频谱逐帧对应，以获知每帧优化后的梅尔频谱对应的基本频率和发声特征。

需要理解的是，梅尔频谱优化后，其长度并不会发生变化，帧数也不会发生变化。

步骤S305：将优化后的梅尔频谱输入至声码器，当声码器将当前帧的梅尔频谱转换为音频后，将当前帧对应的基本频率添加至音频中。

在步骤S305中，为了保证根据优化后的梅尔频谱生成的音频的基本频率准确，将根据优化前的梅尔频谱对应的基本频谱添加至音频中，即使优化后的梅尔频谱生成的音频的基本频率与优化前的梅尔频谱的基本频率相差较大，通过对两者进行累加，从而使得生成的音频具备和声的效果，降低差异性。

步骤S306：判断音频的当前发声特征与当前帧对应的发声特征是否一致。若是，则执行步骤S307；若否，则执行步骤S308。

在步骤S304中，在将优化后的梅尔频谱输入至声码器之后，声码器根据时间顺序依次将优化后的梅尔频谱一帧一帧合成音频，且每合成一段梅尔频谱对应的音频，则需要根据该帧对应的发声特征判断生成的音频是否准确，若准确，则执行步骤S307，若不准确，则执行步骤S308。

步骤S307：保存音频。

步骤S308：根据发声特征调整音频的当前发声特征再保存。

在步骤S308中，当音频不准确时，根据基本频率和发声特征调整该音频再保存，例如，假设当前合成的音频对应的发声特征为否，而该音频中发出了声音，则说明该段音频不准确，需要将该音频中的声音给清除掉，以保证生成的音频准确。

步骤S309：根据所有保存的音频组合成歌声音频文件。

在步骤S309中，在生成的每段音频均根据基本频率和发声特征验证和修改之后，将所有保存的音频组成歌声音频文件。

本发明第三实施例的歌声合成方法在第一实施例的基础上，通过分析声学模型输出的梅尔频谱得到基本频率和发声特征，再利用该基本频率和发声特征对根据优化后的梅尔频谱进行优化，从而进一步保证生成的歌声音频准确，避免了优化梅尔频谱所带来的的误差，保证最终省的歌声音频更为准确。

图4是本发明第四实施例的歌声合成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。如图4所示，该歌声合成方法包括步骤：

步骤S401：从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱。

在本实施例中，图4中的步骤S401和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S402：利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到。

在本实施例中，图4中的步骤S402和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S403：将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

在本实施例中，图4中的步骤S403和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S404：利用低通滤波对歌声音频文件进行滤波处理。

在步骤S404中，在生成歌声音频文件后，利用低通滤波对歌声音频文件进行滤波处理，从而消除歌声音频文件中的噪声，如嘶嘶声，使得最终生成的歌声音频文件的效果更好。

本发明第四实施例的歌声合成方法在第一实施例的基础上，通过采用低通滤波对歌声音频文件进行滤波处理，以消除歌声音频文件中的噪声，进一步提高生成的歌声音频文件的质量。

图6是本发明实施例的歌声合成装置的功能模块示意图。如图6所示，该歌声合成装置50包括转化模块51、优化模块52和合成模块53。

转化模块51，用于从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱。

优化模块52，用于利用预先训练好的图像优化模型对梅尔频谱进行优化，图像优化模型根据声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到。

合成模块53，用于将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件。

可选地，转化模块51执行从待转换为歌声音频的MIDI文件中提取歌声特征并输入至预先训练好的声学模型，得到梅尔频谱的操作还可以为：获取用户输入的待转换为歌声音频的MIDI文件；从MIDI文件中提取得到音素特征、音长特征和音高特征；对音素特征、音长特征和音高特征进行拼接，得到输入特征；将输入特征输入至训练好的声学模型，得到梅尔频谱。

可选地，转化模块51得到梅尔频谱之后，还用于：分析梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征；合成模块53执行将优化后的梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件的操作还可以为：将优化后的梅尔频谱与优化前的梅尔频谱逐帧对应，以获知每帧优化后的梅尔频谱对应的基本频率和发声特征；将优化后的梅尔频谱输入至声码器，当声码器将当前帧的梅尔频谱转换为音频后，将当前帧对应的基本频率添加至音频中；判断音频的当前发声特征与当前帧对应的发声特征是否一致；若是，则保存音频；若否，则根据发声特征调整音频的当前发声特征再保存；根据所有保存的音频组合成歌声音频文件。

可选地，该歌声合成装置50还包括训练模块，训练模块用于预先训练声学模型，声学模型根据预先准备好的样本数据进行训练，声学模型包括ChariNet模型、Tacotron2和Fastspeech模型中的一种。

可选地，图像优化模型通过ResNet网络和UNet网络构建。

可选地，训练模块还用于预先训练声码器，声码器根据图像优化模型输出的优化后的梅尔频谱进行训练，声码器包括传统声码器Straight、传统声码器World、神经声码器WaveRnn、神经声码器WaveNet、神经声码器WaveGlow中的一种。

可选地，合成模块53执行得到歌声音频文件的操作之后，还用于：利用低通滤波对歌声音频文件进行滤波处理。

关于上述实施例歌声合成装置中各模块实现技术方案的其他细节，可参见上述实施例中的歌声合成方法中的描述，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

请参阅图6，图6为本发明实施例的计算机设备的结构示意图。如图6所示，该计算机设备60包括处理器61及和处理器61耦接的存储器62，存储器62中存储有程序指令，程序指令被处理器61执行时，使得处理器61执行上述任一实施例所述的歌声合成方法的步骤。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述任一实施例所述的歌声合成方法的程序指令71，其中，该程序指令71可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等计算机设备设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种歌声合成方法，其特征在于，包括：

从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；分析所述梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征；

利用预先训练好的图像优化模型对所述梅尔频谱进行优化，所述图像优化模型根据所述声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；

将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件；

所述将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件的操作包括，将所述优化后的梅尔频谱与优化前的所述梅尔频谱逐帧对应，以获知每帧所述优化后的梅尔频谱对应的基本频率和发声特征；将所述优化后的梅尔频谱输入至所述声码器，当所述声码器将当前帧的梅尔频谱转换为音频后，将所述当前帧对应的所述基本频率添加至所述音频中；判断所述音频的当前发声特征与所述当前帧对应的所述发声特征是否一致；若是，则保存所述音频；若否，则根据所述发声特征调整所述音频的当前发声特征再保存；根据所有保存的音频组合成所述歌声音频文件。

2.根据权利要求1所述的歌声合成方法，其特征在于，所述从待转换为歌声音频的MIDI文件中提取歌声特征并输入至预先训练好的声学模型，得到梅尔频谱，包括：

获取用户输入的待转换为歌声音频的MIDI文件；

从所述MIDI文件中提取得到音素特征、音长特征和音高特征；

对所述音素特征、所述音长特征和所述音高特征进行拼接，得到输入特征；

将所述输入特征输入至所述训练好的声学模型，得到所述梅尔频谱。

3.根据权利要求1所述的歌声合成方法，其特征在于，还包括预先训练所述声学模型，所述声学模型根据预先准备好的样本数据进行训练，所述声学模型包括ChariNet模型、Tacotron2和Fastspeech模型中的一种。

4.根据权利要求1所述的歌声合成方法，其特征在于，所述图像优化模型通过ResNet网络和UNet网络构建。

5.根据权利要求1所述的歌声合成方法，其特征在于，还包括预先训练所述声码器，所述声码器根据所述图像优化模型输出的优化后的梅尔频谱进行训练，所述声码器包括传统声码器Straight、传统声码器World、神经声码器WaveRnn、神经声码器WaveNet、神经声码器WaveGlow中的一种。

6.根据权利要求1所述的歌声合成方法，其特征在于，所述得到歌声音频文件之后，还包括：

利用低通滤波对所述歌声音频文件进行滤波处理。

7.一种歌声合成装置，其特征在于，包括：

转化模块，用于从待转换为歌声音频的MIDI文件中提取歌曲特征并输入至预先训练好的声学模型，得到梅尔频谱；所述转化模块还用于分析所述梅尔频谱以得到每一帧梅尔频谱对应的基本频率和发声特征；

优化模块，用于利用预先训练好的图像优化模型对所述梅尔频谱进行优化，所述图像优化模型根据所述声学模型输出的梅尔频谱样本和预先准备好的高采样率梅尔频谱样本训练得到；

合成模块，用于将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件；所述将优化后的所述梅尔频谱输入至预先训练好的声码器中进行转化，得到歌声音频文件的操作包括，将所述优化后的梅尔频谱与优化前的所述梅尔频谱逐帧对应，以获知每帧所述优化后的梅尔频谱对应的基本频率和发声特征；将所述优化后的梅尔频谱输入至所述声码器，当所述声码器将当前帧的梅尔频谱转换为音频后，将所述当前帧对应的所述基本频率添加至所述音频中；判断所述音频的当前发声特征与所述当前帧对应的所述发声特征是否一致；若是，则保存所述音频；若否，则根据所述发声特征调整所述音频的当前发声特征再保存；根据所有保存的音频组合成所述歌声音频文件。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1-6中任一项权利要求所述的歌声合成方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有能够实现如权利要求1-6中任一项所述的歌声合成方法的程序指令。