CN106652997A

CN106652997A - 一种音频合成的方法及终端

Info

Publication number: CN106652997A
Application number: CN201611245903.1A
Authority: CN
Inventors: 陈雪琪
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10
Anticipated expiration: 2036-12-29
Also published as: CN106652997B

Abstract

本发明实施例提供了一种音频合成的方法及终端，其中，所述方法包括：对用户输入的人声音频进行切割处理，得到M个音频切片；根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息；根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律；按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。采用本发明，可实现一键歌声音频合成的功能，且保留有用户自身的音色，差异化明显，提升了音频合成的实用性和方便快捷性。

Description

一种音频合成的方法及终端

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频合成的方法及终端。

背景技术

随着信息科技的不断发展和成熟，终端设备所具备的处理能力也大幅提高，使得很多复杂的应用得以实现，例如音频或歌声合成等相关技术。

目前市面上出现的唱歌软件，例如虚拟歌手、练唱软件等，大多是为一些唱歌爱好者，特别是唱歌比较好听的人群设计的，通过录音发布自己演唱的歌曲。但其并不适用于那些不会唱歌、但妙语连珠适合创作的人。

在实践中发现，现有技术中的音频合成方案，通常需要预先录制真人的歌曲样本数据库以建立歌曲语料库，用户输入文本文字后，通过文字匹配到歌曲语料库中的目标歌曲，然后将目标歌曲的歌词对应替换为用户输入的文本文字，即可输出用户想要的演唱歌曲。然而，建立歌曲语料库需要较长的时间消耗，并且录制数量还会受限。此外，受限于预录的歌曲语料库，输出的演唱歌曲只能为固定音色，并不能保留用户自身的音色，使得差异化不大。

发明内容

本发明实施例所要解决的技术问题在于，提供一种音频合成的方法及终端，可实现一键歌声音频合成的功能，且保留有用户自身的音色特征，具有明显地差异化，提升了音频合成的实用性。

第一方面，本发明实施例公开提供了一种音频合成的方法，所述方法包括：

接收用户输入的人声音频，并对所述人声音频进行切割处理，得到M个音频切片，M为大于0的正整数；

根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息，其中，每个音频切片对应一个或多个目标MIDI信息，所述至少一个MIDI信息按照时间序列组成所述预设乐曲MIDI文件，所述MIDI信息包括旋律；

根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律；

按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。

其中可选的，所述根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息具体包括：

按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；

其中，每个音频切片对应一个或多个目标MIDI信息。

其中可选的，所述旋律包括音高、音长、音量中的至少一个，所述根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片具体包括：

根据确定的所述目的MIDI信息中的旋律，来对应调整和处理所述M个音频切片中每个音频切片，以得到处理后的M个音频切片；

其中，所述处理后的M个音频切片与确定的所述目的MIDI信息具有以下相同内容中的至少一个：音高、音长、音量。

其中可选的，所述对所述人声音频进行切割处理，得到M个音频切片具体包括：

在存在所述人声音频对应的文本歌词的情况下，通过对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片；或者，

在没有所述人声音频对应的文本歌词的情况下，通过对所述人声音频进行语音识别，得到所述人声音频对应的文本歌词，并对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

其中可选的，所述方法还包括：

获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；

将所述伴奏音频和所述歌声音频进行音频合成处理，得到混合歌曲音频。

第二方面，本发明实施例还公开提供了一种终端，所述终端包括：

接收单元，用于接收用户输入的人声音频；

切割单元，用于对所述人声音频进行切割处理，得到M个音频切片，M为大于0的正整数；

确定单元，用于根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息，其中，每个音频切片对应一个或多个目标MIDI信息，所述至少一个MIDI信息按照时间序列组成所述预设乐曲MIDI文件，所述MIDI信息包括旋律；

处理单元，用于根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律；

合成单元，用于按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。

其中可选地，所述确定单元，具体用于按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；

其中，每个音频切片对应一个或多个目标MIDI信息。

其中可选地，所述旋律包括音高、音长、音量中的至少一个，所述处理单元，具体用于根据确定的所述目的MIDI信息中的旋律，来对应调整和处理所述M个音频切片中每个音频切片，以得到处理后的M个音频切片；

其中可选地，

所述切割单元，具体用于在存在所述人声音频对应的文本歌词的情况下，通过对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片；或者，

所述切割单元，具体用于在没有所述人声音频对应的文本歌词的情况下，通过对所述人声音频进行语音识别，得到所述人声音频对应的文本歌词，并对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

其中可选地，所述终端还包括：

获取单元，用于获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；

所述合成单元，还用于将所述伴奏音频和所述歌声音频进行音频合成处理，得到混合歌曲音频。

第三方面，提供了一种终端，其特征在于，包括：处理器、存储器、通信接口和总线；所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；所述存储器存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行一种音频合成的方法；其中，所述方法为第一方面任一项所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储了计算设备所执行的用于音频合成的程序代码。所述程序代码包括用于执行在第一方面中任一项的方法的指令。

本发明实施例中，通过对用户输入的人声音频进行切割处理，得到M个音频切片，然后根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息，接着根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律，最后按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。采用本发明，可实现一键歌声音频合成的功能，且保留有用户自身的音色，具有明显地差异化，提升了音频合成的实用性和方便快捷性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种音频合成方法的流程示意图；

图2是本发明实施例的另一种音频合成方法的流程示意图；

图3是本发明实施例的一种终端的结构示意图；

图4是本发明实施例的另一种终端的结构示意图；

图5是本发明实施例的另一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”(如果存在)等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参见图1，是本发明实施例的一种音频合成方法的流程示意图，本发明实施例的所述方法可以应用在诸如智能手机、平板电脑、智能可穿戴设备等带通信网络功能的终端中，具体可由这些终端的处理器来实现。本发明实施例的所述方法还包括如下步骤。

S101、接收用户输入的人声音频，并对所述人声音频进行切割处理，得到M个音频切片，M为大于0的正整数。

本发明实施例中，用户可以对终端进行操作，如点击录音按钮录制用户自身的语音音频，即人声音频等操作以输入自己的人声音频，所述终端可以检测并获取用户自己输入至该终端的人声音频；或者，所述终端可以通过有线或无线通讯的方式(如WIFI、蓝牙、数据线等)接收从其他终端或服务器发送过来的人声音频。当所述终端获取到所述人声音频后，所述终端可以对所述人声音频进行分割处理，以将所述人声音频切割成一个或多个音频切片，也可称为音频碎片，这里设为M个音频切片，其中，M大于0，且M为正整数。

其中可选地，所述对所述人声音频进行切割处理，得到M个音频切片具体包括：

在本发明的一个实施例中，如果所述终端在检测/获取所述人声音频时，还检测并获取到与所述人声音频所对应的文本歌词时，也即是所述终端检测到存在与所述人声音频对应的文本歌词的情况下，所述终端可以直接通过分析所述文本歌词来对对所述人声音频进行分割，以得到对应的M个音频切片。例如，用户在录制人声音频时可以将该人声音频对应的文本歌词编辑到所述终端中，方便用户按照该文本歌词来录制对应的人声音频；或者，所述终端接收的所述人声音频中直接携带有对应的文本歌词。此时所述终端可以直接根据所述文本歌词中的分段、分句或者根据韵母发音来对所述文本歌词进行分割，进而可以得到与所述文本歌词以及所述人声音频所对应的M个音频切片。

在本发明另一个实施例中，当所述终端检测到本终端中不存在与所述人声音频对应的文本歌词的情况下，所述终端可以对接收的所述人声音频进行语音识别处理，以获得与所述人声音频对应的文本歌词，进而通过对所述文本歌词进行诸如分句、分段、韵母发音、设定字数分割等规则的分割处理，将所述人声音频分割为M个音频切片。

在本发明另一个实施例中，当所述终端检测到本终端中不存在与所述人声音频对应的文本歌词的情况下，所述终端可以通过对所述人声音频进行语言识别，根据所述人声音频中的停顿或间隔，以将所述人声音频分割为M个音频切片。

需要说明的是，上述M个音频切片中均保留有用户说话声音原本的音色，且M个音频切片中包含有用户录制时的原始音高、原始音量、原始音长(声音长度)、原始音速(声音速度)、原始音调、原始旋律、或者其他的用于描述文本歌词发声的信息，本发明实施例不做限制。

所述终端可以包括智能手机(如Android手机、IOS手机等)、个人电脑、平板电脑、掌上电脑、移动互联网设备(MID，Mobile Internet Devices)或穿戴式智能设备等互联网设备，本发明实施例不作限定。

S102、根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息，其中，每个音频切片对应一个或多个目标MIDI信息，所述至少一个MIDI信息按照时间序列组成所述预设乐曲MIDI文件，所述MIDI信息包括旋律。

本发明实施例中，用户/系统可以预先在终端中存储一个或多个乐曲MIDI(Musical Instrument Digital Interface，MIDI，中文称为音乐设备数字接口)文件，当用户想要进行音频合成时，该用户可以从预存的多个乐曲MIDI文件中自主选取一个预设乐曲MIDI文件，以按照该预设乐曲MIDI文件来将自身的人声音频合成为对应的歌声音频。其中，所述预设乐曲MIDI文件可以为由至少一个MIDI信息(也可以是MIDI指令)组成，且这些MIDI信息/指令按照时间序列进行排序。

应理解的是，MIDI文件是一种电子乐器之间以及电子乐器与电脑之间的统一交流协议。它是一种描述性的音乐语言，将乐曲的所有信息用字节进行描述。譬如在某一时刻使用什么乐器，以什么音符开始，以什么音调结束，加以什么伴奏等信息/指令。在实际应用中，MIDI文件实际以note文件的形式存储在终端中，该note文件是将MIDI文件的图形画转化为数据结构形成的一种脚本，其具体可以由起始时间，单位可以但不限于毫秒(ms)、持续时长，也即是音长，单位同样可以但不限于ms，以及音高Pitch等信息组成。也可以理解为note文件仅是MIDI文件的一种变形保存方式，该note文件和MIDI文件包括有相同的信息，如音高、音长等。示例性地，下表1所示给出一种note文件的结构示意图。

表1

序列	对应文字	起始时间	持续时长(音长)	Pitch(音高)
					1	甜	4769	936	78
2	蜜	5709	466	81
					3	…	6179	466	83
4	蜜	6649	701	78
					5	你	8060	466	74
6	笑	8530	701	76
					7	的	9235	231	74
8	甜	9470	466	76
					9	蜜	9940	466	81
10	蜜	10410	231	81

可知，上表1给出的note文件(MIDI文件)中包含有10个MIDI信息(或MIDI指令)，且每个MIDI信息按照时间序列进行排序，并统一构成所述note文件(MIDI文件)。此外，每一条MIDI信息可以由对应文字(即文本歌词)、起始时间(即唱这个文本歌词对应的开始时间)、持续时长，也即是音长，用户唱这个文本歌词对应的持续时长、以及音高Pitch组成，这里的音高表示一个音的音调高低。

在本发明的一个实施例中，所述根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息具体包括：按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；其中，每个音频切片对应一个或多个目标MIDI信息。

具体的，所述终端可以将用户选取的所述预设乐曲MIDI文件中包含的所有MIDI信息按照时间序列依次顺序地分配给上述分割处理得到的M个音频切片，使得一个MIDI信息对应一个音频切片，但一个音频切片可以对应一个或多个MIDI信息；这样即可为所述M个音频切片中每个音频切片分配到对应的目标MIDI信息。

在本发明的另一个实施例中，如果所述终端接收的所述人声音频中包含有旋律，那么所述终端可以直接对所述人声音频进行语言识别处理，以确定出于所述人声音频对应的旋律，然后根据确定的所述人声音频对应的旋律从预存的乐曲数据库中匹配出一个预设乐曲MIDI文件；同理，所述终端也可以分别对切割所得的M个音频切片进行语言识别，以根据所述M个音频切片中每个音频切片对应的旋律来从所述乐曲MIDI文件中匹配出旋律相似度超过预设阈值所对应的目标MIDI信息，以作为为所述M个音频切片中每个音频切片所匹配/分配的目标MIDI信息，其中所述MIDI信息包括有旋律。

需要说明的是，这里的旋律可以是有设定的音高、音长、以及音量，甚至还包括有音调等信息组成。

可选地，所述终端在确定到所述M个音频切片中每个音频切片对应的目标MIDI信息后，还可以根据所述M个音频切片中每个音频切片与确定的所述目的MIDI信息的对应关系，生成对应的映射关联关系；进一步地还可以用图表的形式进行显示，以便用户查看。

可选地，所述目的MIDI信息的个数可以是一个或多个，当所述目的MIDI信息的数量为两个或两个以上时，所述终端可以在相应的音频切片(如起始时间位置)中标记该音频切片对应匹配到的目的MIDI信息的个数，以更好地实现音频合成，节省合成时间。

S103、根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律。

本发明实施例中，所述终端可以根据确定所述目的MIDI信息中的旋律来对应对所述M个音频切片进行对应的音频调整出来，使得处理后的M个音频切片具有和对应的所述目的MIDI信息相同的旋律。

其中可选地，所述根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片具体包括：

示例性地如，所述终端可以按照确定的所述目的MIDI信息中包含的音量、音长、音高等信息来对应拉升或压缩所述M个音频切片中每个音频切片的音量、音长、音高等信息，使得调整后的M个音频切片具有和所述目的MIDI信息相同的音量、音长、音高等信息。

需要说明的是，在一些预设乐曲MIDI文件中也会存在无音高Pitch的段落，如一些说唱RAP歌曲，其乐曲MIDI文件对应的演唱部分没有音高，针对这种情况而言，所述终端可以不对音频切片的音高进行调整，保留原有音频切片对应的音高，使其呈现出有节奏感说RAP的效果。

S104、按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。

本发明实施例中，所述终端可以按照预设乐曲MIDI文件中的时间序列，将上述处理后的M个音频切片进行无缝拼接和合成处理，最终拼接合成出一首完整的歌声音频。

可选地，所述终端还可以对所述拼接合成的歌声音频进行平滑处理，以得到平滑无噪声的歌声音频。

其中可选地，所述方法还包括：

获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；

具体的，所述终端还可以通过网络或从本地中获取与所述预设乐曲MIDI文件对应的伴奏音频；或者，所述终端可以根据所述预设乐曲MIDI文件驱动模拟乐器生成对应的伴奏音频。进而，所述终端可以将所述伴奏音频和所述歌声音频进行音频合成处理，最终合成出一首混合歌曲音频，以作为用户想要发布的最终歌曲音频，进而所述终端可以保存或上传所述混合歌曲音频。

可选地，所述终端在检测到针对所述混合歌声音频的播放指令时，自动播放所述混合歌声音频。此外，所述终端还可以接收用户自定义为所述混合歌声音频选取的节奏音效或和声，进而按照用户选择的节奏音效或和声来对应调整所述混合歌声音频。例如，用户可以在所述混合歌声音频中增加、删除或修改一些如贝斯、钢琴等音效操作，所述终端检测到用户的上述音效操作时，对应在所述混合歌声音频中添加、删除或修改对应的音效。又如，用户还可以再所述混合歌声音频的开始或结尾处增加一段时间长度的音频自我介绍等等描述性音频。

为帮助人们对上述实施例的进一步理解，下面通过一个例子进行详细阐述。例如，一终端接收到用户输入的人声音频内容或语音识别结果内容为“曾经有一份真挚的感情”，通过对上述文本歌词进行分析，找到对应的分割位置，将其分割为10个音频切片分别为：P1，P2，P3……P10，这里也即是将每个字都分割开所得。结合如上表1给出的note文件结构示意图，从表1的note文件中寻找到“甜蜜…蜜你笑的甜蜜蜜”这10个MIDI信息，则将音频切片P1～P10依次顺序匹配到一条目的MIDI信息。具体可参见如下表2所示给出一种音频切片与MIDI信息的匹配映射关系表。

所述终端可以按照匹配的所述目的MIDI信息中的持续时长和音高Pitch，来对应拉升或压缩所述音频切片的持续时长和Pitch音高，使得处理后的音频切片与所述目的MIDI信息具有相同的持续时长和音高。最后，所述终端按照时间序列，这里可以按照起始时间来对应拼接处理后的10个音频切片，使其拼接合成出新的歌声音频。也即是用表1给出的《甜蜜蜜》的音乐旋律来演唱“曾经有一份真挚的感情”。

表2

需要说明的是，当为一个音频切片匹配到多条MIDI信息时，所述终端可以将一对多的地方进行标记，如在所述音频切片的起始时间位置处进行标记，以便所述终端知悉该音频切片对应匹配占用多少个MIDI信息。举例来说，例如表1给出的歌曲甜蜜蜜中的演唱第一个蜜字存在转音，此时对应占用了两条MIDI信息，那么可以在起始时间字段/位置标记这个信息。同理，对应在演唱“曾经有一份真挚的感情”时，应该演唱为“曾经～有”而不是“曾经有一”。此时上表2给出的音频切片与MIDI信息的匹配映射关系表，对应变更为如下表3所示，给出的部分音频切片与MIDI信息的匹配映射关系表。

表3

序列	对应文字	起始时间	持续时长(音长)	Pitch(音高)	音频切片
						1	甜	4769	936	78	→曾
2	蜜	5709	466	81	→经
						3	…	6179	466	83	→…
4	蜜	6649	701	78	→有

请参见图2，是本发明实施例的另一种音频合成方法的流程示意图，本发明实施例的所述方法可以应用在诸如智能手机、平板电脑、智能可穿戴设备等带通信网络功能的终端中，具体可由这些终端的处理器来实现。本发明实施例的所述方法还包括如下步骤。

S201、接收用户输入的人声音频。

S202、在存在所述人声音频对应的文本歌词的情况下，通过对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

S203、在没有所述人声音频对应的文本歌词的情况下，通过对所述人声音频进行语音识别，得到所述人声音频对应的文本歌词，并对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

需要说明的是，上述步骤S203是步骤S202的一种替换实现方式。

S204、按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；其中，每个音频切片对应一个或多个目标MIDI信息，所述至少一个MIDI信息按照时间序列组成所述预设乐曲MIDI文件，所述MIDI信息包括旋律

S205、根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律。

通过根据确定的所述目的MIDI信息中的旋律，来对应调整和处理所述M个音频切片中每个音频切片，以得到处理后的M个音频切片，使得所述处理后的M个音频切片与确定的所述目的MIDI信息具有以下相同内容中的至少一个：音高、音长、音量。

S206、按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。

S207、获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频。

S208、将所述伴奏音频和所述歌声音频进行音频合成处理，得到混合歌曲音频。

请参见图3，是本发明实施例的一种终端的结构示意图，本发明实施例的所述终端3包括：

接收单元30，用于接收用户输入的人声音频；

切割单元31，用于对所述人声音频进行切割处理，得到M个音频切片，M为大于0的正整数；

确定单元32，用于根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息，其中，每个音频切片对应一个或多个目标MIDI信息，所述至少一个MIDI信息按照时间序列组成所述预设乐曲MIDI文件，所述MIDI信息包括旋律；

处理单元33，用于根据确定的所述目标MIDI信息中的旋律，将所述M个音频切片中每个音频切片进行对应的音频处理，得到处理后的M个音频切片，所述处理后的M个音频切片具有与所述目标MIDI信息相同的旋律；

合成单元34，用于按照时间序列，将所述处理后的M个音频切片进行拼接和合成处理，以得到歌声音频。

本发明实施例中涉及的各个单元的具体实现可参考图1至图2对应实施例中相关功能单元或者实施步骤的描述，在此不赘述。

请参见图4，是本发明实施例的另一种终端的结构示意图，本发明实施例的所述终端3包括：上述的接收单元30、切割单元31、确定单元32，处理单元33、以及合成单元34，其中，

所述确定单元32，具体用于按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；

其中，每个音频切片对应一个或多个目标MIDI信息。

其中可选地，所述旋律包括音高、音长、音量中的至少一个，

所述处理单元33，具体用于根据确定的所述目的MIDI信息中的旋律，来对应调整和处理所述M个音频切片中每个音频切片，以得到处理后的M个音频切片；

其中可选地，

所述切割单元31，具体用于在存在所述人声音频对应的文本歌词的情况下，通过对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片；或者，

所述切割单元31，具体用于在没有所述人声音频对应的文本歌词的情况下，通过对所述人声音频进行语音识别，得到所述人声音频对应的文本歌词，并对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

其中可选地，所述终端还包括：

获取单元35，用于获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；

所述合成单元34，还用于将所述伴奏音频和所述歌声音频进行音频合成处理，得到混合歌曲音频。

本发明实施例中涉及的各个单元的具体实现可参考图1至图3对应实施例中相关功能单元或者实施步骤的描述，在此不赘述。

请参见图5，图5为本发明实施例公开的另一种终端的结构示意图。本实施例的终端3包括：至少一个处理器601、通信接口602、用户接口603和存储器604，处理器601、通信接口602、用户接口603和存储器604可通过总线或者其它方式连接，本发明实施例以通过总线605连接为例。其中，

处理器601可以是通用处理器，例如中央处理器(Central Processing Unit，CPU)。

通信接口602可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他终端或网站进行通信。本发明实施例中，通信接口602具体用于将合成的歌声音频输出或播放给终端的用户。

用户接口603具体可为触控面板，包括触摸屏和触控屏，用于检测触控面板上的操作指令，用户接口603也可以是物理按键或者鼠标。用户接口603还可以为显示屏，用于输出、显示图像或数据。

存储器604可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器604还可以包括上述种类的存储器的组合。存储器604用于存储一组程序代码，处理器601用于调用存储器604中存储的程序代码，执行如下操作：

进一步可选地，所述处理器601具体用于：按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；其中，每个音频切片对应一个或多个目标MIDI信息。

进一步可选地，所述处理器601具体用于：根据确定的所述目的MIDI信息中的旋律，来对应调整和处理所述M个音频切片中每个音频切片，以得到处理后的M个音频切片；其中，所述处理后的M个音频切片与确定的所述目的MIDI信息具有以下相同内容中的至少一个：音高、音长、音量。

进一步可选地，所述处理器601具体用于：在存在所述人声音频对应的文本歌词的情况下，通过对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片；或者，在没有所述人声音频对应的文本歌词的情况下，通过对所述人声音频进行语音识别，得到所述人声音频对应的文本歌词，并对所述文本歌词进行分割处理，得到与所述人声音频对应的至少一个音频切片。

进一步可选地，所述处理器601还用于：获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；将所述伴奏音频和所述歌声音频进行音频合成处理，得到混合歌曲音频。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的音频合成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明的各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频合成的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据预设乐曲MIDI文件中的至少一个MIDI信息，确定所述M个音频切片中每个音频切片对应的目标MIDI信息具体包括：

其中，每个音频切片对应一个或多个目标MIDI信息。

3.如权利要求1所述的方法，其特征在于，所述旋律包括音高、音长、音量中的至少一个。

4.如权利要求1所述的方法，其特征在于，所述对所述人声音频进行切割处理，得到M个音频切片具体包括：

5.如权利要求1-4中任意一项所述的方法，其特征在于，所述方法还包括：

获取所述预设乐曲MIDI文件或所述人声音频对应的伴奏音频；

6.一种终端，其特征在于，所述终端包括：

接收单元，用于接收用户输入的人声音频；

7.如权利要求6所述的终端，其特征在于，

所述确定单元，具体用于按照时间序列，将预设乐曲MIDI文件中的至少一个MIDI信息顺序匹配给所述M个音频切片中每个音频切片，并作为所述每个音频切片对应的目标MIDI信息；

其中，每个音频切片对应一个或多个目标MIDI信息。

8.如权利要求6所述的终端，其特征在于，所述旋律包括音高、音长、音量中的至少一个。

9.如权利要求6所述的终端，其特征在于，

10.如权利要求6-9中任意一项所述的终端，其特征在于，所述终端还包括：

11.一种终端，其特征在于，包括：处理器、存储器、通信接口和总线；所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；所述存储器存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行一种音频合成的方法；其中，所述方法为如权利要求1至5任一项所述的方法。