CN108538302B

CN108538302B - 合成音频的方法和装置

Info

Publication number: CN108538302B
Application number: CN201810219916.4A
Authority: CN
Inventors: 李正阳
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2020-10-09
Anticipated expiration: 2038-03-16
Also published as: CN108538302A

Abstract

本公开是关于一种合成音频的方法和装置，属于音频处理技术领域。所述方法包括：获取录制的目标歌曲的目标人声音频；在目标人声音频中，确定与目标歌曲的每个歌词单元相对应的音频段；基于目标歌曲的每个歌词单元对应的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；将调整后的目标人声音频与伴奏音频进行合成，得到目标歌曲的合成音频。采用本公开，以音频段为单位进行音频的调整，可以提高人声音频和伴奏音频的同步度。

Description

合成音频的方法和装置

技术领域

本公开是关于音频处理技术领域，尤其是关于一种合成音频的方法和装置。

背景技术

越来越多的用户选择使用手机中的K歌应用程序进行K歌。在K歌之后，该应用程序可以将伴奏音频和音频采集部件采集的人声音频进行合成，得到完整的歌曲音频。

在实现本公开的过程中，发明人发现至少存在以下问题：

由于用户无法准确把握何时开始演唱每句歌词，因此采集的人声音频可能与伴奏音频不同步。

发明内容

为了克服相关技术中存在的问题，本公开提供了以下技术方案：

根据本公开实施例的第一方面，提供一种合成音频的方法，所述方法包括：

获取录制的目标歌曲的目标人声音频；

在所述目标人声音频中，确定与所述目标歌曲的每个歌词单元相对应的音频段；

基于所述目标歌曲的每个歌词单元对应的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；

将调整后的目标人声音频与伴奏音频进行合成，得到所述目标歌曲的合成音频。

可选地，所述在所述目标人声音频中，确定与所述目标歌曲的每个歌词单元相对应的音频段，包括：

根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，其中，所述基准人声音频中的每个音频段分别对应所述目标歌曲的一个歌词单元；

所述基于所述目标歌曲的每个歌词单元对应的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频，包括：

基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频。

可选地，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，所述根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，包括：

根据所述目标歌曲的基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列、以及所述目标人声音频的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，在所述目标人声音频中，确定与所述基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列满足预设相似条件的音频段。

可选地，所述基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频，包括：

基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，基于所述基准人声音频中每个音频段的时长，对所述目标人声音频中每个音频段的时长进行调整，得到调整后的目标人声音频。

可选地，所述基于所述基准人声音频中每个音频段的时长，对所述目标人声音频中每个音频段的时长进行调整，包括：

比较所述基准人声音频中每个音频段的时长和对应的所述目标人声音频中每个音频段的时长；

如果所述目标人声音频中任一音频段的时长比对应的所述基准人声音频中音频段的时长短，则确定相差的第一时长差；基于所述第一时长差和预设的插入音频段的时长L₁，确定插入音频段的数目N₁；在所述任一音频段中，插入N₁个时长为L₁的插入音频段；

如果所述目标人声音频中任一音频段的时长比对应的所述基准人声音频中音频段的时长长，则确定相差的第二时长差；基于所述第二时长差和预设的删除音频段的时长L₂，确定删除音频段的数目N₂；在所述任一音频段中，确定N₂个删除位置，将所述删除位置处时长为L₂的音频进行删除。

可选地，所述在所述任一音频段中，插入N₁个时长为L₁的插入音频段，包括：

在所述任一音频段中，确定N₁个插入位置，对每个插入位置之前或之后的时长为L₁的音频进行复制，得到对应的插入音频段，插入到对应的插入位置中。

可选地，所述N₂个删除位置在所述任一音频段中均匀分布。

对所述目标人声音频进行语音识别，得到文本信息，基于所述文本信息和所述目标歌曲的歌词，在所述目标人声音频中，确定所述目标歌曲的每个歌词单元相对应的音频段。

可选地，所述基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，包括：

比较所述基准人声音频中每个音频段的起始时间点和对应的所述目标人声音频中每个音频段的起始时间点；

如果所述目标人声音频中任一音频段的起始时间点比对应的所述基准人声音频中音频段的起始时间点超前，则确定超前的第一时间差；将超前的所述目标人声音频中的音频段延后所述第一时间差；

如果所述目标人声音频中任一音频段的起始时间点比对应的所述基准人声音频中音频段的起始时间点落后，则确定落后的第二时间差；将落后的所述目标人声音频中的音频段提前所述第二时间差。

可选地，所述目标歌曲的每个歌词单元分别对应所述目标歌曲的歌词中的一句；或者，

所述目标歌曲的每个歌词单元分别对应所述目标歌曲的歌词中的一个词语；或者，

所述目标歌曲的每个歌词单元分别对应所述目标歌曲的歌词中的一个字。

根据本公开实施例的第二方面，提供一种合成音频的装置，所述装置包括：

获取模块，用于获取录制的目标歌曲的目标人声音频；

确定模块，用于在所述目标人声音频中，确定与所述目标歌曲的每个歌词单元相对应的音频段；

调整模块，用于基于所述目标歌曲的每个歌词单元对应的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；

合成模块，用于将调整后的目标人声音频与伴奏音频进行合成，得到所述目标歌曲的合成音频。

可选地，所述确定模块，用于根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，其中，所述基准人声音频中的每个音频段分别对应所述目标歌曲的一个歌词单元；

所述调整模块，用于基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频。

可选地，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，所述确定模块用于：

可选地，所述调整模块用于：

可选地，所述调整模块包括：

第一比较单元，用于比较所述基准人声音频中每个音频段的时长和对应的所述目标人声音频中每个音频段的时长；

插入单元，用于当所述目标人声音频中任一音频段的时长比对应的所述基准人声音频中音频段的时长短时，确定相差的第一时长差；基于所述第一时长差和预设的插入音频段的时长L₁，确定插入音频段的数目N₁；在所述任一音频段中，插入N₁个时长为L₁的插入音频段；

删除单元，用于当所述目标人声音频中任一音频段的时长比对应的所述基准人声音频中音频段的时长长时，确定相差的第二时长差；基于所述第二时长差和预设的删除音频段的时长L₂，确定删除音频段的数目N₂；在所述任一音频段中，确定N₂个删除位置，将所述删除位置处时长为L₂的音频进行删除。

可选地，所述插入单元用于：

可选地，所述N₂个删除位置在所述任一音频段中均匀分布。

可选地，所述确定模块用于：

可选地，所述调整模块包括：

第二比较单元，用于比较所述基准人声音频中每个音频段的起始时间点和对应的所述目标人声音频中每个音频段的起始时间点；

延后单元，用于当所述目标人声音频中任一音频段的起始时间点比对应的所述基准人声音频中音频段的起始时间点超前时，确定超前的第一时间差；将超前的所述目标人声音频中的音频段延后所述第一时间差；

提前单元，用于当所述目标人声音频中任一音频段的起始时间点比对应的所述基准人声音频中音频段的起始时间点落后时，确定落后的第二时间差；将落后的所述目标人声音频中的音频段提前所述第二时间差。

根据本公开实施例的第三方面，提供一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述合成音频的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述合成音频的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开提供的实施例，获取录制的目标歌曲的目标人声音频；根据目标歌曲的基准人声音频中每个音频段的波形特征信息、以及目标人声音频的波形特征信息，在目标人声音频中，确定与基准人声音频中每个音频段相对应的音频段；基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；将调整后的目标人声音频与伴奏音频进行合成，得到目标歌曲的合成音频。这样，可以自动识别目标人声音频的音频段，然后以音频段为单位进行音频的调整。从而，可以提高人声音频和伴奏音频的同步度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。在附图中：

图1是根据一示例性实施例示出的一种合成音频的方法的流程示意图；

图2是根据一示例性实施例示出的对音频段处理的示意图；

图3是根据一示例性实施例示出的对音频段处理的示意图；

图4是根据一示例性实施例示出的对音频段处理的示意图；

图5是根据一示例性实施例示出的对音频段处理的示意图；

图6是根据一示例性实施例示出的一种合成音频的装置的结构示意图；

图7是根据一示例性实施例示出的一种终端的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了一种合成音频的方法，该方法可以由终端实现。其中，终端可以是手机、平板电脑、台式计算机、笔记本计算机等。

终端可以包括处理器、存储器等部件。处理器，可以为CPU(Central ProcessingUnit，中央处理单元)等，可以用于基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频，等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如目标歌曲的基准人声音频中每个音频段的波形特征信息等。

终端还可以包括收发器、输入部件、显示部件、音频输出部件等。收发器，可以用于与服务器进行数据传输，例如，可以接收服务器发送的目标歌曲的基准人声音频中每个音频段的波形特征信息，收发器可以包括蓝牙部件、WiFi(Wireless-Fidelity，无线高保真技术)部件、天线、匹配电路、调制解调器等。输入部件可以是触摸屏、键盘、鼠标等。音频输出部件可以是音箱、耳机等。

终端中可以安装有系统程序和应用程序。用户在使用终端的过程中，基于自己的不同需求，会使用各种各样的应用程序。终端中可以安装有具备K歌功能的应用程序。

本公开一示例性实施例提供了一种合成音频的方法，如图1所示，该方法的处理流程可以包括如下的步骤：

步骤S110，获取录制的目标歌曲的目标人声音频。

在实施中，用户可以使用具备K歌功能的应用程序进行K歌。在K歌的过程中，具备K歌功能的应用程序可以播放目标歌曲的伴奏音频，用户可以跟随伴奏音频进行演唱。终端的音频采集部件如麦克风可以采集目标人声音频。

步骤S120，在目标人声音频中，确定与目标歌曲的每个歌词单元相对应的音频段。

在本公开实施例中，提供两种确定与目标歌曲的每个歌词单元相对应的音频段的方式，当然，还可以有其他确定的方式，在此不一一举例。

可选地，步骤S120可以包括：根据目标歌曲的基准人声音频中每个音频段的波形特征信息、以及目标人声音频的波形特征信息，在目标人声音频中，确定与基准人声音频中每个音频段相对应的音频段，其中，基准人声音频中的每个音频段分别对应目标歌曲的一个歌词单元。

在实施中，目标歌曲的基准人声音频可以是演唱家而非普通用户演唱录制的。目标歌曲的基准人声音频中的音频段可以是通过人工方式进行划分的，或者通过语音技术识别确定的。在此不限定获取目标歌曲的基准人声音频中的音频段的方式。

可选地，目标歌曲的每个歌词单元分别对应目标歌曲的歌词中的一句；或者，目标歌曲的每个歌词单元分别对应目标歌曲的歌词中的一个词语；或者，目标歌曲的每个歌词单元分别对应目标歌曲的歌词中的一个字。

可选地，波形特征信息可以包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列；或者，波形特征信息包括振幅包络线上的每个波峰与时间最邻近的波谷之间的时间差组成的时间差序列。

在实施中，人声音频是持续振动的波，可以描绘波峰和波谷的变化趋势，得到振幅包络线。振幅包络线也是波动的线，并且存在波峰和波谷。如图2所示，该振幅包络线上存在两个波峰。在目标歌曲的基准人声音频中每个音频段中，将振幅包络线上的波峰和波谷都确定出来，并记录振幅包络线上的波峰和波谷出现的时间点。基于振幅包络线上的波峰和波谷出现的时间点，确定每两个相邻的波峰或者波谷出现的时间点的时间差，并组成振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列。

可以将目标歌曲的基准人声音频中每个音频段的波形特征信息预先存储于服务器或者终端本地。如果将目标歌曲的基准人声音频中每个音频段的波形特征信息存储在服务器，则当检测到终端发送的K歌消息时，将服务器存储的目标歌曲的基准人声音频中每个音频段的波形特征信息发送至终端。

可以在用户演唱完整首目标歌曲之后，提取目标人声音频的波形特征信息。也可以在用户演唱目标歌曲的过程中，边采集目标人声音频边提取采集到的目标人声音频的波形特征信息。

在目标人声音频中，确定与基准人声音频中每个音频段相对应的音频段。即确定目标人声音频的音频段与哪一基准人声音频的音频段对应，以确定如何对目标人声音频的音频段进行调整。

可选地，根据目标歌曲的基准人声音频中每个音频段的波形特征信息、以及目标人声音频的波形特征信息，在目标人声音频中，确定与基准人声音频中每个音频段相对应的音频段的步骤可以包括：根据目标歌曲的基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列、以及目标人声音频的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，在目标人声音频中，确定与基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列满足预设相似条件的音频段。

在实施中，目标歌曲的基准人声音频中每个音频段都存在振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列。然后，可以提取录制的目标人声音频中的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列。录制的目标人声音频中的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列要比目标歌曲的基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列长，这样才能根据目标歌曲的基准人声音频中每个音频段的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列去寻找录制的目标人声音频中满足预设相似条件的振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列的位置处D。接着，可以获取预先存储的目标歌曲的基准人声音频中每个音频段的时长，基于目标歌曲的基准人声音频中每个音频段的时长、位置处D，确定与目标歌曲的基准人声音频中每个音频段对应的目标人声音频中的音频段。

其中，当目标音频对应的相邻波峰时间差序列和基准人声音频对应的相邻波峰时间差序列，对应位置上的时间差的差值小于预设的差值阈值，且目标音频对应的相邻波谷时间差序列和基准人声音频对应的相邻波谷时间差序列，对应位置上的时间差的差值也小于预设的差值阈值时，就可以认为满足预设相似条件。

可选地，除了上述方式之外，确定与目标歌曲的每个歌词单元相对应的音频段的方式还可以包括：对目标人声音频进行语音识别，得到文本信息，基于文本信息和目标歌曲的歌词，在目标人声音频中，确定目标歌曲的每个歌词单元相对应的音频段。

在实施中，可以对目标人声音频进行语音识别，得到文本信息。目标歌曲的歌词也存在文本信息，可以将两个文本信息进行比较。目标歌曲的歌词已经有预设的歌词单元的时间段的划分记录，可以根据比较结果，在目标人声音频中，确定目标歌曲的每个歌词单元相对应的音频段。

步骤S130，基于目标歌曲的每个歌词单元对应的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频。

可选地，步骤S130可以包括：基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频。

在实施中，基于目标歌曲的基准人声音频中每个音频段的时长确定了与目标歌曲的基准人声音频中每个音频段对应的目标人声音频中的音频段之后，就可以以音频段为单位进行音频的调整，避免了将目标人声音频作为一个整体进行调整。

可选地，基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频的步骤可以包括：基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整，基于基准人声音频中每个音频段的时长，对目标人声音频中每个音频段的时长进行调整，得到调整后的目标人声音频。

在实施中，可以提供四个小方案针对目标人声音频中的音频段可能出现的问题，进行不同的调整：

(1)目标人声音频中任一音频段的起始时间点比对应的基准人声音频中音频段的起始时间点超前；

(2)目标人声音频中任一音频段的起始时间点比对应的基准人声音频中音频段的起始时间点落后；

(3)目标人声音频中任一音频段的时长比对应的基准人声音频中音频段的时长短；

(4)目标人声音频中任一音频段的时长比对应的基准人声音频中音频段的时长长。

下面针对上述四种情况一一进行分析。

对于(1)和(2)：基于基准人声音频中每个音频段的起始时间点，对目标人声音频中每个音频段的起始时间点进行调整的步骤可以包括：比较基准人声音频中每个音频段的起始时间点和对应的目标人声音频中每个音频段的起始时间点；如果目标人声音频中任一音频段的起始时间点比对应的基准人声音频中音频段的起始时间点超前，则确定超前的第一时间差；将超前的目标人声音频中的音频段延后第一时间差；如果目标人声音频中任一音频段的起始时间点比对应的基准人声音频中音频段的起始时间点落后，则确定落后的第二时间差；将落后的目标人声音频中的音频段提前第二时间差。

在实施中，如图3所示，上图为录制的目标人声音频的音频段，下图为对应的基准人声音频的音频段。从直观上看，目标人声音频的音频段与对应的基准人声音频的音频段的波形类似，振幅包络线类似。不同的是，录制的目标人声音频的音频段比对应的基准人声音频的音频段的起始时间点超前了，因此，可以确定超前的第一时间差，将超前的目标人声音频中的音频段延后第一时间差。目标人声音频中任一音频段的起始时间点比对应的基准人声音频中音频段的起始时间点落后的情况类似，在此不再赘述。

对于(3)和(4)：基于基准人声音频中每个音频段的时长，对目标人声音频中每个音频段的时长进行调整的步骤可以包括：比较基准人声音频中每个音频段的时长和对应的目标人声音频中每个音频段的时长；如果目标人声音频中任一音频段的时长比对应的基准人声音频中音频段的时长短，则确定相差的第一时长差；基于第一时长差和预设的插入音频段的时长L₁，确定插入音频段的数目N₁；在任一音频段中，插入N₁个时长为L₁的插入音频段；如果目标人声音频中任一音频段的时长比对应的基准人声音频中音频段的时长长，则确定相差的第二时长差；基于第二时长差和预设的删除音频段的时长L₂，确定删除音频段的数目N₂；在任一音频段中，确定N₂个删除位置，将删除位置处时长为L₂的音频进行删除。

可选地，在任一音频段中，插入N₁个时长为L₁的插入音频段的步骤可以包括：在任一音频段中，确定N₁个插入位置，对每个插入位置之前或之后的时长为L₁的音频进行复制，得到对应的插入音频段，插入到对应的插入位置中。

在实施中，如图4所示，上图为录制的目标人声音频的音频段，下图为对应的基准人声音频的音频段。从直观上看，目标人声音频的音频段与对应的基准人声音频的音频段的波形类似。不同的是，录制的目标人声音频的音频段比对应的基准人声音频的音频段的时长短，即应该唱时长为L_x的音，用户提前结束了，只唱了时长为L_y，或者用户将节奏加快了，提前结束了。此时，可以确定相差的第一时长差(L_x-L_y)，基于第一时长差(L_x-L_y)和预设的插入音频段的时长L₁，确定插入音频段的数目N₁。在录制的目标人声音频的音频段中，确定N₁个插入位置，对每个插入位置之前或之后的时长为L₁的音频进行复制，得到对应的插入音频段，插入到对应的插入位置中。

如图5所示，将图4的横坐标(时间维度)进行拉伸，即将图4的波形进行放大，可以得到图5所示的波形。假如预设的插入音频段的时长L₁为实线方框圈出来的长度，则可以将实线方框圈出来的波形进行复制，然后插入到紧挨着实线方框前或者后的位置上。重复上述操作N₁次，即可将时长为L_y的目标人声音频的音频段延长为时长为L_x的目标人声音频的音频段，以与时长为L_x的基准人声音频的音频段等长。

可选地，N₂个删除位置在任一音频段中均匀分布。这样，均匀地在任一音频端中进行删除音频段的操作，不会出现连续删除较长的音频段的情况，以使得删除后的音频段在播放时，听起来较为平滑顺畅。目标人声音频中任一音频段的时长比对应的基准人声音频中音频段的时长长的情况类似，在此不再赘述。

步骤S140，将调整后的目标人声音频与伴奏音频进行合成，得到目标歌曲的合成音频。

在实施中，可以将调整后的目标人声音频合成为一整个目标人声音频，然后将合成的目标人声音频与伴奏音频进行合成，得到最终的合成音频。

本公开又一示例性实施例提供了一种合成音频的装置，如图6所示，该装置包括：

获取模块610，用于获取录制的目标歌曲的目标人声音频；

确定模块620，用于在所述目标人声音频中，确定与所述目标歌曲的每个歌词单元相对应的音频段；

调整模块630，用于基于所述目标歌曲的每个歌词单元对应的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；

合成模块640，用于将调整后的目标人声音频与伴奏音频进行合成，得到所述目标歌曲的合成音频。

可选地，所述确定模块620，用于根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，其中，所述基准人声音频中的每个音频段分别对应所述目标歌曲的一个歌词单元；

可选地，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，所述确定模块620用于：

可选地，所述调整模块630用于：

可选地，所述调整模块630包括：

可选地，所述插入单元用于：

可选地，所述N₂个删除位置在所述任一音频段中均匀分布。

可选地，所述确定模块620用于：

可选地，所述调整模块360包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

采用本公开，可以自动识别目标人声音频的音频段，然后以音频段为单位进行音频的调整。从而，可以提高人声音频和伴奏音频的同步度。

需要说明的是：上述实施例提供的合成音频的装置在合成音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的合成音频的装置与合成音频的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本发明一个示例性实施例提供的终端1800的结构示意图。该终端1800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的合成音频的方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807、定位组件1808和电源1809中的至少一种。

外围设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时，由处理器1801根据用户对触摸显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制触摸显示屏1805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1805的显示亮度；当环境光强度较低时，调低触摸显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种合成音频的方法，其特征在于，所述方法包括：

获取录制的目标歌曲的目标人声音频；

根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，其中，所述基准人声音频中的每个音频段分别对应所述目标歌曲的一个歌词单元，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列；

基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述基准人声音频中每个音频段的时长，对所述目标人声音频中每个音频段的时长进行调整，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述任一音频段中，插入N₁个时长为L₁的插入音频段，包括：

6.根据权利要求4所述的方法，其特征在于，所述N₂个删除位置在所述任一音频段中均匀分布。

7.根据权利要求1所述的方法，其特征在于，所述在所述目标人声音频中，确定与所述目标歌曲的每个歌词单元相对应的音频段，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，包括：

9.根据权利要求1所述的方法，其特征在于，所述目标歌曲的每个歌词单元分别对应所述目标歌曲的歌词中的一句；或者，

10.一种合成音频的装置，其特征在于，所述装置包括：

获取模块，用于获取录制的目标歌曲的目标人声音频；

确定模块，用于根据所述目标歌曲的基准人声音频中每个音频段的波形特征信息、以及所述目标人声音频的波形特征信息，在所述目标人声音频中，确定与所述基准人声音频中每个音频段相对应的音频段，其中，所述基准人声音频中的每个音频段分别对应所述目标歌曲的一个歌词单元，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列；

调整模块，用于基于所述基准人声音频中每个音频段的起始时间点，对所述目标人声音频中每个音频段的起始时间点进行调整，得到调整后的目标人声音频；

11.根据权利要求10所述的装置，其特征在于，所述波形特征信息包括振幅包络线上的相邻波峰时间差序列和相邻波谷时间差序列，所述确定模块用于：

12.根据权利要求10所述的装置，其特征在于，所述调整模块用于：

13.根据权利要求12所述的装置，其特征在于，所述调整模块包括：

14.根据权利要求13所述的装置，其特征在于，所述插入单元用于：

15.根据权利要求13所述的装置，其特征在于，所述N₂个删除位置在所述任一音频段中均匀分布。

16.根据权利要求10所述的装置，其特征在于，所述确定模块用于：

17.根据权利要求10所述的装置，其特征在于，所述调整模块包括：

18.根据权利要求10所述的装置，其特征在于，所述目标歌曲的每个歌词单元分别对应所述目标歌曲的歌词中的一句；或者，

19.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-9任一所述的合成音频的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-9任一所述的合成音频的方法。