CN114512113B

CN114512113B - 一种音频合成方法及相关方法和设备

Info

Publication number: CN114512113B
Application number: CN202210371934.0A
Authority: CN
Inventors: 耿乐; 马桂林; 夏立勋; 赵力
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-04-04
Anticipated expiration: 2042-04-11
Also published as: CN114512113A

Abstract

本发明提供了一种音频合成方法及相关方法和设备，音频合成方法包括：获取目标文本，并合成目标文本对应的音频；确定目标文本在情感空间中的位置；根据目标文本在情感空间中的位置以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离；根据确定出的距离从背景音乐集中确定与目标文本匹配的背景音乐；将与目标文本匹配的背景音乐与目标文本对应的音频融合。经由本发明提供音频合成方法，可合成出目标文本对应的融合有背景音乐的音频，并且，由于本发明能够从背景音乐集中确定出情感与目标文本匹配的背景音乐，因此，最终能够得到融合有情感与目标文本的情感匹配的背景音乐的音频。

Description

一种音频合成方法及相关方法和设备

技术领域

本发明涉及音频合成技术领域，尤其涉及一种音频合成方法及相关方法和设备。

背景技术

文本作为最基础的信息载体，也是最常见的大众情感表达的方法。随着文本转语音技术（TTS）的发展，文本可以流畅且自然的转换为对应的音频，即，基于TTS技术，可合成出文本对应的音频，有声读物就是TTS技术的一项成功的使用场景。

可以理解的是，若能将文本转换为具有背景音乐的音频，即合成出文本对应的具有背景音乐的音频，将能大大提升用户体验。然而，基于TTS技术，只能合成出文本对应的无背景音乐的音频，可见，如何合成出文本对应的具有背景音乐的音频是目前亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种音频合成方法及相关方法和设备，用以合成出文本对应的具有背景音乐的音频，其技术方案如下：

一种音频合成方法，包括：

获取目标文本，并合成所述目标文本对应的音频；

确定所述目标文本在情感空间中的位置；

根据所述目标文本在所述情感空间中的位置，以及背景音乐集中的每首背景音乐在所述情感空间中的位置，确定所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离；

根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐；

将与所述目标文本匹配的背景音乐与所述目标文本对应的音频进行融合。

可选的，与所述目标文本匹配的背景音乐为多首；

所述将与所述目标文本匹配的背景音乐与所述目标文本对应的音频进行融合，包括：

将与所述目标文本匹配的多首背景音乐与所述目标文本对应的音频进行融合。

可选的，所述情感空间为由设定情感属性维度组成的空间；

所述目标文本在所述情感空间中的位置通过所述目标文本在所述设定情感属性维度对应的情感属性值表征；一背景音乐在所述情感空间中的位置通过该音乐在所述设定情感属性维度对应的情感属性值表征。

可选的，所述确定所述目标文本在情感空间中的位置，包括：基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值，其中，所述文本情感属性值预测模型采用标注有所述设定情感属性维度对应的情感属性值的训练文本训练得到；

确定一背景音乐在所述情感空间中的位置，包括：

基于预先构建的音乐情感属性值预测模型，预测该背景音乐在所述设定情感属性维度对应的情感属性值，其中，所述音乐情感属性值预测模型采用标注有所述设定情感属性维度对应的情感属性值的训练背景音乐训练得到。

可选的，所述文本情感属性值预测模型和所述音乐情感属性值预测模型均为回归模型；

所述文本情感属性值预测模型能够将输入的文本映射到连续的情感空间，所述音乐情感属性值预测模型能够将输入的背景音乐映射到连续的情感空间。

可选的，所述基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值，包括：

对所述目标文本提取文本特征；

将所述文本特征输入所述文本情感属性值预测模型，得到所述文本情感属性值预测模型输出的所述目标文本在所述设定情感属性维度对应的情感属性值；

所述基于预先构建的音乐情感属性值预测模型，预测该背景音乐在所述设定情感属性维度对应的情感属性值，包括：

对该背景音乐提取音频特征；

将所述音频特征输入所述音乐情感属性值预测模型，得到所述音乐情感属性值预测模型输出的该背景音乐在所述设定情感属性维度对应的情感属性值。

可选的，所述设定情感属性维度为多个，所述情感空间为由多个设定情感属性维度组成的多维空间；

所述目标文本在所述情感空间中的位置通过所述目标文本在所述多个设定情感属性维度分别对应的情感属性值表征；一背景音乐在所述情感空间中的位置通过该背景音乐在所述多个设定情感属性维度分别对应的情感属性值表征。

一种文本的匹配音乐确定方法，包括：

确定目标文本在情感空间中的位置；

根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐。

一种音频合成装置，包括：文本获取模块、音频合成模块、位置确定模块、距离确定模块、匹配背景音乐确定模块和背景音乐融合模块；

所述文本获取模块，用于获取目标文本；

所述音频合成模块，用于合成所述目标文本对应的音频；

所述位置确定模块，用于确定所述目标文本在情感空间中的位置；

所述距离确定模块，用于根据所述目标文本在所述情感空间中的位置，以及背景音乐集中的每首背景音乐在所述情感空间中的位置，确定所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离；

所述匹配背景音乐确定模块，用于根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐；

所述背景音乐融合模块，用于将与所述目标文本匹配的背景音乐与所述目标文本对应的音频进行融合。

一种音频合成设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的音频合成方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的音频合成方法的各个步骤。

本发明提供的音频合成方法，在获得目标文本后，首先合成目标文本对应的音频，然后根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，接着根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐，最后将与目标文本匹配的背景音乐与目标文本对应的音频进行融合。经由本发明提供音频合成方法，可合成出目标文本对应的融合有背景音乐的音频，并且，由于本发明能够从背景音乐集中确定出情感与目标文本匹配的背景音乐，因此，最终能够得到融合有情感与目标文本的情感匹配的背景音乐的音频。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的音频合成方法的流程示意图；

图2为本发明实施例提供的由两个设定情感属性维度组成的二维情感空间的一示例的示意图；

图3为本发明实施例提供的目标文本在情感空间中的位置以及背景音乐集中的若干背景音乐在情感空间中的位置的示意图；

图4为本发明实施例提供的文本情感属性值预测模型的训练和预测过程示意图；

图5为本发明实施例提供的音乐情感属性值预测模型的训练和预测过程示意图；

图6为本发明实施例提供的音频合成装置的结构示意图；

图7为本发明实施例提供的文本的匹配音乐确定装置的结构示意图；

图8为本发明实施例提供的音频合成设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了能够合成出文本对应的具有背景音乐的音频，进行了研究，在研究过程中想到，在获得目标文本后，可先基于TTS技术合成出目标文本对应的音频（无背景音乐），然后为目标文本对应的音频确定背景音乐，最后将确定的背景音乐与目标文本对应的音频进行融合，从而得到目标文本对应的融合有背景音乐的音频。

在研究过程中发现，上述思路的关键在于为目标文本对应的音频确定背景音乐，为了能够获得较好的用户体验，可确定情感与目标文本匹配的背景音乐。

为了能够确定出情感与目标文本匹配的背景音乐，进行了研究，起初的思路是：收集背景音乐，以得到背景音乐集，并人工确定背景音乐集中每首背景音乐的感情基调（比如开心、生气、兴奋、沮丧等）；人工阅读目标文本，以确定目标文本的感情基调；人工从背景音乐集中筛选感情基调与目标文本的感情基调一致的背景音乐作为候选背景音乐，以得到若干候选背景音乐；人工根据感情的强弱，从若干候选音乐中确定与目标文本匹配的背景音乐。

对上述确定情感与目标文本匹配的背景音乐的方案进行研究发现，上述方案虽然可确定出情感与目标文本匹配的背景音乐，但是存在诸多问题，比如：人工参与程度较高，即，与目标文本的感情匹配的背景音乐的确定主要依靠人工审阅完成，自动化程度低，而且，由于领域的不同，文本和音乐的感情基调需要不同的人员进行确定，这将导致资源利用率低；主观的人工审阅将导致确定的感情基调的一致性较差，比如，如果更换了审阅人员，当添加新的背景音乐时，新的审阅人员针对新添加的背景音乐确定的感情基调与之前的审阅人员针对原有背景音乐确定的感情基调有偏差，不利于背景音乐集的扩充；受到主观评价的局限，人工审阅只能针对文本和音乐确定出粗略的感情基调，无法确定出精细的感情基调，这将导致目标文本对应的候选音乐较多，从而增加“从若干候选音乐中确定与目标文本的感情匹配的背景音乐”的复杂度。

综上，上述方案自动化程度低，无法精准确定出音乐和文本的感情基调，进而无法精准确定出与目标文本匹配的背景音乐，且不利于背景音乐集的扩充。针对上述方案存在的问题，进行了研究，通过不断研究，最终提出了能够完美解决上述问题的方案，在此基础上提出了效果较好的音频合成方法。

本发明提供的音频合成方法可应用于具有数据处理能力的电子设备，该电子设备可以为用户侧使用的终端，比如智能手机、PC、笔记本电脑、平板电脑、掌上电脑等，电子设备也可以为服务器，服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心，服务器可以包括处理器、存储器以及网络接口等，上述的终端或服务器可按本发明提供的音频合成方法合成出文本对应的具有背景音乐的音频。本领域技术人员应能理解，上述终端和服务器仅为举例，其它现有的或今后可能出现的终端或服务器如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

接下来通过下述实施例对本发明提供的音频合成方法进行介绍。

请参阅图1，示出了本发明实施例提供的音频合成方法的流程示意图，该方法可以包括：

步骤 S101：获取目标文本，并合成目标文本对应的音频。

其中，目标文本可以为句子级别的文本（比如一个句子），也可以为段落级别的文本（比如一个段落），还可以为篇章级别的文本（比如一篇文章）。

本步骤中，目标文本对应的音频为目标文本对应的无背景音乐的音频，可选的，可采用TTS技术合成目标文本对应的音频。

步骤 S102：确定目标文本在情感空间中的位置。

在本实施例中，确定目标文本在情感空间中的位置，即，将目标文本映射为情感空间中的一个点，该点在情感空间中的位置即为目标文本在情感空间中的位置。

本实施例中的情感空间为由设定情感属性维度组成的空间，目标文本在情感空间中的位置通过目标文本在设定情感属性维度对应的情感属性值表征，目标文本在设定情感属性维度对应的情感属性值代表了目标文本的感情基调。

为了能够获得精细的感情基调，本实施例中的情感空间优选为连续的情感空间，确定目标文本在连续的情感空间中的位置即确定目标文本在设定情感属性维度对应的精准情感属性值。

需要说明的是，设定情感属性维度可以为一个，也可以为多个，设定情感属性维度的数量可根据具体的应用场景设定。若设定情感属性维度为一个，则情感空间为由这一个设定情感属性维度组成的一维空间，目标文本在情感空间中的位置通过目标文本在这一个设定情感属性维度对应的情感属性值表征，一背景音乐在情感空间中的位置通过该背景音乐在这一个设定情感属性维度对应的情感属性值表征；若设定情感属性维度为多个，则情感空间为由多个设定情感属性维度组成的多维空间，目标文本在情感空间中的位置通过目标文本在多个设定情感属性维度分别对应的情感属性值表征，一背景音乐在情感空间中的位置通过该背景音乐在多个设定情感属性维度分别对应的情感属性值表征。

请参阅图2，示出了由两个设定情感属性维度组成的二维情感空间的一示例的示意图，两个设定情感属性维度分别为“愉悦度”和“唤醒度”，即，图2示出的情感空间为由“愉悦度”这一情感属性维度和“唤醒度” 这一情感属性维度组成的二维空间，图2中的横轴表示“愉悦度”，纵轴表示“唤醒度” ，图2示出的情感空间被横轴和纵轴划分为四个象限，右上部分为第一象限（正愉悦度，高唤醒度），左上部分为第二象限（负愉悦度，高唤醒度），左下部分为第三象限（负愉悦度，低唤醒度），右下部分为第四象限（正愉悦度，低唤醒度）。

步骤 S103：根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离。

上述内容提到，目标文本在情感空间中的位置可通过目标文本在设定情感属性维度对应的情感属性值表征，类似的，背景音乐集中的每首背景音乐在情感空间中的位置可通过每首背景音乐在设定情感属性维度对应的情感属性值表征。

示例性的，情感空间为由“愉悦度”这一情感属性维度和“唤醒度” 这一情感属性维度组成的二维空间，则目标文本在情感空间中的位置可通过目标文本在“愉悦度”这一情感属性维度对应的情感属性值V_T和目标文本在“唤醒度” 这一情感属性维度对应的情感属性值A_T表征，即，目标文本在情感空间中的位置可表示为坐标（V_T，A_T），类似的，一背景音乐在情感空间中的位置可通过该背景音乐在“愉悦度”这一情感属性维度对应的情感属性值V_M和该背景音乐在“唤醒度” 这一情感属性维度对应的情感属性值A_M表征，即，该背景音乐在情感空间中的位置可表示为坐标（V_M，A_M），请参阅图3，示出了目标文本在情感空间中的位置（如图3中正方形的点）以及背景音乐集中的若干背景音乐在情感空间中的位置的示意图（如图3中圆形的点）。

考虑到背景音乐集中的背景音乐通常是固定的，可预先确定背景音乐集中的每首背景音乐在情感空间中的位置，在确定与目标文本匹配的背景音乐时，可直接利用预先确定出的这些位置信息，当然也可在确定与目标文本匹配的背景音乐时，再实时确定背景音乐集中的每首背景音乐在情感空间中的位置。

在获得目标文本在情感空间中的位置后，便可根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离。可选的，目标文本与一背景音乐在情感空间中的距离可以为欧式距离、余弦距离、车比雪夫距离等距离中的任一种。

步骤 S104：根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐。

可选的，将与目标文本在情感空间中的距离最近的N（N大于或等于1）首背景音乐，确定为与目标文本匹配的背景音乐。比如，N取1，则将与目标文本在情感空间中的距离第一近的背景音乐，确定为与目标文本匹配的背景音乐，N取2，则将与目标文本在情感空间中的距离第一近的背景音乐和第二近的背景音乐确定为与目标文本匹配的背景音乐。即，与目标文本匹配的背景音乐可以为一首，也可以为多首，与目标文本匹配的背景音乐的数量可根据具体应用场景设定。

示例性的，目标文本与背景音乐集中的每首背景音乐在情感空间中的距离为目标文本与背景音乐集中的每首背景音乐在情感空间中的欧式距离，N取1，则将背景音乐集中与目标文本在情感空间中的欧式距离第一小的背景音乐确定为与目标文本匹配的背景音乐。

步骤 S105：将与目标文本匹配的背景音乐与目标文本对应的音频进行融合。

可选的，在将与目标文本匹配的背景音乐与目标文本对应的音频融合时，可使与目标文本匹配的背景音乐与目标文本对应的音频对齐，并增加渐入渐出效果，从而增加听众的沉浸感，以提升用户体验。

本发明实施例提供的音频合成方法，在获得目标文本后，首先合成目标文本对应的音频，然后根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，接着根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐，最后将与目标文本匹配的背景音乐与目标文本对应的音频进行融合。经由本发明实施例提供的音频合成方法，可合成出目标文本对应的融合有背景音乐的音频，并且，由于本发明实施例能够从背景音乐集中确定出情感与目标文本匹配的背景音乐，因此，最终能够得到融合有情感与目标文本的情感匹配的背景音乐的音频。

在本发明的另一实施例中，对上述实施例中的“步骤 S102：确定目标文本在情感空间中的位置”以及确定一背景音乐在情感空间中的位置的具体实现过程进行介绍。

首先对“确定目标文本在情感空间中的位置”进行介绍。

在一种可能的实现方式中，“确定目标文本在情感空间中的位置”的过程可以包括：基于预先构建的文本情感属性值预测模型，预测目标文本在设定情感属性维度对应的情感属性值。

其中，文本情感属性值预测模型采用标注有设定情感属性维度对应的情感属性值的训练文本训练得到，需要说明的是，训练文本标注的情感属性值为训练文本在设定情感属性维度对应的真实情感属性值。

具体的，采用标注有设定情感属性维度对应的情感属性值的训练文本训练文本情感属性值预测模型的过程可以包括：如图4所示，首先对训练文本集中的训练文本提取文本特征，然后将提取的文本特征输入文本情感属性值预测模型，以得到文本情感属性值预测模型预测的训练文本在设定情感属性维度对应的情感属性值，接着根据文本情感属性值预测模型预测的训练文本在设定情感属性维度对应的情感属性值以及训练文本标注的情感属性值，确定文本情感属性值预测模型的预测损失，最后根据文本情感属性值预测模型的预测损失对文本情感属性值预测模型进行参数更新，采用训练文本集中不同的训练文本按上述训练方式对文本情感属性值预测模型进行多次训练，直至满足训练结束条件，训练结束后得到的模型即为构建的文本情感属性值预测模型。

在构建出文本情感属性值预测模型，便可基于构建的文本情感属性值预测模型，预测目标文本在设定情感属性维度对应的情感属性值，具体的，如图4所示，对目标文本提取文本特征，然后将对目标文本提取的文本特征输入构建的文本情感属性值预测模型，得到文本情感属性值预测模型输出的目标文本在设定情感属性维度对应的情感属性值。

为了能够针对文本预测出精准的情感属性值，本实施例中的文本情感属性值预测模型优选为回归模型，即文本情感属性值预测模型能够将输入的文本映射到连续的情感空间，从而输出目标文本在设定情感属性维度对应的精准情感属性值。

可选的，本实施例中的文本情感属性值预测模型可以但不限定为采用以下模型中的任一种：长短期记忆网络（LSTM）、双向长短期记忆网络（Bi-LSTM）、卷积神经网络（CNN）、BERT、Transformer、Conformer、多元线性回归模型（MLP）、支持向量机（SVM）、K近邻模型、随机森林模型（Random Forest）等。

接下来对确定一背景音乐在情感空间中的位置的具体实现过程进行介绍。

确定一背景音乐在情感空间中的位置的过程可以包括：基于预先构建的音乐情感属性值预测模型，预测该背景音乐在设定情感属性维度对应的情感属性值。

其中，音乐情感属性值预测模型采用标注有设定情感属性维度对应的情感属性值的训练背景音乐训练得到，需要说明的是，训练背景音乐标注的情感属性值为训练背景音乐在设定情感属性维度对应的真实情感属性值。

具体的，采用标注有设定情感属性维度对应的情感属性值的训练背景音乐训练音乐情感属性值预测模型的过程可以包括：如图5所示，首先对训练背景音乐集中的训练背景音乐提取音频特征，然后将提取的音频特征输入音乐情感属性值预测模型，以得到音乐情感属性值预测模型预测的训练背景音乐在设定情感属性维度对应的情感属性值，接着根据音乐情感属性值预测模型预测的训练背景音乐在设定情感属性维度对应的情感属性值以及训练背景音乐标注的情感属性值，确定音乐情感属性值预测模型的预测损失，最后根据音乐情感属性值预测模型的预测损失，对音乐情感属性值预测模型进行参数更新，采用训练背景音乐集中不同的训练背景音乐按上述训练方式对音乐情感属性值预测模型进行多次训练，直至满足训练结束条件，训练结束后得到的模型即为构建的音乐情感属性值预测模型。

其中，对训练背景音乐提取音频特征可以包括以下特征中的一种或多种的组合：梅尔频率倒谱系数（MFCC）、小波系数直方图（DWCHs）、光谱对比度（SC）、统计频谱描述特征（SSDs）、节拍、旋律、频率、音高、响度、自带能量等。

在构建出音乐情感属性值预测模型后，便可基于构建的音乐情感属性值预测模型，预测背景音乐在设定情感属性维度对应的情感属性值，具体的，对背景音乐提取音频特征（即梅尔频率倒谱系数、小波系数直方图、光谱对比度、统计频谱描述特征、节拍、旋律、频率、音高、响度、自带能量等中的一种或多种的组合），然后将对背景音乐提取的音频特征输入构建的音乐情感属性值预测模型，得到音乐情感属性值预测模型输出的背景音乐在设定情感属性维度对应的情感属性值。

为了能够针对背景音乐预测出精准的情感属性值，本实施例中的音乐情感属性值预测模型优选为回归模型，即音乐情感属性值预测模型能够将输入的背景音乐映射到连续的情感空间，从而输出背景音乐在设定情感属性维度对应的精准情感属性值。

可选的，本实施例中的音乐情感属性值预测模型可以但不限定为采用以下模型中的任一种：长短期记忆网络（LSTM）、双向长短期记忆网络（Bi-LSTM）、卷积神经网络（CNN）、BERT、Transformer、Conformer、多元线性回归模型（MLP）、支持向量机（SVM）、K近邻模型、随机森林模型（Random Forest）等。

本发明实施例可基于训练得到的文本情感属性值预测模型自动、准确地预测出文本的情感属性值，可基于训练得到的音乐情感属性值预测模型自动、准确地预测出背景音乐的情感属性值。

本发明实施例提供的音频合成方法具有如下优势：其一，能够确定出与目标文本的情感匹配的背景音乐，在此基础上，能够合成出目标文本对应的融合有情感与目标文本的情感匹配的背景音乐的音频；其二，能够自动确定出文本和背景音乐的情感，无需人工参与，由于不需要人工参与，因此，避免了人工参与所带来的所有问题；其三，采用回归模型能够将文本和背景音乐映射到连续的情感空间，从而能够获得更加精细的情感；其四，在情感空间基于近邻匹配的方法能够实现文本与背景音乐之间精细且准确的匹配，从而能够获取到与文本情感相似度最接近的背景音乐；其五，采用训练得到的文本情感属性值预测模型预测文本的情感属性值，采用训练得到的音乐情感属性值预测模型预测背景音乐的情感属性值，能够确保情感属性评估的一致性，同时便于背景音乐集的扩充。

本发明实施例还提供了一种文本的匹配音乐确定方法，该方法可以包括：

步骤a1、确定目标文本在情感空间中的位置。

步骤a2、根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离。

步骤a3、根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐。

步骤a1~步骤a3的具体实现过程可参见上述实施例中步骤S102~步骤S104的具体实现过程，本实施例在此不做赘述。

本发明实施例提供的文本的匹配音乐确定方法，首先确定目标文本在情感空间中的位置，然后根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，最后根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐。经由本发明实施例提供的文本的匹配音乐确定方法能够自动、快速、精准地从背景音乐集中确定出与目标文本匹配的背景音乐。

本发明实施例还提供了一种音频合成装置，下面对本发明实施例提供的音频合成装置进行描述，下文描述的音频合成装置与上文描述的音频合成方法可相互对应参照。

请参阅图6，示出了本发明实施例提供的音频合成装置的结构示意图，可以包括：文本获取模块601、音频合成模块602、第一位置确定模块603、距离确定模块604、匹配背景音乐确定模块605和背景音乐融合模块606。其中：

文本获取模块601，用于获取目标文本。

音频合成模块602，用于合成所述目标文本对应的音频。

第一位置确定模块603，用于确定所述目标文本在情感空间中的位置。

距离确定模块604，用于根据所述目标文本在所述情感空间中的位置，以及背景音乐集中的每首背景音乐在所述情感空间中的位置，确定所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离。

匹配背景音乐确定模块605，用于根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐。

背景音乐融合模块606，用于将与所述目标文本匹配的背景音乐与所述目标文本对应的音频进行融合。

可选的，与目标文本匹配的背景音乐为多首，则背景音乐融合模块606在将与所述目标文本匹配的背景音乐与所述目标文本对应的音频进行融合时，具体用于：

可选的，匹配背景音乐确定模块605在根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐时，具体用于：

将背景音乐集中与所述目标文本在所述情感空间中距离最近的背景音乐，确定为与所述目标文本匹配的背景音乐。

可选的，所述情感空间为由设定情感属性维度组成的空间；

可选的，第一位置确定模块603在确定目标文本在情感空间中的位置时，具体用于：

基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值，其中，所述文本情感属性值预测模型采用标注有所述设定情感属性维度对应的情感属性值的训练文本训练得到。

可选的，本发明实施例提供的音频合成装置还可以包括：第二位置确定模块607。

第二位置确定模块607，用于确定背景音乐集中的每首背景音乐在所述情感空间中的位置。

可选的，第二位置确定模块607在确定一背景音乐在所述情感空间中的位置时，具体用于：

可选的，所述文本情感预测模型和所述音乐情感属性值预测模型均为回归模型；所述文本情感属性值预测模型能够将输入的文本映射到连续的情感空间，所述音乐情感属性值预测模型能够将输入的背景音乐映射到连续的情感空间。

可选的，第一位置确定模块603在基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值时，具体用于：

对所述目标文本提取文本特征；将所述文本特征输入所述文本情感属性值预测模型，得到所述文本情感属性值预测模型输出的所述目标文本在所述设定情感属性维度对应的情感属性值。

可选的，第二位置确定模块607在基于预先构建的音乐情感属性值预测模型，预测该背景音乐在所述设定情感属性维度对应的情感属性值时，具体用于：

对该背景音乐提取音频特征；将所述音频特征输入所述音乐情感属性值预测模型，得到所述音乐情感属性值预测模型输出的该背景音乐在所述设定情感属性维度对应的情感属性值。

可选的，所述设定情感属性维度为多个，所述情感空间为由多个设定情感属性维度组成的多维空间；所述目标文本在所述情感空间中的位置通过所述目标文本在所述多个设定情感属性维度分别对应的情感属性值表征；一背景音乐在所述情感空间中的位置通过该背景音乐在所述多个设定情感属性维度分别对应的情感属性值表征。

本发明实施例提供的文本的音频合成装置，在获得目标文本后，首先合成目标文本对应的音频，然后根据目标文本在情感空间中的位置，以及背景音乐集中的每首背景音乐在情感空间中的位置，确定目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，接着根据目标文本与背景音乐集中的每首背景音乐在情感空间中的距离，从背景音乐集中确定与目标文本匹配的背景音乐，最后将与目标文本匹配的背景音乐与目标文本对应的音频进行融合。经由本发明实施例提供的音频合成装置，可合成出目标文本对应的融合有背景音乐的音频，并且，由于本发明实施例能够从背景音乐集中确定出情感与目标文本匹配的背景音乐，因此，最终能够得到融合有情感与目标文本的情感匹配的背景音乐的音频。

本发明实施例还提供了一种文本的匹配音乐确定装置，下面对本发明实施例提供的文本的匹配音乐确定装置进行描述，下文描述的文本的匹配音乐确定装置与上文描述文本的匹配音乐确定方法可相互对应参照。

请参阅图7，示出了本发明实施例提供的文本的匹配音乐确定装置的结构示意图，可以包括：第一位置确定模块701、距离确定模块702、匹配背景音乐确定模块703。

第一位置确定模块701，用于确定所述目标文本在情感空间中的位置。

距离确定模块702，用于根据所述目标文本在所述情感空间中的位置，以及背景音乐集中的每首背景音乐在所述情感空间中的位置，确定所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离。

匹配背景音乐确定模块703，用于根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐。

可选的，本发明实施例提供的文本的匹配音乐确定装置还可以包括：第二位置确定模块704。

第二位置确定模块704，用于确定背景音乐集中的每首背景音乐在所述情感空间中的位置。

关于第一位置确定模块701、距离确定模块702、匹配背景音乐确定模块703和第二位置确定模块704的更进一步的介绍可参见上述实施例中的相关部分，本实施例在此不做赘述。

本发明实施例提供的文本的匹配音乐确定装置，能够自动、快速、精准地从背景音乐集中确定出与目标文本匹配的背景音乐。

本发明实施例还提供了一种音频合成设备，请参阅图8，示出了该音频合成设备的结构示意图，该音频合成设备可以包括：至少一个处理器801，至少一个通信接口802，至少一个存储器803和至少一个通信总线804。

在本发明实施例中，处理器801、通信接口802、存储器803、通信总线804的数量为至少一个，且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信。

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等。

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory）等，例如至少一个磁盘存储器。

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标文本，并合成所述目标文本对应的音频；

确定所述目标文本在情感空间中的位置；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标文本，并合成所述目标文本对应的音频；

确定所述目标文本在情感空间中的位置；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供了一种文本的匹配音乐确定设备，该文本的匹配音乐确定设备可以包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线。

在本发明实施例中，处理器、通信接口、存储器、通信总线的数量为至少一个，且处理器、通信接口、存储器通过通信总线完成相互间的通信。

处理器可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器。

确定目标文本在情感空间中的位置；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

确定目标文本在情感空间中的位置；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频合成方法，其特征在于，包括：

获取目标文本，并合成所述目标文本对应的音频；

确定所述目标文本在情感空间中的位置；

根据所述目标文本在所述情感空间中的位置，以及背景音乐集中的每首背景音乐在所述情感空间中的位置，确定所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离；所述目标文本在情感空间中的位置与所述背景音乐在所述情感空间中的位置为坐标位置；所述距离为欧式距离、余弦距离、车比雪夫距离中的任一种；

2.根据权利要求1所述的音频合成方法，其特征在于，与所述目标文本匹配的背景音乐为多首；

3.根据权利要求1所述的音频合成方法，其特征在于，所述情感空间为由设定情感属性维度组成的空间；

4.根据权利要求3所述的音频合成方法，其特征在于，所述确定所述目标文本在情感空间中的位置，包括：

基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值，其中，所述文本情感属性值预测模型采用标注有所述设定情感属性维度对应的情感属性值的训练文本训练得到；

确定一背景音乐在所述情感空间中的位置，包括：

5.根据权利要求4所述的音频合成方法，其特征在于，所述文本情感属性值预测模型和所述音乐情感属性值预测模型均为回归模型；

6.根据权利要求4所述的音频合成方法，其特征在于，所述基于预先构建的文本情感属性值预测模型，预测所述目标文本在所述设定情感属性维度对应的情感属性值，包括：

对所述目标文本提取文本特征；

对该背景音乐提取音频特征；

7.根据权利要求3所述的音频合成方法，其特征在于，所述设定情感属性维度为多个，所述情感空间为由多个设定情感属性维度组成的多维空间；

8.一种文本的匹配音乐确定方法，其特征在于，包括：

确定目标文本在情感空间中的位置；

9.一种音频合成装置，其特征在于，包括：文本获取模块、音频合成模块、位置确定模块、距离确定模块、匹配背景音乐确定模块和背景音乐融合模块；

所述文本获取模块，用于获取目标文本；

所述音频合成模块，用于合成所述目标文本对应的音频；

所述匹配背景音乐确定模块，用于根据所述目标文本与所述背景音乐集中的每首背景音乐在所述情感空间中的距离，从所述背景音乐集中确定与所述目标文本匹配的背景音乐；所述目标文本在情感空间中的位置与所述背景音乐在所述情感空间中的位置为坐标位置；所述距离为欧式距离、余弦距离、车比雪夫距离中的任一种；

10.一种音频合成设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～7中任一项所述的音频合成方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～7中任一项所述的音频合成方法的各个步骤。