CN114387945A

CN114387945A - 语音生成方法、装置、电子设备及存储介质

Info

Publication number: CN114387945A
Application number: CN202210060611.XA
Authority: CN
Inventors: 涂必超
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-22

Abstract

本申请实施例公开了一种语音生成方法、装置、电子设备及存储介质。该方法包括：获取用户输入的文本数据、参考音频信号、第一参数和第二参数；利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；对文本数据进行特征提取，以得到文本特征向量；根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；利用声码器对语音频谱进行处理，以得到目标音频信号，该目标音频信号表示的文本数据为用户输入的文本数据。采用本申请实施例提供的语音生成方法，有利于降低语音合成的难度，并且不存在音频录制失误的风险。

Description

语音生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音生成方法、装置、电子设备及存储介质。

背景技术

目前个性化文本到语音(text to speech，TTS)合成依赖大量的训练数据，大概50句以上，对数据的质量要求也比较高，需要根据指定的文本录制语音，录制的语音与文本要完全一致，不能出错，导致有时录制反复修改，提高了语音合成的难度，并且存在录制失误的风险。

发明内容

本申请实施例提供了一种语音生成方法、装置、电子设备及存储介质，采用本申请实施例提供的语音生成方法，有利于降低语音合成的难度，并且不存在音频录制失误的风险。

第一方面，本申请实施例提供一种语音生成方法，包括：

获取用户输入的文本数据、参考音频信号、第一参数和第二参数，该第一参数用于表征用户需求的相似度，该第二参数用于表征用户需求的自然度；

利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；

根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；

对文本数据进行特征提取，以得到文本特征向量；

根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；

利用声码器对语音频谱进行处理，以得到目标音频信号，该目标音频信号表示的文本数据为用户输入的文本数据。

第二方面，本申请实施例提供一种语音生成装置，包括：获取单元、特征提取单元、确定单元和处理单元；

获取单元，获取用户输入的文本数据、参考音频信号、第一参数和第二参数，该第一参数用于表征用户需求的相似度，该第二参数用于表征用户需求的自然度；

特征提取单元，用于利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；

确定单元，用于根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；

特征提取单元，还用于对文本数据进行特征提取，以得到文本特征向量；

确定单元，还用于根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；

处理单元，用于利用声码器对语音频谱进行处理，以得到目标音频信号，该目标音频信号表示的文本数据为用户输入的文本数据。

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

获取用户对最后得到目标音频信号的相似度需求和自然度需求后，利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；根据用户对最后得到目标音频信号的相似度需求和自然度需求对参考音频信号的声纹特征向量进行处理，以得到目标声纹特征向量；根据输入的文本数据的文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；利用声码器对语音频谱进行处理，以得到目标音频信号。可以看出，采用本申请的方案可以基于用户的相似度需求和自然度需求生成用于风格相似的语音，满足用户的个性化需求，并且在自然度和相似度上能够很好的折中；并且采用本申请的方案，不需要针对每个用户单独训练一个模型，可以基于本申请的一个模型(该模型包括声纹特征模型、用于文本特征向量和声纹特征向量合成的语音合成模型及声码器)，针对不同用户的需求，就可以生成个性化的音频信号，降低了部署模型的成本；并且由于部署模型的难度低，可以实现实时语音处理；可以直接应用于AI跟拍或其他场景，能够大幅降低用户录音、制作视频的时间成本。总而言之，采用本申请的方案有利于降低语音合成的难度，并且由于不需要反复录制音频，因此也不存在音频录制失误的风险。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音生成系统的示意图；

图2为本申请实施例提供的一种语音生成方法的流程示意图；

图3为本申请实施例提供的另一种语音生成方法的流程示意图；

图4为本申请实施例提供的一种语音生成装置的功能单元组成框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例可以基于人工智能技术对相关的数据进行获取、特征提取和处理等。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请的方法可以应用于终端设备，比如智能手机、平板电脑，手环等，也可以应用于如图1所示的语音生成系统。如图1所示，该语音生成系统包括终端设备102和语音生成服务器101；

终端设备102向语音生成服务器101发送语音生成请求，该语音生成请求携带有用户输入的文本数据、第一参数和第二参数；可选的，语音生成请求还携带有参考语音信号；在一个示例中，语音生成服务器101预先存储有参考语音信号；语音生成服务器101接收到语音生成请求后，根据第一参数、第二参数及参考音频信号的声纹特征向量得到目标声纹特征向量；可选地，语音生成服务器101还利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；语音生成服务器101对文本数据进行特征提取，以得到文本特征向量；根据文本特征向量和参考音频信号的声纹特征向量得到文本数据对应的语音频谱；利用声码器对该语音频谱进行处理，以得到目标音频信号，该目标音频信号标识的文本数据为用户输入的文本数据。语音生成服务器101向终端设备102发送用于响应语音生成请求的响应消息，该响应消息携带有上述目标音频信号。

可以看出，采用本申请的方案不需要针对每个用户单独训练一个模型，本申请使用一个能够应用于多人的模型，就可以针对不同用户的需求得到不同个性化的音频信号，降低了部署模型的成本；并且由于部署模型的难度低，可以实现实时语音处理；通过本申请的方法，可以使用一句话来实现用户的个性化风格声音转化，可以生成与用户风格相似的语音，可以满足用户的个性化需求，并且在自然度和相似度上能够很好的折中，可以直接应用于AI跟拍或其他场景，能够大幅降低用户录音、制作视频的时间成本。

参阅图2，图2为本申请实施例提供的一种语音生成方法的流程示意图。该方法应用于语音生成装置，该语音生成装置可以为上述终端设备或者图1中所示的语音生成服务器101。该方法包括以下步骤：

201：语音生成装置获取用户输入的文本数据、参考音频信号、第一参数和第二参数。

其中，第一参数用于表征用户需求的相似度，第二参数用于表征用户需求的自然度。

需要指出的是，用户需求的相似度是指用户希望采用本申请方法生成的语音信号与参考音频信号的相似度，用户需求的自然度是指用户希望采用本申请方法生成的语音信号的自然程度。

可选地，参考音频信号可以语音生成装置采集得到的，可以是预先存储都到语音生成装置中的音频信号；还可以是其他设备采集后，上述语音生成装置从其他设备中获取的音频信号。

可选地，参考语音信号可以为中文语音信号、英文语音信号、法文语音信号或者其他语音的语音信号。

可选地，上述参考音频信号为上述指定说话人的，该指定说话人可以为上述用户，也可以是其他用户，比如语音生成装置的使用者。

其中，参考语音信号的时长为预设时长；可选的，该预设时长可以为2s、5s、8s或者其他时长。

202：语音生成装置利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量。

在本申请的一个实施方式中，在利用声纹特征模型对参考音频信号进行特征提取之前，基于训练集训练得到上声纹特征模型。

其中，训练集包括多个样本用户的音频信号，每个样本用户的音频信号均为一定时长的音频信号；也就是每个样本用户的音频信号是针对该样本用户在说至少一句话时采集的音频信号；每个样本用户的音频信号包括至少一句话分别对应的音频信号。比如训练集包括1000个样本用户的音频信号，对于每个样本用户的音频信号均为时长为1000个小时以上的音频信号。

示例性的，上述训练集中的音频信号包括外文音频信号，比如英文音频信号、法文音频信号等，还可以中文音频信号，在此不做限定。

示例性的，每个样本用户的音频信号可以是该样本用户在安静环境下或者嘈杂环境下采集的，也就是说，每个样本用户的音频信号可以带噪音频信号，也可以是不携带噪声的音频信号。

在此需要指出的是，上述训练集为无标注的训练集，使用无标注的训练集的好处在于：无标注的数据比有标注的数据容易获取，并且对于每个样本用户的音频信号，基于该样本用户的音频信号进行特征提取到的特征向量更能代表该样本用户的特征。

203：语音生成装置根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量。

在本申请的一个实施方式中，根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量，包括：

当第一参数指示用户需求的相似度高于预设相似度，且第二参数表征用户需求的自然度低于预设自然度时，也就是用户希望采用本申请方法生成的语音信号与参考音频信号的相似度高，但用户对采用本申请方法生成的语音信号的自然度要求不高，此时可以直接将参考音频信号的声纹特征向量确定目标声纹特征向量。

当第一参数指示用户需求的相似度低于预设相似度，且第二参数表征用户需求的自然度高于预设自然度时，根据用于训练声纹特征模型的训练集中M个样本用户的音频数据得到M个样本用户中每个样本用户的平均声纹特征向量；M为大于1的整数；计算参考音频信号的声纹特征向量与M个样本用户中每个样本用户的平均声纹特征向量的相似度；将目标样本用户的声纹特征向量确定为目标声纹特征向量，目标样本用户为M个样本用户中声纹特征向量与参考音频信号的声纹特征向量的相似度最高的样本用户。

可选的，上述M个样本用户的音频数据可以为上述训练集中所有样本用户的音频数据，此时可以从训练集中找到与参考音频信号的声纹特征向量最接近的平均声纹特征向量；为了避免在训练集中遍历，提高计算效率，上述M个样本用户的音频数据也可以为上述训练集中部分样本用户的音频数据。

进一步的，M个样本用户的音频信号包括M个样本用户中每个样本用户的至少一句话的音频信号，根据用于训练声纹特征模型的训练集中M个样本用户的音频数据得到M个样本用户中每个样本用户的平均声纹特征向量，包括：

对每个样本用户的至少一句话中每句话的音频信号分别进行特征提取，以得到每个样本用户的至少一句话分别对应的至少一个声纹特征向量；对每个样本用户的至少一句话分别对应的至少一个声纹特征向量进行求平均，以得到每个样本用户的平均声纹特征向量。

进一步的，目标样本用户的声纹特征向量为目标样本用户的平均声纹特征向量，或者，

本申请的方法还包括：

计算参考音频信号的声纹特征向量与目标样本用户的至少一句话中每句话对应的声纹特征向量的相似度，将与参考音频信号的声纹特征向量的相似度最高的一句话的声纹特征向量确定为目标样本用户的声纹特征向量。

具体的，M个样本用户的音频数据包括M个样本用户中每个样本用户的至少一句话的音频数据；对于M个样本用户中的每个样本用户的音频数据，执行如下操作：

对样本用户的至少一句话中每句话对应的音频数据进行特征提取，得到至少一句话分别对应的至少一个声纹特征向量；对至少一个声纹特征向量进行处理，比如求平均或者加权求平均，得到该样本用户的平均声纹特征向量。

按照上述方法，可以得到M个样本用户中每个样本用户的平均声纹特征向量；然后计算参考音频信号的声纹特征向量与M个样本用户中每个样本用户的平均声纹特征向量的相似度；然后从M个样本用户中确定平均声纹特征向量与参考音频信号的声纹特征向量的相似度最高的样本用户，该样本用户为M个样本用户中与指定说话人声纹最相似的样本用户，该用户为上述目标样本用户；可以将目标样本用户的平均声纹特征向量确定为目标声纹特征向量，或者按照下述方法得到上述目标声纹特征向量：

计算参考音频信号的声纹特征向量与目标样本用户的至少一句话中每句话对应的声纹特征向量之间的相似度；与参考音频信号的声纹特征向量的相似度最高的一句话的声纹特征向量确定为目标样本用户的声纹特征向量。采用该方法获取目标样本用户的声纹特征向量，可以理解成优中选优，最终能够从M个样本用户中选择出声纹特征向量与指定说话人最接近的样本用户。

举例说明，假设M个样本用户包括样本用户A，样本用户B和样本用户C，样本用户A的音频数据包括3句话的音频数据，样本用户B的音频数据包括4句话的音频数据，样本用户C的音频数据包括5句话的音频数据；对样本用户A的3句话中每句话的音频数据进行特征提取，以得到3句话分别对应的3个声纹特征向量；对该3个声纹特征向量进行求平均操作，以得到样本用户A的平均声纹特征向量；对样本用户B的4句话中每句话的音频数据进行特征提取，以得到4句话分别对应的4个声纹特征向量；对该4个声纹特征向量进行求平均操作，以得到样本用户B的平均声纹特征向量；对样本用户C的5句话中每句话的音频数据进行特征提取，以得到5句话分别对应的5个声纹特征向量；对该5个声纹特征向量进行求平均操作，以得到样本用户C的平均声纹特征向量；计算参考音频信号的声纹特征向量与3个样本用户(即样本用户A，样本用户B和样本用户C)中每个样本用户的平均声纹特征向量之间的相似度；假设样本用户C的平均声纹特征向量与参考音频信号的声纹特征向量的相似度最高，可以将样本用户C的平均声纹特征向量确认为上述目标声纹特征向量；或者计算参考音频信号的声纹特征向量与样本用户C的5句话中每句话对应的声纹特征向量之间的相似度；假设5句话中第3句话的声纹特征向量与参考音频信号的声纹特征向量的相似度越高，将样本用户C的5句话中第3句话的声纹特征向量确定为目标样本用户的声纹特征向量。

在此需要指出的是，本申请中计算两个声纹特征向量的相似度具体是指计算两个声纹特征向量之间的欧式距离，其中，欧式距离越小，两个声纹特征向量的相似度越高；欧式距离越大，两个声纹特征向量的相似度越小。

204：语音生成装置对文本数据进行特征提取，以得到文本特征向量。

具体地，语音生成装置对文本数据进行分词操作，以得到多个短语；具体可以通过基于词典分词算法或者基于统计的机器学习算法对文本数据进行分词操作；其中，基于词典分词算法包括正向最大匹配法、逆向最大匹配法和双向匹配分词法等，基于统计的机器学习算法包括隐马尔科夫模型(hidden Markov model，HMM)算法、条件随机场(conditional random fields，CRF)算法和支持向量机(support vector machine，SVM)算法等；对多个短语中的每个短语进行编码，以得到每个短语的特征向量；对多个短语对应的多个特征向量进行融合处理，以得到文本特征向量；或者，

在得到多个短语后，确定多个短语中每个短语的词性；对对多个短语中的每个短语及其词性进行编码，以得到每个短语的特征向量；对多个短语对应的多个特征向量进行融合处理，以得到文本特征向量。

205：语音生成装置根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱。

在本申请的一个实施方式中，根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱信号，包括：

对文本特征向量和目标声纹特征向量进行拼接，以得到拼接后的特征向量；根据拼接后的特征向量得到文本数据对应的语音频谱。

具体的，文本特征向量的维度数与目标声纹特征向量的维度数相同，对文本特征向量和目标声纹特征向量进行拼接，以得到拼接后的特征向量，拼接后的特征向量的维度数是文本特征向量的维度数与目标声纹特征向量的维度数之和；比如文本特征向量和声纹特征向量均为256维，将文本特征向量和目标声纹特征向量拼接得到的向量是512维；然后将这个512维的向量经过解码模型进行处理，得到上述文本数据对应的语音频谱。

其中，上述过程可以看成语音合成过程，可以通过语音合成模型来实现。可选地，语音合成模型可以通过tacotron2网络实现。

206：语音生成装置利用声码器对文本数据对应的语音频谱进行处理，以得到目标音频信号。

其中，目标音频信号表示的文本数据为用户输入的文本数据。

在此需要指出的是，在使用语音合成模型和声码器之前，需要训练语音合成模型和声码器，对语音合成模型和声码器的训练可以是采用联合训练的方式。训练数据为有标注数据的训练集。具体是训练数据包括多个样本用户的音频数据及该音频数据对应的文本数据。

本申请的方案可以应用于AI跟拍场景，或者视频录制场景；在获取视频后，需要为视频合成上音频信号，该音频信号就可以采用本申请的方案得到，不需要专业的录音设备，能够大幅降低用户录音、制作视频的时间成本。

可以看出，获取用户对最后得到目标音频信号的相似度需求和自然度需求后，利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；根据用户对最后得到目标音频信号的相似度需求和自然度需求对参考音频信号的声纹特征向量进行处理，以得到目标声纹特征向量；根据输入的文本数据的文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；利用声码器对语音频谱进行处理，以得到目标音频信号。可以看出，采用本申请的方案可以基于用户的相似度需求和自然度需求生成用于风格相似的语音，满足用户的个性化需求，并且在自然度和相似度上能够很好的折中；并且采用本申请的方案，不需要针对每个用户单独训练一个模型，可以基于本申请的一个模型(该模型包括声纹特征模型、用于文本特征向量和声纹特征向量合成的语音合成模型及声码器)，针对不同用户的需求，就可以生成个性化的音频信号，降低了部署模型的成本；并且由于部署模型的难度低，可以实现实时语音处理；可以直接应用于AI跟拍或其他场景，能够大幅降低用户录音、制作视频的时间成本。总而言之，采用本申请的方案有利于降低语音合成的难度，并且由于不需要反复录制音频，因此也不存在音频录制失误的风险。

参阅图3，图3本申请实施例提供的另一种语音生成方法的流程示意图。该方法应用于上述的语音生成装置，该实施例中与图2所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

301、语音生成装置获取声纹特征模型、语音合成模型和声码器。

其中，声纹特征模型是基于神经网络实现的，该神经网络可以循环神经网络、全连接神经网络或者其他类型的神经网络。

具体的，可以是语音生成装置自己训练得到的，也可以是在其他设备训练得到声纹特征模型、语音合成模型和声码器后，语音生成装置从其他设备中获取声纹特征模型、语音合成模型和声码器。

对于声纹特征模型，可以按照下面方式训练得到：

获取训练集，该训练集包括多个样本用户的音频信号及该音频信号对应的声纹特征向量，每个样本用户的音频信号均为一定时长的音频信号；也就是每个样本用户的音频信号是针对该样本用户在说至少一句话时采集的音频信号；每个样本用户的音频信号包括至少一句话分别对应的音频信号。比如训练集包括1000个样本用户的音频信号，对于每个样本用户的音频信号均为时长为1000个小时以上的音频信号；将样本用户的音频信号输入到神经网络中进行处理，以得到预测的声纹特征向量；将预测的声纹特征向量及训练集中该样本用户的音频信号对应的声纹特征向量输入损失函数中进行计算，以得到损失值；基于损失值调整神经网络中的参数，得到调整后的神经网络；然后将另一样本用户的音频信号输入到神经网络中进行处理，以得到预测的声纹特征向量；将预测的声纹特征向量及训练集中该样本用户的音频信号对应的声纹特征向量输入损失函数中进行计算，以得到损失值；基于损失值调整神经网络中的参数，得到调整后的神经网络；重复上述步骤，直至损失值收敛或者训练次数达到预设次数；在损失值收敛或者训练次数达到预设次数时，将调整后的神经网络作为声纹特征模型。

对于语音合成模型和声码器，可以按照上述方式训练得到，在此不再叙述。

302、语音生成装置获取用户输入的文本数据、参考语音信号、第一参数和第二参数。

其中，第一参数用于表征用户对最终生成的音频信号的相似度需求，第二参数用于表征用户对最终生成的音频信号的自然度需求。

303、语音生成装置利用声纹特征模型对考音频信号进行特征提取，以得到参考音频信号的声纹特征向量。

304、当第一参数指示用户需求的相似度高于预设相似度，且第二参数表征用户需求的自然度低于预设自然度时，语音生成装置将参考语音信号的声纹特征向量作为目标升维特征向量。

305、当第一参数指示用户需求的相似度低于预设相似度，且第二参数表征用户需求的自然度高于预设自然度时，语音生成装置根据训练集中用户样本的音频数据得到目标声纹特征向量。

在此需要指出的是，步骤305的具体实现过程可参见步骤203的相关描述，在此不再叙述。

306、语音生成装置对文本数据进行特征提取，以得到文本特征向量。

307、语音生成装置根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱。

308、语音生成装置利用声码器对文本数据对应的语音频谱进行处理，以得到目标音频信号。

在此需要指出的是，步骤306-308的具体实现过程可参见步骤204-206的相关描述，在此不再叙述。

可以看出，在本申请实施例中，获取用户对最后得到目标音频信号的相似度需求和自然度需求后，利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；根据用户对最后得到目标音频信号的相似度需求和自然度需求对参考音频信号的声纹特征向量进行处理，以得到目标声纹特征向量；根据输入的文本数据的文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；利用声码器对语音频谱进行处理，以得到目标音频信号。可以看出，采用本申请的方案可以基于用户的相似度需求和自然度需求生成用于风格相似的语音，满足用户的个性化需求，并且在自然度和相似度上能够很好的折中；并且采用本申请的方案，不需要针对每个用户单独训练一个模型，可以基于本申请的一个模型(该模型包括声纹特征模型、用于文本特征向量和声纹特征向量合成的语音合成模型及声码器)，针对不同用户的需求，就可以生成个性化的音频信号，降低了部署模型的成本；并且由于部署模型的难度低，可以实现实时语音处理；可以直接应用于AI跟拍或其他场景，能够大幅降低用户录音、制作视频的时间成本。总而言之，采用本申请的方案有利于降低语音合成的难度，并且由于不需要反复录制音频，因此也不存在音频录制失误的风险。

参阅图4，图4为本申请实施例提供的一种语音生成装置的功能单元组成框图。语音生成装置400包括：获取单元401、特征提取单元402、确定单元403和处理单元404；

获取单元401，获取用户输入的文本数据、参考音频信号、第一参数和第二参数，该第一参数用于表征用户需求的相似度，该第二参数用于表征用户需求的自然度；

特征提取单元402，用于利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；

确定单元403，用于根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；

特征提取单元402，还用于对文本数据进行特征提取，以得到文本特征向量；

确定单元403，还用于根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；

处理单元404，用于利用声码器对语音频谱进行处理，以得到目标音频信号，该目标音频信号表示的文本数据为用户输入的文本数据。

在本申请的一些实施方式中，在根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量的方面，确定单元403具体用于执行如下操作：

当第一参数指示用户需求的相似度高于预设相似度，且第二参数表征用户需求的自然度低于预设自然度时，将参考音频信号的声纹特征向量确定目标声纹特征向量。

在本申请的一些实施方式中，在根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量的方面，确定单元403还具体用于执行如下操作：

在本申请的一些实施方式中，M个样本用户的音频信号包括M个样本用户中每个样本用户的至少一句话的音频信号，在根据用于训练声纹特征模型的训练集中M个样本用户的音频数据得到M个样本用户中每个样本用户的平均声纹特征向量的方面，确定单元403具体用于执行如下操作：

在本申请的一些实施方式中，目标样本用户的声纹特征向量为所目标样本用户的平均声纹特征向量，或者，

确定单元403还用于执行如下操作：

在本申请的一些实施方式中，在根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱的方面，确定单元403具体用于执行如下操作：

对文本特征向量和目标声纹特征向量进行拼接，以得到拼接后的特征向量；根据拼接后的特征向量得到语音频谱。

在本申请的一些实施方式中，参考音频信号的时长为预设时长。

参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储器503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

获取用户输入的文本数据、参考音频信号、第一参数和第二参数，该第一参数用于表征用户需求的相似度，该第二参数用于表征用户需求的自然度；利用声纹特征模型对参考音频信号进行特征提取，以得到参考音频信号的声纹特征向量；根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；对文本数据进行特征提取，以得到文本特征向量；根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱；利用声码器对语音频谱进行处理，以得到目标音频信号，该目标音频信号表示的文本数据为用户输入的文本数据。

在本申请的一些实施方式中，在根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量的方面，处理器502具体用于执行如下操作：

在本申请的一些实施方式中，在根据第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量的方面，处理器502还具体用于执行如下操作：

在本申请的一些实施方式中，M个样本用户的音频信号包括M个样本用户中每个样本用户的至少一句话的音频信号，在根据用于训练声纹特征模型的训练集中M个样本用户的音频数据得到M个样本用户中每个样本用户的平均声纹特征向量的方面，处理器502具体用于执行如下操作：

处理器502还用于执行如下操作：

在本申请的一些实施方式中，在根据文本特征向量和目标声纹特征向量得到文本数据对应的语音频谱的方面，处理器502具体用于执行如下操作：

具体地，上述处理器502可以为图4所述的实施例的语音生成装置400的特征提取单元402、确定单元403和处理单元404。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种语音生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种语音生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音生成方法，其特征在于，包括：

获取用户输入的文本数据、参考音频信号、第一参数和第二参数，所述第一参数用于表征所述用户需求的相似度，所述第二参数用于表征所述用户需求的自然度；

利用声纹特征模型对所述参考音频信号进行特征提取，以得到所述参考音频信号的声纹特征向量；

根据所述第一参数、所述第二参数和所述参考音频信号的声纹特征向量得到目标声纹特征向量；

对所述文本数据进行特征提取，以得到文本特征向量；

根据所述文本特征向量和所述目标声纹特征向量得到所述文本数据对应的语音频谱；

利用声码器对所述语音频谱进行处理，以得到目标音频信号，所述目标音频信号表示的文本数据为所述用户输入的文本数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一参数、所述第二参数和所述参考音频信号的声纹特征向量得到目标声纹特征向量，包括：

当所述第一参数指示所述用户需求的相似度高于预设相似度，且所述第二参数表征所述用户需求的自然度低于预设自然度时，将所述参考音频信号的声纹特征向量确定所述目标声纹特征向量。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一参数、所述第二参数和所述参考音频信号的声纹特征向量得到目标声纹特征向量，包括：

当所述第一参数指示所述用户需求的相似度低于预设相似度，且所述第二参数表征所述用户需求的自然度高于预设自然度时，根据用于训练所述声纹特征模型的训练集中M个样本用户的音频数据得到所述M个样本用户中每个样本用户的平均声纹特征向量；所述M为大于1的整数；

计算所述参考音频信号的声纹特征向量与所述M个样本用户中每个样本用户的平均声纹特征向量的相似度；

将所述目标样本用户的声纹特征向量确定为所述目标声纹特征向量，所述目标样本用户为所述M个样本用户中声纹特征向量与所述参考音频信号的声纹特征向量的相似度最高的样本用户。

4.根据权利要求3所述的方法，其特征在于，所述M个样本用户的音频信号包括所述M个样本用户中每个样本用户的至少一句话的音频信号，所述根据用于训练所述声纹特征模型的训练集中M个样本用户的音频数据得到所述M个样本用户中每个样本用户的平均声纹特征向量，包括：

对所述每个样本用户的至少一句话中每句话的音频信号分别进行特征提取，以得到所述每个样本用户的至少一句话分别对应的至少一个声纹特征向量；

对所述每个样本用户的至少一句话分别对应的至少一个声纹特征向量进行求平均，以得到所述每个样本用户的平均声纹特征向量。

5.根据权利要求4所述的方法，其特征在于，所述目标样本用户的声纹特征向量为所述目标样本用户的平均声纹特征向量，或者，

所述方法还包括：

计算所述参考音频信号的声纹特征向量与所述目标样本用户的至少一句话中每句话对应的声纹特征向量的相似度，

将与参考音频信号的声纹特征向量的相似度最高的一句话的声纹特征向量确定为所述目标样本用户的声纹特征向量。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述文本特征向量和目标声纹特征向量得到所述文本数据对应的语音频谱，包括：

对所述文本特征向量和所述目标声纹特征向量进行拼接，以得到拼接后的特征向量；

根据所述拼接后的特征向量得到所述语音频谱。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述参考音频信号的时长为预设时长。

8.一种语音生成装置，其特征在于，包括：获取单元、特征提取单元、确定单元和处理单元；

所述获取单元，获取用户输入的文本数据、参考音频信号、第一参数和第二参数，所述第一参数用于表征所述用户需求的相似度，所述第二参数用于表征所述用户需求的自然度；

所述特征提取单元，用于利用声纹特征模型对所述参考音频信号进行特征提取，以得到所述参考音频信号的声纹特征向量；

所述确定单元，用于根据所述第一参数、第二参数和参考音频信号的声纹特征向量得到目标声纹特征向量；

所述特征提取单元，还用于对所述文本数据进行特征提取，以得到文本特征向量；

所述确定单元，还用于根据所述文本特征向量和所述目标声纹特征向量得到所述文本数据对应的语音频谱；

所述处理单元，用于利用声码器对所述语音频谱进行处理，以得到目标音频信号，所述目标音频信号表示的文本数据为所述用户输入的文本数据。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。