CN113920979A

CN113920979A - 语音数据的获取方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113920979A
Application number: CN202111335375.XA
Authority: CN
Inventors: 王帅; 晁阳; 李东; 陆遥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-01-11
Anticipated expiration: 2041-11-11
Also published as: CN113920979B

Abstract

本申请公开了一种语音数据的获取方法、装置、设备及计算机可读存储介质，属于计算机技术领域。方法包括：获取多媒体资源和样本语音数据；基于所述样本语音数据，获取一阶特征向量和二阶特征向量，所述一阶特征向量用于表征所述样本语音数据的音色的平均特征，所述二阶特征向量用于表征所述样本语音数据的音色的标准差特征；基于所述一阶特征向量和所述二阶特征向量对所述多媒体资源进行处理，得到与所述样本语音数据的音色匹配的目标语音数据。该方法得到的目标语音数据的音色与样本语音数据的音色的匹配度较高，使得目标语音数据的音色保真度较高。

Description

语音数据的获取方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种语音数据的获取方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的不断发展，越来越多的领域涉及到语音数据的获取。在获取语音数据时，不再局限于获取固定音色特征的语音数据。因此，亟需一种语音数据的获取方法使得获取到的语音数据为满足用户需求的音色的语音数据。

相关技术中，基于音色特征获取模型获取样本语音数据的音色特征向量。将音色特征向量和文本内容或原始语音数据对应的初始特征向量进行融合，得到目标特征向量。进而基于目标特征向量，获取语音合成或语音转换之后的目标语音数据。

然而，上述方法在获取样本语音数据的音色特征向量时，当样本语音数据的数量较少时，使得确定的音色特征向量不够准确。进而导致获取到的目标语音数据的音色与样本语音数据的音色的匹配度不高，使得获取到的目标语音数据的音色保真度较低。

发明内容

本申请实施例提供了一种语音数据的获取方法、装置、设备及计算机可读存储介质，可用于解决相关技术中获取到的语音数据的音色与样本语音数据的音色的匹配度不高，获取到的语音数据的音色保真度较低的问题。所述技术方案如下：

一方面，本申请实施例提供了一种语音数据的获取方法，所述方法包括：

获取多媒体资源和样本语音数据；

基于所述样本语音数据，获取一阶特征向量和二阶特征向量，所述一阶特征向量用于表征所述样本语音数据的音色的平均特征，所述二阶特征向量用于表征所述样本语音数据的音色的标准差特征；

基于所述一阶特征向量和所述二阶特征向量对所述多媒体资源进行处理，得到与所述样本语音数据的音色匹配的目标语音数据。

另一方面，本申请实施例提供了一种语音数据的获取装置，所述装置包括：

获取模块，用于获取多媒体资源和样本语音数据；

所述获取模块，还用于基于所述样本语音数据，获取一阶特征向量和二阶特征向量，所述一阶特征向量用于表征所述样本语音数据的音色的平均特征，所述二阶特征向量用于表征所述样本语音数据的音色的标准差特征；

处理模块，用于基于所述一阶特征向量和所述二阶特征向量对所述多媒体资源进行处理，得到与所述样本语音数据的音色匹配的目标语音数据。

在一种可能的实现方式中，所述获取模块，用于获取所述多媒体资源对应的初始特征向量，所述初始特征向量用于表征所述多媒体资源的语义特征；基于所述初始特征向量、所述一阶特征向量和所述二阶特征向量，获取所述多媒体资源对应的目标特征向量，所述目标特征向量用于表征所述多媒体资源的语义特征和所述样本语音数据的音色特征；基于所述目标特征向量，获取所述多媒体资源对应的频谱特征；

所述处理模块，用于通过所述频谱特征获取与所述样本语音数据的音色匹配的目标语音数据。

在一种可能的实现方式中，所述获取模块，用于基于所述初始特征向量和所述二阶特征向量，获取所述多媒体资源对应的参考特征向量，所述参考特征向量用于表征在所述初始特征向量中添加所述样本语音数据的音色的标准差特征之后的特征；基于所述参考特征向量和所述一阶特征向量，获取所述多媒体资源对应的目标特征向量。

在一种可能的实现方式中，所述获取模块，用于将所述初始特征向量和所述二阶特征向量中相同向量维度的数值相乘，得到所述多媒体资源对应的参考特征向量；将所述参考特征向量和所述一阶特征向量中相同向量维度的数值相加，得到所述多媒体资源对应的目标特征向量。

在一种可能的实现方式中，所述多媒体资源为文本内容；

所述获取模块，用于对所述文本内容进行文本分析，得到分析之后的文本内容，所述文本分析包括分词处理、多音字标注和韵律分析中的至少一种；基于所述分析之后的文本内容，获取所述文本内容对应的初始特征向量。

在一种可能的实现方式中，所述多媒体资源为参考语音数据，所述参考语音数据的音色与所述样本语音数据的音色不匹配；

所述获取模块，用于将所述参考语音数据输入目标音素后验概率模型，所述目标音素后验概率模型用于确定所述参考语音数据对应的音素后验概率特征；基于所述参考语音数据对应的音素后验概率特征，获取所述参考语音数据对应的中间特征向量，所述中间特征向量用于表征所述参考语音数据的语义特征和音色特征；基于所述中间特征向量，获取所述参考语音数据对应的初始特征向量。

在一种可能的实现方式中，所述获取模块，用于基于所述中间特征向量，获取所述参考语音数据对应的平均特征向量，所述平均特征向量用于表征所述参考语音数据的语义特征和音色特征的平均特征；基于所述中间特征向量和所述平均特征向量，确定所述参考语音数据对应的标准差特征向量，所述标准差特征向量用于表征所述参考语音数据的语音特征和音色特征的标准差特征；基于所述中间特征向量、所述平均特征向量和所述标准差特征向量，确定所述参考语音数据对应的初始特征向量。

在一种可能的实现方式中，所述中间特征向量包括多个帧向量；

所述获取模块，用于对于所述参考语音数据对应的平均特征向量在第一向量维度的取值，确定所述中间特征向量包括的多个帧向量中每个帧向量在第一向量维度的取值的平均值；将所述平均值作为所述参考语音数据对应的平均特征向量在第一向量维度的取值，所述第一向量维度为所述平均特征向量包括的任意一个向量维度。

在一种可能的实现方式中，所述获取模块，用于对于所述参考语音数据对应的标准差特征向量在第一向量维度的取值，基于所述中间特征向量包括的第一帧向量在第一向量维度的取值和所述平均特征向量在第一向量维度的取值，确定第一差值，所述第一帧向量为所述中间特征向量包括的任意一个帧向量；基于所述第一差值和所述中间特征向量包括的向量维度，确定所述参考语音数据对应的标准差特征向量在第一向量维度的取值。

在一种可能的实现方式中，所述获取模块，用于确定所述中间特征向量和所述平均特征向量之间的差值特征向量；将所述差值特征向量和所述标准差特征向量中相同向量维度的数值相除，得到所述参考语音数据对应的初始特征向量。

在一种可能的实现方式中，所述获取模块，用于确定目标音色标识；获取所述目标音色标识对应的初始语音数据，所述初始语音数据的个数为至少一个；对所述初始语音数据进行语音处理，得到每个初始语音数据对应的样本语音数据，所述语音处理包括语音端点检测处理和语音分割中的至少一种。

另一方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以使电子设备实现上述任一所述的语音数据的获取方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以使计算机实现上述任一所述的语音数据的获取方法。

另一方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行，以使计算机实现上述任一种语音数据的获取方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案基于样本语音数据获取到的一阶特征向量和二阶特征向量，对多媒体资源进行处理，得到目标语音数据。其中，基于样本语音数据获取到的一阶特征向量和二阶特征向量分别为样本语音数据的音色的平均特征和标准差特征，由于样本语音数据的音色的平均特征和标准差特征是样本语音数据的音色对应的较为平稳的特征，从而使得获取到的目标语音数据的音色与样本语音数据的音色的匹配度较高，获取到的目标语音数据的音色保真度较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音数据的获取方法的实施环境示意图；

图2是本申请实施例提供的一种语音数据的获取方法的流程图；

图3是本申请实施例提供的一种语音数据的获取过程示意图；

图4是本申请实施例提供的一种语音数据的获取过程示意图；

图5是本申请实施例提供的一种语音数据的获取方法的流程图；

图6是本申请实施例提供的一种语音数据的获取装置的结构示意图；

图7是本申请实施例提供的一种终端的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了便于理解，首先对本申请实施例中涉及的若干个名词进行解释：

语音合成(Text To Speech Synthesis，TTS)，指将文本转换成声音的技术。

语音转换(Voice Conversion，CV)，指将一个说话人的语音转换成另一个说话人的语音的技术，在此过程中，尽可能只转换音色，保留原本的语音内容不变。

音素后验概率特征(Phonetic Posterior Gram，PPG)，通过训练好的PPG提取器提取，可以很好地捕捉输入语音的语义信息，常用作VC模型中语音建模方案。

图1是本申请实施例提供的一种语音数据的获取方法的实施环境示意图，如图1所示，该实施环境包括：终端101和服务器102。

终端101和服务器102均可以独立实现本申请实施例提供的语音数据的获取方法。还可以基于终端101和服务器102的交互实现本申请实施例提供的语音数据的获取方法。

终端101可以是智能手机、游戏主机、台式计算机、平板电脑、笔记本电脑、电子书阅读器、播放器、智能电视、车载终端等中的至少一种。终端101中安装和运行有用于获取语音数据的客户端。

服务器102可以为一台服务器，也可以为多台服务器组成的服务器集群，还可以为云计算平台和虚拟化中心中的任意一种，本申请实施例对此不加以限定。服务器102与终端101通过有线网络或无线网络进行通信连接。服务器102具有数据接收、数据处理和数据发送的功能。当然，服务器102还可以具有其他功能，本申请实施例对此不加以限定。

基于上述实施环境，本申请实施例提供了一种语音数据的获取方法，以图2所示的本申请实施例提供的一种语音数据的获取方法的流程图为例，该方法可由电子设备执行，电子设备可以是图1中的终端101，也可以是图1中的服务器102。如图2所示，该方法包括下述步骤：

在步骤201中，获取多媒体资源和样本语音数据。

在本申请示例性实施例中，多媒体资源为待获取语音数据的多媒体资源，多媒体资源可以是文本内容，也可以是参考语音数据。当多媒体资源为文本内容时，该语音数据的获取方法用于将文本内容合成目标语音数据，目标语音数据为与样本语音数据的音色匹配的语音数据。当多媒体资源为参考语音数据时，该语音数据的获取方法用于将参考语音数据转换为目标语音数据，目标语音数据为与样本语音数据的音色匹配的语音数据。其中，样本语音数据的音色和参考语音数据的音色不匹配，通过本申请实施例提供的方法，能够实现将参考语音数据转换成与样本语音数据的音色匹配的目标语音数据。

可选地，电子设备获取到的多媒体资源可以是用户上传至电子设备的多媒体资源，也可以是电子设备的存储空间中存储的多媒体资源，还可以是其他方式获取到的多媒体资源，本申请实施例对多媒体资源的获取方式不加以限定。

在一种可能的实现方式中，获取样本语音数据的方法包括：确定目标音色标识，获取目标音色标识对应的初始语音数据，初始语音数据的个数为多个。将初始语音数据作为样本语音数据。其中，目标音色标识对应的初始语音数据为具有目标音色标识对应的音色的语音数据。

可选地，还可以对目标音色标识对应的初始语音数据进行语音处理，得到每个初始语音数据对应的样本语音数据。其中，语音处理包括语音端点检测处理(Voice ActivityDetection，VAD)和语音分割中的至少一种。语音端点检测处理用于去除初始语音数据中静音片段。语音分割用于将初始语音数据分割为短句。

可选地，确定目标音色标识的过程包括：电子设备中存储有多个音色标识。目标音色标识可以是电子设备在多个音色标识中随机确定的音色标识，也可以是用户在多个音色标识中确定的音色标识，本申请实施例对目标音色标识的确定方式不加以限定。

示例性地，电子设备中存储有音色标识一、音色标识二、音色标识三。用户在这三个音色标识中确定音色标识二为目标音色标识。

电子设备中还存储有每个音色标识对应的初始语音数据，响应于确定出目标音色标识之后，基于目标音色标识以及电子设备中存储的每个音色标识对应的初始语音数据，获取到目标音色标识对应的初始语音数据。

在步骤202中，基于样本语音数据，获取一阶特征向量和二阶特征向量，一阶特征向量用于表征样本语音数据的音色的平均特征，二阶特征向量用于表征样本语音数据的音色的标准差特征。

其中，样本语音数据的个数为多个，多个样本语音数据的音色相同，多个样本语音数据的音色为目标音色标识对应的音色。

基于样本语音数据，获取一阶特征向量和二阶特征向量的过程包括：在音色特征向量获取模型中为目标音色标识初始化一个第一音色特征向量和一个第二音色特征向量。获取至少一个样本语音数据分别对应的音色特征向量。将至少一个样本语音数据分别对应的音色特征向量输入音色特征向量获取模型，基于至少一个样本语音数据分别对应的音色特征向量对第一音色特征向量和第二音色特征向量进行更新，进而得到一阶特征向量和二阶特征向量。

示例性地，获取样本语音数据对应的音色特征向量的过程如下：将样本语音数据输入目标音素后验概率模型(也即是目标音素后验概率特征(Phonetic Posterior Gram，PPG)提取器)，基于目标音素后验概率模型的输出结果，得到样本语音数据对应的音色特征向量。

其中，目标音素后验概率模型可以为架构较为简单的时延神经网络模型(TimeDelay Neural Network，TDNN)，也可以为架构较为复杂的transformer模型(一种基于编码器-解码器的模型)，还可以为其他类型的模型，本申请实施例对此不加以限定。

基于多个样本语音数据分别对应的音色特征向量对第一音色特征向量和第二音色特征向量进行更新，得到一阶特征向量和二阶特征向量的过程，包括但不限于：基于多个样本语音数据分别对应的音色特征向量对第一音色特征向量和第二音色特征向量进行迭代更新，直至更新得到的第一音色特征向量和更新得到的第二音色特征向量收敛，将收敛的第一音色特征向量作为一阶特征向量，将收敛的第二音色特征向量作为二阶特征向量。

示例性地，基于上述过程获取到的一阶特征向量为(A₇，B₇，C₇)，二阶特征向量为(A₈，B₈，C₈)。

可选地，基于样本语音数据，获取到一阶特征向量和二阶特征向量之后，还可以为样本语音数据对应的音色进行编码，将样本语音数据对应的音色编码、一阶特征向量和二阶特征向量对应存储。例如，样本语音数据对应的音色的编码为音色编码1，一阶特征向量为(A₇，B₇，C₇)，二阶特征向量为(A₈，B₈，C₈)，则将音色编码1、一阶特征向量(A₇，B₇，C₇)和二阶特征向量(A₈，B₈，C₈)对应存储在电子设备的存储空间中。以使得后续再获取与样本语音数据对应的音色匹配的语音数据时，无需再基于样本语音数据获取一阶特征向量和二阶特征向量，可以直接从存储空间中获取基于样本语音数据获取到的一阶特征向量和二阶特征向量，能够节省一阶特征向量和二阶特征向量的获取时长，提高获取效率，进而提高语音数据的获取效率。

需要说明的是，还可以基于样本语音数据，获取更高阶特征向量，如三阶特征向量、四阶特征向量等，本申请实施例对此不加以限定。更高阶特征向量的获取过程与本申请中一阶特征向量和二阶特征向量的获取过程类似，在此不再赘述。

在步骤203中，基于一阶特征向量和二阶特征向量对多媒体资源进行处理，得到与样本语音数据的音色匹配的目标语音数据。

可选地，基于一阶特征向量和二阶特征向量对多媒体资源进行处理，得到与样本语音数据的音色匹配的目标语音数据的过程包括：获取多媒体资源对应的初始特征向量，初始特征向量用于表征多媒体资源的语义特征。基于初始特征向量、一阶特征向量和二阶特征向量，获取多媒体资源对应的目标特征向量，目标特征向量用于表征多媒体资源的语义特征和样本语音数据的音色特征。基于目标特征向量，获取多媒体资源对应的频谱特征，通过频谱特征获取与样本语音数据的音色匹配的目标语音数据。

可选地，获取到与样本语音数据的音色匹配的目标语音数据，是指目标语音数据的音色与样本语音数据的音色一致，或者，目标语音数据的音色与样本语音数据的音色的相似度达到相似度阈值。相似度阈值可基于场景设置，或者基于经验设置，本申请实施例不对相似度阈值进行限定。

可选地，多媒体资源为文本内容和参考语音数据时，多媒体资源对应的初始特征向量的获取过程是不一样的。下面分别以多媒体资源为文本内容和参考语音数据为例，阐述多媒体资源对应的初始特征向量的获取过程。

情况一、响应于多媒体资源为文本内容时，有下述两种实现方式获取多媒体资源对应的初始特征向量。

实现方式一、基于目标特征向量获取模型，获取文本内容对应的初始特征向量。

可选地，获取目标特征向量获取模型，将文本内容输入目标特征向量获取模型，基于目标特征向量获取模型的输出结果，得到文本内容对应的初始特征向量。

获取目标特征向量获取模型的过程包括但不限于：获取样本文本内容和样本文本内容对应的第一特征向量。将样本文本内容输入初始特征向量获取模型，得到样本文本内容对应的第二特征向量。确定样本文本内容对应的第一特征向量和样本文本内容对应的第二特征向量之间的损失值。响应于损失值小于损失阈值，则将初始特征向量获取模型作为目标特征向量获取模型。

或者，响应于损失值不小于损失阈值，则对初始特征向量获取模型的参数进行调整，得到调整之后的特征向量获取模型。响应于基于调整之后的特征向量获取模型获取到的样本文本内容对应的第三特征向量和样本文本内容对应的第一特征向量之间的损失值小于损失阈值，则将调整之后的特征向量获取模型作为目标特征向量获取模型。响应于基于调整之后的特征向量获取模型获取到的样本文本内容对应的第三特征向量和第一特征向量之间的损失值仍不小于损失阈值，则继续对初始特征向量获取模型进行调整。

可选地，损失阈值可基于场景设置，或者基于经验设置，本申请实施例不对损失阈值进行限定。

其中，确定样本文本内容对应的第一特征向量和样本文本内容对应的第二特征向量之间的损失值时，可以采用目标损失函数进行确定。目标损失函数可以是L1范数损失函数(也被称为最小绝对值偏差(LAD)、最小绝对值误差(LAE))，可以是L2范数损失函数(也被称为最小平方误差)，也可以是Smooth L1损失函数(光滑之后的L1范数损失函数)，还可以是其他类型的损失函数，本申请实施例对目标损失函数的类型不加以限定。

可选地，初始特征向量获取模型可以为Tacotron(端到端的语音合成模型)，也可以是WaveNet(原始音频生成模型)，还可以为其他类型的模型，本申请实施例对此不加以限定。

实现方式二、对文本内容进行文本分析，得到分析之后的文本内容，文本分析包括分词、多音字标注和韵律分析中的至少一种。基于分析之后的文本内容，获取文本内容对应的初始特征向量。

其中，对文本内容进行文本分析时，可以将文本内容输入文本分析模块，文本分析模块用于对文本内容进行文本分析，基于文本分析模块的输出结果，得到分析之后的文本内容。

可选地，基于分析之后的文本内容，获取文本内容对应的初始特征向量的过程包括：将分析之后的文本内容输入目标特征向量获取模型，基于目标特征向量获取模型的输出结果，得到文本内容对应的初始特征向量。

需要说明的是，实现方式二中的目标特征向量获取模型的获取过程与实现方式一中的目标特征向量获取模型的获取过程一致，在此不再赘述。

还需要说明的是，可以选择上述任一种实现方式获取文本内容对应的初始特征向量，当然，还可以采用其他方式获取文本内容对应的初始特征向量，本申请实施例对此不加以限定。

情况二、响应于多媒体资源为参考语音数据时，获取多媒体资源对应的初始特征向量的过程如下：将参考语音数据输入目标音素后验概率模型，目标音素后验概率模型用于确定参考语音数据对应的音素后验概率特征。基于参考语音数据对应的音素后验概率特征，获取参考语音数据对应的中间特征向量，中间特征向量用于表征参考语音数据的语义特征和音色特征，基于中间特征向量，获取参考语音数据对应的初始特征向量。

在一种可能的实现方式中，目标音素后验概率模型输出参考语音数据对应的音素后验概率特征之后，将参考语音数据对应的音素后验概率特征输入编码器(encoder)，基于编码器的输出结果得到参考语音数据对应的中间特征向量。

可选地，基于中间特征向量，获取参考语音数据对应的初始特征向量的过程包括：基于中间特征向量，获取参考语音数据对应的平均特征向量，平均特征向量用于表征参考语音数据的语义特征和音色特征的平均特征。基于中间特征向量和平均特征向量，确定参考语音数据对应的标准差特征向量，标准差特征向量用于表征参考语音数据的语音特征和音色特征的标准差特征。基于中间特征向量、平均特征向量和标准差特征向量，确定参考语音数据对应的初始特征向量。

在一种可能的实现方式中，参考语音数据包括多帧，每帧对应于一个帧向量，因此，中间特征向量包括多个帧向量。其中，每个帧向量的向量维度相同。基于中间特征向量，获取参考语音数据对应的平均特征向量的过程包括：对于参考语音数据对应的平均特征向量在第一向量维度的取值，确定中间特征向量包括的多个帧向量中每个帧向量在第一向量维度的取值的平均值，将该平均值作为参考语音数据对应的平均特征向量在第一向量维度的取值，第一向量维度为平均特征向量包括的任意一个向量维度。

可以基于下述公式(1)获取参考语音数据对应的平均特征向量在第一向量维度的取值：

在上述公式(1)中，A_t为参考语音数据对应的平均特征向量在第t个向量维度的取值，T为中间特征向量包括的帧向量的个数，A_it为中间特征向量包括的第i个帧向量在第t个向量维度的取值。

示例性地，中间特征向量包括三个帧向量，分别为帧向量一(A₁，B₁，C₁)、帧向量二(A₂，B₂，C₂)和帧向量三(A₃，B₃，C₃)。基于这三个帧向量和上述公式(1)，确定出参考语音数据对应的平均特征向量为

可选地，基于中间特征向量和平均特征向量，确定参考语音数据对应的标准差特征向量的过程包括：对于参考语音数据对应的标准差特征向量在第一向量维度的取值，基于中间特征向量包括的第一帧向量在第一向量维度的取值和平均特征向量在第一向量维度的取值，确定第一差值，第一帧向量为中间特征向量包括的任意一个帧向量。基于第一差值和中间特征向量包括的向量维度，确定参考语音数据对应的标准差特征向量在第一向量维度的取值。

可以基于下述公式(2)获取参考语音数据对应的标准差特征向量中第一向量维度的取值：

在上述公式(2)中，B_t为参考语音数据对应的标准差特征向量在第t个向量维度的取值，T为中间特征向量包括的帧向量的个数，A_it为中间特征向量包括的第i个帧向量在第t个向量维度的取值，A_t为平均特征向量中第t个向量维度的取值。

示例性地，中间特征向量包括三个帧向量，分别为帧向量一(A₁，B₁，C₁)、帧向量二(A₂，B₂，C₂)和帧向量三(A₃，B₃，C₃)。参考语音数据对应的平均特征向量为(A₄，B₄，C₄)。基于这三个帧向量、平均特征向量和上述公式(2)，确定出参考语音数据对应的标准差特征向量为(A₅，B₅，C₅)。

由于中间特征向量中既包括参考语音数据的语义特征，又包括参考语音数据的音色特征，为了获取与样本语音数据的音色匹配的目标语音数据，需要将中间特征向量中包括的参考语音数据的音色特征去除，得到仅包括参考语音数据的语义特征的初始特征向量。可选地，将中间特征向量中包括的参考语音数据的音色特征去除，得到仅包括参考语音数据的语义特征的初始特征向量的过程包括：基于中间特征向量、平均特征向量和标准差特征向量，确定参考语音数据对应的初始特征向量。可选地，确定中间特征向量和平均特征向量之间的差值特征向量。将差值特征向量和标准差特征向量中相同向量维度的数值相除，得到参考语音数据对应的初始特征向量。

可以按照下述公式(3)获取参考语音数据对应的初始特征向量

在上述公式(3)中，X为参考语音数据对应的中间特征向量，A为参考语音数据对应的平均特征向量，B为参考语音数据对应的标准差特征向量。

示例性地，参考语音数据对应的中间特征向量为(A₀，B₀，C₀)，参考语音数据对应的平均特征向量为(A₄，B₄，C₄)，参考语音数据对应的标准差特征向量为(A₅，B₅，C₅)。基于参考语音数据对应的中间特征向量、平均特征向量、标准差特征向量和上述公式(3)，确定参考语音数据对应的初始特征向量为(A₆，B₆，C₆)，其中，

在一种可能的实现方式中，获取到多媒体资源对应的初始特征向量之后，还需在多媒体资源对应的初始特征向量中添加样本语音数据的音色特征，从而得到多媒体资源对应的目标特征向量，目标特征向量用于表征多媒体资源的语义特征和样本语音数据的音色特征。

可选地，基于初始特征向量、一阶特征向量和二阶特征向量，获取多媒体资源对应的目标语音数据的过程包括：基于初始特征向量、一阶特征向量和二阶特征向量，获取多媒体资源对应的目标特征向量。基于目标特征向量，获取多媒体资源对应的频谱特征，通过频谱特征获取与样本语音数据的音色匹配的目标语音数据。

在一种可能的实现方式中，基于初始特征向量、一阶特征向量和二阶特征向量，获取多媒体资源对应的目标特征向量的过程包括：基于初始特征向量和二阶特征向量，获取多媒体资源对应的参考特征向量，参考特征向量用于表征在初始特征向量中添加样本语音数据的音色的标准差特征之后的特征；基于参考特征向量和一阶特征向量，获取多媒体资源对应的目标特征向量。

可选地，将初始特征向量和二阶特征向量中相同向量维度的数值相乘，得到多媒体资源对应的参考特征向量。将参考特征向量和一阶特征向量中相同向量维度的数值相加，得到多媒体资源对应的目标特征向量。

基于初始特征向量、一阶特征向量和二阶特征向量，按照下述公式(4)确定多媒体资源对应的目标特征向量Y：

在上述公式(4)中，

为多媒体资源对应的初始特征向量，σ为二阶特征向量，μ为一阶特征向量。

示例性地，多媒体资源对应的初始特征向量为(A₆，B₆，C₆)，一阶特征向量为(A₇，B₇，C₇)，二阶特征向量为(A₈，B₈，C₈)，基于初始特征向量、一阶特征向量、二阶特征向量和上述公式(4)，确定多媒体资源对应的目标特征向量为(A₉，B₉，C₉)。其中，A₉＝A₆*A₈+A₇，B₉＝B₆*B₈+B₇，C₉＝C₆*C₈+C₇。

可选地，获取到多媒体资源对应的目标特征向量之后，基于目标特征向量，获取多媒体资源对应的频谱特征，通过频谱特征获取与样本语音数据的音色匹配的目标语音数据。可选地，将频谱特征输入声码器，声码器用于对频谱特征进行处理，得到频谱特征对应的语音数据。基于声码器的输出结果，得到与样本语音数据的音色匹配的目标语音数据。

示例性地，声码器的目的是将频谱特征映射回人耳可听的语音信号，常见的声码器有基于自回归模型的wavernn/wavenet(一种模型)和基于非自回归模型的GAN(Generative Adversarial Network，生成对抗网络)类模型。当然，声码器还可以为其它模型，本申请实施例对此不加以限定。

可选地，基于目标特征向量，获取多媒体资源对应的频谱特征的过程包括：将目标特征向量输入解码器(decoder)，基于解码器的输出结果，得到多媒体资源对应的频谱特征。

在一种可能的实现方式中，该语音数据的获取方法可以应用于多个场景，如游戏的活动推广场景、游戏内个性化系统提示音生成场景、音频设计场景等。在各个场景中的应用描述如下：

1、在游戏的活动推广场景中，可以将音色为音色一的第一语音数据转换为音色为音色二的第二语音数据，音色一和音色二为两个不匹配的音色。在转换时，保留第一语音数据的语音信息和韵律信息，也即是第一语音数据和第二语音数据的语义信息和韵律信息相同。在游戏的活动推广中应用该方法能够增加活动的趣味性。

示例性地，在游戏的节日送祝福语的活动中，可以基于多种方言、多种音色的不同组合，生成多条语音数据。用户可以在多条语音数据中进行选择，之后发送被选中的语音数据。每条语音数据的语义信息和韵律信息相同，但是每条语音数据的音色和/或语种不相同。

2、在游戏内个性化系统提示音生成场景中：游戏内时常需要系统提示音引导用户进行下一步的动作或者对用户行为进行评价。此时，可以基于本申请实施例提供的语音数据的获取方法获取不同音色的系统提示音，从而增强用户体验，在一定程度上还可以减轻声音工作者的工作量。

示例性地，将游戏中的系统提示音设置为任意音色的语音数据。

3、在音频设计场景中，音频设计是游戏设计的重要部分，对于音频设计师而言，在早期阶段对游戏中的虚拟对象(如NPC(Non-Player Character，非玩家角色))的性格、音色、语音内容的把握至关重要。采用本申请实施例提供的语音数据的获取方法能够在音频设计阶段为游戏中的虚拟对象指定音色，从而后续在为该虚拟对象设计音频时，音频的音色为指定的音色，从而可以提升对音频设计的整体把控性。

需要说明的是，本申请实施例提供的语音数据的获取方法还可以应用在其他场景中，在此不再一一赘述。

上述方法基于样本语音数据获取到的一阶特征向量和二阶特征向量，对多媒体资源进行处理，得到目标语音数据。其中，基于样本语音数据获取到的一阶特征向量和二阶特征向量分别为样本语音数据的音色的平均特征和标准差特征，由于样本语音数据的音色的平均特征和标准差特征是样本语音数据的音色对应的较为平稳的特征，从而使得获取到的目标语音数据的音色与样本语音数据的音色的匹配度较高，获取到的目标语音数据的音色保真度较高。

响应于多媒体资源为文本内容时，图3所示为本申请实施例提供的一种语音数据的获取过程示意图。在图3中，语音合成模型包括文本-频谱映射单元和音色建模单元。可选地，语音合成模型可以为Fastspeech模型(一种语音处理模型)，可以为Tacotron模型(一种语音处理模型)，也可以为DuRIAN模型(一种语音处理模型)，还可以为其他类型的模型，本申请实施例对此不加以限定。

步骤301，获取文本内容和目标音色标识。

可选地，获取文本内容和目标音色标识的过程与上述步骤201的过程一致，在此不再赘述。

步骤302，通过文本前端分析模块对文本内容进行分析，得到文本内容对应的初始特征向量。

可选地，获取文本内容对应的初始特征向量的过程与上述步骤203的过程一致，在此不再赘述。

步骤303，将目标音色标识输入音色建模单元，得到目标音色标识对应的一阶特征向量和二阶特征向量。

可选地，获取一阶特征向量和二阶特征向量的过程与上述步骤202的过程一致，在此不再赘述。

步骤304，将文本内容对应的初始特征向量、一阶特征向量和二阶特征向量输入文本-频谱映射单元，得到文本内容对应的频谱特征。

可选地，获取文本内容对应的频谱特征包括：基于初始特征向量、一阶特征向量和二阶特征向量，获取文本内容对应的目标特征向量，基于目标特征向量获取文本内容对应的频谱特征。该过程与上述步骤203的过程一致，在此不再赘述。

步骤305中，将文本内容对应的频谱特征输入声码器，基于声码器的输出结果，得到与样本语音数据的音色匹配的目标语音数据。

可选地，获取与样本语音数据的音色匹配的目标语音数据的过程与上述步骤203的过程一致，在此不再赘述。

上述语音合成模型的训练在Nvidia Tesla V100机器(一种深度学习机器)上进行，batchsize(批次大小)设置为32(表示一次性可以获取32个多媒体资源对应的语音数据)。整个优化过程采用Adam优化器(一种优化器)，模型迭代步数为30万步起。

可选地，语音合成模型训练完毕之后，将语音合成模型部署在cpu(CentralProcessing Unit，中央处理器)服务器上，服务器配置为Intel(R)CPU E5-2620v3(一种服务器的配置信息)，内存大小为60G(千兆)。

响应于多媒体资源为参考语音数据时，图4所示为本申请实施例提供的一种语音数据的获取过程示意图。在图4中，语音转换模型包括音素后验特征-频谱映射单元和音色建模单元。可选地，语音转换模型可以为Fastspeech模型(一种语音处理模型)，可以为Tacotron模型(一种语音处理模型)，也可以为DuRIAN模型(一种语音处理模型)，还可以为其他类型的模型，本申请实施例对此不加以限定。

步骤401，获取参考语音数据和目标音色标识。

可选地，获取参考语音数据和目标音色标识的过程与上述步骤201的过程一致，在此不再赘述。

步骤402，通过音素后验概率模型对参考语音数据进行处理，得到参考语音数据对应的初始特征向量。

可选地，获取参考语音数据对应的初始特征向量的过程与上述步骤203的过程一致，在此不再赘述。

步骤403，将目标音色标识输入音色建模单元，得到目标音色标识对应的一阶特征向量和二阶特征向量。

步骤404，将参考语音数据对应的初始特征向量、一阶特征向量和二阶特征向量输入音素后验特征-频谱映射单元，得到参考语音数据对应的频谱特征。

可选地，获取参考语音数据的频谱特征包括：基于初始特征向量、一阶特征向量和二阶特征向量，获取参考语音数据对应的目标特征向量，基于目标特征向量获取参考语音数据对应的频谱特征。该过程与上述步骤203的过程一致，在此不再赘述。

步骤405，将参考语音数据对应的频谱特征输入声码器，基于声码器的输出结果，得到与样本语音数据的音色匹配的目标语音数据。

其中，目标语音数据的音色与参考语音数据的音色不匹配。该过程与上述步骤203的过程一致，在此不再赘述。

上述语音转换模型的训练在Nvidia Tesla V100机器上进行，batchsize设置为32。整个优化过程采用Adam优化器，模型迭代步数为30万步起。

可选地，语音转换模型训练完毕之后，将语音转换模型部署在cpu服务器上，服务器配置为Intel(R)CPU E5-2620 v3(一种服务器的配置信息)，内存大小为60G。

图5所示为本申请实施例提供的一种语音数据的获取方法的流程图，如图5所示，该方法包括下述步骤。

步骤501，获取多媒体资源，多媒体资源为文本内容/参考语音数据。

可选地，获取多媒体资源的过程与上述步骤201的过程一致，在此不再赘述。

步骤502，将多媒体资源输入编码器，得到多媒体资源对应的初始特征向量。

可选地，获取多媒体资源对应的初始特征向量的过程与上述步骤203的过程一致，在此不再赘述。

步骤503，获取目标音色标识。

可选地，获取目标音色标识的过程与上述步骤201的过程一致，在此不再赘述。

步骤504，获取目标音色标识对应的样本语音数据。

可选地，获取目标音色标识对应的样本语音数据的过程与上述步骤201的过程一致，在此不再赘述。

步骤505，基于目标音色标识对应的样本语音数据，获取目标音色标识对应的一阶特征向量和二阶特征向量。

步骤506，基于一阶特征向量和二阶特征向量，对多媒体资源对应的初始特征向量进行处理，得到多媒体资源对应的目标特征向量。

可选地，获取多媒体资源对应的目标特征向量的过程与上述步骤203的过程一致，在此不再赘述。

步骤507，将多媒体资源对应的目标特征向量输入解码器，得到多媒体资源对应的频谱特征。

可选地，获取多媒体资源对应的频谱特征的过程与上述步骤203的过程一致，在此不再赘述。

步骤508，将多媒体资源对应的频谱特征输入声码器，得到与样本语音数据的音色匹配的目标语音数据。

图6所示为本申请实施例提供的一种语音数据的获取装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取多媒体资源和样本语音数据；

获取模块601，还用于基于样本语音数据，获取一阶特征向量和二阶特征向量，一阶特征向量用于表征样本语音数据的音色的平均特征，二阶特征向量用于表征样本语音数据的音色的标准差特征；

处理模块602，用于基于一阶特征向量和二阶特征向量对多媒体资源进行处理，得到与样本语音数据的音色匹配的目标语音数据。

在一种可能的实现方式中，获取模块601，用于获取多媒体资源对应的初始特征向量，初始特征向量用于表征多媒体资源的语义特征；基于初始特征向量、一阶特征向量和二阶特征向量，获取多媒体资源对应的目标特征向量，目标特征向量用于表征多媒体资源的语义特征和样本语音数据的音色特征；基于目标特征向量，获取多媒体资源对应的频谱特征；

处理模块602，用于通过频谱特征获取与样本语音数据的音色匹配的目标语音数据。

在一种可能的实现方式中，获取模块601，用于基于初始特征向量和二阶特征向量，获取多媒体资源对应的参考特征向量，参考特征向量用于表征在初始特征向量中添加样本语音数据的音色的标准差特征之后的特征；基于参考特征向量和一阶特征向量，获取多媒体资源对应的目标特征向量。

在一种可能的实现方式中，获取模块601，用于将初始特征向量和二阶特征向量中相同向量维度的数值相乘，得到多媒体资源对应的参考特征向量；将参考特征向量和一阶特征向量中相同向量维度的数值相加，得到多媒体资源对应的目标特征向量。

在一种可能的实现方式中，多媒体资源为文本内容；

获取模块601，用于对文本内容进行文本分析，得到分析之后的文本内容，文本分析包括分词处理、多音字标注和韵律分析中的至少一种；基于分析之后的文本内容，获取文本内容对应的初始特征向量。

在一种可能的实现方式中，多媒体资源为参考语音数据，参考语音数据的音色与样本语音数据的音色不匹配；

获取模块601，用于将参考语音数据输入目标音素后验概率模型，目标音素后验概率模型用于确定参考语音数据对应的音素后验概率特征；基于参考语音数据对应的音素后验概率特征，获取参考语音数据对应的中间特征向量，中间特征向量用于表征参考语音数据的语义特征和音色特征；基于中间特征向量，获取参考语音数据对应的初始特征向量。

在一种可能的实现方式中，获取模块601，用于基于中间特征向量，获取参考语音数据对应的平均特征向量，平均特征向量用于表征参考语音数据的语义特征和音色特征的平均特征；基于中间特征向量和平均特征向量，确定参考语音数据对应的标准差特征向量，标准差特征向量用于表征参考语音数据的语音特征和音色特征的标准差特征；基于中间特征向量、平均特征向量和标准差特征向量，确定参考语音数据对应的初始特征向量。

在一种可能的实现方式中，中间特征向量包括多个帧向量；

获取模块601，用于对于参考语音数据对应的平均特征向量在第一向量维度的取值，确定中间特征向量包括的多个帧向量中每个帧向量在第一向量维度的取值的平均值；将平均值作为参考语音数据对应的平均特征向量在第一向量维度的取值，第一向量维度为平均特征向量包括的任意一个向量维度。

在一种可能的实现方式中，获取模块601，用于对于参考语音数据对应的标准差特征向量在第一向量维度的取值，基于中间特征向量包括的第一帧向量在第一向量维度的取值和平均特征向量在第一向量维度的取值，确定第一差值，第一帧向量为中间特征向量包括的任意一个帧向量；基于第一差值和中间特征向量包括的向量维度，确定参考语音数据对应的标准差特征向量在第一向量维度的取值。

在一种可能的实现方式中，获取模块601，用于确定中间特征向量和平均特征向量之间的差值特征向量；将差值特征向量和标准差特征向量中相同向量维度的数值相除，得到参考语音数据对应的初始特征向量。

在一种可能的实现方式中，获取模块601，用于确定目标音色标识；获取目标音色标识对应的初始语音数据，初始语音数据的个数为至少一个；对初始语音数据进行语音处理，得到每个初始语音数据对应的样本语音数据，语音处理包括语音端点检测处理和语音分割中的至少一种。

上述装置基于样本语音数据获取到的一阶特征向量和二阶特征向量，对多媒体资源进行处理，得到目标语音数据。其中，基于样本语音数据获取到的一阶特征向量和二阶特征向量分别为样本语音数据的音色的平均特征和标准差特征，由于样本语音数据的音色的平均特征和标准差特征是样本语音数据的音色对应的较为平稳的特征，从而使得获取到的目标语音数据的音色与样本语音数据的音色的匹配度较高，获取到的目标语音数据的音色保真度较高。

应理解的是，上述图6提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本申请一个示例性实施例提供的终端700的结构框图。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语音数据的获取方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端700的前面板，后置摄像头设置在终端700的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8为本申请实施例提供的服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的语音数据的获取方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以使计算机实现上述任一种语音数据的获取方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行，以使计算机实现上述任一种语音数据的获取方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音数据的获取方法，其特征在于，所述方法包括：

获取多媒体资源和样本语音数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述一阶特征向量和所述二阶特征向量对所述多媒体资源进行处理，得到与所述样本语音数据的音色匹配的目标语音数据，包括：

获取所述多媒体资源对应的初始特征向量，所述初始特征向量用于表征所述多媒体资源的语义特征；

基于所述初始特征向量、所述一阶特征向量和所述二阶特征向量，获取所述多媒体资源对应的目标特征向量，所述目标特征向量用于表征所述多媒体资源的语义特征和所述样本语音数据的音色特征；

基于所述目标特征向量，获取所述多媒体资源对应的频谱特征，通过所述频谱特征获取与所述样本语音数据的音色匹配的目标语音数据。

3.根据权利要求2所述的方法，其特征在于，所述基于所述初始特征向量、所述一阶特征向量和所述二阶特征向量，获取所述多媒体资源对应的目标特征向量，包括：

基于所述初始特征向量和所述二阶特征向量，获取所述多媒体资源对应的参考特征向量，所述参考特征向量用于表征在所述初始特征向量中添加所述样本语音数据的音色的标准差特征之后的特征；

基于所述参考特征向量和所述一阶特征向量，获取所述多媒体资源对应的目标特征向量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述初始特征向量和所述二阶特征向量，获取所述多媒体资源对应的参考特征向量，包括：

将所述初始特征向量和所述二阶特征向量中相同向量维度的数值相乘，得到所述多媒体资源对应的参考特征向量；

所述基于所述参考特征向量和所述一阶特征向量，获取所述多媒体资源对应的目标特征向量，包括：

将所述参考特征向量和所述一阶特征向量中相同向量维度的数值相加，得到所述多媒体资源对应的目标特征向量。

5.根据权利要求2至4任一所述的方法，其特征在于，所述多媒体资源为文本内容；

所述获取所述多媒体资源对应的初始特征向量，包括：

对所述文本内容进行文本分析，得到分析之后的文本内容，所述文本分析包括分词处理、多音字标注和韵律分析中的至少一种；

基于所述分析之后的文本内容，获取所述文本内容对应的初始特征向量。

6.根据权利要求2至4任一所述的方法，其特征在于，所述多媒体资源为参考语音数据，所述参考语音数据的音色与所述样本语音数据的音色不匹配；

所述获取所述多媒体资源对应的初始特征向量，包括：

将所述参考语音数据输入目标音素后验概率模型，所述目标音素后验概率模型用于确定所述参考语音数据对应的音素后验概率特征；

基于所述参考语音数据对应的音素后验概率特征，获取所述参考语音数据对应的中间特征向量，所述中间特征向量用于表征所述参考语音数据的语义特征和音色特征；

基于所述中间特征向量，获取所述参考语音数据对应的初始特征向量。

7.根据权利要求6所述的方法，其特征在于，所述基于所述中间特征向量，获取所述参考语音数据对应的初始特征向量，包括：

基于所述中间特征向量，获取所述参考语音数据对应的平均特征向量，所述平均特征向量用于表征所述参考语音数据的语义特征和音色特征的平均特征；

基于所述中间特征向量和所述平均特征向量，确定所述参考语音数据对应的标准差特征向量，所述标准差特征向量用于表征所述参考语音数据的语音特征和音色特征的标准差特征；

基于所述中间特征向量、所述平均特征向量和所述标准差特征向量，确定所述参考语音数据对应的初始特征向量。

8.根据权利要求7所述的方法，其特征在于，所述中间特征向量包括多个帧向量；

所述基于所述中间特征向量，获取所述参考语音数据对应的平均特征向量，包括：

对于所述参考语音数据对应的平均特征向量在第一向量维度的取值，确定所述中间特征向量包括的多个帧向量中每个帧向量在第一向量维度的取值的平均值；

将所述平均值作为所述参考语音数据对应的平均特征向量在第一向量维度的取值，所述第一向量维度为所述平均特征向量包括的任意一个向量维度。

9.根据权利要求8所述的方法，其特征在于，所述基于所述中间特征向量和所述平均特征向量，确定所述参考语音数据对应的标准差特征向量，包括：

对于所述参考语音数据对应的标准差特征向量在第一向量维度的取值，基于所述中间特征向量包括的第一帧向量在第一向量维度的取值和所述平均特征向量在第一向量维度的取值，确定第一差值，所述第一帧向量为所述中间特征向量包括的任意一个帧向量；

基于所述第一差值和所述中间特征向量包括的向量维度，确定所述参考语音数据对应的标准差特征向量在第一向量维度的取值。

10.根据权利要求7所述的方法，其特征在于，所述基于所述中间特征向量、所述平均特征向量和所述标准差特征向量，确定所述参考语音数据对应的初始特征向量，包括：

确定所述中间特征向量和所述平均特征向量之间的差值特征向量；

将所述差值特征向量和所述标准差特征向量中相同向量维度的数值相除，得到所述参考语音数据对应的初始特征向量。

11.根据权利要求1至4任一所述的方法，其特征在于，所述获取样本语音数据，包括：

确定目标音色标识；

获取所述目标音色标识对应的初始语音数据，所述初始语音数据的个数为至少一个；

对所述初始语音数据进行语音处理，得到每个初始语音数据对应的样本语音数据，所述语音处理包括语音端点检测处理和语音分割中的至少一种。

12.一种语音数据的获取装置，其特征在于，所述装置包括：

获取模块，用于获取多媒体资源和样本语音数据；

13.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以使所述电子设备实现如权利要求1至11任一所述的语音数据的获取方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以使计算机实现如权利要求1至11任一所述的语音数据的获取方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行，以使计算机实现如权利要求1至11任一所述的语音数据的获取方法。