CN111599342A

CN111599342A - 音色选择方法和选择系统

Info

Publication number: CN111599342A
Application number: CN201910129942.2A
Authority: CN
Inventors: 黄善洛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2020-08-28

Abstract

本发明实施例提供一种音色选择方法和选择系统，包括：从用户的语音中提取表征用户语音特征的特征向量；根据特征向量对用户进行分类，得到用户所属的用户类别；在多个备选音色中，将和用户类别匹配度最高的音色确定为由文本所转化音频的音色。本发明通过表征用户语音特征的特征向量得到用户所属的用户类别，并依据用户类别实现文本所转化音频音色的自动选择，解决了目前语音合成技术中音色选择自动性较差的技术问题。

Description

音色选择方法和选择系统

技术领域

本发明涉及语音合成的技术领域，具体涉及一种音色选择方法和选择系统。

背景技术

语音合成技术发展显著，已进入从文本到语音(Text To Speech，简称TTS)的阶段。一个成熟的TTS系统可以直接接受文本输入，进行语言学分析和韵律建模，最后合成并输出和文本语义相符的音频结果。目前，TTS系统采用的语音合成技术有如下三种：

(1)拼接合成技术，直接依赖于语音库中的原始语音数据，将语音库中合适的语音单元拼接起来合成最终的音频结果，因而对语音库的规模和质量要求都很高，近年来结合统计学或神经网络技术使得音频结果具有更高的清晰度和更好的自然度。

(2)参数合成技术，首先从输入的文本预测对应的声学特征，然后通过声码器(Vocoder)根据声学特征合成最终的音频结果。相对来说，该技术对语音库的规模要求远低于拼接合成技术，且容错能力更高，但由于音频结果是声码器合成的，音频结果的逼真效果不如拼接合成技术。

(3)端到端技术，利用大量的文本和语音库中的音频数据训练网络模型，通过训练得到的网络模型能直接从文本获得对应文本语义的声学特征，甚至直接得到音频结果。

总体而言，目前的TTS系统可以输出和文本语义相符的音频结果，且具有一定自然度和清晰度。但是，音频结果的音色是取决于语音库中的原始语音数据，为了使输出的音频结果的音色迎合更广泛的用户需求，目前主流TTS系统都会预先准备几种不同性别和不同年龄的音色，然后通过系统默认设置或用户手动选择来为音频结果配置音色。因此，目前语音合成技术中的音色选择存在自动性较差的技术问题。

发明内容

有鉴于此，本发明实施例提供了一种音色选择方法和选择系统，以解决传统语音合成技术中音色选择自动性较差的技术问题。

根据本发明的第一方面，提供一种音色选择方法，包括：

从用户的语音中提取表征所述用户语音特征的特征向量；

根据所述特征向量对所述用户进行分类，得到所述用户所属的用户类别；

在多个备选音色中，将和所述用户类别匹配度最高的音色确定为由文本所转化音频的音色。

可选地，从用户的语音中提取表征所述用户语音特征的特征向量，包括：

将所述用户的语音构建成超向量，并通过通用向量和变换矩阵从所述超向量中解构出表征所述用户语音特征的特征向量，其中，

所述通用向量表征语音中与说话者身份无关部分的信息，所述变换矩阵为将表征用户的语音信息转化为表征用户的语音特征的矩阵。

可选地，将所述用户的语音构建成超向量，并将所述超向量解构为通用向量和特征向量，包括：

通过对训练语音数据的训练，得到通用背景模型和变换矩阵；

将所述通用背景模型各成分的均值信息进行拼接，得到所述通用向量；

从所述用户的语音和所述通用背景模型得到所述用户的高斯混合模型；

将所述高斯混合模型各成分的均值信息进行拼接，得到所述超向量；

将所述超向量和所述通用向量的差值，通过所述变换矩阵进行逆变换，得到所述特征向量。

可选地，根据所述特征向量对所述用户进行分类，得到所述用户所属的用户类别，包括：

将所述特征向量从前馈神经网络的输入层输入到所述前馈神经网络中；

使用所述前馈神经网络对所述用户进行分类后，在所述前馈神经网络的输出层获取所述用户与多个用户类别相匹配的概率，得到多个概率值，其中，所述概率值和所述用户类别一一对应；

在所述多个概率值中，将最大概率对应的所述用户类别确定为所述用户所属的用户类别。

可选地，在所述前馈神经网络的输出层获取所述用户与多个用户类别相匹配的概率，包括：

在所述前馈神经网络的输出层的各个节点，通过柔性最大值函数获取所述用户与所述节点对应用户类别相匹配的概率，其中，所述节点和所述用户类别一一对应。

可选地，所述前馈神经网络为预先通过训练语音数据训练好的网络模型。

可选地，所述选择方法还包括：

获取所述用户通过手动方式选择的喜好音色；

通过所述喜好音色迭代更新所述前馈神经网络，以使所述用户和目标用户类别相匹配的概率值最大，其中，所述目标用户类别和所述多个备选音色的匹配度中，所述喜好音色具有最大匹配度。

根据本发明的第二方面，提供一种音色选择系统，包括：

提取模块，用于从用户的语音中提取表征所述用户语音特征的特征向量；

分类模块，用于根据所述特征向量对所述用户进行分类，得到所述用户所属的用户类别；

确定模块，用于在多个备选音色中，将和所述用户类别匹配度最高的音色确定为由文本所转化音频的音色。

可选地，所述提取模块用于：

利用说话人自适应技术，从所述用户的语音和所述通用背景模型得到所述用户的高斯混合模型；

可选地，所述分类模块用于：

可选地，所述选择系统还包括：

获取模块，用于获取所述用户通过手动方式选择的喜好音色；

更新模块，用于通过所述喜好音色迭代更新所述前馈神经网络，以使所述用户和目标用户类别相匹配的概率值最大，其中，所述目标用户类别和所述多个备选音色的匹配度中，所述喜好音色具有最大匹配度。

根据本发明的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如第一方面任一实施方式所述的音色选择方法。

根据本发明的第四方面，提供一种音色选择装置，包括：

存储器，用于存储计算机指令；

处理器，耦合到所述存储器，所述处理器被配置为基于所述存储器存储的计算机指令执行实现如第一方面任一实施方式所述的音色选择方法。

本发明的实施例具有以下优点或有益效果：

本发明通过从用户的语音中提取表征用户语音特征的特征向量，根据特征向量对用户进行分类，得到用户所属的用户类别；在多个备选音色中，将和用户类别匹配度最高的音色确定为由文本化音频的音色。即，通过表征用户语音特征的特征向量得到用户所属的用户类别，并依据用户类别实现文本所转化音频音色的自动选择，解决了目前语音合成技术中音色选择自动性较差的技术问题。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是根据本发明实施例的音色选择方法的流程图；

图2是根据本发明实施例的利用GMM得到特征向量的实施原理图；

图3是根据本发明实施例的利用GMM得到特征向量的方法流程图；

图4是根据本发明实施例的前馈神经网络的示意图；

图5是根据本发明实施例的根据特征向量对用户进行分类的方法流程图；

图6是根据本发明实施例的音色选择系统的结构框图；

图7是根据本发明实施例的音色选择装置的结构框图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

图1所示是本发明实施例的音色选择方法的流程图。参照图1，音色选择方法包括：

步骤S101，从用户的语音中提取表征用户语音特征的特征向量。

步骤S102，根据特征向量对用户进行分类，得到用户所属的用户类别。

步骤S103，在多个备选音色中，将和用户类别匹配度最高的音色确定为由文本所转化音频的音色。

具体地，该音色选择方法可以应用在语音交互系统中。语音交互系统和使用者进行语音交互的过程中，需要采用语音合成技术将文本信息转化为音频信息，该音色选择方法提供了文本所转化音频的音色选择方法。在语音交互系统中，一般先需要录制用户的语音用于语音识别，可以从此时采集的用户语音中提取用户的语音特征。

上述用户类别，例如按照年龄段划分，则包括儿童、青年、中年和老年，不同年龄段的用户有不同的音色。若根据特征向量对用户进行分类，得出用户所属的用户类别为儿童，则在多个备选音色中，将和儿童音色匹配度最高的音色确定为由文本所转化音频的音色，因而，语音交互系统发出语音的音色更贴近用户语音，用户对该语音交互系统发出语音的音色具有更高的熟悉度和亲切感，更符合用户喜好。

本发明实施例，通过表征用户语音特征的特征向量得到用户所属的用户类别，并依据用户类别实现了文本所转化音频的音色自动选择，解决了目前语音合成技术中音色选择自动性较差的技术问题。

在可选的实施例中，步骤S101，从用户的语音中提取表征用户语音特征的特征向量，包括：

将用户的语音构建成超向量，并通过通用向量和变换矩阵从超向量中解构出表征用户语音特征的特征向量，其中，

通用向量表征语音中与说话者身份无关部分的信息，变换矩阵为将表征用户的语音信息转化为表征用户的语音特征的矩阵。

需要说明的是，本实施例的基本原理为：假定用户的语音可以解构成单纯的语义信息和说话人信息，首先，将用户的语音构建成超向量(Super Vector,简称SV)，超向量中包括语义信息和说话人信息；然后，将超向量解构为通用向量和特征向量，其中，通用向量用于表征语音中与说话者身份无关部分的信息(语义信息)，特征向量用于表征语音中用户的语音特征信息(说话人信息)。

上述实施例，通过从用户的语音中提取到的特征向量，表征用户的语音特征。

高斯混合模型(Gaussian Mixture Model,简称GMM)，是将单个普通的高斯模型加权得到的混合函数，组成其的各个成分为普通的高斯函数乘上常数系数。由于高斯混合模型具有良好的建模能力，常被用于语音声学模型的构建。本发明的一个可选实施例中，利用GMM得到特征向量，图2所示为该方法的实施原理图，图3所示为该方法的流程图。参照图2和图3，将用户的语音构建成超向量，并通过通用向量和变换矩阵从超向量中解构出表征用户语音特征的特征向量，包括：

步骤S301，通过对训练语音数据的训练，得到通用背景模型和变换矩阵。

具体地，对训练语音数据的训练，可以采用GMM训练；进而，训练语音数据即为GMM训练过程中所使用的语音数据；通过训练语音数据训练得到一个完整的GMM，即为通用背景模型(Universal Background Model,简称UBM)。

变换矩阵，又称为全差异空间，是由不同说话人的说话人信息和信道差异信息在空间上的统计分布构成的，它的求解是在设置初始值后，利用训练语音数据进行迭代训练得到的。

步骤S302，将通用背景模型各成分的均值信息进行拼接，得到通用向量。

需要说明的是，将通用背景模型各成分的均值信息进行拼接得到通用向量，即，通用向量的各元素为通用背景模型的各组成成分的均值。

步骤S303，从用户的语音和通用背景模型得到用户的高斯混合模型。

该步骤具体可以利用说话人自适应(Speaker Adaptation，简称SA)技术得到用户的高斯混合模型。说话人自适应技术，是对一个利用初始语音数据训练好的初始模型，用一定的新说话人语音数据(即，自适应数据，Adaptation Data)进行更新，得到对新说话人具有较高建模精度的新模型。上述通用背景模型为利用初始的语音数据训练得到的一个完整GMM，基于说话人自适应技术，利用用户的语音对该通用背景模型进行更新，则得到用户的GMM。

步骤S304，将高斯混合模型各成分的均值信息进行拼接，得到超向量。

需要说明的是，将高斯混合模型各成分的均值信息进行拼接得到超向量，与将通用背景模型各成分的均值信息进行拼接得到通用向量类似，即，超向量的各元素为通用背景模型的各组成成分的均值。

步骤S305，将超向量和通用向量的差值，通过变换矩阵进行逆变换，得到特征向量。

具体地，若将超向量记为s，通用向量记为m，变换矩阵记为T，特征向量记为i，则有：s＝m+Ti。

完成上述用户分类任务有许多有效的算法，这里采用简单的前馈神经网络(Feedforward neural network)，图4所示为前馈神经网络的示意图，前馈神经网络由输入层、隐藏层和输出层组成，隐藏层可包含多层。参照图5，通过前馈神经网络，根据特征向量对用户进行分类，得到用户所属的用户类别，包括：

步骤S501，将特征向量从前馈神经网络的输入层输入到前馈神经网络中。其中，前馈神经网络输入层的节点个数和用户语音特征向量的维度相同。

步骤S502，使用前馈神经网络对用户进行分类后，在前馈神经网络的输出层获取用户与多个用户类别相匹配的概率，得到多个概率值，其中，概率值和用户类别一一对应。

具体地，输出层的节点个数和用户类别的数量相同，且节点和用户类别一一对应，在前馈神经网络的输出层的各个节点，可以通过柔性最大值函数获取用户与节点对应用户类别相匹配的概率。

步骤S503，在多个概率值中，将最大概率对应的用户类别确定为用户所属的用户类别。

本发明实施例结合高效简单的分类算法，为音色选择过程提供了一种适用于用户分类的简单有效的方法。

为了让用户分类更加有效，可以先训练前馈神经网络的网络模型，然后使用训练好的前馈神经网络网络模型对用户进行分类。训练前馈神经网络的网络模型的具体实施方法包括：首先获取一批训练语音数据；然后，根据训练语音数据中的语音判断用户属性，如年龄和性别，并根据上述判断的结果将语音数据标注为某一类型；接着用标注好的语音数据对网络模型进行训练，使得分类准确率达到实际可用的值。

通过上述分类算法判断用户类别并自动依据用户类别选择的音色，可能不完全符合用户的喜好，因此用户可能还会手动重新选择音色，在可选的实施例中，音色选择方法还包括：

获取用户通过手动方式选择的喜好音色；

通过喜好音色迭代更新前馈神经网络，以使用户和目标用户类别相匹配的概率值最大，其中，目标用户类别和多个备选音色的匹配度中，喜好音色具有最大匹配度。

本发明实施例根据用户的喜好音色迭代更新前馈神经网络，使得交互的音频音色符合用户需求的概率逐步提高。

图6所示是本发明实施例的音色选择系统的结构框图。参照图6，音色选择系统包括：

提取模块100，用于从用户的语音中提取表征用户语音特征的特征向量；

分类模块200，用于根据特征向量对用户进行分类，得到用户所属的用户类别；

确定模块300，用于在多个备选音色中，将和用户类别匹配度最高的音色确定为由文本所转化音频的音色。

本发明实施例中，音色选择系统通过表征用户语音特征的特征向量得到用户所属的用户类别，并依据用户类别实现由文本所转化音频的音色的自动选择，解决了目前语音合成技术中音色选择自动性较差的技术问题。

在可选的实施例中，提取模块用于：

将通用背景模型各成分的均值信息进行拼接，得到通用向量；

从用户的语音和通用背景模型得到用户的高斯混合模型；

将高斯混合模型各成分的均值信息进行拼接，得到超向量；

将超向量和通用向量的差值，通过变换矩阵进行逆变换，得到特征向量。

在可选的实施例中，分类模块用于：

将特征向量从前馈神经网络的输入层输入到前馈神经网络中；

使用前馈神经网络对用户进行分类后，在前馈神经网络的输出层获取用户与多个用户类别相匹配的概率，得到多个概率值，其中，概率值和用户类别一一对应；

在多个概率值中，将最大概率对应的用户类别确定为用户所属的用户类别。

在可选的实施例中，分类模块用于：

在前馈神经网络的输出层的各个节点，通过柔性最大值函数获取用户与节点对应用户类别相匹配的概率，其中，节点和用户类别一一对应。

在可选的实施例中，前馈神经网络为预先通过训练语音数据训练好的网络模型。

在可选的实施例中，音色选择系统还包括：

获取模块，用于获取用户通过手动方式选择的喜好音色；

更新模块，用于通过喜好音色迭代更新前馈神经网络，以使用户和目标用户类别相匹配的概率值最大，其中，目标用户类别和多个备选音色的匹配度中，喜好音色具有最大匹配度。

本发明一实施例的音色选择装置，包括：

存储器，用于存储计算机指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的计算机指令执行上述的音色选择方法。

图7示出的设备仅仅是音色选择装置的一个示例，不应对本发明实施例的功能和使用范围构成任何限制。参考图7，该音色选择装置包括通过总线连接的处理器701、存储器702和输入输出设备703。存储器702包括只读存储器(ROM)和随机访问存储器(RAM)，存储器702内存储有执行系统功能所需的各种计算机指令和数据，处理器701从存储器702中读取各种计算机指令以执行各种适当的动作和处理。输入输出设备703包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。存储器702还存储有以下的计算机指令以完成本发明实施例的音色选择方法规定的操作：从用户的语音中提取表征用户语音特征的特征向量；根据特征向量对用户进行分类，得到用户所属的用户类别；在多个备选音色中，将和用户类别匹配度最高的音色确定为由文本所转化音频的音色。

相应地，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令被执行时实现上述音色选择方法所规定的操作。

附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

系统的各个模块或单元可以通过硬件、固件或软件实现。软件例如包括采用JAVA、C/C++/C#、Python及SQL等各种编程语言形成的编码程序。虽然在方法以及方法图例中给出本发明实施例的步骤以及步骤的顺序，但是步骤实现规定的逻辑功能的可执行指令可以重新组合，从而生成新的步骤。步骤的顺序也不应该仅仅局限于方法以及方法图例中的步骤顺序，可以根据功能的需要随时进行调整。例如将其中的某些步骤并行或按照相反顺序执行。

根据本发明的系统和方法可以部署在单个或多个服务器上。例如，可以将不同的模块分别部署在不同的服务器上，形成专用服务器。或者，可以在多个服务器上分布式部署相同的功能单元、模块或系统，以减轻负载压力。服务器包括但不限于在同一个局域网以及通过Internet连接的多个PC机、PC服务器、刀片机或超级计算机等。

以上仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音色选择方法，其特征在于，包括：

从用户的语音中提取表征所述用户语音特征的特征向量；

2.根据权利要求1所述的选择方法，其特征在于：从用户的语音中提取表征所述用户语音特征的特征向量，包括：

3.根据权利要求2所述的选择方法，其特征在于：将所述用户的语音构建成超向量，并通过通用向量和变换矩阵从所述超向量中解构出表征所述用户语音特征的特征向量，包括：

4.根据权利要求1所述的选择方法，其特征在于：根据所述特征向量对所述用户进行分类，得到所述用户所属的用户类别，包括：

5.根据权利要求4所述的选择方法，其特征在于：在所述前馈神经网络的输出层获取所述用户与多个用户类别相匹配的概率，包括：

6.根据权利要求4所述的选择方法，其特征在于：所述前馈神经网络为预先通过训练语音数据训练好的网络模型。

7.根据权利要求4所述的选择方法，其特征在于：还包括：

获取所述用户通过手动方式选择的喜好音色；

8.一种音色选择系统，其特征在于，包括：

9.根据权利要求8所述的选择系统，其特征在于：所述提取模块用于：

10.根据权利要求9所述的选择系统，其特征在于：所述提取模块用于：

11.根据权利要求8所述的选择系统，所述分类模块用于：

12.根据权利要求11所述的选择系统，其特征在于：所述分类模块用于：

13.根据权利要求11所述的选择系统，其特征在于：所述前馈神经网络为预先通过训练语音数据训练好的网络模型。

14.根据权利要求11所述的选择系统，其特征在于：还包括：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如权利要求1至7任一项所述的音色选择方法。

16.一种音色选择装置，其特征在于，包括：

存储器，用于存储计算机指令；

处理器，耦合到所述存储器，所述处理器被配置为基于所述存储器存储的计算机指令执行实现如权利要求1-7中任一项所述的音色选择方法。