CN111048062B

CN111048062B - 语音合成方法及设备

Info

Publication number: CN111048062B
Application number: CN201811179456.3A
Authority: CN
Inventors: 邓利群; 魏建生; 孙文华
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2022-10-04
Anticipated expiration: 2038-10-10
Also published as: CN111048062A; EP3859731A1; US11361751B2; EP3859731A4; WO2020073944A1; US20210287657A1

Abstract

本申请提供了情感语音合成方法及设备，该方法通过对目标合成文本设置情感强度特征向量，并将情感强度特征向量通过声学模型来生成对应情感强度的声学特征向量，基于声学特征向量合成对应情感强度的语音。所述情感强度特征向量为连续可调，根据不同的情感强度特征向量的取值可以生成不同强度的情感语音，使得合成语音的情感类型更加丰富。本申请可应用于人工智能(AI)领域的人机交互过程中，进行智能化的情感语音合成。

Description

语音合成方法及设备

技术领域

本发明涉及语音处理领域，尤其涉及语音合成方法及设备。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能

随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。近年来，语音合成技术取得了极大进步，机器语音播报在智能移动终端、智能家居、车载音响等设备上得以广泛应用。人们对语音合成的要求也不再仅仅是“能听清”，而是转变成“高度逼真，富有情感”，合成语音的质量成为衡量智能语音产品竞争力的一大重要因素。

现有语音合成技术虽然已能生成高度逼真自然的情感语音，如用高兴的口吻说“又是周末了，太好了”，用悲伤的语气说“昨天我把手机给弄丢了”，用惊奇的声音输出“哇，这株植物开花了”等等，但这些情感语音合成技术采用的数据驱动的方式，即若要合成“高兴”的语音，则收集“高兴”的语料并构建一个表征“高兴”情感标签的声学模型或拼接数据库，继而利用这个模型(或数据库)合成“高兴”的语音。

相比上述合成不同情感类型的语音需求而言，如何合成具有不同情感强度的语音是语音合成更进一步的需求，同时也是当前语音合成领域的一大技术难题。比如，对于高兴的语音，人耳可以分辨出兴奋、高兴、愉悦等不同的高兴程度，而这种情感强度的表示对于计算机而言却很是挑战。现有的情感语音合成技术大多采用数据驱动方式，即通过采集大量各个情感类型的语音数据，并利用这些数据分别对各类情感进行建模，生成各个不同情感对应的声学参数模型或者对各不同情感类型分别建立情感语音片段数据库，从而使用基于参数合成的技术或者单元拼接技术合成目标情感语音。或者，现有的情感语音合成技术也有使用简单程度分类的表示法来标识情感强度，比如，根据听者主观感觉，将语音片段的情感强度标注为“轻度”、“中度”、“重度”等少量几个简单级别，继而分别对不同情感类别的少量强度等级的语音数据进行建模以生成对应级别的语音。而事实上人类对情感强度的感知是连续的，很难定义或者也可以说不存在不同情感强度的边界，因而现有的情感强度表示的语音合成系统所合成的语音难以体现出实际的情感语音在情感强度上的连续性。

发明内容

本发明实施例提供了情感强度可被连续调节的情感语音合成方法及设备，通过从原始情感语音音频中提取情感相关的声学统计特征参数来生成构建一个连续的情感强度特征向量集合，每个具体的情感强度便是该参数集合中的相应参数数值。在合成时，基于不同的情感强度特征向量可合成出相应情感强度的语音。因为情感强度特征向量具有可连续调节特性，由此本发明实施例可实现语音合成过程中的情感强度连续可调节性，能够使得语音合成的情感强度更丰富多样，还能够根据用户需求合成出不同情感强度的情感语音。

本发明实施例提供一种语音合成方法，包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；根据所述情感类型选择对应所述情感类型的声学模型；确定所述目标文本的情感强度特征向量；将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

上述方法将声学模型按照不同的情感类型进行分类，根据情感类型选择对应的声学模型，并通过情感强度特征向量的设置，能够方便灵活的生成特定情感类型下不同情感强度的合成语音，使得合成语音的情感类型更为细腻，且可以根据不同的参数设置来进行变化调整。

可选的，所述声学模型是以所述对应情感类型的训练样本的文本特征参数和情感强度特征向量为输入，所述训练样本的声学特征向量为输出训练获得。

可选的，所述情感强度特征向量是通过所述训练样本的声学统计特征向量降维获得。

可选的，确定所述目标文本的情感强度特征向量，具体包括，接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的。

可选的，确定所述目标文本的情感强度特征向量，具体包括，分析目标文本确定情感强度特征向量。

上述方法还通过在相应情感类型声学模型的训练过程中加入情感特征参数，使得所训练出来的声学模型可以基于不同的情感强度特征向量，生成出各种情感强度的声学特征。此外，通过降维处理，使得情感强度特征向量的纬度较小，降低情感强度语音合成的复杂度，增强在现实应用中的情感强度调整的可操控性。

可选的，所述文本特征参数包括，文本正则化、分词、词性标注、语法分析、韵律预测、字音转换、时长信息中的一个或者多个。

可选的，所述情感强度特征向量为3维特征向量。

上述方法通过降维处理，将情感强度特征向量设置为3维向量，构建情感强度特征空间，降低情感强度语音合成的复杂度，增强在现实应用中的情感强度调整的可操控性。

可选的，所述目标声学特征向量为对数基频、线谱对参数、清浊音标志中的一个或多个。

可选的，所述目标声学特征向量为对数基频(1维)、线谱对参数(41维)、清浊音标志(1维)中的一个或多个。

可选的，所述声学模型可以通过深度神经网络训练获得。

可选的，所述训练样本的情感强度特征向量是通过所述训练样本的声学特征向量统计值降维获得，包括：对所述训练样本获取情感强度相关的声学特征向量统计值；其中，所述情感强度相关的声学特征向量统计值包括：能量平均值、能量最大值、能量变化幅值、语速平均值、对数基频平均值、对数基频最大值、对数基频变化幅值；所述训练样本为N个，N>1；将所述N个训练样本的所述情感强度相关的声学特征向量统计值转化为 3维情感强度特征向量。

本发明实施例还提供一种语音合成方法，方法包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；确定目标文本的情感强度特征向量；将所述文本特征参数、所述目标文本的情感类型和所述情感强度特征向量输入声学模型得到目标声学特征向量；基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

上述方法通过情感强度特征向量的设置，能够方便灵活的生成特定情感类型下不同情感强度的合成语音，使得合成语音的情感类型更为细腻，且可以根据不同的参数设置来进行变化调整。

可选的，所述情感强度特征向量为3维特征向量。

可选的，所述声学模型可以通过深度神经网络训练获得。

本发明实施例还提供一种情感语音声学特征获取设备，所述情感语音声学特征获取包括：至少一个处理器以及与所述至少一个处理器耦合的存储器，其中：存储器，包括可以由至少一个处理器运行以执行功能的指令；所述功能包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；根据所述情感类型选择对应所述情感类型的声学模型；接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的；或分析目标文本确定情感强度特征向量；将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量。

可选的，所述声学模型是机器学习模型。

本发明实施例还提供情感语音声学特征获取设备，所述情感语音声学特征获取设备包括：至少一个处理器以及与所述至少一个处理器耦合的存储器，其中：存储器，包括可以由至少一个处理器运行以执行功能的指令；所述功能包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的；或分析目标文本确定情感强度特征向量；将所述文本特征参数、所述目标文本的情感类型和所述情感强度特征向量输入声学模型得到目标声学特征向量。

可选的，所述声学模型是以训练样本的情感类型、文本特征参数和情感强度特征向量为输入，所述训练样本的声学特征向量为输出训练获得。

本发明实施例还提供一种语音合成设备，所述情感语音声学特征获取包括：至少一个处理器以及与所述至少一个处理器耦合的存储器，声码器，其中：存储器，包括可以由至少一个处理器运行以执行功能的指令；所述功能包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；根据所述情感类型选择对应所述情感类型的声学模型；接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的；或分析目标文本确定情感强度特征向量；将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；声码器，用于根据所获得的目标声学特征向量合成情感语音。

上述设备通过将声学模型按照不同的情感类型进行分类，根据情感类型选择对应的声学模型，并通过情感强度特征向量的设置，能够方便灵活的生成特定情感类型下不同情感强度的合成语音，使得合成语音的情感类型更为细腻，且可以根据不同的参数设置来进行变化调整。

可选的，所述声学模型是机器学习模型。

通过在相应情感类型声学模型的训练过程中加入情感特征参数，使得所训练出来的声学模型可以基于不同的情感强度特征向量，生成出各种情感强度的声学特征。同时，通过降维处理，使得情感强度特征向量的纬度较小，降低情感强度语音合成的复杂度，增强在现实应用中的情感强度调整的可操控性。

本发明实施例还提供语音合成设备，所述情感语音声学特征获取设备包括：至少一个处理器以及与所述至少一个处理器耦合的存储器，声码器，其中：存储器，包括可以由至少一个处理器运行以执行功能的指令；所述功能包括：获取目标文本的文本特征参数；获取所述目标文本的情感类型；接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的；或分析目标文本确定情感强度特征向量；将所述文本特征参数、所述目标文本的情感类型和所述情感强度特征向量输入声学模型得到目标声学特征向量；声码器，用于根据所获得的目标声学特征向量合成情感语音。

通过在声学模型的训练过程中加入情感特征参数，使得所训练出来的声学模型可以基于不同的情感强度特征向量，生成出各种情感强度的声学特征。同时通过降维处理，使得情感强度特征向量的纬度较小，降低情感强度语音合成的复杂度，增强在现实应用中的情感强度调整的可操控性。

本发明实施例还提供一种语音合成设备，包括：文本特征获取模块，用于获取目标文本的文本特征参数；情感类型设置模块，用于获取所述目标文本的情感类型；情感强度设置模块，用于确定所述目标文本的情感强度特征向量；声学模型获取模块，用于根据所述情感类型选择对应所述情感类型的声学模型，将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；声码器，用于基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

可选的，情感强度设置模块，用于确定所述目标文本的情感强度特征向量，具体包括，接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的。

可选的，情感强度设置模块，用于确定所述目标文本的情感强度特征向量，具体包括，分析目标文本确定情感强度特征向量。

可选的，所述训练样本的情感强度特征向量是通过所述训练样本的声学特征向量统计值降维获得。

本发明实施例还提供一种语音合成设备，文本特征获取模块，用于获取目标文本的文本特征参数；情感类型设置模块，用于获取所述目标文本的情感类型；情感强度设置模块，用于确定所述目标文本的情感强度特征向量；声学模型获取模块，用于将所述文本特征参数和所述情感强度特征向量，目标文本情感类型输入所述声学模型得到目标声学特征向量；声码器，用于基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

本发明实施例还提供一种语音合成系统，包括：终端和服务器；所述服务器用于基于一种或多种情感类型的训练样本进行一种或多种情感类型的声学模型训练，并将所述一种或多种情感类型的声学模型发送给终端。

所述终端用于获取目标文本的文本特征参数；获取所述目标文本的情感类型；根据所述情感类型选择对应所述情感类型的声学模型；确定所述目标文本的情感强度特征向量；将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

上述系统通过将声学模型按照不同的情感类型进行分类，根据情感类型选择对应的声学模型，并通过情感强度特征向量的设置，能够方便灵活的生成特定情感类型下不同情感强度的合成语音，使得合成语音的情感类型更为细腻，且可以根据不同的参数设置来进行变化调整。

本发明实施例还提供一种语音合成系统，包括：终端和服务器；所述服务器用于基于多种情感类型的训练样本进行声学模型训练，并将所述训练得到的声学模型发送给终端。

所述终端用于获取目标文本的文本特征参数；获取所述目标文本的情感类型；确定目标文本的情感强度特征向量；将所述文本特征参数、所述目标文本的情感类型和所述情感强度特征向量输入声学模型得到目标声学特征向量；基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；所述声学模型是机器学习模型。

上述系统通过情感强度特征向量的设置，能够方便灵活的生成特定情感类型下不同情感强度的合成语音，使得合成语音的情感类型更为细腻，且可以根据不同的参数设置来进行变化调整。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述语音合成方法。

本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述语音合成方法。

可以看到，实施本发明实施例的技术方案，能够通过情感强度特征向量的设置来合成不同情感强度效果的语音，所述合成的语音的情感强度效果是连续可调的，可以满足用户多样化的需求，生成各种情感强度的语音。此外，将降维后所生成的情感强度特征向量用于声学模型的训练，使得所获得的声学模型的情感强度调整更为简便可控，最大化提升用户交互体验。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1A是本发明实施例的一种自然语言处理系统示意图；

图1B是本发明实施例的自然语言处理系统的另一种实现方式示意图；

图2是本发明实施例的一种包含模型训练的系统架构的示意图；

图3是图2中的语音合成装置的一种具体实现方式的示意图；

图4是图2中的语音合成模块的另一种具体实现方式的示意图；

图5是本发明实施例进行情感语音合成过程中对待合成文本的文本特征分析的一个示例图；

图6是图2中训练系统220的一种实现流程的示意图；

图7是“高兴”的情感强度特征向量空间构建流程的示意图；

图8是本发明实施例所构建的情感强度特征向量空间的示意图；

图9是本发明实施例的一种情感语音合成方法流程的示意图；

图10是本发明实施例的另一种情感语音合成方法流程的示意图；

图11是本发明实施例提供的一种情感强度特征向量设置方式的示意图；

图12是本发明实施例的一种情感语音声学特征获取设备结构示意图。

具体实施方式

虽然现有语音合成技术已能生成高度逼真自然的情感语音，但这些情感语音合成技术采用的数据驱动的方式，即若要合成“高兴”的语音，则收集“高兴”的语料并构建一个表征“高兴”情感标签的声学模型或拼接数据库，继而利用这个模型(或数据库) 合成“高兴”的语音。但是如何合成不同情感强度的语音依然是当前语音合成领域的一大技术难题。本发明具体实施例则主要用于解决情感强度可调节的情感语音合成问题，使得合成语音的情感强度为连续可调的，可以根据用户的需求进行自主调整，也可以是通过机器分析选择对应的情感强度特征向量来进行情感语音合成。

下面结合本发明实施例中的附图对本发明的具体实现方式进行举例描述。然而本发明的实现方式还可以包括在不脱离本发明的精神或范围的前提下将这些实施例组合，比如采用其它实施例和做出结构性改变。因此以下实施例的详细描述不应从限制性的意义上去理解。本发明的实施例部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

本发明的具体实施例中所提到的功能、模块、特征、单元等的一个或多个结构组成可以理解为由任何物理的或有形的组件(例如，由在计算机设备上运行的软件、硬件(例如，处理器或芯片实现的逻辑功能)等、和/或其它任何组合)以任何方式来实现。在某些实施例中，所示出的将附图中的将各种设备分成不同的模块或单元可以反映在实际实现中使用对应的不同的物理和有形的组件。可选的，本发明实施例附图中的单个模块也可以由多个实际物理组件来实现。同样，在附图中描绘的任何两个或更多个模块也可以反映由单个实际物理组件所执行的不同的功能。

关于本发明实施例的方法流程图，将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如，由在计算机设备上运行的软件、硬件(例如，处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。

以下的说明可以将一个或多个特征标识为“可选的”。该类型的声明不应当被解释为对可以被认为是可选的特征的详尽的指示；即，尽管没有在文本中明确地标识，但其他特征可以被认为是可选的。此外，对单个实体的任何描述不旨在排除对多个这样的实体的使用；类似地，对多个实体的描述不旨在排除对单个实体的使用。最后，术语“示例性的”是指在潜在的许多实现中的一个实现。

为了便于理解本发明实施例的技术方案，首先解释本发明实施例涉及的相关概念。

语音(speech sound)，即语言的声音，是语言交际工具的声波形式。

统计参数语音合成(Statistical Parametric Speech Synthesis)，其工作原理是将需要进行语音合成的文本抽象成语音学特征，然后使用语音学特征来生成待合成文本对应的声学特征，通常这一步骤可以通过用统计学模型学习语音学特征和其语音上的声学特征的对应关系来实现。最后利用声码器将声学特征还原成语音波形。

拼接合成(Unit Selection based Speech Synthesis)，基于波形拼接语音合成，具体为：在语料库中抽取合适的拼接单元构建波形单元库。在合成时便根据待合成文本的语音学特征从波形单元库中选择合适的的拼接单元，拼接成句子。

基频(F0)(Fundamental Frequency)，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基频(用F0表示)，而其他频率较高的正弦波则为泛音。

语速(Speech Rate)，表征的是说话速度的快慢，一般用单位时间内的音节数来衡量。

能量(Energy)，又称强度或音量，代表声音的大小，可由声音讯号的震幅来模拟，震幅越大，代表此声音波形的音量越大。

卷积神经网络，由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在语音识别方面能够给出更好的结果。属于AI领域中常用的一种深度学习结构。

BLSTM(Bidirectional Long Short-Term Memory Network)，LSTM是一种时间递归神经网络，BLSTM即双向的LSTM，是常用的机器学习里一种循环神经网络模型。

声码器(Vocoder)，一种声音信号处理装置或软件，其能将声学特征编码成声音波形。

本发明的应用场景可以有多种，可以是用于针对指定文本合成特定情感强度的语音，即根据用户输入的文本以及情感强度相关信息，合成针对输入文本的特定情感强度的语音。还可以是对用户输入的语音重新基于用户输入的情感强度相关信息生成自定义的新的情感强度的语音。还可以是应用于人机交互场景，即用户输入语句或语音或文本，根据用户输入语句/语音/文本确定回复文本，并基于用户自定义的情感强度相关信息合成回复语音，或者是在人机交互的过程中，智能设备往往会自己分析判断并输入相应情感强度的合成语音，这时若用户对于机器合成并回复的语音不满意，可以输入相应的情感强度特征向量进行合成语音情感强度的调整。

需要明确，本文中所提到的“向量”，可以认为是任意的包括2个或2个以上组成元素的信息集合，其中，元素可以是数值也可以是字母或者符号等。

图1A示出了本发明实施例的一种自然语言处理系统，包括用户设备101a以及数据处理设备102a。

所述用户设备101a可以是个人计算机，笔记本，电脑工作站，智能手机或者其他类型手机，平板电脑型设备，可穿戴设备，机顶盒，游戏终端等终端设备。所述用户设备 101a为自然语言数据处理的发起端，作为语音合成请求的发起方，通常用户通过所述用户设备发起请求。

所述数据处理设备102a可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器，数据处理设备102a的个数可以是一个或者多个，用于共同实现情感语音的合成，当数据处理设备102a为多个的时候，可以是集中放置，也可以在物理空间上分布放置，远距离通信连接。可选的，数据处理设备102a还可以连接有一些其他的网络设备，如数据库，路由器，负载均衡器等，此处在附图中并未示出。用户设备101a和数据处理设备102a之间可以通过多种方式通信连接，包括但不限于广域网，局域网，点到点连接等任意的有线或者无线连接方式。

对于针对指定文本合成特定情感强度的语音的场景，所述数据处理设备102a通过所述交互接口105a接收来自所述用户设备101a的输入文本(目标语音合成文本)，以及用户选择输入情感强度相关信息，所述情感强度相关信息示例性的可以是待合成文本的情感类型和情感强度特征向量，语音合成模块104a基于要合成的文本信息和情感强度相关信息进行语言数据处理获得用于语音合成的声学参数。并基于声学参数进行回复文本的语音合成。其中情感强度相关信息还可以是数据处理设备102a或者是其他设备通过对目标语音合成文本进行分析后获得的，例如通过分析目标语音合成文本的文本内容，或者上下文相关信息来获取目标语音合成文本的情感类型、或情感强度。或者上述信息也可以是部分来自用户输入，部分来自数据处理设备102a或者是其他设备的自主分析。

对于人机交互场景，所述数据处理设备102a通过所述交互接口105a接收来自所述用户设备101a的输入语句/语音/文本，语音合成模块104a基于输入的语句/语音/文本确定回复文本，获取回复文本的情感强度相关信息，所述获取方式同上一场景相同；根据要合成的文本信息和获取的情感强度相关信息进行语言数据处理获得用于语音合成的声学参数。并基于声学参数进行回复文本的语音合成。所述回复文本可以是语音合成模块104a根据输入的语句/语音/文本分析确定后从存储器103a获取的。所述情感强度相关信息示例性的可以是待合成文本的情感类型和情感强度特征向量，用户指定的情感强度相关信息可以是用户预先设置的，也可以是用户在输入语句/语音/文本的同时选定的，或者是用户在获知待合成的回复文本后选择或者自定义的,或者是用户对于智能设备所合成的回复语音的情感类型感觉不满意后手动输入设定的，或者是通过数据处理设备 102a或者是其他设备的自主分析获得的。

数据处理设备102a根据情感强度特征向量，或根据情感强度特征向量和情感类型合成相应的情感强度的语音，可以使得所合成的语音在情感强度上能够更加的细腻丰富。对于用户输入情感强度相关信息的方案，还可以使得所合成的语音在情感强度上能够更加符合用户的需求，也使得所合成的情感语音具有自主可调整性。

如图1B所示为本发明实施例的自然语言处理系统的另一种实现方式。此场景中智能终端101b直接作为数据处理设备，接收来自用户的输入并直接由智能终端101b本身的硬件进行处理，具体情感语音合成过程与图1A相似。所述智能终端101b可以是个人计算机，笔记本，电脑工作站，智能手机，平板电脑型设备，可穿戴设备，机顶盒，游戏控制台等终端设备。所述用户设备101b从交互接口104b接收用户发起的文本信息，以及获取情感强度相关信息，语音合成模块103b基于要合成的文本信息和情感强度相关信息进行语言数据处理获得用于语音合成的声学参数。或者所述用户设备101b从交互接口 104b接收用户的输入语句/语音/文本，语音合成模块103b基于输入的语句/语音/文本从存储器102b获取回复文本，根据要合成的文本信息和获取的情感强度特征向量、情感类型获得相应的声学特征向量，并合成相应的情感强度的语音，可以使得所合成的语音在情感强度上能够更加的细腻丰富。对于用户输入情感强度相关信息的方案，还可以使得所合成的语音在情感强度上能够更加符合用户的需求，也使得所合成的情感语音具有自主可调整性。

其中图1A,1B中的存储器是设置在数据处理设备或者智能终端之中的,在具体的实现过程中所述存储器也可以是一个独立的个体,独立于数据处理设备或者智能终端设置, 或者设置在其他设备中。同样在可能的实现方式中，图1A,1B中的语音合成模块还可以仅生成声学特征向量，将声学特征向量发送给其他设备进行语音合成。图1A,1B中具体的语音合成过程回来后续的实施例中详细介绍。

附图2为本发明实施例的一种包含模型训练的系统架构200，包括有：训练系统220，数据库230，数据采集设备260，用户设备240，语音合成装置270，数据存储系统250。数据采集设备260用于采集样本数据并存入数据库230，训练系统220基于数据库230 中采集的样本数据训练生成声学模型201。数据库230可以使在单个地方提供的或者在多个地点上分布的一个或多个底层的物理存储设备。语音合成装置270可以包括语音合成模块210和I/O接口212，I/O接口212用于接收用户的语音合成请求，语音合成模块 210用于基于语音合成需求合成相应的语音，而数据存储系统250则用于为语音合成系统提供进行语音合成的文本。其中样本数据可以包括：语音数据和/或语音数据对应的内容文本，除此之外，样本数据根据模型训练的需要还可以进一步包括文本特征数据。具体的训练过程和原理会在后续的具体实施例中做示例性说明。

语音合成模块210可以基于I/O接口212的输入来获得需要进行语音合成的文本，语音合成文本的获得和图1A 相似可以是通过用户输入，或者是用户通过语音合成系统从本地或远程数据存储系统250中选择，或者是人机交互过程中用户输入的信息(语音或文字)，或者当前对话的上下文信息从本地或远程数据存储系统250中选择。语音合成文本的情感强度相关信息可以包括情感类型和情感强度特征向量，其获取方式有多种，可以从I/O接口获取，也可以是语音合成装置270分析语音合成文本获得，、会在后续对语音合成系统的示例性描述中详细提到。语音合成模块210使用声学模型201(后续具体实施例描述中计算模块211还可以包括有其他模块)来基于需要进行语音合成的文本，以及其相应的情感强度相关信息获得语音合成文本相应情感强度的声学特征参数，声学特征参数通常表现为多维向量的形式。语音合成模块210使用声码器213基于声学特征参数进行相应情感强度的语音的合成。其中I/O接口212用于接收用户设备240的输入和将合成的特定情感强度的语音输出给用户设备240。声学模型201可以是一个综合的声学模型，也可以是多个不同情感类型的声学模型所共同组成。声学模型的具体生成方式会在后续的具体实示例中详细介绍。

图2所示的语音合成装置270仅为一种模块结构示意图，在实际应用场景中，所述客户设备240可以是用户终端，所述语音合成装置270以及数据存储系统250在客户设备240数据处理能力比较强大时，可以集成在所述客户设备240内。在一些实施例中，也可以将所述语音合成装置270集成在远程处理系统上(例如图1A的数据处理设备102a) 上。或者，也可以将所述语音合成装置270相关功能分布在每个客户设备240和远程处理系统上(例如图1A的数据处理设备102a)，如计算模块211设置于远程处理系统上，声码器设置在客户设备上。所述数据库230、训练系统220以及数据采集设备260也可以根据用户设备的处理能力选择集成在本地设备上，如客户设备240或集成在本地远程处理系统上(例如图1A的数据处理设备102a)，或者可以设置在云上或网络上的其它服务器上，或者设置为独立的设备。

图3是图2中的语音合成装置的一种具体实现方式，图3的语音合成装置300包括文本特征获取模块301，情感设置模块302，声学特征获取模块303，以及声码器304。其中I/O接口模块此处省略，没有示出。

其中文本特征获取模块301主要用于确定需要进行语音合成的文本，并对所确定的文本进行分析生成其对应的文本特征。

文本特征获取模块301可以通过多种方式确定需要进行语音合成的文本，其中主要包括:语音合成的文本的获取为用户自己输入,即用户自己输入需要进行语音合成的文本。语音合成的文本还可以是在人机交互的过程中，根据用户的输入语音确定回复文本，此时的回复文本即为需要进行语音合成的文本。此种情况下可以是智能设备可以通过远程数据库获取需要进行语音合成的文本，或者，智能设备本身根据用户的语音确定回复文本，例如手机或可发声的穿戴式终端上的智能语音助手、智能音箱或可与人对话的智能设备，在与人交流的过程中，根据用户的输入语音确定回复文本。在确定需要进行语音合成的文本后，文本特征获取模块301根据确定的文本进行文本分析生成其对应的文本特征。

当语音合成的文本的获取为用户自己输入,即用户自己输入需要进行语音合成的文本，文本特征获取模块301可以仅包括：特征分析模块3013。

特征分析模块3013，用于对确定的待合成的文本进行文本分析，得到文本特征，得到文本特征的方式，以及所得到的文本特征的类型可以有多种，在此不做特殊限定，示例性的，具体可以是对所确定的文本进行文本正则化、分词、词性标注、语法分析、韵律预测、字音转换、时长信息等分析得到文本特征，文本特征可以包括：音素、音素个数、音节、音节个数、语法词、韵律词、韵律短语、语调短语、时长中的多个。

当需要用于基于用户输入的语音进行语音合成时，文本特征获取模块301还可以包括语音识别模块3011。

语音识别模块3011，用于识别用户输入语音的内容，将语音内容识别成文本，实现“语音”到“文字”的转换。

当用于人机交互场景的语音合成时，文本特征获取模块301还可以包括语音对话模块3012。

语音对话模块3012，语音对话模块3012可用于基于语音识别模块3011输入的识别文本生成回复文本，其中基于识别文本生成回复文本的方式有多种，在此不做限定，示例性的，可以是对识别文本进行语法分析和语义分析，从而理解用户说话(语音)的内容，然后根据用户说话的内容生成对应的回复文本。将回复文本传输至特征分析模块3013；

除上述实现方式外，当需要进行语音合成的文本为用户输入的语音时，即需要对用户输入的语音重新调整起情感强度，则通过语音识别模块3011，对用户输入语音的内容进行识别，将语音内容识别成文本，然后对所识别的文本通过特征分析模块3013进行特征分析。此种情况下文本特征获取模块301可以不用包括语音对话模块3012。

文本特征获取模块301还可以是直接从外部设备获取待合成文本和文本特征参数。此种情况下文本特征获取模块301可以不用包括语音识别模块3011，语音对话模块3012和特征分析模块3013。

情感设置模块302，主要用于确定当前待合成文本的情感类型以及情感强度。其中待合成文本的情感类型或情感强度可以是用户自主判断后输入的取值，也可以是语音合成系统自身通过文本分析确定的。

本发明实施例中所提到的待合成文本，可以是基于用户的输入确定的回复文本，也可以是用户直接输入的用于生成情感强度语音的文本，或者语音对应的文本内容。

情感设置模块302可以包括：情感类型设置模块3021，和情感设置模块3022。各个模块功能描述如下：

(1)情感类型设置模块3021，用于设置待合成文本的情感类型，所述情感类型可以是用户主动选择或者输入设置，也可以是情感类型设置模块3021基于当前待合成文本的内容和/或上下文信息确定的。所述情感类型可以包括，高兴，愤怒，难过，感动，害怕等多种。

(2)情感设置模块3022，用于设置当前待合成文本的情感强度值，所述情感强度值同样可以是用户主动选择或者输入设置的。所述情感强度值可以是轻度，中度，强度，或者还可以包括较轻，非常轻，较强，非常强等不同的情感强度，不同的程度对应不同的情感强度特征向量的取值；所述情感强度值还可以是情感强度向量的形式，根据不同的向量取值来表示不同程度的情感强度。

所述情感强度值还可以是情感设置模块3022通过分析待语音合成文本获得的；所述情感强度值可以是情感强度向量的形式，情感设置模块3022根据文本内容、或者文本上下文、或者预设的判断策略，如不同的关键词对应不同的情感强度类型，来分析文本，并确定相应的情感强度特征向量的取值。

其中，具体的用户对情感强度特征向量设置方式会在后续的实施例中详细说明。

声学特征获取模块303，主要用于使用声学模型3031，基于当前待合成文本的文本特征和情感类型、情感强度特征向量得到当前待合成文本的声学特征向量。声学特征获取模块303包括声学模型3031，声学模型3031可以是通过机器学习获得，其具体的训练方式会在后续的实施例中详细介绍。此处所获得的声学特征向量可以是本领域用于声码器进行声音合成的声学特征向量，声学特征向量的具体类型取决于声学模型训练过程中所使用的声学特征向量，声学特征向量和所使用的声码器香。例如，若使用的是 STRAIGHT声码器，则声学特征向量可以是基频(F0)特征、线谱对参数(LSP)以及请浊音标志(UV)特征等。示例性的，声学特征可以是：

对数基频(Log F0)：1维；

线谱对参数(LSP)：41维；

清浊音标志(UV)：1维。

声码器304，用于从声学特征获取模块303接收声学特征，将声学特征合成出最终的情感语音。

图3中的上述语音合成系统300仅为图2语音合成装置的一种示例，因此同图2中的语音合成装置一样，语音合成系统300在实际应用场景中，可以集成在所述客户设备 240内。在一些实施例中，也可以将语音合成系统300集成在远程处理系统上。或者，也可以将语音合成系统300相关功能分布在每个客户设备和远程处理系统上。本实施例可以使得用户在确定文本情感类型之后，通过参数设置的形式来设定所需合成语音的情感强度。

图4是图2中的语音合成模块的另一种具体实现方式，同样包括：文本特征获取模块401，情感设置模块402，声学特征获取模块403，以及声码器404。

其中文本特征获取模块401、情感设置模块402、声码器404执行和图3中的所描述的同名的模块(301，302，304)相同的功能，因此在此处不再赘述。

声学特征获取模块403，主要用于根据情感设置模块402中所确定的情感类型，选择对应情感类型的声学模型，例如，当确定待合成文本的情感类型为高兴时，则选择对应情感类型为高兴的声学模型，使用选定的声学模型，基于当前待合成文本的文本特征和情感强度特征向量得到当前待合成文本的声学特征向量。声学特征获取模块403包括声学模型选择模块4031、声学模型库4032、声学特征获取子模块4033。其中声学模型库4032包括对应于不同情感类型的多个声学模型，所述对应不同情感类型的多个声学模型，可以是分别基于特定情感类型的样本数据通过机器学习获得，例如情感类型为高兴的声学模型，其训练所使用的样本集则为各种不同情感强度的情感类型为高兴的语音文件及其对应的内容文本，其具体的训练方式会在后续的实施例中详细介绍。声学模型选择模块4031，用于根据待合成文本的情感类型，从声学模型库4032中选择对应情感类型的声学模型。声学特征获取子模块4033用于使用选定的声学模型，基于当前待合成文本的文本特征和情感强度特征向量得到当前待合成文本的声学特征向量。本实施例同样可以使得用户通过参数设置和文本情感类型确定的形式来设定所需合成语音的情感类型及情感强度。

图5是本发明实施例进行情感语音合成过程中对待合成文本的文本特征分析的一个示例图，图中所列举的内容不做为对本发明具体实现方式的限定，在具体的方案实现中，对待合成文本的文本特征分析的内容可以仅仅行图中的部分特征的分析，或者和图中所列举的所需分析的特征的内容不同或者部分分析的特征相同。

文本特征分析的目的是对输入文本进行文本正则化、韵律预测、时长预测等分析，得到文本特征；

文本正则化：将真实文本中的非汉字字符，如阿拉伯数字、英文符号、各种符号等，消除歧义，转化成对应的汉字字符；

分词：在书面汉语中，字与字、词与词是连写的，没有分割标记，所以要通过该分词步骤，将连续的汉语字串分割成词的序列；

词性标注：标注名词、动词、形容词等；

语法分析：分析文本中每个句子的语法和语义结构，确定语义中心，句子的重音位置与语调，从而为韵律处理提供重要信息；

韵律预测：预测句子中不同层级的韵律结构，如韵律词、韵律短语、语调短语。

字音转换：将汉字转换成拼音的过程；

时长信息：预测语音中音节、声韵母、音素、状态等的时长信息；

经过以上步骤处理后得到的文本特征有音素、音素个数、音节、音节个数、语法词、韵律词、韵律短语、语调短语、时长等。该步骤的一个具体实现是，生成的文本特征以音素为单位，每个音素生成一个包含以上特征的特征向量。

图6示出了图2中训练系统220的一种实现流程。在一种实现情况下，训练系统220处理数据库230中的训练样本数据以生成声学模型，其中声学模型可以是一个综合的声学模型，也可以是多个不同情感类型的声学模型所共同组成。在本发明的具体实施方式中，声学模型201可以是通过机器学习来获得，在此不做限定。训练系统220从数据库 230中获取的训练样本数据可以包括：语音数据，和语音数据对应的内容文本，可选的还可以包括文本注音以及韵律标注等文本特征数据。

当训练系统为根据不同的情感类型划分，生成多个不同情感类型的声学模型时，训练过程如下：

S1：文本分析：是对训练样本中的语音数据对应的文本内容进行文本特征分析，所述分析内容全部或部分包括文本正则化、分词、词性标注、语法分析、韵律预测、字音转换、时长信息等特征。此部分的分析方式可以和图3-4语音合成过程中对待合成文本进行的文本分析过程相同，所分析的文本特征内容也相同。具体示例方式已经基于附图 5进行了说明，在此不再赘述。当样本数据中只有语音数据时，可以先对语音数据进行识别，识别为对应的文本信息，然后再进行上述文本特征分析。

S2：情感特征生成：此步骤主要包括，获取语音数据的情感类型，并利用训练样本中的语音数据生成情感强度特征向量，确定每个语音文件对应的情感强度特征向量。其中，训练样本语音数据的情感类型，可以是训练样本信息中自带的，即预先确定的，也可以是训练系统基于训练样本的文本内容分析确定的。所述情感类型可以划分为多种不同类型，示例性的可以划分为高兴，愤怒，难过，感动，害怕等多种。

图7示例性的描述了“高兴”的情感强度特征向量空间的构建流程。其中包括：

S21提取情感相关的声学特征：获取语音数据的情感类型，并对于每个“高兴”训练样本的语音数据，提取其情感相关的声学统计特征，生成声学统计特征向量。

所述与情感相关的声学统计特征不限于语音能量，语速，基频等。本实施例中采用能量、语速和对数基频这三类特征仅为举例，并不是对S21所提取的声学特征类型的限制，上述三类特征的具体参数如表1所示，可以包括语音能量平均值、最大值、变化幅值；语速平均值；对数基频平均值、最大值、变化幅值。也即，对于每个情感类型为“高兴”的训练样本，将生成一个7维的声学统计特征向量，其中变化幅度即为最大值同最小值的差值。假如训练样本集合中有N个“高兴”的训练样本，则S21最终获得一个N*7 的声学统计特征矩阵。

表1

S22对声学统计特征矩阵进行降维获得情感强度特征向量空间；

步骤S22对所获的声学统计特征矩阵进行降维处理，目的在于将声学统计特征矩阵生成低维度的矩阵。降维的方法可使用机器学习中的已有的降维算法，如主成分分析、多维缩放以及等度量映射算法等。

此处，示例性的采用多维缩放(MDS，multidimensional scaling)算法来降维。MDS的特点是在降维的过程中将数据的差异性保持下来，亦即降维让高维空间中的距离关系与低维空间中距离关系保持不变。示例性的，对于步骤S21最终获得的N*7声学统计特征矩阵。假设降维处理的目标维度为3，则MDS的最终计算结果为降维后的特征矩阵Z (Z∈R^N*3)，即Z为一个N*3的特征矩阵，R为实数，其中Z的每一行对应一个样本的7 维情感强度特征降维后的结果，如，Z的第i行即为原始的第i个样本的7维声学统计特征向量降维后的情感强度特征向量,i∈[1,N]。如图8所示，Z所覆盖的三维空间即为情感强度特征空间，(MDS1，MDS2，MDS3)为Z所覆盖的三维空间的3个特征维度。而每个情感强度特征向量便可以定义为该空间中的一个点。如图8所示，强度相近的样本在特征空间中也是相邻的。此种降维方式获得的3维情感强度特征向量中，情感强度同第一、二维特征(即MDS1和MDS2)正相关，而同第三维特征(MDS3)负相关，即情感强度会随着第一、第二维数值得增加而增强，会随着第三维数值的增加而减弱。

此处的3维向量仅为一种实现方式，所述降维步骤也可以生成其他维度数量的情感强度特征向量。

通过步骤S22所获的特征矩阵进行降维处理可以使得情感强度和向量数值之间的关系更为直观可调。

图7仅为对“高兴”情感的情感强度特征向量空间的构建流程，其他情感类型的情感强度特征向量空间的构建流程也是相类似的，在此不一一例举，此外除了对多个样本进行统一的提取声学特征和降维处理，也可以针对特定情感类型分别对单个的样本进行声学特征分析和降维处理。此处所列举和生成的向量纬度和降维方法在具体的实际应用中可以根据需求进行调整维度和选择降维算法。当使用不同的降维算法以及选择不同的情感强度特征向量维度，调整维度所带来的情感强度变化效果会有不同。

通过降维处理，也使得声学模型训练所采用的情感强度特征向量更为简单，增加了所获得的声学模型的情感强度设定的可操控性。

S3：语音文件声学特征提取。

具体包括：对每个训练样本(语音文件)，提取对应的声学特征向量；此步骤所述的声学特征向量为语音合成时需要的声学特征向量，通常以可用于提供给声码器用于生成相应的语音文件为衡量标准。比如，若使用的是STRAIGHT声码器，则声学特征可以是基频(F0)特征、线谱对参数(LSP)以及请浊音标志(UV)特征等。在本发明实施例的一个具体实现中，其特征参数及其维度如下所示：

对数基频(Log F0)：1维；

线谱对参数(LSP)：41维；

清浊音标志(UV)：1维：。

S4：声学模型训练。

具体包括：该步骤以S1和S2分别生成的某一情感类型的训练样本的文本特征和情感强度特征向量作为输入，S3所提取的此类情感类型的训练样本的声学特征作为输出，通过机器学习的方式训练此类情感类型的声学模型。

声学模型示例性的可以采用基于BLSTM的深度神经模型来训练获得。对于每个语音训练样本，由内容文本所生成的文本特征和经S2生成的该语音文件对应的情感强度特征向量拼接而成特征矩阵作为该声学模型的输入，而S3所生成的声学特征向量矩阵作为该声学模型的输出。通过大量的训练语音样本，该声学模型不断更新模型参数，直到达到目标训练条件为止。此外，声学模型还可以通过神经网络模型训练得到，具体包括深度神经网络模型，如卷积神经网络，或者其它机器学习方式获得，如隐马尔可夫模型HMM 等。

多种情感类型划分，则生成多个不同情感类型的声学模型。在使用过程中根据所确定的目标合成文本的情感类型选择使用不同的声学模型。

训练系统除了可以基于同一情感类型的训练样本分别训练不同情感类型的声学模型外，还可以为，基于各种情感类型的样本构建综合的声学模型。此种方案下步骤S1，S3不变，步骤S2，S4为：

S2：情感特征生成：此步骤主要包括，获取语音数据的情感类型，并利用训练样本中的语音数据生成情感强度特征向量，确定每个语音文件对应的情感强度特征向量。

S21获取各类情感类型的训练样本，并提取情感相关的声学特征：对于每个训练样本的语音数据，记录其情感类型，并提取其情感相关的声学统计特征，生成声学统计特征向量。所述生成声学统计特征向量的方式和基于同一情感类型的训练样本生成声学统计特征向量的方式相同。

S22对声学统计特征矩阵进行降维并生成情感强度特征向量空间；

步骤S22对所获的声学特征矩阵进行降维处理，目的在于将声学特征矩阵生成低维度的矩阵。降维的方法可使用机器学习中的已有的降维算法，如主成分分析、多维缩放以及等度量映射算法等等。

S4：声学模型训练。

具体包括：该步骤以S1和S2分别生成的训练样本的文本特征和情感强度特征向量，以及训练样本的情感类型作为输入，S3所提取的此训练样本的声学特征作为输出，通过机器学习的方式训练出综合情感类型的声学模型。

通过多个情感类型训练样本生成综合的声学模型。在使用过程中以所确定的目标合成文本的情感类型和所设定的情感强度特征向量为输入了来获取相应的声学特征向量，以生成所需要的情感强度的语音。

图9为本发明实施例的一种情感语音合成方法流程。具体为基于多个针对不同情感类型训练样本训练获得的语音模型来进行语音合成的方法。

S901，获取目标文本的文本特征参数；

具体包括，目标文本即为待语音合成文本，当应用于针对用户输入的文本进行语音合成时，目标文本即为用户输入的的文本。当应用于人机交互场景时，智能设备根据用户发送的语音，识别用户输入语音的内容，将语音内容识别成文本，实现“语音”到“文字”的转换，基于识别文本确定回复文本，具体确定方式可以是对识别文本进行语法分析和语义分析，从而理解用户说话(语音)的内容，然后根据用户说话的内容生成对应的回复文本。回复文本即为待合成文本。

对待合成的文本进行文本分析，得到文本特征，所述文本特征分析具体可以是对所确定的文本进行文本正则化、分词、词性标注、语法分析、韵律预测、字音转换、时长信息等分析得到文本特征，文本特征可以包括：音素、音素个数、音节、音节个数、语法词、韵律词、韵律短语、语调短语、时长中的多个。多个通常是指2个或2个以上。

S902，获取所述目标文本的情感类型；

具体包括，设置待合成文本的情感类型，所述情感类型可以是用户主动选择或者输入设置，也可以是基于当前待合成文本的内容和/或上下文信息确定的。所述情感类型可以包括，高兴，愤怒，难过，感动，害怕等多种。

S903，根据所述情感类型选择对应所述情感类型的声学模型；

根据所确定的情感类型，选择对应情感类型的声学模型，其中声学模型为预先训练好的，特定情感类型的声学模型的训练方式上文中已经描述过，在此不再赘述。

S904，确定目标文本的情感强度特征向量；

此步骤可包括两种实现方式，

1)接收用户输入的情感强度值，确定对应的情感强度特征向量；

设置当前待合成文本的情感强度特征向量，所述情感强度特征向量同样可以是用户主动选择或者输入设置的。所述情感强度特征向量可以是轻度，中度，强度，或者还可以包括较轻，非常轻，较强，非常强等不同的情感强度；所述情感强度特征向量还可以是情感强度向量的形式，根据不同的向量取值来表示不同程度的情感强度。

具体的情感强度特征向量的设置方式取决于声学模型的训练方式，上文中已经介绍了特定情感类型的声学模型的训练方式，为以特定情感类型的训练样本的文本特征和情感强度特征向量作为输入，所提取的此类情感类型的训练样本的声学特征作为输出，通过机器学习的方式训练此类情感类型的声学模型。因此在语音合成的过程中，情感强度特征向量的形态通常与声学模型训练过程中所使用的情感强度特征向量相同。例如在模型训练的过程中若所使用的情感强度特征向量为一个3维特征向量，Z＝[MDS1，MDS2， MDS3]，且情感强度同第一、二维特征(即MDS1和MDS2)正相关，而同第三维特征(MDS3) 负相关。则，在S904所最终基于用户的输入确定的情感强度特征向量也为一个3维向量，可以是用户直接设置三个相应的参数值，若要增加情感强度，则可调大MDS1与MDS2的值，而调小MDS3值；反之，若要减弱情感强度，则需调小MDS1与MDS2，而增大MDS3。比如，若情感控制向量是[0.368146491,-0.35448816,-0.082456155]，表明它是一个偏中等强度的语句，既不强烈也不微弱。若要增强目标合成文本的情感，则可以将其调整为[4,4,-4]，而减弱情感时调整为[-4,-4,4]。

除了数值的设定方式，情感强度特征向量的设置方式还可以是通过表示由弱逐渐到强的进度轴的方式来设定，如图11所示。如果所述声学模型的训练方式还是如上述示例所示，则图11中不同的位置对应不同的三维向量的数值，此种方式可以不用用户知道不同维度数值和情感强弱之间的变化关系，只需要根据自己需要调整进度条的位置即可。然后基于用户选择的强弱程度由设备来确定其所对应的情感强度特征向量取值。

上述情感强度特征向量只为一种可能的实现方式，情感强度特征向量根据声学模型的训练所采用的样本数据类型，还可以是其它维度的，如2维或者4维等。

2)分析目标文本确定情感强度特征向量；

除了通过用户输入来确定待合成文本的情感强度，还可以通过设备自主分析的方式来确定当前待合成文本的情感强度特征向量。即通过分析待语音合成文本获得的，可以是根据文本内容、或者文本上下文、或者预设的判断策略，如不同的关键词对应不同的情感强度类型，来分析文本，并确定相应的情感强度特征向量的取值。

S905，将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；

具体包括，基于当前待合成文本的文本特征和情感强度特征向量通过所选定的声学模型得到当前待合成文本的声学特征向量。此步骤所获得的声学特征向量类型也是由声学模型决定，即此步骤所获得的声学特征向量类型对应于声学模型在训练的过程中所使用的声学特征向量类型。例如，若在训练过程中所使用的声学特征是：对数基频(Log F0)： 1维，线谱对参数(LSP)：41维，清浊音标志(UV)：1维；则步骤S906通过声学模型所获得的声学特征即为：对数基频(Log F0)：1维，线谱对参数(LSP)：41维，清浊音标志(UV)：1维。

S906，基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；

具体为，通过声码器根据声学特征向量生成相应的目标文本的对应情感强度的语音。

通过上述方法可以实现用户自主对目标语音合成文本的情感强度的设定，同时对情感强度的参数设定为连续可调的，可以生成细微情感强度差异的情感语音，而不是仅能简单的将语音情感类型分为高兴，生气，难过等，或者针对某一情感类型仅能简单划分为，强、较强，弱等有限的几种类型。

图10为本发明实施例的另一种情感语音合成方法流程。具体为基于多种情感类型训练样本训练获得的综合语音模型来进行语音合成的方法。其中S1001，S1002和图9的S901，S902实现过程相同，S1003和图9的S904相同，S1005和图9的S906相同。因此在此仅介绍步骤S1004。

S1004，将所述目标文本的文本特征参数、情感类型、情感强度特征向量输入声学模型得到目标声学特征向量；

因为图10所对应的方法，为基于综合声学模型的语音合成。因此不需要基于目标合成文本的情感类型来选择声学模型。综合声学模型的训练过程上文中已经介绍过，是基于训练样本的情感类型，情感强度特征向量，文本特征通过综合声学模型得到当前待合成文本的声学特征向量。此步骤所获得的声学特征向量类型也是由声学模型决定，即此步骤所获得的声学特征向量类型对应于声学模型在训练的过程中所使用的声学特征向量类型。

此实现方式和图9的方法所使用的声学模型不同，但所达到的技术效果相同，都可以实现用户自主对目标语音合成文本的情感强度的设定，对情感强度的参数设定为连续可调的，可以生成细微情感强度差异的情感语音，而不是仅能简单的将语音情感类型分为高兴，生气，难过等，或者针对某一情感类型仅能简单划分为，强、较强，弱等有限的几种类型。

图12为本发明实施例的一种情感语音声学特征获取设备结构图。如图12示，情感语音声学特征获取设备1200可以包括一个或者多个处理器1201、一个或多个存储器1202。具体实现中，情感语音声学特征获取设备1200还可以进一步包括声码器1211、音频电路1203、输入单元1206、显示单元1209等部件，处理器1201可通过总线分别连接存储器1202、声码器1211、音频电路1203、输入单元1206、显示单元1209等部件。分别描述如下：

处理器1201是情感语音声学特征获取设备1200的控制中心，利用各种接口和线路连接情感语音声学特征获取设备1200的各个部件，在可能实施例中，处理器1201还可包括一个或多个处理单元。处理器1201可通过运行或执行存储在存储器1202内的软件程序(指令)和/或模块，以及调用存储在存储器1202内的数据来执行语音合成，以便于情感语音声学特征获取设备1200对目标文本合成情感语音。

存储器1202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1202还可以包括存储器控制器，以提供处理器1201和输入单元1207对存储器2012的访问。存储器1202可具体用于存储软件程序(指令)、以及用户数据。

音频电路1203可提供情感语音声学特征获取设备1200与用户之间的音频接口，音频电路1203可进一步连接有扬声器1204和传声器1205。一方面，传声器1205可收集用户的声音信号，并将收集的声音信号转换为电信号，由音频电路1203接收后转换为音频数据(即形成用户的输入语音)，再将音频数据传输至处理器1201进行语音处理，另一方面，处理器1201基于用户的输入语音来确定回复文本，并基于回复文本和用户设定的情感强度合成情感语音后，传输至音频电路1203，音频电路1203可将接收到的音频数据(即回复语音)转换后的电信号，进而传输到扬声器1204，由扬声器1204转换为声音信号输出，从而实现将回复语音呈现给用户，从而达到了情感语音声学特征获取设备1200向用户提供指定情感强度德语音的目的。

输入单元1206可用于接收用户输入的情感强度特征向量，或者接收用户指定的需要进行语音合成的文本。具体地，输入单元1207可包括触敏表面1207以及其他输入设备1208。触敏表面1207也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作，并根据预先设定的程式驱动相应的连接装置。具体地，其他输入设备1208可以包括但不限于物理键盘、功能键、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1209可用于显示由用户输入的信息或情感语音声学特征获取设备1200提供给用户的信息(如回复语音的相关标识或者文字)以及情感语音声学特征获取设备1200 的各种图形用户接口，如用于进行情感强度参数输入或者情感强度进度条设置的界面，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体的，显示单元1209可包括显示面板1210，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1210。虽然在图12中，触敏表面1207与显示面板1210是作为两个独立的部件，但是在某些实施例中，可以将触敏表面1207与显示面板1210集成而实现输入和输出功能。

本领域技术人员可以理解，本发明实施例中情感语音声学特征获取设备1200可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，情感语音声学特征获取设备1200还可以进一步包括通信模块、摄像头等，在此不再赘述。

具体的，处理器1201可通过运行或执行存储在存储器1202内的软件程序(指令)、以及调用存储在存储器1202内的数据来实现本发明实施例的情感语音声学特征获取方法，包括：处理器1201获取目标文本的文本特征参数；其中目标文本的文本特征参数的获取可以是直接从其他模块或者其他设备接收获取，也可以是处理器通过分析所述目标文本来获取目标文本的文本特征参数；获取所述目标文本的情感类型；同样获取所述目标文本的情感类型，可以是直接从其他模块或者其他设备接收获取，如用户手动输入，也可以是处理器通过分析文本来获取，其中分析文本可以是分析目标文本内容，也可以是分析目标文本的上下文，或者是两者的结合；根据所述情感类型选择对应所述情感类型的声学模型；获取目标文本的情感强度特征向量；将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量。其中目标文本情感强度特征向量可以是根据用户的输入来获取，如图11所示的类似形式，或者是用户手动输入参数，或者是通过其他模块或者设备通过分析目标文本来判断其情感强度特征向量取值发送给处理器，或者是处理器通过分析目标文本来判断其情感强度特征向量取值来获取。

本发明实施例的处理器1201执行情感语音声学特征获取方法还可以是，处理器1201 获取目标文本的文本特征参数；获取所述目标文本的情感类型；获取目标文本的情感强度特征向量；将所述目标文本的文本特征参数、情感类型、情感强度特征向量输入声学模型得到目标声学特征向量。

本发明实施例的情感语音声学特征获取设备1200还可以进一步包括声码器1211，声码器1211用于基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音。或者也可以是情感语音声学特征获取设备1200将处理器1201获取的情感强度特征向量发送给其他语音合成设备进行情感语音的合成。

处理器1201执行上述情感语音声学特征获取方法的具体实现细节可参考前文的各个方法实施例的相关步骤，这里不再赘述。

需要说明的是，图12仅仅是本发明情感语音声学特征获取设备的一种实现方式，所述情感语音声学特征获取设备1200中处理器1201和存储器1202，在可能的实施例中，还可以是集成部署的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者任意组合来实现。当使用软件实现时，可以全部或者部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网络站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、微波等)方式向另一个网络站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，也可以是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD等)、或者半导体介质(例如固态硬盘)等等。

在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本的文本特征参数；

获取所述目标文本的情感类型；

根据所述情感类型选择对应所述情感类型的声学模型；所述声学模型是以所述对应情感类型的训练样本的文本特征参数和情感强度特征向量为输入，所述训练样本的声学特征向量为输出训练获得的深度神经网络模型；

所述情感强度特征向量是通过所述训练样本的声学统计特征向量降维获得；

接收用户输入的情感强度值，确定对应的情感强度特征向量，所述用户输入的情感强度值是连续可调的；或分析目标文本确定情感强度特征向量；

将所述文本特征参数和所述情感强度特征向量输入所述声学模型得到目标声学特征向量；

基于所述目标声学特征向量合成所述目标文本的对应情感强度的语音；

所述声学模型是机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本的情感类型，包括：

接收用户输入的所述目标文本所对应的情感类型，或分析所述目标文本确定所述目标文本对应的情感类型。

3.根据权利要求1或2所述的方法，其特征在于，所述接收用户输入的情感强度值，确定对应的情感强度特征向量，包括：

接收用户通过交互界面对情感强度区域的选择；

根据所述情感强度区域的选择确定对应的情感强度特征向量。

4.根据权利要求1-2任一项所述的方法，其特征在于，所述情感强度特征向量是通过所述训练样本的声学统计特征向量降维获得，包括：

对所述训练样本获取情感强度相关的声学统计特征向量；

其中，所述情感强度相关的声学统计特征向量包括中的n个，n大于2：能量平均值、能量最大值、能量变化幅值、语速平均值、对数基频平均值、对数基频最大值、对数基频变化幅值；

所述训练样本为N个，N>1；

将所述N个训练样本的所述情感强度相关的声学统计特征向量转化为m维情感强度特征向量,m小于n, m与n均为自然数。

5.根据权利要求1-2任一项所述的方法，其特征在于，所述情感强度特征向量为3维向量。

6.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本的文本特征参数；

获取所述目标文本的情感类型；

将所述文本特征参数、所述目标文本的情感类型和所述情感强度特征向量输入声学模型得到目标声学特征向量；

所述声学模型是以训练样本的情感类型、文本特征参数和情感强度特征向量为输入，所述训练样本的声学特征向量为输出训练获得的深度神经网络模型；

所述声学模型是机器学习模型。

7.根据权利要求6所述的方法，其特征在于，所述获取所述目标文本的情感类型，包括：

8.根据权利要求6或7所述的方法，其特征在于，

所述接收用户输入的情感强度值，确定对应的情感强度特征向量，包括：

接收用户通过交互界面对情感强度区域的选择；

9.根据权利要求6-7任一项所述的方法，其特征在于，所述情感强度特征向量是通过所述训练样本的声学统计特征向量降维获得，包括：

对所述训练样本获取情感强度相关的声学统计特征向量；

所述训练样本为N个，N>1；

10.根据权利要求6-7任一项所述的方法，其特征在于，所述情感强度特征向量为3维向量。

11.一种情感语音声学特征获取设备，其特征在于，所述情感语音声学特征获取包括：

至少一个处理器以及与所述至少一个处理器耦合的存储器，其中：

存储器，包括可以由至少一个处理器运行以执行功能的指令；

所述功能包括：

获取目标文本的文本特征参数；

获取所述目标文本的情感类型；

根据所述情感类型选择对应所述情感类型的声学模型；

所述声学模型是以所述对应情感类型的训练样本的文本特征参数和情感强度特征向量为输入，所述训练样本的声学特征向量为输出训练获得的深度神经网络模型；

其中，所述声学模型是机器学习模型。

12.根据权利要求11所述的设备，其特征在于，所述获取所述目标文本的情感类型，包括：处理器通过交互界面接收用户输入的所述目标文本所对应的情感类型。

13.根据权利要求11所述的设备，其特征在于，所述获取所述目标文本的情感类型，包括：处理器或分析所述目标文本确定所述目标文本对应的情感类型。

14.根据权利要求11-13任一项所述的设备，其特征在于，

所述处理器通过交互界面接收用户输入的情感强度值，确定对应的情感强度特征向量，包括：

接收用户通过交互界面对情感强度区域的选择；

15.根据权利要求11-13任一项所述的设备，其特征在于，所述情感语音声学特征获取设备还包括：

声码器，用于基于处理器得到的所述目标声学特征向量合成所述目标文本的情感强度的语音。

16.一种情感语音声学特征获取设备，其特征在于，所述情感语音声学特征获取设备包括：

所述功能包括：

获取目标文本的文本特征参数；

获取所述目标文本的情感类型；

所述情感强度特征向量是通过所述训练样本的声学统计特征向量降维获得。

17.根据权利要求16所述的设备，其特征在于，所述获取所述目标文本的情感类型，包括：处理器通过交互界面接收用户输入的所述目标文本所对应的情感类型。

18.根据权利要求16所述的设备，其特征在于，所述获取所述目标文本的情感类型，包括：处理器或分析所述目标文本确定所述目标文本对应的情感类型。

19.根据权利要求16-18任一项所述的设备，其特征在于，

接收用户通过交互界面对情感强度区域的选择；

20.根据权利要求16-18任一项所述的设备，其特征在于，所述情感语音声学特征获取设备还包括：