CN110379409B

CN110379409B - 语音合成方法、系统、终端设备和可读存储介质

Info

Publication number: CN110379409B
Application number: CN201910516181.6A
Authority: CN
Inventors: 彭话易; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2024-04-16
Anticipated expiration: 2039-06-14
Also published as: CN110379409A

Abstract

本发明涉及语音语义领域，具体涉及一种语音合成方法、系统、终端设备和可读存储介质，通过确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量，然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图；再根据所述梅尔语谱图生成所述目标语音，且所述目标语音能够表达出不同的情绪，如高兴、愤怒以及悲伤，进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。

Description

语音合成方法、系统、终端设备和可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音语义领域，具体涉及一种语音合成方法、系统、终端设备和可读存储介质。

背景技术

随着科技的发展，机器已经可以通过语音合成技术进行说话。所谓的语音合成技术，也被称为文语转换技术(Text to Speech,TTS)，其目标是让机器通过识别和理解，把文本信息变成人造语音输出，是现代人工智能发展的重要分支。语音合成能够在质量检测、机器问答、残障辅助等领域发挥极大作用，方便人们的生活。

然而，现有的机器所能合成语音往往具有固定的模式，生成的语音在韵律方面较为生硬，从语音学来讲，同样一句话，使用不同的韵律去表达，其所能表现出的情感是有很大不同的。因此，如何使基于深度学习的语音合成系统合成的语音富有情感色彩且更加具有变现力，是目前亟待解决的问题。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种语音合成方法、系统、终端设备和可读存储介质，其能够使合成的语音富有情感色彩且更加具有变现力。

为了实现上述目的，本发明第一方面提供了一种语音合成方法，包括：

获取文本数据，并根据所述文本数据生成文本向量；

确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量；

结合所述文本向量和所述情绪标签向量生成梅尔语谱图；

根据所述梅尔语谱图生成所述目标语音。

本方案中，确认欲合成的目标语音所想表达的情绪，并根据所述情绪生成情绪标签向量，包括：

确认欲合成的目标语音的字数和所要表达的情绪，从中确认得到欲合成的目标语音的权重样本；

通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重；

将所述目标权重与预训练得到的表征向量进行点乘，获取情绪标签向量。

本方案中，通过KNN算法从权重向量数据库寻找与所述权重样本相匹配的目标权重之前，还包括：

基于训练模型构建所述权重向量数据库。

本方案中，基于训练模型构建所述权重向量数据库，包括：

从训练用的语音数据库中抽取一语音文件输入训练模型中；

对所述语音文件进行音频编码处理；

基于注意力机制从音频编码数据中获取权重向量，并将所述权重向量与表征向量进行点乘生成情绪标签向量；

获取所述语音文件对应的文本数据，并通过文本嵌入的方式变换为文本向量；

将所述文本向量和所述情绪标签向量相加，预测出对应的梅尔语谱图和情绪值；

计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价，再使用反向传播法使训练模型收敛；

待所述训练模型收敛完毕后，使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理，得到对应的权重向量，汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。

本方案中，所述目标语音表达出的情绪种类包括：高兴、愤怒以及悲伤。

本发明第二方面提供了一种语音合成系统，包括：

文本嵌入模块，用于获取文本数据，并根据所述文本数据生成文本向量；

情绪标签生成模块，用于确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量；

梅尔语谱生成模块，用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图；

语音生成模块，根据所述梅尔语谱图生成所述目标语音。

本方案中，所述语音合成系统还包括：训练模型，其用于构建所述权重向量数据库，具体步骤为：

从训练用的语音数据库中抽取一语音文件输入训练模型中；

对所述语音文件进行音频编码处理；

本发明第三方面还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述语音合成方法的步骤。

本发明第四方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如上述语音合成方法的步骤。

本发明通过确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量，然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图；再根据所述梅尔语谱图生成所述目标语音，且所述目标语音能够表达出不同的情绪，如高兴、愤怒以及悲伤，进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了本发明一种语音合成方法的流程图。

图2示出了本发明一个实施例的情绪标签向量生成方法的流程图。

图3示出了本发明一个实施例的权重向量数据库生成方法的流程图。

图4示出了本发明一种语音合成系统的框图。

图5示出了本发明一个实施例的训练模型的运行示意图。

图6示出了本发明一种终端设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

语音合成的主流技术方案有三种：参数合成，波形拼接以及端到端，相较而言，端到端的技术方案能够使生成的语音具有极为卓越的质量。本发明提出的语音合成方法、系统和终端设备，也是基于端到端的技术方案。

图1为本发明一种语音合成方法的流程图。

如图1所示，本发明的第一方面提供了一种语音合成方法，包括：

S102，获取文本数据，并根据所述文本数据生成文本向量；

S104，确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量；

S106，结合所述文本向量和所述情绪标签向量生成梅尔语谱图；

S108，根据所述梅尔语谱图生成所述目标语音。

进一步的，结合所述文本向量和所述情绪标签向量生成梅尔语谱图过程中，将所述文本向量将作为局部条件，将所述情绪标签向量作为全局条件，并通过预训练的序列到序列模型(seq2seq)映射后，生成所述梅尔语谱图(又称梅尔频谱图)。可以理解，所述序列到序列模型(seq2seq)是一种基于条件概率生成的神经网络模型。

在本发明的实施例，结合所述文本向量和所述情绪标签向量生成梅尔语谱图，具体还包括：

结合所述文本向量和所述情绪标签向量生成声谱图；

对所述声谱图进行梅尔滤波以得到梅尔语谱图。

在本发明的实施例中，所述目标语音能够表达出不同的情绪，进而使合成的语音富有情感色彩并且更有表现力。优选的，所述目标语音表达出的情绪种类包括：高兴、愤怒以及悲伤，但不限于此。

如图2所示，确认欲合成的目标语音所想表达的情绪，并根据所述情绪生成情绪标签向量，包括：

S202，确认欲合成的目标语音的字数和所要表达的情绪，从中确认得到欲合成的目标语音的权重样本；

S204，通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重；

S206，将所述目标权重与预训练得到的表征向量进行点乘，获取情绪标签向量。

KNN(K-Nearest Neighbors)算法是机器学习的一种分类算法，其通过测量不同特征值之间的距离进行分类。具体原理为：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

本发明的实施例中，通过KNN算法从权重向量数据库寻找与所述权重样本相匹配的目标权重之前，还包括：

基于训练模型构建所述权重向量数据库。

在其他实施例中，上述步骤S204也可以采用朴素贝叶斯分类算法、支持向量机(Support Vector Machine，SVM)算法、决策树算法的一种或几种算法来寻找与所述权重样本相匹配的目标权重，但不限于此。

如图3所示，基于训练模型构建所述权重向量数据库，包括：

S302，从训练用的语音数据库中抽取一语音文件输入训练模型中；

S304，对所述语音文件进行音频编码处理；

S306，基于注意力机制从音频编码数据中获取权重向量，并将所述权重向量与表征向量进行点乘生成情绪标签向量；

S308，获取所述语音文件对应的文本数据，并通过文本嵌入的方式变换为文本向量；

S310，将所述文本向量和所述情绪标签向量相加，预测出对应的梅尔语谱图和情绪值；

S312，计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价，再使用反向传播法使训练模型收敛；

S314，待所述训练模型收敛完毕后，使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理，得到对应的权重向量，汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。

可以理解，基于注意力机制从音频编码数据中获取的权重向量，其中，所述权重向量的各个元素为基于表征向量中各个表征的注意力权重。

注意力函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。具体计算注意力权重向量的方法为：

第一步，将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；

第二步，使用一个softmax函数对上一步计算得到的权重进行归一化；

第三步，将权重和相应的键值value进行加权求和得到最后的权重向量。

在本发明的实施例中，所述语音数据库为不公开文件，其包含了一位女性说话人(即源说话人)在安静环境下，用专用录音设备录制的总时长约30个小时的语音文件及对应的文本文件，语音文件及文本文件的数量为两万条，但不限于此。

可以理解，情绪值代表情绪种类，所述情绪种类包括高兴、愤怒以及悲伤。

图4示出了本发明一种语音合成系统的框图。

如图4所示，本发明第二方面还提供一种语音合成系统4，包括：

文本嵌入模块41，用于获取文本数据，并根据所述文本数据生成文本向量；

情绪标签生成模块42，用于确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量；

梅尔语谱生成模块43，用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图；

语音生成模块44，根据所述梅尔语谱图生成所述目标语音。

本发明的实施例中，梅尔语谱生成模块43为一种序列到序列模型(seq2seq)，所述序列到序列模型是一种基于条件概率生成的神经网络模型。具体的，所述文本向量和所述情绪标签向量将会被输入一个序列到序列模型，输入的文本向量将作为及局部条件，而输入的韵律向量将作为全局条件。最终通过该预训练的序列到序列模型映射后，即可得到梅尔语谱图。

所述语音生成模块获得了梅尔语谱图后，将梅尔语谱图作为条件输入，生成目标语音，优选的，所述语音生成模块为WaveNet声码器，其由一个非公开的语音数据库训练而成。

在本发明的具体实施例中，所述确认欲合成的目标语音所想表达的情绪，并根据所述情绪生成情绪标签向量，还包括：

KNN算法是通过测量不同特征值之间的距离进行分类。其原理为：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

进一步的，所述语音合成系统还包括：训练模型，其用于构建所述权重向量数据库，具体步骤为：

从训练用的语音数据库中抽取一语音文件输入训练模型中；

对所述语音文件进行音频编码处理；

需要说明的是，所述语音生成模块、所述训练模型以及梅尔语谱生成模块中所使用的序列到序列模型使用了同一份不公开的语音数据库进行了联合训练。所述语音数据库为不公开文件，其包含了一位女性说话人(即源说话人)在安静环境下，用专用录音设备录制的总时长约30个小时的语音文件，以及每条语音文件所对应的文本文件，且所述语音文件和文本文件的数量均为两万条，但不限于此。

图5示出了本发明一个实施例的训练模型的运行示意图。

如图5所示，本发明的实施中，训练采用的语音数据库拥有两万条语音信息，且每条语音信息拥有文本信息以及情绪标签。

在训练的时候，我们会将音频输入，通过音频编码层和情绪标签生成模块生成出一个情绪标签向量。而文本信息也会通过文本嵌入的方法变换为文本向量。文本向量和情绪标签向量相加在一起，再输入一个序列到序列模型，预测出一个梅尔语谱图和一个情绪值(代表情绪种类)。我们通过计算预测的梅尔语谱图和情绪种类与真实的梅尔语谱图和情绪种类的损失代价，再使用反向传播法使整个模型收敛。在模型收敛完毕后，使用情绪标签生成模块对两万条语音进行处理，得到其相对应的权重向量，最后将这些权重向量与语音的长度信息，文字信息和情绪信息等一同存入权重向量数据库中。

本发明的实施中，序列到序列模型为一种神经网络模型，所述序列到序列模型的采用了Tacotron的架构，并使用了一份不公开的语音数据库进行了训练。该语音数据库包含了一位女性说话人(即源说话人)在安静环境下，用专用录音设备录制的总时长约30个小时的语音文件，以及每条语音所对应的文本文件。输入的文本向量以及情绪标签向量经过训练过的序列到序列模型映射之后，将会被转换为梅尔语谱图。

图6示出了本发明一种终端设备的示意图。

如图6所示，本发明第三方面还提供一种终端设备6，终端设备6包括：处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63，例如程序。所述处理器61执行所述计算机程序63时实现上述各个语音合成方法实施例中的步骤。

本发明的实施例中，所述计算机程序63可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器62中，并由所述处理器61执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序63在所述终端设备6中的执行过程。例如，所述计算机程序63可以被分割成文本嵌入模块、情绪标签生成模块、梅尔语谱生成模块以及语音生成模块，各模块具体功能如下：

语音生成模块，根据所述梅尔语谱图生成所述目标语音。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端管理服务器等计算设备。所述终端设备6可包括，但不仅限于，处理器61、存储器62。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器61可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器62可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器62也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器62还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。

本发明第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如上述的语音合成方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，包括：

获取文本数据，并根据所述文本数据生成文本向量；

结合所述文本向量和所述情绪标签向量生成梅尔语谱图；

根据所述梅尔语谱图生成所述目标语音；

其中，确认欲合成的目标语音所想表达的情绪，并根据所述情绪生成情绪标签向量，包括：

通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重；其中，所述权重向量数据库基于训练模型构建；基于训练模型构建所述权重向量数据库，包括：从训练用的语音数据库中抽取一语音文件输入训练模型中；对所述语音文件进行音频编码处理；基于注意力机制从音频编码数据中获取权重向量，并将所述权重向量与表征向量进行点乘生成情绪标签向量，其中，所述权重向量的各个元素为基于表征向量中各个表征的注意力权重；获取所述语音文件对应的文本数据，并通过文本嵌入的方式变换为文本向量；将所述文本向量和所述情绪标签向量相加，预测出对应的梅尔语谱图和情绪值；计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价，再使用反向传播法使训练模型收敛；待所述训练模型收敛完毕后，使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理，得到对应的权重向量，汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库；

2.根据权利要求1所述的语音合成方法，其特征在于，所述目标语音表达出的情绪种类包括：高兴、愤怒以及悲伤。

3.一种语音合成系统，其特征在于，包括：

情绪标签生成模块，用于确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量；其中包括：确认欲合成的目标语音的字数和所要表达的情绪，从中确认得到欲合成的目标语音的权重样本；通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重；将所述目标权重与预训练得到的表征向量进行点乘，获取情绪标签向量；其中，所述权重向量的各个元素为基于表征向量中各个表征的注意力权重；

语音生成模块，根据所述梅尔语谱图生成所述目标语音；

训练模型，其用于构建所述权重向量数据库，具体步骤为：

从训练用的语音数据库中抽取一语音文件输入训练模型中；

对所述语音文件进行音频编码处理；

4.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2所述语音合成方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1或2所述的语音合成方法的步骤。