CN112634858A

CN112634858A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN112634858A
Application number: CN202011487464.1A
Authority: CN
Inventors: 陈婷; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-09
Anticipated expiration: 2040-12-16
Also published as: CN112634858B

Abstract

本发明公开了语音合成方法、装置、计算机设备及存储介质，方法包括：根据文本解析词典获取与待处理信息的文本信息对应的文本标注信息，根据转换词典将文本标注信息转换为文本编码序列，从待处理信息的语音信息中提取得到音频系数信息并根据残差编码模型获取对应的隐藏变量编码，根据循环神经网络对文本标注信息、文本编码序列、隐藏变量编码及转换目标进行预测得到预测音频系数信息并进一步得到合成语音信息。本发明基于语言信号处理技术，属于人工智能领域，采用结合文本标注信息及隐藏变量编码的方法获取与转换目标对应的预测音频系数信息，可对中文文本发音在韵律、语调、语气及情绪特征进行完整体现，可大幅提升合成中文语音信息的准确性。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，属于智慧城市中进行语音合成的应用场景，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

语音合成技术可按照用户输入的信息合成语音信息进行输出，现有的语言合成方法均是基于用户输入的文本信息对应合成语音信息，与英文文本对应的音标变化比较小，通过上述方法对英文文本进行处理得到的英文语音信息基本可以满足使用需求。然而中文文本的发音具有相应特殊性，由于多音字的存在，导致中文文本对应的发音在韵律特征及语调上的复杂程度较高，采用上述方法对中文文本进行处理得到的语音信息与目标语音信息差别较大，难以在合成中文语音信息的过程中具有良好的效果。因此，现有技术方法存在合成中文语音信息的准确率较低的问题。

发明内容

本发明实施例提供了一种语音合成方法、装置、计算机设备及存储介质，旨在解决现有技术方法中所存在的合成中文语音信息的准确率较低的问题。

第一方面，本发明实施例提供了一种语音合成方法，其包括：

若接收到用户所输入的待处理信息，根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，其中所述文本信息包括中文文本信息；

根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码序列；

根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息，其中所述语音信息包括中文语音信息；

根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码；

接收用户输入的转换目标，根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息；

根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息。

第二方面，本发明实施例提供了一种语音合成装置，其包括：

文本序列信息获取单元，用于若接收到用户所输入的待处理信息，根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，其中所述文本信息包括中文文本信息；

文本编码序列获取单元，用于根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码序列；

音频系数信息获取单元，用于根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息，其中所述语音信息包括中文语音信息；

隐藏变量编码获取单元，用于根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码；

预测音频系数信息获取单元，用于接收用户输入的转换目标，根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息；

合成语音信息获取单元，用于根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的语音合成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的语音合成方法。

本发明实施例提供了一种语音合成方法、装置、计算机设备及存储介质。根据文本解析词典获取与待处理信息的文本信息对应的文本标注信息，根据转换词典将文本标注信息转换为文本编码序列，从待处理信息的语音信息中提取得到音频系数信息并根据残差编码模型获取对应的隐藏变量编码，根据循环神经网络对文本标注信息、文本编码序列、隐藏变量编码及转换目标进行预测得到预测音频系数信息并进一步得到合成语音信息。通过上述方法，采用结合文本标注信息及隐藏变量编码的方法获取与转换目标对应的预测音频系数信息，可对中文文本发音在韵律、语调、语气及情绪特征进行完整体现，合成得到的中文语音信息更加真实，可大幅提升合成中文语音信息的准确性及真实性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音合成方法的流程示意图；

图2为本发明实施例提供的语音合成方法的子流程示意图；

图3为本发明实施例提供的语音合成方法的另一子流程示意图；

图4为本发明实施例提供的语音合成方法的另一子流程示意图；

图5为本发明实施例提供的语音合成方法的另一子流程示意图；

图6为本发明实施例提供的语音合成方法的另一子流程示意图；

图7为本发明实施例提供的语音合成方法的另一子流程示意图；

图8为本发明实施例提供的语音合成装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的语音合成方法的流程示意图，该语音合成方法应用于用户终端中，该方法通过安装于用户终端中的应用软件进行执行，用户终端即是用于执行语音合成方法以实现语音信息合成的终端设备，如台式电脑、笔记本电脑、平板电脑或手机等终端设备。如图1所示，该方法包括步骤S110～S160。

S110、若接收到用户所输入的待处理信息，根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，其中所述文本信息包括中文文本信息。

若接收到用户所输入的待处理信息，根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，用户可输入待处理信息至用户终端，待处理信息中包括语音信息及对应的文本信息，其中所述语音信息至少包括中文语音信息，文本信息至少包含与中文语音信息对应的中文文本信息。可根据文本解析词典及预置的文本标注规则获取与文本信息对应的文本标注信息，文本解析词典即为对文本信息进行解析的词典，文本标注规则即为对中文文本信息进行标注的具体规则。

在一实施例中，如图2所示，步骤S110包括子步骤S111、S112、S113、S114和S115。

S111、根据所述文本解析词典获取与所述中文文本信息相匹配的拼音编码序列；S112、根据预置的文本标注规则获取与所述中文文本信息相匹配的中文标注信息；S113、将所述中文标注信息添加至所述拼音编码序列得到与所述中文文本信息相匹配的中文标注序列。

文本解析词典中包含中文词组与词组拼音之间的对应关系，可根据词组拼音与中文词组之间的对应关系确定中文文本信息中每一中文词组对应的词组拼音，并根据中文文本信息中单个字符的前后词组的词组关系确定与单个字符对应的字符拼音，将所得到的词组拼音与字符拼音进行组合得到拼音编码序列。

例如，某一中文文本信息为“好奇的小猫”，词组“好奇”对应的词组拼音为“hào，qí”，“小猫”对应“xiǎo，māo”，“的”为多音字，对应“dě”、“dí”和“dì”三个字符拼音，与“的”对应的词组关系中“好奇”为定语，“小猫”为中心词，与“定语+的+中心词”对应的字符拼音为“dě”，组合得到对应的拼音编码序列为“hào，qí，dě，xiǎo，māo”。

根据文本标注规则确定获取中文文本信息对应的中文标注信息，中文标注信息包括句首标记、句尾标记、词性标记等，句首标记即是用于对一句中文文本的起始位置进行标记的信息，句尾标记即是用于对一句中文文本的终止位置进行标记的信息；词性信息即是用于对词组、字符的词性进行标记的信息，可包括名词、动词、结构助词、形容词、副词等。添加中文标注信息后的中文标注序列中包含与每一字符对应的一个字符标注信息。

若待处理信息中仅包含中文文本信息及中文语音信息，则对应采用S111至S113中的步骤对中文文本信息进行处理，若待处理信息中还包含英文文本信息及英文语音信息，则还需通过步骤S114及S115对英文文本信息进行处理。

S114、对所述英文文本信息进行分词处理得到对应的英文词组；S115、获取所述文本解析词典中与所述英文词组相匹配的音标序列作为与所述英文文本信息相匹配的英文标注序列。

首先对英文文本信息进行分词处理，得到对应的多个英文词组，文本解析词典中包含英文词组与英文音标的对应关系，可根据这一对应关系确定多个英文词组相匹配的音标序列，得到英文标注序列，若英文词组为变构词，可通过构词法对变构词进行进一步拆分得到与变构词对应的原生词，基于文本解析词典中与原生词对应的英文音标进一步获取变构词的英文音标。

例如，“stopped”为“stop”的变构词，可基于文本解析词典中与“stop”对应的英文音标，加上“ped”对应的后缀音标，组合得到与变构词“stopped”对应的英文音标。

S120、根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码序列。

根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码序列。每一字符的标注序列均可在转换词典中匹配到对应的一个编码值，则可根据转换词典对文本序列信息中所包含的字符拼音进行转换，获取每一字符拼音对应的编码值并进行组合得到文本编码序列，所得到的文本编码序列将该文本序列信息的特征采用数值序列的方式进行表示，所得到的文本编码序列的长度可以为L，其表示文本编码序列中包含L个编码值，文本编码序列的长度L与文本序列信息中所包含的字符拼音数量相等。同一个字符拼音，由于其包含的中文标注信息不相同，所得对应的编码值也不相同。

例如，“hào”这一字符拼音包含句首标记，词性标记为“形容词”，其在转换词典中对应的编码值为“7144”，“hào”这一字符拼音不包含句首标记，词性表为“形容词”，其对应的编码值为“7142”。

步骤S120之后，还包括步骤：将所述文本编码序列输入预置的带有梯度反转层的神经网络分类器，以获取该文本编码序列的预测概率值，预测概率值即为该文本编码序列与真实语言表达之间的概率值。判断预测概率值是否大于预置的概率预置，若大于则继续执行步骤S130，否则向用户终端的使用者反馈无法继续处理的报警提示信息。

S130、根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息。

根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息。其中所述语音信息中至少包括中文语音信息，若待处理信息的文本信息中包含中文文本信息，则语音信息中包含对应的中文语音信息；若待处理信息的文本信息中同时包含中文文本信息及英文文本信息，则语音信息中也同时包含对应的中文语音信息及英文语音信息，其中提取规则包括频谱转换规则、频率转换公式及逆变换规则。具体的，音频系数信息可以是语言信息对应的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，可根据音频系数提取规则从语音信息提取得到对应的音频系数信息，音频系数信息可以对语音信息的音频特征进行量化表示。

在一实施例中，如图3所示，步骤S130包括子步骤S131、S132、S133和S134。

S131、对所述语音信息进行分帧处理得到对应的多帧音频信息。

语音信息在计算机中以包含音轨的声谱图进行表示，声谱图中包含很多帧，每一帧即对应一个时间单元，则可语音信息的声谱图中获取得到每一帧音频信息，每一帧音频信息即对应一个时间单元内所包含的音频信息。

S132、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。

可根据单位时间对音频信息进行分段得到多个音频信息段，每一音频信息段中均对应一个单位时间内包含的多帧音频信息，可根据频谱转换规则对得到的每一音频信息段进行快速傅里叶变换(fast Fourier transform，FFT)然后旋转90度，得到与每一音频信息段对应的音频频谱，在音频频谱中的频谱表示频率与能量的关系。

S133、根据所述频率转换公式将所述音频频谱转换为非线性音频频谱。

根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱，人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，为模拟人类听觉系统对音频信号灵敏度进行感知的特点，可通过非线性音频频谱模拟人类听觉系统对音频信号的表征，并进一步从中获取符合人类听觉系统的特征。音频频谱及非线性音频频谱均可采用频谱曲线进行表示，则频谱曲线由多个连续的频谱值所组成。

具体的，频率转换公式可采用公式(1)进行表示：

mel(f)＝2959×log(1+f/700) (1)；

其中mel(f)为转换后非线性音频频谱的频谱值，f为音频音频的频率值。

S134、根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。

可根据逆变换规则对每一非线性音频频谱进行逆变换，具体的，对所得到的一个非线性音频频谱取对数后进行离散余弦变换(Discrete Cosine Transform，DCT)，取进行离散余弦变换的第2个至第13个系数进行组合以得到与该非线性音频频谱对应的音频系数，获取每一非线性音频频率对应的音频系数即可得到音频系数信息。

S140、根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码。

根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码。残差编码模型即为管理服务器中预先存储的用于获取隐藏变量编码的分析模型，隐藏变量编码可用于对音频系数信息中的噪音水平、语气、情绪等信息进行量化表示。

在一实施例中，如图4所示，步骤S140包括子步骤S141、S142和S143。

S141、根据所述残差编码模型中的隐藏变量对所述音频系数信息包含的音频系数进行计算，得到与每一所述隐藏变量对应的均值及方差；S142、根据所述均值及方差生成与每一所述隐藏变量对应的正态分布曲线；S143、分别从每一所述正太分布曲线中采样得到多个隐藏变量值作为所述隐藏变量编码。

残差编码模型中包含多个隐藏变量，一个隐藏变量可对音频系数信息中的多个音频系数在一个维度方向上进行计算分析，得到相应分析结果，其中隐藏变量可以是频率、响度、频率与响度的加权值。具体的，可基于一个隐藏变量对所有音频系数进行计算，以得到与该隐藏变量对应的均值和方差，基于所得到的均值及方差计算得到与每一隐藏变量对应的一个正态分布曲线，正太分布曲线可对所有音频系数在一个维度方向上的正态分布情况进行表征，从每一正态分布曲线中分别采样一个隐藏变量值，所得到的所有隐藏变量值即可对音频系数信息的隐藏特征进行量化表示。

例如，音频系数信息中包含10个音频系数，残差编码模型中包含6个隐藏变量，基于6个隐藏变量依次对10个音频系数进行分析，得到与6个隐藏变量对应的6个隐藏变量值作为隐藏变量编码。

S150、接收用户输入的转换目标，根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息。

接收用户输入的转换目标，根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息。循环神经网络即为基于神经网络构建得到的一个长短期记忆网络，用户输入转换目标，转换目标可以为用户所选择的一个虚拟发声人，循环神经网络即可根据转换目标获取与文本标注信息、所述文本编码序列及所述隐藏变量编码对应的预测音频系数信息，则所得到的预测音频系数信息即与虚拟发生人所发出的声音相匹配。

在一实施例中，如图5所示，步骤S150包括子步骤S151和S152。

S151、从预存的转换特征信息表中获取与所述转换目标对应的目标特征因子。

具体的，转换特征信息表中包含与每一虚拟发声人对应的特征因子，特征因子可采用一个多维特征向量进行表示，则可根据转换目标从转换特征信息表中获取相对应的一个特征因子作为目标特征因子。

S152、将所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述目标特征因子同时输入所述循环神经网络，将得到的神经网络输出信息作为与所述转换目标对应的预测音频系数信息。

在一实施例中，如图6所示，步骤S152包括子步骤S1521、S1522和S1523。

S1521、将所述文本标注信息包含的字符标注信息与所述文本编码序列包含的文本编码值一一组合得到多个序列组合。

具体的，文本标注信息中包含与每一字符对应的字符标注信息，文本编码序列中包含与每一字符标注信息对应的文本编码值，则文本标注信息中包含的字符标注信息的数量与文本编码序列中文本编码值的数量相等，则可对字符标注信息与文本编码序列进行一一对应组合，得到与字符标注信息的数量相等的多个序列组合。

S1522、将每一所述序列组合分别与所述隐藏变量编码及所述目标特征因子进行整合得到与每一所述序列组合对应的多个输入向量；

将一个序列组合分别与隐藏变量编码及目标特征因子进行整合，得到一个多维的输入向量，每一序列组合可对应得到一个输入向量，则多个序列组合对应得到多个输入向量。

S1523、将所述多个输入向量依次输入所述循环神经网络并获取与每一所述输入向量对应的神经网络输出信息。

将所得到的多个输入向量依次输入循环神经网络，一个输入向量可对应得到一个神经网络输出信息，则多个输入向量可对应得到多个神经网络输出信息，一个神经网络输出信息即为一个预测音频系数，所有预测音频系数即组合成为预测音频系数信息。例如，一共得到N个输入向量，每一个输入向量均可表示为一个1×M维的向量，对一个输入向量进行计算并得到神经网络输出信息的过程可包含以下五个步骤，①计算遗忘门输出信息：f(t)＝σ(Wf×h(t_1)+Uf×X(t)+bf)，其中f(t)为遗忘门参数值，0≤f(t)≤1；σ为激活函数计算符号，σ可具体表示为f(x)＝(e^x-e^(-x))/(e^x+e^(-x))，则将Wf×h(t_1)+Uf×X(t)+bf的计算结果作为x输入激活函数σ即可计算得到f(t)；Wf、Uf及bf均为本细胞中公式的参数值；h(t_1)为上一细胞的输出门信息；X(t)为输入当前细胞的1×M维的输入向量，若当前细胞为长短期记忆网络中的第一个细胞，则h(t_1)为零。②计算输入门信息：i(t)＝σ(Wi×h(t_1)+Ui×X(t)+bi)；a(t)＝tanh(Wa×h(t-1)+Ua×X(t)+ba)，其中i(t)为输入门参数值，0≤i(t)≤1；Wi、Ui、bi、Wa、Ua及ba均为本细胞中公式的参数值，a(t)为所计算得到的输入门向量值，a(t)为一个1×M维的向量。③更新细胞记忆信息：C(t)＝C(t_1)⊙f(t)+i(t)⊙a(t)，C为每一次计算过程所累计的细胞记忆信息，C(t)为当前细胞所输出的细胞记忆信息，C(t_1)为上一细胞所输出的细胞记忆信息，⊙为向量运算符，C(t_1)⊙f(t)的计算过程为将向量C(t_1)中每一维度值分别与f(t)相乘，所计算的得到的向量维度与向量C(t_1)中的维度相同。④计算输出门信息：o(t)＝σ(Wo×h(t_1)+Uo×X(t)+bo)；h(t)＝o(t)⊙tanh(C(t))，o(t)为输出门参数值，0≤o(t)≤1；Wo、Uo及bo均为本细胞中公式的参数值，h(t)为本细胞的输出门信息，h(t)为一个1×M维的向量。⑤计算当前细胞的输出信息：y(t)＝σ(V×h(t)+c)，V及c均为本细胞中公式的参数值。每一个细胞均计算得到一个神经网络输出信息，采用上述方式对N个输入向量进行循环计算，分别得到其中N个细胞的N个神经网络输出信息，作为对应的N个预测音频系数，其中，预测音频系数可以是梅尔频率倒谱系数。

S160、根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息。

根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息。音频合成词典即为用户终端中配置的用于存储预测音频系数与音频段对应关系的词典，音频合成词典中包含多个预测音频系数以及与每一预测音频系数对应的音频段，则可根据音频合成词典获取与预测音频系数信息相匹配的多个音频段并进行整合，得到对应的合成语音信息。

在一实施例中，如图7所示，步骤S160包括子步骤S161和S162。

S161、从所述音频合成词典中获取与所述预测音频系数信息对应的多个音频段；S162、多所述多个音频段进行整合得到所述合成语音信息。

具体的，预测音频系数信息中包含多个预测音频系数，获取音频合成词典中与每一预测音频系数对应的多个音频段，根据预测音频系数的排列顺序对所得到的多个音频段进行整合，即可得到与待处理信息相匹配的合成语音信息。上述语音合成处理过程可适用于对中文语音信息进行合成，还可适用于对中文语音信息与英文语音信息进行混合合成，在实际应用过程中取得了良好的效果。

本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含进行语音合成的应用场景中，从而推动智慧城市的建设。

在本发明实施例所提供的语音合成方法中，根据文本解析词典获取与待处理信息的文本信息对应的文本标注信息，根据转换词典将文本标注信息转换为文本编码序列，从待处理信息的语音信息中提取得到音频系数信息并根据残差编码模型获取对应的隐藏变量编码，根据循环神经网络对文本标注信息、文本编码序列、隐藏变量编码及转换目标进行预测得到预测音频系数信息并进一步得到合成语音信息。通过上述方法，采用结合文本标注信息及隐藏变量编码的方法获取与转换目标对应的预测音频系数信息，可对中文文本发音在韵律、语调、语气及情绪特征进行完整体现，合成得到的中文语音信息更加真实，可大幅提升合成中文语音信息的准确性及真实性。

本发明实施例还提供一种语音合成装置，该语音合成装置用于执行前述语音合成方法的任一实施例。具体地，请参阅图8，图8是本发明实施例提供的语音合成装置的示意性框图。该语音合成装置可配置于用户终端中。

如图8所示，语音合成装置100包括文本序列信息获取单元110、文本编码序列获取单元120、音频系数信息获取单元130、隐藏变量编码获取单元140、预测音频系数信息获取单元150和合成语音信息获取单元160。

文本序列信息获取单元110，用于若接收到用户所输入的待处理信息，根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，其中所述文本信息包括中文文本信息。

在一实施例中，所述文本序列信息获取单元110包括子单元：拼音编码序列获取单元、中文标注信息获取单元、中文标注序列获取单元、英文词组获取单元和英文标注序列获取单元。

拼音编码序列获取单元，用于根据所述文本解析词典获取与所述中文文本信息相匹配的拼音编码序列；中文标注信息获取单元，用于根据预置的文本标注规则获取与所述中文文本信息相匹配的中文标注信息；中文标注序列获取单元，用于将所述中文标注信息添加至所述拼音编码序列得到与所述中文文本信息相匹配的中文标注序列；英文词组获取单元，用于对所述英文文本信息进行分词处理得到对应的英文词组；英文标注序列获取单元，用于获取所述文本解析词典中与所述英文词组相匹配的音标序列作为与所述英文文本信息相匹配的英文标注序列。

文本编码序列获取单元120，用于根据预置的转换词典对所述文本标注信息进行转换得到对应的文本编码序列。

音频系数信息获取单元130，用于根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息，其中所述语音信息包括中文语音信息。

在一实施例中，所述音频系数信息获取单元130包括子单元：分帧处理单元、音频频谱获取单元、频率转换单元和逆变换处理单元。

分帧处理单元，用于对所述语音信息进行分帧处理得到对应的多帧音频信息；音频频谱获取单元，用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱；频率转换单元，用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；逆变换处理单元，用于根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。

隐藏变量编码获取单元140，用于根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码。

在一实施例中，所述隐藏变量编码获取单元140包括子单元：计算单元、正态分布曲线获取单元和隐藏变量值采样单元。

计算单元，用于根据所述残差编码模型中的隐藏变量对所述音频系数信息包含的音频系数进行计算，得到与每一所述隐藏变量对应的均值及方差；正态分布曲线获取单元，用于根据所述均值及方差生成与每一所述隐藏变量对应的正态分布曲线；隐藏变量值采样单元，用于分别从每一所述正太分布曲线中采样得到多个隐藏变量值作为所述隐藏变量编码。

预测音频系数信息获取单元150，用于接收用户输入的转换目标，根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息。

在一实施例中，所述预测音频系数信息获取单元150包括子单元：目标特征因子获取单元和神经网络输出信息获取单元。

目标特征因子获取单元，用于从预存的转换特征信息表中获取与所述转换目标对应的目标特征因子；神经网络输出信息获取单元，用于将所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述目标特征因子同时输入所述循环神经网络，将得到的神经网络输出信息作为与所述转换目标对应的预测音频系数信息。

在一实施例中，所述神经网络输出信息获取单元包括子单元：序列组合获取单元、输入向量获取单元和预测处理单元。

序列组合获取单元，用于将所述文本标注信息包含的字符标注信息与所述文本编码序列包含的文本编码值一一组合得到多个序列组合；输入向量获取单元，用于将每一所述序列组合分别与所述隐藏变量编码及所述目标特征因子进行整合得到与每一所述序列组合对应的多个输入向量；预测处理单元，用于将所述多个输入向量依次输入所述循环神经网络并获取与每一所述输入向量对应的神经网络输出信息。

合成语音信息获取单元160，用于根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息。

在一实施例中，所述合成语音信息获取单元160包括子单元：音频段获取单元和音频段整合单元。

音频段获取单元，用于从所述音频合成词典中获取与所述预测音频系数信息对应的多个音频段；音频段整合单元，用于多所述多个音频段进行整合得到所述合成语音信息。

在本发明实施例所提供的语音合成装置应用上述语音合成方法，根据文本解析词典获取与待处理信息的文本信息对应的文本标注信息，根据转换词典将文本标注信息转换为文本编码序列，从待处理信息的语音信息中提取得到音频系数信息并根据残差编码模型获取对应的隐藏变量编码，根据循环神经网络对文本标注信息、文本编码序列、隐藏变量编码及转换目标进行预测得到预测音频系数信息并进一步得到合成语音信息。通过上述方法，采用结合文本标注信息及隐藏变量编码的方法获取与转换目标对应的预测音频系数信息，可对中文文本发音在韵律、语调、语气及情绪特征进行完整体现，合成得到的中文语音信息更加真实，可大幅提升合成中文语音信息的准确性及真实性。

上述语音合成装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行语音合成方法以进行语音合成的用户终端。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行语音合成方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行语音合成方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的语音合成方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的语音合成方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，应用于用户终端，其特征在于，所述方法包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述文本信息中还英文文本信息，所述文本标注信息包含中文标注序列及英文标注序列，所述根据预存的文本解析词典获取与所述待处理信息中文本信息对应的文本标注信息，包括：

根据所述文本解析词典获取与所述中文文本信息相匹配的拼音编码序列；

根据预置的文本标注规则获取与所述中文文本信息相匹配的中文标注信息；

将所述中文标注信息添加至所述拼音编码序列得到与所述中文文本信息相匹配的中文标注序列；

对所述英文文本信息进行分词处理得到对应的英文词组；

获取所述文本解析词典中与所述英文词组相匹配的音标序列作为与所述英文文本信息相匹配的英文标注序列。

3.根据权利要求1所述的语音合成方法，其特征在于，所述提取规则包括频谱转换规则、频率转换公式及逆变换规则，所述根据预置的提取规则从所述待处理信息的语音信息中提取得到音频系数信息，包括：

对所述语音信息进行分帧处理得到对应的多帧音频信息；

根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱；

根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；

根据所述逆变换规则对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为所述音频系数信息。

4.根据权利要求1所述的语音合成方法，其特征在于，所述根据预置的残差编码模型获取与所述音频系数信息对应的隐藏变量编码，包括：

根据所述残差编码模型中的隐藏变量对所述音频系数信息包含的音频系数进行计算，得到与每一所述隐藏变量对应的均值及方差；

根据所述均值及方差生成与每一所述隐藏变量对应的正态分布曲线；

分别从每一所述正太分布曲线中采样得到多个隐藏变量值作为所述隐藏变量编码。

5.根据权利要求1所述的语音合成方法，其特征在于，所述根据预置的循环神经网络对所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述转换目标进行预测以获取对应的预测音频系数信息，包括：

从预存的转换特征信息表中获取与所述转换目标对应的目标特征因子；

将所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述目标特征因子同时输入所述循环神经网络，将得到的神经网络输出信息作为与所述转换目标对应的预测音频系数信息。

6.根据权利要求5所述的语音合成方法，其特征在于，所述将所述文本标注信息、所述文本编码序列、所述隐藏变量编码及所述目标特征因子同时输入所述循环神经网络，将得到的神经网络输出信息作为与所述转换目标对应的预测音频系数信息，包括：

将所述文本标注信息包含的字符标注信息与所述文本编码序列包含的文本编码值一一组合得到多个序列组合；

将每一所述序列组合分别与所述隐藏变量编码及所述目标特征因子进行整合得到与每一所述序列组合对应的多个输入向量；

将所述多个输入向量依次输入所述循环神经网络并获取与每一所述输入向量对应的神经网络输出信息。

7.根据权利要求1所述的语音合成方法，其特征在于，所述根据预存的音频合成词典获取与所述预测音频系数信息相匹配的合成语音信息，包括：

从所述音频合成词典中获取与所述预测音频系数信息对应的多个音频段；

多所述多个音频段进行整合得到所述合成语音信息。

8.一种语音合成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7中任一项所述的语音合成方法。