CN113421545B

CN113421545B - 多模态的语音合成方法、装置、设备及存储介质

Info

Publication number: CN113421545B
Application number: CN202110738424.8A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-09-29
Anticipated expiration: 2041-06-30
Also published as: CN113421545A

Abstract

本发明涉及人工智能领域，公开了一种多模态的语音合成方法、装置、设备及存储介质，该方法包括：获取并预处理原始语音数据和原始脑电数据，得到语音数据和脑电数据；将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对隐含表征进行概率计算，得到先验分布；根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望‑最大值算法，对后验分布进行混合高斯处理；根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。本发明通过对脑电数据和语音数据进行处理，提取情感信息以合成情感语音，提高了合成语音的自然度和人机交互的友好度。

Description

多模态的语音合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多模态的语音合成方法、装置、设备及存储介质。

背景技术

情绪识别是人机交互的重要功能，识别用户的情绪并根据识别的情绪生成相应情绪的语音来给用户反馈将是语音合成未来的方向。然而目前的语音合成只是通过获取语音数据中声音的韵律等音色信息，并根据所获取到的音色信息合成语音。

通过现有技术合成语音并没有考虑到语音数据中包含的情感信息，只注重于准确的表达语音的文字信息，但是语音的文字信息仅仅是语音信息中的一部分信息，导致合成的语音自然度低，影响人机交互的友好度，因此，如何合成具有情感色彩的情感语音是一个亟需解决的问题。

发明内容

本发明的主要目的在于解决现有技术中不能合成情感语音导致合成语音的自然度低的技术问题。

本发明第一方面提供了一种多模态的语音合成方法，所述多模态的语音合成方法包括：获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据；将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理；根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理；根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音。

可选的，在本发明的第一方面的第一种实现方式中，所述获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据包括：获取说话人的原始语音数据和原始脑电数据；提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到语音数据；调用预设的独立成分分析及带通滤波工具对所述原始脑电数据进行过滤处理，得到脑电数据。

可选的，在本发明的第一方面的第二种实现方式中，所述将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征包括：提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；将所述语音数据输入至预设的自编码器中，调用所述自编码器对所述语音数据中的音素进行变分自编码，并将所述脑电数据输入至所述自编码器中，调用所述自编码器对所述脑电特征进行变分自编码，得到隐含表征。

可选的，在本发明的第一方面的第三种实现方式中，所述对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理包括：对所述隐含表征进行总体分布分析，得到总体分布参数；分别计算所述总体分布参数的分布函数和密度函数；根据所述分布函数和所述密度函数生成先验分布；根据预设的概率密度函数，对所述先验分布进行概率分布计算，得到标准高斯分布。

可选的，在本发明第一方面的第四种实现方式中，所述根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理包括：对所述隐含表征进行似然估计处理，得到似然函数；根据预设的贝叶斯公式，对所述先验分布和所述似然函数进行概率计算，得到后验分布；将所述隐含表征按照预设的期望-最大值算法和所述概率密度函数进行参数计算，得到协方差矩阵和混合系数；根据所述协方差矩阵和所述混合系数，对所述后验分布进行混合高斯处理，生成高斯混合分布。

可选的，在本发明第一方面的第五种实现方式中，所述根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音包括：根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行特征分析，得到韵律特征参数和情感特征参数；基于预设的基音同步叠加算法，对所述韵律特征参数进行参数重构处理，生成初步语音；根据所述情感特征参数，对所述初步语音的韵律特征进行调整，得到情感语音。

本发明第二方面提出一种多模态的语音合成装置，所述多模态的语音合成装置包括：预处理模块，用于获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据；编码模块，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；计算模块，用于对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理；学习模块，用于根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理；重构模块，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音。

可选的，在本发明第二方面的第一种实现方式中，所述预处理模块包括：获取单元，用于获取说话人的原始语音数据和原始脑电数据；处理单元，用于提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到语音数据；过滤单元，用于调用预设的独立成分分析及带通滤波工具对所述原始脑电数据进行过滤处理，得到脑电数据。

可选的，在本发明第二方面的第二种实现方式中，所述编码模块具体用于：提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；将所述语音数据输入至预设的自编码器中，调用所述自编码器对所述语音数据中的音素进行变分自编码，并将所述脑电数据输入至所述自编码器中，调用所述自编码器对所述脑电特征进行变分自编码，得到隐含表征。

可选的，在本发明第二方面的第三种实现方式中，所述计算模块具体用于：对所述隐含表征进行总体分布分析，得到总体分布参数；分别计算所述总体分布参数的分布函数和密度函数；根据所述分布函数和所述密度函数生成先验分布；根据预设的概率密度函数，对所述先验分布进行概率分布计算，得到标准高斯分布。

可选的，在本发明第二方面的第四种实现方式中，所述学习模块具体用于：对所述隐含表征进行似然估计处理，得到似然函数；根据预设的贝叶斯公式，对所述先验分布和所述似然函数进行概率计算，得到后验分布；将所述隐含表征按照预设的期望-最大值算法和所述概率密度函数进行参数计算，得到协方差矩阵和混合系数；根据所述协方差矩阵和所述混合系数，对所述后验分布进行混合高斯处理，生成高斯混合分布。

可选的，在本发明第二方面的第五种实现方式中，所述重构模块具体用于：分析单元，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征特征分析，得到韵律特征参数和情感特征参数；重构单元，用于基于预设的基音同步叠加算法，对所述韵律特征参数进行参数重构处理，生成初步语音；调整单元，用于根据所述情感特征参数，对所述初步语音的韵律特征进行调整，得到情感语音。

本发明第三方面提供了一种多模态的语音合成设备，所述多模态的语音合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述多模态的语音合成设备执行上述的多模态的语音合成方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当其在计算机上运行时，使得计算机执行上述的多模态的语音合成方法的步骤。

在本发明提供的技术方案中，通过获取原始语音数据和原始脑电数据，并分别对语音数据和原始脑电数据进行预处理，得到语音数据和脑电数据；将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对先验分布进行标准高斯处理；根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对后验分布进行混合高斯处理；根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。本发明提供的技术方案，通过脑电数据提取情感信息，并对语音数据和脑电数据进行一系列处理，生成具有情感色彩的情感语音，提高了合成语音的自然度和人机交互的友好度。

附图说明

图1为本发明实施例中多模态的语音合成方法的第一个实施例示意图；

图2为本发明实施例中多模态的语音合成方法的第二个实施例示意图；

图3为本发明实施例中多模态的语音合成方法的第三个实施例示意图；

图4为本发明实施例中多模态的语音合成装置的一个实施例示意图；

图5为本发明实施例中多模态的语音合成装置的另一个实施例示意图；

图6为本发明实施例中多模态的语音合成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种多模态的语音合成方法、装置、设备及存储介质，通过获取原始语音数据和原始脑电数据，并分别对语音数据和原始脑电数据进行预处理，得到语音数据和脑电数据；将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对先验分布进行标准高斯处理；根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对后验分布进行混合高斯处理；根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。本发明实施例通过脑电数据提取情感信息，并对语音数据和脑电数据进行一系列处理，生成具有情感色彩的情感语音，提高了合成语音的自然度和人机交互的友好度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体内容进行描述，请参阅图1，本发明实施例中多模态的语音合成方法的第一个实施例包括：

101，获取原始语音数据和原始脑电数据，并分别对语音数据和原始脑电数据进行预处理，得到语音数据和脑电数据；

选择被试者，采集语音数据，并给被试者戴一个电极帽，对被试者施加一些刺激，然后采集大脑的信号即采集脑电数据。采集的脑电数据数据包括空间和时间，相当于四维的时空数据，每一个电极相当于一个时间序列。

进一步的，采集原始语音数据和原始脑电数据，并提取原始语音数据中的语音能量，并根据预设的语音能量阈值和语音能量，对原始语音数据进行静音移除处理，得到清洁的语音数据，然后调用预设的独立成分分析及带通滤波工具对原始脑电数据进行带通过滤处理，去除伪迹，得到脑电数据。

另外，对原始语音数据进行静音移除处理的过程包括静音移除和语音增强两个步骤，其中，静音移除步骤是将语音能量作为阈值，比较原始语音数据的语音能量和阈值的大小，如果原始语音数据在一段时间内的语音能量小于所设定的阈值时，则将当前该段时间内的音频作为噪音，并丢弃；然后保存丢弃噪音后的原始语音数据作为预处理后的语音数据。语音增强步骤是比较当前语音数据与预设的最小音频片段数据的长短，如果原始语音数据短于最小音频片段数据，则将原始语音数据中间开始截取一定长度，将该长度复制到原始语音数据的中间位置，以保证预处理后的语音数据满足最短音频时长要求。

102，将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；

将语音数据和脑电数据输入至预设的自编码器中，根据该自编码器分别对语音数据和脑电数据进行变分自编码，通过变分编码得到隐含表征。其中，该步骤内有两个模态，一个模态是脑电，另一个模态是语音，对这两个模态进行混合高斯处理，可以通过脑电自己生成脑电，脑电可以生成语音，在这种框架下二者可以互相生成。该步骤内的变分自编码是一个多视图表示学习，利用了贝叶斯推断，最后得到隐含表征。

103，对隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对先验分布进行标准高斯处理；

以隐含表征作为变量，根据预先获取的信息或者依据，对隐含表征的不确定性进行猜测，计算隐含表征的先验分布，即先验概率。其中，先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。

根据预设的概率密度函数，对先验分布进行概率分布计算，其中，若随机变量服从一个正态分布，其概率密度函数为正态分布的期望值决定了其位置，其标准差决定了分布的幅度，当数学期望为0，标准差为1时的正态分布是标准正态分布，即标准高斯分布。

104，根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对后验分布进行混合高斯处理；

根据预设的贝叶斯公式，即调用贝叶斯理论，对先验分布和似然函数进行概率计算，得到后验分布。具体的，调用贝叶斯理论，将先验分布乘以似然函数(likelihoodfunction)再归一化后，得到后验分布，即后验概率。其中，后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。

对隐含表征进行归一化处理，并按照预设的期望-最大值算法(EM算法)和概率密度函数计算协方差矩阵和混合系数，协方差矩阵累加并取平均，得到混合空间协方差矩阵；根据混合空间协方差矩阵和混合系数对后验分布进行混合高斯处理，得到高斯混合分布。

105，根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。

根据所处理的先验分布和后验分布，提取语音数据的韵律特征参数和脑电数据中的情感特征参数，根据情感特征参数对韵律特征参数进行参数重构处理，生成情感语音。

进一步的，分别建立高兴、愤怒、悲伤和中立四种不同情感下的韵母基音模板库，建立四种声调模型，统计分析语音库中情感语音的韵律特征参数，并根据情感语音的韵律特征参数，对语音数据进行韵律特征分析，得到韵律特征参数，提取脑电数据中的情感特征参数，调用基音同步叠加算法(PSOLA)，以音节为合成单位，根据韵律特征参数合成初步语音，根据情感特征参数的统计分析结果调节初步语音的韵律特征，合成情感语音。

在本发明实施例中，通过获取并预处理原始语音数据和原始脑电数据，得到语音数据和脑电数据，将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对隐含表征进行概率计算，得到先验分布；根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。本发明实施例通过对脑电数据和语音数据进行处理，提取情感信息以合成情感语音，提高了合成语音的自然度和人机交互的友好度。

请参阅图2，本发明实施例中多模态的语音合成方法的第二个实施例包括：

201，获取原始语音数据和原始脑电数据，并分别对语音数据和原始脑电数据进行预处理，得到语音数据和脑电数据；

202，提取语音数据中的音素及其音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别；

203，根据音素及各音素对应的音素类别，对脑电数据进行分析，确定各音素对应的脑电特征；

音素是语音的基本元素，提取预处理后的语音数据中的音素，并通过分析不同音素诱发的听觉脑电，提取隐含在音素中的有关音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别。具体的，计算音素特征与音素类别之间的线性相关值，当线性相关值不小于预设的相关阈值时，则说明该音素特征与音素类别存在线性相关关系，即该音素特征与该音素类别存在对应关系。

根据所确定的音素及各音素对应的音素类别，调用预设的生成对抗网络对脑电数据进行分析，提取脑电数据中的脑电特征，并通过音素特征，确定的该各音素对应的脑电特征。

204，将语音数据输入至预设的自编码器中，调用自编码器对语音数据中的音素进行变分自编码，并将脑电数据输入至自编码器中，调用自编码器对脑电特征进行变分自编码，得到隐含表征；

将语音数据和脑电数据输入至预设的自编码器中，根据该自编码器分别对语音数据中的音素特征和脑电数据中的脑电特征进行变分自编码，通过变分编码找到源域和目标域之间的隐含表征。其中，该步骤内有两个模态，一个模态是脑电，另一个模态是语音，对这两个模态进行混合高斯处理，可以通过脑电自己生成脑电，脑电可以生成语音，在这种框架下二者可以互相生成。该步骤内的变分自编码是一个多视图表示学习，利用了贝叶斯推断，最后得到各自领域内的隐含表征。

另外，预设的自编码器为堆叠自编码(Stacked AutoEncoder，SAE)，堆叠自编码器可以通过无监督的预训练和有监督的微调来确定参数、提高特征的可区分性。SAE是以自编码器(AutoEncoder，AE)为基本单元堆叠而成的一种深度网络，包括编码器和解码器两部分，输入信号通过编码器得到编码，再通过一个解码器得到输入信号的重构，重构与输入信号对比得到重构误差。编码器的输出编码即为抽象化的特征，并作为下一层AE的输入，逐层最小化重构误差，确定编码和解码参数，即可以实现SAE的无监督预训练，在最顶层添加一个分类器，运用有标签样本，通过有监督学习可以实现对参数微调。但是对于SAE的层数以及每层神经元的个数一般需要使用者根据自己的经验确定，以生理数据驱动的方法确定SAE的结构，并使用SAE获取了各种传统生理信号特征的抽象表示，进而实现维度情感分类。

205，对隐含表征进行总体分布分析，得到总体分布参数；

206，分别计算总体分布参数的分布函数和密度函数；

207，根据分布函数和密度函数生成先验分布；

根据预设的总体分布概率计算方法，对隐含表征进行总体分布分析，得到总体分布参数(θ)，把θ看作是随机变量。其中，总体分布是指当试验次数无限增大时，试验结果的频率值就成为相应的概率，除了抽样造成的误差，精确地反映了总体取值的概率分布规律，这种整体取值的概率分布规律通常称为总体分布。对总体分布参数进行概率特征计算，得到分布函数和密度函数，分布函数可以完整地描述随机变量的统计规律，并且决定随机变量的一切其他概率特征；密度函数是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。另外，将θ的分布函数记为H(θ)，θ的密度函数记为h(θ)，并分别作为先验分布函数和先验密度函数，两者合称为先验分布。

208，根据预设的概率密度函数，对先验分布进行概率分布计算，得到标准高斯分布；

209，根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对后验分布进行混合高斯处理；

210，根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。

在本发明实施例中，提取语音数据中的音素及音素特征，并根据音素对脑电数据进行分析得到脑电特征，并对音素特征和脑电特征进行自编码得到隐含表征，对隐含表征进行概率计算和参数重构处理，生成情感语音，确保了情感语音的合成质量且提高了合成语音的自然度。

请参阅图3，本发明实施例中多模态的语音合成方法的第三个实施例包括：

301，获取原始语音数据和原始脑电数据，并分别对语音数据和原始脑电数据进行预处理，得到语音数据和脑电数据；

302，将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；

303，对隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对先验分布进行标准高斯处理；

304，对隐含表征进行似然估计处理，得到似然函数；

305，根据预设的贝叶斯公式，对先验分布和似然函数进行概率计算，得到后验分布；

306，将隐含表征按照预设的期望-最大值算法和概率密度函数进行参数计算，得到协方差矩阵和混合系数；

307，根据协方差矩阵和混合系数，对后验分布进行混合高斯处理，生成高斯混合分布；

根据计算得到的先验分布，对隐含表征进行似然估计处理，得到似然函数。其中，似然估计是根据原因推测该原因导致结果发生的概率。

308，根据处理后的先验分布和后验分布，对隐含表征进行特征分析，得到韵律特征参数和情感特征参数；

309，基于预设的基音同步叠加算法，对韵律特征参数进行参数重构处理，生成初步语音；

310，根据情感特征参数，对初步语音的韵律特征进行调整，得到情感语音。

根据所处理的先验分布和后验分布，提取语音数据的韵律特征参数和脑电数据中的情感特征参数，根据情感特征参数对韵律特征参数进行参数重构处理，生成情感语音。具体的，分别建立高兴、愤怒、悲伤和中立四种不同情感下的韵母基音模板库，建立四种声调模型，根据处理后的先验分布和后验分布，对隐含表征进行韵律特征分析，并统计分析语音库中情感语音的韵律特征参数，得到语音数据的韵律特征参数，根据语音库中的情感语音，对语音数据的隐含表征进行情感特征分析，得到情感特征参数；调用基音同步叠加算法(PSOLA)以韵母基音模板库中的情感基音模板为合成基元，对韵律特征参数进行参数重构，即根据韵律特征参数来调整基音模板，将调整好的基音模板进行拼接，合成初步语音，并根据情感特征参数，对初步语音的韵律特征进行调整，合成含情感色彩的语音。

在本实施例中，语音数据中包含说话者在不同的情感状态下说出的语音对应着不同的韵律特征。韵律特征主要有基音频率、幅度和时长等；韵律特征与激励源的特征有关，主要反映了不同情感下语气的变化。不同情感状态的语音会在语速上表现出一定的变化，通过语音信号的发话持续时间和语速等时长参数来判断语音的情感状态，语音信号的幅度特征与情感状态间也有非常强的关联性，语音幅度的变化越大，越能体现出情感的变化。刺激被试者产生脑电数据的激励源的振动速率就是语音信号的基音频率，基音频率是反映包含在语音中的情感信息的重要特征。

在本发明实施例中，步骤301-303与上述的多模态的语音合成方法中的第一个实施例的步骤101-103一致，在此不做赘述。

在本发明实施例中，根据先验分布和后验分布对隐含表征进行韵律特征分析和情感特征分析，得到韵律特征参数和情感特征参数，并根据韵律特征参数和情感特征参数合成情感语音，提高了情感语音的合成效率，保证了情感语音的合成质量。

上面对本发明实施例中的多模态的语音合成方法进行了描述，下面对本发明实施例中的多模态的语音合成装置进行描述，请参照图4，本发明实施例中的多模态的语音合成装置的一个实施例包括：

预处理模块401，用于获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据；

编码模块402，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；

计算模块403，用于对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理；

学习模块404，用于根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理；

重构模块405，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音。

在本发明实施例中，通过多模态的语音合成装置获取并预处理原始语音数据和原始脑电数据，得到语音数据和脑电数据；将语音数据和脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；对隐含表征进行概率计算，得到先验分布；根据预设的贝叶斯公式，对先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对后验分布进行混合高斯处理；根据处理后的先验分布和后验分布，对隐含表征进行参数重构处理，生成情感语音。本发明实施例通过对脑电数据和语音数据进行处理，提取情感信息以合成情感语音，提高了合成语音的自然度和人机交互的友好度。

请参阅图5，本发明实施例中的多模态的语音合成装置的另一个实施例包括：

其中，所述预处理模块401具体用于：

获取单元4011，用于获取说话人的原始语音数据和原始脑电数据；

处理单元4012，用于提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到语音数据；

过滤单元4013，用于调用预设的独立成分分析及带通滤波工具对所述原始脑电数据进行过滤处理，得到脑电数据。

其中，所述编码模块402具体用于：

提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；

根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；

将所述语音数据输入至预设的自编码器中，调用所述自编码器对所述语音数据中的音素进行变分自编码，并将所述脑电数据输入至所述自编码器中，调用所述自编码器对所述脑电特征进行变分自编码，得到隐含表征。

其中，所述计算模块403具体用于：

对所述隐含表征进行总体分布分析，得到总体分布参数；

分别计算所述总体分布参数的分布函数和密度函数；

根据所述分布函数和所述密度函数生成先验分布；

根据预设的概率密度函数，对所述先验分布进行概率分布计算，得到标准高斯分布。

其中，所述学习模块404具体用于：

对所述隐含表征进行似然估计处理，得到似然函数；

根据预设的贝叶斯公式，对所述先验分布和所述似然函数进行概率计算，得到后验分布；

将所述隐含表征按照预设的期望-最大值算法和所述概率密度函数进行参数计算，得到协方差矩阵和混合系数；

根据所述协方差矩阵和所述混合系数，对所述后验分布进行混合高斯处理，生成高斯混合分布。

其中，所述重构模块405具体用于：

分析单元4051，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行特征分析，得到韵律特征参数和情感特征参数；

重构单元4052，用于基于预设的基音同步叠加算法，对所述韵律特征参数进行参数重构处理，生成初步语音；

调整单元4053，用于根据所述情感特征参数，对所述初步语音的韵律特征进行调整，得到情感语音。

在本发明实施例中，通过多模态的语音合成装置对语音数据和脑电数据进行处理，提取情感信息以合成情感语音，提高了合成语音的自然度和人机交互的友好度。

请参阅图6，下面从硬件处理的角度对本发明实施例中的多模态的语音合成设备的一个实施例进行详细描述。

图6是本发明实施例提供的一种多模态的语音合成设备的结构示意图，该多模态的语音合成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对多模态的语音合成设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在多模态的语音合成设备600上执行存储介质630中的一系列指令操作。

多模态的语音合成设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和或或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的多模态的语音合成设备结构并不构成对多模态的语音合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述多模态的语音合成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态的语音合成方法，其特征在于，所述多模态的语音合成方法包括：

获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据；

将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；

所述将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征包括：

将所述语音数据输入至预设的自编码器中，调用所述自编码器对所述语音数据中的音素进行变分自编码，并将所述脑电数据输入至所述自编码器中，调用所述自编码器对所述脑电特征进行变分自编码，得到隐含表征；

对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理；

根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理；

根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音。

2.根据权利要求1所述的多模态的语音合成方法，其特征在于，所述获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据包括：

获取说话人的原始语音数据和原始脑电数据；

提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到语音数据；

调用预设的独立成分分析及带通滤波工具对所述原始脑电数据进行过滤处理，得到脑电数据。

3.根据权利要求1所述的多模态的语音合成方法，其特征在于，所述对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理包括：

对所述隐含表征进行总体分布分析，得到总体分布参数；

分别计算所述总体分布参数的分布函数和密度函数；

根据所述分布函数和所述密度函数生成先验分布；

4.根据权利要求3所述的多模态的语音合成方法，其特征在于，所述根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理包括：

对所述隐含表征进行似然估计处理，得到似然函数；

5.根据权利要求1-4中任一项所述的多模态的语音合成方法，其特征在于，所述根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音包括：

根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行特征分析，得到韵律特征参数和情感特征参数；

基于预设的基音同步叠加算法，对所述韵律特征参数进行参数重构处理，生成初步语音；

根据所述情感特征参数，对所述初步语音的韵律特征进行调整，得到情感语音。

6.一种多模态的语音合成装置，其特征在于，所述多模态的语音合成装置包括：

预处理模块，用于获取原始语音数据和原始脑电数据，并分别对所述语音数据和所述原始脑电数据进行预处理，得到语音数据和脑电数据；

编码模块，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行变分自编码，得到隐含表征；

计算模块，用于对所述隐含表征进行概率计算，得到先验分布，并根据预设的概率密度函数，对所述先验分布进行标准高斯处理；

学习模块，用于根据预设的贝叶斯公式，对所述先验分布进行多模态深度表征学习，得到后验分布，并根据预设的期望-最大值算法，对所述后验分布进行混合高斯处理；

重构模块，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行参数重构处理，生成情感语音。

7.根据权利要求6所述的多模态的语音合成装置，其特征在于，所述重构模块包括：

分析单元，用于根据处理后的所述先验分布和所述后验分布，对所述隐含表征进行特征分析，得到韵律特征参数和情感特征参数；

重构单元，用于基于预设的基音同步叠加算法，对所述韵律特征参数进行参数重构处理，生成初步语音；

调整单元，用于根据所述情感特征参数，对所述初步语音的韵律特征进行调整，得到情感语音。

8.一种多模态的语音合成设备，其特征在于，所述多模态的语音合成设备包括：

存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述多模态的语音合成设备执行如权利要求1-5中任一项所述的多模态的语音合成方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述的多模态的语音合成方法的步骤。