CN116543749B

CN116543749B - 一种基于堆栈记忆网络的多模态语音合成方法及系统

Info

Publication number: CN116543749B
Application number: CN202310814315.9A
Authority: CN
Inventors: 刘艳; 魏丽芳; 钱馨园; 杨思琪; 孙梦磊; 刘琦; 张天昊; 陈松路; 殷绪成
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-15
Anticipated expiration: 2043-07-05
Also published as: CN116543749A

Abstract

本发明提供一种基于堆栈记忆网络的多模态语音合成方法及系统，涉及视频和语音处理技术领域，包括：用视频信息辅助从文本中合成具有视听同步性的语音。从人脸中提取说话人特性，即利用人脸控制合成语音的音色。在训练和推理时，通过引入的视频‑语音堆栈记忆网络，显式的利用视频检索对应语音，并从检索得到的语音中提取风格特征，解决多模态TTS模块训练‑推理风格不匹配的问题并增强合成音频的表现性，定制个性化语音。本发明引入视频‑语音堆栈记忆网络显式的连接视频和语音两个模态，而非利用距离损失去最小化不同模态信息提取的特征之间的距离。

Description

一种基于堆栈记忆网络的多模态语音合成方法及系统

技术领域

本发明涉及视频和语音处理技术领域，尤其涉及一种基于堆栈记忆网络的多模态语音合成方法及系统。

背景技术

目前大多数的表现性语音合成方法都在原有的文本输入的基础上，增加一个参考语音输入以合成风格独特的语音。其中，文本输入为合成语音提供语义信息，参考语音为合成的语音提供风格信息。

Yuxuan Wang等人（Style tokens: Unsupervised style modeling, controland transfer in end-to-end speech synthesis[C]. ICML 2018 : 5167-5176.）将一组全局风格令牌（global style tokens，GSTs）引入自回归TTS模型。该模型从参考语音中提取语音特征，并由GST将语音特征重组得到一个全局风格嵌入特征，以无监督的方式实现合成语音风格的控制和迁移。

Yi Ren等人（Portaspeech: Portable and high-quality generative text-to-speech[C]. NeurIPS 2021 : 13963–13974.）利用变分自编码器和标准化流两种生成模型，从参考语音中提取丰富的韵律信息以生成表现性丰富的语音。

但是上述的基于参考语音提供风格的TTS方法由于缺乏与视频相关的信息，难以生成与视频同步的语音。

为了利用与语音相关的模态信息去生成表现性丰富的语音，一些工作利用跨模态的信息提供风格特征。

StyleTag（Expressive text-to-speech using style tag[C]. INTERSPEECH2021: 4664-4677）是第一个利用描述语音风格的短语或句子作为风格标签去控制合成语音风格的方法。

Yookyung Shin等人（Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS[C]. INTERSPEECH 2022 : 2313-2317）利用双模态编码器将文本侧的风格嵌入和语音侧风格嵌入映射到一个共享的多模态嵌入空间，通过文本描述实现了对语音风格的操控。

Jianrong Wang等人（Residual-Guided Personalized Speech Synthesis basedon Face Image[C]. ICASSP 2022 : 4743-4747）从人脸中提取个性化的语音特征，从而生成特定风格的语音。

上述的跨模态提取语音风格特征的表现性TTS方法存在两个问题。首先，这些跨模态TTS模型在训练时，通过最小化从参考语音中提取的风格嵌入H_style和从其他模态（文本或者图片）中提取的风格嵌入H_style之间的距离去实现二者的风格相似性。这样基于参考语音的TTS模型就是这些跨模态TTS模型的性能上界。这会限制合成语音的质量，即跨模态TTS方法存在质量上界。其次，这些跨模态TTS模型在训练时从参考语音中提取风格嵌入H_style，在测试时从其他模态（文本或者图片）中提取风格嵌入H_style，这会导致训练和推理时的风格不匹配，从而降低合成音频的表现性。

发明内容

本发明提供了一种基于堆栈记忆网络的多模态语音合成方法及系统，解决视频-语音堆栈记忆网络显式地将参考视频与对应语音连接起来上述的训练-推理风格不匹配的问题。

为解决上述发明目的，本发明提供的技术方案如下：一种基于堆栈记忆网络的多模态语音合成方法，其特征在于，步骤包括：

S1、构建多模态TTS模型，多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络；

S2、获取视频信息，将视频信息输入至多模态风格编码器；在视频信息中随机选取一帧图片输入至说话人编码器；获取文本信息/>，将文本信息/>输入至文本编码器；

S3、将多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将拼接信息进行时间维度扩展，获得扩展信息；

S4、将扩展信息输入至解码器进行解码，获得解码信息；将解码信息输入至后处理网络进行细化处理，获得细化信息；将细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

优选地，步骤S2中，获取视频信息，将视频信息输入至多模态风格编码器，包括：

获取视频信息，采集所述视频信息中的视频序列；根据视频信息采集视频序列/>以及输入的真实语谱图/>，将视频序列/>以及真实语谱图/>输入至多模态风格编码器，编码为音素长度的风格特征嵌入/>。

优选地，多模态风格编码器包括：语音编码器，视频编码器，视频-语音堆栈记忆网络以及风格编码器。

优选地，视频-语音堆栈记忆网络包括：视频堆栈记忆网络和一个语音堆栈记忆网络/>；其中，视频堆栈记忆网络/>用来存储视频特征/>，语音堆栈记忆网络/>用来存储语音特征/>。

优选地，获取视频信息，根据视频信息采集视频序列以及真实语谱图/>，将视频序列/>以及真实语谱图/>输入至多模态风格编码器，编码为音素长度的风格特征嵌入/>，包括：

获取视频信息，视频编码器对输入的视频序列进行视频特征的提取和编码，并输出视频长度的特征/>；

语音编码器将真实语谱图进行编码并4倍下采样，输出与对应视频长度的特征/>相同长度的语音特征/>；

将视频长度的特征和语音特征/>输入视频-语音堆栈记忆网络，输出视频长度的语音风格特征/>；

将语音风格特征输入至风格编码器，输出音素长度的风格特征嵌入。

优选地，步骤S2中，在视频信息中随机选取一帧图片输入至说话人编码器，包括：

基于视频序列，随机选取一帧图片/>输入至说话人编码器，生成时间维度为1的说话人特性嵌入/>。

优选地，步骤S2中，获取文本信息，将文本信息/>输入至文本编码器，包括：

获取文本信息，将文本信息/>输入至文本编码器，编码为包含语义信息的语义特征/>。

优选地，步骤S3中，将多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将拼接信息进行时间维度扩展，获得扩展信息，包括：

将说话人特性嵌入在时间维度扩展为音素长度的说话人嵌入，并与语义特征/>和风格特征嵌入/>在通道维度拼接之后送入变量适配器扩展为帧级别的特征嵌入/>。

优选地，步骤S4中，将扩展信息输入至解码器进行解码，获得解码信息；将解码信息输入至后处理网络进行细化处理，获得细化信息；将细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成，包括：

将帧级别的特征嵌入输入至解码器生成重构语谱图/>；

将真实语谱图输入至视频-语音堆栈记忆网络，对重构的视频特征以及语音特征进行学习，并存储视频特征以及语音特征；

通过后处理网络将解码器输出的重构语谱图进行细节修复，获得更接近真实语谱图/>的视频特征以及语音特征的输出语谱图；

将输出语谱图经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

一种基于堆栈记忆网络的多模态语音合成系统，系统用于上述的基于堆栈记忆网络的多模态语音合成方法，系统包括：

模型构建模块，用于构建多模态TTS模型，多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络；

信息获取编码模块，用于获取视频信息，将视频信息输入至多模态风格编码器；在视频信息中随机选取一帧图片输入至说话人编码器；获取文本信息，将文本信息输入至文本编码器；

拼接扩展模块，用于将多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将拼接信息进行时间维度扩展，获得扩展信息；

细化处理模块，用于将扩展信息输入至解码器进行解码，获得解码信息；将解码信息输入至后处理网络进行细化处理，获得细化信息；将细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于堆栈记忆网络的多模态语音合成方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于堆栈记忆网络的多模态语音合成方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，为了满足配音的需求，本发明引入一个视频模态将普通的TTS模型扩展为多模态TTS，以生成与视频同步的语音。本发明引入一个视频-语音堆栈记忆网络显式的将视频模态和语音模态联系起来，即在训练和推理时，参考视频均通过视频-语音堆栈记忆网络检索到对应的语音，然后从语音中提取风格特征，即视频-语音堆栈记忆网络显式地将参考视频与对应语音联系起来，用以解决上述的训练-推理风格不匹配的问题；从检索得到的语音中提取精确的风格特征保证了模型能够生成表现性丰富的语音。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于堆栈记忆网络的多模态语音合成方法流程示意图；

图2是本发明实施例提供的整体流程框架图；

图3是本发明实施例提供的多模态风格编码器的详细结构图；

图4是本发明实施例提供的语音合成的主观评价结果图；

图5是本发明实施例提供的基于堆栈记忆网络的多模态语音合成系统框图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对语音合成在配音，听障人士辅助交流和语言教育等领域，要求高质量的语音，同时还要求合成的语音与对应的视频具有视听同步性，而现有技术中的方法会导致训练和推理时的风格不匹配，从而降低合成音频的表现性的问题，提供了一种基于堆栈记忆网络的多模态语音合成方法和系统，目的在于生成与给定视频同步、表现性丰富的语音。

如图1所示，本发明实施例提供了一种基于堆栈记忆网络的多模态语音合成方法，该方法可以由电子设备实现。如图1所示的基于堆栈记忆网络的多模态语音合成方法流程图，该方法的处理流程可以包括如下的步骤：

S101、构建多模态TTS模型，多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络。

一种可行的实施方式中，本发明将视频模态引入传统的TTS模型并将其扩展为多模态TTS模型，指导多模态TTS模型合成具有视听同步性的语音。

一种可行的实施方式中，如图2所示，详细介绍整个表现性语音合成方法的实现方案。本发明的整体框架如附图2。图中的虚线表示输入的真实语谱图只在训练时使用。本方案采用Fastspeech2（Fastspeech 2: Fast and high-quality end-to-end text to speech[C]. International Conference on Learning Representations, 2021.）作为主干模型，它由一个文本编码器，一个变量适配器和一个解码器组成。为了细化生成的语谱图，本发明在解码器后面连接了一个后处理网络。首先，本发明设计了一个多模态风格编码器进行视频特征提取和语音风格信息建模，其次，本发明设计了一个基于人脸的说话人编码器提取说话人特性以实现说话人音色的控制。

S102、获取视频信息，将视频信息输入至多模态风格编码器；在视频信息中随机选取一帧图片输入至说话人编码器；获取文本信息/>，将文本信息/>输入至文本编码器。

一种可行的实施方式中，本发明设计了一个基于人脸的说话人编码器实现了通过人脸控制合成语音的音色。

一种可行的实施方式中，步骤S102中，获取视频信息，将视频信息输入至多模态风格编码器，包括：

一种可行的实施方式中，在训练时，多模态风格编码器将输入的视频序列和对应的语音特征序列编码为音素长度的风格特征嵌入/>；从给定视频序列/>中随机选择一帧图片/>，送入说话人编码器生成时间维度为1的说话人特性嵌入/>；文本编码器将输入的文本信息/>编码为包含语义信息的语义特征/>；将/>在时间维度扩展为音素长度的说话人嵌入并与/>和/>在通道维度拼接之后送入变量适配器扩展为帧级别的特征嵌入/>，然后将/>送入解码器生成语谱图，为了生成更加准确的语谱图特征，/>最后送入后处理网络进行细化。

一种可行的实施方式中，为了生成与对应视频同步的语音并增强合成音频的表现性，本发明设计了一个多模态风格编码器去提取精确的风格特征。多模态风格编码器的详细结构图附图3所示。多模态风格编码器包括：语音编码器，视频编码器，视频-语音堆栈记忆网络以及风格编码器。

一种可行的实施方式中，为了解决多模态TTS的训练-推理风格不匹配问题并进一步增强合成音频的表现性，本发明引入一个视频-语音堆栈记忆网络去显式的连接视频和语音。

视频-语音堆栈记忆网络为多模态语音合成模型的核心模块，包括：视频堆栈记忆网络和一个语音堆栈记忆网络/>；其中，视频堆栈记忆网络/>用来存储视频特征/>，语音堆栈记忆网络/>用来存储语音特征/>。

一种可行的实施方式中，获取视频信息，根据视频信息采集视频序列以及输入的真实语谱图/>，将视频序列/>以及输入的真实语谱图/>输入至多模态风格编码器，编码为音素长度的风格特征嵌入/>，包括：

语音编码器将输入的真实语谱图进行编码并4倍下采样，输出与对应视频特征相同长度的语音特征/>；

视频编码器对输入的视频序列进行视频特征的提取和编码，并输出视频长度的特征/>；

将和/>输入视频-语音堆栈记忆网络，输出视频长度的语音风格特征；

将语音风格特征输入至风格编码器，输出音素级的风格特征/>。

一种可行的实施方式中，本发明引入视频模态，利用视频模型与语音模态的时域相关性，指导模型生成与对应视频同步的语音。

一种可行的实施方式中，本发明以视频堆栈记忆网络为例，描述堆栈记忆网络的工作原理。为了使视频堆栈记忆网络/>学习到重构的视频表征/>，首先，视频表征/>作为查询，去计算视频堆栈记忆网络/>之间的余弦相似度：

其中代表视频堆栈记忆网络/>第i个槽/>与视频表征第j个时间步特征之间的余弦相似度。我们利用如下的softmax函数计算的相关性概率作为寻址向量，

其中，代表相似度缩放因子。通过计算所有槽，可以得到第j个时间步的视频特征。视频堆栈记忆网络/>的寻址向量/>可以用来得到重构视频特征/>。同样的，可以通过语音寻址向量与语音堆栈记忆网络/>相乘获得重构的语音风格特征/>。我们利用如下的语音重构损失帮助语音堆栈记忆网络/>学习到精确的语音风格特征：

本发明采用视频寻址向量和语音寻址向量之间的KL散度（Kullback–Leiblerdivergence）作为连接损失去对齐视频和语音两个模态：

在训练或者推理时，我们都采用视频特征检索对应的语音风格特征，这样既能提取到更准确的韵律信息，又保证了训练和推理时的风格一致性，使得模型能够合成高质量的表现性语音。

在得到视频检索的风格特征之后，将其送入风格编码器输出音素级的风格特征/>。风格编码器由一个信息瓶颈层和一个注意力机制组成。信息瓶颈层是为了防止生成的风格特征造成信息泄露，注意力机制是利用音素特征/>做查询（query），风格特征做键（key）和值（value），将视频长度的风格特征转换为音素级的风格特征/>。

一种可行的实施方式中，步骤S102中，在视频信息中随机选取一帧图片输入至说话人编码器，包括：

在多说话人的应用场景中，传统的语音合成模型都是利用参考语音去提取说话人特性以生成不同音色的语音。本发明认为人脸也可以提取出特定的说话人特性去代表说话人特性。因此本发明设计了一个基于人脸的说话人编码器，它由一个预训练好的人脸识别模型和一个可训练的全连接层组成。首先，从给定的视频中随机选择一帧图片送入固定参数的预训练的人脸识别模型中提取人脸特征。然后，将提取的人脸特征送入全连接层去生成说话人特性嵌入/>。

本发明实施例中，引入视频-语音堆栈记忆网络显式的连接视频和语音模态，而不是利用距离损失去最小化不同模态信息提取的特征之间的距离。

S103、将多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将拼接信息进行时间维度扩展，获得扩展信息；

一种可行的实施方式中，步骤S103中，将所述多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接后通过变量适配器进行时间维度扩展，包括：

S104、将拼接并扩展后的输出信息进行解码后输入至后处理网络进行细化处理，经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

一种可行的实施方式中，步骤S104中，将扩展信息输入至解码器进行解码，获得解码信息；将解码信息输入至后处理网络进行细化处理，获得细化信息；将细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成，包括：

将帧级别的特征嵌入输入至解码器生成重构语谱图/>；

通过后处理网络将解码器输出的重构语谱图进行细节修复，获得更接近真实语谱图/>视频特征以及语音特征的输出语谱图；

一种可行的实施方式中，本发明的多模态TTS模型的训练过程具体包括：

①将视频采样为25FPS，使用S3FD（S3fd: Single shot scale-invariant facedetector. In Proceedings of the IEEE international conference on computervision, 2017: 192–201.）对视频序列进行人脸检测并将图片裁剪为224×224的大小。

②从视频中提取出对应的语音，并重采样为16KHz。

③将第②步处理得到的音频根据短时傅里叶变换得到真实语谱图。

④在训练时，将四元组输入模型分别提供合成语音的说话风格、说话内容和说话人特性，最后将生成的语谱图送入预训练好的声码器 HiFi-GAN（HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis[C]. NeurIPS 2020 :17022–17033.）中重构语音。

⑤推理时，只需要将三元组输入模型以生成具有视听同步性的高质量语音。

本发明实施例中，在训练和推理时，均利用视频去检索对应语音，并从语音中提取精确的风格特征，解决了训练-推理风格不匹配的问题并进一步生成表现性丰富的语音。本发明设计的说话人编码器从人脸中提取说话人特性，即根据人脸控制合成语音的音色。

一种可行的实施方式中，本发明采用的是公开数据集GRID。GRID是包含33位说话人的数据集。该数据集包含了成对的语音，视频和文本。

语音合成的主观评价结果如附图4所示，其中是本发明提出的模型结构。GT是真实的语音。GT+ HiFi-GAN表示将真实语谱图/>送入HiFi-GAN声码器生成的语音。FastSpeech2是本发明采用的主干模型。主观评价分数（Mean Opinion Score，MOS）是评价合成语音质量的主观评价指标。在TTS领域，主观评指标比客观评价更具有权威性。MOS通过人类对语音进行打分。分值在0-5之间，分数越高，表示语音质量越好。由图可知，本发明使用的模型生成了具有视听同步性的高质量语音。

本发明实施例中，本发明设计了一个说话人编码器从人脸中提取个性化的语音特性。为了生成表现性丰富的语音，本发明设计了一个多模态风格编码器。特别的，将视频-语音堆栈记忆网络引入多模态风格编码器，利用视频显式的检索对应的语音，并从语音中提取丰富的语音风格信息，用以指导和控制合成语音的风格。

实用性方面：本发明着眼于实际的应用问题，为语音合成技术应用于视频配音，虚拟主持人等泛娱乐化的应用场景提供了切实可行的方案。

表现性方面：为了生成表现性的语音，大多数的跨模态语音合成方法利用与语音相关的其他模态信息（文本或者图片）去提取风格信息，但存在训练-推理风格不匹配的问题，同时由于其固有的提取风格嵌入的原理，合成的语音存在质量上界。为解决上述问题，本发明引入视频-语音堆栈记忆网络显式的连接视频和语音两个模态。在训练和推理时，均从视频检索的语音中提取精确的风格嵌入，保证了模型能够合成高质量的语音。

同步性方面：本发明将视频模态引入传统的语音合成模型中，将其扩展为多模态语音合成模型，使得模型能够生成与视频同步的语音。

可控性方面：本发明设计的说话人编码器从人脸中提取说话人特性，通过输入不同的人脸来控制合成语音的音色；设计的多模态风格编码器从视频序列中获得合成语音的风格信息，即通过视频序列控制合成语音的风格。

图5是本发明的一种基于堆栈记忆网络的多模态语音合成系统示意图，所述系统200用于上述的基于堆栈记忆网络的多模态语音合成，所述系统200包括：

模型构建模块210，用于构建多模态TTS模型，多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络；

信息获取编码模块220，用于获取视频信息，将视频信息输入至多模态风格编码器；在视频信息中随机选取一帧图片输入至说话人编码器；获取文本信息，将文本信息输入至文本编码器；

拼接扩展模块230，用于将多模态风格编码器、说话人编码器以及文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将拼接信息进行时间维度扩展，获得扩展信息；

细化处理模块240，用于将扩展信息输入至解码器进行解码，获得解码信息；将解码信息输入至后处理网络进行细化处理，获得细化信息；将细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

优选地，信息获取编码模块220，进一步用于获取视频信息，根据视频信息采集视频序列以及输入的真实语谱图/>，将视频序列/>以及真实语谱图/>输入至多模态风格编码器，编码为音素长度的风格特征嵌入/>。

优选地，视频-语音堆栈记忆网络为多模态语音合成模型的核心模块，包括：视频堆栈记忆网络和一个语音堆栈记忆网络/>；其中，视频堆栈记忆网络/>用来存储视频特征/>，语音堆栈记忆网络/>用来存储语音特征/>。

优选地，获取视频信息，采集所述视频信息中的视频序列；根据视频信息采集视频序列/>以及输入的真实语谱图/>，将视频序列/>以及输入的真实语谱图输入至多模态风格编码器，编码为音素长度的风格特征嵌入/>，包括：

优选地，信息获取编码模块220，进一步用于基于视频序列，随机选取一帧图片/>输入至说话人编码器，生成时间维度为1的说话人特性嵌入/>。

优选地，信息获取编码模块220，进一步用于获取文本信息，将文本信息/>输入至文本编码器，编码为包含语义信息的语义特征/>。

优选地，拼接扩展模块230，进一步将说话人特性嵌入在时间维度扩展为音素长度的说话人嵌入，并与语义特征/>和风格特征嵌入/>在通道维度拼接之后送入变量适配器扩展为帧级别的特征嵌入/>。

优选地，细化处理模块240，进一步将帧级别的特征嵌入输入至解码器生成重构语谱图/>；

通过后处理网络将解码器输出的重构语谱图进行细节修复，获得更接近真实语谱图/>的视频特征以及语音特征的输出语谱图；/>

本发明实施例中，设计了一个说话人编码器从人脸中提取个性化的语音特性。为了生成表现性丰富的语音，本发明设计了一个多模态风格编码器。特别的，将视频-语音堆栈记忆网络引入多模态风格编码器，利用视频显式的检索对应的语音，并从语音中提取丰富的语音风格信息，用以指导和控制合成语音的风格

图6是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，所述存储器302中存储有至少一条指令，所述至少一条指令由所述处理器301加载并执行以实现下述基于堆栈记忆网络的多模态语音合成方法的步骤：

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于堆栈记忆网络的多模态语音合成方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

1.一种基于堆栈记忆网络的多模态语音合成方法，其特征在于，方法步骤包括：

S1、构建多模态TTS模型，所述多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；所述TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络；

S2、获取视频信息，将所述视频信息输入至所述多模态风格编码器；在所述视频信息中随机选取一帧图片输入至所述说话人编码器；

获取文本信息，将所述文本信息/>输入至所述文本编码器；

所述步骤S2中，获取视频信息，将所述视频信息输入至所述多模态风格编码器，包括：

获取视频信息，根据所述视频信息采集视频序列以及输入的真实语谱图/>，将所述视频序列/>以及真实语谱图/>输入至所述多模态风格编码器，编码为音素长度的风格特征嵌入/>；

所述多模态风格编码器包括：语音编码器，视频编码器，视频-语音堆栈记忆网络以及风格编码器；

所述视频-语音堆栈记忆网络包括：视频堆栈记忆网络和一个语音堆栈记忆网络/>；其中，视频堆栈记忆网络/>用来存储视频特征/>，语音堆栈记忆网络/>用来存储语音特征/>；

所述获取视频信息，根据所述视频信息采集视频序列以及真实语谱图/>，将所述视频序列/>以及真实语谱图/>输入至所述多模态风格编码器，编码为音素长度的风格特征嵌入/>，包括：

获取视频信息，采集所述视频信息中的视频序列；视频编码器对输入的视频序列进行视频特征的提取和编码，并输出视频长度的特征/>；

语音编码器将真实语谱图进行编码并4倍下采样，输出与对应视频长度的特征相同长度的语音特征/>；

将所述语音风格特征输入至风格编码器，输出音素长度的风格特征嵌入；

所述步骤S2中，在所述视频信息中随机选取一帧图片输入至所述说话人编码器，包括：

基于所述视频序列，随机选取一帧图片/>输入至说话人编码器，生成时间维度为1的说话人特性嵌入/>；

所述步骤S2中，获取文本信息，将所述文本信息/>输入至所述文本编码器，包括：

获取文本信息，将所述文本信息/>输入至所述文本编码器，编码为包含语义信息的语义特征/>；

S3、将所述多模态风格编码器、所述说话人编码器以及所述文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将所述拼接信息进行时间维度扩展，获得扩展信息；

所述步骤S3中，将所述多模态风格编码器、所述说话人编码器以及所述文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将所述拼接信息进行时间维度扩展，获得扩展信息，包括：

将说话人特性嵌入在时间维度扩展为音素长度的说话人嵌入，并与语义特征/>和风格特征嵌入/>在通道维度拼接之后送入变量适配器扩展为帧级别的特征嵌入/>；

S4、将所述扩展信息输入至解码器进行解码，获得解码信息；将所述解码信息输入至所述后处理网络进行细化处理，获得细化信息；将所述细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

2.根据权利要求1所述的方法，其特征在于，所述步骤S4中，将所述扩展信息输入至解码器进行解码，获得解码信息；将所述解码信息输入至所述后处理网络进行细化处理，获得细化信息；将所述细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成，包括：

将帧级别的特征嵌入输入至所述解码器生成重构语谱图/>；

将所述真实语谱图输入至视频-语音堆栈记忆网络，对重构的视频特征以及语音特征进行学习，并存储视频特征以及语音特征；

将所述输出语谱图经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。

3.一种基于堆栈记忆网络的多模态语音合成系统，其特征在于，所述系统用于如权利要求1~2任意一项所述的基于堆栈记忆网络的多模态语音合成方法，所述系统包括：

模型构建模块，用于构建多模态TTS模型，所述多模态TTS模型包括多模态风格编码器、TTS模块及说话人编码器；所述TTS模块包括：文本编码器、变量适配器、解码器以及后处理网络；

信息获取编码模块，用于获取视频信息，将所述视频信息输入至所述多模态风格编码器；在所述视频信息中随机选取一帧图片输入至所述说话人编码器；获取文本信息，将所述文本信息/>输入至所述文本编码器；

拼接扩展模块，用于将所述多模态风格编码器、所述说话人编码器以及所述文本编码器的输出信息进行拼接，获取拼接信息；通过变量适配器将所述拼接信息进行时间维度扩展，获得扩展信息；

细化处理模块，用于将所述扩展信息输入至解码器进行解码，获得解码信息；将所述解码信息输入至所述后处理网络进行细化处理，获得细化信息；将所述细化信息经过预训练好的声码器输出视听同步性的音频文件，完成基于堆栈记忆网络的多模态语音合成。