CN111325817A

CN111325817A - 一种虚拟人物场景视频的生成方法、终端设备及介质

Info

Publication number: CN111325817A
Application number: CN202010079898.1A
Authority: CN
Inventors: 李�权; 王伦基; 叶俊杰; 黄桂芳; 任勇; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2020-06-23
Anticipated expiration: 2040-02-04
Also published as: CN111325817B

Abstract

本发明公开了一种虚拟人物场景视频的生成方法、终端设备及存储介质，该方法只需要提供文本内容，就能够最终生成虚拟人物场景视频，具有成本效益；且通过该方法生成的虚拟人物场景视频可应用于许多与人交互的场景，如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化地生成不同的虚拟人物形象，使视频交互内容更加生动有趣；在直播教育行业也能配合各式各样的媒体使得内容更加丰富立体，生成的虚拟人物场景视频中的人物可365天24小时不知疲倦的工作，不需要人员工资，只需提供正确的文本就能做到零失误的播报，极大地降低了工作成本，同时提高了工作效率。本发明广泛应用于计算机技术领域。

Description

一种虚拟人物场景视频的生成方法、终端设备及介质

技术领域

本发明涉及计算机技术领域，尤其是一种虚拟人物场景视频的生成方法、终端设备及存储介质。

背景技术

AI合成虚拟人物视频是人工智能技术应用的全新领域，包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术，实现了定制化的虚拟人物解决方案。只需输入一段需要朗诵播报的文字，通过一系列AI技术就能生成逼真生动的人物形象视频(真实人脸、唇形、表情、动作)以及生成与文字内容和人物动作匹配具有个性风格的语音。通过AI生成的虚拟人物可用于许多与人交互的场景，如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象，使视频交互内容更加生动有趣；在直播教育行业也能更加低成本的生成虚拟人物，配合各式各样的媒体使得内容更加丰富立体。

现有的人物图像合成方式大多采用计算机图形学(CG)的方式，通过建模、合成、材质、渲染等多个板块，首先将物体模型一块块的搭建起来，再对不同部位进行贴图渲染达到更加真实的效果，最后再将其与真实环境融合。在其中每一步都需要专业人员花费大量精力，对每一张图都要细致加工，整体制作时间较长并且人力成本较高，无法同时兼顾高质量与高效率的要求。

发明内容

为解决上述至少一个问题，本发明的目的在于提供一种虚拟人物场景视频的生成方法、终端设备及存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种虚拟人物场景视频的生成方法，包括：

获取文本内容，并将所述文本内容转换成语音；

根据所述语音预测得到人物唇形关键点；

将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像，所述第一图像为包含人物表情和动作的图像，所述人物动作库包含多帧人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

将所述语音与所述第一图像结合，生成虚拟人物场景视频。

进一步地，所述获取文本内容，并将所述文本内容转换成语音这一步骤，具体包括：

获取测试文本和待迁移语音；

获取所述测试文本的发音编码；

使用经过训练的语音风格编码器，获取所述待迁移语音的风格编码；

将所述发音编码和风格编码进行拼接；

使用语音解码器对所述拼接的结果进行解码，从而获得语音。

进一步地，将所述文本内容转换成语音这一步骤还包括以下用于对所述语音风格编码器进行训练的步骤：

建立训练集；所述训练集中包括多段分别由不同人使用不同语言讲述的样本语音；

将各所述样本语音逐个输入到所述语音风格编码器；

在所述样本语音的输入过程中，将所述语音风格编码器的输入值和输出值进行比较，根据所述输入值和输出值计算损失函数，根据所述损失函数调整所述语音风格编码器中的各权重参数，直至所述损失函数收敛，则停止所述样本语音的输入过程。

进一步地，根据所述语音预测得到人物唇形关键点这一步骤，具体包括：

使用长短期记忆网络接收所述语音并进行处理；

获取所述长短期记忆网络输出的唇形关键点；

所述长短期记忆网络接受过的训练过程，包括：

构建训练集；所述训练集由语音样本和唇形关键点样本组成；

通过各所述唇形关键点样本的p-范数，分别对各所述唇形关键点样本进行标准化；

通过主成分分析，对各所述唇形关键点样本进行降维；

使用线性插值，对各所述唇形关键点样本进行上采样；

对各所述唇形关键点样本进行归一化。

进一步地，将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像这一步骤，具体包括：

采集人物动作视频；

从所述人物动作视频中提取人物动作信息，所述人物动作信息包括人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

构建人物动作库；

根据语音获取对应的唇形关键点；

将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像，所述第一图像为包含人物表情和动作的图像。

进一步地，将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像这一步骤，还包括以下步骤：

采用双线性插值方式对唇形关键点坐标进行比例缩放；

采用仿射变换方式将缩放后的唇形关键点坐标平移到人物动作库中相应的人脸图像中的嘴唇位置；

计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

将变换后的唇形关键点坐标嵌入相应的人脸图像中，生成第一图像。

进一步地，将所述语音与所述第一图像结合，生成虚拟人物场景视频这一步骤，具体包括：

将所述第一图像处理成带有限制条件的标签图像，所述限制条件包括人脸轮廓、人体关键点骨架、人体轮廓、头部轮廓和背景；

利用训练好的生成对抗网络模型接收所述标签图像并进行处理，以输出第二图像，所述第二图像为与限制条件对应的真实图像；

获取语音信号；

将所述第二图像与所述语音信号结合，生成虚拟人物场景视频。

进一步地，将所述语音与所述第一图像结合，生成虚拟人物场景视频这一步骤还包括对生成对抗网络模型的训练过程和检测过程；

对生成对抗网络模型的训练过程包括：

构建训练集，所述训练集由人物图像样本、人物视频样本和标签样本组成，所述标签样本是通过对所述人物图像样本和人物视频样本进行关键点及掩码提取得到；

获取所述训练集以对生成对抗网络模型进行训练；

对生成对抗网络模型的检测过程包括：

修改标签样本；

生成对抗网络模型获取修改后的标签样本；

检测生成对抗网络模型是否输出与标签对应的图像和/或视频。

另一方面，本发明实施例还包括一种终端设备，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行实施例所述虚拟人物场景视频生成方法。

另一方面，本发明实施例还包括一种计算机可读存储介质，其中，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所述虚拟人物场景视频生成方法。

本发明的有益效果是：本发明实施例提供一种虚拟人物场景视频的生成方法，生成的虚拟人物场景视频可应用于许多与人交互的场景，如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化地生成不同的虚拟人物形象，使视频交互内容更加生动有趣；在直播教育行业也能配合各式各样的媒体使得内容更加丰富立体，生成的虚拟人物场景视频中的人物可365天24小时不知疲倦的工作，不需要人员工资，只需提供正确的文本就能做到零失误的播报，极大地降低了工作成本，同时提高了工作效率。

附图说明

图1为本发明实施例所述虚拟人物场景视频生成方法的流程图；

图2为本发明实施例所述将文本内容转换成语音的原理示意图；

图3为本发明实施例中所述将文本内容转换成语音中训练集的结构示意图；

图4为本发明实施例中所述将文本内容转换成语音中第二种训练方式的流程示意图；

图5为本发明实施例中所述将文本内容转换成语音这一步骤在测试阶段的流程示意图；

图6为本发明实施例中对长短期记忆网络训练过程的流程示意图；

图7为本发明实施例中所述生成第一图像的流程图；

图8为本发明实施例中所述生成虚拟人物场景视频的流程图；

图9为本发明实施例中的所述的一种终端设备的结构示意图。

具体实施方式

如图1所述，本发明实施例包括一种虚拟人物场景视频生成方法，包括以下步骤：

S1.获取文本内容，并将所述文本内容转换成语音；

S2.根据所述语音预测得到人物唇形关键点；

S3.将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像，所述第一图像为包含人物表情和动作的图像，所述人物动作库包含多帧人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

S4.将所述语音与所述第一图像结合，生成虚拟人物场景视频。

关于步骤S1

本实施例中，所述将文本转换成语音的原理如图2所示。其基本流程为：对待迁移语音进行幅值归一化、修整静默和频谱转换等预处理，得到待迁移语音的线性频谱或梅尔频谱，然后将线性频谱或梅尔频谱输入到语音风格编码器中，获取由语音风格编码器经过处理输出的风格编码；另一方面，将测试文本进行分句和分词等预处理后，输入到基于注意力的自编码模型中，获取由自编码模型输出的发音编码；将风格编码和发音编码拼接后输入到语音解码器中，获取由语音解码器经过处理输出的频谱，再将频谱转换成所获得的语音。

参照图2，所述语音风格编码器由多层二维卷积神经网络和多层循环神经网络组成，具体地可以是Tacotron模型；所述基于注意力机制的自编码模型由字符嵌入网络(character Embedding)、多层全连接和一维卷积神经网络以及多层循环神经网络组成；所述语音解码器由基于注意力机制的循环神经网络、多层循环神经网络以及多层一维卷积神经网络和全连接神经网络组成，具体地可以是Griffin-Lim模型或WaveNet模型。

所述基于注意力机制的自编码模型的作用是获取测试文本中各字符的发音；所述语音风格编码器的作用是获取待迁移语音中的风格；通过所述语音解码器的处理，最终得到的语音被播放出来时，其内容与测试文本相同，其风格与待迁移语音相同。

在使用图2所示的语音风格编码器前，先对语音风格编码器进行训练。本实施例中，提供两种对语音风格编码器进行训练的方式。

两种训练方式所使用的训练集是相同的。如图3所示，每个方框分别表示由一段样本语音，这些样本语音分别由不同人使用不同语言讲述，所有这些样本语音组成所述训练集。本实施例中，建立训练集时，只需要让每个讲话人使用某一种语言讲一段话。

第一种训练方式包括如下步骤P1A-P3A：

P1A.建立如图3所示的训练集；

P2A.将各所述样本语音逐个输入到所述语音风格编码器；

P3A.在所述样本语音的输入过程中，将所述语音风格编码器的输入值和输出值进行比较，根据所述输入值和输出值计算损失函数，根据所述损失函数调整所述语音风格编码器中的各权重参数，直至所述损失函数收敛，则停止所述样本语音的输入过程。

在所述第一种训练方式中，以步骤P2A和P3A为一个循环。对于每个循环，首先将一个样本语音输入到所述语音风格编码器，然后获取所述语音风格编码器的输出值，将输出值与输入值比较，计算损失函数，再调整所述语音风格编码器中的二维卷积神经网络和循环神经网络的权重参数，然后再执行下一个循环。如果对所有样本语音都分别执行了一个循环，或者执行完某个循环后检测到损失函数满足了收敛的判定条件，则停止执行循环，保存此时语音风格编码器的权重参数，从而得到了经过训练的语音风格编码器。

第二种训练方式包括如下步骤P1B-P4B：

P1B.建立如图3所示的训练集；

P2B.将各所述样本语音按照所属语言进行分组；

P3B.将属于同组的各所述样本语音逐个输入到所述语音风格编码器；

P4B.在一组所述样本语音的输入过程中，将所述语音风格编码器的输入值和输出值进行比较，根据所述输入值和输出值计算损失函数，根据所述损失函数调整所述语音风格编码器中的各权重参数，直至所述损失函数收敛，则停止这一组所述样本语音的输入过程，开始下一组所述样本语音的输入过程。

所述第二种训练方式的原理如图4所示。通过执行步骤P2B，将属于同一种语言的样本语音分为一组。对于每一组，分别执行多个由上述第一种训练方式的步骤P2A和P3A组成的循环；对于每个循环，首先将一个样本语音输入到所述语音风格编码器，然后获取所述语音风格编码器的输出值，将输出值与输入值比较，计算损失函数，再调整所述语音风格编码器中的二维卷积神经网络和循环神经网络的权重参数，然后再执行下一个循环。如果对同一组中所有样本语音都分别执行了一个循环，或者执行完某个循环后检测到损失函数满足了收敛的判定条件，则停止执行循环，判定使用该组样本语音所实施的训练过程已完成，反之则为未完成；在使用某一组样本语音实施的训练过程完成的情况下，使用下一组样本语音对语音风格编码器执行相同过程的训练；如果使用某一组样本语音所实施的训练过程未完成，则重新使用这一组样本语音实施训练，直至完成训练，或者直接报错。

第一种训练方式中，无需对训练集中的各样本语音进行特别的处理，即可对语音风格编码器进行训练，使语音风格编码器具备根据接收到的语音输出相应的风格编码的性能，所述风格编码能够反映出语音的风格。由于所使用的训练集含有不同语言的样本语音，它们分别来自不同年龄、性别和地区的说话人，因此经过训练集训练的语音风格编码器具有识别不同语言语音风格的性能。

第二种训练方式中，通过对训练集中的各样本语音进行简单的分组处理，然后分别使用不同语言的样本语音去训练语音风格编码器，并且训练过程中，只有完成一种语言的训练，才去进行下一种语言的训练，这种训练方式，可以降低对训练集中样本语音来源的要求。具体地，第二种训练方式中，即使训练集中属于不同语言的样本语音分别是由不同的说话人说出的，也可以使得训练出的语音风格编码器具有对不同语言混合发音的识别能力，当语音风格编码器被应用于测试阶段时，可以有效应对一个句子中混合有不同语言的情况进行风格识别。

本实施例中，步骤S1，也就是获取文本内容，并将所述文本内容转换成语音这一步骤，可在完成对语音风格编码器的训练后，根据图5所示的如下步骤来进行应用：

S101.获取测试文本和待迁移语音；

S102.获取所述测试文本的发音编码；

S103.使用经过训练的语音风格编码器，获取所述待迁移语音的风格编码；

S104.将所述发音编码和风格编码进行拼接；

S105.使用语音解码器对所述拼接的结果进行解码，从而获得语音。

步骤S101-S105也可以称为语音风格编码器的应用阶段，其原理也可以参照图2所示。经过训练的语音风格编码器获得了对不同语言的待迁移语音的识别能力，即使待迁移语音中存在一个句子中混杂着不同语言的情况，语音风格编码器也可以在不同语言之间自然流畅地切换，从而准确地提取出风格编码，其反映出待迁移语音中所包含的韵律和停顿等风格。

本实施例中，所述步骤S102，也就是获取所述测试文本的发音编码这一步骤，是由以下步骤组成的：

S102-1.对所述测试文本进行分句和分词处理；

S102-2.将所述测试文本中的数字转换成以预设的主语言表达的形式；

S102-3.将所述测试文本中的小写字母转换成相应的大写字母；

S102-4.将所述测试文本中的各词语转换成所属语言的相应拼音字符；

S102-5.向所述测试文本中的相邻各词语之间添加分隔符；所述分隔符的形式与其所分隔的词语所属的语言相关；

S102-6.将所述测试文本输入到基于注意力机制的自编码模型中，接收所述自编码模型输出的所述发音编码。

步骤S102-1～S102-5属于图2中所示的预处理过程。

执行步骤S102-1时，首先通过检测句号等方式对测试文本进行分句，即以句子为单位对测试文本进行分解；然后使用jieba分词工具来进行分词，例如将“还是忍不住问一问Ann，你数过天上的Star吗？”分解成“还是/忍不住/问一问/Ann/，/你/数过/天上/的/Star/吗/？”。

执行步骤S102-2时，如果将中文语言设定为主语言，那么测试文本中的“1”、“2”等阿拉伯数字将被转换成“一”、“二”、“一百”等形式表达的数字。

执行步骤S102-4时，首先识别测试文本中每个词语所属的语言，具体地可以通过每个词语的字符值所在范围来确定，例如如果u’\u4e00<＝字符值<＝u’\u9fff，则判断相应的字符属于中文。对于中文词语，转换成现代拼音字母，其中的声调通过数字1、2、3、4、5来表示；对于英文词语，则转换成’AA’、’AA0’等CMU发音字符。

执行步骤S102-5时，向所述测试文本中的相邻各词语之间添加分隔符；所述分隔符的形式与其所分隔的词语所属的语言相关，例如中文词语与中文词语之间就以分隔符“#”分隔，英文词语与英文词语之间就以分隔符“*”分隔。

例如，对内容为“吃饭”的测试文本执行步骤S102-1—S102-5，则得到“#chi1#fan4”；对内容为“SUPER STAR”的测试文本执行步骤S102-1—S102-5，则得到“*‘S’‘UW1’‘P’‘ER0’*‘S’‘T’‘AA1’‘R’”。对于中英文混合的测试文本“后面的三段每段3位，r代表可读，w代表可写，x代表可执行。”执行步骤S102-1—S102-5，则得到“#hou4#mian4#de#san1#duan4#mei3#duan4#san1#wei4，*R#dai4#biao3#ke3#du2，*’D”AH1”B”AH0”L”Y”UW0’#dai4#biao3#ke3#xie3#，*X#dai4#biao3#ke3#zhi2#xing2#。”

通过执行步骤S102-1～S102-5得到的测试文本能被基于注意力机制的自编码模型所识别，从而输出相应的发音编码。

在执行完步骤S105获得语音之后，还可以执行以下步骤以对所获得的语音进行质量检查：

S106.获取所述语音解码器的解码时间；

S107.在所述解码时间与所述拼接的结果对齐的情况下，将解码所得的语音判断为合格，反之则为不合格。

对于合格的语音，则进行输出和播放，对于不合格的语音，则不进行输出，重新执行步骤S102-S105。通过执行步骤S106和S107，可以保证所输出的语音的质量。

综上，使用经过训练的语音风格编码器，可以提取待迁移语音的风格，然后将其融入到测试文本的发音中，使得最终获得的语音具有与测试文本相同的内容，以及与待迁移语音相同的风格，实现从文本到一定风格的语音的转换。与现有技术相比，所使用的语音风格编码器及其训练方法对训练集中的样本语音要求较低，可以较低成本来获得训练集，从而使得语音风格编码器具有较佳的能力来识别混合不同语言的待迁移语音，从而使得最终输出的语音可以具有更自然流畅的不同风格。

关于步骤S2

本实施例中，所述步骤S2，也就是根据所述语音预测得到人物唇形关键点这一步骤，主要包括：

S201.使用长短期记忆网络接收语音并进行处理；

S202.获取所述长短期记忆网络输出的唇形关键点；

所述长短期记忆网络接受过的训练过程，包括：

通过主成分分析，对各所述唇形关键点样本进行降维；

使用线性插值，对各所述唇形关键点样本进行上采样；

对各所述唇形关键点样本进行归一化。

本实施例中，主要使用经过训练的长短期记忆网络(Long Short-Term Memory，LSTM)来执行将语音转换成唇形的过程。

用于对长短期记忆网络的训练过程，参照图6，包括以下步骤：

P1.构建训练集；本步骤由以下步骤P101-P104组成；通过执行步骤P101-P104，可以获取到语音样本和唇形关键点样本，从而组成训练集。

P101.拍摄讲话人进行讲话的视频；本步骤主要是使用带录音功能的摄像机等设备进行拍摄来执行的；本实施例中，通过对讲话人讲话内容的控制、对讲话人讲话节奏的指示，以及对拍摄所得视频的后期剪辑，来控制最终所获得的视频中，说话人进行说话的时长与不说话的时长之间的比例，本实施例中，尽量使得这两个时长相等，这样，后续所获得的唇形关键点样本和语音样本中，正样本和负样本的数量就大致相同，能够取得更好的训练效果。

P102.从所述视频中获取截图和音频；使用视频处理软件，可以将拍摄所得的视频分解成为多个截图以及一段或多段音频；

P103.对所述截图进行唇形识别，对每一截图定位出嘴唇所在的区域，然后识别出嘴唇的唇线，再确定唇线上的关键点，组成这一嘴唇对应的唇形关键点样本；

P104.从所述音频提取MFCC特征，提取出的MFCC特征组成了所需获得的语音样本。所述MFCC特征就是梅尔频率倒谱系数，其提取过程为：先对所述音频进行分帧处理，也就是将音频分解成为多个长20ms-40ms的帧，由于每个帧的时长较短，因此每个帧本身相当于一个稳定信号；帧与帧之间使用汉明窗来进行加窗处理，以使得帧与帧之间更平滑；使用梅尔(Mel)滤波器组对每一帧对应的功率谱进行滤波，滤波结果反映出每个频率所对应的能量；对滤波结果进行取对数处理，使得滤波结果在数值上更能符合人的听觉规律；对所述梅尔滤波器组中各所述梅尔滤波器的滤波结果进行DCT变换，从而消除各滤波结果中所包含的相关性因素；保留DCT变换结果的第1-20个系数，从而获得所述MFCC特征。

通过步骤P101-P104获得的训练集，能够贴合人的听觉规律，通过该训练集所训练的长短期记忆网络，能够更准确地识别语音中的听觉规律，从而转换成相应的唇形。

P2.通过各所述唇形关键点样本的p-范数，分别对各所述唇形关键点样本进行标准化。本实施例中，优选地使用各所述唇形关键点样本的二范数来进行标准化。对于一个唇形关键点样本，其二范数为

其中为x_i这一唇形关键点样本中各元素(某一关键点)，N为元素的个数。所述标准化，是指执行

计算，标准化的结果是各唇形关键点样本的二范数都等于1。

P3.通过主成分分析(Principal Component Analysis，PCA)，对各所述唇形关键点样本进行降维。本实施例中，通过对PCA的参数进行设置，将40维的各所述唇形关键点样本将至5维。通过PCA处理，可以降低所要处理的数据量，减少对计算机资源和计算时间的耗用。

P4.使用线性插值，对各所述唇形关键点样本进行上采样。本实施例中，上采样率为4，也就是对于两个唇形关键点样本，通过线性插值的方式在它们之间增加4个唇形关键点样本。通过上采样，可以扩大训练集的数据量，增强训练效果。

P5.对各所述唇形关键点样本进行归一化，从而将各所述唇形关键点样本的数值范围映射到0和1之间，在后续处理步骤中能够取得更佳的训练效果。

在执行步骤P1-P5获得训练集之后，可以执行步骤S201-S202，来完成将语音转换成唇形的过程：

S201.使用长短期记忆网络接收语音并进行处理；本实施例中，所述语音可以通过使用麦克风现场采集或者播放音频文件的方式获得所述语音；

S202.获取所述长短期记忆网络输出的唇形关键点。

本实施例中，还对通过步骤S202获得的唇形关键点执行以下至少一项处理：

S203A.通过使用与所述训练过程中相同的p-范数，对所述唇形关键点进行反标准化；

S203B.通过与所述训练过程中相同的主成分分析，对所述唇形关键点进行升维；

S203C.通过与所述训练过程中相同的线性插值，对所述唇形关键点进行下采样；

S203D.通过使用与所述训练过程中相同的归一化参数，对各所述唇形关键点进行反归一化。

所述步骤S203A是与步骤P2对应的反向处理过程，在本实施例中，其具体为，将各所述唇形关键点中的元素分别乘以步骤P2计算所得的二范数

从而完成所述反标准化。

所述步骤S203B是与步骤P3对应的反向处理过程，在本实施例中，其具体为，对5维的所述唇形关键点进行反PCA，获得40维的唇形关键点，从而完成所述升维。

所述步骤S203C是与步骤P4对应的反向处理过程，在本实施例中，所使用的下采样率为4，也就是每4个唇形关键点中保留1个唇形关键点，从而完成所述下采样。

所述步骤S203D是与步骤P5对应的反向处理过程，在本实施例中，其具体为，使用步骤P5中所使用的归一化参数，乘以各所述唇形关键点中各元素，从而完成所述反归一化。

通过执行步骤S203A-S203D中的至少一个步骤，可以对经过标准化、降维、上采样和归一化等预处理的训练集在训练过程中对长短期记忆网络产生的影响进行消除，使得最终获得的唇形关键点的分布，与唇形关键点样本采集过程中的原始分布相同。

本实施例中，步骤S202所输出的结果是与语音对应的唇形关键点。在连续接收到语音时，长短期记忆网络连续输出变化的唇形关键点，如果对这些唇形关键点执行可视化的步骤，则可以显示出与语音相应的动态唇形图像。

本实施例中，使用生成对抗网络(Generative Adversarial Networks，GAN)来对所述唇形关键点进行可视化，具体包括以下步骤：

S204.使用生成对抗网络接收所述唇形关键点；

S205.获取所述生成对抗网络输出的唇形图像。

采样生成对抗网络进行可视化，具有响应速度快、实时性强的优势，能够使得最终显示出的唇形图像与步骤S201中所接收的语音同步，提高语音转换唇形过程的视觉体验。

综上，本实施例中所执行的将语音转换成唇形的方法，由于使用了长短期记忆网络对语音进行处理，能够达到较快的处理速度，以较少的耗时完成输出唇形关键点的过程，整个过程所造成的延迟较小；进一步地，对长短期记忆网络的训练过程，能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析，更加准确地输出合适的唇形图像；进一步地，设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程，通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理，可以消除预处理过程对长短期记忆网络形成的影响，使最终获得的唇形关键点具有合适的分布，便于后续应用生成对抗网络等进行视觉化处理；配合生成对抗网络使用，将唇形关键点转换成唇形图像，当持续输入变化的语音时，最终能够输出动态的唇形图像，能够提供流畅的视觉效果。

关于步骤S3

如图7所示，本发明实施例中所述生成第一图像的流程图；生成第一图像的具体步骤包括：

S301.采集人物动作视频；

S302.从所述人物动作视频中提取人物动作信息，所述人物动作信息包括人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

S303.构建人物动作库；

S304.根据语音获取对应的唇形关键点；

S305.将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像，所述第一图像为包含人物表情和动作的图像。

本实施例中，根据实际需求采集特定场景人物动作视频，比如，我们最终要提取的是新闻播报或者课堂教育等场景的虚拟人物表情动作，就采集相关新闻播报或者课堂教育的真实场景视频，其中采集到的场景视频要重点包含人物动作。

本实施例中，所述步骤S302，也就是从所述人物动作视频中提取人物动作信息这一步骤，是由以下步骤组成的：

S302-1.使用dlib采集得到人脸关键点坐标；

S302-2.使用openPose采集得到人物身体关键点坐标；

S302-3.使用maskRCNN采集得到人体轮廓特征；

S302-4.提取所述采集得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

S302-5.根据提取得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征生成对应的人物动作信息。

本实施例中，将采集到的人物动作视频分帧处理，得到包含人物动作的图像帧，再分别采集每一帧图像中的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征，进而使所有的图像都能够清晰地显示出对应的人物动作信息。

本实施例中，所述步骤S303，也就是构建人物动作库这一步骤，是由以下步骤组成的：

S303-1.根据提取的人物动作信息，生成第一标签信息，所述第一标签信息包括二维点坐标和二维掩码；

S303-2.将所述第一标签信息输入生成对抗神经网络以对所述生成对抗神经网络进行训练；

S303-3.修改所述二维点坐标和/或二维掩码以生成互不相同的第二标签信息；

S303-4.将所述互不相同的第二标签信息输入训练好的生成对抗神经网络中；

S303-5.输出与第二标签信息对应的人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

S303-6.存储所述人脸图像，构建成人物动作库。

本实施例中，对包含人物动作信息的图像进行关键点及掩码提取，进而生成标签信息。例如，其具体操作可以为：利用关键点检测法从图像中检测出关键点，并进行连线；再采用图像分割，对服饰分割，获得衣服和领带的掩码，并用不同的值存放；或者利用关键点检测法从图片中检测出人脸、人体和手部关键点，并分别进行连线；再采用图像分割，对头部分割，获得头部的掩码，并用不同的值存放。在第二种操作过程中，当检测不到人脸关键点时，判断图像中的人物头部转到背面，显示头部掩码，此时，根据人体关键点检测的正背面标识，分别给人体和手部关键点连线，并用不同的赋值存放。当检测到不全的人脸关键点时，判断图像中的人物头部转到侧面，此时，因采用了头部分割的方法，可将图像中人体头部标识出来。生成的标签信息用于训练生成对抗神经网络；简单的修改关键点坐标，或者掩码形状，就可以生成互不相同的第二标签信息，将互不相同的第二标签信息输入训练好的生成对抗神经网络中，便可生成与标签信息对应的人物图像，所述人物图像主要包括人脸及对应的人物动作信息。进一步地存储这些图像，便可构建成丰富的人物动作库；并且可以根据后续具体需求，修改标签信息，进一步丰富人物动作库的内容。

本实施例中，所述步骤S305，也就是将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像这一步骤，是由以下步骤组成的：

S305-1.采用双线性插值方式对唇形关键点坐标进行比例缩放；

S305-2.采用仿射变换方式将缩放后的唇形关键点坐标平移到人物动作库中相应的人脸图像中的嘴唇位置；

S305-3.计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

S305-4.根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

S305-5.将变换后的唇形关键点坐标嵌入相应的人脸图像中，生成第一图像。

本实施例中，根据语音信号获取对应的唇形图像，将获取得到的每一帧唇形图像中的唇形关键点坐标通过比例缩放、平移、矩阵变换方式与人物动作库中的每一包含相应动作信息的人脸图像相适配，使得唇形与人物动作库中的人脸能够自然配准。其具体操作可以为：首先采用双线性插值方式对唇形关键点坐标进行比例缩放，接着采用仿射变换方式将唇形关键点坐标平移到人物动作库中相应人脸图像中的嘴唇位置，最后计算人物动作库前一帧与当前帧人脸透射变换矩阵，将每一帧唇形图像中的唇形进行矩阵变化后嵌入人物动作库中的每一帧人脸图像中，进行配准得到包含人物表情和动作的图像。

综上所述，本实施例中所述生成第一图像具有以下优点：

通过将提取的人物动作信息，生成标签信息，即将复杂的人物图像，简化为二维点坐标或二维掩码，用于训练对抗神经生成网络，进而构建人物动作库，通过简单的修改二维点坐标，或者二维掩码的形状，就可以生成互不相同的第二标签信息，进而能够丰富人物动作库的内容；再将根据语音信号获取对应的唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像；本发明实施例在简化人物表情动作提取操作的同时，还能随时提取不同的表情动作，并且能够提供丰富的人物动作库，并可以方便地在人物动作库中加入新的动作，提高工作效率。

关于步骤S4

图8是本发明实施例中所述生成虚拟人物场景视频的流程图，如图8所示，该步骤包括：

S401.将所述第一图像处理成带有限制条件的标签图像，所述限制条件包括人脸轮廓、人体关键点骨架、人体轮廓、头部轮廓和背景；

S402.利用训练好的生成对抗网络模型接收所述标签图像并进行处理，以输出第二图像，所述第二图像为与限制条件对应的真实图像；

S403.获取语音信号；

S404.将所述第二图像与所述语音信号结合，生成虚拟人物场景视频。

本实施例中，主要是使用经过训练的生成对抗网络模型(GAN模型)来执行将带有限制条件的标签图像转化成与限制条件对应的真实图像。其中限制条件包括人脸轮廓、人体关键点骨架、人体轮廓、头部轮廓和背景，例如人脸轮廓条件可以指导训练好的生成对抗网络模型在轮廓相应位置生成一张逼真的人脸，衣服轮廓条件可以指导训练好的生成对抗网络模型在对应位置生成相应的上半身与相应的衣服，人体关键点轮廓条件可指导训练好的生成对抗网络模型在相应位置生成对应高度大小的真实人物躯体。

本实施例中，所述第一图像为步骤S3生成的第一图像，将所述第一图像处理成带有限制条件的标签图像具体包括以下过程：

对人物场景图像或视频进行关键点及掩码提取，构建得到标签图像。例如，要获取带有人脸轮廓条件的标签图像，利用关键点检测法从人物场景图像或视频中检测出关键点，并进行连线，即可生成带有人脸轮廓限制条件的标签图像；同样地，如果要获取带有衣服轮廓条件的标签图像，利用图像分割法对人物场景图像或视频中的服饰进行分割，获取得到衣服和/或领带的掩码，从而能够得到带有衣服轮廓限制条件的标签图像。

本实施例中，对生成对抗网络模型的训练过程包括以下步骤：

A1.构建训练集，所述训练集由人物图像样本、人物视频样本和标签样本组成，所述标签样本是通过对所述人物图像样本和人物视频样本进行关键点及掩码提取得到；

A2.获取所述训练集以对生成对抗网络模型进行训练。

本实施例中，对生成对抗网络模型训练完以后，还将对生成对抗网络模型进行检测，其过程具体包括以下步骤：

D1.修改标签样本；

D2.生成对抗网络模型获取修改后的标签样本；

D3.检测生成对抗网络模型是否输出与标签对应的图像和/或视频。

本实施例中，对人物图像样本和人物视频样本进行关键点和掩码提取得到标签样本；

通过改变关键点坐标位置和掩码形状，便可修改标签样本。

本实施例中，所述生成对抗网络模型包括生成网络和判别网络；所述生成网络用于接收所述第一图像，并生成第二图像；所述判别网络用于判别所述第二图像的真实度。也就是说，生成网络接收输入生成对抗网络模型中的带有限制条件的标签图像后，生成与限制条件对应的真实图像；比如输入的是带有人脸轮廓的图像，生成网络接收到图像后，在轮廓相应位置生成一张逼真的人脸。

本实施例中，生成网络包括多个子网络，其中包括第一子网络和第二子网络，也就是说，生成网络G可拆分成两个子网络G＝{G1，G2}，其中G1生成网络是一个使用U-net结构的end2end网络，用来生成包含全局信息的较低分辨率图像(如1024x 512)，G2是利用G1的输出进行局部细节增强，输出高分辨率图像(如2048x 1024)；以此类推，如需生成更高清图像，只需增加更多细节增强生成网络即可(例如G＝{G1，G2，G3})。

作为可选的具体实施方式，判断网络判别所述第二图像的真实度这一步骤，具体包括

将第二图像裁剪成多个不同尺度的图像；

利用多尺度判别器在所述多个不同尺度的图像上进行判别，得到多个判别结果值；

计算多个判别结果值的平均值；

根据计算得到的平均值，判别所述第二图像的真实度。

本实施例中，将第二图像裁剪成3个不同尺度的图像，其中，第二图像为经过生成网络处理输出的图像，判别网络D采用多尺度判别器，在三个不同图像尺度上进行判别取值，最后将三个尺度的patch判别结果值合并，并取得平均值。判别网络的三个尺度为：原图尺寸、1/2尺寸和1/4尺寸。

本实施例中，采用了基于pix2pixHD网络与利用了条件GAN的思路，以生成高清人物场景视频生成。pix2pixHD加入了feature matching技术，其将判别网络中所有层(除了输出层)的特征图都拿过来做feature matching，加入feature matching损失函数后，pix2pixHD的损失函数为：

该公式中分为GAN loss与Feature matching loss，在GAN loss中判别网络D通过迭代不断去最大化目标函数，生成网络G通过迭代不断去最小化GAN loss与Featurematching loss，以保证生成更加清晰细节的图像。

综上所述，本实施例中的生成虚拟人物场景视频具有以下优点：

通过训练好生成对抗网络模型，并将带有限制条件的标签图像输入训练好的生成对抗网络模型中，从而可输出与限制条件对应的真人图片，限制条件可指导生成对抗网络模型生成与限制条件对应的真实图像，从而可对生成内容进行更加精细的内容控制，生成更加可控的高清图像。并且可根据后续使用中产生的新生成需求，增加新的限制条件，使生成内容根据需求扩展变得更加丰富；而且无需每段视频都必须有真实人物进行录制，具有更快的制作效率与更加丰富的扩展形式。

图9为本发明实施例提供的一种终端设备的结构示意图，请参见图9所示，该终端设备60可以包括处理器601和存储器602。其中，

存储器602用于存储程序指令；

处理器601用于读取存储器602中的程序指令，并根据存储器602中的程序指令执行实施例所示的虚拟人物场景视频生成方法。

所述存储器还可以单独生产出来，并用于存储与所述一种虚拟人物表情动作提取方法相应的计算机程序。当这个存储器与处理器连接时，其存储的计算机程序将被处理器读取出来并执行，从而实施所述虚拟人物表情动作提取方法，达到实施例中所述的技术效果。

本实施例还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所示的虚拟人物场景视频的生成方法。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种虚拟人物场景视频的生成方法，其特征在于，包括：

获取文本内容，并将所述文本内容转换成语音；

根据所述语音预测得到人物唇形关键点；

将所述语音与所述第一图像结合，生成虚拟人物场景视频。

2.根据权利要求1所述的一种虚拟人物场景视频的生成方法，其特征在于，所述获取文本内容，并将所述文本内容转换成语音这一步骤，具体包括：

获取测试文本和待迁移语音；

获取所述测试文本的发音编码；

将所述发音编码和风格编码进行拼接；

3.根据权利要求2所述的一种虚拟人物场景视频的生成方法，其特征在于，将所述文本内容转换成语音这一步骤还包括以下用于对所述语音风格编码器进行训练的步骤：

将各所述样本语音逐个输入到所述语音风格编码器；

4.根据权利要求1所述的一种虚拟人物场景视频的生成方法，其特征在于，根据所述语音预测得到人物唇形关键点这一步骤，具体包括：

使用长短期记忆网络接收所述语音并进行处理；

获取所述长短期记忆网络输出的唇形关键点；

所述长短期记忆网络接受过的训练过程，包括：

通过主成分分析，对各所述唇形关键点样本进行降维；

使用线性插值，对各所述唇形关键点样本进行上采样；

对各所述唇形关键点样本进行归一化。

5.根据权利要求1所述的一种虚拟人物场景视频的生成方法，其特征在于，将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像这一步骤，具体包括：

采集人物动作视频；

构建人物动作库；

根据语音获取对应的唇形关键点；

6.根据权利要求5所述的一种虚拟人物场景视频的生成方法，其特征在于，将所述唇形关键点嵌入人物动作库相应的人脸图像中，生成第一图像这一步骤，还包括以下步骤：

采用双线性插值方式对唇形关键点坐标进行比例缩放；

计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

7.根据权利要求1所述的一种虚拟人物场景视频的生成方法，其特征在于，将所述语音与所述第一图像结合，生成虚拟人物场景视频这一步骤，具体包括：

获取语音信号；

8.根据权利要求7所述的一种虚拟人物场景视频的生成方法，其特征在于，将所述语音与所述第一图像结合，生成虚拟人物场景视频这一步骤还包括对生成对抗网络模型的训练过程和检测过程；

对生成对抗网络模型的训练过程包括：

获取所述训练集以对生成对抗网络模型进行训练；

对生成对抗网络模型的检测过程包括：

修改标签样本；

生成对抗网络模型获取修改后的标签样本；

9.一种终端设备，其特征在于，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1～8任一项所示的一种虚拟人物场景视频生成方法。

10.一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1～8任一项所示的一种虚拟人物场景视频生成方法。