CN113194348B

CN113194348B - 一种虚拟人讲课视频生成方法、系统、装置及存储介质

Info

Publication number: CN113194348B
Application number: CN202110434673.8A
Authority: CN
Inventors: 李�权; 王伦基; 叶俊杰; 朱杰; 成秋喜; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-07-22
Anticipated expiration: 2041-04-22
Also published as: CN113194348A

Abstract

本发明公开一种虚拟人讲课视频生成方法、系统、装置及存储介质，包括：获取讲稿内容，将讲稿内容转换为语音，并根据讲稿内容生成讲稿视频；根据讲稿内容或语音匹配出人物动作；将语音、人物动作输入至高清视频人物同步唇形模型，得到与语音同步的人脸唇形图像序列；将虚拟人老师形象以及人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频；将高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频；将无背景虚拟人讲课视频嵌入至讲稿视频中，得到虚拟人老师讲课视频。本发明只需要一份讲稿和一张虚拟人老师形象，即可生成生动形象的虚拟人老师讲课视频，大大缩短视频课程内容制作与打磨的时间。本发明可广泛应用于教学技术领域内。

Description

一种虚拟人讲课视频生成方法、系统、装置及存储介质

技术领域

本发明涉及教学技术领域，尤其是一种虚拟人讲课视频生成方法、系统、装置及存储介质。

背景技术

目前，大部分的教学视频都是通过录播系统来录制教师的教学过程得到的，通过这种方式将珍贵的教学资源保留下来。

录制的教学视频还需要进行后期剪辑，才能供学生使用。如果录制的教学视频中包含错误的授课内容，为了修正该授课内容，通常需要重新录制，如此，教学视频的制作过程存在整体制作时间长、人力成本高的弊端。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的目的在于提供一种虚拟人讲课视频生成方法、系统、装置及存储介质。

第一方面，本发明实施例提供了一种虚拟人讲课视频生成方法，包括以下步骤：

获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频；

根据所述讲稿内容或所述语音匹配出人物动作；

将所述语音、所述人物动作输入至高清视频人物同步唇形模型，得到与所述语音同步的人脸唇形图像序列，所述高清视频人物同步唇形模型用于输出所述语音所对应的人脸唇形图像；

将获取的虚拟人老师形象以及所述人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频，其中，所述视频驱动虚拟人物模型用于为所述虚拟人老师形象添加头部位姿和表情；

将所述高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频，其中，所述视频抠图模型用于去除所述虚拟人讲课视频中的背景；

将所述无背景虚拟人讲课视频嵌入至所述讲稿视频中，得到虚拟人老师讲课视频。

进一步地，所述获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频这一步骤，包括以下步骤：

获取所述讲稿内容的发音编码；

获取待迁移语音，将所述待迁移语音输入至经过训练的语音风格编码器，得到所述待迁移语音的风格编码，其中，所述语音风格编码器用于输出所述待迁移语音的风格编码；

将所述发音编码和所述风格编码进行拼接得到拼接结果；

将所述拼接结果输入至语音解码器得到所述语音。

进一步地，所述根据所述讲稿内容或所述语音匹配出人物动作这一步骤，包括以下步骤：

将所述讲稿内容输入至文本情绪识别网络，得到文本情绪类型，其中，所述文本情绪识别网络用于识别所述讲稿内容中包含的情绪类型；

根据所述文本情绪类型匹配出所述人物动作；

或，

将所述语音输入至语音情绪识别网络，得到声音情绪类型，其中，所述语音情绪识别网络用于识别所述语音中包含的情绪类型；

进一步地，所述高清视频人物同步唇形模型包括生成网络和判别网络，所述虚拟人讲课视频生成方法还包括对高清视频人物同步唇形模型的训练步骤，包括以下步骤：

获取多人说话视频，将所述多人说话视频分割为说话人物与音频片段匹配的多个视频片段，其中，每一个所述音频片段对应一个所述说话人物；

对所述视频片段中的若干帧图像进行人脸检测，得到若干人脸图像；

将所述人脸图像的唇部清除得到唇部消除人脸图像；

将所述音频片段和若干所述唇部消除人脸图像输入至所述生成网络，得到与所述音频片段同步的人脸唇形图像序列，其中，所述生成网络用于根据所述音频片段对若干所述唇形消除人脸图像的唇部进行补全；

所述判别网络根据所述音频片段和所述人脸唇形图像序列进行唇形同步判别得到唇形同步判别值，根据所述唇形同步判别值对所述生成网络进行优化；

所述判别网络根据所述人脸唇形图像序列与所述视频片段中的若干帧图像得到图像真实度概率值，并根据所述图像真实度概率值对所述生成网络进行优化。

进一步地，所述将获取的虚拟人老师形象以及所述人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频这一步骤，包括以下步骤：

获取虚拟人老师形象；

对所述虚拟人老师形象进行人脸识别，获取人脸特征向量；

对所述虚拟人老师形象进行关键点检测，获取若干个第一3D关键点及所述第一3D关键点对应的雅可比矩阵；

将所述语音和所述人脸唇形图像序列输入至训练好的头部位姿及表情预测模型，得到对应的旋转矩阵、平移矢量及表情参数，所述头部位姿及表情预测模型用于预测所述人脸唇形图像序列的人物的头部位置、姿态以及表情；

根据所述第一3D关键点及所述第一3D关键点对应的雅可比矩阵、所述旋转矩阵、所述平移矢量及所述表情参数计算得到第二3D关键点及第二3D关键点对应的雅可比矩阵；

将所述人脸特征向量、所述第二3D关键点及所述第二3D关键点对应的雅可比矩阵输入至人物生成模型，得到与所述语音同步的人物表情及人脸唇形图像序列；

将所述语音和所述人物表情及人脸唇形图像序列合成为所述高清虚拟人讲课视频。

进一步地，所述虚拟人讲课视频生成方法还包括以下步骤：

将所述语音和所述讲稿内容输入至语音文字对齐模型得到字幕文件和语音分段时间戳标识；

其中，所述语音文字对齐模型用于使所述语音和所述讲稿内容同步。

进一步地，所述获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频这一步骤，还包括以下步骤：

根据所述语音分段时间戳标识确定讲稿翻页时间节点，根据所述讲稿翻页时间节点将所述讲稿内容生成讲稿视频。

第二方面，本发明实施例提出了一种虚拟人讲课视频生成系统，包括：

转换模块，用于获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频；

人物动作匹配模块，用于根据所述讲稿内容或所述语音匹配出人物动作；

唇形获取模块，用于将所述语音、所述人物动作输入至高清视频人物同步唇形模型，得到与所述语音同步的人脸唇形图像序列，所述高清视频人物同步唇形模型用于输出所述语音所对应的人脸唇形图像；

表情添加模块，用于将获取的虚拟人老师形象以及所述人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频，其中，所述视频驱动虚拟人物模型用于为所述虚拟人老师形象添加头部位姿和表情；

背景去除模块，用于将所述高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频，其中，所述视频抠图模型用于去除所述虚拟人讲课视频中的背景；

视频融合模块，用于将所述无背景虚拟人讲课视频嵌入至所述讲稿视频中，得到虚拟人老师讲课视频。

第三方面，本发明实施例提供了一种虚拟人讲课视频生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的一种虚拟人讲课视频生成方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现所述的一种虚拟人讲课视频生成方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例通过将讲稿内容转换为语音，并根据讲稿内容或者语音筛选出人物动作，利用高清视频人物同步唇形模型获取语音所对应的唇形，再利用视频驱动虚拟人物模型将唇形以及头部位姿和表情等添加到虚拟人老师形象上，只需要一份讲稿和一张虚拟人老师形象，即可生成生动形象的虚拟人老师讲课视频，而且，大大缩短视频课程内容制作与打磨的时间。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明一种虚拟人讲课视频生成方法具体实施例的流程示意图；

图2为本发明一种虚拟人讲课视频生成方法具体实施例的另一种流程示意图；

图3为本发明的虚拟人物生成网络模型的结构示意图；

图4为本发明的头部位姿及表情预测模型的训练流程图；

图5为本发明一种虚拟人讲课视频生成系统具体实施例的结构示意图；

图6为本发明一种虚拟人讲课视频生成装置具体实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

下面参照附图详细描述根据本发明实施例提出的一种虚拟人讲课视频生成方法、系统、装置及存储介质，首先将参照附图描述根据本发明实施例提出的一种虚拟人讲课视频生成方法。

参照图1和图2，本发明实施例中的一种虚拟人讲课视频生成方法主要包括以下步骤S1-S4：

S1、获取讲稿内容，将讲稿内容转换为语音，并根据讲稿内容生成讲稿视频；

S2、根据讲稿内容或语音匹配出人物动作；

S3、将语音、人物动作输入至高清视频人物同步唇形模型，得到与语音同步的人脸唇形图像序列，高清视频人物同步唇形模型用于输出语音所对应的人脸唇形图像；

S4、将获取的虚拟人老师形象以及人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频，其中，视频驱动虚拟人物模型用于为虚拟人老师形象添加头部位姿和表情；

S5、将高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频，其中，视频抠图模型用于去除虚拟人讲课视频中的背景；

S6、将无背景虚拟人讲课视频嵌入至讲稿视频中，得到虚拟人老师讲课视频。

具体地，本申请提供的一种虚拟人讲课视频生成方法，通过语音合成与多说话人识别等技术将讲稿内容转换为具有特定风格的语音，该讲稿可以是常见的文档文件、PPT文件等；接着，再利用讲稿内容或特定风格的语音筛选匹配出人物动作，该人物动作包括面部部表情动作和肢体动作，该人物动作能够反应人物的情绪(通常特定风格的语音中包括有情绪，讲稿内容包含的词汇等也能够反应情绪)，因此，可以按照人物情绪例如正常、高兴、严肃等将人物动作划分为不同的人物动作类别，再将讲稿内容或语音输入到动作类型识别神经网络中，输出讲稿内容或语音对应的人物动作。

高清视频人物同步唇形模型对人物动作的面部表情的人脸唇形图像进行唇形修改、补全等处理，并根据输入的具有特定风格的语音输出该具有特定风格的语音对应的人脸唇形图像序列，该人脸唇形图像序列包括若干帧对应于具有特定风格的语音的声音频谱图的人脸唇形图像，从而显示具有特定风格的语音的每一个发音的唇形。

接着，利用视频驱动虚拟人物模型将唇形、头部位姿和表情等添加至虚拟人老师形象上，从而生成高清虚拟人讲课视频。最后，将虚拟人讲课视频中的背景去除，然后再将该去除掉背景的虚拟人讲课视频嵌入到讲稿视频中，即可得到虚拟人老师讲课视频。

由上述内容可以看出，本申请只需要一份讲稿和一张简单的照片(虚拟人老师形象)，即可生成生动形象的虚拟人老师讲课视频，而且，相较于录制教学视频，可以通过更新讲稿内容实时更新讲课内容，大大缩短视频课程内容制作与打磨的时间。

进一步作为可选的实施方式，步骤S1包括以下步骤S11-S14：

S11、获取讲稿内容的发音编码；

具体地，可以将讲稿内容进行分句和分词预处理后，输入至训练好的基于注意力的自编码模型中，获取由自编码模型输出的发音编码，其中，基于注意力的自编码模型由字符嵌入网络、多层全连接、一维卷积神经网络以及多层循环神经网络组成，该基于注意力的自编码模型用于获取讲稿内容中的各字符的发音。

S12、获取待迁移语音，将待迁移语音输入至经过训练的语音风格编码器，得到待迁移语音的风格编码，其中，语音风格编码器用于输出输入的待迁移语音的风格编码；

具体地，待迁移语音为参考语音，用于为将要生成的具有特定风格的语音提供其携带的语音风格。语音风格编码器由多层二维卷积神经网络和多层循环神经网络组成，主要用于获取待迁移语音中的风格。该语音风格编码器需要经过训练才可以使用。语音风格编码器的训练过程如下：

获取一组包括不同年龄、性别和地区的说话人所说的不同语言的样本语音，将一个个样本语音输入到语音风格编码器内，然后获取语音风格编码器的输出值，将输出值与输入至比较，计算损失函数，根据损失函数来调整语音分风格编码器中的二维卷积神经网络和循环神经网络的权重参数，直到检测出损失函数满足了收敛的判定条件，则停止对语音风格编码器的训练。

S13、将发音编码和风格编码进行拼接得到拼接结果；

S14、将拼接结果输入至语音解码器得到语音。

具体地，语音解码器由基于注意力机制的循环神经网络、多层循环神经网络以及多层一维卷积神经网络和全连接神经网络组成。将风格编码和发音编码输入到经过训练的语音解码器中，获取由语音解码器经过处理输出的频谱，再将频谱转换成具有特定风格的语音。

进一步作为可选的实施方式，步骤S2包括以下步骤S21-S24：

S21、将讲稿内容输入至文本情绪识别网络，得到文本情绪类型，其中，文本情绪识别网络用于识别讲稿内容中包含的情绪类型；

S22、根据文本情绪类型匹配出人物动作；

或

S23、将语音输入至语音情绪识别网络，得到声音情绪类型，其中，语音情绪识别网络用于识别语音中包含的情绪类型；

S24、根据声音情绪类型匹配出人物动作。

具体地，利用具有特定风格的语音和讲稿内容可以筛选出匹配的人物动作，可利用人物动作库来预先存储录制好的不同种类的人物动作，该人物动作可以不同的讲课领域和表达场景进行分类，通常而言，情绪的不同(例如，正常、高兴、严肃等)，对应的人物动作也不同。

讲稿内容作为训练好的文本情绪识别网络的输入，利用该文本情绪识别网络识别讲稿内容中包含的情绪类型(具体可以通过识别出讲稿内容中包含情绪的词汇实现对讲稿内容中包含的情绪类型的识别)，也即是文本情绪类型，和下文的声音情绪类型做区别，从而利用该情绪类型去人物动作库中查找对应的人物动作。

同理，具有特定风格的语音输入至语音情绪识别网络，该语音情绪识别网络根据具有特定风格的语音的风格以及语音内容来判断出该特定风格的语音中包含的情绪类型，从而根据该情绪类型去人物动作库中查找到相应的人物动作。

进一步作为可选的实施方式，高清视频人物同步唇形模型包括生成网络和判别网络，虚拟人讲课视频生成方法还包括对高清视频人物同步唇形模型的训练步骤S7，包括以下步骤S71-S76：

S71、获取多人说话视频，将多人说话视频分割为说话人物与音频片段匹配的多个视频片段，其中，每一个音频片段对应一个说话人物；

其中，训练的样本数据为采集的各种场景的多人说话视频，该多人说话视频中的音频数据为多个说话人物、多种语言的混合音频数据，另外，该多人说话视频中的帧图像数据为各种场景、比例、光照的说话人脸数据，同时该多人说话视频分辨率在1080p以上。

该音频片段是指多人说话视频的整个音频中的一个音频片段，每一个音频片段对应一个说话人物是指，每一个音频片段只包含一个说话人物的声音。

在对该多人说话视频进行音频与说话人物的匹配的过程中，标注出多人说话视频中的每一个音频片段对应的说话人物的人脸在帧图像中的位置，同时保证整个音频和视频时长同步，通过标注将视频分割成音频片段与说话人物匹配的多个视频片段。

S72、对视频片段中的若干帧图像进行人脸检测，得到若干人脸图像；

其中，每一个视频片段中都包含若干帧图像，对视频片段中的每一帧图像进行人脸检测，通过人脸检测得到每一帧中人脸的位置，并将得到的人脸位置信息向下巴方向延伸5-50个像素，确保人脸检测框能够覆盖整个人脸，接着，通过优化后的人脸检测框对每一帧图像截取并保存人脸图像。

S73、将人脸图像的唇部清除得到唇部消除人脸图像；

S74、将音频片段和若干唇部消除人脸图像输入至生成网络，得到与音频片段同步的人脸唇形图像序列，其中，生成网络用于根据音频片段对若干唇形消除人脸图像的唇部进行补全；

首先，对声音片段进行预处理，声音片段的预处理主要是指将音频片段归一化，接着把归一化后的音频片段转化为声音频谱图，声音频谱图包括但不限于梅尔频谱、线性频谱等。此外，还包括对人脸图像的预处理，人脸图像的预处理是指，将人脸图像中包含唇形的下半部分的人脸图像的像素置为0从而得到唇部消除人脸图像。

生成网络用于根据输入的音频片段的声音频谱图的特征对输入的唇部消除人脸图像的唇部进行补全从而得到人脸唇形图像。因此，利用生成网络来补全唇部消除人脸图像的唇部，同时，选择与生成的人脸唇形图像序列同样数量的参考帧，将该参考帧输入生成网络，使得生成网络提取更加丰富的人物特征信息，提供更好的生成效果，进而可以达到利用生成网络为唇部消除人脸图像进行唇形补全的目的。同时，为了保证生成的人脸唇形图像序列的前后帧关联，在训练时，向生成网络输入不同视频片段的唇部消除人脸图像，生成网络将在训练过程中学习到视频片段前后帧的关联关系，使得生成的人脸唇形图像序列更加流畅自然，根据不同视频场景与说话人物的生成要求，生成的人脸唇形图像序列的帧数可选择为1、3、5、7、9等。生成网络的具体结构组成以及实现原理如下：

生成网络可分为声音编码器、图像编码器、图像解码生成器。

首先，音频片段的声音频谱图输入声音编码器，通过卷积编码提取声音特征。同时将声音频片段对应的若干张唇部消除人脸图像输入到图像编码器中，通过卷积编码提取图像特征，输入的唇部消除人脸图像的图像分辨率包括但不限于96x96、128x128、256x256、512x512等。接着将提取好的声音特征与图像特征输入图像解码生成器，最终生成与音频片段同步的人脸唇形图像，根据不同的生成需求，生成的人脸唇形图像的图像分辨率包括但不限于96*96、128*128、256*256、512*512等。

最后需要说明的是，为了生成逼真的人脸唇形图像，输入数据为带有标签限制条件的序列图片，限制条件可为像素边缘轮廓、人脸唇形关键点轮廓、头部轮廓以及背景等。通过在输入数据中设置限制条件，可对生成内容进行更加精细地内容控制，生成更加可控的高清图像。并且可根据后续使用中产生的新生成需求，增加新的输入限制条件，使生成内容根据需求扩展变得更加丰富。

S75、判别网络根据音频片段和人脸唇形图像序列进行唇形同步判别得到唇形同步判别值，根据唇形同步判别值对生成网络进行优化；

S76、判别网络根据人脸唇形图像序列与视频片段中的若干帧图像得到图像真实度概率值，并根据图像真实度概率值对生成网络进行优化；

其中，判别网络可分为唇形同步判别网络与图像质量判别网络，用于在训练的过程中，对生成网络生成的唇形同步和图像质量做检测，并给出唇形同步判别值和图像真实度概率值，指导生成网络生成更真实同步的唇形以及更高清真实的图像。

其中，唇形同步判别网络为预训练网络，输入为音频片段以及对应生成的人脸唇形图像，输出为每张人脸唇形图像与对应的音频片段的同步匹配度，判别器通过判断并给出唇形同步判别值，进而指导生成网络训练时进行优化改进，生成与声音更加同步的人脸唇形图像。图像质量判别网络与生成网络同时训练，输入为人脸唇形图像与真实图像，输出为图像真实度概率值，用于对生成的图像质量的好坏进行判断，在训练的过程中指导生成网络生成出更加逼真的人脸唇形图像。

将具有特定风格的语音、人物动作输入至训练完毕的高清视频人物同步唇形模型，即可得到与特定风格的语音同步的人脸唇形图像序列。

进一步作为可选的实施方式，步骤S4这一步骤，包括以下步骤S41-S47：

S41、获取虚拟人老师形象；

其中，可构建虚拟人老师形象库来存储虚拟人老师形象，虚拟人老师形象可以是用户上传的真实人脸照片，也可以是通过神经网络模型生成的虚拟人物人脸图像。如图3所示，虚拟人物生成网络模型的输入为随机多维向量，可根据生成人物复杂程度、训练数据量设置随机多维向量的维度的大小，例如，维度可以是100、200、300维等。虚拟人物生成网络模型包括虚拟人身份生成模型、虚拟人表情生成模型、虚拟人光照生成模型、虚拟人动作生成模型这四个模型，每一个模型的模型结构包含若干个卷积层与特征多维向量输出层，这四个模型分别用于获取输入的随机多维向量的身份、表情、光照、动作等特征。

虚拟人整体人脸生成模型结构包含若干卷积层与照片输出层，用于利用身份、表情、光照、动作等特征合成虚拟人物人脸图像。

S42、对虚拟人老师形象进行人脸识别，获取人脸特征向量f；

具体地，由于提供的人脸照片可能是从不同角度拍摄的，在定位目标时可能会出现误判，从而将同一个人不同角度的人脸照片判断为不同的人。因此，本申请实施例使用脸部特征点估计算法对虚拟人老师形象进行人脸识别，找到人脸的68个特征点(当然，也可能是其他数量的特征点，此处不做限制)，其中包括眼睛、鼻子、嘴巴和面部轮廓。找到脸部特征点后，无论人脸的朝向如何，根据眼睛和嘴巴的位置，将若干人脸检测结果组中的人脸区域进行仿射变换(包括旋转，缩放和剪切图像)，使人脸区域中人脸的眼睛和嘴巴在预设的位置范围，一般预设的位置范围位于人脸的中部，得到扭曲后的人脸检测结果组。此时人脸的眼睛和嘴巴位于人脸的中部，定位更准确。将扭曲后的人脸检测结果组输入训练好的深度卷积神经网络模型，得到若干128维度的人脸特征向量f。

S43、对虚拟人老师形象进行关键点检测，获取若干个第一3D关键点及第一3D关键点对应的雅可比矩阵；

其中，输入的虚拟人老师形象经过多个下采样模块进行卷积的下采样操作，再经过一个一维卷积并进行矩阵形状变换，输入到多个上采样模块进行卷积的上采样操作，得到K个第一3D关键点x(K*3的矩阵)和第一3D关键点对应的雅可比矩阵J(Jacobians，雅可比矩阵，K*3*3的矩阵)。K可设为10～30，3D空间中的第一3D关键点是可操作的，合成过程中还可以旋转并平移人物的头部。雅可比矩阵表示如何通过仿射变换将第一3D关键点周围的局部区域转换为生成图像中的对应区域。

S44、将人脸唇形图像序列输入训练好的头部位姿及表情预测模型，得到旋转矩阵R_i、平移矢量t_i及表情参数δ_i，头部位姿态及表情预测模型用于预测人脸唇形图像序列的人脸的头部位置、姿态以及表情；

具体地，头部位姿与表情预测模型用于预测输入的人脸唇形图像中的人物的头部位置、姿态以及表情。该头部位姿及表情预测模型由声音编码器及多个线性层组成。参照图4，该头部位姿及表情预测模型的训练过程如下：

采集不同语言、不同人种、约几千人的视频数据。

提取视频数据中的N帧图像，对每帧图像进行头部位姿及表情检测，其中，头部位姿及表情检测主要是通过头部位姿及表情检测网络实现的，该头部位姿检测网络由一系列ResNet残差网络组成，用全局池化以消除空间维度，并使用不同的线性层来估计旋转角度、平移矢量及表情参数。

M帧图像输入至头部位姿及表情检测网络，输出第k帧图像的旋转矩阵R_k(3x3的矩阵)、平移矢量t_k(3x1的矩阵)及表情参数δ_k，其中1≤k≤N且k为整数。同时，对视频数据中的音频数据进行归一化处理，得到音频波形数据，将音频波形数据转化为音频频谱，该音频频谱包括但不限于梅尔频谱、线性频谱等。声音编码器通过卷积音频频谱来提取音频特征，线性层估算音频特征与第k帧图像的旋转矩阵R_k(3x3的矩阵)、平移矢量t_k(3x1的矩阵)及表情参数δ_k的关系。

将具有特定风格的语音以及人脸唇形图像序列(假设人脸唇形图像序列包含M张人脸唇形图像)输入至头部姿态及表情预测模型，从而预测第i张人脸唇形图像的输出旋转矩阵R_i(3x3的矩阵)、平移矢量t_i(3x1的矩阵)及表情参数δ_i，其中1≤i≤N且i为整数。

S45、根据第一3D关键点及第一3D关键点对应的雅可比矩阵、旋转矩阵R_i、平移矢量量t_i及表情参数δ_i计算得到第二3D关键点及第二3D关键点对应的雅可比矩阵；

具体地，第二3D关键点及第二3D关键点对应的雅可比矩阵的表达式如下：

x'＝R_ix+t_i+δ_i

J'＝R_iJ

其中，第二3D关键点为x'＝{x'1，x'2，...x'n}及第二3D关键点x'对应的雅可比矩阵为J'＝{J'1，J'2，...，J'n}。因此可见，第二3D关键点x'及第二3D关键点x'对应的雅可比矩阵J'携带有头部位姿、表情等特征。

S46、将人脸特征向量f、第二3D关键点x'及第二3D关键点x'对应的雅可比矩阵J'输入至训练好的人物生成模型，得到与特定风格的语音同步的人物表情及人脸唇形图像序列。

其中，人物生成模型用于将头部位姿、表情等叠加到虚拟人老师形象中。

人物生成模型由一个参数编码器和图像解码器组成。首先，输入某一帧的第二3D关键点x'及第二3D关键点x'对应的雅可比矩阵J'，与特定风格的语音得到的旋转矩阵R_i、平移矢量t_i及表情参数δ_i，进行计算，得到新的3D关键点也即是第二3D关键点x'及第二3D关键点x'对应的雅可比矩阵J'。将第二3D关键点x'及第二3D关键点x'对应的雅可比矩阵J'输入参数编码器，得到128维度的向量，再将该128维度的向量与人脸特征向量f叠加后输入到图像解码器，得到补全唇形、带有头部位姿及表情的人脸图像Frame'_i，，也即是人物表情及唇形图像，多张人物表情及唇形图像组成与特定风格的语音同步的人物表情及人脸唇形图像序列。

S47、将语音和人物表情及人脸唇形图像序列合成为高清虚拟人讲课视频。在一个具体的实施例中，可利用ffmpeg等工具将图像及语音合并成视频。

步骤S4中得到的高清虚拟人讲课视频输入视频抠图模型进行处理，得到无背景虚拟人讲课视频，该视频抠图模型用于去除高清虚拟人讲课视频中的背景，其中，得到该无背景虚拟人讲课视频的过程如下：

对输入的高清虚拟人讲课视频作视频帧图片切割得到多帧视频图片；

利用MODNet模块输出视频图片的预测前景蒙版图。MODNet模块采用监督学习的方式，主要包括由语义估计、细节预测和语义-细节融合三部分。其中，语义估计采用MObileNetV2架构，通过编码器去提取高级语义，输出一个粗糙的前景掩模。细节预测采用12层卷积层，对前景与背景之间的边界区域，对人像边界进行细节预测。语义-细节融合部分结合前两个子目标的特征(语义估计和细节预测)，输出对应视频图片的预测前景蒙版图。

视频抠图模型还包括PointRend模块，PointRend模块是基于像素点进行渲染的神经网络模块，该模块基于迭代细分算法，在自适应选择的位置用于边界细节更准确的分割预测。其中，在每次迭代的过程中，PointRend模块选择L个最不确定的点，然后为这L个点计算点级特征，并预测相应的标签，重复该过程，直到分割结果满足上采样的所需分辨率为止。

而为了获得更好的、精细的分割结果，可以将原图乘以预测前景蒙版图得到一个无背景的前景图，在此基础上，对该无背景的前景图做一次实例分割(采用PointRend模块实现)，得到更精细的实例分割图。

对上述的实例分割图做掩模处理即可得到前景蒙版图，在此基础上，为了防止有个别的前景蒙版图中会有多个区域块(造成的问题会是合成视频之后，该帧视频图像会出现闪烁不是目标人像以外的个别小区域，严重影响视频的观感体验)，或者中间帧视频图像的前景蒙特图与前一帧和后一帧相差较大(造成的问题是，合成视频后，有些视频帧不是那么平缓渐变，突变梯度较大，视频不平滑)。

对于前一个问题的解决方案为：针对每一张这类型的前景蒙版图，通过比较多个区域块的面积大小，只保留面积最大的区域，其他的区域均做0值处理(即前景蒙版只保留最大区域的信息，其他不相关目标区域信息均排除)。对于后一个问题的解决方案为：考虑到连续帧序列，除开首尾两帧前景蒙版图，对于其他任意帧前景蒙版图t，可以通过比较它的前一帧前景蒙版图t-1和后一帧前景蒙版图t+1，如果任意帧前景蒙版图t满足与前后帧之差大于阔值m且前后帧之差也小于阔值m，我们就对任意帧前景蒙版图t的像素点做改变(用前一帧和后一帧的像素点做加权平均)。不满足上述条件则保留该帧t不做变化。

通过上述方法对每一帧前景蒙版图做平滑处理，将经过平滑处理的各帧前景蒙版图按照时序进行组合即可得到无背景虚拟人讲课视频。

进一步作为可选的实施方式，该虚拟人讲课视频生成方法还包括以下步骤：

S8、将语音和讲稿内容输入至语音文字对齐模型得到字幕文件和语音分段时间戳标识；

其中，语音文字对齐模型用于使语音和讲稿内容同步。

具体地，本申请还利用将语音文字对齐模型来使得特定风格的语音和讲稿内容同步，得到字幕文件，从而在播放高清虚拟人讲课视频时，能够同步播放该字幕文件，使得用户在视觉方面了解高清虚拟人讲课视频播报的内容。

其中，语音文字对齐模型对输入的特定风格的语音和讲稿内容的处理过程如下：

讲稿内容包括若干段文字，因此，获取每一段文字在整个具有特定风格的语音的存续时间段内的出现时间点以及持续时间，从而得到每一段文字的分段时间戳，进而得到带有分段时间戳的字幕文件，例如，SRT字幕文件。

进一步作为可选的实施方式，步骤S1这一步骤，还包括以下步骤：

根据语音分段时间戳标识确定讲稿翻页时间节点，根据讲稿翻页时间节点将讲稿内容生成讲稿视频。

S15、根据语音分段时间戳标识确定讲稿翻页时间节点，根据讲稿翻页时间节点将讲稿内容生成讲稿视频。

具体地，语音分段时间戳标识实质上是语音播放进度条上的一个个时间节点，由于讲稿内容和语音是同步的，因此，当一页讲稿所对应的语音播放完毕，则需要将讲稿翻到下一页，可以根据语音分段时间戳标识来计算讲稿翻页时间节点，因此，本申请通过标记出讲稿翻页时刻对应的语音分段时间戳标识，也即是讲稿翻页时间节点，来自动排版每一页讲稿的翻页时间点，从而将多页讲稿生成讲稿视频。

其次，参照附图描述根据本发明实施例提出的一种虚拟人讲课视频生成系统。

图5是本发明一个实施例的一种虚拟人讲课视频生成系统结构示意图。

系统具体包括：

转换模块201，用于获取讲稿内容，将讲稿内容转换为语音，并根据讲稿内容生成讲稿视频；

人物动作匹配模块202，用于根据讲稿内容或语音匹配出人物动作；

唇形获取模块203，用于将语音、人物动作输入至高清视频人物同步唇形模型，得到与语音同步的人脸唇形图像序列，高清视频人物同步唇形模型用于输出语音所对应的人脸唇形图像；

表情添加模块204，用于将获取的虚拟人老师形象以及人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频，其中，视频驱动虚拟人物模型用于为虚拟人老师形象添加头部位姿和表情；

背景去除模块205，用于将高清虚拟人讲课视频输入视频抠图模型，得到无背景虚拟人讲课视频，其中视频抠图模型用于去除虚拟人讲课视频中的背景；

视频融合模块206，用于将无背景虚拟人讲课视频嵌入至讲稿视频中，得到虚拟人老师讲课视频。

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图6，本发明实施例提供了一种虚拟人讲课视频生成装置，包括：

至少一个处理器301；

至少一个存储器302，用于存储至少一个程序；

当至少一个程序被至少一个处理器301执行时，使得至少一个处理器301实现的一种虚拟人讲课视频生成方法。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种虚拟人讲课视频生成方法，其特征在于，包括以下步骤：

将所述语音和所述讲稿内容输入至语音文字对齐模型得到字幕文件和语音分段时间戳标识；其中，所述语音文字对齐模型用于使所述语音和所述讲稿内容同步；

其中，所述获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频这一步骤，包括以下步骤：

根据所述语音分段时间戳标识确定讲稿翻页时间节点，根据所述讲稿翻页时间节点将所述讲稿内容生成讲稿视频；

根据所述讲稿内容或所述语音匹配出人物动作；

将所述语音和所述人物动作输入至高清视频人物同步唇形模型，得到与所述语音同步的人脸唇形图像序列，所述高清视频人物同步唇形模型用于输出所述语音所对应的人脸唇形图像；

2.根据权利要求1所述的一种虚拟人讲课视频生成方法，其特征在于，所述获取讲稿内容，将所述讲稿内容转换为语音，并根据所述讲稿内容生成讲稿视频这一步骤，包括以下步骤：

获取所述讲稿内容的发音编码；

将所述发音编码和所述风格编码进行拼接得到拼接结果；

将所述拼接结果输入至语音解码器得到所述语音。

3.根据权利要求1所述的一种虚拟人讲课视频生成方法，其特征在于，所述根据所述讲稿内容或所述语音匹配出人物动作这一步骤，包括以下步骤：

根据所述文本情绪类型匹配出所述人物动作；

或，

根据所述声音情绪类型匹配出所述人物动作。

4.根据权利要求1所述的一种虚拟人讲课视频生成方法，其特征在于，所述高清视频人物同步唇形模型包括生成网络和判别网络，所述虚拟人讲课视频生成方法还包括对高清视频人物同步唇形模型的训练步骤，包括以下步骤：

将所述人脸图像的唇部清除得到唇部消除人脸图像；

5.根据权利要求1所述的一种虚拟人讲课视频生成方法，其特征在于，所述将获取的虚拟人老师形象以及所述人脸唇形图像序列输入至视频驱动虚拟人物模型，得到高清虚拟人讲课视频这一步骤，包括以下步骤：

获取虚拟人老师形象；

对所述虚拟人老师形象进行人脸识别，获取人脸特征向量；

6.一种虚拟人讲课视频生成系统，其特征在于，包括：

对齐模块，用于将所述语音和所述讲稿内容输入至语音文字对齐模型得到字幕文件和语音分段时间戳标识；其中，所述语音文字对齐模型用于使所述语音和所述讲稿内容同步；

其中，转换模块包括：

翻页单元，用于根据所述语音分段时间戳标识确定讲稿翻页时间节点，根据所述讲稿翻页时间节点将所述讲稿内容生成讲稿视频；

唇形获取模块，用于将所述语音和所述人物动作输入至高清视频人物同步唇形模型，得到与所述语音同步的人脸唇形图像序列，所述高清视频人物同步唇形模型用于输出所述语音所对应的人脸唇形图像；

7.一种虚拟人讲课视频生成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5中任一项所述的一种虚拟人讲课视频生成方法。

8.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-5中任一项所述的一种虚拟人讲课视频生成方法。