CN117979053A

CN117979053A - 使用生成式说话头的视频课程增强方法

Info

Publication number: CN117979053A
Application number: CN202410156804.4A
Authority: CN
Inventors: 卢子祥; 田步甲; 苗启广; 谢琨; 刘如意; 权义宁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-05-03

Abstract

本发明公开了使用生成式说话头的视频课程增强方法，首先，对提供的教师图像或者短视频进行预处理；对完整的输入音频进行切片操作，将多帧的音频切片为一个特征块，再采用特征提取器提取输入音频中的特征；利用三维可变形模型提取三维人脸特征；将提取的音频特征和三维人脸特征作为说话头生成网络的输入；再将输出的特征进入神经渲染器进行渲染，得到说话头视频；最后，将说话头视频与屏幕录制视频融合，得到最终的视频课程。使用本发明方法生成的说话头视频嘴唇部分分辨率高，基本无扭曲变形，更生动真实。

Description

使用生成式说话头的视频课程增强方法

技术领域

本发明属于智慧教育技术领域，涉及一种使用生成式说话头的视频课程增强方法。

背景技术

随着互联网技术的不断进步，教育工作者和学生越来越依赖网络服务，视频课程逐渐在教学过程中扮演重要角色，这就提出了一个重要问题，即如何提高视频课程的质量，以达到更好的教学效果。过去，智能教育课程视频一般以教师为主角，这样可以提高教学效率，但需要教师自己录制讲课视频，为了避免录制讲课视频时出现错误，教师不得不投入大量的时间和精力，加大了教育工作者的负担。因此，无需教师亲自录制的视频课程生成技术逐渐得到重视和发展，该技术不需要教师在专业工作室录制授课视频，只需提供一张照片或一段简短的自身形象视频以及课程屏幕录制视频，再利用生成式“说话头”技术和视频处理技术，即可制作出以虚拟教师形象示人的全面而吸引人的课程视频，以此简化课程视频的制作，并同时保证教学质量。

生成式“说话头”技术涉及音频驱动的“说话头”生成领域，其主要目标是将音频信号转换为相应的视频表示。这一过程由两个关键部分组成：将语音听觉信号转换为视觉视频信号以及利用视觉视频信号合成头像。目前，模态转换阶段主要采用两种方法：一是将说话者的头部关键点作为中间变量，这种方法根据说话者的语音预测其头部关键点，然后利用这些关键点生成静态图像；二是利用三维可变形模型的头部模型作为中间变量，它根据语音预测三维头部模型系数，将预测系数拟合到头部图像，然后渲染最终的头部图像。因此，音频驱动说话头合成的研究大致可分为两个主要方向：以语音为输入合成二维语音头部视频，以及基于三维模型合成语音头部视频。尽管在音频驱动的说话头生成领域有许多研究方法，但生成自然语音头视频仍面临着一些困难和挑战，这些挑战源于对中间头部表征的严重依赖，而中间头部表征会导致信息丢失，并可能造成原始音频信号与学习到的头部形态之间的语义不匹配。

现有方法中，基于唇部生成对抗网络(LipGAN)的唇形动作迁移算法Wav2lip(Prajwal,K R and Mukhopadhyay,Rudrabha and Namboodiri,Vinay P.and Jawahar,C.V.,A Lip Sync Expert Is All You Need for Speech to Lip Generation In TheWild,In Proceedings of the 28th ACM International Conference on Multimedia,pp.484-492(2020).)不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频，俗称“对口型”。它的网络结构如图1所示，其总共有一个生成器和两个判别器，其中生成器由三部分组成：身份编码器、语音编码器、人脸解码器。该方法可以利用图像生成同步视频，但是该方法生成的说话头视频只有嘴唇会动，并没有学习到人物的面部表情、动作等，在实际使用中表现得很僵硬。除此之外，使用该方法生成出的说话头的嘴唇部分分辨率较低。

zhou等人(ZhouM.,BaiY.,ZhangW.,YaoT.,ZhaoT.,and Mei,T.,Responsivelistening head generation:A benchmark dataset and baseline,Proceedings of theEuropean conference on computer vision(ECCV),pp.124-142(2022).)提出的方法的网络结构如图2所示，它包含了一个编码器和一个解码器，即提取了音频中的Mel频率倒谱系数(MFCC)特征和说话人的面部姿态、表情等人脸3D形变模型特征进行编码，并使用了长短期记忆(LSTM)结构来处理特征向量，使其能保持上下文的联系，最后使用神经渲染器(PIRender)对输入形象的其他特征进行渲染来实现网络的解耦。该方法生成的说话头容易产生变形、扭曲，相较真实的人头形象可以看出明显差距，且其网络模型训练的速度较慢。

发明内容

本发明的目的是提供一种使用生成式说话头的视频课程增强方法，使用该方法生成的说话头视频嘴唇部分分辨率高，基本无扭曲变形，更生动真实。

本发明所采用的技术方案是，使用生成式说话头的视频课程增强方法，首先，对提供的教师图像或者短视频进行预处理；对完整的输入音频进行切片操作，将多帧的音频切片为一个特征块，再采用特征提取器提取输入音频中的特征；利用三维可变形模型提取三维人脸特征；将提取的音频特征和三维人脸特征作为说话头生成网络的输入；再将输出的特征进入神经渲染器进行渲染，得到说话头视频；最后，将说话头视频与屏幕录制视频融合，得到最终的视频课程。

本发明的特点还在于：

音频特征的具体提取过程为：

对完整的输入音频进行切片操作，再采用特征提取器提取输入音频中的特征，提取的特征包括：梅尔频率倒谱系数、梅尔倒谱系数-Delta、能量、响度及过零率，将上述五个特征进行维度压缩，得到以切片块为单位划分的音频特征。

利用三维可变形模型提取三维人脸特征，提取的特征包括：身份信息、面部表情、细节纹理、头部姿势和几何光学特征；对其中面部表情和头部姿势进行训练，并将得到的面部表情和头部姿势系数进行维度压缩和切片处理，其中切片步长与音频特征提取时选取的步长一致，并将分割后的第一个切片块作为说话头生成网络的一部分输入。

在将音频特征和三维人脸特征输入说话头生成网络的过程中：

当切片块索引为0时，先将该切片块的音频特征和原始三维人脸特征嵌入到说话头生成网络中，进行融合，再进行编码和解码操作，得到专门针对该片段的生成三维人脸特征；

当切片块索引不为0时，先融合上一个片段的生成三维人脸特征和当前片段的音频特征，融合后，再进行编码和解码操作，得到当前片段的生成三维人脸特征。

说话头生成网络采用基于Transformer编码的结构，在网络中加入了位置编码、多头注意力机制、残差机制、层归一化和前馈传播编码。

位置编码添加在编码器和解码器堆栈底部的输入嵌入中，位置编码的维度d_model与嵌入式编码的维度相同，并且使用不同频率的正弦和余弦函数，如式(3)所示：

其中，PE是位置编码函数，pos是位置，i是维度，d_model是位置编码的维度，sin和cos分别是正弦和余弦函数。

Transformer编码中的编码器由一叠N＝4相同的层组成，每个层包含两个子层，第一个子层采用多头注意力机制，第二个子层由一个简单的全连接前馈网络组成，利用两个子层周围的残差连接，然后进行层归一化；

每个子层的输出计算公式为：

LayerNorm(x+Sublayer(x)) (5)

其中LayerNorm是全连接函数，x表示输出变量，Sublayer(x)表示在子层内部实现的函数；

前馈网络包括两个线性变换，中间有一个ReLU激活：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (6)

其中FFN表示前馈网络函数，x表示输出变量，b₁,b₂表示偏置，W₁,W₂表示权重，虽然不同位置的线性变换相同，但各层使用的参数不同。

说话头视频与屏幕录制视频融合的具体过程为：

先进行视频消隐处理，以获得无背景的教师图像视频，再应用MODNet自动计算教师图像视频的前景透明度，然后使用前景透明度视频合成教师图像视频和屏幕录制视频，得到最终的视频课程；

其中消隐和合成操作均基于以下公式：

I＝α·F+(1-α)·B (7)

其中，F,B和α分别表示前景、背景和不透明度，I是可观察到的颜色，在消隐过程中，F,B和α都是未知数，在合成过程中，I是目标。

本发明的有益效果是：

(1)本发明方法在音频驱动说话头视频生成模块中，对音频特征进行了切片操作，将多帧的音频切片为一个特征块进行编码操作，通过这样的处理，可以很大程度上联系上下文信息，使训练时的音频特征更加连贯，且可以提高训练的效率，减少花费的时间；

(2)在说话头生成网络中，本发明方法使用了基于Transformer编码的结构，在网络中加入了位置编码、多头注意力机制、残差机制、层归一化和前馈传播编码等操作，提高了网络模型的效率以及效果。另外，本发明方法在每一个切片操作完毕后，将生成的三维人脸特征与下一个切片的音频特征相结合，提高了模型中上下文的联系，并且保留了较早学习到的信息。实施例的消融实验和对比实验证明了本发明方法采用的网络结构可以取得更好的结果；

(3)本发明方法加快了网络模型训练速度，提高了嘴唇部分的分辨率，很好地抑制了头部的形变、扭曲，可以得到生动形象的说话头视频。从实施例提供的视频图片可以看出，无论是使用图片还是短视频作为输入，生成的课程视频都与真人非常相似。本发明方法很好地处理了人物图像的渐变问题，使其与屏幕录制的视频很好地融合在一起，还可以手动调整人物插入屏幕录制视频的位置，从而更好地适应不同的使用场景；

(4)本发明方法开发了一个完整的课程视频生成框架，教师只需要提供自己的形象(照片或短视频)和课程屏幕录制视频，利用音频驱动生成说话头视频技术，即可生成教师图像视频，后将教师图像视频和屏幕录制视频进行消融、合成，得到最终的教师形象讲课视频，大大减轻了教师工作量。

附图说明

图1是现有技术中Wav2lip的网络结构示意图；

图2是现有技术中zhou等人使用的模型的网络结构示意图；

图3是本发明方法的流程图；

图4是本发明方法中说话头生成模块的结构示意图；

图5是本发明方法中音频驱动的说话头生成网络的结构示意图；

图6是本发明实施例1中使用本发明方法与其他方法生成的说话头视频帧与真实视频帧的对比图；

图7是本发明实施例3中采访实验的采访内容图；

图8是本发明实施例3中采访实验得到的问题\答案对；

图9是本发明方法中使用教师照片生成的视频课程图像；

图10是本发明方法中使用教师短视频生成的视频课程图像；

图11是本发明实施例3中问卷调查实验的问题示意图；

图12是本发明实施例3中问卷调查实验的调查结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明使用生成式说话头的视频课程增强方法，利用如图3所示的框架来生成视频，该框架包括：(A)说话头生成模块；(B)说话头视频和屏幕录制视频的融合模块。其中，如图4所示，说话头生成模块又包括：(A)音频特征提取网络，(B)Deep3D头部重建网络，(C)音频驱动的说话头生成网络，(D)字符图像神经渲染器。本发明方法的流程如图3所示，首先，对提供的教师图像或者短视频进行预处理；对完整的输入音频进行切片操作，将多帧的音频切片为一个特征块；再采用特征提取器提取输入音频中的梅尔频率倒谱系数、梅尔倒谱系数-Delta(MFCC-Delta)、能量、响度及过零率等特征；利用三维可变形模型(3DMM)提取三维人脸特征；将提取的音频特征和三维人脸特征作为说话头生成网络的输入，按照切片序列依次进行处理，并将前一个切片的输出特征也作为下一个切片的输入特征；再将输出的特征进入神经渲染器进行渲染，得到说话头视频；最后，将说话头视频进行消融处理并与屏幕录制视频融合，得到最终的视频课程。

下面对课程视频生成框架中的模块进行具体介绍：

(一)说话头生成模块

(1)音频特征提取网络

本发明方法对完整的输入音频进行了切片操作，即将多帧的音频切片为一个特征块，再采用特征提取器提取输入音频中的梅尔频率倒谱系数、梅尔倒谱系数-Delta、能量、响度及过零率等特征，并将上述诸多特征进行维度压缩，从而得到以切片块为单位划分的音频特征，通过切片索引块将说话头生成网络调整为一个顺序化的结构。

(2)Deep3D头部重建网络

三维可变形模型(3DMM)是一种统计模型，它以明确的对应关系在空间中表示人脸的形状和纹理。在本发明的框架中，利用3DMM系数作为三维头部重建的特征。给定输入视频θ，可以得到五个重建系数：α、β、δ、ρ、γ，这些系数捕捉了不同方面的信息，如身份信息、面部表情、细节纹理、头部姿势和几何光学特征。它们是根据三维头部关键点提取的，并按指定顺序存储在多维向量中。

这些系数分为两部分，第一部分包括：

Γ ＝ (α,δ,γ) (1)

其中Γ表示系数组，α表示身份信息、δ表示细节纹理，γ表示几何光学特征。这些特征代表了相对固定且与身份相关的特征，可作为真实对话头像视频最终渲染的参考，不参与训练过程。

第二部分包括：

m ＝ (β,ρ) (2)

其中m表示系数组，β表示面部表情，ρ表示头部姿势。这些特征代表了相对动态的、与身份无关的特征，参与了训练过程，并在网络中完成了对人物身份信息的解耦。从说话者视频中提取的与身份无关的特征可以表示为其中，/>是第i帧/>的三维重建系数和位姿特征的表达式，其中C_v＝|β|+|ρ|。

基于深度学习的三维头部重建方法在质量和效率方面都取得了很好的成果，然而，训练深度神经网络通常需要大量的数据，这就给本发明带来了挑战，因为具有真实三维头部形状的头部图像非常稀少。为了解决这个问题，本发明利用Deep3D头部重建网络作为三维头部重建的基础，Deep3D引入了一种新的三维头部重建方法，使用鲁棒混合损失函数进行弱监督学习，这种方法同时考虑了低层次和感知层次的信息，以指导训练过程。此外，它还通过整合来自不同图像的互补信息来实现形状聚合，从而实现多图像头部重建。Deep3D方法不仅速度快、准确度高，还通过使用MICC Florence和facewarehouse等数据集进行了大量实验，这些实验涉及与15种最新方法的系统比较，展示了其最先进的性能。

本发明方法将使用Deep3D头部重建网络得到的面部表情和头部姿势系数进行了维度压缩和切片处理，其中切片步长与音频特征提取网络中选取的步长保持一致，并将分割后的第一个切片块作为音频驱动的说话头生成网络的一部分输入。

(3)音频驱动的说话头生成网络

本发明方法的关键在于说话头生成网络，其结构如图5所示，将音频提取器和人脸3D形变模型特征提取网络所提取的音频特征和三维人脸特征作为网络的输入。

在网络训练过程中，当切片块索引(clip_index)为0时，先将该切片块的音频特征和原始三维人脸特征嵌入到说话头生成网络中，然后进行融合，这种融合能够有效地整合两个来源的信息，然后采用基于Transformer编码的技术进行编码和解码操作，Transformer编码包括位置编码，位置编码能实现训练时的并行处理，还包括多头注意力机制、残差机制、层归一化和前馈传播编码，可以提高模型泛用性，以得到专门针对该片段的生成三维人脸特征。这些编码操作使网络能够捕捉数据中错综复杂的细节和时间依赖性。

对于位置编码操作，由于本发明的模型不包含递归和卷积，为了让模型能够利用序列的顺序，因此必须注入一些关于序列中标记的相对或绝对位置的信息。为此，本发明在编码器和解码器堆栈底部的输入嵌入中添加了“位置编码”。位置编码的维度d_model与嵌入式编码的维度相同，因此两者可以相加。本发明使用不同频率的正弦和余弦函数，如式(3)所示：

其中，PE是位置编码函数，pos是位置，i是维度，d_model是位置编码的维度，sin和cos分别是正弦和余弦函数。也就是说，位置编码的每个维度对应一个正弦波，波长形成一个从2π到10000·2π的几何级数。由于对于任何固定的偏移k，PE_pos+k都可以表示为PE_pos的线性函数，所以这个函数能让模型很容易地通过相对位置来学习关注。

对于多头注意力机制，注意力函数可以描述为将一个查询和一组键值对映射到一个输出，其中查询、键、值和输出都是向量。输出是以值的加权和来计算的，其中分配给每个值的权重是通过查询与相应键的兼容函数来计算的。多头注意力允许模型在不同位置共同关注来自不同表征子空间的信息。而在单注意头情况下，平均化会抑制这一功能。多头注意力机制的公式为：

其中MultiHead表示多头注意力函数，Concat表示连接函数，Attention表示单注意头函数，Q、K、V分别表示查询、键、值向量，投影是参数矩阵和/>

对于残差机制、层归一化和前馈传播编码，本发明的编码器由一叠N＝4相同的层组成，每个层包含两个子层。第一个子层采用多头注意力机制，第二个子层由一个简单的全连接前馈网络组成。为了实现信息流并保留学习到的表征，我们利用两个子层周围的残差连接，然后进行层归一化。具体来说，每个子层的输出计算公式为：

LayerNorm(x+Sublayer(x)) (5)

其中LayerNorm是全连接函数，x表示输出变量，Sublayer(x)表示在子层内部实现的函数。而前馈网络包括两个线性变换，中间有一个ReLU激活。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (6)

当切片块索引不为0时，先融合上一个片段的生成三维人脸特征和当前片段的音频特征，融合后，再执行相同的编码和解码操作，为当前片段输出相应的生成三维人脸特征，从而确保生成输出的连续性和一致性。

(4)字符图像神经渲染器

使用神经网络提取语音信号的高维特征，并与语音同步预测3DMM头部重建系数后，得到的头部模型就处于与人物身份信息解耦的状态。为了使渲染的头部模型与参考目标肖像一致，需要对其进行相应的拟合。随后，对每一帧视频进行渲染，以创建完整的视频。

为了实现最终的逼真输出，本发明方法采用了神经渲染网络，将渲染图像转换为视觉上令人信服的表现形式。本发明方法将渲染图像与3D头部重建模型相结合，以渲染视频中的3DMM系数，利用3DMM参数操纵头部运动，通过对头部运动进行单独控制来合成人像图像，从而有效地渲染3DMM参数，能够通过直观的修改生成具有精确运动的逼真人像图像。

此外，本发明的模型还通过从音频输入中提取时间信息，扩展了处理音频驱动的头部再现任务的能力。利用这些信息，本发明的模型可以生成连贯的视频，在语音的驱动下表现出令人信服的动作。为确保生成的头部视频流畅自然，我们利用短视频片段作为参考，每个渲染帧都与原始真实图像对齐，然后将这些帧渲染成视频，这种方法增强了头部动画的逼真度，使最终输出结果更具说服力。

(二)说话头视频和屏幕录制视频的融合模块

在通过说话头生成模块生成教师图像视频后，接下来的关键任务是视频合成。在将生成的教师图像视频与输入的屏幕录制视频合成之前，先进行视频消隐处理，以获得无背景的教师图像视频，其中消隐和合成操作均基于以下公式：

I＝α·F+(1-α)·B (7)

其中，F,B和α分别表示前景、背景和不透明度，I是可观察到的颜色。在消隐过程中，F,B和α都是未知数。在合成过程中，I是目标。本发明方法应用MODNet自动计算教师图像视频的前景透明度alpha matte，然后使用前景透明度视频合成教师图像视频和屏幕录制视频，前景视频为教师图像视频，背景视频是输入的屏幕录制视频，不透明度由MODNet计算的阿尔法消隐视频获得，最终的课程视频使用公式(7)合成。

本发明方法在说话头生成技术方面相较于现有技术做出了较大提升，其中生成的视频人物形象清晰，无很大的扭曲，对比真实视频基本可以做到以假乱真。以下通过客观实验和主观实验反馈证明了该方法的有效性。

实施例1

客观实验

在客观实验环节，对本方法和其他方法在ViCo数据集上对峰值信噪比(PSNR)、结构相似性(SSIM)、模糊检测的累积概率(CPBD)、Fréchet初始距离得分(FID)指标上进行了对比实验，其结果可见下表1。

表1在ViCo数据集上与不同算法的对比实验(最佳结果加粗)

可以看出，本发明方法在RSNR、SSIM和FID指标上都有较好的结果，说明本发明方法生成的教师图像视频更加真实，同时在CPBD指标上也取得了不错的结果，说明生成视频的清晰度也得到了保证。

如图6所示，我们对不同方法生成的说话视频进行了逐帧比较，可以看出，zhou的方法生成的视频帧有一定的变形，更接近真实值的口型。与zhou的方法相比，本发明方法有明显的改进，更接近真实值。从Wav2lip的方法中可以明显看出，嘴唇周围的分辨率较低，用这种方法生成的视频人脸是不会动的，虽然它是将表情与真实值进行比较，动作比较接近真实值，但当输入的是图像时，人脸是不会动的，所以实际得到的人脸是不会动的，因此实际使用效果较差。

实施例2

对本发明方法进行消融实验，结果如下表2所示，其中，Baseline是仅对完整音频特征使用基于Transformer的编码；切片模块slice是对音频特征加入了切片操作，将音频特征以切片块为单位进行处理；PCVE是在编码过程中，当切片块索引不为0时加入了上一个切片块生成的切片特征；OFCE是在编码过程中，当切片块索引为0时加入了原始视频特征中第一个切片块特征。

表2不同模型组件影响的框架消融实验结果(最佳结果加粗)

可以看出，四种方法在CPBD指标上的表现差别不大，Baseline在PSNR、SSIM和FID方面已经优于zhou的方法，但比Wav2lip稍差。加入切片模块slice后，本发明方法会损失少量上下文信息，因为本发明方法采取的切片大小为1秒，这比基本方法(Baseline)略差。加入PCVE模块后，有了很大的改进，几个指标已经超过了Wav2lip。在加入OFCE模块后，几个指标都达到了最优值，这就是本发明最终采用的方法。

实施例3

主观实验

(1)采访实验

为证明本发明方法的可行性，进行了一系列主观实验，采访了30名教授不同课程的大学教师(15名女性和15名男性)。他们的教学经验从1年到30年不等，所有受访者都拥有硕士或以上学位。我们用10个问题进行了半结构化访谈，访谈前，我们向受访者介绍了我们的课程视频生成方法，访谈的主要内容见图7。

通过访谈，我们得到了几对问题\答案对。为了概念化和分类，我们将这些问题\答案对进行了排列，如图8所示。根据调查结果，教师普遍认为带有教师图像的视频课程教学效果更好，但其制作成本远高于屏幕录制。本发明视频课程生成方法可以用屏幕录制的成本达到与带有教师图像的视频课程相似的教学效果，得到了大多数受访者的认可。

(2)问卷调查实验

教学的参与者不仅仅是教师，还有学生。因此，我们进行了一次问卷调查，以验证本发明视频课程生成方法是否会被学生接受。在这次实验中，我们邀请了40名大学生完成问卷调查。我们准备了三段课程视频：屏幕录制视频、用教师图像(照片)生成的课程视频(可见图9)和用教师图像(短视频)生成的课程视频(可见图10)，分别称为视频1、视频2和视频3，其中视频2由视频1和教师照片生成，视频3由视频1和教师短视频生成。视频2的输入指导员图像是从视频3的输入指导员图像视频中截取的照片，因此，视频2和视频3的指导者是同一个人。

在回答问卷之前，学生们依次观看了视频1、视频2和视频3，他们并不知道这三段视频的制作方法，三段视频中的知识点也是相同的。影响教/学效果的因素很多，要比较三段视频的教学差异比较困难，在本研究中，我们试图对视频质量和观看意向进行比较。我们假定，在知识点相同的三个视频中，最受欢迎的视频是最好的。我们设计了几个问卷调查问题，如图11所示。事实上，视频2、视频3的分辨率和帧频与视频1相同，不过，视频2和视频3有指导员图像，视频2和视频3中的视觉元素比视频1更加复杂。我们需要验证我们的方法生成的课程视频是否影响了他们的印象，我们收集了40份问卷，结果见图12，可以看出，所有受访者都有参加视频课程的经历；大多数受访者认为视频质量相同，但有三位受访者投票支持视频1，教师图像改变了课程视频的元素布局，这可能影响了学生的视觉认知；教师图像没有影响听觉认知；另外，视频3显然更接近传统的离线学习。

此外，问卷调查结果还显示：视频3是三个视频中最有趣、最生动的一个；与视频1和视频2相比，视频3对学生更有吸引力，可用于长期学习。我们事先没有告诉受访者三种视频的制作方法。视频2是用教师的照片制作的，因此看起来有些沉闷。所有受访者都认为视频2是由人工智能技术制作的。令人惊讶的是，95％的受访者不认为视频3是由人工智能技术制作的。而且，在三个知识点相同的视频中，视频3最受欢迎。因此得出结论，与屏幕录制相比，由教师图像视频生成的课程视频更容易被学生接受。此外，视频3能够以假乱真，并有可能取代真实的教师。

Claims

1.使用生成式说话头的视频课程增强方法，其特征在于，首先，对提供的教师图像或者短视频进行预处理；对完整的输入音频进行切片操作，将多帧的音频切片为一个特征块，再采用特征提取器提取输入音频中的特征；利用三维可变形模型提取三维人脸特征；将提取的音频特征和三维人脸特征作为说话头生成网络的输入；再将输出的特征进入神经渲染器进行渲染，得到说话头视频；最后，将说话头视频与屏幕录制视频融合，得到最终的视频课程。

2.根据权利要求1所述的使用生成式说话头的视频课程增强方法，其特征在于，音频特征的具体提取过程为：

3.根据权利要求1所述的使用生成式说话头的视频课程增强方法，其特征在于，利用三维可变形模型提取三维人脸特征，提取的特征包括：身份信息、面部表情、细节纹理、头部姿势和几何光学特征；对其中面部表情和头部姿势进行训练，并将得到的面部表情和头部姿势系数进行维度压缩和切片处理，其中切片步长与音频特征提取时选取的步长一致，并将分割后的第一个切片块作为说话头生成网络的一部分输入。

4.根据权利要求1所述的使用生成式说话头的视频课程增强方法，其特征在于，在将音频特征和三维人脸特征输入说话头生成网络的过程中：

5.根据权利要求1所述的使用生成式说话头的视频课程增强方法，其特征在于，说话头生成网络采用基于Transformer编码的结构，在网络中加入了位置编码、多头注意力机制、残差机制、层归一化和前馈传播编码。

6.根据权利要求5所述的使用生成式说话头的视频课程增强方法，其特征在于，位置编码添加在编码器和解码器堆栈底部的输入嵌入中，位置编码的维度d_model与嵌入式编码的维度相同，并且使用不同频率的正弦和余弦函数，如式(3)所示：

7.根据权利要求5所述的使用生成式说话头的视频课程增强方法，其特征在于，Transformer编码中的编码器由一叠N＝4相同的层组成，每个层包含两个子层，第一个子层采用多头注意力机制，第二个子层由一个简单的全连接前馈网络组成，利用两个子层周围的残差连接，然后进行层归一化；

每个子层的输出计算公式为：

LayerNorm(x+Sublayer(x)) (5)

前馈网络包括两个线性变换，中间有一个ReLU激活：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (6)

8.根据权利要求1所述的使用生成式说话头的视频课程增强方法，其特征在于，说话头视频与屏幕录制视频融合的具体过程为：

其中消隐和合成操作均基于以下公式：

I＝α·F+(1-α)·B (7)