CN115273182B

CN115273182B - 长视频专注度预测方法及装置

Info

Publication number: CN115273182B
Application number: CN202210819862.1A
Authority: CN
Inventors: 艾旭升; 张佳磊; 张鹏
Original assignee: Suzhou Vocational Institute of Industrial Technology
Current assignee: Suzhou Vocational Institute of Industrial Technology
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2023-07-11
Anticipated expiration: 2042-07-13
Also published as: CN115273182A

Abstract

本发明提供了一种长视频专注度预测方法及装置，包括：获取视频，提取所述视频中具有人脸的帧生成具有n帧图像的输入视频；在所述输入视频中抽样r次，每次挑选T个帧生成r个视频序列；将所述视频序列按照预设置的视频块分割为多个目标视频块，进而根据所述目标视频块生成视频矩阵x；获取预设置的矩阵E，将视频矩阵x经过乘以矩阵E生成块嵌入向量x_e；将所述块嵌入向量x_e输入预训练的类注意力视频Transformer预测模型，通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。本发明在视频生成的r个视频序列上训练类注意力视频Transformer预测模型，测试阶段使用视频的第1个视频序列，在训练好的预测模型上计算学生的专注度，实现端对端的专注度预测，不仅便于训练，而且提高了预测的准确度。

Description

长视频专注度预测方法及装置

技术领域

本发明涉及表情预测，具体地，涉及一种长视频专注度预测方法及装置。

背景技术

目前，在线学习越来越成熟，预测学生的关注度会成为评价学生听课质量和老师教学效果的关键。

在线课程结束后，在线学习软件会生成长度不等的课堂视频，如何进行长视频的关注度预测，是个亟需解决的问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种长视频专注度预测方法及装置。

根据本发明提供的长视频专注度预测方法，包括如下步骤：

步骤S1：获取视频，提取所述视频中具有人脸的帧生成具有n帧图像的输入视频；

步骤S2：在所述输入视频中抽样r次，每次挑选T个帧生成r个视频序列；

步骤S3：将所述视频序列按照预设置的视频块分割为多个目标视频块，进而根据所述目标视频块生成视频矩阵x；

步骤S4：获取预设置的矩阵E，将视频矩阵x经过乘以矩阵E生成块嵌入向量x_e；

步骤S5：将所述块嵌入向量x_e输入预训练的类注意力视频Transformer预测模型，通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。

优选地，在步骤S2中，当抽样率为γ,滑动窗口大小与步幅比为α,把n个帧分成T个滑动窗口时，那么滑动窗口大小为

步幅为/>

优选地，在步骤S2中，每个滑动窗口按照二分法划分窗口，依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。

优选地，在步骤S2中，当滑动窗口大小为ζ，步幅为ξ，满足(1+ζ)mod 2^r＝0，那么所述输入视频依次生成r个视频序列为：

S¹:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]

S²:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]

…

S^r:[(1+ζ)/2^r,(1+ζ)/2^r+ξ,…,(1+ζ)/2^r+(T–1)ξ]。

优选地，在步骤S3中，预设置视频块大小为(2，p，p)，那么视频序列(T，H，W)按照时空分割产生k个视频块，

其中，k＝T/2·H/p·W/p；

T为视频序列中的帧数，H为视频序列中脸部图片的高度，W为视频序列中脸部图片的长度，p代表视频块的高度或宽度。

优选地，所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层；

所述自注意力模块的输入端用于接收块嵌入向量x_e，输出端连接所述类注意力模块的输入端，所述类注意力模块的输出端连接所述全连接层，所述全连接层用于输出所述视频中人脸的专注度；

所述嵌入向量模块的输出端连接所述类注意力模块的输入端。

优选地，所述自注意力模块为：

u₀＝x_e

其中，

和/>

为可训练参数，u₀为自注意力模块的输入，u_l为自注意力模块的输出。

优选地，所述类注意力模块为：

v₀＝[CLS,u₁₂]

其中

为可训练参数，v₀为自注意力模块的输入，v_l为自注意力模块的输出，CLS为c维的类嵌入向量。

优选地，所述全连接层为输入为c、输出为1的全连接层，用于把v_l从c维转换为1维的专注度，专注度是一个0到1的浮点数，越小代表专注度越低，越高代表专注度越高。

根据本发明提供的长视频专注度预测装置，包括如下步骤：

视频获取模块，用于获取视频，提取所述视频中具有人脸的帧生成具有n帧图像的输入视频；

视频抽样模块，用于在所述输入视频中抽样r次，每次挑选T个帧生成r个视频序列；

视频分割模块，用于将所述视频序列按照预设置的视频块分割为多个目标视频块，进而根据所述目标视频块生成视频矩阵x；

嵌入向量生成模块，用于获取预设置的矩阵E，将视频矩阵x乘以矩阵E生成块嵌入向量x_e；

专注度生成模块，用于将所述块嵌入向量x_e输入预训练的类注意力视频Transformer预测模型，通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。

与现有技术相比，本发明具有如下的有益效果：

本发明在视频生成的r个视频序列上训练类注意力视频Transformer预测模型，测试阶段使用视频的第1个视频序列，在训练好的预测模型上计算学生的专注度，实现端对端的专注度预测，不仅便于训练，而且提高了预测的准确度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中长视频专注度预测方法的步骤流程图；

图2为本发明实施例中长视频专注度预测方法的工作原理图；

图3为本发明实施例中长度为7的滑动窗口中子窗口和代表结点的示意图；

图4为本发明实施例中将4帧视频划分为8个视频块的示意图；

图5为本发明实施例中长视频专注度预测装置的模块示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明实施例中长视频专注度预测方法的步骤流程图，图2为本发明实施例中长视频专注度预测方法的工作原理图，如图1、图2所示，本发明提供的一种长视频专注度预测方法，包括如下步骤：

在本发明实施例中，所述输入视频包括n个有序帧，且只保留每个帧中学生的脸部。

在本发明实施例中，进行折半顺序代表抽样，当抽样率为γ,滑动窗口大小与步幅比为α,把n个帧分成T个滑动窗口时，那么滑动窗口大小为

步幅为/>

每个滑动窗口按照二分法划分窗口，依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。

图3为本发明实施例中长度为7的滑动窗口中子窗口和代表结点的示意图，如图3所示，示出了第1个长度为7的滑动窗口，子窗口和代表结点。

在本发明实施例中，当滑动窗口大小为ζ，步幅为ξ，满足(1+ζ)mod 2^r＝0，那么所述输入视频依次生成r个视频序列为：

S¹:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]

S²:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]

…

S^r:[(1+ζ)/2^r,(1+ζ)/2^r+ξ,…,(1+ζ)/2^r+(T–1)ξ]。

因为每个视频有r个视频序列加入到训练集，测试阶段每个视频只使用S¹，由于具有更丰富的视频序列数据上训练，经过训练的模型更适应测试视频的S¹,预测准确率更高。

如图4所示，在步骤S3中，预设置视频块大小为(2，p，p)，那么视频序列(T，H，W)按照时空分割产生k个视频块，

其中，k＝T/2·H/p·W/p；

在本发明实施例中，块嵌入向量x_e∈R^kⅹc,其中x_p ⁱ代表x第i个块分量。

在本发明实施例中，所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层；

所述自注意力模块的输入端用于接收块嵌入向量xe，输出端连接所述类注意力模块的输入端，所述类注意力模块的输出端连接所述全连接层，所述全连接层用于输出所述视频中人脸的专注度；

类注意力视频Transformer预测模型包含自注意力模块、类注意力模块及全连接层。

所述自注意力模块：包含12个MSA和MLP。从第1层开始，根据(2)、(3)、(4),计算输出u₁₂。其中λ_L-1,i,λ_L,i是可训练参数。

u₀＝x_e (2)

u'_l＝diag(λ_l-1，1,...,λ_l-1，c)MSA(LN(u_l-1))+u_l-1,l＝1,...,12 (3)

u_l＝diag(λ_l，1,...,λ_l，c)MLP(LN(u'_l))+u'_l,l＝1,...,12 (4)

MSA(多头自注意力模型)、MLP(多层感知器)、LN(层标准化)的定义和ViT(VisionTransformer)为本领域的公知常识。u₀为自注意力模块的输入，u_l为自注意力模块的输出。

类嵌入向量(CLS)为c维向量，初始值是(0.1,…,0.1)。

所述类注意力模块包含2个CA模块和MLP模块。从第1层开始，根据(5)、(6)、(7),计算输出v₂。其中β_L-1,i,β_L,i是可训练参数。

v₀＝[CLS,u₁₂] (5)

v'_l＝diag(β_l-1，1,...,β_l-1，c)CA(LN(v_l-1))+v_l-1,l＝1,...,2 (6)

v_l＝diag(β_l，1,...,β_l，c)MLP(LN(v'_l))+v'_l,l＝1,...,2 (7)

CA(类自注意力网络)的定义与CaiT为本领域的公知常识。v₀为自注意力模块的输入，v_l为自注意力模块的输出，CLS为c维的类嵌入向量。

所述全连接层为输入为c、输出为1的全连接层，用于把v₂从c维转换为1维的专注度，专注度是一个0到1的浮点数，越小代表专注度越低，越高代表专注度越高。

在本发明实施例中，在视频生成的r个视频序列上训练类注意力视频Transformer预测模型，测试阶段使用视频的第1个视频序列，在训练好的类注意力视频Transformer预测模型上计算学生的专注度，实现端对端的专注度预测，便于训练和预测。本发明能够扩充训练集样本数量，模型泛化更好。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种长视频专注度预测方法，其特征在于，包括如下步骤：

步骤S5：将所述块嵌入向量x_e输入预训练的类注意力视频Transformer预测模型，通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度；

所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层；

所述嵌入向量模块的输出端连接所述类注意力模块的输入端；所述自注意力模块为：

u₀＝x_e

其中，

和/>

为可训练参数，u₀为自注意力模块的输入，u_l为自注意力模块的输出；

所述类注意力模块为：

v₀＝[CLS,u₁₂]

其中

为可训练参数，v₀为自注意力模块的输入，v_l为自注意力模块的输出，CLS为c维的类嵌入向量，CA为类自注意力网络。

2.根据权利要求1所述的长视频专注度预测方法，其特征在于，在步骤S2中，当抽样率为γ,滑动窗口大小与步幅比为α,把n个帧分成T个滑动窗口时，那么滑动窗口大小为

步幅为/>

3.根据权利要求2所述的长视频专注度预测方法，其特征在于，在步骤S2中，每个滑动窗口按照二分法划分窗口，依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。

4.根据权利要求1所述的长视频专注度预测方法，其特征在于，在步骤S2中，当滑动窗口大小为ζ，步幅为ξ，满足(1+ζ)mod 2^r＝0，那么所述输入视频依次生成r个视频序列为：

S¹:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]

S²:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]

…

S^r:[(1+ζ)/2^r,(1+ζ)/2^r+ξ,…,(1+ζ)/2^r+(T–1)ξ]。

5.根据权利要求1所述的长视频专注度预测方法，其特征在于，在步骤S3中，预设置视频块大小为(2，p，p)，那么视频序列(T，H，W)按照时空分割产生k个视频块，

其中，k＝T/2·H/p·W/p；

6.根据权利要求1所述的长视频专注度预测方法，其特征在于，所述全连接层为输入为c、输出为1的全连接层，用于把v_l从c维转换为1维的专注度，专注度是一个0到1的浮点数，越小代表专注度越低，越高代表专注度越高。

7.一种长视频专注度预测装置，其特征在于，包括如下步骤：

专注度生成模块，用于将所述块嵌入向量x_e输入预训练的类注意力视频Transformer预测模型，通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度；

u₀＝x_e

其中，

和/>

所述类注意力模块为：

v₀＝[CLS,u₁₂]

其中