CN115273182B - 长视频专注度预测方法及装置 - Google Patents
长视频专注度预测方法及装置 Download PDFInfo
- Publication number
- CN115273182B CN115273182B CN202210819862.1A CN202210819862A CN115273182B CN 115273182 B CN115273182 B CN 115273182B CN 202210819862 A CN202210819862 A CN 202210819862A CN 115273182 B CN115273182 B CN 115273182B
- Authority
- CN
- China
- Prior art keywords
- video
- attention
- module
- self
- concentration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 230000001815 facial effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 229910052739 hydrogen Inorganic materials 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种长视频专注度预测方法及装置,包括:获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;获取预设置的矩阵E,将视频矩阵x经过乘以矩阵E生成块嵌入向量xe;将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。本发明在视频生成的r个视频序列上训练类注意力视频Transformer预测模型,测试阶段使用视频的第1个视频序列,在训练好的预测模型上计算学生的专注度,实现端对端的专注度预测,不仅便于训练,而且提高了预测的准确度。
Description
技术领域
本发明涉及表情预测,具体地,涉及一种长视频专注度预测方法及装置。
背景技术
目前,在线学习越来越成熟,预测学生的关注度会成为评价学生听课质量和老师教学效果的关键。
在线课程结束后,在线学习软件会生成长度不等的课堂视频,如何进行长视频的关注度预测,是个亟需解决的问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种长视频专注度预测方法及装置。
根据本发明提供的长视频专注度预测方法,包括如下步骤:
步骤S1:获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;
步骤S2:在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;
步骤S3:将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;
步骤S4:获取预设置的矩阵E,将视频矩阵x经过乘以矩阵E生成块嵌入向量xe;
步骤S5:将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。
优选地,在步骤S2中,每个滑动窗口按照二分法划分窗口,依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。
优选地,在步骤S2中,当滑动窗口大小为ζ,步幅为ξ,满足(1+ζ)mod 2r=0,那么所述输入视频依次生成r个视频序列为:
S1:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]
S2:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]
…
Sr:[(1+ζ)/2r,(1+ζ)/2r+ξ,…,(1+ζ)/2r+(T–1)ξ]。
优选地,在步骤S3中,预设置视频块大小为(2,p,p),那么视频序列(T,H,W)按照时空分割产生k个视频块,
其中,k=T/2·H/p·W/p;
T为视频序列中的帧数,H为视频序列中脸部图片的高度,W为视频序列中脸部图片的长度,p代表视频块的高度或宽度。
优选地,所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层;
所述自注意力模块的输入端用于接收块嵌入向量xe,输出端连接所述类注意力模块的输入端,所述类注意力模块的输出端连接所述全连接层,所述全连接层用于输出所述视频中人脸的专注度;
所述嵌入向量模块的输出端连接所述类注意力模块的输入端。
优选地,所述自注意力模块为:
u0=xe
优选地,所述类注意力模块为:
v0=[CLS,u12]
优选地,所述全连接层为输入为c、输出为1的全连接层,用于把vl从c维转换为1维的专注度,专注度是一个0到1的浮点数,越小代表专注度越低,越高代表专注度越高。
根据本发明提供的长视频专注度预测装置,包括如下步骤:
视频获取模块,用于获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;
视频抽样模块,用于在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;
视频分割模块,用于将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;
嵌入向量生成模块,用于获取预设置的矩阵E,将视频矩阵x乘以矩阵E生成块嵌入向量xe;
专注度生成模块,用于将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。
与现有技术相比,本发明具有如下的有益效果:
本发明在视频生成的r个视频序列上训练类注意力视频Transformer预测模型,测试阶段使用视频的第1个视频序列,在训练好的预测模型上计算学生的专注度,实现端对端的专注度预测,不仅便于训练,而且提高了预测的准确度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例中长视频专注度预测方法的步骤流程图;
图2为本发明实施例中长视频专注度预测方法的工作原理图;
图3为本发明实施例中长度为7的滑动窗口中子窗口和代表结点的示意图;
图4为本发明实施例中将4帧视频划分为8个视频块的示意图;
图5为本发明实施例中长视频专注度预测装置的模块示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
图1为本发明实施例中长视频专注度预测方法的步骤流程图,图2为本发明实施例中长视频专注度预测方法的工作原理图,如图1、图2所示,本发明提供的一种长视频专注度预测方法,包括如下步骤:
步骤S1:获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;
在本发明实施例中,所述输入视频包括n个有序帧,且只保留每个帧中学生的脸部。
步骤S2:在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;
每个滑动窗口按照二分法划分窗口,依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。
图3为本发明实施例中长度为7的滑动窗口中子窗口和代表结点的示意图,如图3所示,示出了第1个长度为7的滑动窗口,子窗口和代表结点。
在本发明实施例中,当滑动窗口大小为ζ,步幅为ξ,满足(1+ζ)mod 2r=0,那么所述输入视频依次生成r个视频序列为:
S1:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]
S2:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]
…
Sr:[(1+ζ)/2r,(1+ζ)/2r+ξ,…,(1+ζ)/2r+(T–1)ξ]。
因为每个视频有r个视频序列加入到训练集,测试阶段每个视频只使用S1,由于具有更丰富的视频序列数据上训练,经过训练的模型更适应测试视频的S1,预测准确率更高。
步骤S3:将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;
如图4所示,在步骤S3中,预设置视频块大小为(2,p,p),那么视频序列(T,H,W)按照时空分割产生k个视频块,
其中,k=T/2·H/p·W/p;
T为视频序列中的帧数,H为视频序列中脸部图片的高度,W为视频序列中脸部图片的长度,p代表视频块的高度或宽度。
步骤S4:获取预设置的矩阵E,将视频矩阵x经过乘以矩阵E生成块嵌入向量xe;
在本发明实施例中,块嵌入向量xe∈Rkⅹc,其中xp i代表x第i个块分量。
步骤S5:将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度。
在本发明实施例中,所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层;
所述自注意力模块的输入端用于接收块嵌入向量xe,输出端连接所述类注意力模块的输入端,所述类注意力模块的输出端连接所述全连接层,所述全连接层用于输出所述视频中人脸的专注度;
所述嵌入向量模块的输出端连接所述类注意力模块的输入端。
类注意力视频Transformer预测模型包含自注意力模块、类注意力模块及全连接层。
所述自注意力模块:包含12个MSA和MLP。从第1层开始,根据(2)、(3)、(4),计算输出u12。其中λL-1,i,λL,i是可训练参数。
u0=xe (2)
u'l=diag(λl-1,1,...,λl-1,c)MSA(LN(ul-1))+ul-1,l=1,...,12 (3)
ul=diag(λl,1,...,λl,c)MLP(LN(u'l))+u'l,l=1,...,12 (4)
MSA(多头自注意力模型)、MLP(多层感知器)、LN(层标准化)的定义和ViT(VisionTransformer)为本领域的公知常识。u0为自注意力模块的输入,ul为自注意力模块的输出。
类嵌入向量(CLS)为c维向量,初始值是(0.1,…,0.1)。
所述类注意力模块包含2个CA模块和MLP模块。从第1层开始,根据(5)、(6)、(7),计算输出v2。其中βL-1,i,βL,i是可训练参数。
v0=[CLS,u12] (5)
v'l=diag(βl-1,1,...,βl-1,c)CA(LN(vl-1))+vl-1,l=1,...,2 (6)
vl=diag(βl,1,...,βl,c)MLP(LN(v'l))+v'l,l=1,...,2 (7)
CA(类自注意力网络)的定义与CaiT为本领域的公知常识。v0为自注意力模块的输入,vl为自注意力模块的输出,CLS为c维的类嵌入向量。
所述全连接层为输入为c、输出为1的全连接层,用于把v2从c维转换为1维的专注度,专注度是一个0到1的浮点数,越小代表专注度越低,越高代表专注度越高。
在本发明实施例中,在视频生成的r个视频序列上训练类注意力视频Transformer预测模型,测试阶段使用视频的第1个视频序列,在训练好的类注意力视频Transformer预测模型上计算学生的专注度,实现端对端的专注度预测,便于训练和预测。本发明能够扩充训练集样本数量,模型泛化更好。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (7)
1.一种长视频专注度预测方法,其特征在于,包括如下步骤:
步骤S1:获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;
步骤S2:在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;
步骤S3:将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;
步骤S4:获取预设置的矩阵E,将视频矩阵x经过乘以矩阵E生成块嵌入向量xe;
步骤S5:将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度;
所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层;
所述自注意力模块的输入端用于接收块嵌入向量xe,输出端连接所述类注意力模块的输入端,所述类注意力模块的输出端连接所述全连接层,所述全连接层用于输出所述视频中人脸的专注度;
所述嵌入向量模块的输出端连接所述类注意力模块的输入端;所述自注意力模块为:
u0=xe
所述类注意力模块为:
v0=[CLS,u12]
3.根据权利要求2所述的长视频专注度预测方法,其特征在于,在步骤S2中,每个滑动窗口按照二分法划分窗口,依次在每个滑动窗口或子窗口挑选位于窗口中间位置的帧作为窗口的代表。
4.根据权利要求1所述的长视频专注度预测方法,其特征在于,在步骤S2中,当滑动窗口大小为ζ,步幅为ξ,满足(1+ζ)mod 2r=0,那么所述输入视频依次生成r个视频序列为:
S1:[(1+ζ)/2,(1+ζ)/2+ξ,…,(1+ζ)/2+(T–1)ξ]
S2:[(1+ζ)/4,(1+ζ)/4+ξ,…,(1+ζ)/4+(T–1)ξ]
…
Sr:[(1+ζ)/2r,(1+ζ)/2r+ξ,…,(1+ζ)/2r+(T–1)ξ]。
5.根据权利要求1所述的长视频专注度预测方法,其特征在于,在步骤S3中,预设置视频块大小为(2,p,p),那么视频序列(T,H,W)按照时空分割产生k个视频块,
其中,k=T/2·H/p·W/p;
T为视频序列中的帧数,H为视频序列中脸部图片的高度,W为视频序列中脸部图片的长度,p代表视频块的高度或宽度。
6.根据权利要求1所述的长视频专注度预测方法,其特征在于,所述全连接层为输入为c、输出为1的全连接层,用于把vl从c维转换为1维的专注度,专注度是一个0到1的浮点数,越小代表专注度越低,越高代表专注度越高。
7.一种长视频专注度预测装置,其特征在于,包括如下步骤:
视频获取模块,用于获取视频,提取所述视频中具有人脸的帧生成具有n帧图像的输入视频;
视频抽样模块,用于在所述输入视频中抽样r次,每次挑选T个帧生成r个视频序列;
视频分割模块,用于将所述视频序列按照预设置的视频块分割为多个目标视频块,进而根据所述目标视频块生成视频矩阵x;
嵌入向量生成模块,用于获取预设置的矩阵E,将视频矩阵x乘以矩阵E生成块嵌入向量xe;
专注度生成模块,用于将所述块嵌入向量xe输入预训练的类注意力视频Transformer预测模型,通过所述类注意力视频Transformer预测模型确定输出的所述视频中人脸的专注度;
所述类注意力视频Transformer预测模型包括自注意力模块、类注意力模块以及全连接层;
所述自注意力模块的输入端用于接收块嵌入向量xe,输出端连接所述类注意力模块的输入端,所述类注意力模块的输出端连接所述全连接层,所述全连接层用于输出所述视频中人脸的专注度;
所述嵌入向量模块的输出端连接所述类注意力模块的输入端;所述自注意力模块为:
u0=xe
所述类注意力模块为:
v0=[CLS,u12]
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819862.1A CN115273182B (zh) | 2022-07-13 | 2022-07-13 | 长视频专注度预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819862.1A CN115273182B (zh) | 2022-07-13 | 2022-07-13 | 长视频专注度预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115273182A CN115273182A (zh) | 2022-11-01 |
CN115273182B true CN115273182B (zh) | 2023-07-11 |
Family
ID=83764498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210819862.1A Active CN115273182B (zh) | 2022-07-13 | 2022-07-13 | 长视频专注度预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273182B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408343A (zh) * | 2021-05-12 | 2021-09-17 | 杭州电子科技大学 | 基于双尺度时空分块互注意力的课堂动作识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837047B (zh) * | 2021-09-16 | 2022-10-28 | 广州大学 | 一种视频质量评估方法、系统、计算机设备及存储介质 |
CN114358364B (zh) * | 2021-11-20 | 2024-06-07 | 上海愚见观池科技有限公司 | 一种基于注意力机制的短视频点击率大数据预估方法 |
CN114581488A (zh) * | 2022-03-15 | 2022-06-03 | 苏州易航远智智能科技有限公司 | 基于第一人称视角视频的行人轨迹预测方法及装置 |
-
2022
- 2022-07-13 CN CN202210819862.1A patent/CN115273182B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408343A (zh) * | 2021-05-12 | 2021-09-17 | 杭州电子科技大学 | 基于双尺度时空分块互注意力的课堂动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115273182A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110933429B (zh) | 基于深度神经网络的视频压缩感知与重构方法和装置 | |
CN110084121A (zh) | 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN108229338A (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
US11928957B2 (en) | Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration | |
CN113139989B (zh) | 一种基于深度学习的粒子图像测速方法与装置 | |
CN112818969B (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN106683048A (zh) | 一种图像超分辨率方法及设备 | |
CN109636721B (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN110889343A (zh) | 基于注意力型深度神经网络的人群密度估计方法及装置 | |
CN112149459A (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN108111860B (zh) | 基于深度残差网络的视频序列丢失帧预测恢复方法 | |
CN112765908B (zh) | 一种基于图像序列分析的燃气涡轮发动机燃烧室稳定性分析方法 | |
CN113627093B (zh) | 一种基于改进Unet网络的水下机构跨尺度流场特征预测方法 | |
CN114022506B (zh) | 一种边缘先验融合多头注意力机制的图像修复方法 | |
CN112270691A (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN111832479B (zh) | 基于改进的自适应锚点r-cnn的视频目标检测方法 | |
CN115346149A (zh) | 基于时空图卷积网络的跳绳计数方法和系统 | |
CN114519844A (zh) | 一种基于视觉转化器的人群密度估计方法及系统 | |
CN116935128A (zh) | 一种基于可学习提示的零样本异常图像检测方法 | |
CN115273182B (zh) | 长视频专注度预测方法及装置 | |
KR102340387B1 (ko) | 뇌 연결성 학습 방법 및 이를 위한 시스템 | |
CN113688789B (zh) | 一种基于深度学习的在线学习投入度识别方法及系统 | |
CN111860442B (zh) | 一种基于时序特征共享结构的视频目标检测方法 | |
CN113239614A (zh) | 一种大气湍流相位时空预估算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |