CN112926453B - 基于运动特征增强和长时时序建模的考场作弊行为分析方法 - Google Patents

基于运动特征增强和长时时序建模的考场作弊行为分析方法 Download PDF

Info

Publication number
CN112926453B
CN112926453B CN202110213933.9A CN202110213933A CN112926453B CN 112926453 B CN112926453 B CN 112926453B CN 202110213933 A CN202110213933 A CN 202110213933A CN 112926453 B CN112926453 B CN 112926453B
Authority
CN
China
Prior art keywords
long
sequence
behavior
motion
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110213933.9A
Other languages
English (en)
Other versions
CN112926453A (zh
Inventor
许林峰
贺斌
孟凡满
吴庆波
潘力立
李宏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110213933.9A priority Critical patent/CN112926453B/zh
Publication of CN112926453A publication Critical patent/CN112926453A/zh
Application granted granted Critical
Publication of CN112926453B publication Critical patent/CN112926453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于运动特征增强和长时时序建模的考场作弊行为分析方法,属于视频行为识别领域和深度学习领域,首先收集数据集,再对数据进行行为类别的标注并将视频流提取为图像帧,基于运动特征增强的方法提升模型对运动目标的捕获能力,通过特征谱移位方式进行帧之间的信息融合,基于时序金字塔的方法对长时的时序关系进行建模,完成识别模型的搭建;然后根据数据集获得的图像采用Xavier方法对行为识别分类模型进行初始化,采用分段抽取的方式获得视频帧的采样序列,基于分类模型的损失函数进行迭代到预设迭代次数,完成模型的训练,最后使用通过抽样获得的视频帧序列进行推理测试,得到具体的行为类别结果。

Description

基于运动特征增强和长时时序建模的考场作弊行为分析方法
技术领域
本发明属于行为识别领域和深度学习领域,涉及基于运动特征增强和长时时序建模的考场作弊行为分析方法。
背景技术
行为识别是一个在计算机视觉领域中备受关注的研究领域,其目的旨在识别出视频中当前人物的行为类别,因此是被认为是视频理解的重要的基础。近些年来,随着计算机运算能力的提升,深度卷积神经网络的发展使得视频行为识别任务获得了诸多显著的成果。
现如今,性能优越的行为识别模型都是基于深度卷积神经网络,其强大的特征提取能力给计算机视觉的各种任务带来了巨大的发展。较于传统的行为识别算法,基于深度学习的行为识别算法在识别精度和效率上有了突破性进步,在各种数据集上都表现出了强劲的性能和优势,但是行为识别任务仍然面临着一些挑战,例如在运动信息较为丰富的场景中识别精度比较依赖于光流信息,通过3D卷积进行时序建模时模型参数量巨大,无法有效进行长时时序建模等。
比如,以背景较为固定的场景的行为识别为例,在考场、室内等场景中,运动信息是分类的主要依据,场景信息基本对分类结果没有作用,甚至还会有反作用,现阶段针对运动信息的提取主要有光流法,时序建模方法主要有三维卷积方法,无论是光流法还是三维卷积方法其都需要消耗大量的时间和计算资源,不能满足实时性的要求。
因此,针对上述问题,本发明提出了一种基于运动特征增强和长时时序建模的考场作弊行为分析方法。
发明内容
本发明的目的在于:提供了基于运动特征增强和长时时序建模的考场作弊行为分析方法,解决了在运动信息为主的样本中,运动特征将对行为识别模型的结果产生重要影响,而静态的特征信息基本对识别准确率的提升无贡献,目前通用的模型无法直接从RGB帧序列的特征谱中着重强化运动相关特征而抑制场景特征而导致的准确率较低的问题。
本发明采用的技术方案如下:
基于运动特征增强和长时时序建模的考场作弊行为分析方法,包括以下步骤:
步骤A为收集数据集:收集考场监控视频数据,提取出其中的作弊行为片段并标注作弊类型标签,将每个样本的视频帧以图片的形式保存在同一个文件夹中;
步骤B为搭建行为识别模型:将运动特征加强模块插入到骨干网络,运动特征加强模块将会获得当前特征谱的每个通道的不同的权重,该权重作用到原始特征谱上将对原始的特征谱进行运动特征增强,长时时序建模模块将对不同帧的结果向量进行融合,实现长时时序的信息融合,完成行为识别模型的搭建;
步骤C为训练行为识别模型:使用分段抽取的方式获得视频帧的采样序列,根据视频帧序列采用Xavier方法对分类模型进行初始化,基于分类模型的损失函数进行迭代到预设迭代次数,完成行为识别模型的训练;
步骤D为使用新的视频帧采样序列进行推理测试:使用新的视频帧采样序列进行推理测试,基于训练好的行为识别模型得到最终的行为分类结果。
进一步地,所述运动特征加强包括:
使用1×1卷积将特征谱的通道维数下降,将当前帧的特征谱zr(t)和下个相邻帧的特征谱zr(t+1)相减得到zp(t):
zp(t)=zr(t)-zr(t+1) (1)
将特征谱相减后得到的结果做全局平均池化得到初步的注意力值Ar(t):
Ar(t)=AvgPool(zp(t)) (2)
将初步的注意力值Ar(t)通过1×1卷积做上采样操作得到Ar′(t),使其通道数恢复为与 zr(t)一致,并对其使用sigmoid函数进行归一化操作,使得注意力值的取值区间为[-1,1]:
Ap(t)=2×Φ(Ar′(t))-1 (3)
其中,Φ代表sigmoid函数,最终获得运动特征的注意力值Ap(t);
将Ap(t)与原始注意力谱zr(t)点乘,得到运动特征加强后的特征谱zout(t):
zout(t)=Ap(t)⊙zr(t) (4)
进一步地,所述特征谱移位包括:
对于每一帧,将每个特征谱zout(t)均分为8份
Figure BDA0002953260670000021
并使用
Figure BDA0002953260670000022
替换到
Figure BDA0002953260670000023
的位置上,同时使用
Figure BDA0002953260670000024
替换
Figure BDA0002953260670000025
的位置上,以此实现帧间信息的交互而不需要采用三维卷积。
进一步地,所述长时时序建模包括:
N个采样帧经过插入了特征加强模块后的骨干网络后获得N个d维结果向量 {v1,v2...,vN},d表示的是行为的类别数量,对结果向量做长时时序建模,具体为:
pi=maxpool(N/i,1,i)(v1,v2...,vN) (5)
其中,类比于卷积操作,N/i表示核大小,1表示每次步长,i表示空洞率,
Figure BDA0002953260670000026
Figure BDA0002953260670000031
所以经过多尺度的长时时序建模后,得到2N-1个d维的向量 M={m1,m2,...,m2N-1},使用卷积核大小为d的1维卷积对每个向量进行卷积操作得到初始的注意力值S={s1,s2,...,s2N-1},并通过全连接层对S做进一步的非线性变换得到最终注意力值w:
w=softmax(w2(σ(w1S))) (6)
其中,σ为sigmoid函数;
进一步的将注意力值w和得到的M点乘:
Mout=w⊙M (7)
对Mout在对应维度求均值,得到最终输出的预测向量Pout
Figure BDA0002953260670000032
其中,j∈[1,d];
进一步的,所述根据分段抽取的方式获得视频帧的采样序列包括:
将原始的视频样本分为帧数相等的N段,从每段中随机采样一帧组成每个样本的训练序列{I1,I2,...,IN}
进一步地,所述根据数据集的视频帧采用Xavier方法对行为识别模型进行初始化包括:
对训练集每个样本的训练序列进行预处理:将训练序列中的帧减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小;
更进一步的,所述基于行为识别模型的损失函数进行迭代到预设迭代次数包括:
行为识别模型的损失函数为:
Figure BDA0002953260670000033
Figure BDA0002953260670000034
为第j类的预测值,若当前行为是第j类的时候,若
Figure BDA0002953260670000035
值越大的时候,loss越小,表示其预测的越准确,对整体的损失的贡献较小,当
Figure BDA0002953260670000036
较小的时候,表示其预测的偏差较大,loss将会重点关注这个分类错误的样本;
对行为识别分类模型进行网络训练,直到达到预设的迭代次数
更进一步的,所述使用新的视频帧序列,基于训练好的行为识别模型得到分类结果包括:
从测试样本中采样视频帧序列,然后将序列输入已经训练好的行为识别模型,得到从测试样本中采样视频帧序列,然后将序列输入已经训练好的行为识别模型得到最终的行为分类结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.基于运动特征增强和长时时序建模的考场作弊行为分析方法,主要针对的是考试场景,能端到端的实现在考试场景下的作弊行为分析任务,通过利用帧间差来做提取运动特征的注意力值,削弱了静态的场景信息特征而加强了动态的运动信息的特征;有效的避免了模型对光流的依赖,使得模型的训练和推理可以有效捕捉运动信息的同时还节省了计算资源。
2.同时使用了长时间的时序建模方法,将输出的不同帧的预测结果做不同时间尺度的融合,实现了长时的时序建模,通过极小的代价而有效的提升了模型的分类精度。
3.本发明中将训练集采集到的视频帧序列随机按照一定尺度裁剪和上下翻转,以扩充训练数据集,减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小,作为训练图片,方便放入行为识别分类模型进行训练。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是基于运动特征增强和长时时序建模的考场作弊行为分析方法的流程示意图;
图2是本发明基于运动特征增强的流程示意图;
图3是本发明基于长时时序建模的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于运动特征增强和长时时序建模的考场作弊行为分析方法,解决了在运动信息为主的场景中,运动特征将对模型结果产生重要影响,而静态的特征信息基本对模型识别准确率的提升无贡献,目前通用的模型无法着重强化运动相关特征而抑制场景特征而并且无法进行长时时序建模而导致的准确率较低的问题。
基于运动特征增强和长时时序建模的考场作弊行为分析方法,包括以下步骤:
步骤A为收集数据集:收集考场监控视频数据,提取出其中的作弊行为片段并标注作弊类型标签,将每个样本的视频帧以图片的形式保存在同一个文件夹中;
步骤B为搭建行为识别模型:将运动特征加强模块插入到骨干网络,运动特征加强模块将会获得当前特征谱的每个通道的不同的权重,该权重作用到原始特征谱上将对原始的特征谱进行运动特征增强,长时时序建模模块将对不同帧的结果向量进行融合,实现长时时序的信息融合,完成行为识别模型的搭建;
步骤C为训练行为识别模型:使用分段抽取的方式获得视频帧的采样序列,根据视频帧序列采用Xavier方法对分类模型进行初始化,基于分类模型的损失函数进行迭代到预设迭代次数,完成行为识别模型的训练;
步骤D为使用新的视频帧采样序列进行推理测试:使用新的视频帧采样序列进行推理测试,基于训练好的行为识别模型得到最终的行为分类结果。
本发明通过端到端的模型来实现行为识别,运动特征增强模块可以通过帧间特征差有效的提取出运动差异特征值,将其作为注意力值可以有效的提升模型对运动信息的捕获能力;同时使用长时时序建模模块,通过少量的运算代价就提升了帧间的长时时序信息融合,有效的缓解了时间跨度较长的帧间信息融合的问题,提升了行为识别的速度和精度。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
本发明的较佳实施例,基于运动特征增强和长时时序建模的考场作弊行为分析方法,如图1所示,包括以下步骤:
步骤A、收集数据集:
收集考场视频数据,对其中有作弊行为的时间片段进行截取并标明作弊类型,所述数据集为自行收集的数据集,通过在互联网上下载,使用手持移动设备拍摄,模拟摆拍等方式收集获得,获取途径合理可靠,并满足任务要求
步骤B、搭建行为识别模型:
搭建运动特征增强模块,基于该模块提取运动特征注意力值并使用该注意力值对原始的特征进行加权处理,通过特征谱移位操作实现帧间的信息交互,通过长时时序建模加强距离较远帧之间的信息融合,完成行为识别模型的搭建;
步骤B.1、构建运动特征增强模块:
使用1×1卷积将特征谱的通道维数下降,将当前帧的特征谱zr(t)和下个相邻帧的特征谱zr(t+1)相减得到zp(t):
zp(t)=zr(t)-zr(t+1) (1)
将特征谱相减后得到的结果做全局平均池化得到初步的注意力值Ar(t):
Ar(t)=AvgPool(zp(t)) (2)
将初步的注意力值Ar(t)通过1×1卷积做上采样操作得到Ar′(t),使其通道数恢复为与 zr(t)一致,并对其使用sigmoid函数进行归一化操作,使得注意力值的取值区间为[-1,1]:
Ap(t)=2×Φ(Ar′(t))-1 (3)
其中,Φ代表sigmoid函数,最终获得运动特征的注意力值Ap(t);
将Ap(t)与原始注意力谱zr(t)点乘,得到运动特征加强后的特征谱zout(t):
zout(t)=Ap(t)⊙zr(t) (4)
步骤B.2、对特征谱进行移位操作:
对于每一帧,将每个特征谱zout(t)均分为8份
Figure BDA0002953260670000061
并使用
Figure BDA0002953260670000062
替换到
Figure BDA0002953260670000063
的位置上,同时使用
Figure BDA0002953260670000064
替换
Figure BDA0002953260670000065
的位置上,以此实现帧间信息的交互而不需要采用三维卷积。
步骤B.3、构建长时时序建模模块:
N个采样帧经过插入了特征加强模块后的骨干网络后获得N个d维结果向量 {v1,v2...,vN},d表示的是行为的类别数量,对结果向量做长时时序建模,具体为:
pi=maxpool(N/f,1,i)(v1,v2...,vN,) (5)
其中,类比于卷积操作,N/i表示核大小,1表示每次步长,i表示空洞率,
Figure BDA0002953260670000066
Figure BDA0002953260670000067
所以经过多尺度的长时时序建模后,得到2N-1个d维的向量 M={m1,m2,...,m2N-1},使用卷积核大小为d的1维卷积对每个向量进行卷积操作得到初始的注意力值S={s1,s2,...,s2N-1},并通过全连接层对S做进一步的非线性变换得到最终注意力值w:
w=softmax(w2(σ(w1S))) (6)
其中,σ为sigmoid函数;
进一步的将注意力值w和得到的M点乘:
Mout=w⊙M (7)
对Mout在对应维度求均值,得到最终输出的预测向量Pout
Figure BDA0002953260670000071
其中,j∈[1,d];
步骤C、训练行为识别模型
使用分段抽取的方式获得视频帧的采样序列,根据视频帧序列采用Xavier方法对分类模型进行初始化,基于分类模型的损失函数进行迭代到预设迭代次数,完成行为识别模型的训练;
步骤C.1、使用分段抽取的方式获得视频帧的采样序列
将原始的视频样本分为帧数相等的N段,从每段中随机采样一帧组成每个样本的训练序列{I1,I2,...,IN}
步骤C.2、根据数据集的视频帧采用Xavier方法对行为识别模型进行初始化:
对训练集每个样本的训练序列进行预处理:将训练序列中的帧减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小;
步骤C.3、基于行为识别模型的损失函数进行迭代到预设迭代次数:
行为识别模型的损失函数为:
Figure BDA0002953260670000072
Figure BDA0002953260670000073
为第j类的预测值,若当前行为是第j类的时候,若
Figure BDA0002953260670000074
值越大的时候,loss越小,表示其预测的越准确,对整体的损失的贡献较小,当
Figure BDA0002953260670000075
较小的时候,表示其预测的偏差较大,loss将会重点关注这个分类错误的样本;
对行为识别分类模型进行网络训练,直到达到预设的迭代次数
由于本发明是端到端的模型结构,所以不需要再进行其他人为干预,再对行为识别模型进行网络训练,直到达到预设的迭代次数;
步骤D、使用新的视频帧序列,基于训练好的行为识别模型得到分类结果:
从测试样本中采样视频帧序列,然后将序列输入已经训练好的行为识别模型,得到最终的行为识别分类结果;
本发明主要针对考场场景,实现在该场景下的作弊行为分析任务,通过运动特征增强模块,有效的实现了对运动特征的捕获,同时实现了对静态的场景信息的抑制,使得模型脱离了对光流的依赖,大大降低了模型的训练所需时间和计算资源以及测试所需时间和所需的计算资源,实现了端到端的实时训练和推理,同时通过长时时序建模实现了对不同时间节点的帧的预测结果之间的信息融合,提升了模型的行为分类精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,包括以下步骤:
步骤A:收集考场监控视频数据,提取出其中的作弊行为片段并标注作弊类型标签,将每个样本的视频帧以图片的形式保存在同一个文件夹中;
步骤B:将运动特征加强模块插入到骨干网络,运动特征加强模块将会获得当前特征谱的每个通道的不同的权重,该权重作用到原始特征谱上将对原始的特征谱进行运动特征增强,长时时序建模模块将对不同帧的结果向量进行融合,实现长时时序的信息融合,完成行为识别模型的搭建;
步骤C:使用分段抽取的方式获得视频帧的采样序列,根据视频帧序列采用Xavier方法对分类模型进行初始化,基于分类模型的损失函数进行迭代到预设迭代次数,完成行为识别模型的训练;
步骤D:使用新的视频帧采样序列进行推理测试,基于训练好的行为识别模型得到最终的行为分类结果;
所述步骤B中的长时时序建模包括:
N个采样帧经过插入了特征加强模块后的骨干网络后获得N个d维结果向量{v1,v2…,vN},d表示的是行为的类别数量,对结果向量做长时时序建模,具体为:
pi=maxpool(N/i,1,i)(v1,v2...,vN) (5)
其中,类比于卷积操作,N/i表示核大小,1表示每次步长,i表示空洞率,
Figure FDA0003668309500000011
Figure FDA0003668309500000012
所以经过多尺度的长时时序建模后,得到2N-1个d维的向量M={m1,m2,…,m2N-1},使用卷积核大小为d的1维卷积对每个向量进行卷积操作得到初始的注意力值S={s1,s2,…,s2N-1},并通过全连接层对S做进一步的非线性变换得到最终注意力值w:
w=softmax(w2(σ(w1S))) (6)
其中,σ为sigmoid函数;
进一步的将注意力值w和得到的M点乘:
Mout=w⊙M (7)
对Mout在对应维度求均值,得到最终输出的预测向量Pout:
Figure FDA0003668309500000013
其中,j∈[1,d]。
2.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述步骤B中运动特征增强包括:
使用1×1卷积将特征谱的通道维数下降,将当前帧的特征谱zr(t)和下个相邻帧的特征谱zr(t+1)相减得到zp(t):
zp(t)=zr(t)-zr(t+1) (1)
将特征谱相减后得到的结果做全局平均池化得到初步的注意力值Ar(t):
Ar(t)=AvgPool(zp(t)) (2)
将初步的注意力值Ar(t)通过1×1卷积做上采样操作得到Ar(t),使其通道数恢复为与zr(t)一致,并对其使用sigmoid函数进行归一化操作,使得注意力值的取值区间为[-1,1]:
Ap(t)=2×Φ(Ar(t))-1 (3)
其中,Φ代表sigmoid函数,最终获得运动特征的注意力值Ap(t);
将Ap(t)与原始注意力谱zr(t)点乘,得到运动特征加强后的特征谱zout(t):
zout(t)=Ap(t)⊙zr(t) (4)。
3.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述步骤B中信息融合包括,对特征谱做移位操作;
对于每一帧,将每个特征谱zout(t)均分为8份
Figure FDA0003668309500000021
并使用
Figure FDA0003668309500000022
替换到
Figure FDA0003668309500000023
的位置上,同时使用
Figure FDA0003668309500000024
替换
Figure FDA0003668309500000025
的位置上,以此实现帧间信息的交互而不需要采用三维卷积。
4.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述步骤C中根据分段抽取的方式获得视频帧的采样序列包括:
将原始的视频样本分为帧数相等的N段,从每段中随机采样一帧组成每个样本的训练序列{I1,I2,…,IN}。
5.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述步骤C中根据数据集的视频帧采用Xavier方法对行为识别模型进行初始化包括:
对训练集每个样本的训练序列进行预处理:将训练序列中的帧减去整个数据集的均值并除以方差,归一化处理后调整到固定尺度大小。
6.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述基于行为识别模型的损失函数进行迭代到预设迭代次数包括:
所述步骤C中的损失函数为:
Figure FDA0003668309500000031
Figure FDA0003668309500000032
为第j类的预测值,若当前行为是第j类的时候,若
Figure FDA0003668309500000033
值越大的时候,loss越小,表示其预测的越准确,对整体的损失的贡献较小,当
Figure FDA0003668309500000034
较小的时候,表示其预测的偏差较大,loss将会重点关注这个分类错误的样本;对行为识别分类模型进行网络训练,直到达到预设的迭代次数。
7.根据权利要求1所述的基于运动特征增强和长时时序建模的考场作弊行为分析方法,其特征在于,所述使用新的视频帧序列,基于训练好的行为识别模型得到分类结果包括:
从测试样本中采样视频帧序列,然后将序列输入已经训练好的行为识别模型,得到最终的行为分类结果。
CN202110213933.9A 2021-02-26 2021-02-26 基于运动特征增强和长时时序建模的考场作弊行为分析方法 Active CN112926453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110213933.9A CN112926453B (zh) 2021-02-26 2021-02-26 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110213933.9A CN112926453B (zh) 2021-02-26 2021-02-26 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Publications (2)

Publication Number Publication Date
CN112926453A CN112926453A (zh) 2021-06-08
CN112926453B true CN112926453B (zh) 2022-08-05

Family

ID=76172064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110213933.9A Active CN112926453B (zh) 2021-02-26 2021-02-26 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Country Status (1)

Country Link
CN (1) CN112926453B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446348B (zh) * 2020-12-08 2022-05-31 电子科技大学 一种基于特征谱流的行为识别方法
CN113255616B (zh) * 2021-07-07 2021-09-21 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113705394B (zh) * 2021-08-16 2023-05-30 电子科技大学 一种长短时域特征结合的行为识别方法
CN114494981B (zh) * 2022-04-07 2022-08-05 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统
CN114943922B (zh) * 2022-06-02 2024-04-02 浙大城市学院 一种基于深度学习的机考可疑行为识别方法
CN117649630B (zh) * 2024-01-29 2024-04-26 武汉纺织大学 一种基于监控视频流的考场作弊行为识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110321761A (zh) * 2018-03-29 2019-10-11 中国科学院深圳先进技术研究院 一种行为识别方法、终端设备及计算机可读存储介质
CN110909722A (zh) * 2019-12-26 2020-03-24 温州鑫锐翔科技有限公司 基于目标动作检测的防作弊摄像头

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063719B (zh) * 2014-06-27 2018-01-26 深圳市赛为智能股份有限公司 基于深度卷积网络的行人检测方法及装置
CN107145878A (zh) * 2017-06-01 2017-09-08 重庆邮电大学 基于深度学习的老人异常行为检测方法
CN109271886A (zh) * 2018-08-29 2019-01-25 武汉大学 一种教育考试监控视频的人体行为分析方法及系统
CN111104830A (zh) * 2018-10-29 2020-05-05 富士通株式会社 用于图像识别的深度学习模型、该模型的训练装置及方法
CN110110624B (zh) * 2019-04-24 2023-04-07 江南大学 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
US20200387818A1 (en) * 2019-06-07 2020-12-10 Aspen Technology, Inc. Asset Optimization Using Integrated Modeling, Optimization, and Artificial Intelligence
CN111259786B (zh) * 2020-01-14 2022-05-03 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111274995B (zh) * 2020-02-13 2023-07-14 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111310659B (zh) * 2020-02-14 2022-08-09 福州大学 基于增进式图卷积神经网络的人体动作识别方法
CN111401177B (zh) * 2020-03-09 2023-04-07 山东大学 基于自适应时空注意力机制的端到端行为识别方法及系统
CN111414876B (zh) * 2020-03-26 2022-04-22 西安交通大学 一种基于时序引导空间注意力的暴力行为识别方法
CN111709304B (zh) * 2020-05-21 2023-05-05 江南大学 一种基于时空注意力增强特征融合网络的行为识别方法
CN111985343B (zh) * 2020-07-23 2024-04-09 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321761A (zh) * 2018-03-29 2019-10-11 中国科学院深圳先进技术研究院 一种行为识别方法、终端设备及计算机可读存储介质
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110909722A (zh) * 2019-12-26 2020-03-24 温州鑫锐翔科技有限公司 基于目标动作检测的防作弊摄像头

Also Published As

Publication number Publication date
CN112926453A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112926453B (zh) 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN106919920B (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN109918539A (zh) 一种基于用户点击行为的音、视频互相检索方法
CN110097115A (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN111079658A (zh) 基于视频的多目标连续行为分析方法、系统、装置
CN108960314B (zh) 基于难样本的训练方法、装置及电子设备
CN108596243A (zh) 基于分级注视图和条件随机场的眼动注视图预测方法
CN112926485A (zh) 一种少样本水闸图像分类方法
CN111353447A (zh) 一种基于图卷积网络的人体骨架行为识别方法
CN104537028A (zh) 一种网页信息处理方法及装置
CN113988179A (zh) 基于改进注意力和损失函数的目标分割方法、系统及设备
Pratama et al. Face recognition for presence system by using residual networks-50 architecture
CN113095158A (zh) 一种基于对抗生成网络的笔迹生成方法及装置
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN113989556B (zh) 一种小样本医学影像分类方法和系统
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN115062186A (zh) 一种视频内容检索方法、装置、设备以及存储介质
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN112215241B (zh) 一种基于小样本学习的图像特征提取装置
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN115984400A (zh) 基于手绘草图的图像自动生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant