CN112507920B

CN112507920B - 一种基于时间位移和注意力机制的考试异常行为识别方法

Info

Publication number: CN112507920B
Application number: CN202011486555.3A
Authority: CN
Inventors: 郭雪荣; 王家伟; 刘亦欣; 李自力; 张吉
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2023-01-24
Anticipated expiration: 2040-12-16
Also published as: CN112507920A

Abstract

本发明公开了一种基于时间位移和注意力机制的考试异常行为识别方法，包括：获取待分类视频；对待分类视频进行预处理，得到待输入图像，待输入图像中包括多张图片；将待输入图像输入分类模型进行特征提取与学习得到每张图片的分类结果，所述分类模型包括时间位移模块和通道空间注意力模块；将每张图片的分类结果进行融合，得到待分类视频的分类结果。与现有技术相比，本发明通过在空间交换卷积双流网络中加入时空注意力机制，对通道间和空间的依赖关系进行显式建模，在关注重要特征的同时抑制次要特征，更有效地提取关键特征信息，提高了对于小尺度的动作及考试异常行为的识别效果。

Description

一种基于时间位移和注意力机制的考试异常行为识别方法

技术领域

本发明涉及深度学习人体行为识别领域，具体涉及一种基于时间位移和注意力机制的考试异常行为识别方法。

背景技术

随着计算机技术的应用及推广，现代考试呈现出智能化的趋势。其中高校考室的智能化水平直接影响和决定了对教育资源的应用水平，是高校教育多样性和信息化的重要基础。目前，计算机应用技术与网络通信技术愈加发达，计算机视觉与人工智能技术的应用愈加广泛，让智能、智慧走进校园是必然趋势。因此，在对建设智能化考室的关注和倡导下，运用合适的计算机技术改进校园监考技术，对考场中的异常行为进行有效识别，从而保证考场纪律，维持考场秩序，提高考生自觉性以及进一步彰显考场的公平性。

虽然现阶段已有研究者结合行为识别、检测技术对考场环境下的异常行为进行研究，但取得的成果在实时性以及准确性方面还达不到投入实际使用的要求，且能识别的异常行为种类较少(主要包含左右偷看、前后偷看、传递纸条，偷看手机)，而实际中存在的考场异常行为形式多样，还需要更详尽的囊括和区分。考场环境下的异常行为通常动作幅度较小、作弊的形式多样，存在局部遮挡，背景复杂，尺度变化，视觉变化等干扰噪声的影响。传统的识别方法对于小尺度的动作识别效果不尽人意，在小尺度的异常行为识别方面还存在一定的缺陷。

因此，如何改善对于小尺度的动作的识别效果，提高对异常行为识别的精准度，成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术存在的上述不足，本发明实际解决的问题是：如何改善对于小尺度的动作的识别效果，提高对异常行为识别的精准度。

本发明公开的技术方案内容如下：

一种基于时间位移和注意力机制的考试异常行为识别方法，包括：

S1、获取待分类视频；

S2、对待分类视频进行预处理，得到待输入图像，待输入图像中包括多张图片；

S3、将待输入图像输入分类模型进行特征提取与学习得到每张图片的分类结果，所述分类模型包括时间位移模块和通道空间注意力模块；

S4、将每张图片的分类结果进行融合，得到待分类视频的分类结果。

优选地，步骤S1包括：

S101、采集原始视频图像；

S102、对原始视频图像进行分割得到单个考生视频图像；

S103、将单个考生视频图像抽帧得到对应的帧序列，并按时间顺序将帧序列平均分为多个组；

S104、从每个组中随机抽取一帧图片，组成新的帧序列代表待分类视频。

优选地，步骤S2中，对待分类视频缩放、中心剪裁、归一化处理后得到待输入图像X，X＝[x₁,x₂,x₃,…,x_n]，x₁至x_n表示待分类视频中的第1至第n张图片。

优选地，所述分类模型主干网络采用残差网络ResNet，包括多个stage，每个stage包括多个Bottleneck，每个Bottleneck均包括时间位移模块和通道空间注意力模块。

优选地，步骤S4中，采用加权平均融合的方式得到待分类视频的分类结果。

综上所述，本发明与现有技术相比具有以下技术优势：

(1)由于监控设备拍摄的是整个教室的考生及环境，直接对原始视频处理会复杂的背景前景的影响异常行为识别的准确性，故本发明对原始数据处理，提取出单个考生的视频块，同时为了减少处理冗余信息，对视频按照一定的规则分组抽帧，输入到行为分类数据模型中。

(2)通过加入时间位移模块能够利用极少的计算代价能够学习到时间的位移，而不像3DCNN需要参数量，亦不像Two-Stream需要提前计算光流信息，分开学习时间和空间的特征，不利于实时性捕捉视频中的异常行为。

(3)同时考场中人物所处的环境复杂，异常行为识别效果易受到复杂背景、尺度变化、视角变化等干扰噪声的影响，因此本发明在分类模型中引入时空注意力机制，能够起到强调重要特征，减弱对非重要特征的关注，达到学习更深层次的特征。

附图说明

图1为本发明公开的一种基于时间位移和注意力机制的考试异常行为识别方法的流程图；

图2为ResNet网络结构示意图；

图3为时间位移的示意图；

图4为Residual分支中加入时间位移的示意图；

图5为通道注意力模块的示意图；

图6为空间注意力模块的示意图；

图7为ResBlock+TS-CBAM的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述说明。

如图1所示，本发明公开了一种基于时间位移和注意力机制的考试异常行为识别方法，包括：

S1、获取待分类视频；

本发明中，可以通过安装在考场内的摄像头完成图像的采集。

考场环境下的异常行为通常动作幅度较小、作弊的形式多样，并且存在局部遮挡、背景复杂、尺度变化、视觉变化等干扰噪声的影响，因此，现有的考场行为识别、检测技术效果不佳的问题。

首先，本发明中，采用了时间位移(Temporal Shift Module，TSM)的方法。

如图3及图4所示，该方法是通过将时间维的相同位置通道信息进行向前或向后的位移，以达到时间信息的交换，从而仅使用2D的复杂度达到3D的性能。同时与Two-Stream相比该方法省去了光流特征学习，转而通过时间维的通道位移时间信息的交互，减少了原本需要计算光流的时间。移位算法过程如下，为了简洁起见，以核大小为3的一维卷积为例。假设卷积的权重为W＝(w₁,w₂,w₃)，输入X是一个长度无限的一维向量。卷积算子Y＝Conv(W，X)可以写成：y_i＝w₁x_i-1+w₂x_i+w₃x_i+1。将卷积的运算解耦为两个步骤：移位和乘积：输入X分别移动-1,0,1,并乘以W₁，W₂，W₃它们相加为Y。具体形式如下：

累积乘积操作如下：

Y＝w₁X^-1+w₂X⁰+w₃X⁺¹ (2)

式(1)移位可以在没有任何乘法的情况下进行。虽然式(2)在计算上更昂贵，但时间位移模块将乘法累积合并到下面的2D卷积中，因此与基于2DCNN的模型相比，它没有额外的成本，同时也关注了时间维的信息。

如图5及图6所示，本发明中，还采用了注意力机制模块(CBAM)，这是一种结合了空间(spatial)和通道(channel)的注意力机制模块。在考生异常行为识别中，由于拍摄到的视频并不只包含单个学生，其背景中也可能会包含其他学生，以及教室环境光照变化的，尺度大小不一的影响，会对模型在行为特征的干扰，因此本发明引入卷积块注意模块(Convolutional Block Attention Module)能强调重要特征，而忽略次要特征，保证最终结果的准确性。

CBAM的核心算法可表示如下：给定一个中间特征图F∈R^C×H×W作为输入，CBAM依次输入一维通道注意图M_c∈R^C×H×W和二维空间注意图M_s∈R^1×H×W。总体关注过程可概括为：

式(3)中F表示特征图，M_c,M_s分别表示对F做通道上和空间上的乘积操作，

表示点乘。在累积乘法过程中，注意力值被相应地广播：通道注意力值沿着空间维度广播，反之依然。F″定义为最终的输出。

注意力机制模块包括了通道注意力模块和空间注意力模块。通道注意力模块中，将特征映射的每个通道被认为是特征检测器，通道注意力关注‘什么’是有意义的对于一张图片而言。为了高校的计算注意力机制，将输入的特征图进行压缩。首先使用平均池化和最大池化操作来聚合特征映射的空间信息，生成两个不同的空间上下文描述符：

和

分别表示平均池特征和最大池特征。然后将这两个描述符转发到一个共享网络，以生成我们的信道注意图M_c∈R^C×1×1。共享网络由多层感知机(MLP)和一个隐藏层组成。为了减少参数开销，将隐藏的激活大小设置为R^C/r×1×1，其中r是约简比。在将共享网络应用于每个描述符之后，使用元素求和来合并输出特征向量。简而言之，信道注意力表示如下：

其中σ表示激活函数，W₀∈R^C/r×C和W₁∈R^C×C/r表示MLP的权重，对于两个输入都共享W₀和W₁，ReLU激活函数后面跟着W₀。

空间注意力模块中，利用特征间的空间关系生成空间注意图，空间注意集中在“哪里”是一个信息部分，这是对信道注意的补充。通过使用两个池操作来聚合特征映射的信道信息，生成两个2D映射：F_savg∈R^1×H×W，F_smax∈R^1×H。每个都表示平均特征和跨通道的最大池特征。空间注意力被计算为：

M_s(F)＝σ(f_7×7([AvgPool(F)；MaxPool(F))

＝σ(f_7×7([F_savg；F_smax])) (5)

其中σ表示sigmod激活函数，f_7×7表示滤波器大小为7×7的卷积运算。

本发明即是结合TSM和CBAM的优势，即能利用2D的参数量达到3D的效果，同时又能关注到重要特征。在ResNet的Bottleneck中分别加入时间位移模块(Temporal ShiftModule)和通道空间注意力模块(Channel&Spacial Attention Module)构成TS-CBAM模块(Temporal shift-Channel&Spacial Attention Module)。在Bottleneck的第一次卷积之前进行时间位移操作，Bottlenck中间部分不改变其网络结构，在最后作一个卷积操作后加入通道空间注意力模块，最后将得到的注意力信息与上一个Bottlenck输出的结果相加，作为下一个Bottleneck的输入。最终，融合各分组得特征，将通过多帧图像经过时间位移与与注意力机制模块计算学习后得特征分别进行全连接后再分类，并将各组的分类结果通过融合，得到最终的分类结果。

具体实施时，步骤S1包括：

S101、采集原始视频图像；

S102、对原始视频图像进行分割得到单个考生视频图像；

目前针对多人交互等复杂行为识别方法不够成熟，考虑到教室环境下的异常行为更加复杂，存在遮挡，背景中包含其他考生，光照变换以及尺度变化等，所以对原视频按照考生分割对后期分类结果尤为关键。本发明中，可以利用目标检测等现有算法对考生分割，分割成主体只含单个考生的单个考生视频图像。然后，按照时间顺序，将分割后的视频进行切片抽帧，得到连续帧序列，这样，能够减少信息的冗余，降低图像处理的时间和空间的复杂度。

具体实施时，步骤S2中，对待分类视频缩放、中心剪裁、归一化处理后得到待输入图像X，X＝[x₁,x₂,x₃,…,x_n]，x₁至x_n表示待分类视频中的第1至第n张图片。

具体实施时，所述分类模型主干网络采用残差网络ResNet，包括多个stage，每个stage包括多个Bottleneck，每个Bottleneck均包括时间位移模块和通道空间注意力模块。

如图2所示，本发明中，分类模型的主干网络是ResNet，input为输入X，经过inputsteam的操作后输出X′作为stage1的输入，每个stage中包含了多个Bottleneck，经过stage1的操作和运算和输出X″最为下一个阶段的输入，以此类推。

如图7所示，对于分类模型的每个Bottleneck，本发明加入了时间位移模块(TSM)和通道空间注意力模块(CBAM)；TSM利用存储在内存中的每个子网络对应层的Channels集合到一起，然后进行时间位移操作；经过时间位移操作后的特征图作三次卷积运算，也即一次Bottleneck运算，在Bottleneck后加入CBAM，构成TS-CBAM模块。重复以上操作，从stage1到stage4中均是如此；最后即可得到输出结果，Output。

具体实施时，步骤S4中，采用加权平均融合的方式得到待分类视频的分类结果。

本发明中，分类结果融合可以利用加权投票或者最大最小决策方法，但优选采用加权平均方法。本发明中，权重初始设置时候是随机生成的，后期根据模型分类结果与真实分类结果相比较而言对模型进行反向传播不断学习得到的。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.一种基于时间位移和注意力机制的考试异常行为识别方法，其特征在于，包括：

S1、获取待分类视频；步骤S1包括：

S101、采集原始视频图像；

S102、对原始视频图像进行分割得到单个考生视频图像；

S104、从每个组中随机抽取一帧图片，组成新的帧序列代表待分类视频；

S2、对待分类视频进行预处理，得到待输入图像，待输入图像中包括多张图片；步骤S2中，对待分类视频缩放、中心剪裁、归一化处理后得到待输入图像X，X＝[x₁,x₂,x₃,…,x_n]，x₁至x_n表示待分类视频中的第1至第n张图片；

S3、将待输入图像输入分类模型进行特征提取与学习得到每张图片的分类结果，所述分类模型包括时间位移模块和通道空间注意力模块；所述分类模型主干网络采用残差网络ResNet，包括多个stage，每个stage包括多个Bottleneck，每个Bottleneck均包括时间位移模块和通道空间注意力模块；其中，对于分类模型的每个Bottleneck，时间位移模块利用存储在内存中的每个子网络对应层的Channels集合到一起，然后进行时间位移操作；经过时间位移操作后的特征图作三次卷积运算，也即一次Bottleneck运算，在Bottleneck后加入通道空间注意力模块，构成TS-CBAM模块；重复以上操作，最后即得到输出结果；

还采用了注意力机制模块，注意力机制模块包括通道注意力模块和空间注意力模块；通道注意力模块中，将特征映射的每个通道被认为是特征检测器；空间注意力模块中，利用特征间的空间关系生成空间注意图；在Bottleneck的第一次卷积之前进行时间位移操作，在最后作一个卷积操作后加入通道空间注意力模块，最后将得到的注意力信息与上一个Bottlenck输出的结果相加，作为下一个Bottleneck的输入；

S4、将每张图片的分类结果进行融合，得到待分类视频的分类结果；其中，融合各分组的特征，将通过多帧图像经过时间位移与注意力机制模块计算学习后得特征分别进行全连接后再分类，并将各组的分类结果通过融合，得到最终的分类结果。

2.如权利要求1所述的基于时间位移和注意力机制的考试异常行为识别方法，其特征在于，步骤S4中，采用加权平均融合的方式得到待分类视频的分类结果。