CN112926453B

CN112926453B - 基于运动特征增强和长时时序建模的考场作弊行为分析方法

Info

Publication number: CN112926453B
Application number: CN202110213933.9A
Authority: CN
Inventors: 许林峰; 贺斌; 孟凡满; 吴庆波; 潘力立; 李宏亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-08-05
Anticipated expiration: 2041-02-26
Also published as: CN112926453A

Abstract

本发明公开了基于运动特征增强和长时时序建模的考场作弊行为分析方法，属于视频行为识别领域和深度学习领域，首先收集数据集，再对数据进行行为类别的标注并将视频流提取为图像帧，基于运动特征增强的方法提升模型对运动目标的捕获能力，通过特征谱移位方式进行帧之间的信息融合，基于时序金字塔的方法对长时的时序关系进行建模，完成识别模型的搭建；然后根据数据集获得的图像采用Xavier方法对行为识别分类模型进行初始化，采用分段抽取的方式获得视频帧的采样序列，基于分类模型的损失函数进行迭代到预设迭代次数，完成模型的训练，最后使用通过抽样获得的视频帧序列进行推理测试，得到具体的行为类别结果。

Description

基于运动特征增强和长时时序建模的考场作弊行为分析方法

技术领域

本发明属于行为识别领域和深度学习领域，涉及基于运动特征增强和长时时序建模的考场作弊行为分析方法。

背景技术

行为识别是一个在计算机视觉领域中备受关注的研究领域，其目的旨在识别出视频中当前人物的行为类别，因此是被认为是视频理解的重要的基础。近些年来，随着计算机运算能力的提升，深度卷积神经网络的发展使得视频行为识别任务获得了诸多显著的成果。

现如今，性能优越的行为识别模型都是基于深度卷积神经网络，其强大的特征提取能力给计算机视觉的各种任务带来了巨大的发展。较于传统的行为识别算法，基于深度学习的行为识别算法在识别精度和效率上有了突破性进步，在各种数据集上都表现出了强劲的性能和优势，但是行为识别任务仍然面临着一些挑战，例如在运动信息较为丰富的场景中识别精度比较依赖于光流信息，通过3D卷积进行时序建模时模型参数量巨大，无法有效进行长时时序建模等。

比如，以背景较为固定的场景的行为识别为例，在考场、室内等场景中，运动信息是分类的主要依据，场景信息基本对分类结果没有作用，甚至还会有反作用，现阶段针对运动信息的提取主要有光流法，时序建模方法主要有三维卷积方法，无论是光流法还是三维卷积方法其都需要消耗大量的时间和计算资源，不能满足实时性的要求。

因此，针对上述问题，本发明提出了一种基于运动特征增强和长时时序建模的考场作弊行为分析方法。

发明内容

本发明的目的在于：提供了基于运动特征增强和长时时序建模的考场作弊行为分析方法，解决了在运动信息为主的样本中，运动特征将对行为识别模型的结果产生重要影响，而静态的特征信息基本对识别准确率的提升无贡献，目前通用的模型无法直接从RGB帧序列的特征谱中着重强化运动相关特征而抑制场景特征而导致的准确率较低的问题。

本发明采用的技术方案如下：

基于运动特征增强和长时时序建模的考场作弊行为分析方法，包括以下步骤：

步骤A为收集数据集：收集考场监控视频数据，提取出其中的作弊行为片段并标注作弊类型标签，将每个样本的视频帧以图片的形式保存在同一个文件夹中；

步骤B为搭建行为识别模型：将运动特征加强模块插入到骨干网络，运动特征加强模块将会获得当前特征谱的每个通道的不同的权重，该权重作用到原始特征谱上将对原始的特征谱进行运动特征增强，长时时序建模模块将对不同帧的结果向量进行融合，实现长时时序的信息融合，完成行为识别模型的搭建；

步骤C为训练行为识别模型：使用分段抽取的方式获得视频帧的采样序列，根据视频帧序列采用Xavier方法对分类模型进行初始化，基于分类模型的损失函数进行迭代到预设迭代次数，完成行为识别模型的训练；

步骤D为使用新的视频帧采样序列进行推理测试：使用新的视频帧采样序列进行推理测试，基于训练好的行为识别模型得到最终的行为分类结果。

进一步地，所述运动特征加强包括：

使用1×1卷积将特征谱的通道维数下降，将当前帧的特征谱z^r(t)和下个相邻帧的特征谱z^r(t+1)相减得到z^p(t)：

z^p(t)＝z^r(t)-z^r(t+1) (1)

将特征谱相减后得到的结果做全局平均池化得到初步的注意力值A^r(t)：

A^r(t)＝AvgPool(z^p(t)) (2)

将初步的注意力值A^r(t)通过1×1卷积做上采样操作得到A^r′(t)，使其通道数恢复为与 z^r(t)一致，并对其使用sigmoid函数进行归一化操作，使得注意力值的取值区间为[-1，1]：

A^p(t)＝2×Φ(A^r′(t))-1 (3)

其中，Φ代表sigmoid函数，最终获得运动特征的注意力值A^p(t)；

将A^p(t)与原始注意力谱z^r(t)点乘，得到运动特征加强后的特征谱z^out(t)：

z^out(t)＝A^p(t)⊙z^r(t) (4)

进一步地，所述特征谱移位包括：

对于每一帧，将每个特征谱z^out(t)均分为8份

并使用

替换到

的位置上，同时使用

替换

的位置上，以此实现帧间信息的交互而不需要采用三维卷积。

进一步地，所述长时时序建模包括：

N个采样帧经过插入了特征加强模块后的骨干网络后获得N个d维结果向量 {v₁，v₂...，v_N}，d表示的是行为的类别数量，对结果向量做长时时序建模，具体为：

p_i＝maxpool_{(N/i，1，i)}(v₁，v₂...，v_N) (5)

其中，类比于卷积操作，N/i表示核大小，1表示每次步长，i表示空洞率，

所以经过多尺度的长时时序建模后，得到2N-1个d维的向量 M＝{m₁，m₂，...，m_2N-1}，使用卷积核大小为d的1维卷积对每个向量进行卷积操作得到初始的注意力值S＝{s₁，s₂，...，s_2N-1}，并通过全连接层对S做进一步的非线性变换得到最终注意力值w：

w＝softmax(w₂(σ(w₁S))) (6)

其中，σ为sigmoid函数；

进一步的将注意力值w和得到的M点乘：

M_out＝w⊙M (7)

对M_out在对应维度求均值，得到最终输出的预测向量P_out：

其中，j∈[1，d]；

进一步的，所述根据分段抽取的方式获得视频帧的采样序列包括：

将原始的视频样本分为帧数相等的N段，从每段中随机采样一帧组成每个样本的训练序列{I₁，I₂，...，I_N}

进一步地，所述根据数据集的视频帧采用Xavier方法对行为识别模型进行初始化包括：

对训练集每个样本的训练序列进行预处理：将训练序列中的帧减去整个数据集的均值并除以方差，归一化处理后调整到固定尺度大小；

更进一步的，所述基于行为识别模型的损失函数进行迭代到预设迭代次数包括：

行为识别模型的损失函数为：

为第j类的预测值，若当前行为是第j类的时候，若

值越大的时候，loss越小，表示其预测的越准确，对整体的损失的贡献较小，当

较小的时候，表示其预测的偏差较大，loss将会重点关注这个分类错误的样本；

对行为识别分类模型进行网络训练，直到达到预设的迭代次数

更进一步的，所述使用新的视频帧序列，基于训练好的行为识别模型得到分类结果包括：

从测试样本中采样视频帧序列，然后将序列输入已经训练好的行为识别模型，得到从测试样本中采样视频帧序列，然后将序列输入已经训练好的行为识别模型得到最终的行为分类结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.基于运动特征增强和长时时序建模的考场作弊行为分析方法，主要针对的是考试场景，能端到端的实现在考试场景下的作弊行为分析任务，通过利用帧间差来做提取运动特征的注意力值，削弱了静态的场景信息特征而加强了动态的运动信息的特征；有效的避免了模型对光流的依赖，使得模型的训练和推理可以有效捕捉运动信息的同时还节省了计算资源。

2.同时使用了长时间的时序建模方法，将输出的不同帧的预测结果做不同时间尺度的融合，实现了长时的时序建模，通过极小的代价而有效的提升了模型的分类精度。

3.本发明中将训练集采集到的视频帧序列随机按照一定尺度裁剪和上下翻转，以扩充训练数据集，减去整个数据集的均值并除以方差，归一化处理后调整到固定尺度大小，作为训练图片，方便放入行为识别分类模型进行训练。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是基于运动特征增强和长时时序建模的考场作弊行为分析方法的流程示意图；

图2是本发明基于运动特征增强的流程示意图；

图3是本发明基于长时时序建模的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处描述和附图中示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

基于运动特征增强和长时时序建模的考场作弊行为分析方法，解决了在运动信息为主的场景中，运动特征将对模型结果产生重要影响，而静态的特征信息基本对模型识别准确率的提升无贡献，目前通用的模型无法着重强化运动相关特征而抑制场景特征而并且无法进行长时时序建模而导致的准确率较低的问题。

本发明通过端到端的模型来实现行为识别，运动特征增强模块可以通过帧间特征差有效的提取出运动差异特征值，将其作为注意力值可以有效的提升模型对运动信息的捕获能力；同时使用长时时序建模模块，通过少量的运算代价就提升了帧间的长时时序信息融合，有效的缓解了时间跨度较长的帧间信息融合的问题，提升了行为识别的速度和精度。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

本发明的较佳实施例，基于运动特征增强和长时时序建模的考场作弊行为分析方法，如图1所示，包括以下步骤：

步骤A、收集数据集：

收集考场视频数据，对其中有作弊行为的时间片段进行截取并标明作弊类型，所述数据集为自行收集的数据集，通过在互联网上下载，使用手持移动设备拍摄，模拟摆拍等方式收集获得，获取途径合理可靠，并满足任务要求

步骤B、搭建行为识别模型：

搭建运动特征增强模块，基于该模块提取运动特征注意力值并使用该注意力值对原始的特征进行加权处理，通过特征谱移位操作实现帧间的信息交互，通过长时时序建模加强距离较远帧之间的信息融合，完成行为识别模型的搭建；

步骤B.1、构建运动特征增强模块：

z^p(t)＝z^r(t)-z^r(t+1) (1)

A^r(t)＝AvgPool(z^p(t)) (2)

A^p(t)＝2×Φ(A^r′(t))-1 (3)

z^out(t)＝A^p(t)⊙z^r(t) (4)

步骤B.2、对特征谱进行移位操作：

对于每一帧，将每个特征谱z^out(t)均分为8份

并使用

替换到

的位置上，同时使用

替换

步骤B.3、构建长时时序建模模块：

p_i＝maxpool_{(N/f，1，i)}(v₁，v₂...，v_N，) (5)

w＝softmax(w₂(σ(w₁S))) (6)

其中，σ为sigmoid函数；

进一步的将注意力值w和得到的M点乘：

M_out＝w⊙M (7)

对M_out在对应维度求均值，得到最终输出的预测向量P_out：

其中，j∈[1，d]；

步骤C、训练行为识别模型

使用分段抽取的方式获得视频帧的采样序列，根据视频帧序列采用Xavier方法对分类模型进行初始化，基于分类模型的损失函数进行迭代到预设迭代次数，完成行为识别模型的训练；

步骤C.1、使用分段抽取的方式获得视频帧的采样序列

步骤C.2、根据数据集的视频帧采用Xavier方法对行为识别模型进行初始化：

步骤C.3、基于行为识别模型的损失函数进行迭代到预设迭代次数：

行为识别模型的损失函数为：

为第j类的预测值，若当前行为是第j类的时候，若

由于本发明是端到端的模型结构，所以不需要再进行其他人为干预，再对行为识别模型进行网络训练，直到达到预设的迭代次数；

步骤D、使用新的视频帧序列，基于训练好的行为识别模型得到分类结果：

从测试样本中采样视频帧序列，然后将序列输入已经训练好的行为识别模型，得到最终的行为识别分类结果；

本发明主要针对考场场景，实现在该场景下的作弊行为分析任务，通过运动特征增强模块，有效的实现了对运动特征的捕获，同时实现了对静态的场景信息的抑制，使得模型脱离了对光流的依赖，大大降低了模型的训练所需时间和计算资源以及测试所需时间和所需的计算资源，实现了端到端的实时训练和推理，同时通过长时时序建模实现了对不同时间节点的帧的预测结果之间的信息融合，提升了模型的行为分类精度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。