CN115601710A

CN115601710A - 基于自注意力网络架构的考场异常行为监测方法及系统

Info

Publication number: CN115601710A
Application number: CN202211402114.XA
Authority: CN
Inventors: 赵莉; 刘海; 刘婷婷; 胡平芳; 沈大政
Original assignee: Wuhan Donghu University
Current assignee: Wuhan Donghu University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-13

Abstract

本申请公开了一种基于自注意力网络架构的考场异常行为监测方法，包括：获取包含目标对象的RGB图像数据和点云图像数据；对RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据；将身体姿态数据与预设的异常动作进行比对，生成第一相似度指数；对RGB图像数据、点云图像数据进行预处理，生成3D人体姿态特征；基于3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据；将人体姿态预测数据与预设的异常动作进行比对，生成第二相似度指数；根据第一相似度指数、第二相似度指数判断目标对象的异常行为。本发明结合RGB图像和点云图像进行人体姿态的识别优化，可实时精准的识别和判断考场中异常行为的发生。

Description

基于自注意力网络架构的考场异常行为监测方法及系统

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种基于自注意力网络架构的考场异常行为监测方法、系统及计算机设备。

背景技术

随着我国教育改革的不断深入，电子技术与计算机网络技术的不断发展，招生考试的现代化管理水平也在不断提高。国一些经济发达的地市根据形势发展的需要，提出了在省和区市实现教育考试网上巡查的目标。实施智慧教室考试监管系统是新时期考务管理工作的需要。近年来，考试违纪舞弊行为的隐蔽化，舞弊手段的现代化程度越来越高。建立智慧教室考试监管系统以后，实现多级多方的网上巡查,对考试全过程实施全方位监控和即时录像，能有效地防考生作弊行为的发生。同时，实施考场智能考试行为监控又是依法治考的需要。智能考试行为监测系统通过全程录像，对查处考试舞弊提供了有力的证据，能更有效地打击违纪舞弊行为，更好地维护国家教育统一考试严肃性、权威性和公平性。此外，建立智能考试行为监控也是加快建设全国统一考试规化考点和规化考场的重要保障。智能考试行为监控上巡查的实施必将为招生工作创造更加公平、公正的竞争环境。考试管理的数字化管理，有力地推进了考试管理的现代化进程。

目前高校使用的远程考试平台都推出了监考模式，比如利用摄像头抓怕、后台监测考生作答的状态等。一些监考要求较高的课程则采用了双机位操作的方式：在电脑屏幕开启摄像头的同时，学生要在侧后方架起手机，利用手机摄像头同步进行拍摄。虽然远程监考对学生作弊进行了各种设置，但远程监考系统无论是准确性还是可操作性能难以获得理想的效果。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于自注意力网络架构的考场异常行为监测方法、系统及计算机设备，结合RGB图像和点云图像进行人体姿态的识别优化，可以实时精准的识别和判断异常行为的发生，提高判别结果的准确性。

为实现上述目的，按照本发明的第一个方面，提供了一种基于自注意力网络架构的考场异常行为监测方法，其包括：

获取包含目标对象的RGB图像数据和点云图像数据；

对所述RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据；将所述身体姿态数据与预设的异常动作进行比对，生成第一相似度指数；

对所述RGB图像数据、点云图像数据进行预处理，生成3D人体姿态特征；

基于所述3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据；将所述人体姿态预测数据与预设的异常动作进行比对，生成第二相似度指数；

根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为。

进一步地，上述考场异常行为监测方法中，根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为，包括：

将第一相似度指数、第二相似度指数按照预设权重进行合并，将合并结果与预设的阈值条件进行比对，获得异常行为的判断结果。

进一步地，上述考场异常行为监测方法中，所述对RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据，包括：

将所述RGB图像数据分解为多帧图像后进行特征提取、姿态预测，获得RGB姿态特征；从所述RGB姿态特征中识别出目标对象的身体关键点位置；

将所述点云图像数据转换为3D伪图像，并将所述身体关键点位置匹配到所述3D伪图像中；

在3D伪图像中将目标对象的各身体关键点位置进行向量连接，得到身体姿态数据。

进一步地，上述考场异常行为监测方法还包括：

计算目标对象与其相邻对象的身体关键点位置之间的距离；

将所述距离与第一相似度指数按照预设权重进行求和，得到第三相似度指数；

根据所述第三相似度指数、第二相似度指数判断目标对象的异常行为。

进一步地，上述考场异常行为监测方法中，所述基于3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据，包括：

将所述3D人体姿态特征展平为一维向量序列，将所述一维向量序列输入卷积空间自注意力网络进行空间位置嵌入和编码，获得目标对象的人体姿态空间特征；

对所述人体姿态空间特征输入卷积时间自注意力网络中进行时间嵌入和编码，获得未来时间段内目标对象的人体姿态预测数据。

按照本发明的第二个方面，还提供了一种基于自注意力网络架构的考场异常行为监测系统，其特征在于，包括：

数据采集模块，其被配置为获取包含目标对象的RGB图像数据和点云图像数据；

数据预处理模块，其被配置为对所述RGB图像数据、点云图像数据进行预处理，生成3D人体姿态特征；

姿态识别模块，其被配置为对所述RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据；将所述身体姿态数据与预设的异常动作进行比对，生成第一相似度指数；

姿态预测模块，其被配置为基于所述3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据；将所述人体姿态预测数据与预设的异常动作进行比对，生成第二相似度指数；

判别模块，其被配置为根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为。

进一步地，上述考场异常行为监测系统中，所述姿态识别模块包括关键点位置识别单元和姿态生成单元；

所述关键点位置识别单元被配置为将RGB图像数据分解为多帧图像后进行特征提取、姿态预测，获得RGB姿态特征；从所述RGB姿态特征中识别出目标对象的身体关键点位置；

所述姿态生成单元被配置为将点云图像数据转换为3D伪图像，并将所述身体关键点位置匹配到所述3D伪图像中；以及，在3D伪图像中将目标对象的各身体关键点位置进行向量连接，得到身体姿态数据。

进一步地，上述考场异常行为监测系统中，所述关键点位置识别单元还用于计算目标对象与其相邻对象的身体关键点位置之间的距离，并将所述距离与第一相似度指数按照预设权重进行求和，得到第三相似度指数；

所述判别模块根据第三相似度指数、第二相似度指数判断目标对象的异常行为。

进一步地，上述考场异常行为监测系统中，所述姿态预测模块包括卷积空间自注意力网络和卷积空间自注意力网络；

所述卷积空间自注意力网络被配置为对3D人体姿态特征展平的一维向量序列进行空间位置嵌入和编码，获得目标对象的人体姿态空间特征；

所述卷积时间自注意力网络被配置为对所述人体姿态空间特征进行时间嵌入和编码，获得未来时间段内目标对象的人体姿态预测数据。

进一步地，上述考场异常行为监测系统中，所述卷积空间自注意力网络包括特征映射、空间位置嵌入和多个空间编码器；所述时间卷积自注意力网络包括特征映射、时间位置嵌入和多个时间编码器；所述的空间编码器、时间编码器分别由多头注意力机制组成，并且输入进前馈网络中。

按照本发明的第三个方面，还提供了一种计算机设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明结合RGB图像和点云图像进行人体姿态的识别优化，并基于姿态识别生成的第一/第三相似度指数和基于姿态预测生成的第二相似度指数进行异常行为判别，可以实时精准的识别和判断异常行为的发生；该方案可应用于考试场景下的考生考场异常行为识别与预警，具有十分重要的意义。

(2)本发明所提供的4D人体姿态检测模块运用端到端的人体姿态识别优化，简化了手动提取图像特征的繁琐过程，进一步精确了异常动作相似度与关键点位置距离的测量，有效提高了异常行为判断的准确率。

(3)本发明提供的3D人体姿态估计模块中涉及到自注意力网络结构模型，突破了RNN模型不能并行计算的限制，相比CNN，计算两个位置之间的关联所需的操作次数不随距离增长。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供的一种考场异常行为监测方法的流程示意图；

图2为本实施例提供的一种考场异常行为监测的执行步骤示意图；

图3为本申请实施例提供的远程课堂考试环境下的数据获取示意图；

图4为人体关键点分布示意图；

图5为本实施例提供的4D人体姿态识别模型的网络拓扑结构示意图；

图6为本实施例提供的3D人体姿态预测模型的网络拓扑结构示意图。

图7为本实施例提供的一种考场异常行为监测系统的逻辑框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

此外，为了避免使技术人员对本发明的理解模糊，可能不详细地描述或示出公知的或广泛使用的技术、元件、结构和处理。尽管附图表示本发明的示例性实施例，但是附图不必按照比例绘制，并且特定的特征可被放大或省略，以便更好地示出和解释本发明。

图1是本实施例提供的一种考场异常行为监测方法的流程示意图，图2是本实施例提供的一种基于自注意力网络架构的考场异常行为监测的执行步骤示意图，请参阅图1、2，该方法包括以下步骤：

S1获取包含目标对象的RGB图像数据和点云图像数据；

本实施例以对各考生在考场中的异常行为监测为例进行说明，在考场中设置有RGB摄像头及点云摄像头。

如图3所示，考生正在利用只能无人监考的设备进行智能无人监考考试，在该场景下，利用RGB和点云摄像头采集考生的视频图像，获得RGB图像数据和点云图像数据，为4D人体姿态识别模块及3D人体姿态预测模块提供了重要的数据来源。

人体姿势是考生考试过程中的重要特征属性，通过分析考生在考试过程中的人体姿态的外显行为可以有效地判断目标考生的真实动作。此外通过对不同考生各个关键点的距离分析可以获取考生的交头接耳的外在行为，不同考生在指定关键点过于靠近时，可能就是考生异常行为的标志信息。

S2对所述RGB图像数据、点云图像数据进行预处理，生成3D人体姿态特征；

本步骤中，分别将RGB图像数据、点云图像数据按时间顺序分为多帧图像，并对每帧图像进行预处理，得到初步的3D人体姿态特征。所述的预处理包括：

(1)将所获取到的RGB视频与点云视频分割为多帧图像，以便于后面的识别与处理；

(2)数据清洗，对缺失的数据信息经行删除或补全；

(3)特征提取，将数据清洗后的多帧图像中所有属性的特征以及属性之间的关系提取出来；

(4)时间嵌入，位置编码嵌入到所提取出来的特征表示；

(5)单假设特征增强，增强特征之间的关系表示；

(6)3D姿态数据变换，应用线性转换操作，回归得到最终的人体姿态识别结果。

S3对所述RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据；并将所述身体姿态数据与预设的异常动作进行比对，生成第一相似度指数；

本实施例中，获得目标对象的身体姿态数据的方式为：

S31将所述RGB图像数据对应的帧图像后进行特征提取、姿态预测，获得RGB姿态特征；从RGB姿态特征中识别出目标对象的身体关键点位置；

S32将所述点云图像数据转换为3D伪图像，并将所述身体关键点位置匹配到所述3D伪图像中；

S33在3D伪图像中将目标对象的各身体关键点位置进行向量连接，得到身体姿态数据；如图4所示，目标对象的身体关键点位置一般为人体关节点位置，将识别出的人体关节点位置进行向量连接，即可生成人体的姿态数据。

在一个可选的实施方式中，将RGB图像数据、点云图像数据输入4D人体姿态识别模型中进行姿态识别，图5是本实施例提供的4D人体姿态识别模型的网络拓扑结构示意图，下面结合该4D人体姿态识别模型对姿态识别的过程作进一步说明。

首先，将RGB图像数据对应的帧图像输入视觉特征编码模块，提取出多尺度特征图；姿态解码模块用于根据视觉特征编码模块输出的多尺度特征图预测多个全身姿态；然后在联合解码模块中进一步细化全身在关节水平上的摆动姿势，获得目标对象的2D人体关键点序列pts2d＝{x₁,y₁,p₁,...,x_n,y_n,p_n}，其中x为图像横坐标，y为图像纵坐标，p为关节点的置信度；

对于点云图像数据，首先将其分割成多帧图像后使用PointPillars来生成特征，将点云图像转化为2D的伪图像；

截取一个点云P＝{p}，其中，P表示一个3D(x,y,z)和相关联的F维特征向量；

用(P，N，F)代表点云的形状，其中，P代表柱子的数量，N代表支柱的点数，每个P支柱都有一个支柱中心(x₀,y₀,z₀)；

使用原始坐标沿着X，Z平面“分配”回特征，并产生一个大小为(x,z,C_p)的伪图像；

给定一系列T的测试点云；

创建TPointPillar“伪图像”，然后使用3D的骨干网络来处理所有帧；

采取T先前的帧作为输入并预测对象边界最终帧中的方框，与时间点云相同。产生了具有形状(X,Y,C_V)的特征；

选择融合RGB到点云流，将3D点与2D图像点对齐，点柱伪图像M通过具有类网状结构的骨干网络获取到形状(X,Z,C_p)；将RGB信息合并到3D点云中用PointPillars表示(都是时间上的)，有两个主要的考虑：两个传感器需要在几何上和空间上对齐，以及融合机制从这些模态产生的特征应该理想。

基于与伪图像形状与RGB图像读取depth上2D关节点序列每个点上的深度值d，如果深度值d在正常范围，则认为该点的深度值有效，其中正常范围是在拍摄时设定人距离摄像机的一个范围。如果存在某点pt的深度值d在正常范围以外，则在该点的邻域内查找距离最近的mask非零点，如果存在这样的非零点，则该非零点在depth上对应的深度值d’为2D点pt的深度值。

基于摄像机视角、焦距、各点的深度值，将图像2D坐标转到3D视角坐标：水平视角hfov(单位：弧度)，垂直视角vfov(单位：弧度)，图像size是xres、yres(单位：像素)图像中心坐标(单位：像素)，水平焦距记为：

fx＝cx/(hfov/2.0) (1)

垂直焦距记为：

fy＝cy/tan(vfov/2.0) (2)

已知点pt图像坐标为(col，row)，深度为d(单位：毫米)，则pt点的3D世界坐标(单位：米)为：

其次，利用全局最优算法Go-ICP将识别出的身体关键点位置匹配到3D伪图像中，将关键点向量连接，得到身体姿态数据。

然后，将目标对象的身体姿态数据匹配到预先设置的异常动作数据集之中，通过比对获取到两者的第一相似度指数S_i。

S4基于所述3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据；将所述人体姿态预测数据与预设的异常动作进行比对，生成第二相似度指数；

本实施例中，用于获得未来时间段内目标对象的人体姿态预测数据的方式主要包括：

S41将所述3D人体姿态特征展平为一维向量序列，将所述一维向量序列输入卷积空间自注意力网络进行空间位置嵌入和编码，获得目标对象的人体姿态空间特征；

S42对所述人体姿态空间特征输入卷积时间自注意力网络中进行时间嵌入和编码，获得未来时间段内目标对象的人体姿态预测数据。

在一个可选的实施方式中，将预处理后的3D人体姿态特征输入3D人体姿态预测模型中进行姿态识别，图6是本实施例提供的3D人体姿态预测模型的网络拓扑结构示意图，下面结合该3D人体姿态预测模型对姿态预测的过程作进一步说明。

该3D人体姿态预测模型包括2D卷积、3D卷积、特征融合函数、激活函数以及卷积空间自注意力网络、卷积时间自注意力网络和全连接层。其中，卷积空间自注意力网络(FER-S-Former)包括特征映射、空间位置嵌入和M个空间编码器；时间卷积自注意力网络(FER-T-Former)包括特征映射、时间位置嵌入和N个时间编码器组；所述的空间编码器、时间编码器由多头注意力机制组成，并且输入进前馈网络中。

卷积空间自注意力网络用于提取目标的人体姿态空间特征，其处理过程具体包括：

(1)从空间角度看，考生在考场中的人体姿态可以模型化为一系列关键点之间的向量：P＝[p₁,p₂,...p_n]；

(2)提取考生的人体姿态空间特征并进行特征映射。将特征融合后的3D人体姿态空间特征展平为一维的序列M^f∈R^Q×C(Q＝H’×W’)进一步输入到卷积空间自注意力网络(FER-CS-Former)，

(3)计算每个空间编码器中的查询、关键字、值向量。输入嵌入表示可以计算为

其中，e_q代表可学习的位置嵌入。通过前面一层嵌入表示

计算每个空间编码器中的查询向量为：

p_q ^(l,v)＝W_Q ^(l,v)LN(z_q ^l-1)∈R^c′ (5)

关键字向量是：

v_q ^(l,v)＝w_v ^(k,v)LN(z_q ^l-1)∈R^c′ (6)值向量为：

k_q ^(l,v)＝w_v ^(l,v)LN(z_q ^l-1)∈R^c′ (7)

其中，LN(·)表示层归一化，v∈{1...vs}表注意力头的数目，

表示每个注意力头的潜在维度。

(4)自注意力权重η_p ^(l,v)∈R^Q对于每一个查询q通过点积计算为：

其中，ReLU代表激活函数。为了计算第l层的嵌入表示z_p ^(l,v)，先使用每一个注意力头的自注意力系数计算值向量的权重之和，即：

S_p ^(l,v)＝∑Q_q′＝1η_q,q′ ^(l.v)k_q′ ^(l.v) (9)

再将所有注意力头的向量的连接投影并通过MLP操作，该操作可表述为

z_q ^l＝MLP(LN(z′_q ^l))+z′_q ^l (11)

(5)Q的嵌入表示

在空间层面被连接生成更精细的特征图M_r，并且每一帧的特征嵌入x′_t能被计算为：

x′_t＝GMP(g(M_r)) (12)

其中，g(·)表示卷积层，GMP代表全局最大池化。

时间自注意力网络将人体姿态空间特征作为输入来生成判别特征表示，其处理过程具体包括：

(1)从时间角度看，人体姿态动作动态变化的视频是连续的，剪辑的每一帧图像可以模型化向量表示P＝[p₁,p₂,...p_t]。

(2)给定一个输入X′∈R^T×F，时间自注意力网络的输入嵌入表示能够被计算为：

z_t′ ⁰＝x_t′′+e_t′ (13)

其中，e_t'∈R^F表示一个编码时间位置的可学习的位置嵌入表示。与空间编码器不同，在序列的第一个位置加入一个可学习的向量x'₀表示分类的token。

(3)对于时间自注意力网络，通过前面一层嵌入表示z_p ^l-1计算在每个时间编码器中的查询向量为：

p_q ^(l,v)＝W_Q ^(l,v)LN(z_q ^l-1)∈R^c′ (14)

关键字向量为：

v_q ^(l,v)＝w_v ^(l,v)LN(z_q ^l-1)∈R^c′ (15)

值向量为：

k_q ^(l,v)＝w_v ^(l,v)LN(z_q ^l-1)∈R^c′ (16)

(4)对每一个查询向量自注意力权重能够被计算为：

(5)在l层的嵌入表示能够被计算为：

全连接层用于识别的人体姿态预测结果：最终剪辑片段嵌入从时间自注意力网络的最后一层类token中获得，最终的识别结果能够被计算为：

其中，FC代表全连接层网络，C代表单个人体姿态识别的类别，核心操作就是矩阵向量乘积y＝WX。得到矩阵向量积P_Si后赋予权重得到第二相似度指数f_PSi。

S5根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为；具体为：

将第一相似度指数、第二相似度指数按照预设权重进行合并，将合并结果与预设的阈值条件进行比对，获得

异常行为的判断结果。

本实施例中，利用Critic权重法赋予第二相似度指数f_PSi与第一相似度指数S_i权重并求和，通过将求和结果与预设的阈值条件进行比对，来进行考场异常行为的判别。

在一个更加优选的实施例中，上述考场异常行为监测方法还包括：

计算目标对象与其相邻对象的身体关键点位置之间的距离；

本实施例中，使用欧式距离公式计算目标考生1与相邻考生2手部或脚部等关键点的距离d：

d＝sqrt(x₁-x₂)²+(y₁-y₂)²+(z₁-z₂)² (21)

其中，(x₁、y₁、z₁)表示目标考生的某一关键点位置坐标，(x₂、y₂、z₂)表示与目标考生相邻的考生的某一关键点位置坐标；目标考生的某一关键点与相邻考生的某一关键点可以相同或不同。

将所述距离d与第一相似度指数S_i按照预设权重进行求和，得到第三相似度指数；

本实施例中，利用Critic权重法赋予距离d与第一相似度指数S_i权重，得出第三相似度指数f_PE；

本实施例中，利用Critic权重法赋予第二相似度指数f_PSi与第三相似度指数f_PE权重并求和，通过将求和结果f与预设的阈值条件进行比对，来进行异常行为的判别。

f＝f_PE+f_PSi (22)

当判断考生出现异常行为时，系统发出预警并将异常行为及发生异常行为的时间及动作发送给考务人员持有的终端设备，以便于考务人员可以采取相应的措施，维持考场的公平性纪律性。

应当注意，尽管在上述的实施例中，以特定顺序描述了本说明书实施例的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本实施例提供了一种考场异常行为监测系统，该系统可以采用软件和/或硬件的方式实现，并可集成在计算机设备上；如图7所示，该系统包括数据采集模块、数据预处理模块、姿态识别模块、姿态预测模块和判别模块；其中，

数据采集模块被配置为获取包含目标对象的RGB图像数据和点云图像数据；

数据预处理模块被配置为对所述RGB图像数据、点云图像数据进行预处理，生成3D人体姿态特征；

姿态识别模块被配置为对所述RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据；将所述身体姿态数据与预设的异常动作进行比对，生成第一相似度指数；

作为一个可选的实施方式，该姿态识别模块包括关键点位置识别单元和姿态生成单元；

姿态预测模块被配置为基于所述3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据；将所述人体姿态预测数据与预设的异常动作进行比对，生成第二相似度指数；

作为一个可选的实施方式，该姿态预测模块包括卷积空间自注意力网络和卷积空间自注意力网络；

卷积空间自注意力网络被配置为对3D人体姿态特征展平的一维向量序列进行空间位置嵌入和编码，获得目标对象的人体姿态空间特征；

卷积时间自注意力网络被配置为对所述人体姿态空间特征进行时间嵌入和编码，获得未来时间段内目标对象的人体姿态预测数据。

卷积空间自注意力网络包括特征映射、空间位置嵌入和多个空间编码器；时间卷积自注意力网络包括特征映射、时间位置嵌入和多个时间编码器；空间编码器、时间编码器分别由多头注意力机制组成，并且输入进前馈网络中。

判别模块被配置为根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为。

作为一个更加优选的实施方式，关键点位置识别单元还用于计算目标对象与其相邻对象的身体关键点位置之间的距离，并将所述距离与第一相似度指数按照预设权重进行求和，得到第三相似度指数；

判别模块根据第三相似度指数、第二相似度指数判断目标对象的异常行为。

关于异常行为监测系统的具体限定可以参见上文中对于异常行为监测方法的限定，在此不再赘述。上述异常行为监测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本实施例还提供了一种计算机设备，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行异常行为监测方法的步骤，此处不再赘述；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信，还可与一个或者多个使得用户能与该计算机设备交互的终端通信，和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，可通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，系统或单元的间接耦合或通信连接，可以是电性或其它的形式。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力网络架构的考场异常行为监测方法，其特征在于，包括：

获取包含目标对象的RGB图像数据和点云图像数据；

2.如权利要求1所述的考场异常行为监测方法，其特征在于，根据所述第一相似度指数、第二相似度指数判断目标对象的异常行为，包括：

3.如权利要求1所述的考场异常行为监测方法，其特征在于，所述对RGB图像数据、点云图像数据中的目标对象进行姿态识别，获得目标对象的身体姿态数据，包括：

4.如权利要求3所述的考场异常行为监测方法，其特征在于，还包括：

计算目标对象与其相邻对象的身体关键点位置之间的距离；

5.如权利要求1-4任一项所述的考场异常行为监测方法，其特征在于，所述基于3D人体姿态特征进行姿态预测，获得未来时间段内目标对象的人体姿态预测数据，包括：

6.一种基于自注意力网络架构的考场异常行为监测系统，其特征在于，包括：

7.如权利要求6所述的考场异常行为监测系统，其特征在于，所述姿态识别模块包括关键点位置识别单元和姿态生成单元；

8.如权利要求7所述的考场异常行为监测系统，其特征在于，所述关键点位置识别单元还用于计算目标对象与其相邻对象的身体关键点位置之间的距离，并将所述距离与第一相似度指数按照预设权重进行求和，得到第三相似度指数；

9.如权利要求6-8任一项所述的考场异常行为监测系统，其特征在于，所述姿态预测模块包括卷积空间自注意力网络和卷积空间自注意力网络；

10.一种计算机设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一项所述方法的步骤。