CN117690192B

CN117690192B - 多视图实例-语义共识挖掘的异常行为识别方法和设备

Info

Publication number: CN117690192B
Application number: CN202410151297.5A
Authority: CN
Inventors: 田罗; 柳欣; 徐素文; 腾先超; 黄忠湖
Original assignee: Tiandu Xiamen Science And Technology Co ltd
Current assignee: Tiandu Xiamen Science And Technology Co ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-26
Anticipated expiration: 2044-02-02
Also published as: CN117690192A

Abstract

本发明提供一种多视图实例‑语义共识挖掘的异常行为识别方法和设备，涉及计算机视觉和机器学习技术领域。其包含S1、获取多个视角的监控视频流。S2、根据监控视频流提取学生图像，获取多视图数据集。S3、根据多视图数据集进行编码，获取学生图像的潜在特征编码。S4、根据潜在特征编码，分别通过实例编码器和语义编码器进行特征提取，获取学生图像的实例特征和语义特征。S5、根据实例特征，映射到实例特征空间，以识别获取同一学生的不同视图的学生图像。S6、根据语义特征，映射到语义特征空间，以识别获取各个学生图像的行为标签。S7、根据同一学生的不同视图的学生图像，以及各个学生图像的行为标签，识别课堂上学生的异常行为。

Description

多视图实例-语义共识挖掘的异常行为识别方法和设备

技术领域

本发明涉及计算机视觉和机器学习技术领域，具体而言，涉及一种多视图实例-语义共识挖掘的异常行为识别方法和设备。

背景技术

利用计算机视觉技术识别学生课堂异常行为，可以为教师提供更加及时、准确的学生行为信息，便于教师及时采取措施进行干预和引导，有助于提高教学质量和保障学生安全。

现有的基于计算机视觉技术的学生课堂异常行为识别方法主要针对单一视图数据进行分析，存在识别失败或对象丢失的局限性。单视图方法只能分析一个固定的视图，在复杂的环境中，一个视图可能无法完全捕捉到物体的所有细节和特征，从而影响识别的准确性和可靠性。当对象物体被其他物体遮挡时，单视图方法可能无法完整地识别对象。这种条件下，识别失败或对象丢失的情况就可能发生。为了解决现有的学生异常行为识别方法存在识别失败或对象丢失的局限性的问题。

多视图学习是一种机器学习方法，它能够从多个来源或视图中获取数据的多重信息，从而更全面地理解学习问题，其中每个视图都包含对原始数据的独特视角和信息。多视图学习能够捕捉到数据间的复杂模式和结构，从而提供更丰富、更精确的信息。然而，将现有的多视图学习方法直接用于识别学生课堂异常行为可能会存在一些挑战。

首先，现有的多视图学习方法大多使用自编码器提取特征，在同一个特征空间中学习多个目标，他们忽略了学习一致的公共语义和重建不一致的视图私有信息之间的冲突。这将导致模型在特征学习和异常行为识别阶段可能出现偏差。

其次，目前常用的多视图学习方法只是利用简单的损失函数进行多视图特征关联学习，其从本质上常常忽略了视图间的潜在语义关联特性，可解释性不足以及关联性学习不充分，从而导致模型泛化性欠缺而影响异常行为识别效果。

第三，现有的多视图学习方法没有充分利用多视图数据之间的信息互补性和一致性，这限制了它们在异常行为识别方面的性能。

有鉴于此，申请人在研究了现有的技术后特提出本申请。

发明内容

本发明提供了一种多视图实例-语义共识挖掘的异常行为识别方法和设备，以改善上述技术问题中的至少一个。

第一方面、本发明实施例提供了一种多视图实例-语义共识挖掘的异常行为识别方法，其包含步骤S1至步骤S7。

S1、获取课堂的多个视角的监控视频流。

S2、根据所述课堂的多个视角的监控视频流，通过目标检测模型提取学生图像，获取多视图数据集。

S3、根据所述多视图数据集，分别进行编码，获取各个视图中的学生图像的潜在特征编码。

S4、根据所述各个视图中的学生图像的潜在特征编码，分别通过实例编码器和语义编码器进行特征提取，获取各个视图中的学生图像的实例特征和语义特征。

S5、根据所述各个视图中的学生图像的实例特征，映射到实例特征空间，以识别获取同一学生的不同视图的学生图像。

S6、根据各个视图中的学生图像的语义特征，映射到语义特征空间，以识别获取各个学生图像的行为标签。

S7、根据所述同一学生的不同视图的学生图像，以及所述各个学生图像的行为标签，获取各个学生的行为状态，以识别课堂上学生的异常行为。

第二方面、本发明实施例提供了一种多视图实例-语义共识挖掘的异常行为识别设备，其包括处理器、存储器，以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行，以实现如第一方面任意一段所述的一种多视图实例-语义共识挖掘的异常行为识别方法。

通过采用上述技术方案，本发明可以取得以下技术效果：

本发明实施例的多视图实例-语义共识挖掘的异常行为识别方法，在实例特征和语义特征上分别执行实例一致性目标和语义一致性目标，有效地减少了学习一致的公共语义和重建不一致的视图私有信息之间的冲突，大大提高了学生课堂异常行为识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是多视图实例-语义共识挖掘的异常行为识别方法的流程示意图。

图2是多视图实例-语义共识挖掘的异常行为识别方法的网络模型训练时的逻辑框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、请参阅图1和图2，本发明第一实施例提供一种多视图实例-语义共识挖掘的异常行为识别方法，其可由多视图实例-语义共识挖掘的异常行为识别设备来执行（以下简称：识别设备）。特别地，由识别设备中的一个或多个处理器来执行，以实现步骤S1至步骤S7。

S1、获取课堂的多个视角的监控视频流。

具体的，多个视角的监控视频能够更加全面的拍摄到学生的画面，遗漏学生的细节和特征，保证识别的准确性。

可以理解的是，所述识别设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。

S2、根据所述课堂的多个视角的视频流，通过目标检测模型提取学生图像，获取多视图数据集。优选的，步骤S2具体包括步骤S21和步骤S22。

S21、根据所述课堂的多个视角的监控视频流，通过YOLOv7目标检测方法将图像中的学生位置通过边界框进行标记。

S22、根据所述边界框裁剪出只包含学生对象的图片，以获取所述多视图数据集。

具体的，针对获取的多视图课堂视频图像帧（即：课堂的多个视角的监控视频流），利用YOLOv7目标检测方法将图像中的学生位置通过边界框进行标记，并根据这些边界框裁剪出只包含学生对象的图片，之后将这些图片作为多视图数据集。

定义总体的多视图数据集为：

其中，表示第/>个视图的学生图片集合，/>为视图的集合，/>表示第/>个视图的学生图片集合中的第/>张学生片，/>代表表示数据集中实例个数（即：学生的个数）。

定义实例集合的真实标签集合（即：学生行为类别标签集合）为：

其中，表示第/>张学生图片的行为类别标签，/>表示数据集中实例个数。

具体的，定义第个视图的编码器用/>来表示。则第/>个视图的潜在特征为：

其中，表示第/>个视图的潜在特征向量集合、/>表示第/>个视图的编码器、/>表示第/>个视图的学生图片集合、/>表示第/>个视图的学生图片集合中的第/>个学生在潜在特征空间中的表示、/>表示数据集中实例个数、/>表示第/>个视图在潜在空间中的维度、/>表示第/>个视图的学生图片集合中的第/>张学生图片。

S4、根据所述各个视图中的学生图像的潜在特征编码，分别通过实例编码器和语义编码器进行特征提取，获取各个视图中的学生图像的实例特征和语义特征。优选的，步骤S4具体包括步骤S41和步骤S42。

S41、根据所述各个视图中的学生图像的潜在特征编码，通过实例编码器进行特征提取，获取各个视图中的学生图像的实例特征。

所述实例特征的提取模型为：

式中，表示第/>个视图的实例特征集合、/>为视图的集合、/>为第/>个视图中第/>个学生的实例特征、/>为视图中学生的个数、/>表示多层感知机、/>表示第/>个视图中第/>个学生的潜在特征编码、/>表示第/>个视图在潜在空间中的维度。

S42、根据所述各个视图中的学生图像的潜在特征编码，通过语义编码器进行特征提取，获取各个视图中的学生图像的语义特征。

所述语义特征的提取模型为：

式中，表示第/>个视图的语义特征集合、/>为视图的集合、/>为第/>个视图中第/>个学生的语义特征、/>为视图中学生的个数、/>表示一个由/>层和层组成的编码器、/>表示第/>个视图中第/>个学生的潜在特征编码、/>表示语义特征空间的维度。

其中，是/>的第/>个分量，表示第/>个视图的第/>个实例属于第/>个行为类别的概率、/>表示以自然常数e为底的指数函数、/>表示第/>个视图经过多层感知机/>得到的表示的第/>个分量、/>表示行为类别的序号、/>表示第/>个视图的行为类别的集合/数量。

多视图实例-语义共识挖掘的异常行为识别方法通过多视图实例-语义共识挖掘的来探索多视图数据的一致性。由于潜在特征混合了视图私有信息和公共语义，本发明实施例在潜在特征上面叠加了一个层，从而提取得到实例特征/>。此外，在潜在特征上叠加由/>层和/>层组成的编码器/>，从而提取得到语义特征/>。

本发明实施例的多视图实例-语义共识挖掘的异常行为识别方法能够根据多个视角的监控视频流更全面地捕捉到学生的行为信息，有助于减少由于视图限制导致的检测失败或对象丢失的问题，大大提高行为识别的准确性。本实施例的异常行为识别方法简单高效，形式灵活，效果好，可为学生课堂异常行为识别提供技术支持。

在上述实施例的基础上，本发明的一个可选地实施例中，多视图实例-语义共识挖掘的异常行为识别方法的模型通过对抗学习进行训练。对抗学习时需要通过解码器根据映射到实例特征空间和语义特征空间中的映射向量解码重建出重建向量。再根据所述重建向量以及重建损失对编码器进行对抗学习。

定义第个视图的译码器/>来表示。则第/>个视图的重建表示为：

其中，表示经过译码器解码后的第/>个视图的重建后的学生图像集合、为第/>个视图的译码器、/>表示第/>个视图的潜在特征向量集合、/>表示第/>个视图的第/>个经过译码器解码后的学生图片、/>表示数据集中实例个数、/>表示第/>个视图的潜在特征向量集合中的第/>个。

在本实施例中，学习时以最小化重建损失为目标，以保证潜在表示保留尽可能详细的图像信息。

重建学生图像的重建损失为：

式中，为视图的集合、/>为视图的序号、/>表示重建后的第/>个视图的学生图像集合、/>表示第/>个视图的学生图像集合。

多视图数据的一致性对于学生课堂行为异常识别具有重要意义。多视图数据一致性可以分为实例一致性和语义一致性。实例一致性是指来自同一实例的多个视图数据具有一致性。语义一致性则是指来自同一类别的实例多个视图间具有一定的特征相关性。

发明人经过大量的创造性研究发现,传统的多视图学习在同一个特征空间中学习多个目标，忽略了学习一致的公共语义和重建不一致的视图私有信息之间的冲突，从而导致模型在特征学习和异常行为识别阶段可能出现偏差，从而降低识别的准确性。

本发明实施例的多视图实例-语义共识挖掘的异常行为识别方法在不同的特征空间中实现一致性目标和重建目标，避免学习一致的公共语义和重建不一致的视图私有信息之间的冲突，从而提高识别率，具有显著的进步。

在上述实施例的基础上，本发明的一个可选地实施例中，多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在实例特征上使用对比学习最大化属于同一实例的多视图数据之间的一致性，以使同一学生的多视图数据在实例特征空间上的距离尽量接近。

传统的基于对比学习的多视图学习方法利用同一实例在不同视图中的表示作为正对，其他实例的视图作为负对。然后让正对在特征空间上的距离尽量接近，负对在特征空间上的距离尽量远离。通过这样做迫使对应于相同实例的不同视图的表示尽可能的相似，最终使跨视图学习一致的信息成为可能。

与传统的对比学习方法不同的是，本发明实施例只限制实例在不同视图中的表示尽可能的相似，以达到最高的匹配度，而不强制与其他实例的匹配度为0。这种对齐方法避免了原本属于同一类别的实例彼此远离，更适合于挖掘结构信息。

具体的，以余弦距离衡量两个特征之间的相似度，以代表第/>个视图和第/>个视图的相似度矩阵。

相似度模型为：

式中，表示第/>个视图中第/>个学生的实例特征和第/>个视图中第/>个学生的实例特征之间的相似度、/>为两个特征之间的余弦距离、/>为第/>个视图中第个学生的实例特征、/>为第/>个视图中第/>个学生的实例特征、/>为视图中学生的个数、/>为视图的集合、/>表示转置;

限制相似度矩阵对角线上的所有元素为1，而不对/>的其他元素施加约束，从而构建实例编码器的实例对齐损失函数/>。

实例编码器的实例对齐损失函数的表达式为：

式中，表示提取矩阵的主对角元素、/>为第/>个视图和第/>个视图的相似度矩阵、/>为视图的集合、/>为一个含有/>个元素为1的列向量。

在上述实施例的基础上，本发明的一个可选地实施例中，多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在语义特征上构建多视图语义矩阵并结合多视图语义对比蒸馏，从而最大化多视图语义一致性，以最小化属于同一类别的多视图数据在语义特征空间上的距离。

传统的多视图对比学习仅把属于同一实例的视图视为正例，并未考虑训练实例对中来自同一类别的不同实例间的特征相关性，从而导致所谓的负样例存在一定概率的多视图数据源自同一个类别，从而导致训练模型判别性不足。本发明实施例扩展了传统的多视图对比学习方法，通过多视图语义对比蒸馏来缓解这一问题。

为了更好地探索语义一致性，本发明实施例将语义特征进行转置，得到多视图语义矩阵/>。

式中，是/>的第/>个分量，表示第/>个类别中存在第/>个视图的第/>个实例的概率。

不难看出视图间的潜在语义关联包含在多视图语义矩阵中。为了利用视图间的潜在语义关联实现语义一致性，需要不同视图的相同类别下存在某个实例的概率趋向一致。本发明实施例通过使用对比蒸馏来实现此目标。

根据所述多视图语义矩阵，分别计算各个语义特征的中心。具体的，对于每一个语义，本文先计算其中心/>。

其中，对于第个视图的第/>个语义/>，其有1个正对/>，/>个负对。

本发明实施例，根据所述语义特征的中心，以标准的Kullback-Leibler散度衡量两个语义分布的差异程度。则对于语义，其语义对比蒸馏损失为/>。

式中，是接近于0的一个极小数，/>为Kullback-Leibler散度损失。

对于所有类别、所有视图而言，语义对比蒸馏损失函数为：

式中，为语义特征集合、/>为视图的集合、/>为第/>个视图的第/>个语义特征/>的语义对比蒸馏损失。

通过多视图语义对比蒸馏的方法，可以有效的让源自同一类别的多视图数据在特征空间上的距离尽量接近，而让源自不同类别的多视图数据在特征空间上的距离尽量远离。同时采用多视图语义对比蒸馏能够更好地在视图之间传递互补信息。

本发明实施例的多视图实例-语义共识挖掘的异常行为识别方法从原始特征中学习不同层次的特征，包括潜在特征、实例特征和语义特征。在潜在特征上执行重建目标。在实例特征和语义特征上分别执行实例一致性目标和语义一致性目标，有效地减少了学习一致的公共语义和重建不一致的视图私有信息之间的冲突。

本发明实施例的多视图实例-语义共识挖掘的异常行为识别方法充分考虑了多视图数据具有一致性的特点，充分学习了视图间的潜在语义关联特性。在实例特征上使用对比学习最大化属于同一实例的多视图数据之间的一致性，有效地让同一实例的多视图数据在特征空间上的距离尽量接近，消除它们之间的差异性。在语义特征上构造多视图语义矩阵，结合多视图语义对比蒸馏,充分利用多视图之间的潜在语义关联特性，最小化属于同一类别的多视图数据在语义特征空间上的距离，最大化属于不同类别的多视图数据在语义特征空间上的距离，使得源自不同类别的多视图数据得到区分。

在上述实施例的基础上，本发明的一个可选地实施例中，多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，通过多视图实例-语义共识挖掘的方法，语义特征会学习到足够丰富的语义信息。

本发明实施例在语义特征的基础上进行连接，得到多视图语义融合特征。

式中，表示连接操作、/>为视图的集合（即：视图的总数量）、/>为视图中学生的个数、/>为第/>个视图的行为类别的集合/数量。

然后，将多视图语义融合特征输入进一个全连接网络/>和/>层来获得类别的预测标签集合/>。

式中，为第/>张学生图片的预测标签、/>表示数据集中实例个数。

由于学生课堂行为异常检测是一项多分类任务。因此，本发明实施例对学生实例的真实标签集合与模型获得的预测标签集合/>应用交叉熵损失函数进行训练优化。

式中，为真实标签集合/>和预测标签集合/>之间的损失函数、为交叉熵损失函数。

综上所述，多视图实例-语义共识挖掘的异常行为识别方法的模型在训练时整体的损失函数为：

式中，为真实标签集合/>和预测标签集合/>之间的损失函数、/>为例编码器的实例对齐损失函、/>为语义编码器的语义对比蒸馏损失函数、/>为重建学生图像的重建损失函数、/>、/>和/>均为平衡参数。

在本实施例中，、/>和/>均设置为1。

实施例二、本发明实施例提供了一种多视图实例-语义共识挖掘的异常行为识别设备，其包括处理器、存储器，以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行，以实现如实施例一任意一段所述的一种多视图实例-语义共识挖掘的异常行为识别方法。

具体的，本发明实施例的多视图实例-语义共识挖掘的异常行为识别设备，在实例特征和语义特征上分别执行实例一致性目标和语义一致性目标，有效地减少了学习一致的公共语义和重建不一致的视图私有信息之间的冲突，大大提高了学生课堂异常行为识别的准确率。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，电子设备，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，包含：

获取课堂的多个视角的监控视频流；

根据所述课堂的多个视角的监控视频流，通过目标检测模型提取学生图像，获取多视图数据集；

根据所述多视图数据集，分别进行编码，获取各个视图中的学生图像的潜在特征编码；

根据所述各个视图中的学生图像的潜在特征编码，分别通过实例编码器和语义编码器进行特征提取，获取各个视图中的学生图像的实例特征和语义特征；

根据所述各个视图中的学生图像的实例特征，映射到实例特征空间，以识别获取同一学生的不同视图的学生图像；

根据各个视图中的学生图像的语义特征，映射到语义特征空间，以识别获取各个学生图像的行为标签；

根据所述同一学生的不同视图的学生图像，以及所述各个学生图像的行为标签，获取各个学生的行为状态，以识别课堂上学生的异常行为；

根据所述各个视图中的学生图像的潜在特征编码，分别通过实例编码器和语义编码器进行特征提取，获取各个视图中的学生图像的实例特征和语义特征，具体包括：

根据所述各个视图中的学生图像的潜在特征编码，通过实例编码器进行特征提取，获取各个视图中的学生图像的实例特征；其中，/> ，式中，/>表示第/>个视图的实例特征集合、为视图的集合、/>为第/>个视图中第/>个学生的实例特征、/>为视图中学生的个数、表示多层感知机、/>表示第/>个视图中第/>个学生的潜在特征编码、/>表示第个视图在潜在空间中的维度；

根据所述各个视图中的学生图像的潜在特征编码，通过语义编码器进行特征提取，获取各个视图中的学生图像的语义特征；其中，/> ，式中，/>表示第/>个视图的语义特征集合、为视图的集合、/>为第/>个视图中第/>个学生的语义特征、/>为视图中学生的个数、表示一个由/>层和/>层组成的编码器、/>表示第/>个视图中第/>个学生的潜在特征编码、/>表示语义特征空间的维度。

2.根据权利要求1所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，根据所述课堂的多个视角的监控视频流，通过目标检测模型提取学生图像，获取多视图数据集，具体包括：

根据所述课堂的多个视角的视频流，通过YOLOv7目标检测方法将图像中的学生位置通过边界框进行标记；

根据所述边界框裁剪出只包含学生对象的图片，以获取所述多视图数据集。

3.根据权利要求1所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在实例特征上使用对比学习最大化属于同一实例的多视图数据之间的一致性，以使同一学生的多视图数据在实例特征空间上的距离尽量接近；

多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在语义特征上构建多视图语义矩阵并结合多视图语义对比蒸馏，从而最大化多视图语义一致性，以最小化属于同一类别的多视图数据在语义特征空间上的距离。

4.根据权利要求3所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在实例特征上使用对比学习最大化属于同一实例的多视图数据之间的一致性，以使同一学生的多视图数据在实例特征空间上的距离尽量接近，具体包括：

以余弦距离衡量两个特征之间的相似度，以代表第/>个视图和第/>个视图的相似度矩阵；其中，/> 式中，/>表示第/>个视图中第/>个学生的实例特征和第个视图中第/>个学生的实例特征之间的相似度、/>为两个特征之间的余弦距离、/>为第/>个视图中第/>个学生的实例特征、/>为第/>个视图中第/>个学生的实例特征、/>为视图中学生的个数、/>为视图的集合、/>表示转置;

限制相似度矩阵对角线上的所有元素为1，而不对/>的其他元素施加约束，从而构建实例编码器的实例对齐损失函数/>；其中，式中，/>表示提取矩阵的主对角元素、为第/>个视图和第/>个视图的相似度矩阵、/>为视图的集合、/>为一个含有/>个元素为1的列向量。

5.根据权利要求3所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，多视图实例-语义共识挖掘的异常行为识别方法的模型训练时，在语义特征上构建多视图语义矩阵并结合多视图语义对比蒸馏，从而最大化多视图语义一致性，以最小化属于同一类别的多视图数据在语义特征空间上的距离，具体包括：

所述语义编码器在训练时，将语义特征进行转置，得到多视图语义矩阵；

根据所述多视图语义矩阵，分别计算各个语义特征的中心；

根据所述语义特征的中心，以标准的Kullback-Leibler散度衡量两个语义分布的差异程度，从而构建语义对比蒸馏损失函数；其中，/>式中，/>为语义特征集合、/>为视图的集合、/>为第/>个视图的第/>个语义特征的语义对比蒸馏损失。

6.根据权利要求3所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，多视图实例-语义共识挖掘的异常行为识别方法的模型通过对抗学习进行训练；对抗学习时需要通过解码器根据映射到实例特征空间和语义特征空间中的映射向量解码重建出重建向量；再根据所述重建向量以及重建损失对编码器进行对抗学习，学习时以最小化重建损失为目标，以保留图像信息；

重建学生图像的重建损失为：

7.根据权利要求1至6任意一项所述的一种多视图实例-语义共识挖掘的异常行为识别方法，其特征在于，多视图实例-语义共识挖掘的异常行为识别方法的模型在训练时整体的损失函数为：

式中，、/>和/>均为平衡参数、/>为真实标签集合/>和预测标签集合/>之间的损失函数、/>为交叉熵损失函数、/>为实例编码器的实例对齐损失函数、/>为语义编码器的语义对比蒸馏损失函数、/>为重建学生图像的重建损失函数。

8.一种多视图实例-语义共识挖掘的异常行为识别设备，其特征在于，包括处理器、存储器，以及存储在所述存储器内的计算机程序；所述计算机程序能够被所述处理器执行，以实现如权利要求1至7任意一项所述的一种多视图实例-语义共识挖掘的异常行为识别方法。