CN116883916A

CN116883916A - 一种基于深度学习的会议异常行为检测方法及系统

Info

Publication number: CN116883916A
Application number: CN202311155039.6A
Authority: CN
Inventors: 刘小兵
Original assignee: Shenzhen Guoshuohong Electronics Co ltd
Current assignee: Shenzhen Guoshuohong Electronics Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-10-13

Abstract

本发明公开了一种基于深度学习的会议异常行为检测方法及系统，属于视频处理技术领域，方法包括：通过关键帧提取技术从中训练视频中提取出关键帧图像；对关键帧图像进行标签制作和数据增强处理，获得训练图像；搭建深度神经网络YOLOv3并对其进行训练和测试，获得会议异常行为检测模型；在获取实时会议视频后，通过模型对实时会议视频中的各帧视频图像进行检测，获得会议异常行为检测结果；当结果为交互类行为时，提取相关联的人物目标及物品目标在网络的隐藏层中对应位置的特征，合并为综合特征后再输入至网络的输出层进行再检测，以再检测的结果修正会议异常行为检测结果。本发明不但具有较高的处理速度，而且还能够输出更加准确的异常行为分类结果。

Description

一种基于深度学习的会议异常行为检测方法及系统

技术领域

本发明涉及会议视频处理技术领域，特别涉及一种基于深度学习的会议异常行为检测方法及系统。

背景技术

在一些正式会议中，参会人员的行为是需要进行监督的，以此来保证参会人员充分知晓会议内容。对于线下会议，目前主要是依靠现场工作人员来执行会议纪律。

随着网络及信息技术的发展，已有越来越多的会议通过线上视频的方式进行，并且由于数字信息的可复制性，线上视频会议的规模也越来越大，这就导致需要较多数量的工作人员在各个分会场执行会议纪律。

随着计算机视觉技术的快速发展，基于视频的多目标检测逐渐成为当今目标检测研究的一项重要领域。针对异常行为的目标检测方案，目前目标检测方法有帧间差分法、背景减除法和光流法等，但是现有的目标检测方法效率比较低。

基于深度学习的目标检测主要分为两类算法：（1）基于分类的卷积神经网络目标检测（包括R-CNN、SPPNet、Fast R-CNN、Faster R-CNN），该类方法准确度较高；（2）基于回归的卷积神经网络目标检测（YOLO、SDD），通过一次CNN直接预测不同目标的类别与位置，这类算法准确性要低一些，但其以更快的速度被越来越多的网络模型所应用。

发明内容

针对现有技术存在的会议异常行为检测无法兼顾效率和准确率的问题，本发明的目的在于提供一种基于深度学习的会议异常行为检测方法及系统，以便于至少部分地解决上述问题。

为实现上述目的，本发明的技术方案为：

第一方面，本发明提供一种基于深度学习的会议异常行为检测方法，所述方法包括以下步骤：

获取训练视频，通过关键帧提取技术从中所述训练视频中提取出关键帧图像；

对所述关键帧图像进行标签制作和数据增强处理，获得训练图像，并构建数据集；

将所述数据集按照比例分割为训练集和测试集；

搭建深度神经网络YOLOv3，并通过所述数据集对其进行训练和测试，获得会议异常行为检测模型；

检测时，在获取实时会议视频后，通过所述会议异常行为检测模型对所述实时会议视频中的各帧视频图像进行检测，获得会议异常行为检测结果，所述会议异常行为检测结果包括交互类行为和非交互类行为，所述非交互类行为包括正常、睡觉和交谈，所述交互类行为包括玩手机和饮食；

其中，当所述会议异常行为检测结果为交互类行为时，所述方法还包括以下步骤：

提取与所述交互类行为相关联的人物目标及物品目标在网络的隐藏层中对应位置的特征，然后合并为综合特征；

将所述综合特征输入至网络的输出层进行再检测，以再检测的结果修正所述会议异常行为检测结果。

在一优选实施例中，确定与所述交互类行为相关联的人物目标及物品目标的步骤包括：

以所述物品目标为中心，在预设的范围内提取全部的人物目标，记为疑似交互人物；

分别计算所述物品目标的边界框与各所述疑似交互人物目标的边界框之间的IoU值；

判断是否存在IoU值超过第一阈值的疑似交互人物，是则将其确定为与所述物品目标相关联的人物目标。

在一优选实施例中，当存在两个或以上的疑似交互人物与所述物品目标的IoU值超过所述第一阈值时，则将最大IoU值对应的所述疑似交互人物确定为与所述物品目标相关联的人物目标。

在一优选实施例中，所述对所述关键帧图像进行数据增强处理的步骤包括：

对所述关键帧图像进行基于几何变换的数据增强，或者，对所述关键帧图像进行基于颜色变换的数据增强。

在一优选实施例中，通过随机擦除数据增强方法对所述关键帧图像进行数据增强处理。

在一优选实施例中，通过基于标签的随机擦除数据增强方法对所述关键帧图像进行数据增强处理。

在一优选实施例中，在所述会议异常行文检测模型的训练过程中，通过IoU进行目标的边界框回归，并引入惩罚项以降低漏检率，其中，边界框位置坐标的损失为，其中，b、b ^gt分别表示预选框及真实框的中心点，ρ表示两个中心点之间的欧式距离，c表示能够同时包含预测框及真实框的最小包闭区域的对角线距离。

第二方面，本发明还提供一种基于深度学习的会议异常行为检测系统，包括：

关键帧提取模块，用于通过关键帧提取技术从中训练视频中提取出关键帧图像；

数据增强模块，用于对所述关键帧图像进行数据增强处理，获得训练图像；

训练模块，用于对搭建好的深度神经网络YOLOv3进行训练和测试，获得会议异常行为检测模型；

检测模块，用于在获取实时会议视频后，通过所述会议异常行为检测模型所述实时会议视频中的各帧视频图像进行检测，获得会议异常行为检测结果，所述会议异常行为检测结果包括交互类行为和非交互类行为，所述非交互类行为包括正常、睡觉和交谈，所述交互类行为包括玩手机和饮食；

再识别模块，用于当所述会议异常行为检测结果为交互类行为时，提取与所述交互类行为相关联的人物目标及物品目标在网络的隐藏层中对应位置的特征，然后合并为综合特征；再将所述综合特征输入至网络的输出层进行再检测，以再检测的结果修正所述会议异常行为检测结果。

第三方面，本发明还提供一种电子设备，包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；其中，所述处理器调用所述存储器中存储的可执行程序代码，执行如上所述的方法。

第四方面，本发明还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器运行时执行如上所述的方法。

采用上述技术方案，本发明的有益效果在于：本发明方案将会议异常行为划分为交互类行为非交互类行为两个大类；针对非交互类行为，通过训练好的深度神经网络模型即可一次给出较准确的会议异常行为检测结果；针对交互类行为，则通过将与该交互类行为相关联的人物目标及物品目标的特征进行融合，然后再检测的方式进行强化识别，从而避免其他因素的干扰，输出更加准确的异常行为分类结果。

附图说明

图1为本发明实施例一中基于深度学习的会议异常行为检测方法的流程示意图；

图2为本发明实施例二中基于深度学习的会议异常行为检测系统的结构示意图；

图3为本发明实施例三中电子设备的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一：本发明实施例提供一种基于深度学习的会议异常行为检测方法，其具体实施的场景包括会议室、相机或摄像头以及服务器。其中，相机或摄像头与服务器通过网络相连接，本实施例提供的方法则具体部署在服务器上执行。会议室中至少具有供参会人员使用的座椅，该方法执行时，会议室中具有多个处于坐姿的参会人员（即人物目标），以及参会人员携带的物品（即物品目标，包括手机、饮品及食品等）。会议室中所有的参会人员均处于相机或摄像头的拍摄视野内，相机或摄像头具体可部署在包括但不限于墙壁、天花板或独立支架上。服务器可以是但不限于一种能够按照实现设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件 (PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)以及嵌入式设备等。服务器还可以是台式计算机、网络主机、单个网络服务器、多个网络服务器集群或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的虚拟超级计算机。网络可以包括但不限于互联网、广域网、城域网、VPN网络、无线自组织网络(Ad Hoc网络)等。

下面结合上述实施场景，对本发明实施例提供的基于深度学习的会议异常行为检测方法进行具体阐述。

如图1所示，其为基于深度学习的会议异常行为检测方法的流程示意图，可以看出，该方法具体包括模型训练阶段和模型检测阶段。

在模型训练阶段，包括步骤S1-步骤S4共4个步骤，具体有：

步骤S1.获取训练视频，通过关键帧提取技术从中训练视频中提取出关键帧图像。

训练视频通过公开渠道采集获得，可以理解的是，会议过程中，参会人员是处于相对镜头的场景中，即参会人员的姿态随时间的变化不明显，因此并不是训练视频中的每一帧视频图像都可以作为训练用图像，使用大量的相似度较高的图像进行模型训练，容易使模型过拟合，因此需要从训练视频中提取出相互之间具有一定差异的图像，即关键帧图像。

本实施例中，具体是基于ORB算法从训练视频中提取关键帧图像。基于ORB算法从训练视频中提取关键帧的步骤包括：从训练视频中任意选取一帧视频图像作为初始关键帧图像，然后判断与其相邻的相邻帧视频图像与初始关键帧图像之间的相似度是否低于相似度阈值，是则确定为关键帧图像，并将新确定的关键帧图像作为后续帧视频图像判断的基础，直至完成对训练视频中每一帧视频图像的处理。

本实施例中，以实施视频的第一帧视频图像作为初始关键帧图像，并依此为基础，依次判断后续帧视频图像是否为关键帧图像，此时，初始关键帧图像的相邻帧视频图像即为训练视频的第二帧视频图像。其中，判断相邻帧视频图像与初始关键帧图像之间的相似度是否低于相似度阈值的步骤包括：

步骤S11.通过FAST算法分别对初始关键帧图像及其相邻帧视频图像进行特征点检测。

以初始关键帧图像为例，首先将其格式转化为RGB图像，然后对于其中的任一像素点，计算与其周围像素点之间的匹配程度，再根据成功匹配的像素点个数判断选定的像素点是否为特征点。

例如对于选定的像素点P，其灰度值为P_X；做以像素点P为圆形、半径为3的圆，则图像中与该圆弧相交错的全部像素点均为“周围像素点”，记为（P₁、P₂、P₃、P₄、P₅、…、P₁₆）；然后统计像素点P与周围像素点之间的灰度差值，如果差值的绝对值超过了阈值T，则认为其与像素点P不同，如果有超过3/4的周围像素点都与像素点P不同，则认为像素点P为特征点，否则不是。依次类推，可以对初始关键帧图像中的每个像素点进行以上操作，从而获得初始关键帧图像中的全部特征点，相邻帧视频图像也是同理。

步骤S12.通过BRIEF算法分别对初始关键帧图像及其相邻帧视频图像中已确定的特征点进行处理，获得特征描述子。

依然以初始关键帧图像为例，BRIEF 算法(Binary Robust IndependentElementary Features)首先会在已确定的某个特征点周围随机选取N对（例如4对）像素点，例如x、y方向平均分布采样；然后构建描述符，即对于每一对像素点，如果x点的像素值大于y点的像素值，则为该对相对点赋值1，否则赋值0，如此，当为每个点对都进行了上述的二进制赋值操作后，即可获得N位二进制字符串，即为特征描述子。

步骤S13.计算初始关键帧图像的特征描述子与相邻帧视频图像的特征描述子之间的相似度，并判断是否低于相似度阈值，是则确定相邻帧视频图像为关键帧图像，否则舍弃并对下一帧视频图像进行判断。

在获得初始关键帧图像以及相邻帧视频图像的特征描述子后，即可对两串二进制字符进行异或运算，从而得到运算结果，逐个特征点运算后即可得到两个图像之间的相似度，将其与预设的相似度阈值进行比较，如果相似度高于预设的相似度阈值，则说明该相邻帧为关键帧图像，如果相似度低于预设的相似度阈值，则说明相邻帧视频图像不是关键帧图像，则继续计算下一帧时频图像与初始关键帧图像之间的相似度。对于寻找到的新的关键帧图像，则将其作为新的样本，使后续帧时频图像都与其进行相似度匹配。

步骤S2. 对关键帧图像进行标签制作和数据增强处理，获得训练图像，并构建数据集。

可以理解的是，经过步骤S1处理后得到的关键帧图像的数量可能并不多，故而为了避免模型训练时过拟合，需要对关键帧图像进行数据增强处理，以便于获得更多数量训练用图像。

通常，对关键帧图像进行数据增强处理的方式有两种：一是对关键帧图像进行基于几何变换的数据增强，包括翻转、旋转、裁剪、缩放比例、移位；二是对关键帧图像进行基于颜色变换的数据增强，包括噪声、模糊、擦除、填充。

本实施例中，通过随机擦除数据增强方法对关键帧图像进行数据增强处理。具体而言，是通过基于标签的随机擦除数据增强方法对关键帧图像进行数据增强处理。

随机擦擦数据增强具体指的是在图像中随机地擦除一个矩形块，丢弃矩形块原本的像素值，从而在图像中生成一个黑色矩形块，这种方法在识别被遮挡的目标时具有较好的效果。随机擦除数据增强具有一些设定的参数，包括擦除概率、随机擦除的矩形块的面积阈值、矩形块的长宽比阈值等。

然而，随机擦擦数据增强方式这并不能保证每次擦除的区域都能够覆盖到目标（人物目标或物品目标），未被有效擦除的数据不能起到模拟遮挡的作用，因此本实施例在随机擦除数据增强的基础上，提出了基于标签的随机擦除数据增强方法，即，使最终被擦除的矩形块与真实的标签检测框之间具有重叠部分，从而使得经数据增强处理的图像均能够模拟目标被遮挡的情况，从而提高网络泛化能力。

步骤S3.将数据集按照比例分割为训练集和测试集。

本实施例中，将数据集按照7：1的比例进行分割，获得训练集和测试集。

步骤S4.搭建深度神经网络YOLOv3，并通过数据集对其进行训练和测试，获得会议异常行为检测模型。

深度神经网络YOLOv3的训练及测试过程为公开的现有技术，本实施例不再对其进行赘述。现有技术中，深度神经网络YOLOv3的总的损失函数通常由三个部分组成：即位置坐标损失、目标置信度损失和目标分类损失。

然而现有技术中，在计算位置坐标损失时，只是简单地将边界框假设为四个独立变量，然后采用差值地平方和作为损失函数。这种从四个点来回归边界框的做法存在一定的缺陷，即无法准确描述预测框与真实框之间的IoU关系，为了更好的表示预测框与边界框之间的重叠关系，目前做法是通过IoU进行边界框回归。

IoU=M∩N/M∪N，IoU_Loss=1-IoU，其中，M表示预测框的坐标，N表示真实框的坐标，该损失函数IoU_Loss能够直接反应真实框与预测框之间的距离，但却无法反应重叠情况。在实际检测过程中，当两个不同的目标距离较近时，由于此时的IoU值较大，经过NMS处理后会只剩下一个检测框，这就导致漏检的错误情况发生。

基于此，本实施例中，在会议异常行文检测模型的训练过程中，通过IoU进行目标的边界框回归时引入惩罚项以降低漏检率，即，边界框位置坐标的损失则为：

，其中，b、b ^gt分别表示预选框及真实框的中心点，ρ表示两个中心点之间的欧式距离，c表示能够同时包含预测框及真实框的最小包闭区域的对角线距离。

如此设置，当预测的边界框与目标的真实框不重叠时，该损失函数仍然可以提供移动方向给边界框；除此之外还可以直接最小化两个框的距离，使得网络收敛更快。不仅如此，在水平和垂直的情况下，其回归速度很快。因此将深度神经网络YOLOv3的边界框回归损失函数换为DIoU_Loss，不仅参考了真实框和预测框之间的距离，而且考虑到重叠率以及长宽比，使得边界框的回归变得更加稳定，着重解决了网络训练发散的问题，使预测框定位更准确，增加了网络的收敛速度，从而提高了模型的定位精度。

步骤S5.检测时，在获取实时会议视频后，通过会议异常行为检测模型实时会议视频中的各帧视频图像进行检测，获得会议异常行为检测结果。

其中，会议异常行为检测结果包括交互类行为和非交互类行为，非交互类行为包括正常、睡觉和交谈，交互类行为包括玩手机和饮食。

可以理解的是，对于非交互类行为，人物目标对应的边界框与物品目标对应的边界框之间没有交互关系时，是比较容易地能够识别出人物行为类别的，即正常、睡觉或者交谈其中之一。

然而，当人物目标对应的边界框与物品目标对应的边界框之间发生交互时，即两者之间具有重叠关系时，则在识别人物行为类别时容易发生误判，譬如手机仅是放置在靠近参会人员的地方，但参会人员并未玩手机，因此需要对有交互情况的人物目标与物品目标进行更加精准的分类处理。

本实施例中，当会议异常行为检测结果为交互类行为时，则本发明实施例提供的方法还包括以下步骤：

提取与交互类行为相关联的人物目标及物品目标在网络的隐藏层中对应位置的特征，然后合并为综合特征；

将综合特征输入至网络的输出层进行再检测，以再检测的结果修正所述会议异常行为检测结果。

可以看出，当会议异常行为检测结果为交互类行为时，对其进行再检测修正的过程包括两个环节，一是确定与被初步判定为交互类行为相关联的人物目标及物品目标之间是否具有从属关系，这可以避免出现人物A玩不属于他/她的手机的错误分类情况，二是通过进行强化识别来提高异常行为分类的准确性，即单独将相互关联的人物目标及物品目标进行再次检测处理，如此可以避免其他因素干扰，输出更加准确的异常行为分类结果。

本实施例中，确定与交互类行为相关联的人物目标及物品目标的步骤包括：

以物品目标为中心，在预设的范围内提取全部的人物目标，记为疑似交互人物；

分别计算物品目标的边界框与各疑似交互人物目标的边界框之间的IoU值；

判断是否存在IoU值超过第一阈值的疑似交互人物，是则将其确定为与该物品目标相关联的人物目标，确定出与交互类行为相关联的人物目标及物品目标。

另外，当存在两个或以上的疑似交互人物与物品目标的IoU值超过所述第一阈值时，则将最大IoU值对应的疑似交互人物确定为与物品目标相关联的人物目标。

实施例二：如图2所示，本发明实施例提供一种基于深度学习的会议异常行为检测系统，包括关键帧提取模块、数据增强模块、训练模块、检测模块和再识别模块。

其中，关键帧提取模块用于通过关键帧提取技术从中训练视频中提取出关键帧图像。

数据增强模块用于对关键帧图像进行数据增强处理，从而获得训练图像。

训练模块用于使用训练图像对搭建好的深度神经网络YOLOv3进行训练和测试，从而获得会议异常行为检测模型。

检测模块用于在获取到实时会议视频后，通过会议异常行为检测模型对实时会议视频中的各帧视频图像进行检测，从而获得会议异常行为检测结果。

再识别模块用于当会议异常行为检测结果为交互类行为时，提取与交互类行为相关联的人物目标及物品目标在网络的隐藏层中对应位置的特征，然后合并为综合特征；再将综合特征输入至网络的输出层进行再检测，以再检测的结果修正（替代）上述的会议异常行为检测结果。

实施例三：一种电子设备，如图3所示，包括存储有可执行程序代码的存储器以及与该存储器耦合的处理器；其中，处理器调用存储器中存储的可执行程序代码，执行上述实施例公开的方法步骤。

实施例四：一种计算机存储介质，计算机存储介质中存储有计算机程序，计算机程序被处理器运行时执行上述实施例公开的方法步骤。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明，仅是为了便于描述本发明的简便，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

对于本技术方案中的“第一”和“第二”，仅为对相同或相似结构，或者起相似功能的对应结构的称谓区分，不是对这些结构重要性的排列，也没有排序、或比较大小、或其他含义。

另外，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个结构内部的连通。对于本领域的普通技术人员而言，可以根据本发明的总体思路，联系本方案上下文具体情况理解上述术语在本发明中的具体含义。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于深度学习的会议异常行为检测方法，其特征在于：所述方法包括以下步骤：

将所述数据集按照比例分割为训练集和测试集；

2.根据权利要求1所述的方法，其特征在于：确定与所述交互类行为相关联的人物目标及物品目标的步骤包括：

3.根据权利要求2所述的方法，其特征在于：当存在两个或以上的疑似交互人物与所述物品目标的IoU值超过所述第一阈值时，则将最大IoU值对应的所述疑似交互人物确定为与所述物品目标相关联的人物目标。

4.根据权利要求1所述的方法，其特征在于：所述对所述关键帧图像进行数据增强处理的步骤包括：

5.根据权利要求4所述的方法，其特征在于：通过随机擦除数据增强方法对所述关键帧图像进行数据增强处理。

6.根据权利要求5所述的方法，其特征在于：通过基于标签的随机擦除数据增强方法对所述关键帧图像进行数据增强处理。

7.根据权利要求1所述的方法，其特征在于：在所述会议异常行文检测模型的训练过程中，通过IoU进行目标的边界框回归，并引入惩罚项以降低漏检率，其中，边界框位置坐标的损失为：，其中，b、b ^gt分别表示预选框及真实框的中心点，ρ表示两个中心点之间的欧式距离，c表示能够同时包含预测框及真实框的最小包闭区域的对角线距离。

8.一种基于深度学习的会议异常行为检测系统，其特征在于：包括：

9.一种电子设备，其特征在于：包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器；其中，所述处理器调用所述存储器中存储的可执行程序代码，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器运行时执行如权利要求1-7任一项所述的方法。