CN113963315A

CN113963315A - 一种复杂场景下实时视频多人行为识别方法及系统

Info

Publication number: CN113963315A
Application number: CN202111357367.5A
Authority: CN
Inventors: 刘歆; 陈波; 钱鹰; 姜美兰; 赵义铭; 吴小倩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-01-21

Abstract

本发明涉及一种复杂场景下实时视频多人行为识别方法及系统，属于机器视觉技术领域。该方法包括：采集视频数据；建立场景人脸标签库，用于人脸识别模型训练；构建轻量化SlowFast模型用于复杂场景多人行为识别；建立不同人员类别异常行为动作标签库，建立训练行为动作标签库；将训练数据集经过预处理之后，输入到构建的轻量化SlowFast网络中进行训练；利用人脸识别模型和轻量化SlowFast网络模型进行实际场景行为动作检测、识别。本发明通过人脸识别，确定人员类别身份，建立人脸检测框与人员位置定位框的关联关系，对场景中目标人员的行为动作进行检测和识别，以实现在复杂场景中不同类别人员异常行为的监测和预警。

Description

一种复杂场景下实时视频多人行为识别方法及系统

技术领域

本发明属于机器视觉技术领域，涉及一种轻量化深度学习网络的复杂场景下实时视频多人行为识别方法及系统。

背景技术

目前，公共场所的监管通常都依赖于视频监控技术。由于传统的视频监控技术，只能起到监控和存储录像的功能，当出现公共场所出现纠纷，或者不当行为时，只能根据时间范围进行视频监控的调取和查阅。而引入复杂场景实时视频多人行为识别方法和装置，能实时监控复杂场景下人们的行为，并进行预警，以便公共场所管理人员对异常情况进行及时处理，从而保证公共场所的次序、安全，具有较为深远的现实意义和应用价值。同时，对依赖于时序和空间信息的视频等数据进行动作识别也是计算机视觉领域的研究重点之一，包括了对视频动作行为分类和人的定位和识别两大任务，现有的动作识别方法主要可分为三类：基于双流的方法、基于3D卷积神经网络的方法和基于姿态骨骼检测的方法。

基于双流的算法依赖于利用图像的光流信息来表征运动的轨迹。而光流采用像素级的运动向量表示，其计算开销大，导致基于光流的模型速度相对较慢，无法满足系统实时性要求，同时由于光流信息需要单独计算，无法实现端到端系统，因此模型在训练和检测过程相对复杂，用于实时系统的能力较差。

基于卷积的方法能够利用3D卷积操作同时获取时间和空间特征，并进行端到端的学习和预测。但是当网络较深时，3D卷积含有大量的参数，其占用资源开销巨大，不利于大范围部署到实际生产环境中。

基于姿态骨骼检测的方法首先姿态估计的方法获取人体关节点等先验知识，再做后续处理得到最终的预测结果。这样同样无法实现端到端的训练和检测，此外，动作识别模块的最终结果依赖于姿态估计的先验知识，容易导致添加额外的误差，影响最终的精度。

因此，亟需一种能提高复杂场景下实时视频多人行为识别的检测方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于轻量化3D卷积神经网络模型，用于复杂场景下实时视频多人行为识别的检测，解决3D卷积神经网络参数量大不易嵌入到实际生成环境中的问题，有效减少3D卷积网络的参数量和模型大小，提高行为检测识别的实时性。从而能在实际生成环境中运用，提高复杂场景下人们行为动作的智能监管水平，为公共场所的次序和安全提供有效保障。

为达到上述目的，本发明提供如下技术方案：

1、一种复杂场景下实时视频多人行为识别方法，基于Slowfast框架，对3D-ResNet50主干网络进行改进，采用轻量级的3D-ShuffleNetV2主干网络进行替换，称为ShuffleNetV2_SlowFast网络。从而解决基于3D卷积神经网络计算开销大，参数量多的问题，对视频中多人行为进行识别和定位。该方法具体包括以下步骤：

S1：利用采集设备捕获场景中人的视频帧；

S2：建立场景人脸标签库，对现有人脸识别模型进行训练；

S3：构建轻量化SlowFast网络，用于复杂场景多人行为识别；

S4：根据不同场景中不同人员类别身份，建立不同人员类别异常行为动作标签库和训练行为动作标签库；

S5：将步骤S4中建立的训练行为动作标签库进行预处理，然后输入到构建的轻量化SlowFast网络中进行训练；

S6：利用轻量化SlowFast网络训练好的检测模型对实际场景进行行为识别检测：利用人脸识别模型进行身份确认，确定其所属人员类别；采用训练好的轻量化SlowFast网络检测行为动作，并进行人员位置定位；建立人脸检测框与人员位置定位框的关联关系；根据人员类别行为要求，将轻量化SlowFast网络检测到的行为动作与该类人员行为动作标签库进行比对，进一步判断是否存在该类人员不应有的异常行为，并对其异常行为进行警报和处罚。

进一步，步骤S1中，包含设备安装和安装条件的设置：

S11：指定采集设备的安装位置，用于捕获场景中人的视频帧，以进行行为动作的检测识别和身份确认。

S12：指定设备的硬件条件，使其满足模型实时性和精确度的要求。

进一步，步骤S2中，包括如下步骤：

S21：构建复杂场景下不同类别人员人脸标签库，用于人脸识别模型训练。

S22：利用S21采集到的场景人脸标签库，对现有FaceNet人脸识别模型进行训练。

进一步，步骤S3中，构建轻量化SlowFast网络，具体包括：在构建轻量化SlowFast网络时依据3D-ShuffleNetV2网络结构，对SlowFast的Slow分支3D-ResNet50主干网络进行替换；替换过程中根据Slow分支低帧频的特点，对输入的视频帧按每16帧进行一次采样，并不对时序维度进行下采样计算，来构建新的Slow分支网络结构；对Fast分支高帧频，低通道能力的特点，对输入的视频帧按每2帧进行一次采样，并不对时序维度进行不采样，同时通道数按Slow分支的1/8倍，来构建Fast分支；最后，采用3D卷积操作对Fast分支特征进行尺度转换，再级联到Slow分支中，实现SlowFast的横向连接。

进一步，步骤S3中，构建轻量化SlowFast网络，具体包括以下步骤：

S31：构建SlowFast的Slow分支，依据3D-ShuffleNetV2网络结构，对SlowFast的Slow分支3D-ResNet50主干网络进行替换，替换过程中根据Slow分支低帧频的特性，对输入的视频帧按每16帧进行一次采样，并不对时序维度进行下采样计算，来构建新的Slow分支网络结构；

S32：构建SlowFast的Fast分支，依据3D-ShuffleNetV2网络结构，对SlowFast的Fast分支3D-ResNet50主干网络进行替换，替换过程中根据Fast分支高帧率、高时间分辨率和低通道能力的特性，对输入的视频帧按每2帧进行一次采样，并不对时序维度进行下采样，同时通道数是slow分支的1/8倍，来构建新的Fast分支网络结构；

S33：构建SlowFast的横向连接，在ShuffleNetV2第一阶段到ShuffleNetV2第二阶段和ShuffleNetV2第二阶段到ShuffleNetV2第三阶段过程中，建立从Fast分支流向Slow分支的横向连接；利用3D卷积对Fast分支特征进行尺度转换，将转换后的特征，级联拼接到Slow路径上；

S34：在ShuffleNetV2第三阶段之后，利用全局平均池化层和全连接层，构建模型分类器模块，进行分类和预测。

进一步，步骤S5中，训练轻量化SlowFast网络，具体包括：首先从S4建立的训练行为动作标签库的训练集中，循环输入一组视频数据并随机采样一个片段clip(64帧)；按比例缩放，每一帧随机裁剪出224*224尺度的视频帧，再对其进行水平翻转等预处理操作，然后将预处理后的视频帧片段分别输入到ShuffleNetV2_SlowFast网络的Slow分支和Fast分支网络；并对Slow分支网络和Fast分支网络进行级联聚合将Slow分支网络和Fast分支聚合后的特征，通过ShuffleNetV2_SlowFast Head模块，进行分类和计算损失值；执行指定训练轮回次数，完成轻量化ShuffleNetV2_SlowFast网络模型的训练。

进一步，步骤S6中，利用轻量化SlowFast网络训练好的检测模型对实际场景进行行为识别检测，具体包括以下步骤：

S61：在检测过程阶段，先使用步骤S2中训练好的FaceNet人脸识别模型进行人脸识别，确定人员类别身份；采用轻量化SlowFast网络检测行为动作，并进行人员位置定位；建立人脸检测框与人员位置定位框的关联关系；再根据不同场景下，不同类别人员的行为动作要求，建立所识别人员与其所属类别行为动作要求之间的映射关系；将ShuffleNetV2_SlowFast网络检测到的行为动作与该类人员行为动作标签库特征向量进行度量计算；若余弦距离小于阈值K，则所识别人员存在该类人员不应有的异常行为，并记录到服务器日志中，对其异常行为发出警报，便于监测和处罚；

S62：度量计算；

根据该类别人员要求行为动作的特征，与基于ShuffleNetV2_SlowFast模型提取得到的动作特征，利用余弦距离公式进行度量计算，余弦距离公式(1)如下：

其中，A和B分别表示需要比较相似性的特征向量。

2、一种复杂场景下实时视频多人行为识别系统，包括：

信息采集模块：利用音视频解码器将采集到的视频信息转化成数字信号传输到处理器；

处理器：用于处理信息采集模块传入的信号，并将处理完的信息通过局域网传递到服务器；

存储模块：用于保存处理器处理的数字信息；

服务器：处理处理器传入的信息，并用于运行FaceNet人脸识别模型和轻量化ShufffleNetV2_SlowFast动作识别模型，并给出场景下不同人员的行为动作的分析判断结果和警报。

该系统具体处理流程：首先信息采集模块会通过摄像头等硬件采集音视频文件，然后会对音视频文件利用音视频解码器将采集到的视频信息转化成数字信号传输到处理器。处理器处理完传入数字信号后会存放到存储模块中，并将处理后指令信号通过局域网连接方式传输到服务器端。服务器根据传入的指令信息，执行相应的FaceNet人脸识别模型和轻量化ShufffleNetV2_SlowFast动作识别模型进行检测、识别和警报。

本发明的有益效果在于：

(1)本发明的轻量化SlowFast网络，即ShuffleNetV2_SlowFast网络用于复杂场景不同人员行为识别检测，相较于基于3D-ResNet50原始SlowFast动作识别网络而言，能够实现复杂场景不同类别人员动作识别的检测和识别，且在参数量和计算量上具有明显的降低。

(2)本发明采用轻量级3D-ShuffleNetV2网络结构，并融合SlowFast网络思想，得到ShuffleNetV2_SlowFast网络模型，其主要利用了ShuffleNetV2模块可分离卷积来代替标准卷积，并且在模块输入阶段，对通道维度进行分离计算，并在最后级联合并时对通道维度洗牌合并。没有进行重复叠加操作，从而减少了主干网络的参数量。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明在复杂场景下基于ShuffleNetV2_SlowFast网络对各类人员进行行为识别检测方法的流程图；

图2为本发明实时例中ShuffleNet_V2的ShuffleNet Block模块(左)和带空间通道下采样的ShuffleNet Block模块(右)。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，鉴于背景技术，为了能够提升复杂场景下不同类别人员动作行为识别的精度，并减少参数量和模型大小，如图1所示，本发明提供一种基于轻量化SlowFast网络能在复杂场景下对不同类别人员动作行为进行智能识别的方法，包括如下步骤：

S1：利用采集设备捕获场景中人的视频帧；其中，采集设备的安装位置和安装条件的设置，具体包括：

S11：指定采集设备的安装位置。摄像头正向对准场景入口，主要用于捕获人员正脸信息和行为动作，通过人脸信息进行人员身份识别，并判断其所属人员类别以及类别id身份信息。同时，对检测到人员的行为动作进行跟踪和识别。

S12：关于设备硬件的条件，本发明要求现场布置的摄像头，具有不低于30fps的刷新率，以保证动作识别模型slowfast对高帧率的实时性的要求；同时要求摄像头的分辨率不低于1080P，能够达到人脸检测识别的要求。

S2：建立场景人脸标签库，用于人脸识别模型训练；具体包括：

S3：构建轻量化SlowFast模型用于复杂场景多人行为识别；

表1 ShuffleNetV2_SlowFast整体网络的结构组成

Block:ShuffleNetV2 Block

Block_S:ShuffleNetV2 Block with Sample

如表1所示，构建轻量化SlowFast模型主干网络主要有以下步骤：

S31：构建SlowFast的Slow分支；

以原始视频帧统一处理成224*224像素并每次输入64帧为例，根据Slow Path低帧频，在数据输入层，按步长stride＝(16,1,1)进行采样，得到输出特征图(T*S*S，T表示时序维度，S表示空间维度)4*224*244的特征图；

利用3D卷积核尺度为kernel_size＝3*3*3，步长stride＝(1,2,2)，通道数channel_{slow_pat}＝24的3D卷积Conv1，对上一步特征进行计算，得到输出为4*112*112的特征图；利用卷积核尺度为kernel_size＝3*3*3，步长stride＝(1,2,2)的max_pooling(最大池化层)对上一步特征进行计算，得到4*56*56的特征图；

进入ShuffleNetV2第一阶段。在ShuffleNetV2第一阶段，先进入带下采样的ShuffleNetV2Block，根据Slow分支低帧频、高时序维度特性，只对空间维度进行下采样，不对时序维度上进行下采样；步长stride＝(1,2,2)，通道数channel_{slow_path}＝32，计算输出4*28*28的特征图；然后进入3个连续的ShuffleNetV2 Block，步长stride＝(1,1,1)，通道数channel_{slow_path}＝32，计算输出特征图尺度不变为4*28*28的特征图；

进入ShuffleNetV2第二阶段。在ShuffleNetV2第二阶段，先进入带下采样的ShuffleNetV2Block，步长stride＝(1，2，2)，通道数channel_{slow_path}＝64，计算输出为4*14*14的特征图；然后进入7个连续的ShuffleNetV2 Block，步长stride＝(1,1,1)，channel_{slow_path}＝64，计算输出特征图尺度不变为4*14*14的特征图。

进入ShuffleNetV2第三阶段。在ShuffleNetV2第三阶段，先进入带下采样的ShuffleNetV2Block，步长stride＝(1,2,2)，通道数channel_{slow_path}＝128，计算输出为4*7*7的特征图；然后进入3个连续的ShuffleNetV2 Block，步长stride＝(1,1,1)，通道数channel_{slow_path}＝128，最终计算Slow分支，输出特征图尺度为4*7*7的特征张量。

S32：构建SlowFast的Fast分支；

同样以原始视频帧统一处理成224*224像素并每次输入64帧为例，根据Fast Path高帧频的特点，在数据输入层，按步长stride＝(2,1,1)进行采样，得到输出特征图(T*S*S,T表示时序维度，S表示空间维度)32*224*244的特征图；

基于Fast分支低通道的特点，利用3D卷积Conv1，对上一步特征进行计算：3D卷积核尺度为kernel_size＝3*3*3，步长stride＝(1,2,2)，通道数是Slow分支的1/8倍(因此，通道数channel_{fast_path}＝4)。计算得到输出为32*112*112的特征图。利用卷积核尺度为kernel_size＝3*3*3，步长stride＝(1,2,2)的max_pooling(最大池化层)对上一步特征进行计算，得到32*56*56的特征图；

进入ShuffleNetV2第一阶段。在ShuffleNetV2第一阶段，先进入带下采样的ShuffleNetV2Block。根据Fast分支的特性，只对空间维度进行下采样，不对时序维度上进行下采样；步长stride＝(1,2,2)，通道数channel_{fast_path}＝4，计算输出32*28*28的特征图；然后进入3个连续的ShuffleNetV2 Block，步长stride＝(1,1,1)，通道数channel_{fast_path}＝4，计算输出特征图尺度不变为32*28*28的特征图；

进入ShuffleNetV2第二阶段。在ShuffleNetV2第二阶段，先进入带下采样的ShuffleNetV2Block，步长stride＝(1,2,2)，channel_{fast_path}＝8，计算输出为32*14*14的特征图；然后进入7个连续的ShuffleNetV2 Block，步长stride＝(1,1,1)，channel_{fast_path}＝8，计算输出特征图尺度不变为32*14*14的特征图；

进入ShuffleNetV2第三阶段。在ShuffleNetV2第三阶段，先进入带下采样的ShuffleNetV2Block，步长stride＝(1,2,2)，channel_{fast_path}＝16，计算输出为4*7*7的特征图；然后进入3个连续的ShuffleNetV2 Block,步长stride＝(1,1,1)，channel_{fast_path}＝16，最终计算Fast分支，输出特征图尺度为32*7*7的特征张量。

S33：构建SlowFast的横向连接；

在ShuffleNetV2第一阶段到ShuffleNetV2第二阶段，建立从fast path分支流向slow path的横向连接；选择利用kernel size＝5*1*1，stride＝(8,1,1)，通道数channel＝16的3D卷积对fast path特征尺度进行转换得到{T,S²,C}，其中C表示通道维度，{4,28²,8}的特征，将得到的特征，按通道维度拼接到slow路径上。

在ShuffleNetV2第二阶段到ShuffleNetV2第三阶段，建立从fast path分支流向slow path的横向连接；同样的，选择利用kernel size＝5*1*1，stride＝(8,1,1)，通道数channel＝16的3D卷积对fast path特征尺度进行转换得到{T,S²,C}，{4,14²,16}的特征，将得到的特征，按通道维度拼接到slow路径上。

S34：在ShuffleNetV2第三阶段之后，将Fast分支和Slow分支输出特征张量按照通道维度进行级联拼接；然后输入到全局平均池化层和全连接分类器层，进行分类和预测；构建完成的网络依据主干网络命名为ShuffleNetV2_SlowFast。

S4：建立不同人员类别异常行为动作标签库，建立训练行为动作标签库。

关于建立不同类别人员异常行为动作视频库和训练行为动作标签库的步骤，按照谷歌AVA(aomic visual actions)数据集打标规则进行建立。具体如下：首先对原始采集的行为动作视频按15分钟进行分析，并统一将15分钟视频分割成300个非重叠的3秒片段。采样遵循保持动作序列的时间顺序这一策略。然后，对每个3秒片段的中间帧的人物利用LabelImg打标工具手动标注边界框，对标注框的每个人，从预制的动作类别表中选择适当的标签来描述人物动作。最后对所有视频片段全部标注，来建立不同类别人员异常行为动作视频库和训练行为动作标签库。

S5：将采集到的训练动作标签库经过预处理之后，输入到构建的轻量化SlowFast网络中进行训练；

在训练阶段，首先从S4建立的训练集中，循环输入一组视频数据并随机采样一个片段clip(64帧)。然后输入到Slow分支路径和Fast分支路径分别是4帧和16帧，对原始视频帧进行预处理(按比例缩放，随机裁剪出224*224大小的视频帧，对其进行水平翻转)。训练20轮，使用学习率热启动,初始学习率(learning rate)设置为0.000125，优化策略optimizing_method:sgd(随机梯度下降)。学习率热启动回合epochs＝5，衰减率weight_decay＝1e-7，前5个训练回合，进行学习率热启动，5个回合后学习率达到平稳，之后15回合模型进行相对平稳训练。

S6：利用轻量化SlowFast网络训练好的检测模型用于实际场景进行行为识别检测：利用人脸识别模型进行身份确认，确定其所属人员类别。采用轻量化SlowFast网络检测行为动作，并进行人员位置定位。建立人脸检测框与人员位置定位框的关联关系。根据人员类别行为要求，将轻量化SlowFast网络检测到的行为动作与该类人员行为动作标签库进行比对，进一步判断是否存在该类人员不应有的异常行为，并对其异常行为进行警报和处罚。具体包括以下步骤：

S61：在检测过程阶段，先使用S22步骤中训练好的人脸识别模型FaceNet进行人脸识别，确定人员类别身份。再根据不同场景下，不同类别人员的行为动作要求，建立所识别人员与其所属类别行为动作要求之间的映射关系。将ShuffleNetV2_SlowFast网络检测到的行为动作与该类人员行为动作标签库特征向量进行度量计算。若余弦距离小于阈值T，则所识别人员存在该类人员不应有的异常行为，并记录到服务器日志中，对其异常行为发出警报，便于监测和处罚。

S62：度量计算时，根据该类别人员要求行为动作的特征，与基于ShuffleNetV2_SlowFast模型提取得到的动作特征，利用余弦距离公式进行度量计算。

一种复杂场景下实时视频多人行为识别方法、装置，所述设备包括：

本发明中的装置包括信息采集模块、存储模块、处理器模块、服务器模块。通过将信息采集模块采集到的视频数据，输入到处理器模块去处理。

处理过程中会根据音视频压缩算法，将压缩处理后的视频帧存储到存储模块的中未处理数据区域，并根据其计算得到逻辑决策通过局域网连接的方式，向远程服务器发出指令。服务器端接收到处理器的指令后，会根据指令中的参数配置信息，向存储模块中未处理数据区域，读取视频数据，并启用FaceNet人脸识别模型和ShufffleNetV2_SlowFast动作识别模型实时处理输入的视频数据。然后将检测处理好的数据存储到存储模块中的已处理数据区域，之后处理器会从存储模块中的已处理数据区域读取数据。根据检测到的人员类别身份和识别到动作行为的特征与已存储该人员类别行为动作标签库进行余弦度量计算，根据计算得到余弦距离值与阈值K的大小关系，判断其是否存在异常行为。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种复杂场景下实时视频多人行为识别方法，其特征在于，该方法具体包括以下步骤：

S1：利用采集设备捕获场景中人的视频帧；

S2：建立场景人脸标签库，对现有人脸识别模型进行训练；

S3：构建轻量化SlowFast网络，用于复杂场景多人行为识别；

2.根据权利要求1所述的复杂场景下实时视频多人行为识别方法，其特征在于，步骤S3中，构建轻量化SlowFast网络，具体包括：在构建轻量化SlowFast网络时依据3D-ShuffleNetV2网络结构，对SlowFast的Slow分支3D-ResNet50主干网络进行替换；替换过程中根据Slow分支低帧频的特点，对输入的视频帧按每16帧进行一次采样，并不对时序维度进行下采样计算，来构建新的Slow分支网络结构；对Fast分支高帧频，低通道能力的特点，对输入的视频帧按每2帧进行一次采样，并不对时序维度进行采样，同时通道数按Slow分支的1/8倍，来构建Fast分支；最后，采用3D卷积操作对Fast分支特征进行尺度转换，再级联到Slow分支中，实现SlowFast的横向连接。

3.根据权利要求1所述的复杂场景下实时视频多人行为识别方法，其特征在于，步骤S3中，构建轻量化SlowFast网络，具体包括以下步骤：

S34：在ShuffleNetV2第三阶段之后，利用全局平均池化层和全连接层，构建模型分类器模块，进行分类和预测，并将构建好的轻量化Slowfast模型称为ShuffleNetV2_SlowFast网络。

4.根据权利要求1所述的复杂场景下实时视频多人行为识别方法，其特征在于，步骤S5中，训练轻量化SlowFast网络，具体包括：首先从S4建立的训练行为动作标签库的训练集中，循环输入一组视频数据并随机采样一个片段clip；按比例缩放，每一帧随机裁剪出相同尺度的视频帧，再对其进行预处理操作，然后将预处理后的视频帧片段分别输入到ShuffleNetV2_SlowFast网络Slow分支和Fast分支网络；并对Slow分支网络和Fast分支网络进行级联聚合将Slow分支网络和Fast分支聚合后的特征，通过ShuffleNetV2_SlowFastHead模块，进行分类和计算损失值；执行指定训练轮回次数，完成轻量化ShuffleNetV2_SlowFast网络模型的训练。

5.根据权利要求1所述的复杂场景下实时视频多人行为识别方法，其特征在于，步骤S6中，利用轻量化SlowFast网络训练好的检测模型对实际场景进行行为识别检测，具体包括以下步骤：

S61：在检测过程阶段，先使用步骤S2中训练好的人脸识别模型进行人脸识别，确定人员类别身份；采用轻量化SlowFast网络检测行为动作，并进行人员位置定位；建立人脸检测框与人员位置定位框的关联关系；再根据不同场景下，不同类别人员的行为动作要求，建立所识别人员与其所属类别行为动作要求之间的映射关系；将ShuffleNetV2_SlowFast网络检测到的行为动作与该类人员行为动作标签库特征向量进行度量计算；若余弦距离小于阈值K，则所识别人员存在该类人员不应有的异常行为，并记录到服务器日志中，对其异常行为发出警报，便于监测和处罚；

S62：度量计算；

根据该类别人员要求行为动作的特征，与基于ShuffleNetV2_SlowFast模型提取得到的动作特征，利用余弦距离公式进行度量计算。

6.适用于权利要求1～5中任意一项所述的复杂场景下实时视频多人行为识别方法的识别系统，其特征在于，该系统包括：

存储模块：用于保存处理器处理的数字信息；