CN116994338B

CN116994338B - 一种基于行为识别的站点无纸化稽查管理系统

Info

Publication number: CN116994338B
Application number: CN202311237080.8A
Authority: CN
Inventors: 钟毅; 仝庆; 汪虎
Original assignee: Sichuan Zhongjiao Xintong Network Technology Co ltd
Current assignee: Sichuan Zhongjiao Xintong Network Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-12
Anticipated expiration: 2043-09-25
Also published as: CN116994338A

Abstract

本发明涉及一种基于行为识别的站点无纸化稽查管理系统，涉及数据管理技术领域，该系统包括：数据采集模块，包括RGB图像采集子单元和红外图像采集子单元；特征提取模块，用于提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征；其中，M为正整数；特征融合模块，用于将所述M帧RGB图像的高维化特征以及所述M帧红外图像的高维化特征进行融合，得到目标张量；行为识别模块，用于基于所述目标张量输出预测动作；其中，所述预测动作为预设的动作集合中的至少一种；人员管理模块，用于基于所述预测动作、所述M帧RGB图像及所述M帧红外图像的获取时间进行人员行为管理。通过上述方式，能够提高人员行为识别的准确度。

Description

一种基于行为识别的站点无纸化稽查管理系统

技术领域

本发明涉及数据管理技术领域，尤其是一种基于行为识别的站点无纸化稽查管理系统。

背景技术

站点无纸化稽查管理系统是一种现代化的管理工具，旨在通过数字化技术的应用，实现对站点稽查工作的高效、无纸化管理。该系统通过集成多种功能模块，提供了全面的稽查管理解决方案。在这个系统中，采用了电子化的方式来代替传统的纸质文件和表格，以提高工作效率和数据准确性。通过电子化的稽查表单和报告，稽查人员可以方便地记录和上传各种信息，如现场巡查情况、安全隐患、违规行为等，而无需纸质文件的传递和整理。该系统还具备强大的数据管理和分析功能，能够对稽查数据进行整理、存储和分析。通过对数据的统计和可视化展示，管理者能够更直观地了解站点的稽查情况，发现问题和趋势，并作出相应的调整和决策。

无纸化稽查管理系统可以实现稽查人员在现场进行数据采集、记录和上传等工作，避免了纸质文件的来回传递和整理，节省了大量的时间和精力，提高了工作效率。通过无纸化稽查管理系统，稽查管理部门可以实时获取和分析现场稽查数据，快速做出决策和安排。同时，也为进一步的数据分析和挖掘提供了基础，帮助优化稽查管理流程和工作策略。除此之外，纸化稽查管理系统可以实现稽查管理部门内部的信息共享和协作，不同稽查人员可以共享现场稽查数据和案件信息，提高工作的协同效率和准确性。随着物联网技术的发展，越来越多的传感器集成在了站点无纸化稽查管理系统中，如指纹识别设备、监控摄像头等。其中，监控摄像头作为站点必备设备已经广泛接入到了站点无纸化稽查管理系统中。深度学习的兴起提高了智能系统的自主化水平，行为识别作为监测人动作状态的先进技术正不断被引入到站点无纸化稽查管理系统中。目前，多利用的是RGB（Red,Green,Blue）摄像头对工作人员的行为进行识别，但当在光照不充分的夜晚时(无日光有灯光)，RGB摄像头所捕获的图像便会存在光照弱区，当工作人员进入光照弱区时，其影像信息会丢失严重，从而导致行为无法识别。

发明内容

为解决上述现有技术问题，本发明提供一种基于行为识别的站点无纸化稽查管理系统，以解决上述技术问题。

第一方面，本发明实施例提供一种基于行为识别的站点无纸化稽查管理系统，包括：数据采集模块，包括RGB图像采集子单元和红外图像采集子单元；其中，所述RGB图像采集子单元用于获取站点的多帧RGB图像，所述红外图像采集子单元用于获取所述站点的多帧红外图像；特征提取模块，用于提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征；其中，M为正整数；特征融合模块，用于将所述M帧RGB图像的高维化特征以及所述M帧红外图像的高维化特征进行融合，得到目标张量；行为识别模块，用于基于所述目标张量输出预测动作；其中，所述预测动作为预设的动作集合中的至少一种；人员管理模块，用于基于所述预测动作、所述M帧RGB图像及所述M帧红外图像的获取时间进行人员行为管理。

可选地，在一些实施中，所述特征提取模块还具体用于提取所述M帧RGB图像的高维化特征、所述M帧RGB图像的像素语义集合以及所述M帧红外图像的高维化特征；所述特征融合模块还具体用于基于所述M帧RGB图像的像素语义集合对所述M帧红外图像的高维化特征进行处理，将处理后的M帧红外图像的高维化特征以及所述M帧RGB图像的高维化特征进行融合，得到所述目标张量。

可选地，在一些实施中，所述特征融合模块还具体用于以所述M帧RGB图像的像素语义集合为基础对除人物本体以及人物周边环境的像素在所述M帧红外图像的高维化特征中进行赋零操作，得到所述处理后的M帧红外图像的高维化特征；赋零操作的表达式包括：；其中，/>表示所述M帧红外图像的高维化特征；/> 表示所述M帧RGB图像的像素语义集合；/>表示所述处理后的M帧红外图像的高维化特征；表示赋零函数。

可选地，在一些实施中，所述特征提取模块，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出所述M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出所述M帧红外图像。

可选地，在一些实施中，所述特征提取模块，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出三十帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出三十帧红外图像。

可选地，在一些实施中，所述特征提取模块，还具体用于根据所述M帧RGB图像与所述M帧红外图像的最小时间戳，将所述M帧RGB图像与所述M帧红外图像一一进行匹配。

可选地，在一些实施中，所述特征提取模块，还具体用于从三秒内的多帧RGB图像中进行等间隔抽样，以筛选出所述M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中进行等间隔抽样，以筛选出所述M帧红外图像。

可选地，在一些实施中，所述行为识别模块为基于Transformers模型所构建；其中，所述Transformers模型在注意力模块的最后一个线性层添加有偏置。

可选地，在一些实施中，所述人员管理模块，还具体用于响应于所述预测动作存在违规行为，或响应于所述预测动作在所述获取时间内存在违规行为，将所述违规行为上报至管理平台。

可选地，在一些实施中，所述人员管理模块，还具体用于获取每个工作人员的员工信息，以及基于所述预测动作、所述M帧RGB图像及所述M帧红外图像的获取时间，确定在所述M帧RGB图像中识别出的工作人员是否存在违规行为。

本发明的有益效果体现在，本发明实施例提供的基于行为识别的站点无纸化稽查管理系统，在数据采集模块中集成有RGB图像采集子单元和红外图像采集子单元，并通过特征提取模块将提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征，然后，再将M帧RGB图像的高维化特征以及M帧红外图像的高维化特征进行融合，得到目标张量，最后，利用目标张量进行人员行为识别。通过上述方式，能够提高人员行为识别的准确度，即使在光照弱区（如夜晚或站点光照不充足的地点），也能够有效地获取到用于人员行为识别的影像信息。换言之，相较于现有技术，本发明实施例提供的基于行为识别的站点无纸化稽查管理系统识别精度高。

附图说明

图1为本发明所提供的一种基于行为识别的站点无纸化稽查管理系统的模块框图；

图2为本发明所提供的一种数据采集模块的模块框图；

图3为本发明所提供的一种基于行为识别的站点无纸化稽查管理方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1-图2，本发明实施例提供一种基于行为识别的站点无纸化稽查管理系统100，包括：数据采集模块10、特征提取模块20、特征融合模块30、行为识别模块40以及人员管理模块50。

其中，数据采集模块10，包括RGB图像采集子单元101和红外图像采集子单元102。

需要说明的是，RGB图像采集子单元101用于获取站点的多帧RGB图像，红外图像采集子单元102用于获取站点的多帧红外图像。

在本发明实施例中，站点可以是高速公路收费站点。

当然，其他实施例中，站点还可以设置在工厂，小区，景区等等，本申请不作限定。

在这里，为了尺寸统一方便在下游进行像素遍历，RGB图像采集子单元101以及红外图像采集子单元102所采集的图像的分辨率可以均为1920*1080。当然，分辨率大小也可以是其他的任意数值，本申请也不作限定。

特征提取模块20，用于提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征。其中，M为正整数。

比如，M的数值可以是但不限于30、40、50等等。由于人行为动作存在时间连续性，因此，行为动作的语义认定需要结合时间信息。所以此处特征提取模块20是提取的M帧RGB图像的高维化特征以及M帧红外图像的高维化特征。

也即，本发明实施例中，特征提取模块20可以具体包括RGB图像特征提取子单元和红外图像特征提取子单元。

RGB图像特征提取子单元和红外图像特征提取子单元的特征提取模型在骨干网络为一致的，均为由卷积核为（）、（/>）、（/>）、（/>）的四组3D卷积构成，其中，/>；其中，/>表示卷积核长和宽的值；/>表示卷积核的深度；表示输入数据的高；/>表示输入数据的宽；/>表示batch_size（批量大小）。

特征融合模块30，用于将M帧RGB图像的高维化特征以及M帧红外图像的高维化特征进行融合，得到目标张量。

行为识别模块40，用于基于目标张量输出预测动作；其中，预测动作为预设的动作集合中的至少一种。

示例性的，预设的动作集合可以包括吸烟、收费、开关门、玩手机、交谈、打电话等等。预设的动作集合的动作可以预先通过行为识别进行统计得到。

人员管理模块50，用于基于预测动作、M帧RGB图像及M帧红外图像的获取时间进行人员行为管理。

在这里，人员管理模块50可以用于直接基于预测动作进行人员行为管理，或者，将预测动作与M帧RGB图像及M帧红外图像的获取时间进行结合分析，以进行人员行为管理。

示例性的，由于站点明确禁止吸烟，因此，当预测动作是人员进行吸烟时，可以确定该行为违规行为，直接上报给管理中心，以提示管理中心的人员，站点中存在人员进行吸烟的行为，请尽快制止并作出处罚。

示例性，假设工作期间，员工禁止接打电话，当预测动作为接电话时，且预测动作对应的图像的获取时间为该人员的上班时间，则确定该行为为违规行为，直接上报给管理中心。

综上，本发明实施例提供的基于行为识别的站点无纸化稽查管理系统，在数据采集模块中集成有RGB图像采集子单元和红外图像采集子单元，并通过特征提取模块将提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征，然后，再将M帧RGB图像的高维化特征以及M帧红外图像的高维化特征进行融合，得到目标张量，最后，利用目标张量进行人员行为识别。通过上述方式，能够提高人员行为识别的准确度，即使在光照弱区（如夜晚或站点光照不充足的地点），也能够有效地获取到用于人员行为识别的影像信息。换言之，相较于现有技术，本发明实施例提供的基于行为识别的站点无纸化稽查管理系统识别精度高。

可选地，在一实施例中，特征提取模块20还具体用于提取M帧RGB图像的高维化特征、M帧RGB图像的像素语义集合以及M帧红外图像的高维化特征。

相应的，特征融合模块30还具体用于基于M帧RGB图像的像素语义集合对M帧红外图像的高维化特征进行处理，将处理后的M帧红外图像的高维化特征以及M帧RGB图像的高维化特征进行融合，得到目标张量。

需要说明的是，红外图像并不能够提供像素级的语义信息，其主要为灰度图，而RGB图像是可以提供的，即使在光照不足的情况下RGB图像也是能够提供一定的像素语义信息，因此，可以在RGB图像特征提取子单元骨干网络后拼接一层全连接层和一个softmax，对像素进行分类，得到上述像素语义集合。即，最终，特征提取模块20可以通过RGB图像特征提取子单元，提取M帧RGB图像的高维化特征、M帧RGB图像的像素语义集合，以及通过红外图像特征提取子单元提取M帧红外图像的高维化特征。

可选地，在上述实施例中，特征融合模块30还具体用于以M帧RGB图像的像素语义集合为基础对除人物本体以及人物周边环境的像素在M帧红外图像的高维化特征中进行赋零操作，得到处理后的M帧红外图像的高维化特征。

赋零操作的表达式包括：；

其中，表示M帧红外图像的高维化特征；/>表示M帧RGB图像的像素语义集合；/> 表示处理后的M帧红外图像的高维化特征。换言之，上述公式表示，以/>为依据对除人物本体以及人物周边环境的像素在/>中进行赋0操作，在赋0操作完成后，将（M帧RGB图像的高维化特征）和/>直接相加等到目标张量,并送入后续的行为识别模块40；/>表示赋零函数。

需要说明的是，考虑到红外图像容易受到来往车辆大灯干扰，本发明利用RGB图像提取语义集合，通过语义集合对红外图像增强人物周边环境及人物本体的特征表现且抑制来往车辆大灯在红外图像上产生的光斑，从而提高了检测的泛化性及准确率。

可选地，在一实施例中，特征提取模块20，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出M帧红外图像。

由于现有摄像机的图像采集速率普遍支持30Hz刷新，考虑到人的动作一般在3秒钟内可以进行语义判断，如吸烟时点烟的过程一般在3秒钟内完成，即使没有在3秒钟内完成也会出现点烟时刻，这足以判断该动作的语义。因此，上述实施例中，可以以三秒为一个间隔，筛选出M帧RGB图像以及M帧红外图像。换言之，在本申请实施例中，通过设置三秒作为一个时间间隔进行筛选，一来可以通过三秒交割的图像帧预测出人员动作，同时也不会造成筛选出过多帧，进而影响识别效率。

可选地，在一实施例中，特征提取模块20，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出三十帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出三十帧红外图像。

需要说明的是，取3秒的图像为一个动作判断组，3秒内若不发生掉帧则每个模态约有90张图像（参考上述30Hz刷新率），若将所有图像作为一个batch（批处理）进行输入可能会因为站点计算平台性能较差而出现推理延迟，虽然对于稽查而言，实时性并不是绝对要求的，但减少推理延迟能对一些危险行为进行及时监控。为此，在本发明实施例中，可以从三秒内的90帧RGB图像中筛选出30帧RGB图像，以及以三秒为一个间隔，从三秒内的90帧红外图像中筛选出三十帧红外图像。通过该方式，能够在降低计算延迟的基础上，也保证有效及时地进行预测。

可选地，在一实施例中，特征提取模块20，还具体用于根据M帧RGB图像与M帧红外图像的最小时间戳，将M帧RGB图像与M帧红外图像一一进行匹配。

需要说明的是，虽然站点所有设备均已经进行了时间同步，但由于摄像机传感器可能会受到发热影响产生掉帧现象，因此RGB图像与红外图像并不是一一匹配的。为此，本发明采用最小差作为匹配机制，取RGB图像与红外图像时间戳相差最小的为一对匹配。

可选地，在一实施例中，特征提取模块20，还具体用于从三秒内的多帧RGB图像中进行等间隔抽样，以筛选出M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中进行等间隔抽样，以筛选出M帧红外图像。

示例性的，可以从三秒内的90帧RGB图像中间隔抽样出30帧RGB图像，以及以三秒为一个间隔，从三秒内的90帧红外图像中间隔抽样出30帧红外图像。通过该方式，以保证筛选出的图像的连续性。

最终，上述RGB特征提取子单元的主输入的尺寸可以为的张量，其中，/> 代表输入图像的高，/> 代表图像的宽，C代表图像的通道数，RGB图像的通道数为3，B代表batch_size（批量大小）。上述红外图像特征提取子单元的主输入的尺寸可以为的张量。

可选地，在一实施例中，行为识别模块40为基于Transformers（一种深度学习模型）模型所构建。

其中，Transformers模型在注意力模块的最后一个线性层添加有偏置。

行为识别模块40基于Transformers构建，为了提高泛化能力，本发明实施例在Transformers中添加了额外的偏置。具体为在注意力模块的最后一个线性层添加：

;

其中，Transformers中的Query（查询，表示Transformers中的一种参数）、Key（键，表示Transformers中的一种参数）、Value（值，表示Transformers中的一种参数），均来自目标张量V的Embedding（嵌入量）；表示Transformers中的Query；/>表示Transformers中的Key；/>表示/>的转置；/>表示Transformers中的Value；/>表示线性层；/>表示一种逻辑函数；/>表示输出；具体为识别结果。

行为识别模块40最后的输出为预设的动作集合中的动作，包括吸烟、收费、开关门、玩手机、交谈等。

可选地，在一实施例中，人员管理模块50，还具体用于响应于预测动作存在违规行为，或响应于预测动作在获取时间内存在违规行为，将违规行为上报至管理平台。

也即，系统在确定预测动作存在违规行为，或响应于预测动作在获取时间内存在违规行为之后，直接将违规行为上报至管理平台，以便于后续工作人员及时进行违规处理。

可选地，在一实施例中，人员管理模块50，还具体用于获取每个工作人员的员工信息，以及基于预测动作、M帧RGB图像及M帧红外图像的获取时间，确定在M帧RGB图像中识别出的工作人员是否存在违规行为。

示例性，假设工作期间，员工禁止接打电话，当预测动作为接电话时，则首先获取该预测动作的行为人，假设该行为人为员工A，则获取员工A的员工信息，当确定现在是员工A的上班时间后，则确定员工A的当前行为为违规行为，直接上报给管理中心。

需要说明的是，人员管理模块50可以预先录入各个工作人员的信息，包括上班时间、在岗时间段、离岗时间段、工作职责等。当人员管理模块50通过行为识别模块40所得到的预测动作与人员管理模块50中存储人员的信息发生冲突时，即认为是存在违规行为，如在岗时间段内检测到工作人员发生离岗、吸烟、打电话动作，则认为是违规行为，将该站点及属于该站点在岗时间段内的工作人员信息上报给管理中心。

请参考图3，本发明实施例还提供一种基于行为识别的站点无纸化稽查管理，该方法可以应用于电子设备。该方法可以具体包括步骤301-步骤305。

步骤301、获取站点的多帧RGB图像以及站点的多帧红外图像。

步骤302、提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征。

步骤303、将M帧RGB图像的高维化特征以及M帧红外图像的高维化特征进行融合，得到目标张量。

步骤304、基于目标张量输出预测动作。

步骤305、基于预测动作、M帧RGB图像及M帧红外图像的获取时间进行人员行为管理。

需要说明的是，上述电子设备可以是但不限于服务器、个人计算机、笔记本电脑等设备。

上述电子设备可以具体包括处理装置（例如中央处理器、图形处理器等），其可以根据存储在只读存储器（ROM）中的程序或者从存储装置加载到随机访问存储器（RAM）中的程序而执行各种适当的动作和处理。在RAM 中，还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM 通过总线彼此相连。输入/输出（I/O）接口也连接至总线。

需要说明的是，上述方法实施例中的具体过程可以参考前述系统实施例中的说明，相同部分互相参考即可，此处不作赘述。比如，该方法还包括具体包括：提取M帧RGB图像的高维化特征、M帧RGB图像的像素语义集合以及M帧红外图像的高维化特征；基于M帧RGB图像的像素语义集合对M帧红外图像的高维化特征进行处理，将处理后的M帧红外图像的高维化特征以及所述M帧RGB图像的高维化特征进行融合，得到目标张量。

此外，在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其他的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

在本发明的实施例的描述中，术语“第一”、“第二”、“第三”、“第四”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“组装”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的实施例的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的实施例的描述中，需要理解的是，“-”和“~”表示的是两个数值之同的范围，并且该范围包括端点。例如：“A-B”表示大于或等于A，且小于或等于B的范围。“A~B”表示大于或等于A，且小于或等于B的范围。

在本发明的实施例的描述中，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于行为识别的站点无纸化稽查管理系统，其特征在于，包括：

数据采集模块，包括RGB图像采集子单元和红外图像采集子单元；其中，所述RGB图像采集子单元用于获取站点的多帧RGB图像，所述红外图像采集子单元用于获取所述站点的多帧红外图像；

特征提取模块，用于提取M帧RGB图像的高维化特征以及M帧红外图像的高维化特征；其中，M为正整数；

特征融合模块，用于将所述M帧RGB图像的高维化特征以及所述M帧红外图像的高维化特征进行融合，得到目标张量；

行为识别模块，用于基于所述目标张量输出预测动作；其中，所述预测动作为预设的动作集合中的至少一种；

人员管理模块，用于基于所述预测动作、所述M帧RGB图像及所述M帧红外图像的获取时间进行人员行为管理；

所述特征提取模块还具体用于提取所述M帧RGB图像的高维化特征、所述M帧RGB图像的像素语义集合以及所述M帧红外图像的高维化特征；所述特征融合模块还具体用于基于所述M帧RGB图像的像素语义集合对所述M帧红外图像的高维化特征进行处理，将处理后的M帧红外图像的高维化特征以及所述M帧RGB图像的高维化特征进行融合，得到所述目标张量；

所述特征融合模块还具体用于以所述M帧RGB图像的像素语义集合为基础对除人物本体以及人物周边环境的像素在所述M帧红外图像的高维化特征中进行赋零操作，得到所述处理后的M帧红外图像的高维化特征；赋零操作的表达式包括：；其中，/>表示所述M帧红外图像的高维化特征；/>表示所述M帧RGB图像的像素语义集合；/>表示所述处理后的M帧红外图像的高维化特征；/>表示赋零函数；

所述行为识别模块为基于Transformers模型所构建；其中，所述Transformers模型在注意力模块的最后一个线性层添加有偏置。

2.根据权利要求1所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述特征提取模块，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出所述M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出所述M帧红外图像。

3.根据权利要求2所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述特征提取模块，还具体用于，以三秒为一个间隔，从三秒内的多帧RGB图像中筛选出三十帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中筛选出三十帧红外图像。

4.根据权利要求2所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述特征提取模块，还具体用于根据所述M帧RGB图像与所述M帧红外图像的最小时间戳，将所述M帧RGB图像与所述M帧红外图像一一进行匹配。

5.根据权利要求2所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述特征提取模块，还具体用于从三秒内的多帧RGB图像中进行等间隔抽样，以筛选出所述M帧RGB图像，以及以三秒为一个间隔，从三秒内的多帧红外图像中进行等间隔抽样，以筛选出所述M帧红外图像。

6.根据权利要求1所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述人员管理模块，还具体用于响应于所述预测动作存在违规行为，或响应于所述预测动作在所述获取时间内存在违规行为，将所述违规行为上报至管理平台。

7.根据权利要求1所述的基于行为识别的站点无纸化稽查管理系统，其特征在于，所述人员管理模块，还具体用于获取每个工作人员的员工信息，以及基于所述预测动作、所述M帧RGB图像及所述M帧红外图像的获取时间，确定在所述M帧RGB图像中识别出的工作人员是否存在违规行为。