CN115223246A - 一种人员违规行为识别方法、装置、设备及存储介质 - Google Patents

一种人员违规行为识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115223246A
CN115223246A CN202210849707.4A CN202210849707A CN115223246A CN 115223246 A CN115223246 A CN 115223246A CN 202210849707 A CN202210849707 A CN 202210849707A CN 115223246 A CN115223246 A CN 115223246A
Authority
CN
China
Prior art keywords
target detection
personnel
violation
illegal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210849707.4A
Other languages
English (en)
Inventor
牟骏杰
陈昌金
王鑫
聂红
赵誉杰
王景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Industries Group Automation Research Institute
Original Assignee
China South Industries Group Automation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South Industries Group Automation Research Institute filed Critical China South Industries Group Automation Research Institute
Priority to CN202210849707.4A priority Critical patent/CN115223246A/zh
Publication of CN115223246A publication Critical patent/CN115223246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人员违规行为识别方法、装置、设备及存储介质。该方法可以利用目标检测网络实现工厂违规行为的实时报警功能,利用行人重识别reid算法完成违规行为匹配到具体员工,以及违规行为查询统计的功能。系统的对违规行为判断与查询,为智慧工厂中违规行为检测,违规行为提醒,违规行为校正都提供了有力的基础,后续增加新的违规行为检测,也可以随时插入此系统,具有可持续发展可随时更新的意义。

Description

一种人员违规行为识别方法、装置、设备及存储介质
技术领域
本发明涉及智能识别技术领域,特别是涉及一种人员违规行为识别方法、装置、设备及存储介质。
背景技术
近年来,在人工智能领域随着图像处理技术的进步,同时随着工业4.0的到来,建设现代化、智慧化工厂的需求日益增加。其中对于工厂内部人员安全检测,人员管理系统智能化部署的要求日益剧增,利用图像处理技术来完成安全检测,根据检测结果来进行人员管理的方案也层出不穷,其中关于工厂内部人员违规行为的检测需求尤为突出。能够同时做到违规行为的及时报警,以及后期对违规人员的违规统计,违规行为分析等,并且实现自动上传到监控管理系统,实现全流程智能化违规行为管理的方案却非常匮乏。
传统的违规行为管理方法主要是通过人为检查和第三方人员提醒的方式进行,这种人工提醒检查的方式落后且无法达到实时检测的需求,目前已经基本淘汰。
在图像检测技术进入智能监测工厂的初期,主要采用了目标检测进行实时的检测,解决了人工方案无法实现实时检测的问题,但是此方案只能实现实时检测报警的功能,后期需要人工干预来实现确定具体违规员工以及具体违规行为,这样的方式增加了人工排查和人工比对的成本,没有真正意义上做到,对违规行为落实到个人以及员工行为分析的功能。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种人员违规行为识别方法、装置、设备及存储介质。可以适用于各种大小的工厂园区。还可以根据分析结果对员工违规行为进行归档,省去了人工审核的时间。
本发明提供了如下方案:
一种人员违规行为识别方法,包括:
采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;
确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;
将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
优选地:所述YOLOV5目标检测网络包括采用CSPDarknet53的基网络、采用SPP模块配合FPN和PAN结构的融合模块以及采用CIU_Loss的损失函数。
优选地:所述YOLOV5目标检测网络的训练数据集的至少一部分通过copy-paste的图片数据扩展方式生成和/或采用DCGAN生成。
优选地:利用所述目标检测框与所述人员身份样本特征gallery图库进行行人Reid重识别确定违规人员身份信息。
优选地:所述Reid重识别包括利用RexNext网络提取所述目标检测框的特征,利用avgpooling对特征向量进行聚合形成全局特征,对所述全局特征进行归一化,利用DSR方法进行度量学习,根据特征距离差值与人员身份样本特征gallery图库的特征进行比对确定违规人员身份信息。
优选地:识别所述目标图像的文本信息,根据所述文本信息确定所述违规行为发生的地点以及时间,将确定的所述人员违规行为的类型、所述人员的身份信息、所述地点以及所述时间进行保存并上传至监控系统。
优选地:利用光学字符识别系统识别所述目标图像中的文本信息,利用预训练的语言表征模型BERT配合Transformer对文本信息进行实体识别,以便确定所述违规行为发生的地点以及时间。
一种人员违规行为识别装置,所述装置包括:
目标检测结果获取单元,用于采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;
人员违规行为确定单元,用于确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
目标检测框确定单元,用于获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
违规人员身份信息确定单元,用于利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;
上传单元,用于将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
一种识别统计设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的人员违规行为识别方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的人员违规行为识别方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种人员违规行为识别方法、装置、设备及存储介质。该方法可以利用目标检测网络实现工厂违规行为的实时报警功能,利用行人重识别reid算法完成违规行为匹配到具体员工,以及违规行为查询统计的功能。系统的对违规行为判断与查询,为智慧工厂中违规行为检测,违规行为提醒,违规行为校正都提供了有力的基础,后续增加新的违规行为检测,也可以随时插入此系统,具有可持续发展可随时更新的意义。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种人员违规行为识别方法的流程图;
图2是本发明实施例提供的在工厂场景下应用本申请提供一种人员违规行为识别方法的整体流程图;
图3是本发明实施例提供的目标检测框架网络示意图;
图4是本发明实施例提供的一种人员违规行为识别装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种人员违规行为识别方法,如图1所示,该方法可以包括:
S101:采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;具体的,所述YOLOV5目标检测网络包括采用CSPDarknet53的基网络、采用SPP模块配合FPN和PAN结构的融合模块以及采用CIOU_Loss的损失函数。所述YOLOV5目标检测网络的训练数据集的至少一部分通过copy-paste的图片数据扩展方式生成和/或采用DCGAN生成。
S102:确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
S103:获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
S104:利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;具体的,利用所述目标检测框与所述人员身份样本特征gallery图库进行行人Reid重识别确定违规人员身份信息。进一步的,所述Reid重识别包括利用RexNext网络提取所述目标检测框的特征,利用avgpooling对特征向量进行聚合形成全局特征,对所述全局特征进行归一化,利用DSR方法进行度量学习,根据特征距离差值与人员身份样本特征gallery图库的特征进行比对确定违规人员身份信息。
S105:将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
为了进一步的确定违规发生的地点以及时间方便进行管理,本申请实施例还可以提供识别所述目标图像的文本信息,根据所述文本信息确定所述违规行为发生的地点以及时间,将确定的所述人员违规行为的类型、所述人员的身份信息、所述地点以及所述时间进行保存并上传至监控系统。具体的,利用OCR识别所述目标图像中的文本信息,利用BERT配合Transformer对文本信息进行实体识别,以便确定所述违规行为发生的地点以及时间。
本申请实施例提供的人员违规行为识别方法,采用目标检测YOLOV5技术对工厂厂区内部的违规行为进行检测并对其进行实时报警,然后将报警信息存储,利用人员Reid技术对此行为的检测结果与员工行人特征gallery库行度量学习,利用度量学习比对结果确定具体的违规员工信息,然后利用OCR识别文本信息,采用BERT配合Transformer,将每个违规行为发生的时间,地点等信息进行获取,将这些信息打上标签,直接传入工厂人员管理系统,工厂管理者可以直接通过此系统查看所有人员的违规行为以及违规种类进行管理。
采用本申请实施例提供的方法,不但可以实现实时报警的功能,同时也可以实现对具体违规行为落实到员工个人的,省去了人工匹配和人工筛选的时间,在保障检测准确率和匹配准确率的同时,也节约了人力成本,同时后期需要加入其他的违规行为检测,此方案可以实现随时插入,即插即用的功能。
下面以在工厂场景下应用本申请实施例提供的方法为例进行详细说明。
本申请提供的方法在工厂场景中利用图像处理中的目标检测技术以及度量学习行人重识别技术实现在工厂厂区内的员工抽烟、打电话等违规行为进行检测和统计以及分析的智能方案,根据识别结果自动输出该员工的违规行为分析报告。本申请以打电话和抽烟为例进行实施方案的阐述,同时该方法也适用于其他的违规行为。具体实现是对工厂厂区中各位置摄像头输出的视频图像进行打电话行为的目标检测,采取的目标检测方法为YOLOV5,同时建立度量学习网络,将员工的单人多角度图片作为输入得到员工特征gallery库,将违规行为检测利用Reid(Re-identification,其定义是利用算法,在图像库中找到要搜索的目标的技术,所以它是属于图像检索的一个子问题)行人重识别技术进行度量学习生成embedding,与员工特征gallery库进行匹配,根据匹配结果确定此行为具体为哪个员工产生,利用OCR(Optical Character Recognition,光学字符识别系统)识别违规图片中的文本信息,利用预训练的语言表征模型BERT(Bidirectional Encoder Representationfrom Transformers)配合Transformer(由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。)获取对应违规行为发生的时间,地点。
然后将上述时间,地点,违规行为,以及对应员工等信息传入监控管理系统,管理者可以通过这些信息对员工违规行为进行分析。该方法适用于各种大小的工厂园区,该方法可以根据分析结果对员工违规行为进行归档,省去了人工审核的时间。
如图2所示,对于在工厂场景下应用本申请实施例提供的方法实现主要通过以下四个大的步骤完成:
步骤一:工厂园区摄像头获取视频图片,对图像中的违规行为进行目标检测工作,并进行实时报警。
构建一个目标检测框架,利用违规图片形成一个违规数据集,然后构建YOLOV5目标检测网络,检测框架的基网络采用CSPDarknet53用于提取目标图像不同层的特征,融合模块采用SPP模块配合FPN和PAN结构,用于进行特征融合,最后损失函数采用CIOU_Loss,将违规数据集利用检测网络进行训练,训练模型作为违规检测的基础模型,在厂区内进行违规检测,并将检测结果实时报警并记录。
上述方案的步骤一中,首先需要在工厂中安装高清摄像头,然后通过工厂摄像头,获取待检测的视频图像信息,然后对视频中图像帧进行违规行为检测工作,具体实现步骤分为如下几步,
步骤101,首先需要建立工厂违规行为的目标检测数据集,训练数据获取可以通过互联网和现场视频中获取,但是由于工厂安全管控需求,对于诸如着火和抽烟等违规行为无法通过摄像头在工厂环境中直接获取,目前采用的方式是通过copy-paste的图片数据扩展方式获取到一部分图片,另外该方法也采用DCGAN(Deep Convolutional GenerativeAdversarial Networks),生成另一部分样本图片,此方法利用cnn卷积网络代替原始GAN的多层感知机来进行特征提取,网络分为生成器和判别器,分别对两者进行训练,其中判别器采用Densenet512为基网络的多层感知网络,然后将label通过embedding扩展成和image一样的维度,输入图片信息和对应标签,判别器需要判断图片真假,以及图片是否符合标签。生成器由一个Desenet256为基网络构成,生成器的输入有两个,一个是随机生成的高斯噪声,一个是通过embedding方法生成的和高斯噪声同样维的label,两者相乘作为输入,生成器生成的图片进入判别器进行判断,最后根据DCGAN目标函数得到生成结果,流程如式子1所示。
Figure BDA0003752992920000071
步骤102,对步骤101生成的违规行为目标检测数据集进行数据扩增,由于厂区的环境和光照条件复杂,通过调节图片光照度等参数,模拟生成不同光照条件下的图片,对于遮挡和模糊样本进行增加,完成扩增后利用标记工具,按coco数据集的标记格式对违规行为完成标记,为后续训练做准备。
步骤103,用步骤102生成的数据集利用目标检测框架开始训练工作,框架结构图如图3所示,首先选取特征提取的网络作为训练的backbone,该网络选取的是Darknet53的基础上加入CSP模块构造完成的CSPDarknet53网络,用于特征提取。然后利用SPP模块对分离不同尺度特征融合处理。再采用FPN+PAN的方式来完成特征融合工作,既可以保证网络可以提取强语义特征,又可以通过金字塔模型从底向上传达强定位特征,可以实现多维度,多层次融合的对特征信息进行处理,得到特征后,需要确定采用分类损失函数和回归损失函数两种,该方法中分类损失函数采用的是交叉熵损失函数,回归损失函数采用了CIOU_loss函数作为回归损失函数回归检测框,其中CIOU_loss通过加入超参数对上述问题进行处理,从而克服了上述问题的影响,实现形式的数学表达式如式2所示。
Figure BDA0003752992920000072
其中v是长宽比惩罚超参数,其定义为式2:
Figure BDA0003752992920000073
步骤104,利用步骤103中构建的目标检测网络,对步骤102中生成的数据进行训练,训练硬件服务器为一张TeslaT4显卡,linux18.04系统。采用128张图片作为一个batch进行训练,共计训练80个epoch后loss稳定,在测试集上训练准确率达到98.6%。最终得到违规行为检测模型。
步骤105,通过工厂厂区摄像头获取待检测的视频流,利用FFMPEG工具,对待测视频流逐帧解码成图片,然后采用每隔15ms检测一次的方案,首先对这些图片先进行图像质量评估,对于静帧,黑场等特殊情况进行预处理,若出现此类情况,将此帧图片丢弃,然后利用清晰度检测算法,检测是否出现模糊等样本,若出现模糊样本,将其进行丢弃,选取其下一帧图片直至清晰度达标,方可进行检测,利用104训练好的违规检测模型进行目标检测,当检测到违规行为后,获取违规检测框,然后在监控大屏上进行报警,该方法展示结果,以违规打电话为例。
步骤二:将步骤一的检测结果与工厂员工样本特征gallery进行行人Reid重识别,确定具体违规员工。
构建Reid网络实现违规行为查询,将违规行为中违规行人检测框中行人图片截取出利用RexNext网络提取特征,然后利用avgpooling对特征向量进行聚合,形成全局特征,然后对全局特征进行归一化,利用DSR方法进行度量学习,根据特征距离差值与提前录入的工厂员工行人gallery库中的特征进行比对,完成违规行为的搜索匹配到具体员工的功能。
根据上述步骤一中可以得到行人违规检测的结果,将步骤一的检测结果与工厂员工样本特征gallery进行行人reid重识别,确定具体违规员工,步骤二的具体实现步骤分为如下几步,
步骤201,首先构造行人reid的数据集,采用Market-1501数据集作为基础的数据集,由于Market-1501数据集实在清华大学校园中采集的数据,与工厂场景中的人行有一定的差别,加入工厂行人样本作为数据集的补充,以Market-1501数据集目录结构进行行人样本补充,方便后续训练,其中bounding_box_test为测试集图片共计1000人(750原始数据集自带+250工厂场景新增),bounding_box_train为训练集1251人(751原始数据集自带+500工厂场景新增),gt_bbox为手工标注的boundingbox,gt_query为同一个人不同摄像头的图像和同一摄像头的非同一个人的图像,query为测试集1000人中在任一摄像头选择一个检测框图片称为一个query。
步骤202,构造Reid度量学习的训练网络,输入图像尺寸为256*128,输出的embedding_size为2048,PIXEL_MEAN设置为:[0.485*255,0.456*255,0.406*255],PIXEL_STD设置为:[0.229*255,0.224*255,0.225*255],特征提取基础网络选用ResNeXt,主要用于提取工厂人员行人特征,depth选择为50x,feature dimension为1,归一化结构选择BN(Batch Normalization),聚合模块选择avgpool,主要用于对生成的全局特征进行归一化。metric_loss选择为ArcFaceLoss,其中ArcFaceLoss全称为Additive Angular MarginLoss(加性角度角度间隔损失),由softmaxloss和spherefaceloss改造而来,在特征向量归一化后加入加性的角度间隔,从而提高类间间隔的分离性以及类内的紧密度。在基网络倒数第二层输出在Xi和最后一层的weight归一化后的Wji之间的θ上加上角度间隔m(注意是加在了角θ上),以加法的方式惩罚深度特征与其相应权重之间的角度,其算式形式如式4所示,其中S为Wji和Xi归一化后所乘系数,m为加性类别之间的距离,m的存在可以扩大类间间距,缩小类内间距,从而使得度量学习的分类效果更好。
Figure BDA0003752992920000091
步骤203,利用步骤202的网络结构对步骤201的reid数据集进行训练,采用度量学习online训练的方式进行训练,利用query部分结果对训练的超参数进行调整。使得具有相同标签的行人样本在embedding空间中尽量接近,具有不同标签的行人在embedding空间尽量远离,采用TeslaT4GPU,共计训练100个epoch,得到此数据集下最佳的度量学习模型。
步骤204,利用203训练生成的模型作为推理部分的基础,首先将园区中所有员工的照片按1人5张一组作为输入,传入推理模型,得到度量学习模型生成embedding向量,存入Milvus向量数据库中,形成工厂员工gallery库中,将步骤105中得到违规行为的行人检测框,作为Reid的输入,同样利用度量学习模型得到embedding向量,利用欧氏距离和局部匹配方法DSR与员工gallery库中进行比对,根据相似度阈值0.6,大于阈d的结果中取相似度最高的结果作为最终结果,可以看出根据embedding比对后可以找到违规行为所对应的具体员工。
步骤三:对违规图像中的文本信息利用OCR进行文本识别,然后利用BERT配合Transformer为步骤二中获取的结果打上时间,地点信息,违规次数等信息标签后传入系统。
构建违规仓库,根据步骤二中得到结果,先利用OCR识别违规图像中文本信息,对文本信息采用BERT配合Transformer进行处理,得到每个违规行为发生的时间,地点,员工名称,违规次数等信息打上标签,形成数据库上传至监控管理系统中,后续管理者可进行查询分析员工违规行为。
上述方案的步骤三中,对输入图像进行OCR文本识别,然后利用BERT配合Transformer对文本识别结果进行实体识别,为步骤二中结果打上时间,地点信息,违规次数等信息标签后传入系统。步骤三的具体实现步骤分为如下几步:
步骤301,对步骤一中有违规行为的图片,对原始违规图片进行OCR识别,该方法中OCR算法采用CRAFT(Character-Region Awareness For Text detection)算法对图片中的文本进行文本检测,然后利用CRNN算法对文本框中的文字进行识别工作。
步骤302,对步骤301中的文本信息生成的text利用字符分割算法,切分成多个词汇words,将单个word作为BERT的输入,输出可以进行实体识别的向量形式,然后将向量结果输入的Transformer网络中,得到违规图片所在的地点(location),违规时间(time)等信息,将这些标签和违规图片一同传入监控管理系统,供给管理者查询使用。
步骤四:管理者对结果进行管理,并对结果进行更新。
上述方案的步骤四中,管理者对步骤3中结果进行管理以及更新。步骤四的具体实现步骤分为如下几步:
步骤401,管理者通过监控管理系统,对员工的违规行为进行管理记录,当管理者发现步骤204识别到错误员工时,可首先确认此员工是否加入员工库,若识别错误样本存在员工样本库中,将错误样本对应的图片加入实际员工中,更新员工样本库,若识别错误样本未在员工样本库中,在员工样本库中新建此员工的ID,完成更新。另外若是需要增加新的员工违规行为识别,可以直接将其加入步骤201之前,不必再次对Reid度量学习进行训练。
综上四个步骤,可以通过安装在工厂中的摄像头配合深度学习图像检测算法和实体识别等算法实现工厂场景中的违规行为识别的功能,该方法可以做到实时识别工厂场景中的违规行为,和市面上的违规行为识别相比,该方法还可以识别具体的违规行为的员工,同时该方法不需要对每个摄像头进行提前配置,就可以识别违规行为产生的时间地点等信息,解决了实施人员实施配置摄像头参数困难的问题,同时该方法结合工厂监控管理系统,可以实现对违规行为进行管理总结的能力。同时该方法还为管理者提供了更新员工gallery样本库的功能,可供管理者现场更新结果,更新后同时可以提升Reid识别效果,另外该方法具有即插即用的功能,对于新的违规行为识别工作,可以通过增加违规行为检测即可以实现后续定位违规行为所属员工的功能,不必进行重复开发,节约了开发成本。危险违规行为识别是工厂健康有序生产的基础,利用深度学习算法对违规行为进行监测,对于智慧工厂建设起着重要的作用,也是人工智能算法工程化落地的典范。
总之,本申请提供的方法利用目标检测网络完成工厂违规行为的实时报警功能,利用行人重识别reid算法完成违规行为匹配到具体员工,以及违规行为查询统计的功能。系统的对违规行为判断与查询,为智慧工厂中违规行为检测,违规行为提醒,违规行为校正都提供了有力的基础,后续增加新的违规行为检测,也可以随时插入此系统,具有可持续发展可随时更新的意义。
本申请实施例还可以提供一种人员违规行为识别装置,如图4所示,所述装置包括:
目标检测结果获取单元501,用于采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;
人员违规行为确定单元502,用于确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
目标检测框确定单元503,用于获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
违规人员身份信息确定单元504,用于利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;
上传单元505,用于将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
本申请实施例还可以提供一种识别统计设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的人员违规行为识别方法。
本申请实施例还可以提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的人员违规行为识别方法。
需要说明的是,在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种人员违规行为识别方法,其特征在于,所述方法包括:
采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;
确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;
将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
2.根据权利要求1所述的人员违规行为识别方法,其特征在于,所述YOLOV5目标检测网络包括采用CSPDarknet53的基网络、采用SPP模块配合FPN和PAN结构的融合模块以及采用CIOU_Loss的损失函数。
3.根据权利要求2所述的人员违规行为识别方法,其特征在于,所述YOLOV5目标检测网络的训练数据集的至少一部分通过copy-paste的图片数据扩展方式生成和/或采用DCGAN生成。
4.根据权利要求1所述的人员违规行为识别方法,其特征在于,利用所述目标检测框与所述人员身份样本特征gallery图库进行行人Reid重识别确定违规人员身份信息。
5.根据权利要求4所述的人员违规行为识别方法,其特征在于,所述Reid重识别包括利用RexNext网络提取所述目标检测框的特征,利用avgpool ing对特征向量进行聚合形成全局特征,对所述全局特征进行归一化,利用DSR方法进行度量学习,根据特征距离差值与人员身份样本特征gallery图库的特征进行比对确定违规人员身份信息。
6.根据权利要求1所述的人员违规行为识别方法,其特征在于,识别所述目标图像的文本信息,根据所述文本信息确定所述违规行为发生的地点以及时间,将确定的所述人员违规行为的类型、所述人员的身份信息、所述地点以及所述时间进行保存并上传至监控系统。
7.根据权利要求6所述的人员违规行为识别方法,其特征在于,利用光学字符识别系统识别所述目标图像中的文本信息,利用预训练的语言表征模型BERT配合Transformer对文本信息进行实体识别,以便确定所述违规行为发生的地点以及时间。
8.一种人员违规行为识别装置,其特征在于,所述装置包括:
目标检测结果获取单元,用于采用训练完成的YOLOV5目标检测网络对摄像头传输的待检测区域的目标图像进行目标检测获得目标检测结果;
人员违规行为确定单元,用于确定所述目标检测结果包括人员违规行为,产生报警信息并将所述目标检测结果保存;
目标检测框确定单元,用于获取所述目标检测结果包含的目标检测框,所述目标检测框包括违规人员身份检测特征;
违规人员身份信息确定单元,用于利用所述目标检测框与预先建立的人员身份样本特征gallery图库进行匹配识别,确定违规人员身份信息;
上传单元,用于将确定的所述人员违规行为的类型以及所述人员的身份信息进行保存并上传至监控系统。
9.一种识别统计设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的人员违规行为识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的人员违规行为识别方法。
CN202210849707.4A 2022-07-19 2022-07-19 一种人员违规行为识别方法、装置、设备及存储介质 Pending CN115223246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210849707.4A CN115223246A (zh) 2022-07-19 2022-07-19 一种人员违规行为识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210849707.4A CN115223246A (zh) 2022-07-19 2022-07-19 一种人员违规行为识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115223246A true CN115223246A (zh) 2022-10-21

Family

ID=83611591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210849707.4A Pending CN115223246A (zh) 2022-07-19 2022-07-19 一种人员违规行为识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115223246A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091963A (zh) * 2022-12-22 2023-05-09 广州奥咨达医疗器械技术股份有限公司 临床试验机构质量评估方法、装置、电子设备及存储介质
CN116562824A (zh) * 2023-05-25 2023-08-08 闽通数智安全顾问(杭州)有限公司 一种公路工程全生命周期项目管理方法及系统
CN116720161A (zh) * 2023-08-04 2023-09-08 山西合力思创科技股份有限公司 一种智能权限系统权限控制方法、装置、电子设备及介质
CN117557201A (zh) * 2024-01-12 2024-02-13 国网山东省电力公司菏泽供电公司 基于人工智能的智能仓储安全管理系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091963A (zh) * 2022-12-22 2023-05-09 广州奥咨达医疗器械技术股份有限公司 临床试验机构质量评估方法、装置、电子设备及存储介质
CN116091963B (zh) * 2022-12-22 2024-05-17 广州奥咨达医疗器械技术股份有限公司 临床试验机构质量评估方法、装置、电子设备及存储介质
CN116562824A (zh) * 2023-05-25 2023-08-08 闽通数智安全顾问(杭州)有限公司 一种公路工程全生命周期项目管理方法及系统
CN116562824B (zh) * 2023-05-25 2023-11-24 闽通数智安全顾问(杭州)有限公司 一种公路工程全生命周期项目管理方法及系统
CN116720161A (zh) * 2023-08-04 2023-09-08 山西合力思创科技股份有限公司 一种智能权限系统权限控制方法、装置、电子设备及介质
CN116720161B (zh) * 2023-08-04 2023-11-14 山西合力思创科技股份有限公司 一种智能权限系统权限控制方法、装置、电子设备及介质
CN117557201A (zh) * 2024-01-12 2024-02-13 国网山东省电力公司菏泽供电公司 基于人工智能的智能仓储安全管理系统及方法
CN117557201B (zh) * 2024-01-12 2024-04-12 国网山东省电力公司菏泽供电公司 基于人工智能的智能仓储安全管理系统及方法

Similar Documents

Publication Publication Date Title
CN109740413B (zh) 行人重识别方法、装置、计算机设备及计算机存储介质
CN115223246A (zh) 一种人员违规行为识别方法、装置、设备及存储介质
US8744125B2 (en) Clustering-based object classification
CN104166841B (zh) 一种视频监控网络中指定行人或车辆的快速检测识别方法
CN110738127A (zh) 基于无监督深度学习神经网络算法的安全帽识别方法
CN101635835A (zh) 智能视频监控方法及系统
CN110796074B (zh) 一种基于时空数据融合的行人再识别方法
CN110399835B (zh) 一种人员停留时间的分析方法、装置及系统
CN106355154B (zh) 一种监控视频中检测频繁过人的方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN109583373B (zh) 一种行人重识别实现方法
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及系统
CN109033476B (zh) 一种基于事件线索网络的智能时空数据事件分析方法
CN111402298A (zh) 基于目标检测与轨迹分析的粮库视频数据压缩方法
CN114782997B (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN113963399A (zh) 基于多算法融合应用的人员轨迹检索方法及装置
JP2019117556A (ja) 情報処理装置、情報処理方法及びプログラム
CN111353399A (zh) 篡改视频检测方法
CN111860457A (zh) 一种斗殴行为识别预警方法及其识别预警系统
CN115294519A (zh) 一种基于轻量化网络的异常事件检测及预警方法
CN113191273A (zh) 基于神经网络的油田井场视频目标检测与识别方法及系统
Agrawal et al. Classification of natural disaster using satellite & drone images with CNN using transfer learning
CN112001280B (zh) 一种实时、可在线优化的人脸识别系统和方法
CN104200202B (zh) 一种基于累加感知机的人体上半身检测方法
CN116152745A (zh) 一种抽烟行为检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination