CN112818175A - 一种厂区工作人员搜索方法及人员识别模型的训练方法 - Google Patents

一种厂区工作人员搜索方法及人员识别模型的训练方法 Download PDF

Info

Publication number
CN112818175A
CN112818175A CN202110167478.3A CN202110167478A CN112818175A CN 112818175 A CN112818175 A CN 112818175A CN 202110167478 A CN202110167478 A CN 202110167478A CN 112818175 A CN112818175 A CN 112818175A
Authority
CN
China
Prior art keywords
personnel
training
person
loss function
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110167478.3A
Other languages
English (en)
Other versions
CN112818175B (zh
Inventor
云霄
孙彦景
程小舟
董锴文
周玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202110167478.3A priority Critical patent/CN112818175B/zh
Publication of CN112818175A publication Critical patent/CN112818175A/zh
Application granted granted Critical
Publication of CN112818175B publication Critical patent/CN112818175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种厂区人员搜索方法,无需对人员区域预先标注,直接输入煤矿区域无标注监控视频生图,先通过本发明提出的多尺度YOLOv4人员检测算法获得煤矿人员的区域边界和位置,再针对煤矿人员统一着装问题,提供一种人员识别模型的训练方法,首先对人员区域采用微调的ResNet50进行特征提取,然后,采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习,获取检测人员的身份信息识别,实现了较好的一定区域人员的无标注搜索效果。

Description

一种厂区工作人员搜索方法及人员识别模型的训练方法
技术领域
本发明涉及智能监控技术领域,特别是涉及一种区域人员搜索方法。
背景技术
在目前大多数的厂区人员管理中,通过视频监控搜索特定人员进行目标检测和人员身份识别可以提高人员管理效率并提高员工的安全管理和规责管理,然而在现有技术中,因为视频监控摄像头距离目标较远,而厂区内工作人员因穿着统一工作服导致身份难以辨认,加上厂区内还存在大面积遮挡、光照变化等因素影响,导致人员搜索和识别结果不佳,很难满足厂区人员安全管理等多项管理需求。
人员搜索的首要关键任务是目标检测,目前针对目标检测的研究大多分为两步法(Two-stage)和一步法(One-stage)两种方法。其中,区域卷积神经网络(Region CNN,R-CNN)等两步法将检测过程分为候选区域生成和区域分类两个阶段,导致训练模型不易优化。YOLOv1(You only look once)是典型的一步法检测,它把检测任务当作一个回归问题,用一个网络直接从图像中输出位置和类别结果,基于整幅图像进行训练和测试,即使在训练集与测试集类型不同时,也能学习到目标的通用表征,与R-CNN等两步法相比降低了计算复杂度,提高了模型的预测准确性和泛化能力。但YOLOv1的预测空间约束限制了预测数量,并且网络损失函数近似方法对于小边界框检测物体的影响较大,导致定位准确性的降低。为解决该问题,YOLOv2提出将检测和分类数据相结合的联合训练算法,YOLOv3采用逻辑回归的边界框预测方法,提升了检测性能。YOLOv4在YOLOv3的基础上总结目标检测技巧并通过大量实验找出最佳组合,可以实现高精度、高速度的煤矿井下人员检测,现有煤矿人员搜索方法的研究,大多也只针对人员检测,而检测仅仅能够获取行人位置及边界信息,无法对其身份进行识别,对实现煤矿安全监控具有一定的局限性。
人员重识别是指对于给定的目标行人图像,在不同的摄像头以及不同的场景下搜索视频中该目标行人的图像,实现人员身份的辨认和识别,结合人员检测可实现煤矿人员搜索。与传统基于手工特征提取和距离度量学习的行人重识别方法相比,基于深度学习的行人重识别能学习到更丰富、更具识别力的特征,并能实现特征提取和度量学习的端对端协同训练。基于深度学习的行人重识别方法主要包括分类模型和验证模型两种,分类模型将人员身份作为类别标签,通过训练分类损失优化网络,验证模型学习人员外观特征,增大不同身份人员之间的距离度量,减小相同身份人员之间的距离度量。但目前关于行人重识别方法的研究大多基于已裁剪好的行人图像,而在实际煤矿场景中,需要先对行人区域进行预先标注才能进行后续的人员重识别工作。
发明内容
为了克服上述现有技术的不足,本发明提供了一种区域人员搜索方法,整体框架如图1所示,无需对人员区域预先标注,获取煤矿井下无标注监控视频生图,输入本方案模型训练方法获得的识别模型,即可实现煤矿人员的无标注搜索。
本发明所采用的技术方案是:
第一方面,本发明提供一种区域人员搜索方法,如图1所示包括:
输入一张包含目标搜索人员的标注监控视频图,并获取特定时间段和区域内监控范围内的无标注监控视频生图;
从所述标注监控视频图中获取目标人员矩形图像截图;
对所述无标注监控视频生图进行人员检测,获得待确定人员矩形图像截图和待确定人员位置信息;
将目标人员矩形图像截图和所有待确定人员矩形图像截图输入预设的人员识别模型进行特征比对,获得人员匹配结果;所述人员识别模型由多个特定人员矩形训练图像和每个人员矩形训练图像对应的人员身份标记信息训练生成。
第二方面,本发明提供一种人员识别模型的训练方法,如图2所示,包括:
获取多个训练样本;其中,每个所述训练样本包括特定人员视频监控下的人体矩形图像和人体矩形图像对应的人员身份标记信息;
针对每个所述训练样本,对所述人体矩形图像进行特征提取,得到人员特征信息;
利用多个人体矩形图像对应的所述人员特征信息和每个人体矩形图像对应的标记值训练预设分类模型;
采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型,最终得到人员识别模型。
第三方面,本发明提供一种计算设备,所述设备包括:处理器以及存储有计算机程序指令的存储器储器;所述处理器执行所述计算机程序指令时实现所述一种区域人员搜索方法或所述的一种人员识别模型的训练方法。
第四方面,本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如所述一种区域人员搜索方法或所述的一种人员识别模型的训练方法。
与现有技术相比,本发明的有益效果是:通过基于多尺度预测的YOLOv4人员检测方法获得煤矿人员的区域边界和位置,再针对煤矿人员统一着装问题,采用本发明提出的联合决策损失人员重识别方法,首先对人员区域采用微调的ResNet50进行特征提取,然后,采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习,获取检测人员的身份信息识别,从而实现煤矿人员的无标注搜索,提高了人员的搜索效率。
附图说明
图1为一种区域人员搜索方法流程图;
图2为一种人员识别模型的训练方法流程图
图3为基于多尺度预测YOLOv4的人员检测方法框架;
图4为微调的ResNet50网络框架。
具体实施方式
下面将详细描述本说明书的各个方面的特征和示例性实施例,为了使本说明书的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本说明书进行进一步详细描述。应理解,此处所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。对于本领域技术人员来说,本说明书可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本说明书的示例来提供对本说明书更好的理解。
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于多尺度预测的YOLOv4人员检测方法:YOLOV4检测算法作为目标检测领域的集大成者,极大提高了目标检测精度和速度,其网络结构主要包含Backbone、Neck和Head三个阶段。Backbone阶段主要实现输入图像的特征提取,在图像的不同细粒度上将图像特征向量进行跨阶段层次合并,重复利用梯度信息,在减少模型计算量的同时保证准确率不变或略有提升。Neck阶段主要实现图像特征的增强,采用1×1、5×5、9×9、13×13四个不同的最大池化方式获取更加丰富的感受野信息,并通过融合多个不同层的特征获得不同尺度的目标信息。Head阶段主要输出不同尺度特征图,实现进一步的图像特征预测。YOLOV4中的Head阶段基于Backbone阶段的特征提取输出y1、y2、y3三个不同尺度的特征图。但YOLOV4在Backbone特征融合阶段更多的使用了高层语义信息,没有充分利用浅层特征。高层特征分辨率较低,具有更强的语义信息,而浅层特征分辨率较高,能够包含更多的位置和细节等信息,仅使用高层特征会使得小目标的位置和细节等信息丢失。
为解决此问题,如图3中所示,其中虚线箭头指传统YOLOv4算法,实线箭头是本发明在传统YOLOv4基础上添加的多尺度预测YOLOv4人员检测算法;图中CBL指卷积层、批量归一化层和激活函数层的组合,csp-resn(n=1,2,8)是指YOLOv4具有n个残差单元的不同的残差网络,用于提取不同深度的信息。在Backbone阶段增加了浅层特征提取,同时在Head阶段增加y4和y5两个浅层特征预测输出,将多尺度预测数量扩展为五个,在提取更加丰富浅层信息的同时,获取更多的位置和细节信息,即提高真实场景下小目标的检测精度。
基于联合决策损失的人员重识别方法,包括:微调的ResNet50Backbone特征提取网络和联合决策损失函数。
微调的ResNet50 Backbone特征提取网络:ResNet50相比于其他网络结构简洁模块化,容易训练,但面对煤矿人员统一着装问题,不能很好的区分相似外观下的人员身份。本发明提出了微调的ResNet50模型来提取特征,网络框架如图4所示。首先,为了增加特征图的大小并获得更高分辨率的特征,本发明删除了ResNet50的最后一个下采样层。然后,为了减少参数的数量并集成全局空间信息,添加了全局平均池化(global average pooling,GAP)层来替换ResNet50后面的全连接(fully connected,FC)层,并且将内核池化由16x8转换为1x1,以获得2048维特征向量。其次,所有连接层中的每个神经元都与前一层中的所有神经元完全连接,以将分类的本地信息整合到池化层中。
此外,批量归一化(batch normalization,BN)层可以加快训练速度并最大程度地减少爆炸梯度。因此,如图4所示,本发明引入了BN层,并通过实验发现它也可以提高模型的泛化能力。然后,引入dropout(DP)层以避免过度拟合问题,提高泛化性能,并在训练过程中发挥正则化作用。最后,再次添加BN和FC层作为判别描述符,以将网络聚焦在输入图像上,并减少由外部因素引起的图像失真,以获得用于人识别的512维特征向量。该模型可以在煤矿人员重识别训练过程中实现更快的收敛性,更强的泛化能力和更具区分性的特征学习能力。
联合决策损失函数,包括:
(1)基于权重约束的难样本采样损失函数:损失函数作为评价模型收敛的好坏,一定程度上决定了该模型的性能高低,人员重识别中常用的损失函数除了分类损失外,还包括Triplet loss和Trihard loss。Triplet loss中,由于输入三元组样本是随机挑选的,导致挑选出的很可能是简单样本,持续对简单样本的学习训练会限制模型的泛化能力。在Triplet loss基础上引入难样本采样思想,提出Trihard loss损失函数定义为
Figure BDA0002937925670000081
公式(1)中,每一个batch都包含P×K张图片,P表示ID数量,K表示每一个ID下图片数量;针对每一张图片a,A表示与a相同ID的图片集,d表示欧几里得距离量度,B表示与a不同ID的图片集,n表示与a不同ID的图片集中的某一张图片,alpha表示边界,最佳取值为0.3;通过这种难样本采样方式,分别找出与a特征距离最大的正样本对以及与a特征距离最小的负样本对。
Trihard loss通过训练最难的正样本对和最难的负样本对,改善了模型的性能,但是在训练过程中只考虑了正负样本对之间的相对距离,即正样本对特征距离的最大值和负样本对特征距离的最小值之间差值一定,导致损失结果相同,易忽略正样本对之间的绝对距离。
为解决此问题,本发明提出权重约束的难样本采样损失函数定义为
Figure BDA0002937925670000082
权重约束的难样本采样损失函数包含Trihard loss和权重约束项两部分,其中β表示权重系数,通过β权重约束,在正样本对和负样本对距离度量之间差值一定时,正样本对特征距离的最大值越小,损失值就越小,正样本对的聚类性能就越好。权重约束的难样本采样损失函数能够提高模型对于人员外观变化的自适应性,实现煤矿场景下人员身份的准确识别。针对煤矿人员统一工作服的难点,提出基于权重约束的难样本采样损失函数,保证模型获得更好的区分度和高性能。
(2)边界余弦Softmax损失函数:在人员重识别问题中,Softmax损失函数是能很好地拉开不同类之间的距离,但是对于同类别,却很难区分类内的差别。为了解决这个问题,本发明提出了边界余弦Softmax损失函数,通过对权重向量和特征向量归一化,并引入边界边界参数m,使得类间差异最大化,而类内差异最小,同时更好地学习行人的深层特征。
常用的分类损失函数,即Softmax损失。若给定一个输入特征向量xi以及对应的标签yi,传统的softmax损失如下表示:
Figure BDA0002937925670000091
式(1)中pi表示xi被正确分类的后验概率。N是训练样本大小,C是类别数。而
Figure BDA0002937925670000092
代表的是一个全连接层的权重向量Wi和偏移量Bi的激活,Wj表示权重向量W的第j列,
Figure BDA0002937925670000093
Wyi表示W的第yi列;
为了方便计算,本发明将偏移量Bi设置为0,此时fi应为:
Figure BDA0002937925670000094
式(2)中θj是权重向量Wi和嵌入特征向量x之间的角度,其角度范围0≤θj≤π。
观察式(2),可知后验概率pi不仅与权重向量Wj和特征向量x有关,还与θj有关。本发明中对权重向量进行L2正则化,即||Wi||=1。通过实验表明,对权重向量正则化,性能会有所提升。本发明还对特征向量||xi||进行L2正则化,同时将||xi||缩放到s,这样就会使得整个特征向量集具有相同的值,使得学习仅依赖于余弦值来改善分辨能力,本发明将参数s设置为30。此时,修改余弦softmax损失(CSL)为
Figure BDA0002937925670000101
观察公式(3)可知,预测概率pi仅依赖于余弦值。本发明通过对特征向量x正则化,因此模型在余弦空间所学习到的特征是可分离的,就是说正样本特征向量聚集在一起,负样本特征向量就被推开。余弦softmax损失能够很好地正确分类,但不能明显的区分类内的不同。为了解决这一问题,本发明还引入了余弦边界m,所以本发明提出边界余弦损失函数,即为:
Figure BDA0002937925670000102
满足条件为:
Figure BDA0002937925670000103
Figure BDA0002937925670000111
Figure BDA0002937925670000112
式中:N为训练样本批次数,C为数据集类别数,xi对应于真实类别yi的第i个样本的特征向量,Wj是类别j的权重向量,θj是权重向量与特征向量的夹角。在本发明实验中,令m=0.35。
通过二分类来解释余弦边界m的作用。θi是特征向量xi之间的角度,C1和C2为xi的类别(i=1,2)。当特征向量属于C1,对于余弦softmax损失,要满足cosθ1>cosθ2。同理,cosθ2>cosθ1时,特征向量属于类别C2。观察可知,余弦softmax能够很好的正确分类,拉开不同类间的距离,但对于难负样本却很难正确分类。而对于边界余弦softmax损失,通过引入超参数m(m≥0)控制余弦边界的大小,只有满足cosθ1-m>cosθ2时,特征向量才属于类别C1,可知分类更加严格。所提出的边界余弦softmax损失不仅仅适用于二分类,其他多分类也同样适用,能够学习到更好地分辨特征。
采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习,最终的损失函数被定义为:
Figure BDA0002937925670000113
其中,标量ω∈[0,1]是用来平衡Softmax损失和三元组损失函数。适当的ω,可以显著提高特征的识别能力,本发明ω通过实验选取。本发明根据公式(10)比较了不同ω的值;当ω=0时,仅使用单一的边界余弦Softmax损失来监督训练网络,将卷积描述符作为唯一的行人特征描述符,从而没有充分利用不同层次行人特征信息;同时Softmax损失只学习可分离的特征,所以学习到的特征辨别力不足;当ω>0不变性学习时,联合边界余弦Softmax损失和权重约束难样本采样损失函数监督训练的方法显著地提高;发现当ω=0.6,效果最好,验证了本发明所提出方法的有效性,结合边界余弦Softmax损失和权重约束难样本采样损失函数监督学习,互相弥补了各自的不足,能够学习多层次更细粒度的特征;但当ω=1时,由于局部融合分支直接将fpab_2048_1和fpab_2048_2作为最后的描述符,单使用权重约束难样本采样损失作为监督训练,效果不如联合训练。

Claims (9)

1.一种厂区工作人员搜索方法,包括:
输入一张包含目标搜索人员的标注监控视频图,并获取特定时间段和区域内监控范围内的无标注监控视频生图;
从所述标注监控视频图中获取目标人员矩形图像截图;
对所述无标注监控视频生图进行人员检测,获得待确定人员矩形图像截图和待确定人员位置信息;
将目标人员矩形图像截图和所有待确定人员矩形图像截图输入预设的人员识别模型进行特征比对,获得人员匹配结果;所述人员识别模型由多个特定人员矩形训练图像和每个人员矩形训练图像对应的人员身份标记信息训练生成。
2.根据权利要求1所述的一种厂区工作人员搜索方法,其中,所述人员检测为基于多尺度预测YOLOv4的人员检测,在YOLOv4的Backbone阶段增加浅层特征提取,同时在Head阶段增加两个浅层特征预测输出,将多尺度预测数量扩展为五个。
3.根据权利要求2所述的一种厂区工作人员搜索方法,其中,所述Backbone阶段增加浅层特征提取包括:增加CBL,所述CBL层指卷积层、批量归一化层和激活函数层的组合。
4.一种人员识别模型的训练方法,包括:
获取多个训练样本;其中,每个所述训练样本包括特定人员视频监控下的人体矩形图像和人体矩形图像对应的人员身份标记信息;
针对每个所述训练样本,对所述人体矩形图像进行特征提取,得到人员特征信息;
利用多个人体矩形图像对应的所述人员特征信息和每个人体矩形图像对应的标记值训练预设分类模型;
采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型,最终得到人员识别模型。
5.根据权利要求4所述一种人员识别模型的训练方法,其中,所述特征提取采用微调的ResNet50进行特征提取,所述微调的ResNet50,删除了ResNet50的最后一个下采样层;添加了全局平均池化(GAP)层来替换ResNet50后面的全连接(FC)层,并且将内核池化由16x8转换为1x1,以获得2048维特征向量;所有连接层中的每个神经元都与前一层中的所有神经元完全连接,以将分类的本地信息整合到池化层中;增加批量归一化层(BN层)和dropout(DP)层以避免过度拟合问题;添加BN和FC层作为判别描述符,以将网络聚焦在输入图像上,以获得用于人识别的512维特征向量。
6.根据权利要求4所述一种人员识别模型的训练方法,其中,所述采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型包括:采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习,最终的损失函数为:Ltotal=(1-ω)Lmc+ωLthdw,其中,标量ω∈[0,1],Lthdw为权重约束的难样本采样损失函数,Lmc为所述边界余弦损失函数。
7.根据权利要求6所述一种人员识别模型的训练方法,其中,所述ω=0.6。
8.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器储器;所述处理器执行所述计算机程序指令时实现如权利要求1-3任意一项所述一种厂区工作人员搜索方法或4-7任意一项所述一种人员识别模型的训练方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-3任意一项所述一种厂区工作人员搜索方法或4-7任意一项所述一种人员识别模型的训练方法。
CN202110167478.3A 2021-02-07 2021-02-07 一种厂区工作人员搜索方法及人员识别模型的训练方法 Active CN112818175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167478.3A CN112818175B (zh) 2021-02-07 2021-02-07 一种厂区工作人员搜索方法及人员识别模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167478.3A CN112818175B (zh) 2021-02-07 2021-02-07 一种厂区工作人员搜索方法及人员识别模型的训练方法

Publications (2)

Publication Number Publication Date
CN112818175A true CN112818175A (zh) 2021-05-18
CN112818175B CN112818175B (zh) 2023-09-01

Family

ID=75862137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167478.3A Active CN112818175B (zh) 2021-02-07 2021-02-07 一种厂区工作人员搜索方法及人员识别模型的训练方法

Country Status (1)

Country Link
CN (1) CN112818175B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688264A (zh) * 2021-09-07 2021-11-23 深延科技(北京)有限公司 生物体重识别方法、装置、电子设备及存储介质
CN113935482A (zh) * 2021-10-13 2022-01-14 北京百度网讯科技有限公司 一种行人再识别网络的训练方法及装置
CN114881213A (zh) * 2022-05-07 2022-08-09 天津大学 基于三分支特征融合神经网络的声音事件检测方法
CN115019347A (zh) * 2022-06-24 2022-09-06 北京交通大学 基于跨类别矩阵满秩约束的行人搜索方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674483A (zh) * 2019-08-14 2020-01-10 广东工业大学 一种基于多模态信息的身份识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
US20200125824A1 (en) * 2018-10-19 2020-04-23 Idemia Identity & Security France Method of extracting features from a fingerprint represented by an input image
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN111488804A (zh) * 2020-03-19 2020-08-04 山西大学 基于深度学习的劳保用品佩戴情况检测和身份识别的方法
CN111598040A (zh) * 2020-05-25 2020-08-28 中建三局第二建设工程有限责任公司 一种建筑工人身份识别及安全帽佩戴检测方法及系统
CN111967468A (zh) * 2020-08-10 2020-11-20 东南大学 一种基于fpga的轻量级目标检测神经网络的实现方法
CN112288398A (zh) * 2020-10-29 2021-01-29 平安信托有限责任公司 面签验证方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125824A1 (en) * 2018-10-19 2020-04-23 Idemia Identity & Security France Method of extracting features from a fingerprint represented by an input image
CN110674483A (zh) * 2019-08-14 2020-01-10 广东工业大学 一种基于多模态信息的身份识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN111488804A (zh) * 2020-03-19 2020-08-04 山西大学 基于深度学习的劳保用品佩戴情况检测和身份识别的方法
CN111598040A (zh) * 2020-05-25 2020-08-28 中建三局第二建设工程有限责任公司 一种建筑工人身份识别及安全帽佩戴检测方法及系统
CN111967468A (zh) * 2020-08-10 2020-11-20 东南大学 一种基于fpga的轻量级目标检测神经网络的实现方法
CN112288398A (zh) * 2020-10-29 2021-01-29 平安信托有限责任公司 面签验证方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUYANG ZHOU: "Deep Learning Based People Detection, Tracking and Re-identification in Intelligent Video Surveillance System", 《2020 INTERNATIONAL CONFERENCE ON COMPUTING AND DATA SCIENCE》, pages 443 - 447 *
周兰: "行人细粒度识别与重识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 568 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688264A (zh) * 2021-09-07 2021-11-23 深延科技(北京)有限公司 生物体重识别方法、装置、电子设备及存储介质
CN113688264B (zh) * 2021-09-07 2024-06-07 深兰机器人(上海)有限公司 生物体重识别方法、装置、电子设备及存储介质
CN113935482A (zh) * 2021-10-13 2022-01-14 北京百度网讯科技有限公司 一种行人再识别网络的训练方法及装置
CN114881213A (zh) * 2022-05-07 2022-08-09 天津大学 基于三分支特征融合神经网络的声音事件检测方法
CN115019347A (zh) * 2022-06-24 2022-09-06 北京交通大学 基于跨类别矩阵满秩约束的行人搜索方法及系统

Also Published As

Publication number Publication date
CN112818175B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN112818175B (zh) 一种厂区工作人员搜索方法及人员识别模型的训练方法
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
Shi et al. Real-time traffic light detection with adaptive background suppression filter
CN110414368A (zh) 一种基于知识蒸馏的无监督行人重识别方法
Waheed et al. Deep learning algorithms-based object detection and localization revisited
CN109583482A (zh) 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
Hasan An application of pre-trained CNN for image classification
CN111898736A (zh) 基于属性感知的高效行人重识别方法
CN111339849A (zh) 一种融合行人属性的行人重识别的方法
CN112149538A (zh) 一种基于多任务学习的行人重识别方法
Xia et al. Face occlusion detection using deep convolutional neural networks
Chen et al. Robust vehicle detection and viewpoint estimation with soft discriminative mixture model
Qiu et al. A survey of recent advances in CNN-based fine-grained visual categorization
Naseer et al. Multimodal Objects Categorization by Fusing GMM and Multi-layer Perceptron
Galiyawala et al. Person retrieval in surveillance videos using deep soft biometrics
Babu et al. Elephant herding with whale optimization enabled ORB features and CNN for Iris recognition
Shishkin et al. Implementation of yolov5 for detection and classification of microplastics and microorganisms in marine environment
Feng et al. Spatial-temporal exclusive capsule network for open set action recognition
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
Rondón et al. Machine learning models in people detection and identification: a literature review
Li Global face pose detection based on an improved PSO-SVM method
PISHARADY Computational intelligence techniques in visual pattern recognition
CN113223018A (zh) 细粒度图像分析处理方法
CN113936301A (zh) 基于中心点预测损失函数的目标重识别方法
Shan et al. Multi-knowledge-driven enhanced module for visible-infrared cross-modal person Re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant