CN112818175B

CN112818175B - 一种厂区工作人员搜索方法及人员识别模型的训练方法

Info

Publication number: CN112818175B
Application number: CN202110167478.3A
Authority: CN
Inventors: 云霄; 孙彦景; 程小舟; 董锴文; 周玉
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2023-09-01
Anticipated expiration: 2041-02-07
Also published as: CN112818175A

Abstract

本发明公开了一种厂区人员搜索方法，无需对人员区域预先标注，直接输入煤矿区域无标注监控视频生图，先通过本发明提出的多尺度YOLOv4人员检测算法获得煤矿人员的区域边界和位置，再针对煤矿人员统一着装问题，提供一种人员识别模型的训练方法，首先对人员区域采用微调的ResNet50进行特征提取，然后，采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习，获取检测人员的身份信息识别，实现了较好的一定区域人员的无标注搜索效果。

Description

一种厂区工作人员搜索方法及人员识别模型的训练方法

技术领域

本发明涉及智能监控技术领域，特别是涉及一种区域人员搜索方法。

背景技术

在目前大多数的厂区人员管理中，通过视频监控搜索特定人员进行目标检测和人员身份识别可以提高人员管理效率并提高员工的安全管理和规责管理，然而在现有技术中，因为视频监控摄像头距离目标较远，而厂区内工作人员因穿着统一工作服导致身份难以辨认，加上厂区内还存在大面积遮挡、光照变化等因素影响，导致人员搜索和识别结果不佳，很难满足厂区人员安全管理等多项管理需求。

人员搜索的首要关键任务是目标检测，目前针对目标检测的研究大多分为两步法(Two-stage)和一步法(One-stage)两种方法。其中，区域卷积神经网络(RegionCNN，R-CNN)等两步法将检测过程分为候选区域生成和区域分类两个阶段，导致训练模型不易优化。YOLOv1(Youonlylookonce)是典型的一步法检测，它把检测任务当作一个回归问题，用一个网络直接从图像中输出位置和类别结果，基于整幅图像进行训练和测试，即使在训练集与测试集类型不同时，也能学习到目标的通用表征，与R-CNN等两步法相比降低了计算复杂度，提高了模型的预测准确性和泛化能力。但YOLOv1的预测空间约束限制了预测数量，并且网络损失函数近似方法对于小边界框检测物体的影响较大，导致定位准确性的降低。为解决该问题，YOLOv2提出将检测和分类数据相结合的联合训练算法，YOLOv3采用逻辑回归的边界框预测方法，提升了检测性能。YOLOv4在YOLOv3的基础上总结目标检测技巧并通过大量实验找出最佳组合，可以实现高精度、高速度的煤矿井下人员检测，现有煤矿人员搜索方法的研究，大多也只针对人员检测，而检测仅仅能够获取行人位置及边界信息，无法对其身份进行识别，对实现煤矿安全监控具有一定的局限性。

人员重识别是指对于给定的目标行人图像，在不同的摄像头以及不同的场景下搜索视频中该目标行人的图像，实现人员身份的辨认和识别，结合人员检测可实现煤矿人员搜索。与传统基于手工特征提取和距离度量学习的行人重识别方法相比，基于深度学习的行人重识别能学习到更丰富、更具识别力的特征，并能实现特征提取和度量学习的端对端协同训练。基于深度学习的行人重识别方法主要包括分类模型和验证模型两种，分类模型将人员身份作为类别标签，通过训练分类损失优化网络，验证模型学习人员外观特征，增大不同身份人员之间的距离度量，减小相同身份人员之间的距离度量。但目前关于行人重识别方法的研究大多基于已裁剪好的行人图像，而在实际煤矿场景中，需要先对行人区域进行预先标注才能进行后续的人员重识别工作。

发明内容

为了克服上述现有技术的不足，本发明提供了一种区域人员搜索方法，整体框架如图1所示，无需对人员区域预先标注，获取煤矿井下无标注监控视频生图，输入本方案模型训练方法获得的识别模型，即可实现煤矿人员的无标注搜索。

本发明所采用的技术方案是：

第一方面，本发明提供一种区域人员搜索方法，如图1所示包括：

输入一张包含目标搜索人员的标注监控视频图，并获取特定时间段和区域内监控范围内的无标注监控视频生图；

从所述标注监控视频图中获取目标人员矩形图像截图；

对所述无标注监控视频生图进行人员检测，获得待确定人员矩形图像截图和待确定人员位置信息；

将目标人员矩形图像截图和所有待确定人员矩形图像截图输入预设的人员识别模型进行特征比对，获得人员匹配结果；所述人员识别模型由多个特定人员矩形训练图像和每个人员矩形训练图像对应的人员身份标记信息训练生成。

第二方面，本发明提供一种人员识别模型的训练方法，如图2所示，包括：

获取多个训练样本；其中，每个所述训练样本包括特定人员视频监控下的人体矩形图像和人体矩形图像对应的人员身份标记信息；

针对每个所述训练样本，对所述人体矩形图像进行特征提取，得到人员特征信息；

利用多个人体矩形图像对应的所述人员特征信息和每个人体矩形图像对应的标记值训练预设分类模型；

采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型，最终得到人员识别模型。

第三方面，本发明提供一种计算设备，所述设备包括：处理器以及存储有计算机程序指令的存储器储器；所述处理器执行所述计算机程序指令时实现所述一种区域人员搜索方法或所述的一种人员识别模型的训练方法。

第四方面，本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如所述一种区域人员搜索方法或所述的一种人员识别模型的训练方法。

与现有技术相比，本发明的有益效果是：通过基于多尺度预测的YOLOv4人员检测方法获得煤矿人员的区域边界和位置，再针对煤矿人员统一着装问题，采用本发明提出的联合决策损失人员重识别方法，首先对人员区域采用微调的ResNet50进行特征提取，然后，采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习，获取检测人员的身份信息识别，从而实现煤矿人员的无标注搜索，提高了人员的搜索效率。

附图说明

图1为一种区域人员搜索方法流程图；

图2为一种人员识别模型的训练方法流程图

图3为基于多尺度预测YOLOv4的人员检测方法框架；

图4为微调的ResNet50网络框架。

具体实施方式

下面将详细描述本说明书的各个方面的特征和示例性实施例，为了使本说明书的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本说明书进行进一步详细描述。应理解，此处所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。对于本领域技术人员来说，本说明书可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本说明书的示例来提供对本说明书更好的理解。

需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

基于多尺度预测的YOLOv4人员检测方法：YOLOV4检测算法作为目标检测领域的集大成者，极大提高了目标检测精度和速度，其网络结构主要包含Backbone、Neck和Head三个阶段。Backbone阶段主要实现输入图像的特征提取，在图像的不同细粒度上将图像特征向量进行跨阶段层次合并，重复利用梯度信息，在减少模型计算量的同时保证准确率不变或略有提升。Neck阶段主要实现图像特征的增强，采用1×1、5×5、9×9、13×13四个不同的最大池化方式获取更加丰富的感受野信息，并通过融合多个不同层的特征获得不同尺度的目标信息。Head阶段主要输出不同尺度特征图，实现进一步的图像特征预测。YOLOV4中的Head阶段基于Backbone阶段的特征提取输出y1、y2、y3三个不同尺度的特征图。但YOLOV4在Backbone特征融合阶段更多的使用了高层语义信息，没有充分利用浅层特征。高层特征分辨率较低，具有更强的语义信息，而浅层特征分辨率较高，能够包含更多的位置和细节等信息，仅使用高层特征会使得小目标的位置和细节等信息丢失。

为解决此问题，如图3中所示，其中虚线箭头指传统YOLOv4算法，实线箭头是本发明在传统YOLOv4基础上添加的多尺度预测YOLOv4人员检测算法；图中CBL指卷积层、批量归一化层和激活函数层的组合，csp-resn(n＝1,2,8)是指YOLOv4具有n个残差单元的不同的残差网络，用于提取不同深度的信息。在Backbone阶段增加了浅层特征提取，同时在Head阶段增加y4和y5两个浅层特征预测输出，将多尺度预测数量扩展为五个，在提取更加丰富浅层信息的同时，获取更多的位置和细节信息，即提高真实场景下小目标的检测精度。

基于联合决策损失的人员重识别方法，包括：微调的ResNet50Backbone特征提取网络和联合决策损失函数。

微调的ResNet50Backbone特征提取网络：ResNet50相比于其他网络结构简洁模块化，容易训练，但面对煤矿人员统一着装问题，不能很好的区分相似外观下的人员身份。本发明提出了微调的ResNet50模型来提取特征，网络框架如图4所示。首先，为了增加特征图的大小并获得更高分辨率的特征，本发明删除了ResNet50的最后一个下采样层。然后，为了减少参数的数量并集成全局空间信息，添加了全局平均池化(global average pooling，GAP)层来替换ResNet50后面的全连接(fully connected，FC)层，并且将内核池化由16x8转换为1x1，以获得2048维特征向量。其次，所有连接层中的每个神经元都与前一层中的所有神经元完全连接，以将分类的本地信息整合到池化层中。

此外，批量归一化(batch normalization，BN)层可以加快训练速度并最大程度地减少爆炸梯度。因此，如图4所示，本发明引入了BN层，并通过实验发现它也可以提高模型的泛化能力。然后，引入dropout(DP)层以避免过度拟合问题，提高泛化性能，并在训练过程中发挥正则化作用。最后，再次添加BN和FC层作为判别描述符，以将网络聚焦在输入图像上，并减少由外部因素引起的图像失真，以获得用于人识别的512维特征向量。该模型可以在煤矿人员重识别训练过程中实现更快的收敛性，更强的泛化能力和更具区分性的特征学习能力。

联合决策损失函数，包括：

(1)基于权重约束的难样本采样损失函数：损失函数作为评价模型收敛的好坏，一定程度上决定了该模型的性能高低，人员重识别中常用的损失函数除了分类损失外，还包括Triplet loss和Trihard loss。Tripletloss中，由于输入三元组样本是随机挑选的，导致挑选出的很可能是简单样本，持续对简单样本的学习训练会限制模型的泛化能力。在Tripletloss基础上引入难样本采样思想，提出Trihardloss损失函数定义为

公式(1)中，每一个batch都包含P×K张图片，P表示ID数量，K表示每一个ID下图片数量；针对每一张图片a，A表示与a相同ID的图片集，d表示欧几里得距离量度，B表示与a不同ID的图片集，n表示与a不同ID的图片集中的某一张图片，alpha表示边界，最佳取值为0.3；通过这种难样本采样方式，分别找出与a特征距离最大的正样本对以及与a特征距离最小的负样本对。

Trihardloss通过训练最难的正样本对和最难的负样本对，改善了模型的性能，但是在训练过程中只考虑了正负样本对之间的相对距离，即正样本对特征距离的最大值和负样本对特征距离的最小值之间差值一定，导致损失结果相同，易忽略正样本对之间的绝对距离。

为解决此问题，本发明提出权重约束的难样本采样损失函数定义为

权重约束的难样本采样损失函数包含Trihardloss和权重约束项两部分，其中β表示权重系数，通过β权重约束，在正样本对和负样本对距离度量之间差值一定时，正样本对特征距离的最大值越小，损失值就越小，正样本对的聚类性能就越好。权重约束的难样本采样损失函数能够提高模型对于人员外观变化的自适应性，实现煤矿场景下人员身份的准确识别。针对煤矿人员统一工作服的难点，提出基于权重约束的难样本采样损失函数，保证模型获得更好的区分度和高性能。

(2)边界余弦Softmax损失函数：在人员重识别问题中，Softmax损失函数是能很好地拉开不同类之间的距离，但是对于同类别，却很难区分类内的差别。为了解决这个问题，本发明提出了边界余弦Softmax损失函数，通过对权重向量和特征向量归一化，并引入边界边界参数m，使得类间差异最大化，而类内差异最小，同时更好地学习行人的深层特征。

常用的分类损失函数，即Softmax损失。若给定一个输入特征向量x_i以及对应的标签y_i，传统的softmax损失如下表示：

式(1)中p_i表示x_i被正确分类的后验概率。N是训练样本大小，C是类别数。而代表的是一个全连接层的权重向量W_i和偏移量B_i的激活，W_j表示权重向量W的第j列，/>W_yi表示W的第yi列；

为了方便计算，本发明将偏移量B_i设置为0，此时f_i应为：

式(2)中θ_j是权重向量W_i和嵌入特征向量x之间的角度,其角度范围0≤θ_j≤π。

观察式(2)，可知后验概率p_i不仅与权重向量W_j和特征向量x有关，还与θ_j有关。本发明中对权重向量进行L2正则化，即||W_i||＝1。通过实验表明，对权重向量正则化，性能会有所提升。本发明还对特征向量||x_i||进行L2正则化，同时将||x_i||缩放到s，这样就会使得整个特征向量集具有相同的值，使得学习仅依赖于余弦值来改善分辨能力，本发明将参数s设置为30。此时，修改余弦softmax损失(CSL)为

观察公式(3)可知，预测概率p_i仅依赖于余弦值。本发明通过对特征向量x正则化，因此模型在余弦空间所学习到的特征是可分离的，就是说正样本特征向量聚集在一起，负样本特征向量就被推开。余弦softmax损失能够很好地正确分类，但不能明显的区分类内的不同。为了解决这一问题，本发明还引入了余弦边界m，所以本发明提出边界余弦损失函数，即为：

满足条件为：

式中：N为训练样本批次数，C为数据集类别数，x_i对应于真实类别y_i的第i个样本的特征向量，W_j是类别j的权重向量，θ_j是权重向量与特征向量的夹角。在本发明实验中，令m＝0.35。

通过二分类来解释余弦边界m的作用。θ_i是特征向量x_i之间的角度，C₁和C₂为x_i的类别(i＝1,2)。当特征向量属于C₁，对于余弦softmax损失，要满足cosθ₁＞cosθ₂。同理，cosθ₂＞cosθ₁时，特征向量属于类别C₂。观察可知，余弦softmax能够很好的正确分类，拉开不同类间的距离，但对于难负样本却很难正确分类。而对于边界余弦softmax损失，通过引入超参数m(m≥0)控制余弦边界的大小，只有满足cosθ₁-m＞cosθ₂时，特征向量才属于类别C₁，可知分类更加严格。所提出的边界余弦softmax损失不仅仅适用于二分类，其他多分类也同样适用，能够学习到更好地分辨特征。

采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习，最终的损失函数被定义为：

L_total＝(1-ω)Lmc+ωL_Thdw (10)

其中，标量ω∈[0,1]是用来平衡Softmax损失和三元组损失函数。适当的ω，可以显著提高特征的识别能力,本发明ω通过实验选取。本发明根据公式(10)比较了不同ω的值；当ω＝0时，仅使用单一的边界余弦Softmax损失来监督训练网络，将卷积描述符作为唯一的行人特征描述符，从而没有充分利用不同层次行人特征信息；同时Softmax损失只学习可分离的特征，所以学习到的特征辨别力不足；当ω＞0不变性学习时，联合边界余弦Softmax损失和权重约束难样本采样损失函数监督训练的方法显著地提高；发现当ω＝0.6，效果最好，验证了本发明所提出方法的有效性，结合边界余弦Softmax损失和权重约束难样本采样损失函数监督学习，互相弥补了各自的不足，能够学习多层次更细粒度的特征；但当ω＝1时，由于局部融合分支直接将f_{pab_2048_1}和f_{pab_2048_2}作为最后的描述符，单使用权重约束难样本采样损失作为监督训练，效果不如联合训练。

Claims

1.一种厂区工作人员搜索方法，包括：

从所述标注监控视频图中获取目标人员矩形图像截图；

将目标人员矩形图像截图和所有待确定人员矩形图像截图输入预设的人员识别模型进行特征比对，获得人员匹配结果；所述人员识别模型由多个特定人员矩形训练图像和每个人员矩形训练图像对应的人员身份标记信息训练生成；

其中，所述人员检测为基于多尺度预测YOLOv4的人员检测，在YOLOv4的Backbone阶段增加浅层特征提取，同时在Head阶段增加两个浅层特征预测输出，将多尺度预测数量扩展为五个；

所述人员识别模型的训练方法，包括：

采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型，最终得到人员识别模型；

其中，所述采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练所述预设分类模型包括：采用权重约束难样本采样损失函数和边界余弦Softmax损失函数联合监督来训练神经网络识别特征学习，最终的损失函数为：L_total＝(1-ω)Lmc+ωL_Thdw，其中，标量ω∈[0,1]，L_Thdw为权重约束的难样本采样损失函数，L_mc为所述边界余弦损失函数；

所述权重约束的难样本采样损失函数定义为：

权重约束的难样本采样损失函数包含Trihard loss和权重约束项两部分，其中β表示权重系数，每一个batch都包含P×K张图片，P表示ID数量，K表示每一个ID下图片数量；针对每一张图片a，A表示与a相同ID的图片集，d表示欧几里得距离量度，B表示与a不同ID的图片集，n表示与a不同ID的图片集中的某一张图片，alpha即α表示边界；

所述边界余弦损失函数定义为：

满足条件为：

式中：N为训练样本批次数，C为数据集类别数，x_i对应于真实类别y_i的第i个样本的特征向量，W_j是类别j的权重向量，θ_j是权重向量与特征向量的夹角；m为余弦边界。

2.根据权利要求1所述的一种厂区工作人员搜索方法，其中，所述Backbone阶段增加浅层特征提取包括：增加CBL，所述CBL指卷积层、批量归一化层和激活函数层的组合。

3.根据权利要求1所述一种厂区工作人员搜索方法，其中，所述对所述人体矩形图像进行特征提取采用微调的ResNet50进行特征提取，所述微调的ResNet50，删除了ResNet50的最后一个下采样层；添加了全局平均池化(GAP)层来替换ResNet50后面的全连接(FC)层，并且将内核池化由16x8转换为1x1，以获得2048维特征向量；所有连接层中的每个神经元都与前一层中的所有神经元完全连接，以将分类的本地信息整合到池化层中；增加批量归一化层(BN层)和dropout(DP)层以避免过度拟合问题；添加BN和FC层作为判别描述符，以将网络聚焦在输入图像上，以获得用于人识别的512维特征向量。

4.根据权利要求1所述一种厂区工作人员搜索方法，其中，所述ω＝0.6。

5.一种计算设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器储器；所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述一种厂区工作人员搜索方法法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述一种厂区工作人员搜索方法。