CN116110076A

CN116110076A - 基于混合粒度网络的输电高空作业人员身份重识别方法和系统

Info

Publication number: CN116110076A
Application number: CN202310089578.8A
Authority: CN
Inventors: 张文彬; 李海冰; 崔隽峰; 王东林; 张军民; 席晓强; 刘晨; 王昌幼; 周晋; 张国梁; 吴鹏; 杜泽旭
Original assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-12
Anticipated expiration: 2043-02-09
Also published as: CN116110076B

Abstract

基于混合粒度网络的输电高空作业人员身份重识别方法和系统，所述方法包括：获取无人机回传的输电高空作业人员图像，对其进行条形区域划分和特征处理，根据特征向量欧式距离确定待构建混合粒度网络的局部分支数量n；构建包括全局分支和n个局部分支的混合粒度网络，并对全局分支和局部分支分别设置损失函数，得到ReID模型；训练并测试ReID模型并采用测试后的ReID模型进行输电高空作业人员身份重识别。本发明利用人员全局特征和多粒度局部特征，结合多分支损失函数，实现了基于混合粒度网络的输电高空作业人员身份重识别。

Description

基于混合粒度网络的输电高空作业人员身份重识别方法和系统

技术领域

本发明属于计算机视觉技术领域，涉及基于混合粒度网络的输电高空作业人员身份重识别方法和系统。

背景技术

人员身份重识别主要解决跨摄像头跨场景下人员身份的识别与检索。该技术可以作为人脸识别技术的重要补充，实现对无法获取清晰拍摄人脸的人员目标进行跨摄像头连续跟踪，增强数据的时空连续性，在视频监控、安防及刑侦等领域中都有着广泛的应用前景及价值。其目标是根据一个人物在某个摄像头下的图片(通常称为query)找到同一个人物在其他摄像头图像底库(通常称为gallery)下出现的图片。

人员身份重识别的完整过程分为三个步骤，首先从摄像头的监控视频获得原始图片；其次，基于这些原始图片把人员的位置检测出来；最后，基于检测出来的人员图片，用人员身份重识别技术计算图片的相似性度量。

目前，常用的人员身份重识别算法包括表征学习、度量学习和局部特征学习。表征学习通常将人员重识别问题定义为分类任务，之后采用匹配的损失函数实现监督学习；度量学习采用三元损失的方案，模型优化目标是同类的距离更近，不同类的距离更远；局部特征学习较为常用的方式包含基于局部区域调整的解决方案、基于姿态估计局部特征解决方案和基于均分区域特征描述的解决方案。

全局特征学习的目的是捕获最明显的外表线索来表示人员ID。但由于输电高空ReID训练集缺乏足够的规模和多样性，一些不明显的的或者出现频次低的细节特征往往很容易被忽略。这些被忽略掉的细节对全局特征学习难以提供有效增益，使得全局特征很难适应相似的类间通用属性或较大的类内差异。

基于无人机采集图像的输电高空作业人员身份重识别是人员违章行为识别的前置条件。真实部署环境下，由于无人机拍摄视角的不确定性、不同城市场景、不同季节、人员着装的相似性、人脸信息的清晰度以及杆塔或线路的遮挡等诸多外界因素的影响，图像成像质量如光照、清晰度等、所处的背景环境都存在着显著的差异，即存在域差异。域差异的存在，导致在通用训练集上训练的模型难以适应真实输变电高空作业部署环境，进而导致模型性能的衰退，模型的域适应能力以及基于模型的人员身份重识别平均精度均值有待进一步提升。

发明内容

为解决现有技术中存在的不足，本发明提供基于混合粒度网络的输电高空作业人员身份重识别方法和系统，利用人员全局特征和多粒度局部特征，结合多分支损失函数，实现基于混合粒度网络的输电高空作业人员身份重识别。

本发明采用如下技术方案：

基于混合粒度网络的输电高空作业人员身份重识别方法，包括以下步骤：

步骤1：获取无人机回传的输电高空作业人员图像，对其进行条形区域划分和特征处理，根据特征向量欧式距离确定待构建混合粒度网络的局部分支数量n；

步骤2：构建包括全局分支和n个局部分支的混合粒度网络，并对全局分支和局部分支分别设置损失函数，得到ReID模型；

步骤3：训练并测试ReID模型并采用测试后的ReID模型进行输电高空作业人员身份重识别。

本发明进一步包括以下优选方案：

步骤1包括：

步骤11：对无人机回传图像进行作业人员目标检测，对其进行条形区域划分，分别生成原图以及上下二均分、上中下三均分、横向四均分、横向五均分粒度的图像；

步骤12：利用经典度量学习基准算法身份嵌入网络对原图进行特征提取，得到原图特征图，利用基于部件的身份嵌入网络模型对其它每个粒度下的图像块进行特征提取，得到二均分、三均分、四均分和五均分特征响应图；

步骤13：分别将二均分、三均分、四均分和五均分特征响应图与原图特征图进行求和，得到对应的特征图，随后从左上角至右下角依次级联特征图像素值，并做归一化处理，得到关于原图与上下二均分、上中下三均分、横向四均分、横向五均分粒度的图像的整合特征向量P₁、P₂、P₃、P₄；

步骤14：设特征空间欧氏距离阈值为Q，依次计算P₁与P₂、P₂与P₃、P₃与P₄的欧氏距离，记为α₁、α₂、α₃，若α_n>Q，则局部分支数量取n，分支数量取n+1。

优选地，步骤14中，当α₁、α₂、α₃中存在两个或以上数值均大于Q时，n取其中的最大值。

优选地，步骤2所述混合粒度网络采用ResNet50作为骨干网络，其输入为作业人员的query图像序列和gallery图像序列，输入图像经骨干网络处理后输入全局分支和n个局部分支，全局分支对骨干网络输出的特征图谱进行下采样操作，n个局部分支对骨干网络输出的特征图谱进行分割后，各分支进行max-pooling操作，然后将全局分支和局部分支全部输出特征向量级联，得到表征query图像或gallery图像的特征向量，通过对某一query图像的特征向量与gallery序列图像的特征向量计算欧氏距离，得到最终的ReID匹配结果。

优选地，所述全局分支设有global max pooling层，局部分支设有两个pooling层，其一为global max pooling层，用于强制局部分支学习细节的联合信息，另一pooling层用于引导学习细节信息。

优选地，步骤2中，全局分支设置的损失函数为Softmax Loss，局部分支设置的损失函数为Softmax Loss和Triplet Loss。

优选地，步骤3中，在训练阶段，对用于Triplet Loss的特征求得后取平均；所有的Softmax Loss的特征求得后取平均，之后进行累加得到一个总的损失，用于神经网络的反向传播训练过程，进而得到训练后的ReID模型。

优选地，步骤3中，在测试阶段，Triplet Loss支路输出的全局特征向量与分割的局部特征向量进行级联，得到关于输入图像的特征向量，用于后续的ReID匹配任务。

基于混合粒度网络的输电高空作业人员身份重识别系统，包括：

局部分支数量确定模块，用于获取无人机回传的输电高空作业人员图像，对其进行条形区域划分和特征处理，根据特征向量欧式距离确定待构建混合粒度网络的局部分支数量n；

ReID模型构建模块，用于构建包括全局分支和n个局部分支的混合粒度网络，并对全局分支和局部分支分别设置损失函数，得到ReID模型；

人员身份重识别模块，用于训练并测试ReID模型并采用测试后的ReID模型进行输电高空作业人员身份重识别。

一种终端，包括处理器及存储介质；所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行所述方法的步骤。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述方法的步骤。

本发明的有益效果在于，与现有技术相比，本发明充分考虑仅采用全局特征容易忽略不显著的人员细节以及出现次数较少的特征的问题，基于结构信息的局部特征，提出了基于混合粒度网络的输电高空作业人员身份重识别方案。该方案所构建的网络全局分支负责粗粒度的特征提取，同时通过分割细粒度的增加，以使网络学习更加丰富的作业人员细节信息，进而显著提升人员身份重识别性能。

(1)本发明所提神经网络能够融合提取输电高空作业采集图像不同粒度细分下的特征信息，并基于所设置的损失函数，仅利用输入数据完成对网络参数的迭代训练调优，以支撑输电高空作业人员身份重识别任务，也可用于解决更广泛的计算机视觉决策级融合问题。

(2)本发明的多分支混合粒度网络以用于决策信息生成，由一个用于全局特征表达的分支和若干个用于局部特征表达的分支组成，并设计了相应的损失函数组合应用方案，避免了仅采用全局特征容易忽略不显著的人员细节以及出现次数较少的特征的问题，能够解决人员重识别问题中对于细小特征识别性能差的问题。

(3)本发明的面向输电高空作业人员重识别的局部信息分块划分方式，基于混合粒度网络总体架构设计，以使混合粒度网络head部分的设计具备更强的可解释性。

附图说明

图1为本发明混合粒度网络架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例，而不是全部实施例。基于本发明精神，本领域普通技术人员在没有作出创造性劳动前提下所获得的有所其它实施例，都属于本发明的保护范围。

如图1所示，本发明实施例1提供基于混合粒度网络的输电高空作业人员身份重识别方法，在本发明优选但非限制性的实施方式中，所述方法包括以下步骤：

步骤1：获取无人机回传的输电高空作业人员图像，对其进行条形区域划分和特征提取，根据特征向量欧式距离确定待构建混合粒度网络的局部分支数量n，包括：

本发明具体实施时，根据实际网络结构的复杂度及ReID任务实时性需求，最高测试粒度为细分5，更多细分时重识别实时性和准确性存在明显下降趋势，因此本专利仅针对五均分以下情况进行分析。

步骤12：利用经典度量学习基准算法身份嵌入(Identification Embedding，IDE)网络对原图进行特征提取，得到原图特征图；

利用基于部件的身份嵌入网络模型对其它每个粒度下的图像块进行特征提取，得到二均分、三均分、四均分和五均分特征响应图，响应强度由来自所有空间位置的特征向量的L2范数计算得到。

进一步优选地，当α₁、α₂、α₃中存在两个或以上数值均大于Q时，n取其中的最大值。

本发明提出多分支混合粒度网络，由一个用于全局特征表达的分支和若干个用于局部特征表达的分支组成；最后，将图像统一划分为若干个条形区域，并通过改变不同局部分支中的条形区域数量，以获取多粒度的局部特征表达，混合粒度网络结构具体设计如下：

混合粒度网络包括全局分支和局部分支，采用ResNet50作为骨干网络，其输入图的尺寸是384×128，全局分支的特征图谱输出是尺寸为12×4；

局部分支部分，以采用二均分和三均分为例，在Res4_1的位置将stride等于2的下采样操作更改为1，确保局部分支1和局部分支2比全局分支输出图像尺寸大一倍，即为24×8。

此处，强制分配局部分支1和局部分支2学习细粒度特征，特征尺寸较大，有利于网络学到更多细节特征。

网络结构总体而言，左侧是两个作业人员的图像输入，分别为query图像序列和gallery图像序列，右侧包含3个模块，中间为3个分支的共享网络；

在全局分支，第四层和第五层(深度学习领域下采样用方块的高度体现，选择第四层和第五层属于实验经验设定)进行了下采样操作；

两个局部分支，第四层和第五层之间不做下采样操作。

随后对局部分支1和局部分支2做从上到下的纵向分割，局部分支1在第五层特征图谱分成两块，局部分支2对特征图谱从上到下分成三块，即两个局部分支分别做2均分和3均分。

在分割完成后，执行Max-pooling操作，得到2048维的输出向量。即根据细分提取特征后，通过Max-pooling层得到2048维输出向量。

局部分支1、局部分支2的操作与全局分支不同。

局部分支1有两个pooling，第一个是两个分块合在一起做global max pooling，强制局部分支1学习细节的联合信息，局部分支1另外的pooling操作用于引导学习细节信息。

局部分支2有两个pooling，第一个是三个分块合在一起做global max pooling，强制局部分支2学习细节的联合信息，局部分支2另外的pooling操作用于引导学习细节信息。

全局分支仅有一个global max pooling操作。

特征图尺寸统一从2048维降低至256维，以便更加高效的执行计算任务。

网络输出为用于表征query图像或gallery图像的特征向量，其由全局分支和局部分支全部输出特征向量级联得到。

通过对某一query图像的特征向量与gallery序列图像的特征向量计算欧氏距离，得到最终的ReID匹配结果。

混合粒度网络损失函数设计如下：

Triplet Loss损失函数能够使得相同作业人员目标所提取的特征更接近，使得不同作业人员所提取的特征差异更明显；Softmax Loss损失函数常用于分类任务，用于增强作业人员目标的类内特征一致性。本发明所设计模型采用了两种损失函数，分别是SoftmaxLoss和Triplet Loss，当局部分支数量取2时，其各自使用频率为8和3。具体如下：

1)在全局分支，对2048维特征做Softmax Loss，对256维特征做Triplet Loss。

2)在局部分支1和局部分支2中，对于全局信息2048维特征做Softmax Loss，对256维特征做Triplet Loss；对于局部特征只做Softmax Loss。

步骤3：训练并测试ReID模型并采用测试后的ReID模型进行输电高空作业人员身份重识别，具体的：

在训练阶段，对3个用于Triplet Loss(增强类间差异性)的特征求得后取平均；所有的Softmax Loss(类内ID一致性)的特征求得后取平均，之后进行累加得到一个总的损失，用于神经网络的反向传播训练过程，进而得到ReID模型。

在测试阶段，Triplet Loss支路输出的3(32，256)个全局特征向量与分割的5(32，256)个局部特征向量进行级联，得到关于输入图像的(32，256×8＝2048)维特征向量，用于后续的ReID匹配任务。

本发明的有益效果在于，与现有技术相比：

本发明的有益效果在于，与现有技术相比，本发明充分考虑仅采用全局特征容易忽略不显著的人员细节以及出现次数较少的特征的问题，基于结构信息的局部特征，提出了基于混合粒度网络的输电高空作业人员身份重识别方法。该方法所构建的网络全局分支负责粗粒度的特征提取，同时通过分割细粒度的增加，以使网络学习更加丰富的作业人员细节信息，进而显著提升人员身份重识别性能。

(1)本发明的整合各粒度判别信息的端到端学习策略，可用于输电高空作业人员身份重识别任务，也可用于解决更广泛的计算机视觉决策级融合问题。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

所述方法包括以下步骤：

2.根据权利要求1所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤1包括：

3.根据权利要求2所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤14中，当α₁、α₂、α₃中存在两个或以上数值均大于Q时，n取其中的最大值。

4.根据权利要求1所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤2所述混合粒度网络采用ResNet50作为骨干网络，其输入为作业人员的query图像序列和gallery图像序列，输入图像经骨干网络处理后输入全局分支和n个局部分支，全局分支对骨干网络输出的特征图谱进行下采样操作，n个局部分支对骨干网络输出的特征图谱进行分割后，各分支进行max-pooling操作，然后将全局分支和局部分支全部输出特征向量级联，得到表征query图像或gallery图像的特征向量，通过对某一query图像的特征向量与gallery序列图像的特征向量计算欧氏距离，得到最终的ReID匹配结果。

5.根据权利要求4所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

所述全局分支设有global max pooling层，局部分支设有两个pooling层，其一为globalmax pooling层，用于强制局部分支学习细节的联合信息，另一pooling层用于引导学习细节信息。

6.根据权利要求1所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤2中，全局分支设置的损失函数为Softmax Loss，局部分支设置的损失函数为Softmax Loss和Triplet Loss。

7.根据权利要求6所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤3中，在训练阶段，对用于Triplet Loss的特征求得后取平均；所有的SoftmaxLoss的特征求得后取平均，之后进行累加得到一个总的损失，用于神经网络的反向传播训练过程，进而得到训练后的ReID模型。

8.根据权利要求6所述的基于混合粒度网络的输电高空作业人员身份重识别方法，其特征在于：

步骤3中，在测试阶段，Triplet Loss支路输出的全局特征向量与分割的局部特征向量进行级联，得到关于输入图像的特征向量，用于后续的ReID匹配任务。

9.基于混合粒度网络的输电高空作业人员身份重识别系统，所述系统用于实现权利要求1-8任一项所述的方法，其特征在于：所述系统包括：

10.一种终端，包括处理器及存储介质；其特征在于：

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-8任一项所述方法的步骤。

11.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。