CN115147871B - 遮挡环境下行人再识别方法 - Google Patents

遮挡环境下行人再识别方法 Download PDF

Info

Publication number
CN115147871B
CN115147871B CN202210848547.1A CN202210848547A CN115147871B CN 115147871 B CN115147871 B CN 115147871B CN 202210848547 A CN202210848547 A CN 202210848547A CN 115147871 B CN115147871 B CN 115147871B
Authority
CN
China
Prior art keywords
pedestrian
picture
network
feature
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210848547.1A
Other languages
English (en)
Other versions
CN115147871A (zh
Inventor
黄泽元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Longzhi Digital Technology Service Co Ltd
Original Assignee
Beijing Longzhi Digital Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Longzhi Digital Technology Service Co Ltd filed Critical Beijing Longzhi Digital Technology Service Co Ltd
Priority to CN202210848547.1A priority Critical patent/CN115147871B/zh
Publication of CN115147871A publication Critical patent/CN115147871A/zh
Application granted granted Critical
Publication of CN115147871B publication Critical patent/CN115147871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开涉及图像处理技术领域,提供了一种遮挡环境下行人再识别方法。该方法包括:通过构建主干网络、编码网络和解码网络;利用第一损失函数对主干网络进行第一训练;建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练;建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练;基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练。

Description

遮挡环境下行人再识别方法
技术领域
本公开涉及图像处理技术领域,尤其涉及一种遮挡环境下行人再识别方法。
背景技术
在一个时间段内,获得的所有监控图片中,可能一个人有多张监控图片,如果将所有监控图片分别划分给该时间段内监控设备下出现的每个人,然后利用每个人的多张图片分析此人,那么可以极大的提高分析的精度和正确率,上述在很多监控图片中,找到特定的一个人对应的图片的技术称之为行人重识别。行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。目前的行人重识别算法往往是通过训练一个神经网络模型来实现的,对神经网络模型的结构并没有改变,所以存在识别精度低的问题。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:目前的行人再识别算法识别精度低的问题。
发明内容
有鉴于此,本公开实施例提供了一种遮挡环境下行人再识别方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,目前的行人再识别算法识别精度低的问题。
本公开实施例的第一方面,提供了一种遮挡环境下行人再识别方法,包括:构建主干网络、编码网络和解码网络;利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片。
本公开实施例的第二方面,提供了一种遮挡环境下行人再识别装置,包括:构建模块,被配置为构建主干网络、编码网络和解码网络;第一训练模块,被配置为利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;第二训练模块,被配置为建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;第三训练模块,被配置为建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;第四训练模块,被配置为基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;识别模块,被配置为获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过构建主干网络、编码网络和解码网络;利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片,因此,采用上述技术手段,可以解决现有技术中,目前的行人再识别算法识别精度低的问题,进而提高行人再识别的精度。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种遮挡环境下行人再识别方法的流程示意图;
图3是本公开实施例提供的一种遮挡环境下行人再识别装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种遮挡环境下行人再识别方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块,也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接,以接收或发送信息等。需要说明的是,终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种遮挡环境下行人再识别方法的流程示意图。图2的遮挡环境下行人再识别方法可以由图1的计算机或服务器,或者计算机或服务器上的软件执行。如图2所示,该遮挡环境下行人再识别方法包括:
S201,构建主干网络、编码网络和解码网络;
主干网络可以是经典残差神经网络(ResNet)。编码网络是实现编码运算的网络,解码网络是实现解码运算的网络,编码网络和解码网络是本公开构建的新网络。
S202,利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;
S203,建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;
S204,建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;
S205,基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;
S206,获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片。
本公开遮挡环境下行人再识别,是指识别存在部分被遮挡的行人图片。对图片重建模型进行第二训练,可以理解为此时的主干网络被冻结(冻结是指主干网络不参与训练),对第一行人再识别模型进行第三训练,以及对第二行人再识别模型进行第四训练,可以理解为此时的主干网络被解冻。第二行人再识别模型比第一行人再识别模型少了解码网络,但是第二行人再识别模型与第一行人再识别模型都可以识别多张行人图片是否属于同一行人,因为第二行人再识别模型的结构更加精简,所以本公开在使用时,用的是第二行人再识别模型。
根据本公开实施例提供的技术方案,构建主干网络、编码网络和解码网络;利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片,因此,采用上述技术手段,可以解决现有技术中,目前的行人再识别算法识别精度低的问题,进而提高行人再识别的精度。
编码网络进行如下操作:第二特征,包括:第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征,第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征是分别通过主干网络的四个阶段输出的;用第二特征分别乘以第一矩阵参数、第二矩阵参数和第三矩阵参数,得到第一相乘矩阵、第二相乘矩阵和第三相乘矩阵;利用归一化指数函数处理第二相乘矩阵乘以第一相乘矩阵的转置的结果,得到第一处理矩阵;用第一处理矩阵乘以第三相乘矩阵,得到特征矩阵;利用激活函数处理特征矩阵乘以第四相乘矩阵的结果,得到第二处理矩阵;用第二处理矩阵乘以第五相乘矩阵,得到第三特征。
常用的神经网络模型涉及特征处理的阶段均可以分为四个主要的阶段,比如主干网络的四个涉及特征处理的阶段,可以是:Backbone(Backbone为特征提取网络)、Neck(Neck为特征处理网络,Neck可以更好的利用backbone提取的特征)、RPN(RPN为区域候选网络)、ROI Extractor(ROI Extractor为感兴区域提取模块)。主干网络分别在Backbone、Neck、RPN和ROI Extractor几个阶段会输出第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征(RPN和ROI Extractor涉及候选框和兴趣框的选择,实际上是特征的选择,也属于特征的处理阶段)。
需要说明的是第二特征和第一特征是相关的,都是主干网络提取到的特征,第一特征可以是主干网络的输出的特征,第二特征是主干网络的内部的特征。
需要说明的是,本公开中的特征或者矩阵的维度都可以根据情况进行变换,以满足各个矩阵间的计算。
下面举例说明,编码网络进行的操作:
行人图片Pic经过主干网络4个阶段,有四个输出第二特征:F1,F2,F3,F4,F1,F2,F3,F4分别是第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征。
对于F1
K=F1*W1
Q=F1*W2
V=F1*W3
W1,W2,W3分别是第一矩阵参数、第二矩阵参数和第三矩阵参数,K,Q,V分别是第一相乘矩阵、第二相乘矩阵和第三相乘矩阵。
然后K和Q相乘,softmax激活函数操作后,乘上V,就完成了F1的自注意力计算,得到了特征矩阵
第一处理矩阵是softmax(Q*KT)。
激活函数relu处理左乘第四相乘矩阵W4的结果,得到第二处理矩阵,利用第二处理矩阵右乘第五相乘矩阵W5,得到F1的第三特征/>
将上述F1的计算定义为CESA函数,那么,上述计算可以简化表示为:
F2,F3,F4的第三特征的计算过程和F1的第三特征的计算过程类似。
F2进行堆叠,再进行计算。公式:
F3进行堆叠,再进行计算。公式:
F4进行堆叠,再进行计算。公式:
将上述编码运算,定义为“编码网络”,CESA-Encoder。其中间计算结果含四个,如下:
编码网络用于提供编码运算,解码网络用于提供解码运算,解码运算是编码运算的逆运算;将第三特征输入解码网络,输出第四特征,其中,第三特征是编码网络的输出。
解码运算,本质是上述编码运算的逆运算,如下:
将上述解码运算,定义为“编码网络”,ECSA-DEcoder。其中间计算结果含四个,如下:
图片重建任务,包括:对输入编码网络前的行人图片进行随机擦除处理;对第四特征进行多次上采样和反卷积,得到行人图片重建后的图片。
对将行人图片输入编码网络前,需要对行人图片进行随机的擦除,随机擦除图像中百分之r的区域。比如r是50,那就是随机擦除50%的区域。行人图片擦除的部分就是遮挡的部分。
图片重建任务是利用图片重建模型得到重建后的行人图片,在这个目的下,对图片重建模型进行第二训练。
图片比对任务是对比两张或者多张行人图片是否属于同一行人,在这个目的下,对第一行人再识别模型和第二行人再识别模型进行第二训练。
第一损失函数loss1:
loss1=max(dist(fa,fp)-dist(fa,fn)+m,0)
其中,fa,fp均是第一行人的两张行人图片的第一特征,fn是第二行人的行人图片的第一特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
行人图片是多个行人的多张图片,在训练时,每批次训练,从多张图片中选出三张,两张行人图片是属于同一行人的,另一张是属于另外一个行人的。
第二损失函数loss2:
loss2=∑|RePic-Pic|
其中,RePic是行人图片重建后的图片,Pic是行人图片,∑是求和函数,| |求取绝对值的符号。
公式中的RePic和Pic可以是表示图片信息的矩阵。因为行人图片是多张,每张行人图片都有重建后的一张图片,所以应该将每个行人图片和每张行人图片重建后的图片的距离求和。
第三损失函数loss3:
loss3=dist(fRePic,fpic)
其中,fRePic是行人图片重建后的图片的第一特征,fpic是行人图片的第一特征,dist()是欧式距离加权函数。
第四损失函数loss4:
其中,均是第一行人的两张行人图片的第二特征,/>是第二行人的行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
m可以由使用者自行设置。
第五损失函数loss5:
其中,是第一行人的一张行人图片的第二特征,fp是第一行人的另一张行人图片的第一特征,fn是第二行人的行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
在一个可选实施例中,对第二特征依次进行卷积计算、利用激活函数处理、以及乘以第三特征,得到相乘结果;用相乘结果更新第三特征。
卷积计算可以为卷积核为3x3、下采样为2、通道数为1的卷积计算。
本公开中的激活函数可以是sigmoid。
相乘结果,包括:和/>
利用行人再识别模型识别行人图片,可以是依据如下公式:
是行人再识别模型的输出,f1是主干网络的输出,/>是编码网络的输出,α和β是预设权重。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的一种遮挡环境下行人再识别装置的示意图。如图3所示,该遮挡环境下行人再识别装置包括:
构建模块301,被配置为构建主干网络、编码网络和解码网络;
第一训练模块302,被配置为利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;
第二训练模块303,被配置为建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;
第三训练模块304,被配置为建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;
第四训练模块305,被配置为基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;
识别模块306,被配置为获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片。
本公开遮挡环境下行人再识别,是指识别存在部分被遮挡的行人图片。对图片重建模型进行第二训练,可以理解为此时的主干网络被冻结(冻结是指主干网络不参与训练),对第一行人再识别模型进行第三训练,以及对第二行人再识别模型进行第四训练,可以理解为此时的主干网络被解冻。第二行人再识别模型比第一行人再识别模型少了解码网络,但是第二行人再识别模型与第一行人再识别模型都可以识别多张行人图片是否属于同一行人,因为第二行人再识别模型的结构更加精简,所以本公开在使用时,用的是第二行人再识别模型。
根据本公开实施例提供的技术方案,构建主干网络、编码网络和解码网络;利用第一损失函数对主干网络进行第一训练,使得主干网络可以从行人图片中提取到第一特征;建立图片重建任务,并基于图片重建任务,利用第二损失函数对编码网络和解码网络组成的图片重建模型进行第二训练,使得图片重建模型可以对行人图片进行重建,重建后的行人图片的部分被遮挡;建立图片比对任务,并基于图片比对任务和图片重建任务,利用第二损失函数和第三损失函数对主干网络、编码网络和解码网络组成的第一行人再识别模型进行第三训练,使得第一行人再识别模型可以识别多张行人图片是否属于同一行人;基于图片比对任务,利用第一损失函数、第四损失函数和第五损失函数对主干网络和编码网络组成的第二行人再识别模型进行第四训练,使得第二行人再识别模型可以识别多张行人图片是否属于同一行人;获取待识别图片集,利用行人再识别模型识别出待识别图片集中的属于目标行人的多张目标行人图片,因此,采用上述技术手段,可以解决现有技术中,目前的行人再识别算法识别精度低的问题,进而提高行人再识别的精度。
编码网络进行如下操作:第二特征,包括:第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征,第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征是分别通过主干网络的四个阶段输出的;用第二特征分别乘以第一矩阵参数、第二矩阵参数和第三矩阵参数,得到第一相乘矩阵、第二相乘矩阵和第三相乘矩阵;利用归一化指数函数处理第二相乘矩阵乘以第一相乘矩阵的转置的结果,得到第一处理矩阵;用第一处理矩阵乘以第三相乘矩阵,得到特征矩阵;利用激活函数处理特征矩阵乘以第四相乘矩阵的结果,得到第二处理矩阵;用第二处理矩阵乘以第五相乘矩阵,得到第三特征。
常用的神经网络模型涉及特征处理的阶段均可以分为四个主要的阶段,比如主干网络的四个涉及特征处理的阶段,可以是:Backbone(Backbone为特征提取网络)、Neck(Neck为特征处理网络,Neck可以更好的利用backbone提取的特征)、RPN(RPN为区域候选网络)、ROI Extractor(ROI Extractor为感兴区域提取模块)。主干网络分别在Backbone、Neck、RPN和ROI Extractor几个阶段会输出第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征(RPN和ROI Extractor涉及候选框和兴趣框的选择,实际上是特征的选择,也属于特征的处理阶段)。
需要说明的是第二特征和第一特征是相关的,都是主干网络提取到的特征,第一特征可以是主干网络的输出的特征,第二特征是主干网络的内部的特征。
需要说明的是,本公开中的特征或者矩阵的维度都可以根据情况进行变换,以满足各个矩阵间的计算。
下面举例说明,编码网络进行的操作:
行人图片Pic经过主干网络4个阶段,有四个输出第二特征:F1,F2,F3,F4,F1,F2,F3,F4分别是第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征。
对于F1
K=F1*W1
Q=F1*W2
V=F1*W3
W1,W2,W3分别是第一矩阵参数、第二矩阵参数和第三矩阵参数,K,Q,V分别是第一相乘矩阵、第二相乘矩阵和第三相乘矩阵。
然后K和Q相乘,softmax激活函数操作后,乘上V,就完成了F1的自注意力计算,得到了特征矩阵
第一处理矩阵是softmax(Q*KT)。
激活函数relu处理左乘第四相乘矩阵W4的结果,得到第二处理矩阵,利用第二处理矩阵右乘第五相乘矩阵W5,得到F1的第三特征/>
将上述F1的计算定义为CESA函数,那么,上述计算可以简化表示为:
F2,F3,F4的第三特征的计算过程和F1的第三特征的计算过程类似。
F2进行堆叠,再进行计算。公式:
F3进行堆叠,再进行计算。公式:
F4进行堆叠,再进行计算。公式:
将上述编码运算,定义为“编码网络”,CESA-Encoder。其中间计算结果含四个,如下:
编码网络用于提供编码运算,解码网络用于提供解码运算,解码运算是编码运算的逆运算;将第三特征输入解码网络,输出第四特征,其中,第三特征是编码网络的输出。
解码运算,本质是上述编码运算的逆运算,如下:
将上述解码运算,定义为“编码网络”,ECSA-DEcoder。其中间计算结果含四个,如下:
图片重建任务,包括:对输入编码网络前的行人图片进行随机擦除处理;对第四特征进行多次上采样和反卷积,得到行人图片重建后的图片。
对将行人图片输入编码网络前,需要对行人图片进行随机的擦除,随机擦除图像中百分之r的区域。比如r是50,那就是随机擦除50%的区域。行人图片擦除的部分就是遮挡的部分。
图片重建任务是利用图片重建模型得到重建后的行人图片,在这个目的下,对图片重建模型进行第二训练。
图片比对任务是对比两张或者多张行人图片是否属于同一行人,在这个目的下,对第一行人再识别模型和第二行人再识别模型进行第二训练。
第一损失函数loss1:
loss1=max(dist(fa,fp)-dist(fa,fn)+m,0)
其中,fa,fp均是第一行人的两张行人图片的第一特征,fn是第二行人的行人图片的第一特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
行人图片是多个行人的多张图片,在训练时,每批次训练,从多张图片中选出三张,两张行人图片是属于同一行人的,另一张是属于另外一个行人的。
第二损失函数loss2:
loss2=∑|RePic-Pic|
其中,RePic是行人图片重建后的图片,Pic是行人图片,∑是求和函数,| |求取绝对值的符号。
公式中的RePic和Pic可以是表示图片信息的矩阵。因为行人图片是多张,每张行人图片都有重建后的一张图片,所以应该将每个行人图片和每张行人图片重建后的图片的距离求和。
第三损失函数loss3:
loss3=dist(fRePic,fpic)
其中,fRePic是行人图片重建后的图片的第一特征,fpic是行人图片的第一特征,dist()是欧式距离加权函数。
第四损失函数loss4:
其中,均是第一行人的两张行人图片的第二特征,/>是第二行人的行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
m可以由使用者自行设置。
第五损失函数loss5:
其中,是第一行人的一张行人图片的第二特征,fp是第一行人的另一张行人图片的第一特征,fn是第二行人的行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
可选地,构建模块301还被配置为对第二特征依次进行卷积计算、利用激活函数处理、以及乘以第三特征,得到相乘结果;用相乘结果更新第三特征。
卷积计算可以为卷积核为3x3、下采样为2、通道数为1的卷积计算。
本公开中的激活函数可以是sigmoid。
相乘结果,包括:和/>
利用行人再识别模型识别行人图片,可以是依据如下公式:
是行人再识别模型的输出,f1是主干网络的输出,/>是编码网络的输出,α和β是预设权重。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (8)

1.一种遮挡环境下行人再识别方法,其特征在于,包括:
构建主干网络、编码网络和解码网络;
利用第一损失函数对所述主干网络进行第一训练,使得所述主干网络可以从行人图片中提取到第一特征;
建立图片重建任务,并基于所述图片重建任务,利用第二损失函数对所述编码网络和所述解码网络组成的图片重建模型进行第二训练,使得所述图片重建模型可以对所述行人图片进行重建,重建后的行人图片的部分被遮挡;
建立图片比对任务,并基于所述图片比对任务和所述图片重建任务,利用所述第二损失函数和第三损失函数对所述主干网络、所述编码网络和所述解码网络组成的第一行人再识别模型进行第三训练,使得所述第一行人再识别模型可以识别多张所述行人图片是否属于同一行人;
基于所述图片比对任务,利用所述第一损失函数、第四损失函数和第五损失函数对所述主干网络和所述编码网络组成的第二行人再识别模型进行第四训练,使得所述第二行人再识别模型可以识别多张所述行人图片是否属于同一行人;
获取待识别图片集,利用所述行人再识别模型识别出所述待识别图片集中的属于目标行人的多张目标行人图片;
其中,所述编码网络进行如下操作:第二特征,包括:第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征,所述第一阶段特征、所述第二阶段特征、所述第三阶段特征和所述第四阶段特征是分别通过所述主干网络的四个阶段输出的;用所述第二特征分别乘以第一矩阵参数、第二矩阵参数和第三矩阵参数,得到第一相乘矩阵、第二相乘矩阵和第三相乘矩阵;利用归一化指数函数处理所述第二相乘矩阵乘以所述第一相乘矩阵的转置的结果,得到第一处理矩阵;用所述第一处理矩阵乘以所述第三相乘矩阵,得到特征矩阵;利用激活函数处理所述特征矩阵乘以第四相乘矩阵的结果,得到第二处理矩阵;用所述第二处理矩阵乘以第五相乘矩阵,得到第三特征;
其中,所述编码网络用于提供编码运算,所述解码网络用于提供解码运算,所述解码运算是所述编码运算的逆运算;将第三特征输入所述解码网络,输出第四特征,其中,所述第三特征是所述编码网络的输出。
2.根据权利要求1所述的方法,其特征在于,所述图片重建任务,包括:
对输入所述编码网络前的行人图片进行随机擦除处理;
对所述第四特征进行多次上采样和反卷积,得到所述行人图片重建后的图片。
3.根据权利要求1所述的方法,其特征在于,所述第一损失函数loss1:
loss1=max(dist(fa,fp)-dist(fa,fn)+m,0)
其中,fa,fp均是第一行人的两张所述行人图片的第一特征,fn是第二行人的所述行人图片的第一特征,m是常数,max()是取大函数,dist()是欧式距离加权函数;
和/或,所述第二损失函数loss2:
loss2=∑|RePic-Pic|
其中,RePic是所述行人图片重建后的图片,Pic是所述行人图片,∑是求和函数,||求取绝对值的符号;
和/或,所述第三损失函数loss3:
loss3=dist(fRePic,fpic)
其中,fRePic是所述行人图片重建后的图片的第一特征,fpic是所述行人图片的第一特征,dist()是欧式距离加权函数。
4.根据权利要求1所述的方法,其特征在于,所述第四损失函数loss4:
其中,均是第一行人的两张所述行人图片的第二特征,/>是第二行人的所述行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数;
和/或,所述第五损失函数loss5:
其中,是第一行人的一张所述行人图片的第二特征,fp是第一行人的另一张所述行人图片的第一特征,fn是第二行人的所述行人图片的第二特征,m是常数,max()是取大函数,dist()是欧式距离加权函数。
5.根据权利要求1所述的方法,其特征在于,包括:
对第二特征依次进行卷积计算、利用激活函数处理、以及乘以所述第三特征,得到相乘结果;
用所述相乘结果更新所述第三特征。
6.一种遮挡环境下行人再识别装置,
构建模块,被配置为构建主干网络、编码网络和解码网络;
第一训练模块,被配置为利用第一损失函数对所述主干网络进行第一训练,使得所述主干网络可以从行人图片中提取到第一特征;
第二训练模块,被配置为建立图片重建任务,并基于所述图片重建任务,利用第二损失函数对所述编码网络和所述解码网络组成的图片重建模型进行第二训练,使得所述图片重建模型可以对所述行人图片进行重建,重建后的行人图片的部分被遮挡;
第三训练模块,被配置为建立图片比对任务,并基于所述图片比对任务和所述图片重建任务,利用所述第二损失函数和第三损失函数对所述主干网络、所述编码网络和所述解码网络组成的第一行人再识别模型进行第三训练,使得所述第一行人再识别模型可以识别多张所述行人图片是否属于同一行人;
第四训练模块,被配置为基于所述图片比对任务,利用所述第一损失函数、第四损失函数和第五损失函数对所述主干网络和所述编码网络组成的第二行人再识别模型进行第四训练,使得所述第二行人再识别模型可以识别多张所述行人图片是否属于同一行人;
识别模块,被配置为获取待识别图片集,利用所述行人再识别模型识别出所述待识别图片集中的属于目标行人的多张目标行人图片;
其中,所述编码网络进行如下操作:第二特征,包括:第一阶段特征、第二阶段特征、第三阶段特征和第四阶段特征,所述第一阶段特征、所述第二阶段特征、所述第三阶段特征和所述第四阶段特征是分别通过所述主干网络的四个阶段输出的;用所述第二特征分别乘以第一矩阵参数、第二矩阵参数和第三矩阵参数,得到第一相乘矩阵、第二相乘矩阵和第三相乘矩阵;利用归一化指数函数处理所述第二相乘矩阵乘以所述第一相乘矩阵的转置的结果,得到第一处理矩阵;用所述第一处理矩阵乘以所述第三相乘矩阵,得到特征矩阵;利用激活函数处理所述特征矩阵乘以第四相乘矩阵的结果,得到第二处理矩阵;用所述第二处理矩阵乘以第五相乘矩阵,得到第三特征;
其中,所述编码网络用于提供编码运算,所述解码网络用于提供解码运算,所述解码运算是所述编码运算的逆运算;将第三特征输入所述解码网络,输出第四特征,其中,所述第三特征是所述编码网络的输出。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。
CN202210848547.1A 2022-07-19 2022-07-19 遮挡环境下行人再识别方法 Active CN115147871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210848547.1A CN115147871B (zh) 2022-07-19 2022-07-19 遮挡环境下行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210848547.1A CN115147871B (zh) 2022-07-19 2022-07-19 遮挡环境下行人再识别方法

Publications (2)

Publication Number Publication Date
CN115147871A CN115147871A (zh) 2022-10-04
CN115147871B true CN115147871B (zh) 2024-06-11

Family

ID=83412691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210848547.1A Active CN115147871B (zh) 2022-07-19 2022-07-19 遮挡环境下行人再识别方法

Country Status (1)

Country Link
CN (1) CN115147871B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN110188835A (zh) * 2019-06-05 2019-08-30 国家广播电视总局广播电视科学研究院 基于生成式对抗网络模型的数据增强行人再识别方法
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
WO2020098158A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 行人重识别方法、装置及计算机可读存储介质
WO2020186914A1 (zh) * 2019-03-20 2020-09-24 北京沃东天骏信息技术有限公司 行人再识别方法、装置及存储介质
CN112163498A (zh) * 2020-09-23 2021-01-01 华中科技大学 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112446270A (zh) * 2019-09-05 2021-03-05 华为技术有限公司 行人再识别网络的训练方法、行人再识别方法和装置
WO2021184894A1 (zh) * 2020-03-20 2021-09-23 深圳市优必选科技股份有限公司 一种去模糊的人脸识别方法、系统和一种巡检机器人
WO2021203801A1 (zh) * 2020-04-08 2021-10-14 苏州浪潮智能科技有限公司 一种行人重识别方法、装置及电子设备和存储介质
CN114529946A (zh) * 2022-02-23 2022-05-24 厦门市美亚柏科信息股份有限公司 基于自监督学习的行人重识别方法、装置、设备及存储介质
CN114639122A (zh) * 2022-03-22 2022-06-17 江苏大学 一种基于卷积生成对抗网络的姿态修正行人再识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098158A1 (zh) * 2018-11-14 2020-05-22 平安科技(深圳)有限公司 行人重识别方法、装置及计算机可读存储介质
CN109784197A (zh) * 2018-12-21 2019-05-21 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
WO2020186914A1 (zh) * 2019-03-20 2020-09-24 北京沃东天骏信息技术有限公司 行人再识别方法、装置及存储介质
CN110188835A (zh) * 2019-06-05 2019-08-30 国家广播电视总局广播电视科学研究院 基于生成式对抗网络模型的数据增强行人再识别方法
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN112446270A (zh) * 2019-09-05 2021-03-05 华为技术有限公司 行人再识别网络的训练方法、行人再识别方法和装置
WO2021043168A1 (zh) * 2019-09-05 2021-03-11 华为技术有限公司 行人再识别网络的训练方法、行人再识别方法和装置
WO2021184894A1 (zh) * 2020-03-20 2021-09-23 深圳市优必选科技股份有限公司 一种去模糊的人脸识别方法、系统和一种巡检机器人
WO2021203801A1 (zh) * 2020-04-08 2021-10-14 苏州浪潮智能科技有限公司 一种行人重识别方法、装置及电子设备和存储介质
CN112163498A (zh) * 2020-09-23 2021-01-01 华中科技大学 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN114529946A (zh) * 2022-02-23 2022-05-24 厦门市美亚柏科信息股份有限公司 基于自监督学习的行人重识别方法、装置、设备及存储介质
CN114639122A (zh) * 2022-03-22 2022-06-17 江苏大学 一种基于卷积生成对抗网络的姿态修正行人再识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
三元组在非监督行人再识别中的应用;王兴柱;王儒敬;;仪表技术;20181215(12);全文 *
基于深度卷积神经网络的图像重建算法;于波;方业全;刘闽;董君陶;;计算机系统应用;20180915(09);全文 *
基于行人属性异质性的行人再识别神经网络模型;吴彦丞;陈鸿昶;李邵梅;高超;;计算机工程;20181025(10);全文 *

Also Published As

Publication number Publication date
CN115147871A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
CN109165573B (zh) 用于提取视频特征向量的方法和装置
CN109829432B (zh) 用于生成信息的方法和装置
CN111507262B (zh) 用于检测活体的方法和装置
CN114330565A (zh) 一种人脸识别方法及装置
CN113177450A (zh) 行为识别方法、装置、电子设备和存储介质
CN114612987A (zh) 一种表情识别方法及装置
CN111310743B (zh) 人脸识别方法、装置、电子设备及可读存储介质
CN116403250A (zh) 存在遮挡的人脸识别方法及装置
CN113392241B (zh) 测井图像清晰度的识别方法、装置、介质及电子设备
CN115147871B (zh) 遮挡环境下行人再识别方法
CN108921792B (zh) 用于处理图片的方法和装置
CN110765304A (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN115359390A (zh) 一种图像处理方法及装置
CN112288748B (zh) 一种语义分割网络训练、图像语义分割方法及装置
CN112070022A (zh) 人脸图像识别方法、装置、电子设备和计算机可读介质
CN116630639B (zh) 对象图像的识别方法及装置
CN116912633B (zh) 目标追踪模型的训练方法及装置
CN117474037B (zh) 基于空间距离对齐的知识蒸馏方法及装置
CN116912631B (zh) 目标识别方法、装置、电子设备及存储介质
CN110163111B (zh) 基于人脸识别的叫号方法、装置、电子设备及存储介质
CN114708625A (zh) 人脸识别方法及装置
CN117935022A (zh) 图像识别方法、装置、电子设备及可读存储介质
CN116229509A (zh) 同行人识别方法及装置
CN117475136A (zh) 目标对象的图像确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant