CN110197154B - 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 - Google Patents
融合部位纹理三维映射的行人重识别方法、系统、介质及终端 Download PDFInfo
- Publication number
- CN110197154B CN110197154B CN201910463378.8A CN201910463378A CN110197154B CN 110197154 B CN110197154 B CN 110197154B CN 201910463378 A CN201910463378 A CN 201910463378A CN 110197154 B CN110197154 B CN 110197154B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- texture
- picture
- map
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明提供一种融合部位纹理三维映射的行人重识别方法、系统、介质及终端,包括以下步骤:提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图;对所述行人图片和所述行人纹理图进行预处理;基于预处理后的行人图片和行人纹理图训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。本发明通过构建具有姿态鲁棒性的行人重识别特征提取方法和以该特征作为辅助数据的深度学习网络,能够有效应对行人姿态和环境的变化,结合了“注意力”机制,并实现了不同空间特征下的信息融合,提高了行人重识别效率和准确度。
Description
技术领域
本发明涉及行人重识别技术领域,特别是涉及一种融合部位纹理三维映射的行人重识别方法、系统、介质及终端。
背景技术
行人重识别(Person Re-Identification,又简称ReID)是近年来受到广泛讨论的计算机视觉应用环境之一,其主要目的是利用算法找到并连接不同摄像头、不同时间、不同环境下的相同行人,从而对行人行为规律进行分析,这项技术在商业分析、罪犯追踪等方面具有良好前景,但现在研究成果仍未达到工业标准。
在已有框定行人的数据集的前提下,目前用于提高行人重识别算法效率的研究主要分为以下几种:
(1)注意力(attention)机制的应用:除了获取全局特征外,这类方法包括将行人图片根据身体部分进行分块,前景背景区分,或直接将图片切成若干块等,让模型对细节特征产生“注意力”,提高识别精度,效果较好的实现包括Sun et al.提出的PCB和RPP模型,还有Wang et al.提出的MGN模型,两种模型都是将图片水平分块并结合数据融合,从而得到较好的效果。
(2)环境或姿态迁移:行人重识别算法在不同数据集中的有效程度具有较大差异,原因在于不同数据集之间的采集设备、光照环境具有较大差异;在同一数据集上的训练集和测试集结果也可能具有较大差异,除了过拟合的可能外,更多是行人姿态,角度的多样性导致。Liu et al.使用GAN网络对大量行人的不同姿态进行学习,构建了一个效果显著的姿势生成模型,降低了ReID模型本身的识别难度;Zhun et al.同样使用GAN网络,对不同摄像头拍摄的图片进行了风格迁移,使ReID模型的环境变量方差减小。
(3)算法本身优化:不同行人的区分本质上是一种矩阵学习(metrics learning),为了让模型能够尽可能区分不同的行人而拉近相同的行人,研究者们应用了许多数学的方法,如Softmax,Triplet Loss,Contrastive Loss等,对网络的梯度下降过程进行了优化。
虽然已经发明出很多种方法提高ReID的效率,但各种算法的缺陷也非常明显:对行人图片进行暴力分块在现在的数据集上能够获得最高的准确度,但是现实中的摄像头并不是水平于行人的,这导致不同距离的行人在镜头下可能具有不同的身材比例,这种变化可能会导致模型在实际应用场景中效果大幅下降;姿态和环境迁移耗时比较大,特别是在数据量较大,镜头较多的情况下;随着行人数据库不断扩大,暂时没有一个很好的方法压缩数据量,因为姿态和环境的变化使同一行人图片具有大量变化。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种融合部位纹理三维映射的行人重识别方法、系统、介质及终端,能够有效应对行人姿态和环境的变化,结合了“注意力”机制,并实现了不同空间特征下的信息融合,提高了行人重识别效率和准确度。
为实现上述目的及其他相关目的,本发明提供一种融合部位纹理三维映射的行人重识别方法,包括以下步骤:提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图;对所述行人图片和所述行人纹理图进行预处理;基于预处理后的行人图片和行人纹理图训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
于本发明一实施例中,在对所述的行人纹理图进行预处理前,对行人纹理图进行图像空值填充。
于本发明一实施例中,在对所述的行人纹理图进行预处理前,将行人纹理图上的所述行人纹理信息添加至标准人体模型上,对所述行人图片和添加有行人纹理信息的标准人体模型进行预处理。
于本发明一实施例中,所述行人纹理图的获取包括以下步骤:
将所述行人图片映射至IUV图上;
基于标准纹理图和所述的IUV图进行纹理映射,实现行人纹理信息的提取,获取含有所述行人纹理信息的行人纹理图。
进一步地,纹理映射的公式为:
x=((255-V)*size/255)
y=(U*size/255)
其中,x,y对应二维图像上的坐标,U,V对应UV图上坐标的值,size为目标纹理的大小。
于本发明一实施例中,所述行人重识别网络模型采用的是预训练模型或轻量级模型。
于本发明一实施例中,对所述行人图片和所述行人纹理图进行预处理包括以下步骤:
对行人图片和行人纹理图均进行图像增强;
对行人图片和行人纹理图均进行标准化处理。
本发明提供一种融合部位纹理三维映射的行人重识别系统,包括图像获取模块、预处理模块和建模模块;所述图像获取模块用于提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图;所述预处理模块用于对所述行人图片和所述行人纹理信息进行预处理;所述建模模块用于基于预处理后的行人图片和行人纹理信息训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的融合部位纹理三维映射的行人重识别方法。
本发明提供一种终端,包括:处理器及存储器;所述存储器用于存储计算机程序;所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述的融合部位纹理三维映射的行人重识别方法。
如上所述,本发明所述的融合部位纹理三维映射的行人重识别方法、系统、介质及终端,具有以下有益效果:
(1)通过构建具有姿态鲁棒性的行人重识别特征提取方法和以该特征作为辅助数据的深度学习网络,能够有效应对行人姿态和环境的变化,结合了“注意力”机制,并实现了不同空间特征下的信息融合,提高了行人重识别效率和准确度。
(2)本发明提出的行人重识别特征提取思路可以用于建立行人数据库,能够节省一定的存储空间,适当减小数据库的存储负担,由此来提高行人搜索效率,进一步提高行人重识别效率。
(3)本发明采用的行人重识别网络模型是以现有模型效果为基础进行修改的网络,是对现有模型效果的提升,而不需要对已有模型进行大幅改造。
附图说明
图1显示为本发明的融合部位纹理三维映射的行人重识别方法于一实施例中的流程图。
图2显示为本发明的2D至3D映射模型于一实施例中的结构示意图。
图3显示为本发明的标准纹理图于一实施例中的示意图。
图4显示为本发明的行人图片原图以及行人纹理图在填充前和填充后的图像对比于一实施例中的示意图。
图5显示为本发明的标准人体模型UV图、行人图片原图以及将行人纹理信息添加至标准人体模型UV图上于一实施例中的示意图。
图6显示为本发明的行人重识别网络模型中的Bottleneck于一实施例中的结构示意图。
图7显示为本发明的行人重识别网络模型中的Block Layer于一实施例中的结构示意图。
图8显示为本发明的行人重识别网络模型中的Fuse Layer于一实施例中的结构示意图。
图9显示为本发明的行人重识别网络模型的整体网络结构于一实施例中的结构示意图。
图10显示为本发明的融合部位纹理三维映射的行人重识别系统于一实施例中的结构示意图。
图11显示为本发明的终端于一实施例中的结构示意图。
元件标号说明
21 图像获取模块
22 预处理模块
23 建模模块
31 处理器
32 存储器
S1~S3 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的融合部位纹理三维映射的行人重识别方法、系统、介质及终端,通过构建具有姿态鲁棒性的行人重识别特征提取方法和以该特征作为辅助数据的深度学习网络,能够有效应对行人姿态和环境的变化,结合了“注意力”机制,并实现了不同空间特征下的信息融合,提高了行人重识别效率和准确度。
如图1所示,本发明的融合部位纹理三维映射的行人重识别方法包括以下步骤:
步骤S1、提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图。
于本发明一实施例中,所述行人纹理图的获取包括以下步骤:
(11)将所述行人图片映射至IUV图上。
具体地,以DensePose(DensePose是Facebook公司研究组在2018年发表的论文中提出的基于深度卷积神经网络的模型,能够把二维人体图像根据人体部位分类,并转换二维图像至三维图像)中的分支作为2D至3D映射模型,将行人图片映射到IUV图上。
如图2所示,class box将一张图中的人体分为24个部分,如手,脚,头,躯干等,同时将前景与背景区分开,卷积层(conv)则在网络最后将行人图片通过RoIAlign后得到的特征图转换为在UV坐标系上的值(UV mapping),该坐标系将三维坐标表达在二维平面上,使2D图片能够转换为3D。
需要说明的是,图2中RoIAlign后得到的特征图(ReID数据集一般不需要检测(detection),因此可以直接输入原图)经过卷积层和class box分为24个类别,对应人体的头,手,脚,躯干等部位,UV值可以将三维坐标和二维坐标联系起来(UV mapping)。
RoIAlign是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式,很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题,提升了检测结果的准确性。
(12)基于标准纹理图和所述的IUV图进行纹理映射,实现行人纹理信息的提取,获取含有所述行人纹理信息的行人纹理图。
具体地,利用上述2D至3D映射模型的特性,在行人图片经过算法得到UV坐标位置后,通过纹理映射模块实现纹理映射,从而将行人图片中的行人身体各部分贴到标准纹理图上(如图3所示),实现了行人纹理信息的提取,并获取含有行人纹理信息的行人纹理图。
于本发明一实施例中,纹理映射的公式为:
x=((255-V)*size/255)
y=(U*size/255)
其中,x,y对应二维图像上的坐标,U,V对应UV图上坐标的值,size为目标纹理的大小。
步骤S2、对所述行人图片和所述行人纹理图进行预处理。
具体地,通过对行人图片和行人纹理图的预处理操作,提高了后期网络训练结果的准确可靠性,进而提高了后续行人重识别的准确度。
于本发明一实施例中,在对所述的行人纹理图进行预处理前,对行人纹理图进行图像空值填充。
具体地,由于上述纹理映射过程的信息传递是不完全的,会发生行人图片上多个像素对应到同一个UV坐标点上的情况,而由于遮挡、光照等原因,行人部分部位没有纹理信息,因此需要填补空值;对于形成的行人纹理图如果不进行填充操作,可加速后续预处理操作的过程,但对后期结果会产生影响。
如图4所示(左为原图;中为填充前的;右为填充后),中间的纹理图上有许多的空缺点,首先使用插值法将其填充;其次,对于相对应的身体部分,如左手和右手,利用人体对称的规律,根据标准纹理图的标准旋转或对称以后对空值进行互补填充。最后,对各部位仍未填上的空值补充上该部位非空颜色的平均值。
在大多数情况下,行人是具有多帧的图片的,通过行人纹理信息提取与叠加可以把纹理中的空值尽可能的填充,这使得ReID可以更高效的利用数据。通过这种方法还能建立行人数据库,能够适当减小数据库的存储负担,由此来提高行人搜索效率,进一步提高行人重识别效率。
于本发明一实施例中,在对所述的行人纹理图进行预处理前,将行人纹理图上的所述行人纹理信息添加至标准人体模型上,对所述行人图片和添加有行人纹理信息的标准人体模型进行预处理。
具体地,经过2D至3D映射模型提取出来的行人纹理信息不具有空间信息,即不同部分对应纹理之间的空间关系不能体现出来,因此选取一个标准人体模型(如图5所示,图5中左:标准人体模型UV图;中:行人图片原图;右:纹理添加结果),将其经过2D至3D映射模型输出UV图,最后将行人图片输出的行人纹理信息(行人纹理图)通过坐标系转换添加至标准人体模型输出的UV图上;如果不将行人纹理信息添加至标准人体模型输出的UV图上而直接输入网络中,可加速后续预处理操作的过程,但对后期结果会产生影响。
坐标系转换算法如下:
UV映射是一种将二维图形纹理信息转移到三维格网上的技术,U和V分别是一个平面的两个坐标轴,轴上坐标可以类比为一个三维球体在平面展开后的坐标,通过利用DensePose模型,实现XY到UV坐标系上的转换。
假设XY坐标和UV坐标中各点位上的数字量化值(Digital Number)都为8字节,即像素值范围为0-255,则纹理T上的像素转换到XY坐标上人体模型I的像素可通过以下公式实现:
Ii[xj,yj]=Ti[(255-V[xj,yj])*(size-1)/255,U[xj,yj]*(size-1)/255]*255
i∈[1,2,3,...,parts]j∈[1,2,3,...,size*size]
其中parts为人体部位索引,x,y为UV图中属于某个人体部分i的坐标,size为每个人体部分投影到UV坐标图上设定的大小。
需要注意的是,DensePose网络是对每个像素点计算分类,因此会出现空间上的非连续性,如在人体模型中属于小腿部分的某个像素可能会被分类为躯干部分的情况。解决方法为:在将行人纹理信息添加至标准人体模型输出的UV图上之前,对所述的UV图进行腐蚀(erode)和膨胀(dilate)处理,让小部分错分类的像素点被周围正确分类的像素点同化,从结果可见,行人的姿势得到归一化,提高了数据的质量,并消除了背景的影响。
于本发明一实施例中,对所述行人图片和所述行人纹理图进行预处理包括以下步骤:
(21)对行人图片和行人纹理图均进行图像增强。
具体地,考虑到实际目标检测器的原因,需要对行人图片和行人纹理图进行增强,增强的方法包括:加入抖动和水平翻转,以此来模拟现实输入。
(22)对行人图片和行人纹理图均进行标准化处理。
具体地,标准化处理的方法是将图像(行人图片和行人纹理图)减去均值并除以方差。
步骤S3、基于预处理后的行人图片和行人纹理图训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
具体地,将行人图片和行人纹理图组成的数据集分为训练集、验证集与测试集;以预处理后的行人图片和行人纹理图作为训练数据,对行人重识别网络模型进行训练,最后,基于训练好的行人重识别网络模型进行行人重识别。
基于行人图片和行人纹理图训练行人重识别网络模型时,输入行人图片与其对应的行人纹理图,一起进入网络中训练;具体地,向行人重识别网络模型中输入预处理后的行人图片和对应的行人纹理图(如果对行人纹理图进行了将行人纹理图上的行人纹理信息添加至标准人体模型UV图上的处理,则是向行人重识别网络模型中输入预处理后的行人图片和添加了行人纹理信息的标准人体模型UV图)。
需要说明的是,向行人重识别网络模型中输入的图片为大小C*H*W的图像,C、H、W分别为图像的通道数、长和宽;标注(label)为该行人的识别码,即ID。
行人重识别网络模型的损失函数采取交叉熵函数(Cross Entropy),即将每张图片对应的ID视为一类,训练分类网络;优化器采用Adam,每次梯度回传使损失下降;评估网络,用来在测试集上评估模型,评估方法采用计算平均准确度(mAP)。若该次训练没有提升网络的准确度,则不保存网络权重。
本发明采用的行人重识别网络模型是以ResNet50为基础进行修改的网络,ResNet(Deep Residual Networks,He et al.2015)的基本思想是:通过将网络各模块的输出与对应输入相加,保证了信息在网络中的传递,并且降低了神经网络的学习难度,行人纹理图得到的图像作为模型主输入的话会因为部分坏数据降低网络效果,因此对网络结构进行创新,降低无用信息的影响。
如图6至图8所示,为了简洁地描述行人重识别网络模型结构,定义了三个基本结构:Bottleneck、Block Layer和Fuse Layer;其中Bottleneck的结构为“上下宽中间窄”,即对特征做了一次降维再升维,能够有效去除图像中的高频噪声;Block Layer将原图信息经过多个Bottleneck提取出的高层的信息与原图相加,能够有效提取有用信息而不用担心信息过早丢失;Fuse Layer计算纹理输入的有效程度,通过加权均值来融合原图特征和纹理信息的特征。
需要说明的是,在Fuse Layer结构中,利用Sigmoid激活函数来判定辅助信息的重要程度,对原特征(行人图片)和辅助特征(行人纹理信息)加权平均,在自动学习辅助特征的重要性的同时防止辅助数据不完整导致的偏差。
如图9所示,行人重识别网络模型整体网络结构为:采用行人图片和行人纹理图共享权值训练,经过第一个Block Layer之后,令行人图片原图特征作为输入1,行人纹理图的纹理特征作为输入2,输入Fuse Layer;在经过3个Fuse Layer之后,对输出1的特征进行全局平均池化(Global Average Pooling),得到最终输出的特征。
于本发明一实施例中,所述行人重识别网络模型采用的是预训练模型(ResNet50)或轻量级模型(MobileNetV2)。
具体地,行人重识别网络模型结构中,在Fuse Layer保留的情况下,网络模型可以替换成其他的行人重识别网络模型,具体学习效果和网络模型的学习能力有关。经测试,将ResNet50替换成MobileNetV2可以使模型大小减小1/3,而只对mAP造成约2%的降低。
需要说明的是,将损失函数(Triplet Loss)、对比损失(Contrastive Loss)等在行人重识别网络模型训练时具有良好表现的损失函数加入行人重识别网络模型,可以小幅度提高行人重识别网络模型的准确度。
本发明所述的融合部位纹理三维映射的行人重识别方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图10所示,本发明的融合部位纹理三维映射的行人重识别系统,包括依次相连的图像获取模块21、预处理模块22和建模模块23。
所述图像获取模块21用于提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图。
所述预处理模块22用于对所述行人图片和所述行人纹理信息进行预处理。
所述建模模块23用于基于预处理后的行人图片和行人纹理信息训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述融合部位纹理三维映射的行人重识别方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图11所示,本发明的终端,包括:处理器31及存储器32;所述存储器32用于存储计算机程序,存储器32包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质;处理器31与存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述终端执行上述的融合部位纹理三维映射的行人重识别方法。
优选地,所述处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明的融合部位纹理三维映射的行人重识别系统可以实现本发明的融合部位纹理三维映射的行人重识别方法,但本发明的融合部位纹理三维映射的行人重识别方法的实现装置包括但不限于本实施例列举的融合部位纹理三维映射的行人重识别系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
下面通过在实际应用场景下的实施方法来进一步说明本发明的融合部位纹理三维映射的行人重识别方法。
步骤1:从监控录像中框定行人的位置(框定Bounding Box),该步骤可以直接由DensePose的前半段分支辅以手动标注实现。
步骤2:令所有行人图像通过DensePose网络得到UV坐标图,设计代码将其投影到标准纹理图上,对于多帧的行人视频,可以将多帧图片得到的结果做平均和互补。
步骤3:对得到的行人纹理图进行补值。
步骤4:将行人纹理图投影至标准人体模型上,生成辅助数据集。
步骤5:将辅助数据集和原数据集中的图像归一化,将图像进行抖动(jitter)并缩放成固定尺寸。
步骤6:搭建网络并进行初始化:
1)载入ResNet50网络并载入ImageNet预训练得到的权重。
2)将ResNet50网络进行改造(如图9),对额外加入的卷积层和全连接层做权重初始化。
3)在网络输出处,分别输出2048维的特征矢量和751维的分类矢量,前者作为图像的特征表达,用于计算与其他图像特征的余弦距离,后者在训练时通过softmax分类计算交叉熵损失(cross entropy loss),更新网络权重。
4)用训练集训练网络,使用测试集对网络效果进行评估。模型为端到端(end-to-end)训练,只需要不断调整参数,选择在测试集中相对表现较好的模型即可。测试集的评估采用的方法是将数据集分为图库(gallery)和查询集(query),将其都放入网络得到特征矢量后,对查询集中的每一个特征矢量,计算其对图库中所有特征矢量的余弦距离,查看距离最近的10个特征对应的ID,计算公式为:
其中QR选取计算准确度的特征个数,在这里取10;AP指的是准确度。
假设QR取5,对于图库中某一张图,图库中与其距离最近的5张图中,第2张与第3张为相同ID的图,则mAP=1/5*(0/1+1/2+2/3+2/4+2/5)≈0.306。
5)挑选最优模型,利用测试集评估模型,挑选最优模型作为最终模型。
步骤7:将模型应用于实际场景中,可以用于行人搜索(person search),行人匹配(person match)等。
综上所述,本发明的融合部位纹理三维映射的行人重识别方法、系统、介质及终端,通过构建具有姿态鲁棒性的行人重识别特征提取方法和以该特征作为辅助数据的深度学习网络,能够有效应对行人姿态和环境的变化,结合了“注意力”机制,并实现了不同空间特征下的信息融合,提高了行人重识别效率和准确度,所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种融合部位纹理三维映射的行人重识别方法,其特征在于,包括以下步骤:
提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图;
对所述行人图片和所述行人纹理图进行预处理;在对所述的行人纹理图进行预处理前,将行人纹理图上的所述行人纹理信息添加至标准人体模型上;将所述标准人体模型经过2D至3D映射模型输出UV图,将所述行人纹理信息通过坐标系转换添加至所述UV图上;在将所述行人纹理信息添加至所述UV图上之前,对所述UV图进行腐蚀和膨胀处理;在对所述的行人纹理图进行预处理前,对行人纹理图进行图像空值填充;所述图像空值填充包括对于相对应的身体部分,利用人体对称的规律,根据标准纹理图的标准旋转或对称以后对空值进行互补填充;
基于预处理后的行人图片和行人纹理图训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
2.根据权利要求1所述的融合部位纹理三维映射的行人重识别方法,其特征在于:对所述行人图片和添加有行人纹理信息的标准人体模型进行预处理。
3.根据权利要求1所述的融合部位纹理三维映射的行人重识别方法,其特征在于:所述行人纹理图的获取包括以下步骤:
将所述行人图片映射至UV图上;
基于标准纹理图和所述的UV图进行纹理映射,实现行人纹理信息的提取,获取含有所述行人纹理信息的行人纹理图。
4.根据权利要求3所述的融合部位纹理三维映射的行人重识别方法,其特征在于:纹理映射的公式为:
x=((255-V)*size/255)
y=(U*size/255)
其中,x,y对应二维图像上的坐标,U,V对应UV图上坐标的值,size为目标纹理的大小。
5.根据权利要求1所述的融合部位纹理三维映射的行人重识别方法,其特征在于:所述行人重识别网络模型采用的是预训练模型或轻量级模型。
6.根据权利要求1所述的融合部位纹理三维映射的行人重识别方法,其特征在于:对所述行人图片和所述行人纹理图进行预处理包括以下步骤:
对行人图片和行人纹理图均进行图像增强;
对行人图片和行人纹理图均进行标准化处理。
7.一种融合部位纹理三维映射的行人重识别系统,其特征在于,包括图像获取模块、预处理模块和建模模块;
所述图像获取模块用于提取行人图片的行人纹理信息,获取含有所述行人纹理信息的行人纹理图;
所述预处理模块用于对所述行人图片和所述行人纹理信息进行预处理;在对所述的行人纹理图进行预处理前,将行人纹理图上的所述行人纹理信息添加至标准人体模型上;将所述标准人体模型经过2D至3D映射模型输出UV图,将所述行人纹理信息通过坐标系转换添加至所述UV图上;在将所述行人纹理信息添加至所述UV图上之前,对所述UV图进行腐蚀和膨胀处理;在对所述的行人纹理图进行预处理前,对行人纹理图进行图像空值填充;所述图像空值填充包括对于相对应的身体部分,利用人体对称的规律,根据标准纹理图的标准旋转或对称以后对空值进行互补填充;
所述建模模块用于基于预处理后的行人图片和行人纹理信息训练行人重识别网络模型,以基于训练好的行人重识别网络模型进行行人重识别。
8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任一项所述的融合部位纹理三维映射的行人重识别方法。
9.一种终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1至6中任一项所述的融合部位纹理三维映射的行人重识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463378.8A CN110197154B (zh) | 2019-05-30 | 2019-05-30 | 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910463378.8A CN110197154B (zh) | 2019-05-30 | 2019-05-30 | 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197154A CN110197154A (zh) | 2019-09-03 |
CN110197154B true CN110197154B (zh) | 2021-09-21 |
Family
ID=67753428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910463378.8A Active CN110197154B (zh) | 2019-05-30 | 2019-05-30 | 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197154B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956158A (zh) * | 2019-12-12 | 2020-04-03 | 中山大学 | 一种基于教师学生学习框架的遮挡行人再标识方法 |
CN111178178B (zh) * | 2019-12-16 | 2023-10-10 | 汇纳科技股份有限公司 | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 |
CN111127631B (zh) * | 2019-12-17 | 2023-07-28 | 深圳先进技术研究院 | 基于单图像的三维形状和纹理重建方法、系统及存储介质 |
CN111783609A (zh) * | 2020-06-28 | 2020-10-16 | 北京百度网讯科技有限公司 | 行人再识别的方法、装置、设备和计算机可读存储介质 |
CN112036271B (zh) * | 2020-08-18 | 2023-10-10 | 汇纳科技股份有限公司 | 基于卡尔曼滤波的行人重识别方法、系统、介质及终端 |
CN113484908B (zh) * | 2021-08-25 | 2023-07-14 | 成都理工大学 | 部分卷积与注意力机制融合深度学习网络的缺失地震数据重建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492070A (zh) * | 2017-07-10 | 2017-12-19 | 华北电力大学 | 一种双通道卷积神经网络的单图像超分辨率计算方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103325122B (zh) * | 2013-07-03 | 2016-01-20 | 武汉大学 | 基于双向排序的行人检索方法 |
CN107330371A (zh) * | 2017-06-02 | 2017-11-07 | 深圳奥比中光科技有限公司 | 3d脸部模型的脸部表情的获取方法、装置和存储装置 |
CN107316340B (zh) * | 2017-06-28 | 2020-06-19 | 河海大学常州校区 | 一种基于单张照片的快速人脸建模方法 |
CN107194995A (zh) * | 2017-07-11 | 2017-09-22 | 王刚 | 一种快速构建真实三维人物模型的方法 |
CN108520226B (zh) * | 2018-04-03 | 2020-07-28 | 东北大学 | 一种基于躯体分解和显著性检测的行人重识别方法 |
CN108921064B (zh) * | 2018-06-21 | 2021-09-10 | 西安理工大学 | 基于多特征融合的行人重识别方法 |
CN109325437B (zh) * | 2018-09-17 | 2021-06-22 | 北京旷视科技有限公司 | 图像处理方法、装置和系统 |
CN109472248B (zh) * | 2018-11-22 | 2022-03-25 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
-
2019
- 2019-05-30 CN CN201910463378.8A patent/CN110197154B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492070A (zh) * | 2017-07-10 | 2017-12-19 | 华北电力大学 | 一种双通道卷积神经网络的单图像超分辨率计算方法 |
Non-Patent Citations (1)
Title |
---|
Densely Semantically Aligned Person Re-Identification;Zhizheng Zhang 等;《arXiv:1812.08967v2 [cs.CV]》;20190410;第1-4节,图2-3 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197154A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197154B (zh) | 融合部位纹理三维映射的行人重识别方法、系统、介质及终端 | |
CN110427877B (zh) | 一种基于结构信息的人体三维姿态估算的方法 | |
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
Atapour-Abarghouei et al. | Real-time monocular depth estimation using synthetic data with domain adaptation via image style transfer | |
CN111063021B (zh) | 一种空间运动目标的三维重建模型建立方法及装置 | |
Kendall et al. | Posenet: A convolutional network for real-time 6-dof camera relocalization | |
CN111126304A (zh) | 一种基于室内自然场景图像深度学习的增强现实导航方法 | |
CN109934862A (zh) | 一种点线特征结合的双目视觉slam方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
GB2573170A (en) | 3D Skeleton reconstruction from images using matching 2D skeletons | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN112651881A (zh) | 图像合成方法、装置、设备、存储介质以及程序产品 | |
CN112507056A (zh) | 一种基于视觉语义信息的地图构建方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN111476089A (zh) | 一种图像中多模态信息融合的行人检测方法、系统及终端 | |
CN118229889B (zh) | 影视现场预演辅助方法及装置 | |
Wang et al. | Paul: Procrustean autoencoder for unsupervised lifting | |
CN116772820A (zh) | 一种基于slam和语义分割的局部细化建图系统及方法 | |
Li et al. | Deep learning based monocular depth prediction: Datasets, methods and applications | |
CN115272438A (zh) | 一种面向三维场景重建的高精度单目深度估计系统及方法 | |
Zhang et al. | CCVO: Cascaded CNNs for fast monocular visual odometry towards the dynamic environment | |
Zhu et al. | Multimodal neural radiance field | |
Huang et al. | Overview of LiDAR point cloud target detection methods based on deep learning | |
CN117437274A (zh) | 一种单目图像深度估计方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 201203 No. 6, Lane 55, Chuanhe Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Patentee after: Winner Technology Co.,Ltd. Address before: 201505 Room 216, 333 Tingfeng Highway, Tinglin Town, Jinshan District, Shanghai Patentee before: Winner Technology Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |