CN111046732B - 一种基于多粒度语义解析的行人重识别方法及存储介质 - Google Patents
一种基于多粒度语义解析的行人重识别方法及存储介质 Download PDFInfo
- Publication number
- CN111046732B CN111046732B CN201911096068.3A CN201911096068A CN111046732B CN 111046732 B CN111046732 B CN 111046732B CN 201911096068 A CN201911096068 A CN 201911096068A CN 111046732 B CN111046732 B CN 111046732B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- semantic
- granularity
- image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 24
- 235000019580 granularity Nutrition 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 230000007704 transition Effects 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 210000000689 upper leg Anatomy 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 210000001699 lower leg Anatomy 0.000 description 9
- 210000000038 chest Anatomy 0.000 description 8
- 210000003128 head Anatomy 0.000 description 7
- 244000309466 calf Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000001364 upper extremity Anatomy 0.000 description 3
- 210000003414 extremity Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多粒度语义解析的行人重识别方法及存储介质,包括训练步骤和测试步骤,所述训练步骤包括:利用人体语义解析算法将训练样本中的行人图像解析为多个粒度的语义区域的行人图像,其中至少一个粒度包含不同语义区域之间的过渡信息;将每个语义区域的行人图像输入到对应的卷积神经网络中,对每个语义区域进行分类训练,得到每个语义区域的分类器;利用所述分类器对相应的语义区域的行人图像进行特征提取,将提取到的特征进行特征融合,得到行人特征描述子;所述测试步骤包括:利用训练步骤得到的所述分类器和所述行人特征描述子对测试样本的行人图像进行行人重识别。本发明通过多粒度的人体语义解析方式实现语义的高度对齐,并且充分利用人体语义区域之间的过渡性信息,识别精确度高。
Description
技术领域
本发明属于图像识别技术领域,更具体地,涉及一种基于多粒度语义解析的行人重识别方法及存储介质。
背景技术
行人重识别又称为行人再识别或跨境追踪,是近年来计算机视觉领域热门的研究课题和典型应用。在监控系统中,由于摄像机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片,当人脸识别失效的情况下,行人重识别就成为了一个非常重要的替代技术,因此在公共安防领域具有巨大的潜力。给定一个需要检索的行人的图像,行人重识别的任务是检索出一段时间内由不同摄像机拍摄的所有该行人图像。行人重识别具有非常广阔的应用前景,包括行人检索、行人跟踪、街头事件检测、行人动作行为分析、丢失人口寻找等等,此外,行人重识别还可以与人脸识别相结合,进行行人身份识别。
现实场景下影响行人重识别的主要因素有光照、遮挡、姿态、图像分辨率等,目前在该领域针对上述因素已经展开了诸多研究并且获得了较大的突破,现有技术中主要采用了粗粒度和细粒度两个粒度的提取人体的代表区域,来进行行人重识别,细粒度一般代表头部、胸部、大腿及小腿等单个肢体或部位区域,粗粒度即为原始行为图像。但现有技术中存在两个问题:一是,直接从图像中提取代表区域,不会做语义分割,行人区域没有进行语义对齐;二是现有的基于粗粒度和细粒度的图像标注方式,没有考虑图像语义区域之间的过滤信息。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于多粒度语义解析的行人重识别方法及存储介质,通过多粒度的人体语义解析方式实现语义的高度对齐,并且充分利用人体语义区域之间的过渡性信息,识别精确度高。
为实现上述目的,按照本发明的一个方面,提供了一种基于多粒度人体语义解析的行人重识别方法,包括训练步骤和测试步骤,所述训练步骤包括:
S1,利用人体语义解析算法将训练样本中的行人图像解析为多个粒度的语义区域的行人图像,其中至少一个粒度包含不同语义区域之间的过渡信息;
S2,将每个语义区域的行人图像输入到对应的卷积神经网络中,对每个语义区域进行分类训练,得到每个语义区域的分类器;
S3,利用所述分类器对相应的语义区域的行人图像进行特征提取,将提取到的特征进行特征融合,得到行人特征描述子;
所述测试步骤包括:
S4,利用训练步骤得到的所述分类器和所述行人特征描述子对测试样本的行人图像进行行人重识别。
优选地,所述S1具体是:利用人体语义解析算法将每张所述行人图像解析为四个粒度的9个语义区域的行人图像,粒度G1对应原始的人体图像,粒度G2对应去掉背景的人体图像,粒度G3包含不同语义区域之间的过渡信息,分别对应头部+胸部、胸部+大腿、大腿+小腿三个语义区域图像,粒度G4分别对应头部、胸部、大腿及小腿四个语义区域图像。
优选地,所述S1具体包括步骤:
S11,利用人体语义解析算法将所述行人图像分割为七个区域,即头部R1、躯干R2、上臂R3、下臂R4、大腿R5、小腿R6以及背景R7共七个区域,该分割的区域由一个与所述行人图像相同大小的掩码图T来表示,掩码图T中每个坐标(x,y)上有一个整数,整数数值为1至7中的一个,用来指示所述行人图像上对应位置被划分隶属的区域;
S12,根据掩码图像T,将所述人体图像按照4个粒度G1、G2、G3、G4,对分割的区域重新进行划分,用9个新的掩码图S1~9来表示,
所述G1粒度为原始的人体图像,其对应的掩码图为S1,即
S1(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6+R7
所述G2粒度为去掉背景的人体图像,其对应的掩码图为S2,即
S2(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6
所述G3粒度对应的掩码图分别为S3,S4,S5,分别对应头部和胸部、胸部和大腿、大腿和小腿三个区域,G3粒度能提取R1和R2之间,R2和R5之间以及R5和R6之间的过渡信息,其中,
所述G4粒度其对应的掩码图分别为S6,S7,S8,S9,分别对应头部、胸部、大腿及小腿四个区域,其中,
S13,将所述行人图像产生9个副本,将第i个副本图像根据步骤S12获取的掩码图,对其对应掩码为0的区域采用随机噪声替换,以消除与当前语义不相关的信息对当前语义进行特征提取时的干扰;
S14,将经过步骤S13处理的9个图像,根据步骤S12获取的掩码图Si进行裁剪,裁剪的区域为包含掩码中所有数值为1的最小矩形区域,裁剪得到的区域分别进行尺度归一化,得到9张语义区域图像Hi=(i=1~9),使得具有相同语义信息的区域大小保持一致。
优选地,所述步骤S2中,采用ResNet50卷积神经网络进行分类训练,并且采用softmax作为损失函数,具体公式如下:
其中i是语义区域的索引,T表示矩阵的转置,就是yj类的权重向量,fi,j是所提取的第j个样本第i个语义区域的特征,y是数据集已经标注好的行人身份标签。C是训练集中行人类别总数,N是训练的最小批次,Wk对应于k类的权重向量,/>表示第i个语义分类器的softmax损失。
优选地,所述步骤S3具体是:
将步骤S1输出的所述行人图像Hi=(i=1~9)输入步骤S2得到的对应的分类器Ci(i=1~9)中进行特征提取,得到九个特征fi(i=1~9),然后将提取到的特征通过训练进行融合,得到最终的行人的特征描述子f:
f=(w1f1,…,wifi,…,w9f9)
其中,wi(i=1~9)是融合的权重,fi(i=1~9)是提取的特征,
融合训练使用的损失函数为三元组损失,具体公式如下:
其中,fb a、fb p和fj n是融合所得到的特征,并且fb a和fb p是来自同一行人的正样本对,而fb a和fj n表示来自不同行人的负样本对,m表示正样本对和负样本对之间的阈值,在每个最小批次中,选择P个行人进行训练,K表示图像数量,LT表示三元组损失。
优选地,所述步骤S4中,使用相似性度量计算得到距离,进行行人重识别。
优选地,所述卷积神经网络的步长设定为1。
优选地,所述步骤S1之前包括步骤:
对所述行人图像进行关键点注释;
在现有的人体解析数据集中搜索具有类似姿势的行人图像,将上述得到的行人图像根据关键点进行聚类得到行人重识别的先验结果。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法。
总体而言,与现有技术相比,本发明的优点和效果在于:
1.本发明通过引入人体语义解析,实现了行人重识别时对提取的特征具有语义高度对齐要求;
2.本发明提供了一种多粒度语义解析的方法,充分考虑到了人体语义区域之间的过渡性信息对行人重识别的作用;
3.本发明将解析的多粒度人体语义区域通过训练得到语义模型,然后再将语义模型提取的特征再次训练得到融合的特征,所提取的特征具有强大的表示能力,极大地提高了行人重识别的精度。
附图说明
图1是本发明实施例提供的一种行人重识别方法实现流程图;
图2是本发明实施例提供的多粒度人体语义解析的结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
术语解释:
人体语义解析:是指将图像中的行人分割为一些语义上一致的区域,比如头部、四肢、躯干等。
行人重识别:是指给定一个需要检索的行人的图像,行人重识别的任务是检索出一段时间内由不同摄像机拍摄的所有该行人图像。
U-Net网络:是指一个具有跳跃连接的自动编码器网络,该网络输入将逐步向下采样,直到瓶颈层,然后逐渐向上采样,以恢复输入大小。
ResNet50:ResNet50由微软研究院的何恺明等人提出,通过使用残差学习训练出的一种卷积神经网络。与传统卷积神经网络在参数传递的过程中存在导致梯度消失或者梯度爆炸,导致无法训练很深的网络。ResNet50以跳跃连接的方式通过旁路将输入直接连接到后面的层,从而解决了这个问题。
本发明提供了一种基于多粒度人体语义解析的行人重识别方法,可以通过人体语义解析的方式,将行人解析为多个粒度的多个语义区域,不仅考虑到了特征提取在语义层面的对齐,还增加了语义区域间的过渡性信息来提高行人重识别精度。
本发明实施例的一种基于多粒度人体语义解析的行人重识别方法,如图1所示,包括训练步骤和测试步骤。
训练步骤:即对预先建立的训练样本数据集中的行人图像进行训练,获得满足需求的分类器,并且确定行人特征描述子。训练步骤包括:
S1,多粒度人体语义解析:利用人体语义解析算法将每张行人图像解析为多个粒度的语义区域的行人图像,其中至少一个粒度包含不同语义区域之间的过渡信息。这样,可以实现图像在语义层面的对齐,还增加了语义区域间的过渡性信息,能够提高识别精确度。
具体地,可以给定一张带有关键点注释的行人图像,利用人体语义解析算法将其由细到粗的解析为三个粒度的语义区域,再加上原始行人图像粒度,一共可以得到由细到粗的四个粒度(G1~G4)、九块语义区域的行人图像Si(i=1~9),粒度G1对应原始的人体图像,粒度G2对应去掉背景的人体图像,粒度G3包含不同语义区域之间的过渡信息,分别对应头部+胸部、胸部+大腿、大腿+小腿三个语义区域图像,粒度G4分别对应头部、胸部、大腿及小腿四个语义区域图像,如图2所示。传统方法只有粒度G1或者G1+G4,与传统方法相比较,本发明实施例的这四个粒度从空间位置上考虑到了语义区域之间的位置的过渡性信息,增加了过渡性的分隔区域G2+G3。
具体地,S1可以包括步骤:
S11,给定带有关键点标注的行人图像I,利用人体语义解析算法将其分割为七个区域,即头部(R1)、躯干(R2)、上臂(R3)、下臂(R4)、大腿(R5)、小腿(R6)以及背景(R7)共七个区域。
采用的人体语义解析算法可以为WSHP,Mask R-CNN、PGN中的一种。
该人体分割的区域由一个与输入行人图像相同大小的掩码图T来表示,掩码图中每个坐标(x,y)上有一个整数,其数值为1-7中的一个,用来指示原图上对应位置被划分隶属的区域,即:
T(x,y)=i,I(x,y)∈Ri
S12,根据掩码图像T,将人体图像按照由粗到细共4个粒度(G1,G2,G3,G4)对分割的区域重新进行划分,用9个新的掩码图S1~9来表示。考虑到手臂包含的身份信息有限,因此在区域划分时,始终将手臂区域和躯干区域(R2,R3,R4)看作一个整体。
所述G1粒度为原始的人体图像,其对应的掩码图为S1,即
S1(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6+R7
所述G2粒度为去掉背景的人体图像,其对应的掩码图为S2,即
S2(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6
所述G3粒度将人体进行三种不同的划分,其对应的掩码图分别为S3,S4,S5,分别对应头部+胸部、胸部+大腿、大腿+小腿三个区域,其中,
S5(x,y)=1,(x,y)∈R5+R6,S5(x,y)=0,G3粒度能充分提取R1和R2之间,R2和R5之间以及R5和R6之间的过渡信息。
所述G4粒度将人体进行四种不同的划分,其对应的掩码图分别为S6,S7,S8,S9,分别对应头部、胸部、大腿及小腿四个区域。其中,
S13,将原始图像产生9个副本,将第i个副本图像根据步骤S12获取的掩码图Si,对其对应掩码为0的区域采用随机噪声替换,以消除与当前语义不相关的信息对当前语义进行特征提取时的干扰。
S14,将经过步骤S13处理的9个图像,根据步骤S12获取的掩码图Si进行裁剪,裁剪的区域为包含掩码中所有数值为1的最小矩形区域。裁剪得到的区域分别进行尺度归一化,得到9张图像Hi=(i=1~9),使得具有相同语义信息的区域大小保持一致。
S2语义区域分类训练步骤:将每个语义区域的语义区域的行人图像输入到对应的卷积神经网络中,对每个语义区域进行分类训练,得到每个语义区域的分类器。
具体地,可以将步骤S1得到的多粒度语义区域的行人图像Hi=(i=1~9)分别输入到9个不同的卷积神经网络中,对每块语义区域训练得到对应的语义模型Ci(i=1~9),也即分类器。
优选地,将卷积神经网络的步长设定为1,以便于充分利用网络的特征图。
卷积神经网络以其局部权值共享的特殊结构在图像处理上有着较大的优势,卷积神经网络如VGG、AlexNet、ResNet50等都可以用于本发明实施例。这里采用在ImageNet上预训练好的ResNet50网络模型进行分类训练,并且采用softmax作为损失函数,具体公式如下:
其中i是语义区域的索引,T表示矩阵的转置,就是yj类的权重向量,fi,j是所提取的第j个样本第i个语义区域的特征,y是数据集已经标注好的行人身份标签。C是训练集中行人类别总数,N是训练的最小批次,Wk对应于k类的权重向量,/>表示第i个语义分类器的softmax损失。
S3,特征融合步骤:利用步骤S2得到的分类器对相应的语义区域图像进行特征提取,将提取到的特征进行特征融合,得到行人特征描述子。
具体地,将步骤S1输出的行人图像Hi=(i=1~9)输入步骤S2中对应的语义模型Ci(i=1~9)中进行特征提取,得到九个特征fi(i=1~9),然后将提取到的特征通过训练进行融合,得到最终的行人的特征描述子f:
f=(w1f1,…,wifi,…,w9f9)
其中,wi(i=1~9)是融合的权重,fi(i=1~9)是提取的特征。
优选地,融合训练使用的损失函数为三元组损失,具体公式如下:
其中,fb a、fb p和fj n是融合所得到的特征,并且fb a和fb p是来自同一行人的正样本对,而fb a和fj n表示来自不同行人的负样本对,m表示正样本对和负样本对之间的阈值,在每个最小批次中,选择P个行人进行训练,K表示图像数量,LT表示三元组损失。
完成上述的训练后即可进入测试步骤S4:利用训练步骤得到的所述分类器和所述行人特征描述子对测试样本的行人图像进行行人重识别。测试样本即为需要进行行人重识别的行人图像,测试即为对于一个给定的需要检索的行人的图像,检索出一段时间内由不同摄像机拍摄的所有该行人图像。
具体地,对于测试样本同样执行训练步骤中的多粒度人体语义解析步骤,将测试样本解析多个粒度的语义区域的行人图像,将每个语义区域的行人图像分别输入该语义区域对应的步骤S2得到的所述分类器中,提取测试样本的特征,利用训练的步骤S3确定的行人特征描述子f通过相似性度量计算与另一其它行人特征描述子之间的距离,将距离最小的两个特征视为同一行人的特征。
对相似性度量,是指评定两个图像之间相近程度的一种度量。两个图像越接近,它们的相似性度量也就越大,而两个图像越疏远,它们的相似性度量也就越小。行人重识别中经典的欧氏距离、马氏距离、余弦距离等都可以用作本发明实施例中计算行人图像特征之间的距离,这里采用了余弦距离。
实例:
样本表情库为Market-1501,由2015年的ICCV会议发布用于行人重识别,Market-1501数据集包含32668张1501个行人的图像,这些图像由放置在校园超市前五个高分辨率和一个低分辨率摄像头拍摄。每个行人的图像最多由六个摄像头并且至少两个摄像头拍摄。与以前的手工注释数据集不同,Market-1501在检测到的图像中会出现身体区域不对齐和遮挡的情况。将Market-1501数据库的样本作为输入,具体实现步骤如下:
1.人体姿态关键点获取
将行人图像输入到人体姿态估计算法中,获得该行人的人体姿态关键点位置。
2.获得人体语义先验
在现有的人体解析数据集中搜索具有类似姿势的行人图像。然后,将上述得到的行人图像根据关键点进行聚类得到其先验结果。
3.多粒度人体语义解析
最后,基于局部图像先验,使用先验优化网络对先验进行优化得到最终的解析图像,本发明中将行人解析为头部、躯干+上肢、大腿及小腿、头部+躯干+上肢、躯干+上肢+大腿、大腿+小腿及头部+躯干+上肢+大腿+小腿,再加上原始行人图像,一共九个不同粒度的语义区域。这里本发明实施例将H1和H2两张图像的大小统一设置为长、宽为128、64个像素点,H3~6的大小设置为长、宽各为50个像素点,H7~9的大小设置为长、宽各为40个像素点。
4.特征提取
将上述得到的九块语义区域的行人图像输入到卷积神经网络中,对每块区域单独进行分类训练,从而得到九个语义模型。
5.特征融合
使用上述语模型对对应的语义模块进行特征提取,然后将提取到的特征再次融合,得到最终的行人的特征描述子。
6.获取最终结果
将最终得到的特征使用相似性度量计算得到距离,获得识别的最终结果Rank1:94.6%。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一方法实施例的技术方案。其实现原理和技术效果类似,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多粒度人体语义解析的行人重识别方法,包括训练步骤和测试步骤,其特征在于,
所述训练步骤包括:
S1,利用人体语义解析算法将训练样本中的行人图像解析为多个粒度的语义区域的行人图像,其中至少一个粒度包含不同语义区域之间的过渡信息;
S2,将每个语义区域的行人图像输入到对应的卷积神经网络中,对每个语义区域进行分类训练,得到每个语义区域的分类器;
S3,利用所述分类器对相应的语义区域的行人图像进行特征提取,将提取到的特征进行特征融合,得到行人特征描述子;
所述测试步骤包括:
S4,利用训练步骤得到的所述分类器和所述行人特征描述子对测试样本的行人图像进行行人重识别;
其中,所述S1具体是:利用人体语义解析算法将训练样本中的行人图像解析为四个粒度的九个语义区域的行人图像,粒度G1对应原始的人体图像,粒度G2对应去掉背景的人体图像,粒度G3包含不同语义区域之间的过渡信息,分别对应头部和胸部、胸部和大腿、大腿和小腿三个语义区域图像,粒度G4分别对应头部、胸部、大腿及小腿四个语义区域图像。
2.如权利要求1所述的一种基于多粒度人体语义解析的行人重识别方法,其特征在于,所述S1具体包括步骤:
S11,利用人体语义解析算法将行人图像分割为七个区域,即头部R1、躯干R2、上臂R3、下臂R4、大腿R5、小腿R6以及背景R7共七个区域,该分割的区域由一个与所述行人图像相同大小的掩码图T来表示,掩码图T中每个坐标(x,y)上有一个整数,整数数值为1至7中的一个,用来指示所述行人图像上对应位置被划分隶属的区域;
S12,根据掩码图T,将行人图像按照4个粒度G1、G2、G3、G4,对分割的区域重新进行划分,用9个新的掩码图S1~9来表示,
所述G1粒度为原始的人体图像,其对应的掩码图为S1,即
S1(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6+R7
所述G2粒度为去掉背景的人体图像,其对应的掩码图为S2,即
S2(x,y)=1,(x,y)∈R1+R2+R3+R4+R5+R6
所述G3粒度对应的掩码图分别为S3,S4,S5,分别对应头部+胸部、胸部+大腿、大腿+小腿三个区域,G3粒度能提取R1和R2之间,R2和R5之间以及R5和R6之间的过渡信息,其中,
所述G4粒度其对应的掩码图分别为S6,S7,S8,S9,分别对应头部、胸部、大腿及小腿四个区域,其中,
S13,将所述行人图像产生9个副本,将第i个副本图像根据步骤S12获取的掩码图,对其对应掩码为0的区域采用随机噪声替换,以消除与当前语义不相关的信息对当前语义进行特征提取时的干扰;
S14,将经过步骤S13处理的9个图像,根据步骤S12获取的掩码图Si进行裁剪,裁剪的区域为包含掩码中所有数值为1的最小矩形区域,裁剪得到的区域分别进行尺度归一化,得到9张语义区域图像Hi=(i=1~9),使得具有相同语义信息的区域大小保持一致。
3.如权利要求1或2所述的一种基于多粒度人体语义解析的行人重识别方法,其特征在于,所述步骤S2中,采用ResNet50卷积神经网络进行分类训练,并且采用softmax作为损失函数,具体公式如下:
其中i是语义区域的索引,T表示矩阵的转置,就是yj类的权重向量,fi,j是所提取的第j个样本第i个语义区域的特征,y是数据集已经标注好的行人身份标签。C是训练集中行人类别总数,N是训练的最小批次,Wk对应于k类的权重向量,/>表示第i个语义分类器的softmax损失。
4.如权利要求2所述的一种基于多粒度人体语义解析的行人重识别方法,其特征在于,所述步骤S3具体是:
将步骤S1输出的所述行人图像Hi(i=1~9)输入步骤S2得到的对应的分类器Ci(i=1~9)中进行特征提取,得到九个特征fi(i=1~9),然后将提取到的特征通过训练进行融合,得到最终的行人的特征描述子f:
f=(w1f1,…,wifi,…,w9f9)
其中,wi(i=1~9)是融合的权重,fi(i=1~9)是提取的特征,
融合训练使用的损失函数为三元组损失,具体公式如下:
其中,fb a、fb p和fj n是融合所得到的特征,并且fb a和fb p是来自同一行人的正样本对,而fb a和fj n表示来自不同行人的负样本对,m表示正样本对和负样本对之间的阈值,在每个最小批次中,选择P个行人进行训练,K表示图像数量,LT表示三元组损失。
5.如权利要求1或2所述的一种基于多粒度人体语义解析的行人重识别方法,其特征在于,所述步骤S4中,使用相似性度量计算得到距离,进行行人重识别。
6.如权利要求1或2所述的一种基于多粒度人体语义解析的行人重识别方法,其特征在于,所述卷积神经网络的步长设定为1。
7.如权利要求1或2所述的基于多粒度人体语义解析的行人重识别方法,其特征在于,所述步骤S1之前包括步骤:
对行人图像进行关键点注释;
在现有的人体解析数据集中搜索具有类似姿势的行人图像,将上述得到的行人图像根据关键点进行聚类得到行人重识别的先验结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096068.3A CN111046732B (zh) | 2019-11-11 | 2019-11-11 | 一种基于多粒度语义解析的行人重识别方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096068.3A CN111046732B (zh) | 2019-11-11 | 2019-11-11 | 一种基于多粒度语义解析的行人重识别方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046732A CN111046732A (zh) | 2020-04-21 |
CN111046732B true CN111046732B (zh) | 2023-11-28 |
Family
ID=70232373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911096068.3A Active CN111046732B (zh) | 2019-11-11 | 2019-11-11 | 一种基于多粒度语义解析的行人重识别方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046732B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666851B (zh) * | 2020-05-28 | 2022-02-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN111967294B (zh) * | 2020-06-23 | 2022-05-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN111784564B (zh) * | 2020-06-30 | 2022-05-10 | 稿定(厦门)科技有限公司 | 自动抠图方法及系统 |
CN111783753B (zh) * | 2020-09-04 | 2020-12-15 | 中国科学院自动化研究所 | 基于语义一致水平条和前景修正的行人重识别方法 |
CN112541448B (zh) * | 2020-12-18 | 2023-04-07 | 济南博观智能科技有限公司 | 一种行人重识别方法、装置、电子设备和存储介质 |
CN112766180B (zh) * | 2021-01-22 | 2022-07-12 | 重庆邮电大学 | 一种基于特征融合和多核学习的行人再识别方法 |
CN114120077B (zh) * | 2022-01-27 | 2022-05-03 | 山东融瓴科技集团有限公司 | 一种基于无人机航拍大数据下的防控风险预警方法 |
CN115331262A (zh) * | 2022-09-06 | 2022-11-11 | 通号通信信息集团有限公司 | 图像识别方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005794A (zh) * | 2015-07-21 | 2015-10-28 | 太原理工大学 | 融合多粒度上下文信息的图像像素语义标注方法 |
CN105224937A (zh) * | 2015-11-13 | 2016-01-06 | 武汉大学 | 基于人体部件位置约束的细粒度语义色彩行人重识别方法 |
CN107346409A (zh) * | 2016-05-05 | 2017-11-14 | 华为技术有限公司 | 行人再识别方法和装置 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
CN108520226A (zh) * | 2018-04-03 | 2018-09-11 | 东北大学 | 一种基于躯体分解和显著性检测的行人重识别方法 |
CN109101108A (zh) * | 2018-07-25 | 2018-12-28 | 重庆邮电大学 | 基于三支决策优化智能座舱人机交互界面的方法及系统 |
CN109344842A (zh) * | 2018-08-15 | 2019-02-15 | 天津大学 | 一种基于语义区域表达的行人重识别方法 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558268B2 (en) * | 2014-08-20 | 2017-01-31 | Mitsubishi Electric Research Laboratories, Inc. | Method for semantically labeling an image of a scene using recursive context propagation |
-
2019
- 2019-11-11 CN CN201911096068.3A patent/CN111046732B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005794A (zh) * | 2015-07-21 | 2015-10-28 | 太原理工大学 | 融合多粒度上下文信息的图像像素语义标注方法 |
CN105224937A (zh) * | 2015-11-13 | 2016-01-06 | 武汉大学 | 基于人体部件位置约束的细粒度语义色彩行人重识别方法 |
CN107346409A (zh) * | 2016-05-05 | 2017-11-14 | 华为技术有限公司 | 行人再识别方法和装置 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
CN108520226A (zh) * | 2018-04-03 | 2018-09-11 | 东北大学 | 一种基于躯体分解和显著性检测的行人重识别方法 |
CN109101108A (zh) * | 2018-07-25 | 2018-12-28 | 重庆邮电大学 | 基于三支决策优化智能座舱人机交互界面的方法及系统 |
CN109344842A (zh) * | 2018-08-15 | 2019-02-15 | 天津大学 | 一种基于语义区域表达的行人重识别方法 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
Non-Patent Citations (5)
Title |
---|
Fang, H. S., et al,.Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer.arXiv:1805.04310v1.2018,第2页第2节至第5页第3节,图2. * |
Learning Discriminative Features with Multiple Granularities for Person Re-Identification;Wang, G., et al.;2018 ACM Multimedia Conference (MM ’18);1-9 * |
Ren S,et al..Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.Advances in neural information processing systems.2015,1-14. * |
Sun, Y. , et al,.Beyond Part Models: Person Retrieval with Refined Part Pooling(and A Strong Convolutional Baseline).arXiv:1711.09349v3.2018,第2页至第5页第2节至第4节,图1-3. * |
基于视频场景深度学习的人物语义识别模型;高翔;陈志;岳文静;龚凯;;计算机技术与发展(06);59-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN111046732A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046732B (zh) | 一种基于多粒度语义解析的行人重识别方法及存储介质 | |
Aneja et al. | Transfer learning using CNN for handwritten devanagari character recognition | |
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
CN104881637B (zh) | 基于传感信息及目标追踪的多模信息系统及其融合方法 | |
CN109558823B (zh) | 一种以图搜图的车辆识别方法及系统 | |
Wu et al. | Metric learning based structural appearance model for robust visual tracking | |
CN105069434B (zh) | 一种视频中人体动作行为识别方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
Yao et al. | Learning universal multiview dictionary for human action recognition | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN108537145A (zh) | 基于时空骨骼特征及深度信念网络的人体行为识别方法 | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
Li et al. | Online metric-weighted linear representations for robust visual tracking | |
CN112149494A (zh) | 一种多人姿态识别方法及系统 | |
CN110909678B (zh) | 一种基于宽度学习网络特征提取的人脸识别方法及系统 | |
Lin et al. | Object detection algorithm based AdaBoost residual correction Fast R-CNN on network | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN118038494A (zh) | 一种损坏场景鲁棒的跨模态行人重识别方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN117152851A (zh) | 基于大模型预训练的人脸、人体协同聚类方法 | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
Liu et al. | 3D action recognition using multi-temporal skeleton visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |