CN108875505A - 基于神经网络的行人再识别方法和装置 - Google Patents
基于神经网络的行人再识别方法和装置 Download PDFInfo
- Publication number
- CN108875505A CN108875505A CN201711124587.7A CN201711124587A CN108875505A CN 108875505 A CN108875505 A CN 108875505A CN 201711124587 A CN201711124587 A CN 201711124587A CN 108875505 A CN108875505 A CN 108875505A
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- distance
- neural network
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本公开提供一种基于神经网络的行人再识别方法和装置、以及计算机可读存储介质。所述行人再识别方法包括:接收包括所述行人的行人图像,以及比对图像;分别提取所述行人图像及所述比对图像中的特征;对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果;其中,所述提取的特征表示图像中的纵向或横向上的图像特征。
Description
技术领域
本公开涉及图像处理领域,更具体地,本公开涉及一种基于神经网络的行人再识别方法和装置、以及计算机可读存储介质。
背景技术
行人再识别指的是在不同的摄像机下识别出同一个人,其在视频监控、行人追踪等领域有很大的作用。一般的行人再识别策略主要是比较行人的衣服颜色,空间结构等底层简单特征来判断两张图是不是同一个人。但是这些简单特征不能很好的解决一些复杂的情况,比如背景的变化、光照的变化、人的姿态的转变、行人被遮挡等。此外,行人再识别一般在行人检测环节之后,行人检测的误差也会对行人再识别的准确性。
当前利用卷积神经网络提取行人特征来实现行人再识别的方法也已经被广泛应用。在提取完图像的特征以后,通常需要算一个距离矩阵来表示任意两张行人图像之间的相似性,常用的距离公式有欧式距离,夹角余弦距离等。但是这些简单的距离公式只考虑了特征的整体特性而忽略了局部特性,所以在一些比较困难的样本中表现不好。
发明内容
鉴于上述问题而提出了本公开。本公开提供了一种基于神经网络的行人再识别方法和装置、以及计算机可读存储介质。
根据本公开的一个方面,提供了一种基于神经网络的行人再识别方法,包括:接收包括所述行人的行人图像,以及比对图像;分别提取所述行人图像及所述比对图像中的特征;对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果;其中,所述提取的特征表示图像中的纵向或横向上的图像特征。其中,分别提取所述行人图像及所述比对图像中的特征包括:通过所述神经网络,分别从所述行人图像及所述比对图像得到一个三维张量;对所述三维张量在横向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表纵向和频道,其中,纵向上的每个一维向量代表纵向上的图像特征;或者,对所述三维张量在纵向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表横向和频道,其中,横向上的每个一维向量代表横向上的图像特征。所述对比所述分别提取的特征包括使用动态规划方法计算所述行人图像的二维张量与比对图像的二维张量之间的距离或匹配概率。
根据本公开的另一个方面,提供了一种基于神经网络的行人再识别装置,包括:接收模块,用于接收包括所述行人的行人图像,以及比对图像;提取模块,用于分别提取所述行人图像及所述比对图像中的特征;识别模块,用于对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果;其中,所述提取模块提取的特征表示图像中的纵向或横向上的图像特征。其中,所述提取模块具体用于:通过所述神经网络,分别从所述行人图像及所述比对图像得到一个三维张量;对所述三维张量在横向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表纵向和频道,其中,纵向上的每个一维向量代表纵向上的图像特征;或者,对所述三维张量在纵向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表横向和频道,其中,横向上的每个一维向量代表横向上的图像特征。其中,所述识别模块用于对比所述分别提取的特征具体为:使用动态规划方法计算所述行人图像的二维张量与比对图像的二维张量之间的距离或匹配概率。
根据本公开的又一个方面,提供了一种基于神经网络的行人再识别装置,所述行人再识别装置包括:存储器,用于存储非暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述行人再识别装置执行上述基于神经网络的行人再识别方法。
根据本公开的再一个方面,提供了一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行上述基于神经网络的行人再识别方法。
要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是图示根据本公开的实施例的基于神经网络的行人再识别方法的流程图。
图2是图示根据本公开一个实施例的行人再识别方法中的特征比对处理的流程图。
图3是图示根据本公开另一个实施例的行人再识别方法中的特征比对处理的流程图。
图4是图示根据本公开的实施例的神经网络的示意图。
图5是图示根据本公开的实施例的用于行人再识别的神经网络的训练方法的流程图。
图6是图示根据本公开的实施例的基于神经网络的行人再识别装置的框图。
图7是图示根据本公开的实施例的行人再识别装置的硬件框图。
图8是图示根据本公开的实施例的计算机可读存储介质的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。基于本公开中描述的本公开实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。
本公开涉及基于神经网络的行人再识别方法和装置。利用神经网络进行行人再识别的方法可以分为两个阶段,即训练阶段和识别阶段。所谓训练阶段是指首先需要利用训练图像对神经网络进行训练,以调整神经网络的参数;所谓识别阶段是指随后可以利用训练好的神经网络对图像中的行人进行再识别。以下,将参考附图详细描述本公开的各个实施例。
首先,参照图1、图2和图3描述根据本公开的实施例的基于神经网络的行人再识别方法。
图1是图示根据本公开的实施例的基于神经网络的行人再识别方法的流程图。图2是图示根据本公开一个实施例的行人再识别方法中的特征比对处理的流程图。图3是图示根据本公开另一个实施例的行人再识别方法中的特征比对处理的流程图。如图1所示,根据本公开的实施例的基于神经网络的行人再识别的方法包括以下步骤。
在步骤S101中,接收包括行人的行人图像,以及比对图像。在本公开的一个实施例中,行人图像表示其中包括待识别的行人的图像;比对图像则表示需要对其与所述行人图像进行比对,以从中找到出与行人图像中行人相同的目标行人的图像。在本公开的实施例中,接收比对图像包括但不限于,在由物理位置上分离配置的图像获取模块采集图像数据之后,经由有线或者无线方式,接收从所述图像获取模块发送的视频数据。可替代地,图像获取模块可以与行人再识别装置中的其他模块或组件物理上位于同一位置甚至位于同一机壳内部,行人再识别装置中的其他模块或组件经由内部总线接收从所述图像获取模块发送的视频数据。可替代地,图像获取模块可以直接接收从外部传输到行人再识别装置中用于行人识别的视频数据。在本公开的一个实施例中,比对图像可以是图像获取模块采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。具体地,比对图像包括但不限于,由不同的摄像机或相同摄像机在不同时刻下获得的视频流中的图像、或者是图片库中的图片,不同的比对图像的背景、光线、人物位置可以各不相同。在接收到上述图像后,处理进到步骤S102。
在步骤S102中,分别提取行人图像及比对图像中的特征。所提取的特征表示图像中的纵向或横向上的图像特征。在本公开的一个实施例中,提取特征的过程具体为通过所述神经网络,分别从行人图像及比对图像得到一个三维张量;对该三维张量在横向上进行下采样得到一个二维张量,该二维张量的两个维度分别代表纵向和频道,其中,纵向上的每个一维向量代表纵向上的图像特征,或者,对该三维张量在纵向上进行下采样得到一个二维张量,该二维张量的两个维度分别代表横向和频道,其中,横向上的每个一维向量代表横向上的图像特征。
如下将详细描述的,在本公开的一个实施例中,神经网络包括一层或多层卷积神经网络(CNN)。卷积神经网络是一种前馈神经网络,由若干卷积单元组成。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。例如,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。这些特征类似于热力图,对于一张图像,经过卷积网络提取的特征,是一个三维张量H。该三维张量的三个维度分别代表横向、纵向和频道。不同于一些其他方法,人为定义图像的特征,该三维张量H,是由卷积神经网络自动提取的。对于该卷积网络的参数可以进行随机初始化,也可以利用之前已经训练好的网络(如VGG、ResNet等)进行初始化。对于这些已有的网络,可以选取其中的某些部分作为我们网络的一部分,也可以固定一部分参数不参与训练。
在本公开的一个实施例中,对于上述提取到的特征,即三维张量H,在横向上进行下采样使得其在横向维度上大小变成1,取出这一维的值得到一个二维张量F,该二维张量F的两个维度分别代表纵向和通道,纵向上的每个一维向量(大小为通道数)代表了这部分的特征;或者,对三维张量H,在纵向上进行下采样使得其在纵向维度上大小变成1,取出这一维的值得到一个二维张量F,该二维张量F的两个维度分别代表横向和通道,横向上的每个一维向量(大小为通道数)代表了这部分的特征。此后,处理进到步骤S103。
在步骤S103中,对比分别提取的特征。其中,对比所述分别提取的特征包括使用动态规划方法计算行人图像的二维张量与比对图像的二维张量之间的距离或匹配概率。此后,处理进到步骤S104。
在步骤S104中,识别比对图像中是否存在所述行人,输出识别结果。
以上,通过图1的流程图概述了根据本公开实施例的行人再识别方法。如上所述,本公开实施例的行人再识别方法通过卷积神经网络对图像中的特征进行提取,并且同时对特征进行对比以识别对比图像中是否存在行人。
图2是进一步图示根据本公开的一个实施例的行人再识别方法中的特征比对处理的流程图。在参照图1描述的步骤S102之后,根据本公开实施例的行人再识别方法进到对比所述分别提取的特征的步骤,其中,使用基于最短路径的动态规划方法计算行人图像的二维张量与比对图像的二维张量之间的距离。
如图2所示,在步骤S201中,计算行人图像中的特征与比对图像中的特征之间的距离,得到距离矩阵W。在本申请的一个实施例中,对图像在横向上进行下采样,得到行人图像的二维张量为F1,比对图像的二维张量为F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离,得到距离矩阵W。此后,处理进到步骤S202。
在步骤S202中,根据距离矩阵W,计算从F1到F2的最短路径矩阵D。具体地,根据该距离矩阵W,计算从F1的前i/h部分和F2的前j/h部分的距离可以表示为:
Di,j=Wi,j /当i==0且j==0
Di,j=Di,j-1+Wi,j /当i==0
Di,j=Di-1,j+Wi,j /当j==0
Di,j=min(Di,j-1+Wi,j,Di-1,j+Wi,j)/当i!=0且j!=0
其中,h表示F1和F2的纵向维度大小,i和j的取值范围为[0,h-1],Di,j-1表示F1的前i/h部分和F2的前(j-1)/h部分的距离,Di-1,j表示F1的前(i-1)/h部分和F2的前j/h部分的距离。此后,处理进到步骤S203。
在步骤S203中,根据最短路径矩阵D确定行人图像与比对图像的最终距离。具体地,通过上述S202中的计算过程,取出Dh-1,h-1即为F1和F2根据最短路径方法得到的最小距离d,则d即代表了行人图像与比对图像之间的最终距离。并根据上述得到的最终距离确定识别结果。此后,处理进到S104。
图3是进一步图示根据本公开的另一个实施例的行人再识别方法中的特征比对处理的流程图。考虑到计算对应的点的距离之和作为最终的距离,使得特别不像的局部权重很大,即此时两张图的距离特别远,这点不符合现实应用中的情况,基于这一点,提出另一实施例,即基于最大概率的动态规划方法,在参照图1描述的步骤S102之后,根据本公开实施例的行人再识别方法进到对比所述分别提取的特征的步骤,其中,使用基于最大概率的动态规划方法计算行人图像的二维张量与比对图像的二维张量之间匹配概率。
如图3所示,在步骤S301中,计算行人图像中的特征与比对图像中的特征之间的距离,得到距离矩阵W。在本申请的一个实施例中,对图像在横向上进行下采样,得到行人图像的二维张量为F1,比对图像的二维张量为F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离,得到距离矩阵W。此后,处理进到步骤S302。
在步骤S302中,将距离矩阵W中每个元素求取倒数,得到概率矩阵1/W,根据所述概率矩阵1/W,计算从F1到F2的最大匹配概率矩阵P。具体地,根据该距离矩阵W得到概率矩阵1/W,计算从F1的前i/h部分和F2的前j/h部分匹配的概率可以表示为:
Pi,j=1/Wi,j /当i==0且j==0
Pi,j=Pi,j-1+1/Wi,j /当i==0
Pi,j=Pi-1,j+1/Wi,j /当j==0
Pi,j=max(Pi,j-1+1/Wi,j,Pi-1,j+1/Wi,j)/当i!=0且j!=0
其中,h表示F1和F2的纵向维度大小,i和j的取值范围为[0,h-1],Pi,j-1表示F1的前i/h部分和F2的前(j-1)/h部分匹配的概率,Pi-1,j表示F1的前(i-1)/h部分和F2的前j/h部分匹配的概率。此后,处理进到步骤S303。
在步骤S303中,根据所述最大匹配概率矩阵P确定所述行人图像与所述比对图像的最终匹配概率。具体地,通过上述S302中的计算过程,取出Ph-1,h-1即为F1和F2根据最短路径方法得到的最大概率P,则P即代表了行人图像与比对图像之间的最终匹配概率。并根据上述得到的最终匹配概率确定识别结果。此后,处理进到S104。
以下,将参照图4和图5的神经网络的结构示意图和流程图进一步详细描述根据本公开实施例的神经网络训练方法。用于实现根据本公开实施例的行人再识别方法的神经网络预先通过大量的样本数据进行训练。图4是图示根据本公开的实施例的神经网络的示意图。图5是图示根据本公开的实施例的用于行人再识别的神经网络的训练方法的流程图。
根据本公开的实施例的用于行人再识别的神经网络400如图4所示,本公开实施例的神经网络400包括输入层401、中间层402以及输出层403,其中,中间层402包括多个卷积层40211到4021N、40221到4022N、40231到4023N。输入层401接收样本图像,样本图像为包括三张图像的图像三元组,其中包括参考图像、正样本图像以及负样本图像;中间层402对所述三元组中的图像进行特征提取;输出层403根据所述距离或匹配概率构建三元组的损失函数,输出损失函数的输出计算结果,当输出层的损失函数收敛时,获得训练好的所述神经网络。
具体地,如下将参照图5进一步描述的,根据本公开的实施例的用于的行人再识别的神经网络的训练方法包括以下步骤。
在步骤S501中,经由输入层接收样本图像,样本图像包括图像三元组,该图像三元组包括参考图像、正样本图像以及负样本图像,其中所述参考图像和所述正样本图像为包含相同的行人不同图像,所述负样本图像中不包含所述行人。此后,处理进到S502。
在步骤S502中,经由中间层对样本图像进行特征提取,即对三元组中的图像分别进行特征提取。此后,处理进到步骤S503。
在步骤S503中,经由输出层得到损失函数的计算结果;其中,输出层根据距离或匹配概率构建三元组的损失函数。此后,处理进到步骤S504。
在步骤S504中,判断损失函数是否收敛,如果收敛,则训练过程结束。如果不收敛,则进到步骤S505继续输入其他的样本图像,并返回步骤S501重复执行所述训练过程。
具体地,在训练过程中,每次会取三张行人图片形成一个三元组,其中第一张为参考图片,第二张是和第一张为同一个人的不同图片作为正样本,第三张是和第一张为不同人的图片作为负样本。这三张图片经过同一个神经网络后和下采样过程后得到三个二维张量F1,F2,F3。
根据上面的描述,根据本公开的一个实施例,根据距离构建基于最短路径动态规划方法的损失函数L,使得到F1和F2之间的距离d12作为正样本距离,F1和F3之间的距离d13作为负样本距离。训练的目标是使得正样本距离尽量小而负样本距离尽量大。
该实施例中,损失函数L表示为:L=max(d12–d13+margin,0)
其中,margin为设置的常数,用来控制需要参与训练的样本难度。
整个网络通过大量的三元组样本数据进行训练,利用反向传播算法来训练卷积神经网络中的各个参数。当训练结束时,这些参数已知,在行人再识别场景的应用中,会把经过行人检测截取出来的图片输入这个神经网络,得到它的输出作为这张图片的特征,计算所有需要查找的行人图片和所有可能的图片库里的图片的距离,并对其排序,就可以找到和查询图片最相近的图片,并认为其最有可能和查询图片是同一个人。
类似地,根据本公开的另一个实施例,根据匹配概率构建基于最大概率的动态规划方法的损失函数L,使得到F1和F2之间的p12作为正样本的匹配概率,F1和F3之间的p13作为负样的匹配概率。训练的目标是使得正样本的匹配概率尽量大而负样本的匹配概率尽量小。
该实施例中,损失函数L表示为:L=max(1/p12–1/p13+margin,0)
其中,margin为设置的常数,用来控制需要参与训练的样本难度。
此外,需要理解的是,参照图4、图5示出的神经网络结构及训练方法仅仅是示例性的,本公开不限于此。
图6是图示根据本公开的实施例的行人再识别装置的框图。如图6所示的根据本公开的实施例的行人再识别装置60可以用于执行如图1所示的行人再识别方法。如图6所示,根据本公开的实施例的行人再识别装置60包括接收模块601、提取模块602以及识别模块603。
具体地,接收模块601用于接收包括所述行人的行人图像,以及比对图像。在本公开的一个实施例中,接收模块601可以通过图像采集模块获取待检测的人脸图像。
提取模块602用于分别提取所述行人图像及所述比对图像中的特征。其中,所述提取模块提取的特征表示图像中的纵向或横向上的图像特征。
识别模块603用于对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果。
图7是图示根据本公开的实施例的行人再识别装置的硬件框图。如图7所示,根据本公开实施例的行人再识别装置70包括存储器701和处理器702。行人再识别装置70中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。
所述存储器701用于存储非暂时性计算机可读指令。具体地,存储器701可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
所述处理器702可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制行人再识别装置70中的其它组件以执行期望的功能。在本公开的一个实施例中,所述处理器702用于运行所述存储器701中存储的所述计算机可读指令,使得所述行人再识别装置70执行上述基于神经网络的行人再识别方法。所述基于神经网络的行人再识别方法与上述基于神经网络的行人再识别方法描述的实施例相同,在此将省略其重复描述。
此外,需要理解的是,图7所示的行人再识别装置70的组件和结构只是示例性的,而非限制性的,根据需要,行人再识别装置70也可以具有其他组件和结构。例如,图像采集装置和输出装置等(未示出)。图像采集装置可以用于采集图像,并且将所采集到的图像存储在存储器701中以供其它组件使用。当然,也可以利用其他图像采集设备采集所述图像,并且将采集的图像发送给行人再识别装置70。输出装置可以向外部(例如用户)输出各种信息,例如行人识别信息。输出装置可以包括显示器、扬声器、投影仪、网卡等中的一个或多个。
图8是图示根据本公开的实施例的计算机可读存储介质的示意图。如图8所示,根据本公开实施例的计算机可读存储介质800其上存储有非暂时性计算机可读指令801。当所述非暂时性计算机可读指令801由处理器运行时,执行参照上述描述的根据本公开实施例的基于神经网络的行人再识别方法。
以上,根据本公开实施例的基于神经网络的行人再识别方法和装置、以及计算机可读存储介质。通过根据本公开实施例的基于卷积神经网络的行人再识别方法提取特征,在特征图维度利用动态规划算法计算距离或匹配概率,更好得利用了行人的局部特性和各个部分间的相对关系,提高了行人再识别的精度。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (18)
1.一种基于神经网络的行人再识别方法,包括:
接收包括所述行人的行人图像,以及比对图像;
分别提取所述行人图像及所述比对图像中的特征;
对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果;
其中,所述提取的特征表示图像中的纵向或横向上的图像特征。
2.如权利要求1所述的方法,其中,分别提取所述行人图像及所述比对图像中的特征包括:
通过所述神经网络,分别从所述行人图像及所述比对图像得到一个三维张量;
对所述三维张量在横向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表纵向和频道,其中,纵向上的每个一维向量代表纵向上的图像特征;或者,
对所述三维张量在纵向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表横向和频道,其中,横向上的每个一维向量代表横向上的图像特征。
3.如权利要求2所述的方法,其中,所述对比所述分别提取的特征包括使用动态规划方法计算所述行人图像的二维张量与比对图像的二维张量之间的距离或匹配概率。
4.如权利要求3所述的方法,其中,所述动态规划方法包括基于最短路径的动态规划方法,
对于从所述行人图像中提取的二维张量F1,以及从所述比对图像中提取的二维张量F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离或者计算F1中横向上每个一维向量与F2中横向上每个一维向量之间的距离,得到距离矩阵W,根据所述距离矩阵W,计算从F1到F2的最短路径矩阵D,根据所述最短路径矩阵D确定所述行人图像与所述比对图像的最终距离,并根据所述最终距离确定识别结果。
5.如权利要求3所述的方法,其中,所述动态规划方法包括基于最大概率的动态规划方法,
对于从所述行人图像中提取的二维张量F1,以及从所述比对图像中提取的二维张量F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离或者计算F1中横向上每个一维向量与F2中横向上每个一维向量之间的距离,得到距离矩阵W,将距离矩阵W中每个元素求取倒数,得到概率矩阵1/W,根据所述概率矩阵1/W,计算从F1到F2的最大匹配概率矩阵P,根据所述最大匹配概率矩阵P确定所述行人图像与所述比对图像的最终匹配概率,并根据所述最终匹配概率确定识别结果。
6.如权利要求3所述的方法,其中所述神经网络包括输入层、中间层、输出层,所述方法还包括:预先训练所述神经网络,
其中,所述预先训练所述神经网络包括:
经由输入层接收包括三张图像的图像三元组,所述图像三元组包括参考图像、正样本图像以及负样本图像,其中所述参考图像和所述正样本图像为包含相同的行人不同图像,所述负样本图像中不包含所述行人;
经由中间层对所述三元组中的图像进行特征提取;以及
根据所述距离或匹配概率构建三元组的损失函数;
经由输出层得到损失函数的计算结果;
当输出层的损失函数收敛时,获得训练好的所述神经网络,否则继续输入其他的图像三元组重复执行所述训练过程。
7.如权利要求1所述的方法,其中,所述行人为图像中的特定的人。
8.如权利要求1所述的方法,其中,所述行人为视频流中的特定的人。
9.一种基于神经网络的行人再识别装置,包括:
接收模块,用于接收包括所述行人的行人图像,以及比对图像;
提取模块,用于分别提取所述行人图像及所述比对图像中的特征;
识别模块,用于对比所述分别提取的特征,识别所述比对图像中是否存在所述行人,输出识别结果;
其中,所述提取模块提取的特征表示图像中的纵向或横向上的图像特征。
10.如权利要求9所述的装置,其中,所述提取模块具体用于:
通过所述神经网络,分别从所述行人图像及所述比对图像得到一个三维张量;
对所述三维张量在横向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表纵向和频道,其中,纵向上的每个一维向量代表纵向上的图像特征;或者,
对所述三维张量在纵向上进行下采样得到一个二维张量,所述二维张量的两个维度分别代表横向和频道,其中,横向上的每个一维向量代表横向上的图像特征。
11.如权利要求10所述的装置,其中,所述识别模块用于对比所述分别提取的特征具体为:使用动态规划方法计算所述行人图像的二维张量与比对图像的二维张量之间的距离或匹配概率。
12.如权利要求11所述的装置,其中,所述识别模块使用的所述动态规划方法包括基于最短路径的动态规划方法,
对于从所述行人图像中提取的二维张量F1,以及从所述比对图像中提取的二维张量F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离或者计算F1中横向上每个一维向量与F2中横向上每个一维向量之间的距离,得到距离矩阵W,根据所述距离矩阵W,计算从F1到F2的最短路径矩阵D,根据所述最短路径矩阵D确定所述行人图像与所述比对图像的最终距离,并根据所述最终距离确定识别结果。
13.如权利要求11所述的装置,其中,所述识别模块使用的所述动态规划方法包括基于最大概率的动态规划方法,
对于从所述行人图像中提取的二维张量F1,以及从所述比对图像中提取的二维张量F2,计算F1中纵向上每个一维向量与F2中纵向上每个一维向量之间的距离或者计算F1中横向上每个一维向量与F2中横向上每个一维向量之间的距离,得到距离矩阵W,将距离矩阵W中每个元素求取倒数,得到概率矩阵1/W,根据所述概率矩阵1/W,计算从F1到F2的最大匹配概率矩阵P,根据所述最大匹配概率矩阵P确定所述行人图像与所述比对图像的最终匹配概率,并根据所述最终匹配概率确定识别结果。
14.如权利要求11所述的装置,其中所述神经网络包括输入层、中间层、输出层,所述装置还包括:训练模块,用于预先训练所述神经网络,
其中,所述训练模块具体用于:
经由输入层接收包括三张图像的图像三元组,所述图像三元组包括参考图像、正样本图像以及负样本图像,其中所述参考图像和所述正样本图像为包含相同的行人不同图像,所述负样本图像中不包含所述行人;
经由中间层对所述三元组中的图像进行特征提取;以及
根据所述距离或匹配概率构建三元组的损失函数;
经由输出层得到损失函数的计算结果;
当输出层的损失函数收敛时,获得训练好的所述神经网络,否则继续输入其他的图像三元组重复执行所述训练过程。
15.如权利要求9所述的装置,其中,所述行人为图像中的特定的人。
16.如权利要求9所述的装置,其中,所述行人为视频流中的特定的人。
17.一种基于神经网络的行人再识别装置,所述行人再识别装置包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述行人再识别装置执行如权利要求1-8中的任一项所述的基于神经网络的行人再识别方法。
18.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行如权利要求1-8中的任一项所述的基于神经网络的行人再识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124587.7A CN108875505B (zh) | 2017-11-14 | 2017-11-14 | 基于神经网络的行人再识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711124587.7A CN108875505B (zh) | 2017-11-14 | 2017-11-14 | 基于神经网络的行人再识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875505A true CN108875505A (zh) | 2018-11-23 |
CN108875505B CN108875505B (zh) | 2022-01-21 |
Family
ID=64325872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711124587.7A Active CN108875505B (zh) | 2017-11-14 | 2017-11-14 | 基于神经网络的行人再识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875505B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443228A (zh) * | 2019-08-20 | 2019-11-12 | 图谱未来(南京)人工智能研究院有限公司 | 一种行人匹配方法、装置、电子设备及存储介质 |
CN111881826A (zh) * | 2020-07-28 | 2020-11-03 | 深圳力维智联技术有限公司 | 跨模态行人重识别方法、装置、电子设备及存储介质 |
CN112216049A (zh) * | 2020-09-25 | 2021-01-12 | 交通运输部公路科学研究所 | 一种基于图像识别的施工警戒区监测预警系统及方法 |
CN113095123A (zh) * | 2019-12-23 | 2021-07-09 | 晶睿通讯股份有限公司 | 对象识别方法及其相关监控摄像设备 |
US20210319290A1 (en) * | 2020-04-09 | 2021-10-14 | Apple Inc. | Ternary mode of planar engine for neural processor |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001035685A1 (en) * | 1999-11-09 | 2001-05-17 | Orange A/S | System for electronic delivery of a personal identification code |
CN104636724A (zh) * | 2015-02-02 | 2015-05-20 | 华中科技大学 | 一种基于目标一致性的车载相机快速行人车辆检测方法 |
CN105229666A (zh) * | 2013-03-14 | 2016-01-06 | 微软技术许可有限责任公司 | 3d图像中的运动分析 |
US9430719B2 (en) * | 2005-05-09 | 2016-08-30 | Google Inc. | System and method for providing objectified image renderings using recognition information from images |
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
CN106971178A (zh) * | 2017-05-11 | 2017-07-21 | 北京旷视科技有限公司 | 行人检测和再识别的方法及装置 |
CN107122712A (zh) * | 2017-03-27 | 2017-09-01 | 大连大学 | 基于卷积神经网络和双向局部特征聚合描述向量的掌纹图像识别方法 |
CN107122707A (zh) * | 2017-03-17 | 2017-09-01 | 山东大学 | 基于外貌特征紧凑表示的视频行人再识别方法及系统 |
CN107122755A (zh) * | 2017-05-09 | 2017-09-01 | 四川大学 | 行人相似度计算方法及装置 |
-
2017
- 2017-11-14 CN CN201711124587.7A patent/CN108875505B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001035685A1 (en) * | 1999-11-09 | 2001-05-17 | Orange A/S | System for electronic delivery of a personal identification code |
US9430719B2 (en) * | 2005-05-09 | 2016-08-30 | Google Inc. | System and method for providing objectified image renderings using recognition information from images |
CN105229666A (zh) * | 2013-03-14 | 2016-01-06 | 微软技术许可有限责任公司 | 3d图像中的运动分析 |
CN104636724A (zh) * | 2015-02-02 | 2015-05-20 | 华中科技大学 | 一种基于目标一致性的车载相机快速行人车辆检测方法 |
CN106778527A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于三重损失的改进的神经网络行人再识别方法 |
CN107122707A (zh) * | 2017-03-17 | 2017-09-01 | 山东大学 | 基于外貌特征紧凑表示的视频行人再识别方法及系统 |
CN107122712A (zh) * | 2017-03-27 | 2017-09-01 | 大连大学 | 基于卷积神经网络和双向局部特征聚合描述向量的掌纹图像识别方法 |
CN107122755A (zh) * | 2017-05-09 | 2017-09-01 | 四川大学 | 行人相似度计算方法及装置 |
CN106971178A (zh) * | 2017-05-11 | 2017-07-21 | 北京旷视科技有限公司 | 行人检测和再识别的方法及装置 |
Non-Patent Citations (2)
Title |
---|
JIAWEI LIU 等: "Multi-Scale Triplet CNN for Person Re-Identification", 《COMPUTER SCIENCE》 * |
宋婉茹 等: "行人重识别研究综述", 《智能系统学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443228A (zh) * | 2019-08-20 | 2019-11-12 | 图谱未来(南京)人工智能研究院有限公司 | 一种行人匹配方法、装置、电子设备及存储介质 |
CN113095123A (zh) * | 2019-12-23 | 2021-07-09 | 晶睿通讯股份有限公司 | 对象识别方法及其相关监控摄像设备 |
CN113095123B (zh) * | 2019-12-23 | 2024-05-03 | 晶睿通讯股份有限公司 | 对象识别方法及其相关监控摄像设备 |
US20210319290A1 (en) * | 2020-04-09 | 2021-10-14 | Apple Inc. | Ternary mode of planar engine for neural processor |
US11604975B2 (en) * | 2020-04-09 | 2023-03-14 | Apple Inc. | Ternary mode of planar engine for neural processor |
CN111881826A (zh) * | 2020-07-28 | 2020-11-03 | 深圳力维智联技术有限公司 | 跨模态行人重识别方法、装置、电子设备及存储介质 |
CN112216049A (zh) * | 2020-09-25 | 2021-01-12 | 交通运输部公路科学研究所 | 一种基于图像识别的施工警戒区监测预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108875505B (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875505B (zh) | 基于神经网络的行人再识别方法和装置 | |
US10936911B2 (en) | Logo detection | |
WO2019218824A1 (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
CN109815843B (zh) | 图像处理方法及相关产品 | |
US10810745B2 (en) | Method and apparatus with image segmentation | |
CN110163193B (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
JP6448767B2 (ja) | 画像物体認識におけるロバスト特徴特定 | |
WO2017096758A1 (zh) | 图像分类方法、电子设备和存储介质 | |
CN108229347B (zh) | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 | |
WO2019042426A1 (zh) | 增强现实场景的处理方法、设备及计算机存储介质 | |
US20180157892A1 (en) | Eye detection method and apparatus | |
Chen et al. | Shape-Former: Bridging CNN and Transformer via ShapeConv for multimodal image matching | |
US9626552B2 (en) | Calculating facial image similarity | |
CN109871821B (zh) | 自适应网络的行人重识别方法、装置、设备及存储介质 | |
CN108875456B (zh) | 目标检测方法、目标检测装置和计算机可读存储介质 | |
EP3149611A1 (en) | Learning deep face representation | |
JP2018022360A (ja) | 画像解析装置、画像解析方法およびプログラム | |
CN108875482B (zh) | 物体检测方法和装置、神经网络训练方法和装置 | |
WO2016179808A1 (en) | An apparatus and a method for face parts and face detection | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
JP2018026122A (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20220076398A (ko) | Ar장치를 위한 객체 인식 처리 장치 및 방법 | |
CN113095199B (zh) | 一种高速行人识别方法及装置 | |
Berral-Soler et al. | RealHePoNet: a robust single-stage ConvNet for head pose estimation in the wild | |
US11295162B2 (en) | Visual object instance descriptor for place recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |