一种基于显著性模型下多尺度特征的行人重识别方法
技术领域
本发明属于图像分析及图像处理技术领域,涉及一种基于显著性模型下多尺度特征的行人重识别方法。
背景技术
随着时代的发展和社会的变迁,网络技术和通信技术飞速发展,随之而来的也是数字图像技术的不断发展和变迁。数字图像作为承载信息最直接最重要的载体之一,也是人们现如今生活当中必不可少的一部分。并且随着手机、数码相机等硬件设施不断完善,人们获取和处理图像的方式变得愈发的简单。行人重识别(Re-ID)技术在环境监测、搜索/救援、智能监控和一些基于可穿戴设备的应用中具有重要的基础作用。特别是,交叉场景识别的目标是自动匹配在不同地点或时间被摄像机捕捉到的行人,这要求识别模型在不同的目标数据集上具有足够的辨别度。因此,跨场景识别仍然有许多挑战需要克服。关键的挑战是如何捕获指定的跨场景上下文信息。特别地,相机视角的急剧变化、背景的杂乱、低分辨率和其他物体的遮挡会导致识别的模糊性。
现有的再识别方法主要集中在抑制空间域中的背景效应。这种方法通常是通过对单个图像的背景和前景进行单独处理来实现的。他们的关键想法是找到与人相关的区域,这些区域在不同的场景中是连贯的。然而,在实际应用中,通过抑制杂波背景很难获得令人满意的性能,因为在无约束的真实场景中,模糊运动、低分辨率和重遮挡会在提取识别特征时破坏行人的完整性过多或过少的上下文会影响特征提取,只有合适的上下文才能促进性能的提高。此外,适当使用背景也可以提高最终的识别结果。空间环境直观地反映了周围背景与目标行人的关系。例如,走在路上的行人和骑自行车的人是有区别的两种主要形状。其次,建筑物和树木经常部分遮挡行人。第三,配件,如袋子和雨伞,可以提供辅助线索来确定行人的特征。
发明内容
本发明的目的是提供一种基于显著性模型下多尺度特征的行人重识别方法,本方法能够通过对图像数据库中的大量行人图像进行识别和检索,并识别出特定行人的图像后提取出来。
本发明所采用的技术方案是,一种基于显著性模型下多尺度特征的行人重识别方法,具体步骤如下:
步骤1,首先根据原始行人图像对图像进行超像素分割;
步骤2,将经步骤1分割后的原图像转为超像素图像,并对得到的超像素图像进行显著性提取,得到行人图像的显著性图;
步骤3,将经步骤2得到的行人图像的显著性图输入到Resnet-50卷积神经网络中进行训练,当训练损失达到最低时即训练结束,并提取出行人图像的显著性图的显著性特征;
步骤4,将原始行人图像输入到另一个Resnet-50卷积神经网络中进行训练,当训练损失达到最低时即训练结束,并提取出原始行人图像的卷积特征;
步骤5,将经步骤3和步骤4得到的显著性特征和卷积特征进行融合,将两个不同的特征进行加权,得到加权后的融合特征;
步骤6,利用经步骤5得到的融合特征对行人图像数据库中的图像特征进行距离度量,根据度量后的不同距离进行图像排序,识别出高契合度的行人图像,最终检索出特定行人图像。
本发明的特点还在于:
其中步骤1具体内容为:根据原始数据库中的行人图像,对行人图像进行超像素分割,将彩色图像转化为CIELAB颜色空间和XY坐标下的5维特征向量,然后对5维特征向量构造距离度量标准,对图像像素进行局部聚类;
其中步骤1具体包括以下步骤:
步骤1.1,初始化种子点,即聚类中心:按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有N个像素点,预分割为K个相同尺寸的超像素,每个超像素的大小为N/K,则相邻种子点的步长近似为S=sqt(N/K);
步骤1.2,在种子点的n*n,n=3,邻域内重新选择种子点,具体方法为:计算该邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的地方;
步骤1.3,在每个种子点周围的邻域内为每个像素点分配类标签;
步骤1.4,距离度量,包括颜色距离和空间距离;对于每个搜索到的像素点,分别计算它和该种子点的距离,距离计算方法如下:
式中,dc为颜色距离,ds为空间距离,Ns为类内最大空间距离,定义为Ns=S=sqrt(N/K),Nc为最大的颜色距离;
步骤1.5,迭代优化,上述步骤不断迭代直到误差收敛,新建一张标记表,表内元素均为-1,按照“Z”型走向将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素,遍历过的像素点分配给相应的标签,直到所有点遍历完毕为止;
其中步骤2具体包括以下步骤:
根据步骤1中得到的超像素信息图像分别计算每一个超像素点的显著性,通过计算每一个像素点i到超像素点的距离作为图像的显著性,分别需要计算全局、边缘和边缘的显著性,具体内容包括以下步骤:
步骤2.1,首先计算每个超像素点的全局显著性,对于超像素i,计算i到所有超像素点的距离之和,作为这个点的显著性,如下式:
为了便于显示,对其进行规范到[0,255]:
之后用Sa(i)代替超像素点的灰度值;
步骤2.2,计算每个超像素块边缘的显著性,求距离之和时先判断j是否处于边缘,设一阈值,当某点距离边缘的距离小于阈值,则认定为边缘点,如下式(4):
步骤2.3,计算每一个超像素块的局部显著性,首先判断i与j的欧氏距离是否小于某个阈值,如果小于,则按下式计算显著性:
其中步骤3具体包括以下步骤:
步骤3.1,利用经步骤2得到的显著性行人图像,作为Resnet-50卷积神经网络的训练集,对resnet-50卷积神经网络进行训练,图像处理中比较常见的就是二维卷积:
给定一个图像X∈R^{M*N},一个滤波器W∈R^{m*n},m<<M,其卷积为
步骤3.2,根据步骤3.1对网络进行训练,训练的过程中不断会有权重的更新和误差的产生,将网络的误差达到最小值,其网络的误差公式为:
式中,总误差中的d,y分别是期望输出和网络输出的向量,L为网络层级数;||x||
2表示向量x的2-范数,计算表达式为
权值损失函数Loss是关于权值W的函数,即Loss(W),权值的更新公式为:
Wi+1=ΔW+Wi (9)
式中,Wi是不同层级的权重,n是网络的学习率;
步骤3.3,根据步骤3.1和步骤3.2的网络训练过程,在不断卷积操作的过程中,卷积核的权重不断更新,最终使得损失函数的loss值达到最低状态,卷积神经网络就训练完成;将待查询的行人图像作为卷积神经网络的输入到训练好的resnet-50卷积神经网络中即可得到待查询行人图像的特征向量w1,此特征向量为待查询行人图像的显著性局部特征;
其中步骤4具体包括以下步骤:
与步骤3相同,使用相同的方法训练新的resnet-50卷积神经网络,通过卷积处理得到不同的特征映射,并且使用Loss函数对网络中的权重不断进行跟新,以达到最佳的训练效果;与步骤3不同的地方在于,步骤4需要得到行人图像的整体图像特征,即全局特征;因此需要在网络训练的过程中输入原始数据库中的行人图像,通过原始图像对resnet-50卷积神经网络进行训练,在这一个训练过程中,resnet-50卷积神经网络的权重更加倾向于原始行人图像的特征,到卷积全局特征w2;
其中步骤5具体包括以下步骤:
将经步骤3得到的显著性局部特征和步骤4得到的卷积全局特征进行特征加权;最终的特征加权函数为:
w=w1+λw2 (10)
式中,w1为步骤3得到的显著性局部特征,w2为步骤4得到的卷积全局特征,λ为w2特征的权重值;
其中步骤6具体包括以下步骤:
将经步骤5得到的融合特征进行距离度量;距离度量方式为马氏距离,其具体的马氏距离度量公式为:
式中,x为待查询行人图像的特征向量,y为数据库中的比对图像的特征向量。
本发明的有益效果是:
本发明融合了卷积全局特征和显著性局部特征,通过融合后的加权特征进行不同图像之间的距离度量,对相同行人的图像进行识别和检索,使用显著性模型下的多尺度特征对原始图像数据库中的行人图像进行识别的检索,得到特定行人的图像,使其更好的适用于基于显著性模型下多尺度特征的行人重识别系统。本发明使用了一种较为先进的超像素分割算法,对原图像进行超像素处理,并有效提取出显著性区域的行人图像,有效的去除了原图像中的冗余信息,有利于目标识别和定位,加快了算法的运算速度,并提高了系统的稳定性,本发明融合卷积神经网络和显著性提取算法使用时,能够大幅度提高识别和定位的精度,使用该方法不仅可以对行人图像进行目标识别与检索,同时也能在其他领域中进行使用,本发明融合卷积神经网络和显著性提取算法的目标识别与检索方法,也适用于图像检索领域,可以提高图像检索的精度。
附图说明
图1是本发明的一种基于显著性模型下多尺度特征的行人重识别方法的显著性图像提取示意图;
图2是本发明的一种基于显著性模型下多尺度特征的行人重识别方法的具体流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明所采用的技术方案是一种基于显著性模型下多尺度特征的行人重识别的方法,如图1所示,具体按照以下步骤实施:
步骤1具体为:如图1中,根据原始数据库中的行人图像,对行人图像进行超像素分割,将彩色图像转化为CIELAB颜色空间和XY坐标下的5维特征向量,然后对5维特征向量构造距离度量标准,对图像像素进行局部聚类;其中具体实现步骤为:
步骤1.1,初始化种子点(聚类中心):按照设定的超像素个数,在图像内均匀的分配种子点,假设图片总共有N个像素点,预分割为K个相同尺寸的超像素,那么每个超像素的大小为N/K,则相邻种子点的距离(步长)近似为S=sqt(N/K);
步骤1.2,在种子点的n*n邻域内重新选择种子点(一般取n=3),具体方法为:计算该邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的地方;这样做的目的是为了避免种子点落在梯度较大的轮廓边界上,以免影响后续聚类效果。
步骤1.3,在每个种子点周围的邻域内为每个像素点分配类标签(即属于哪个聚类中心)。和标准的k-means在整张图中搜索不同,SLIC的搜索范围限制为2S*2S,可以加速算法收敛,如下图1,在此注意一点:期望的超像素尺寸为S*S,但是搜索的范围是2S*2S;
步骤1.4,距离度量。包括颜色距离和空间距离。对于每个搜索到的像素点,分别计算它和该种子点的距离。距离计算方法如下
式中,dc代表颜色距离,ds代表空间距离,Ns是类内最大空间距离,定义为Ns=S=sqrt(N/K),适用于每个聚类,Nc是最大的颜色距离,既随图片不同而不同,也随聚类不同而不同;
步骤1.5,迭代优化;理论上上述步骤不断迭代直到误差收敛(可以理解为每个像素点聚类中心不再发生变化为止),实践发现10次迭代对绝大部分图片都可以得到较理想效果,所以一般迭代次数取10;经过上述迭代优化可能出现以下瑕疵:出现多连通情况、超像素尺寸过小,单个超像素被切割成多个不连续超像素等,这些情况可以通过增强连通性解决。主要思路是新建一张标记表,表内元素均为-1,按照“Z”型走向(从左到右,从上到下顺序)将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素,遍历过的像素点分配给相应的标签,直到所有点遍历完毕为止;
其中步骤2具体为:根据步骤1中得到的超像素信息图像分别计算每一个超像素点的显著性,通过计算每一个像素点i到超像素点的距离作为图像的显著性;分别需要计算全局、边缘和边缘的显著性,计算方法如下:
步骤2.1,首先计算每个超像素点的全局显著性,对于超像素i,计算i到所有超像素点的距离之和,作为这个点的显著性;
为了便于显示,对其进行规范到[0,255]:
之后用Sa(i)代替超像素点的灰度值,即可得到全局显著性结果;
步骤2.2,计算每个超像素块边缘的显著性,与步骤1类似,唯一区别就是求距离之和时先判断j是否处于边缘(设一阈值,当某点距离边缘的距离小于阈值,则认定为边缘点)
步骤2.3,计算每一个超像素块的局部显著性,与步骤1类似,唯一区别就是判断i与j的欧氏距离是否小于某个阈值,如果小于,则按下式计算显著性:
其中步骤3具体为:
步骤3.1,如图2中,利用步骤2得到的显著性行人图像,利用得到的大量显著性行人图像作为Resnet-50卷积神经网络的训练集,对resnet-50卷积神经网络进行训练,图像处理中比较常见的就是二维卷积;
给定一个图像X∈R^{M*N},一个滤波器W∈R^{m*n},m<<M,其卷积为
图像在经过卷积处理后的结果称为特征映射(feature map)在输入层,如果是灰度图片,那么只有一个feature map;如果是彩色图片,一般就是3个feature map,层与层之间会有若干个卷积核(kernel),也称为过滤器,上一层的每个feature map与每个卷积核做卷积,会产生下一层的一个feature map,有n个卷积核,就有n个feature map,下层的核主要是一些简单的边缘检测器,上层的核主要是一些简单核的叠加,卷积核有长宽深三个维度,卷积核的长宽都是人为指定的,长*宽就是卷积核的尺寸;卷积核的深度与当前图像的深度相同,指定卷积核时,只需指定长和宽两个参数,在输入层,如果原始图像是灰度图像,则其feature的深度为1,卷积核的深度就是1;如果图像是rgb图像,则feature map的深度为3,卷积核的深度为3,某个卷积层中可以有多个卷积核。随着网络的加深,feature map的长宽尺寸缩小,
feature map的数量增加;
步骤3.2,根据步骤3.1对网络进行训练,其主要目的是对图像进行卷积,由若干个卷积核生成若干个feature map,在卷积训练的过程中不断会有权重的更新和误差的产生,训练网络的最终目的就是让网络权重跟新到一定程度,网络的误差达到最小值,其网络的误差公式为:
式中,总误差中的d,y分别是期望输出和网络输出的向量;||x||
2表示向量x的2-范数,计算表达式为
L为网络层级数;
权值损失函数Loss是关于权值W的函数,即Loss(W),权值的更新公式为:
Wi+1=ΔW+Wi (9)
试中,Wi是不同层级的权重,n是网络的学习率;
步骤3.3,根据步骤3.1和步骤3.2的网络训练过程,在不断卷积操作的过程中,卷积核的权重不断更新,最终使得损失函数的loss值达到最低状态,这时卷积神经网络就训练完成了,只需将待查询的行人图像作为卷积神经网络的输入到训练好的resnet-50卷积神经网络中即可得到待查询行人图像的特征向量w1,此特征向量为待查询行人图像的显著性局部特征;
其中步骤4具体为:
与步骤3类似,如图2使用相同的方法训练另一个resnet-50卷积神经网络,通过卷积处理得到不同的特征映射,并且使用Loss函数对网络中的权重不断进行跟新,以达到最佳的训练效果;
与步骤3不同的地方在于,步骤4需要得到行人图像的整体图像特征,即为全局特征,因此需要在网络训练的过程中输入原始数据库中的行人图像,通过原始图像对resnet-50卷积神经网络进行训练,在这一个训练过程中,resnet-50卷积神经网络的权重更加倾向于原始行人图像的特征,有利于精确提取出原始行人图像的卷积特征。通过这样的方法得到卷积全局特征w2;
其中步骤5具体为:
如图2中,由步骤4得到的显著性局部特征和步骤5得到的卷积全局特征进行特征加权;最终的特征加权函数为
w=w1+λw2 (10)
试中,w1为步骤3得到的显著性局部特征,w2为步骤4得到的卷积全局特征,λ为w2特征的权重值;
其中步骤6具体为:
将经步骤5得到的融合特征进行距离度量。本发明所使用的的距离度量方式为马氏距离,是一种距离度量指标,用来评定数据间相似度;类似的距离指标还有欧氏距离、曼哈顿距离、汉明距离等。与欧氏距离不同的是,它有考虑数据间非独立性且尺度无关。其具体的马氏距离度量公式为:
试中,x为待查询行人图像的特征向量,y为数据库中的比对图像的特征向量。
本发明是基于显著性模型下多尺度特征的行人重识别研究,主要目的是从大量的行人图像数据库中检索和查询出对应的行人图片。可以通过一副图像找到图像数据库中相同行人的照片。本发明所使用的图像数据库是由人工采集并使用计算机进行修正的行人图像,共计72000幅图像。由于图像数据库中的行人图像是从不同的行人采集的,因此一个行人可能包含多张图像,并且该人在每张图像中拍摄的角度、姿态、以及遮挡情况都不一样,因此从一个庞大的行人数据库中找到特定行人的图片是非常具有挑战性的工作。本发明针对大量的行人图像,需要设计相关的行人图像识别和检索程序,提取出行人图像中包含的特征。并设计相关的特征匹配程序,对特征进行距离度量,找到度量后距离最小的图像,并由此识别出特定行人的图像。所以本发明是使用图像识别与检索技术对行人图像数据库进行识别与提取,得到最终的特定行人图像,使其更好的适用于基于显著性模型下多尺度特征的行人重识别系统。