CN110472081B

CN110472081B - 一种基于度量学习的鞋图片跨域检索方法

Info

Publication number: CN110472081B
Application number: CN201910784909.3A
Authority: CN
Inventors: 刘晓凯; 赵丽平; 毕胜
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-10-04
Anticipated expiration: 2039-08-23
Also published as: CN110472081A

Abstract

本发明提供一种基于度量学习的鞋图片跨域检索方法，包括：分别对视频域数据和图片域数据进行前景提取；根据姿态估计结果对所述两域前景图像信息进行姿态校准；对两域图像信息进行特征提取；对所述两域前景图像信息进行特征匹配；对查询图片和候选图片间的相似度进行排序；将图片查询转换为组排序，提取组排序结果中相似度最高的候选图片作为检索结果。本发明克服了图片域数据和视频域数据间分布的差异性，利用度量学习，学习出能够有效评定两域图片特征的标准，将两域的图像映射到相同的特征空间中实现跨域检索。

Description

一种基于度量学习的鞋图片跨域检索方法

技术领域

本发明涉及图像检索技术领域，具体而言，尤其涉及一种基于度量学习的鞋图片跨域检索方法。

背景技术

近年来，犯罪现场的足迹成为最为频繁且有效的侦查手段之一，为嫌疑人确定及案件审理提供了重要的参考依据。首先基于在犯罪现场得到的鞋底花纹图片与数据库中海量鞋底花纹样本进行匹配，估计足迹鞋的品牌及型号，以此恢复足迹鞋对应的鞋面信息，得到高清鞋样图片；然后，依据鞋样图片在调取的案发现场监控视频中进行检索，找到与足迹鞋一致的嫌疑鞋样本；最后提取出视频中穿了这类鞋子的人，从而确定嫌疑人确定嫌疑人。名词解释：图片域数据：由足迹鞋鞋底花纹与数据库比对得到的高清晰度鞋样图片组成。视频域数据：由犯罪现场监控视频中检测到的画质模糊、低清晰度的鞋图片组成。

目前在图片域、视频域单独领域检索的技术很成熟，但是在两域之间跨域检索技术还未成熟。

视频域检索：随着视频监控网络的发展，利用监控视频作为破案线索的视频侦查已成为公安刑侦侦查的重要手段，但目前视频侦查主要通过肉眼查看视频来进行，效率低下而且很容易遗漏目标。技术上，采用基于语义的视频检索技术和基于内容的视频检索技术。此外视频序列的镜头分割(即镜头变化检测)是视频检索中的关键技术之一，目前镜头分割的常用方法，包括灰度分割法，边缘分割法，彩直方图分割法，MPEG视频的分割方法，块匹配镜头分割方法，统计判决镜头分割方法，基于聚类的镜头分割方法，镜头渐变的检测算法。但是在视频背景十分模糊的情景下，视频检索研究十分受限。

图片域检索：主要是基于文本的图像检索和基于内容的图像检索。基于文本图像的检索需要对每一幅图像进行人工注释，会耗费大量的人工劳动力并带来由于人的主观标注造成的较大误差。基于图像内容的检索，克服了基于文本检索的不足，直接从图像本身的视觉特征出发，在检索库中找出与之相似的图像，使图像检索的主要任务变成了度量图像特征间的相似度问题。

随着传统的计算机视觉任务精度的提升，人们开始思索怎样在图片域与视频域中进行检索。现有技术是将视频转换为图片，建立两域图像各自的图片集，将图片域图片作为查询图片、视频域图片作为候选图片。再采用重识别的方法将查询图片与候选图片做相似度分析，找出相似的图像排序。

高清的鞋样图片一般具有分辨率高、光照单一、背景纯净的特点；同时由于视角差异、姿态变化等因素容易造成配准误差，进一步提高了鞋样图片跨域检索的难度。

发明内容

根据上述提出视频域、图片域间跨域检索效率低、准确度差的技术问题，而提供一种基于度量学习的检索方法。本发明将不同的域的图像映射到相同的特征空间中，对姿态进行配准，统一划分两域姿态类别，从而实现高效、准确的跨域图像检索。

本发明采用的技术手段如下：

一种基于度量学习的鞋图片跨域检索方法，其特征在于，步骤包括：

分别对视频域数据和图片域数据进行前景提取，并对得到的两域前景图像信息进行姿态估计；

根据姿态估计结果对所述两域前景图像信息进行姿态校准，将图像姿态分为鞋头、侧面、鞋跟三种姿态；

采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取；

基于有限标签样本学习距离度量对所述两域前景图像信息进行特征匹配；

将图片域图像信息作为查询图片、将视频域图像信息作为候选图片进行图片查询，并对所述查询图片和所述候选图片间的相似度进行初始排序；

对得到的初始排序列表中前K个样本的相似度进行基于加权运算的重新排序，将更正确的结果排在返回列表的最前面，获得更优的排序结果；

提取组排序结果中相似度最高的候选图片作为检索结果。

进一步地，采用深度学习方法对视频域数据进行前景提取，步骤包括：

利用LabelMe标注工具人工标注部分视频图片；

对标注的视频图片进行扩充；

利用扩充后的数据集合训练前景提取模型；

应用训练后的模型提取所有视频域数据的前景图。

进一步地，采用关键点提取对视频域数据进行姿态估计。

进一步地，所述采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取之前，还包括对两域图像信息进行预处理，步骤包括：

读取两域前景图像信息，将图片颜色分通道处理，每个分量像素值由整数型转换为浮点型，并转换到对数域；

计算得到每个通道的输出图像r(x,y)；

将r(x,y)从对数域转换到实数域，得到反射图像R(x,y)；

将R(x,y)进行线性拉伸并转换成相应的格式输出显示。

进一步地，所述采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取，步骤包括：

对经过预处理后的图像进行划分，利用小滑动窗口遍历整张图片，提取出HSV颜色直方图、纹理直方图以及颜色名特征；

将提取出的颜色名特征与HSV特征、纹理特征进行融合，进而得到两域前景图像信息的特征表达。

进一步地，所述基于有限标签样本学习距离度量对所述两域前景图像信息进行特征匹配，步骤包括：

使用高斯模型分别拟合类内与类间样本特征的差值分布，根据两个高斯分布的对数似然比计算两域训练图片的相似度矩阵M，并由M学习出用以度量两域图片相似度的距离函数；

根据所述距离函数确定两域图片在新的空间各自对应的图像映射，通过优化距离函数使相同类别图片距离变小，不同类别图片距离变大。

较现有技术相比，本发明具有以下优点：

本发明提供一种高清图片域与低质监控视频域间的检索方法，实现了针对鞋图片的快速准确检索的同时，克服了图片域数据和监控视频采集到的数据分布的差异性，利用度量学习，提出有效的评定两域图片特征的标准，将两域的图像映射到相同的特征空间中实现跨域检索。此外，本发明可降低视角差异、姿态变化造成的配准误差，进一步提高检索准确度。最后，本发明克服标定数据的稀疏性。基于两域对应的标定数据，建立合适的跨域检索方法。

在刑侦领域中，关注如何在所有数据中查找到待检索的目标，确定嫌疑人，因此本发明关注类别查找，优化发明设计方法，用最少的类别查找数量检索到目标，降低刑侦人员工作量。利用经验模型将图片查询转换为组排序，提取组排序结果中相似度最高的候选图片作为检索结果。基于上述理由本发明可在刑侦技术等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法工作流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于度量学习的鞋图片跨域检索方法，其特征在于，步骤包括：

步骤1、分别对视频域数据和图片域数据进行前景提取，并对得到的两域前景图像信息进行姿态估计。

具体地，利用显著性或者深度学习方法去除背景的干扰，只保留前景图像信息。前景提取包括图片域数据前景提取和视频域数据前景提取。

(1)图片域数据

图片域数据采用显著性方法提取前景。因为图片域中每张图片的前景只有单个鞋子这一个目标，占据了最大视野区域，而且画质比较清晰，背景比较纯净，没有过多的干扰信息。因此采用了显著性的方法分割图片域数据。具体实现方法如下：首先模拟人的视觉特点，在没有先验知识的前提下，自动捕获可能关注的区域；然后，利用图像的颜色、亮度、边缘等特征，判断目标区域和它周围像素的差异，计算图像区域的显著性，从而提取出图像中的显著区域(即人类感兴趣的区域)。最后，将显著性区域像素设置为1，背景设置为0。

(2)视频域数据

视频域数据采用深度学习方法提取前景。具体步骤包括：

a)获取训练的真值图片。利用LabelMe标注工具人工标注部分视频图片，其具体方法是，首先解析视频得到视频关键帧图片，再对视频图片中出现的所有人的鞋子进行标注,得到具有视频鞋坐标点的json文件；解析json文件，得到近似二值化的黑白视频鞋图片；最后对黑白图片进行二值化，得到训练图片的前景图真值(即掩膜图片)；

b)增加训练集图片数量。标注了1000张左右图片，对图片采用旋转90度、180度等图像增强技术，使训练数据集达到3000张左右；

c)训练前景提取模型。训练网络采用VGG16+FCN网络结合的网络模型，将VGG16的全连接层替换成FCN反卷积神经网络，最终输出前景图和背景图两个分类结果；

d)测试模型。测试数据集有5600张左右，最后得到所有视频域鞋图片的前景图。

作为本发明较佳的实施方式，针对图片域数据和视频域数据采用不同的姿态估计方法，具体地：

(1)图片域数据

利用图片域鞋样图片采集时候的固有姿态信息，得到各类别鞋样的姿态；

(2)视频域数据

利用OpenPose方法进行关键点检测，得到鞋的方向信息便于旋转到同一视角下相同的姿态。具体而言，首先获取整个人的25个关键点，其中每只脚上有4个关键点，分别为大脚趾、小脚趾、脚踝、脚后跟4个关节点；然后依据脚上关键点的方向，获取到鞋子的方向信息，大致估计视频域图片的姿态信息。

步骤2、根据姿态估计结果对所述两域前景图像信息进行姿态校准，将图像姿态分为鞋头、侧面、鞋跟三类姿态。

具体地，姿态校准主要利用仿射变换，精确定位有效特征。利用上一步的姿态估计的结果，将两域图片在相同姿态下进行匹配，提高匹配准确度。相同姿态指的是将两域鞋图片经过旋转后保持鞋头向上，最终将两域图片大致分成鞋头、侧面、鞋跟三类姿态。实现步骤如下：

a)获取旋转角度。利用第2步的姿态估计，得到了方向信息，再利用OpenCV的fastAtan2函数计算旋转角度，最后将旋转角度减90，即为所求的最终旋转角度。因为得到的角度是以X轴正方向为0°方向，按照逆时针方向确定的角度，而要实现竖直方向姿态，因此减去90度。其中，fastAtan2函数是输入一个二维向量(向量的x坐标、向量的y坐标)，计算这个向量的方向，以度为单位(范围是0度-360度)，精度是0.3度。

b)图像旋转。使用OpenCV求取旋转矩阵并旋转图像。

步骤3、采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取，主要包括预处理和特征提取两步：

(1)预处理：采用Retinex算法将图片域、视频域的鞋图片预处理，降低光照、角度的影响，使图片更具鲁棒性。

预处理实现步骤包括：

读取原始图片。将图片颜色分通道处理，每个分量像素值由整数型(int)转换为浮点型(float)，并转换到对数域；

计算得到每个通道的输出图像r(x,y)；

将r(x,y)从对数域转换到实数域，得到反射图像R(x,y)；

将R(x,y)进行线性拉伸并转换成相应的格式输出显示。

(2)提取两域图像的特征：设计出有效的强判别力的特征，才能实现高准确度的检索效果。采用基于色彩和纹理等多特征融合的方式对鞋图片进行对象的描述和表达为图像匹配做准备。具体而言采用HSV直方图和SILTP直方图进行特征表示，其实现步骤包括：

对经过预处理后的图像进行划分。首先用小滑动窗口进行滑动，遍历整张图片，对每个子滑动窗口提取颜色和纹理直方图，每个直方图的bin表示该种特征出现的概率，取同一特征在同一水平位置的滑动窗口中的最大bin值，作为最后直方图的值；

分别提取出HSV颜色直方图、纹理直方图，再提取颜色名特征；

将提取出的颜色名特征与HSV特征、SILTP特征进行融合。采用判别级的特征融合方式，按颜色名特征、HSV特征、SILTP特征＝0.5:1:0.5的比例进行权重分配。

步骤4、基于有限标签样本学习距离度量对所述两域前景图像信息进行特征匹配。

具体地，度量视频域、鞋样域图片相似性进行特征匹配，利用有限的标签样本学习有效的距离度量，排除变量之间的相关性的干扰，从而强化有效特征，弱化无效特征，提高匹配的精确度。将经过融合后的特征用二次判别分析法对空间进行降维和距离度量。实现步骤包括：

首先使用高斯模型分别拟合类内与类间样本特征的差值分布；然后根据两个高斯分布的对数似然比计算两域训练图片的相似度矩阵M；由M学习出一个可以度量两域图片相似度的距离函数；

根据距离函数确定两域图片在新的空间各自对应的图像映射。首先定义子空间W，将距离函数最大化优化，求解得到从大到小排序的相似度向量，取前100个相似度向量组成W，对特征进行降维。通过优化距离函数可以使相同类别图片距离变小，不同类图片距离变大，从而强化有效特征，弱化无效特征。

步骤5、将图片域图像信息作为查询图片、将视频域图像信息作为候选图片进行图片查询，并对所述查询图片和所述候选图片间的相似度进行排序。

具体地，将图片域图片作为查询图片，分别与作为候选图片的视频域图片计算两域图像映射的马氏距离,记为D_i，并由小到大进行排序，从而得到检索以后的图片相似度排序。距离越小，相似度越大。

此外，还包括步骤6，为了获得更优的排序结果，本实施例中还包括经过初始排序后对得到的初始排序列表中前K个样本的相似度进行基于加权运算的重新排序。重排序的步骤包括：

1)已知初始排序列表中候选图片g_i与查询图片的距离D_i；

2)对每个g_i计算与查询图片的杰卡德距离，记为D_j；

其中，|·|表示集合中候选行人数。

3)加权D_i，D_j，得到最终的距离，即为重排序的过程；

提取组排序结果中相似度最高的候选图片作为检索结果。

由于刑侦人员更关心在所有数据中查找几类可以查找到待检索的目标，确定嫌疑人，因此本发明关注类别查找，优化发明设计方法，用最少的类别查找数量检索到目标，降低刑侦人员工作量。利用经验模型将图片查询转换为组排序，提取组排序结果中相似度最高的候选图片作为检索结果。具体地，根据姿态校准得到两域每种类别图片大致均可分为头、侧、跟三类姿态。将每类下不同姿态分别提特征，按照头、侧、跟顺序将这三种特征向量串联拼接成一个特征向量，按头：侧：跟＝0.5:1:0.5的比例分配权重。其中，相同姿态有多张图片时取此姿态特征的平均值。最后得到一个能代表单个类别的特征，即将图片排序转换为类别(组)排序。将两域中所有类别进行比对。图片域作为查询类别，视频域作为候选类别，利用基于Cumulative Match Characteristic(CMC)curve曲线、MAP(mean averageprecision)的查询结果作为评价算法精度的标准。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于度量学习的鞋图片跨域检索方法，其特征在于，步骤包括：

提取组排序结果中相似度最高的候选图片作为检索结果。

2.根据权利要求1所述的鞋图片跨域检索方法，其特征在于，采用深度学习方法对视频域数据进行前景提取，步骤包括：

利用LabelMe标注工具人工标注部分视频图片；

对标注的视频图片进行扩充；

利用扩充后的数据集合训练前景提取模型；

应用训练后的模型提取所有视频域数据的前景图。

3.根据权利要求1或2所述的鞋图片跨域检索方法，其特征在于，采用关键点提取对视频域数据进行姿态估计。

4.根据权利要求1所述的鞋图片跨域检索方法，其特征在于，所述采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取之前，还包括对两域图像信息进行预处理，步骤包括：

计算得到每个通道的输出图像r(x,y)；

将r(x,y)从对数域转换到实数域，得到反射图像R(x,y)；

将R(x,y)进行线性拉伸并转换成相应的格式输出显示。

5.根据权利要求4所述的鞋图片跨域检索方法，其特征在于，所述采用基于色彩和纹理的多特征融合方式对两域图像信息进行特征提取，步骤包括：

6.根据权利要求1所述的鞋图片跨域检索方法，其特征在于，所述基于有限标签样本学习距离度量对所述两域前景图像信息进行特征匹配，步骤包括：