CN111177446B

CN111177446B - 一种用于足迹图像检索的方法

Info

Publication number: CN111177446B
Application number: CN201911272472.1A
Authority: CN
Inventors: 奚雪峰; 陈扬; 曾诚; 张谦; 程成; 付保川; 崔志明
Original assignee: Kunshan Public Security Bureau; Suzhou University of Science and Technology
Current assignee: Kunshan Public Security Bureau; Suzhou University of Science and Technology
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-04-25
Anticipated expiration: 2039-12-12
Also published as: CN111177446A; EP3872650A1; EP3872650A4; WO2021115123A1; US20220100793A1; US11809485B2

Abstract

本发明涉及一种用于足迹图像检索的方法，通过ImageNet数据进行模型的预训练，采用预训练之后的模型，将足迹数据进行清洗及扩充预处理操作，划分成多个不同用处的数据集，调整模型的全连接层和分类层，采用预训练好的模型的参数，使用足迹数据集进行模型的再次训练；保存二次训练好的模型，去除其分类层，对图像库和检索库中的图像进行特征提取，形成特征索引库；将三个模型提取到的特征相连接形成融合特征，建立融合特征向量索引库；预先提取好待检索图像库中的图像特征，建立特征向量库，当输入单个足迹图像时，进行检索库和图像库中的距离计算，输出相似度最高的图像。实现足迹图像的识别与检索功能。

Description

一种用于足迹图像检索的方法

技术领域

本发明涉及一种用于足迹图像检索的方法。

背景技术

目前，图像检索的研究始于1970年代，起初都是基于文本的图像检索，通过使用文字对图像进行特征描述。在20世纪年代初开始出现基于内容的图像检索，即对图像的颜色和纹理进行分析，并使用诸如支持向量机等浅层分类器技术来提高搜索的准确性。但是这些方法仍然不能解决语义鸿沟的问题。随着深度学习的研究和发展，卷积神经网络[CNN]近年来在图像检索和识别方面表现良好。随着各种类型的图像识别竞赛(例如ImageNet和Kaggle)的举办，卷积神经网络的各种变体模型如AlexNet[12]，VGG，GoogLeNet，ResNet和DenseNet等凭借其卓越的识别精度，在计算机视觉领域占据了主导地位，这使得应用卷积神经网络进行图像检索和内容识别具有很高的可靠性。

目前，人脸识别技术以及指纹、掌纹自动识别检索技术在警察的刑事案件侦破中的应用已经十分成熟，足迹图像作为犯罪现场的另一个主要痕迹也有着不可忽视的作用。传统的足迹检索与识别方法往往需要耗费大量的人力资源与时间，且大数据量下的人工检索容易出错。因此自动足迹检索系统有着很强的应用需求；然而，在自动足迹匹配系统的研究中，多使用传统的浅层机器学习方法处理足迹图像，这将花费较多的时间，并且准确率也有待提高。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种用于足迹图像检索的方法。

本发明的目的通过以下技术方案来实现：

一种用于足迹图像检索的方法，特点是：

首先通过ImageNet数据进行模型的预训练，采用预训练之后的模型，将足迹数据进行清洗及扩充预处理操作，并划分成多个不同用处的数据集，调整模型的全连接层和分类层，采用预训练好的模型的参数，使用足迹数据集进行模型的再次训练；之后，保存二次训练好的模型，去除其分类层，对图像库和检索库中的图像进行特征提取，形成特征索引库；

分别用三个模型提取特征，将三个模型提取到的特征相连接形成融合特征，建立融合特征向量索引库；预先提取好待检索图像库中的图像特征，建立特征向量库，当输入单个足迹图像时，进行检索库和图像库中的距离计算，从而输出相似度最高的图像。

进一步地，上述的一种用于足迹图像检索的方法包括以下步骤：

a)首先，数据清洗和预处理；

足迹图像数据集划分为gallery、query、train、train all以及val五个部分，从gallery中每个类别中随机选择图像构成query，gallery中的每个类都包含6张以上与待检索图像相似的图像；从train all的每类中选择一张足迹图像以构成val数据集；

对数据进行归一化操作，针对数据集，采用逐样本均值消减方法进行归一化处理；

b)然后，调整模型结构并训练模型；

修改三个不同模型的全连接层以及全连接层的后续部分，以线性层、批量标准化、线性整流函数和线性层的顺序定义新的全连接层和分类层；在Resnet50和densenet121中，将原来的全连接层修改为512维且增加一新的分类层；VGG19模型中的第一层全连接层被保留，移除其第二个全连接层，且增加一新的分类层，新的分类层的个数根据训练集中的图像类别而定；对新增加的层，参数均用恺明初始化进行参数初始化，其他的参数则是模型在ImageNet上训练预训练的参数；采用的三个模型均在足迹图像数据集上进行训练；

c)继而，通过训练好的深度神经网络和集成深度神经网络提取特征并建立特征索引库；

足迹图像数据集上训练模型之后，保留网络结构中除分类层以外的所有层，足迹图像库中的每一张图像都经过网络模型进行特征提取；提取完所有图像的特征后，建立足迹图像的特征向量索引库；

d)最后，通过距离度量方法计算足迹图像的相似度并且输出检索结果；

通过卷积神经网络提取图像特征，建立特征向量，并基于图像的特征向量表示相应的图像，通过计算图像特征向量之间的距离确定图像之间的相似度；采用欧氏距离和余弦距离用作相似图像特征向量的计算，其中欧几里德距离方程式用于测量多维空间中点之间的绝对距离，方程式如下所示：

余弦距离使用向量空间中两个向量之间的角度的余弦值来度量两个个体之间的差异，集中两个向量之间的方向差异，公式如下：

图像库中有n张图像，通过以下公式进行相似度的计算：

D_i＝||q-T_i||，i∈[1，N]

其中，N表示足迹图像库中的数量，_q表示待检索图像的特征向量，_Ti表示足迹图像库中第i个足迹图像，D_i表示不同向量间的距离，采用欧式距离和余弦距离，D_i的值越小，表明两张图像之间的相似度越高；然后，通过排序算法比较D_i值，找到并输出最相似的N张图像。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤a)，足迹图像数据集由警察机关提供，针对犯罪现场足迹图像，选择高质量的足迹图像用于检索，对其进行数据增强操作，旋转、随机裁剪、灰度值和对比度转换。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤a)，足迹图像数据集中，共有91个类别，超过5000张图像。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤a)，将大小约为1000×2000像素的输入足迹图调整为128×256，便于特征的提取。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤a)，归一化处理，是将输入图像转化为矩阵后，在每个样本上减去数据的统计平均值，即分别计算各图像样本的均值，然后各样本减去其对应的均值，并以平均像素为中心；针对图像数据，归一化方法移除图像的平均亮度值，减少图像背景效果的干扰；图像被转化为张量，并归一化到0～1。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤b)由于图像长度大于宽度，使用自适应均值池化，指定池化内核，自适应平均池化易于图像特征的提取。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤b)，训练过程中，设置40轮的迭代，在ImageNet预训练参数的基础上使用SGD方式进行反向传播；使用自适应均值池化，足迹图像的图像长度大于宽度，指定池化内核，自适应平均池化易于实现；训练过程中，在ImageNet预训练参数的基础上使用SGD方式进行反向传播，公式如下：

其中，J是SGD需要优化的目标函数，x_i,和y_i分别代表训练样本和训练样本的标签，θ表示模型参数，权重和偏置；

使用动态的学习率，其公式定义如下：

其中，lr指当前学习率，lr₀表示初始学习率，λ表示学习率衰减因子，step_size是学习率变化的步数，epoch指当前迭代的轮数。

进一步地，上述的一种用于足迹图像检索的方法，其中，步骤c)，当在用Resnet50和Densenet121提取特征时，其特征向量维度为512，通过VGG19模型提取的特征向量维度则为4096；同时融合不同的关键信息以保留更全面的特征用于最终的检索，通过连接不同模型所提取的特征向量，以获得最终的特征向量，其维数为5120。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

①本发明用于足迹图像检索的方法是集成的深度神经网络方法，用于足迹图像的特征提取，通过连接从三个不同模型中提取的特征，以获得更为丰富的足迹图像描述；在搭配余弦距离时，可以获得良好且稳定的检索效果；其次，使用迁移学习的方式对模型进行预训练，使得在数据量较小的足迹数据集上有着良好的表现；

②通过数据清洗及预处理、模型的迁移学习及结构微调和二次训练、足迹图像的特征提取及融合特征表示以及相似度的计算实现足迹图像的识别与检索功能，满足警察实战的实际需求；

③结合深度学习模型用于足迹图像的检索与匹配；基于迁移学习的方法解决数据量不足的问题；融合特征的方法用于足迹图像的特征表示，形成更丰富的图像特征表达方式，融合特征提取的方法使足迹图像的特征描述方式更为丰富，进一步增加最终检索结果的精准度。可以将海量图像匹配减少到只需要从有限数量的候选图像中检索，从而为进一步的人工判断提供可行性；在一定程度上减少了人工检索检查所需的时间，并在警察侦查中发挥作用；

④本发明方法能科学有效帮助警察侦破案件，同时大大减少手工检索过程中所消耗的时间和精力，显著降低人力和物力的成本，具有较好的实际应用价值。

附图说明

图1：本发明的流程关系示意图；

图2：本发明特征融合部分的示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，一种用于足迹图像检索的方法，首先通过ImageNet数据进行模型的预训练，并采用预训练之后的模型，将足迹数据进行清洗及扩充预处理操作，并划分成多个不同用处的数据集，调整模型的全连接层和分类层，并且使用预训练好的模型的参数，使用足迹数据集进行模型的再次训练；之后，保存二次训练好的模型，去除其分类层，对图像库和检索库中的图像进行特征提取，形成特征索引库；

分别用三个模型提取特征，将三个模型提取到的特征相连接形成融合特征，建立融合特征向量索引库；预先提取好待检索图像库中的图像特征，建立特征向量库，当输入带检索库中的单个足迹图像时，进行检索库和图像库中的距离计算，从而输出相似度最高的图像；

当然也可以使用不是待检索库中的图像，同样经过上述步骤的特征提取然后与图像特征库中的特征进行向量上的距离计算，输出与输入的足迹图像的特征向量距离最近的10个结果。

具体包括以下步骤：

a)首先，数据清洗和预处理；

足迹图像数据集由警察机关提供，针对犯罪现场足迹图像，选择高质量的足迹图像用于检索；对其数据增强操作，旋转、随机裁剪、灰度值和对比度转换；足迹图像数据集中，共有91个类别，超过5000张图像，足迹图像数据集划分为gallery、query、train、trainall以及val五个部分，从gallery中每个类别中随机选择图像构成query，gallery中的每个类都包含6张以上与待检索图像相似的图像；从train all的每类中选择一张足迹图像以构成val数据集；基本的数据集信息如表一所示；

表一足迹图像数据集

将大小约为1000×2000像素的输入足迹图调整为128×256，便于特征参数的提取；同时，对数据进行归一化操作，针对数据集，采用逐样本均值消减方法进行归一化操作；即，将输入图像转化为矩阵后，在每个样本上减去数据的统计平均值，即分别计算各图像样本的均值，然后各样本减去其对应的均值，并以平均像素为中心；针对图像数据，归一化方法移除图像的平均亮度值，减少图像背景效果的干扰；图像被转化为张量，并归一化到0～1；

b)然后，调整模型结构并训练模型，

自适应均值池化，足迹图像的图像长度大于宽度，指定池化内核，自适应平均池化易于实现；训练过程中，设置40轮的迭代，在ImageNet预训练参数的基础上使用SGD方式进行反向传播，公式如下：

使用动态的学习率，其公式定义如下：

其中，lr指当前学习率，lr₀表示初始学习率，λ表示学习率衰减因子，step_size是学习率变化的步数，epoch指当前迭代的轮数；

设置参数：batch size为32，基础学习率为0.1，每隔40次迭代更新以此学习率；最终的模型训练准确率达到98％；

基于深度学习的图像检索中，特征向量的提取尤为关键；通过对当前各种主流卷积神经网络的对比分析，采用三种典型的模型(Resnet50、Densenet121、VGG19)；在足迹图像数据集上训练模型之后，保留网络结构中除分类层以外的所有层，足迹图像库中的每一张图像都经过网络模型进行特征提取；当在用Resnet50和Densenet121提取特征时，其特征向量维度为512，通过VGG19模型提取的特征向量维度则为4096；

新的特征融合的方法用于足迹图像的特征表示，考虑到不同模型提取到的足迹图像特征描述不同，但这些不同的特征描述中都含有一些关键部位的信息，为融合不同的关键信息以保留更全面的特征用于最终的检索，连接不同模型所提取的特征向量，以获得最终的特征向量，其维数为5120；

提取完所有图像的特征后，建立足迹图像的特征向量索引库；

图像库中一共有n张图像，通过以下公式进行相似度的计算：

D_i＝||q-T_i||，i∈[1，N]

其中，q表示待检索图像的特征向量，N表示足迹图像库中的数量，q表示待检索图像的特征向量，_Ti表示足迹图像库中第i个足迹图像，D_i表示不同向量间的距离，采用欧式距离和余弦距离，D_i的值越小，表明两张图像之间的相似度越高；然后，通过排序算法比较D_i值，找到并输出最相似的N张图像。

结合5种主流的评估指标，对三个深度网络模型以及特征融合集成方法的表现进行评估，5个评价指标分别为召回率、精准率、F1分数rank-n和平均精度均值，其中，使用欧式距离作为测量函数时，在所有评估指标下，结果均远高于VGG模型，与单独的Resnet50和Densenet121两个模型相差不大，但略低于这两模型；当使用余弦距离时，融合特征方法在除mAP之外的所有指标上均获得最高评分，在召回率、精准率、F1分数、Rank1、Rank10以及平均精度均值上的具体得分为83.63％、％82.99、83.31％、100％、100％和85.60％，并且在各个指标中都有非常稳定的表现；表明融合特征方法具有较佳的实际效果。

如图2所示，将三个模型提取的特征向量相连接，形成融合的特征向量用于足迹图像的表示，其维度为三个模型提取特征维度之和，即5120。

本发明用于足迹图像检索的方法是集成的深度神经网络方法，用于足迹图像的特征提取，通过连接从三个不同模型中提取的特征，以获得更为丰富的足迹图像描述；在搭配余弦距离时，可以获得良好且稳定的检索效果；其次，使用迁移学习的方式对模型进行预训练，使得在数据量较小的足迹数据集上有着良好的表现。

综上所述，本发明通过数据清洗及预处理、模型的迁移学习及结构微调和二次训练、足迹图像的特征提取及融合特征表示以及相似度的计算实现足迹图像的识别与检索功能，满足警察实战实际需求。

结合深度学习模型用于足迹图像的检索与匹配；基于迁移学习的方法解决数据量不足的问题；融合特征的方法用于足迹图像的特征表示，形成更丰富的图像特征表达方式，融合特征提取的方法使足迹图像的特征描述方式更为丰富，进一步增加最终检索结果的精准度。可以将海量图像匹配减少到只需要从有限数量的候选图像中检索，从而为进一步的人工判断提供可行性。在一定程度上减少了人工检索检查所需的时间，并在警察侦查中发挥作用。

本发明方法能科学有效帮助警察侦破案件，同时大大减少手工检索过程中所消耗的时间和精力，显著降低人力和物力的成本，具有较好的实际应用价值。

上述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种用于足迹图像检索的方法，其特征在于：

首先通过ImageNet数据进行模型的预训练，采用预训练之后的模型，将足迹数据进行清洗及扩充预处理操作，并划分成多个不同用处的数据集，足迹图像数据集划分为gallery、query、train、train all以及val五个部分，从gallery中每个类别中随机选择图像构成query，gallery中的每个类都包含6张以上与待检索图像相似的图像；从train all的每类中选择一张足迹图像以构成val数据集；对数据进行归一化操作，针对数据集，采用逐样本均值消减方法进行归一化处理；调整模型的全连接层和分类层，修改三个不同模型的全连接层以及全连接层的后续部分，以线性层、批量标准化、线性整流函数和线性层的顺序定义新的全连接层和分类层；在Resnet50和densenet121中，将原来的全连接层修改为512维且增加一新的分类层；VGG19模型中的第一层全连接层被保留，移除其第二个全连接层，且增加一新的分类层，新的分类层的个数根据训练集中的图像类别而定；对新增加的层，参数均用恺明初始化进行参数初始化，其他的参数则是模型在ImageNet上训练预训练的参数；采用的三个模型均在足迹图像数据集上进行训练；

采用预训练好的模型的参数，使用足迹数据集进行模型的再次训练；之后，保存二次训练好的模型，去除其分类层，对图像库和检索库中的图像进行特征提取，形成特征索引库；

2.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：包括以下步骤：

a)首先，数据清洗和预处理；

b)然后，调整模型结构并训练模型；

图像库中有n张图像，通过以下公式进行相似度的计算：

D_i＝||q-T_i||，i∈[1，N]

其中，N表示足迹图像库中的数量，q表示待检索图像的特征向量，T_i表示足迹图像库中第i个足迹图像，D_i表示不同向量间的距离，采用欧式距离和余弦距离，D_i的值越小，表明两张图像之间的相似度越高；然后，通过排序算法比较D_i值，找到并输出最相似的N张图像。

3.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：足迹图像数据集由警察机关提供，针对犯罪现场足迹图像，选择高质量的足迹图像用于检索，对其进行数据增强操作，旋转、随机裁剪、灰度值和对比度转换。

4.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：足迹图像数据集中，共有91个类别，超过5000张图像。

5.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：将大小约为1000×2000像素的输入足迹图调整为128×256，便于特征的提取。

6.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：归一化处理，是将输入图像转化为矩阵后，在每个样本上减去数据的统计平均值，即分别计算各图像样本的均值，然后各样本减去其对应的均值，并以平均像素为中心；针对图像数据，归一化方法移除图像的平均亮度值，减少图像背景效果的干扰；图像被转化为张量，并归一化到0～1。

7.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：由于图像长度大于宽度，使用自适应均值池化，指定池化内核，自适应平均池化易于图像特征的提取。

8.根据权利要求1所述的一种用于足迹图像检索的方法，其特征在于：训练过程中，设置40轮的迭代，在ImageNet预训练参数的基础上使用SGD方式进行反向传播；使用自适应均值池化，足迹图像的图像长度大于宽度，指定池化内核，自适应平均池化易于实现；训练过程中，在ImageNet预训练参数的基础上使用SGD方式进行反向传播，公式如下：

其中，J是SGD需要优化的目标函数，x_i,和y_i分别代表训练样本和训练样本的标签，表示模型参数，权重和偏置；

使用动态的学习率，其公式定义如下：

其中，lr指当前学习率，lr₀表示初始学习率，表示学习率衰减因子，step_size是学习率变化的步数，epoch指当前迭代的轮数。

9.根据权利要求2所述的一种用于足迹图像检索的方法，其特征在于：步骤c)，当在用Resnet50和Densenet121提取特征时，其特征向量维度为512，通过VGG19模型提取的特征向量维度则为4096；同时融合不同的关键信息以保留更全面的特征用于最终的检索，通过连接不同模型所提取的特征向量，以获得最终的特征向量，其维数为5120。