CN113221795A

CN113221795A - 用于视频中鞋样检索的特征提取、融合与比对方法及其装置

Info

Publication number: CN113221795A
Application number: CN202110565454.3A
Authority: CN
Inventors: 孙晰锐; 吴文达; 李岱熹; 宋立臣; 李闯
Original assignee: Dalian Everspry Sci & Tech Co ltd
Current assignee: Dalian Everspry Sci & Tech Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-06
Anticipated expiration: 2041-05-24
Also published as: CN113221795B

Abstract

本发明公开了用于视频中鞋样检索的特征提取、融合与比对方法及其装置，其方法包括获取鞋样图与视频鞋截图，得到数据集；构建用于特征提取的深度神经网络，所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层，所述子网络之间采用相互学习的策略；训练所述深度神经网络。实际应用中通过本发明方法在视频中检索鞋样，使得检索更加准确，为刑侦勘验工作节约更多人力成本。通过提出的图查图到类查类的相似度计算机制，打通了类间检索的通道，使得鞋样图类别与视频鞋截图类别间的自动检索成为可能。

Description

用于视频中鞋样检索的特征提取、融合与比对方法及其装置

技术领域

本发明涉及刑侦勘测辅助领域，具体涉及一种用于视频中鞋样检索的特征提取、融合与比对方法及其装置。

背景技术

足迹信息在现代的刑侦勘测领域起到举足轻重的作用，是现场勘验的重要物证之一，同时由足迹信息引入的鞋样信息也逐渐成为侦破案件的主要线索之一，其具体做法为通过现场遗留的足迹找到该足迹对应的鞋样照片，再采用人工或自动算法将鞋样照片与现场周边视频进行比对，从而锁定穿着该鞋的嫌疑人。

由鞋样图像锁定视频中嫌疑人需要利用视频-鞋样检索技术，当前基于深度学习的检索技术一般为：将图像输入一个或多个深度神经网络提取特征，再将提取到的特征进行比对(如计算欧氏距离)来衡量图像之间的相似程度，其单一深度神经网络的特征提取能力有限。若采用多个深度神经网络进行特征提取则需先进行特征融合再进行比对计算相似度来完成检索，其多个深度神经网络同时训练会导致各个网络学习到的特征趋于一致，降低了模型的泛化能力。

无论是单一深度神经网络还是多个深度神经网络对于翻转与镜像过的图像，均无法提取到有效特征，也无法由图像之间的相似度得出类别间的相似度。

发明内容

针对现有技术存在上述问题，本发明提供了一种用于视频中鞋样检索的特征提取、融合与比对方法及其装置，其方法包括：

获取鞋样图与视频鞋截图，得到数据集；

构建用于特征提取的深度神经网络，所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层，所述子网络之间采用相互学习的策略；

训练所述深度神经网络。

进一步的，所述数据集包括训练集与测试集，其中训练集包括m1类鞋，每类鞋均包括高清的相机拍摄鞋样图或网络鞋样图，以及低清的视频鞋截图；测试集包括m2类鞋，每类鞋也均包括高清的相机拍摄鞋样图或网络鞋样图，以及低清的视频鞋截图，所述测试集仅用于检验检索效果，不参与模型训练。

进一步的，构建用于特征提取的深度神经网络，包括：

获取不同复杂度的子网络；

重构每个所述子网络输出层；

对重构后的子网络进行整合，得到全网络结构。

进一步的，重构每个所述子网络输出层，包括：

去除网络模型N1_、N2_、…、NP_的全连接层、激活层和输出层，形成子网络N1、N2、…、NP，P为子网络数量；

将所述子网络N1、N2、…、NP分别接入新的全连接层Z1、Z2、…、ZP；所述全连接层Zi，i＝1、2、…、P的输入特征矩阵尺寸与子网络Ni的输出特征矩阵尺寸一致；全连接层Zi的输出特征尺寸统一设定为n维；

每个子网络的全连接层Zi后连接有概率预测层Ei，所述概率预测层Ei输出尺寸大小为训练的鞋样类别数m1。

进一步的，训练所述深度神经网络，包括：

将训练集图像输入深度神经网络，得到预测值，通过损失函数获取预测值与标签值之间的损失，指导所述深度神经网络进行参数调整；

所述损失函数有两个，其中一个是监督损失函数，其采用交叉熵损失来度量预测的目标类别与真实标签之间的差异；另一个是网络间的交互损失函数，其采用KL散度来度量两个网络预测概率分布之间的差异；

所述交叉熵公式表示为：

其中M为训练集中类别总数，N表示第m类中有N张图，

表示图像xi用子网络k推理，得到类别(标签)为m的概率；

其中

yi为预测值，m为标签，xi为输入图像；

所述KL散度公式表示为：

其中，D_KL(p_l||p_k)表示表示子网络k和子网络l推理特征的概率交互，l≠k；

对于深度神经网络的损失函数为：

更进一步的，将训练集图像输入深度神经网络，包括：

锁定子网络N2、子网络N3、…、子网络NP的参数，输入由训练集随机抽取的一组图像，以损失函数L获得的损失值对子网络N1进行反向传播更新子网络N1的参数；

锁定子网络N1、子网络N3、…、子网络NP的参数，输入下一组图像，以损失函数L获得的损失值对子网络N2进行反向传播更新子网络N2的参数；

…

锁定子网络N1、子网络N2、…、子网络NP-1的参数，输入下一组图像，以损失函数L获得的损失值对子网络NP进行反向传播更新子网络NP的参数；

重复上述步骤，直至迭代设定的次数；

锁定子网络N1的参数，输入下一组图像，以1/(P-1)*L的损失值对子网络N2、子网络N3、…、子网络NP进行反向传播，更新所述子网络的参数；

锁定子网络N2的参数，输入下一组图像，以1/(P-1)*L的损失值对子网络N1、子网络N3、…、子网络NP进行反向传播，更新所述子网络的参数；

…

锁定子网络NP的参数，输入下一组图像，以1/(P-1)*L的损失值对子网络N1、子网络N2、…、子网络NP-1进行反向传播，更新所述子网络的参数；

重复锁定子网络N1、N2、…、NP的步骤，直至迭代设定的次数。

更进一步的，还包括：

将测试集图像输入子网络N1、N2、…、NP进行特征提取，所述子网络输出为：特征F1、特征F2、…、特征FP，设其特征维度均为n；

对特征Fk，k＝1,2,…,P进行水平、垂直、水平+垂直翻转得到特征H(Fk)＝Fkh、V(Fk)＝Fkv、H(V(Fk))＝Fkhv；

将特征Fk、Fkh、Fkv、Fkhv并列形成(4，n)维度的张量，对所述张量按列取最大值，得到最终的特征Fkf即为输入图像的对应特征。

更进一步的，还包括：

对所述特征F1、特征F2、…、特征FP进行拼接得到图像的检索特征，维度为1*Pn；

获取训练集或测试集中任意一类鞋样图与视频鞋截图，得到两者检索特征之间的欧式距离，具体方式为：

其中fpi、fqi为特征p与特征q的对应位置元素值；

获取一张鞋样图p1，得到所述鞋样图p1与某一类视频鞋截图的距离，记为D₁₁＝min(d₁₁,d₁₂,d₁₃,...,d_1n)，以此类推，鞋样图p1对于第n类视频鞋截图的距离为D1n；

再获取某一类鞋样图p1,p2,...,pi与某一类视频鞋截图的距离Γ1＝mean(D₁₁,D₂₁,D₃₁,...D_i1)，则该类鞋样图对于第n类视频鞋截图的距离为：Γ_n＝mean(D_1n,D_2n,D_3n,...,D_in)

对得到的{Γ₁,Γ₂,Γ₃,...,Γ_n}进行排序，即得到某一类鞋样图查找视频鞋截图类别检索排名。

本发明还提供一种用于视频中鞋样检索的特征提取、融合与比对装置，包括：

数据集建立模块，用于获取鞋样图与视频鞋截图，得到数据集；

深度神经网络构建模块，构建用于特征提取的深度神经网络，所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层，所述子网络之间采用相互学习的策略；

训练模块，用于训练所述深度神经网络。

本发明由于采用以上技术方案，能够取得如下的技术效果：本发明通过网络间概率交互及交替训练机制，提升网络泛化性能；提出特征层面的水平垂直翻转融合，赋予检索特征抗翻转镜像性能；使用类查类(组图查询组图)的特征排名机制，提升了特征检索排序的合理性，以上3个方面综合提升了特征提取、特征融合、特征比对效果。

实际应用中通过本发明方法在视频中检索鞋样，使得检索更加准确，为刑侦勘验工作节约更多人力成本。通过提出的图查图到类查类的相似度计算机制，打通了类间检索的通道，使得鞋样图类别与视频鞋截图类别间的自动检索成为可能。

附图说明

图1为本实施例中特征提取原理图；

图2为本实施例中特征变换示例图；

图3为本实施例中鞋样图与某一类视频鞋截图的距离计算原理图；

图4为本实施例中某一类鞋样图与某一类视频鞋截图的距离计算原理图。

具体实施方式

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

实施例1

本实施例提供一种用于视频中鞋样检索的特征提取、融合与比对方法，包括：

S1.获取鞋样图与视频鞋截图，得到数据集；

具体的，所述数据集包括训练集与测试集，其中训练集包括m1类鞋，每类鞋均包括高清的相机拍摄鞋样图或网络鞋样图，以及低清的视频鞋截图；测试集包括m2类鞋，每类鞋也均包括高清的相机拍摄鞋样图或网络鞋样图，以及低清的视频鞋截图，所述测试集仅用于检验检索效果，不参与模型训练。所述数据集格式可以为：

DataSet：{

Sample(高清鞋样)：[S1，S2，S3，…，Sm1]

Video(低清截图)：[V1，V2，...，Vm2]

}

其中：

Si＝[图像1，图像2，图像3，...，图像p]代表第i类鞋包含的p张高清鞋样图。

Vi＝[图像1，图像2，图像3，...，图像q]代表第i类鞋包含的q张低清视频截图。

图像所属的类别编号即为该图的标签。

图像格式可以为shape＝tuple(300,300,3)的uint8形式的矩阵。

S2.构建用于特征提取的深度神经网络，所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层，所述子网络之间采用相互学习的策略；

需要说明的是，为了便于描述，以3个子网络为例进行展开说明；训练过程中循环更新每个子网络的参数。3个子网络在训练与推理时各自独立，参数不共享，但接收的输入图像相同。如图1所示。

其构建用于特征提取的深度神经网络，包括：

S2.1获取不同复杂度的子网络；

常见的分类网络中选取3个基础网络模型记为N1_、N2_、N3_,所述分类网络包括但不限于：LeNet、VGG、ResNet、DenseNet、HRNet、ResNext、MobileNet、ShuffleNet、Darknet。选择预训练好的不同复杂度的子网络用于构建整个网络。

例如ResNet101、ResNet50、MobileNet，分别代表高复杂度、中等复杂度、低复杂度网络。低复杂度网络往往意味着层数较少，可学到表层信息如目标位置、边界等信息。高复杂度网络层数更多，善于挖掘深层语义信息。不同复杂度的网络共同组成一个大网络，训练时既关注浅层的位置信息，又学习到深层的抽象信息，达到互补平衡的效果，因此能够更精准的表达网络。

S2.2重构每个所述子网络输出层；

1)网络模型N1_、N2_、N3_，为分类网络，无法直接应用于现有的模型架构；故去除N1_、N2_、N3_的全连接层、激活层和输出层，形成子网络N1、N2、N3。

2)子网络N1、N2、N3分别接入新的全连接层Z1、Z2、Z3；全连接层Zi(i＝1,2,3)的输入特征矩阵尺寸与子网络Ni的输出矩阵尺寸一致；Zi(i＝1,2,3)的输出特征尺寸统一设定为n维(优选n＝1024)。此处的全连接层Zi(i＝1,2,3)作用是将不同子网络Ni(i＝1,2,3)的输出固定为相同的大小，即输出特征维度相同，因此达到平衡每个子网络Ni(i＝1,2,3)的贡献度作用。

3)每个子网络的全连接层Zi(i＝1,2,3)层后连接有概率预测层Ei(i＝1,2,3)，Ei为常见的Softmax层，其输出尺寸大小为训练的鞋样类别数m1；

S2.3对重构后的子网络进行整合，得到全网络结构。

其全网络结构为Nfull＝{“input”:ImageBlob,“Net1”:[N1,Z1,E1],“Net2”:[N1,Z1,E1],“Net3”:[N1,Z1,E1],“output”:[Lc1,Lc2,Lc3]}。其中“input”为网络输入，ImageBlob是输入维度(3，300,300)的形式矩阵，是图像经过张量化结果。此处网络模型输入的ImageBlob将作为“Net1”、“Net2”、“Net3”共同输入。“Net1”、“Net2”、“Net3”是经过S2.1-S2.2处理后的每个子网络结构和参数，“output”是网络输出，为每个子网络的预测标签。

上述网络结构设计是为了训练过程中各个网络参数目标相互协调合作，子网络输出的预测标签的统一性作为网络学习收敛程度的参考指标之一，亦可直观反映训练进度。

S3.训练所述深度神经网络。

具体的，将训练集图像输入深度神经网络，得到预测值，通过损失函数获取预测值与标签值之间的损失，指导所述深度神经网络进行参数调整；所述损失函数有两个，其中一个是监督损失函数，其采用交叉熵损失来度量预测的目标类别与真实标签之间的差异；另一个是网络间的交互损失函数，其采用KL散度来度量两个网络预测概率分布之间的差异；

所述交叉熵公式表示为：

其中M为训练集中类别总数，N表示第m类中有N张图，

表示图像xi用子网络k推理，得到类别(标签)为m的概率；

其中

yi为预测值，m为标签，xi为输入图像；

所述KL散度公式表示为：

其中，D_KL(_pl||_pk)表示表示子网络k和子网络l推理特征的概率交互，l≠k；

对于深度神经网络的损失函数为：

提出上述损失函数的优点在于：由于每个子网络一开始采用随机初始化，类别概率估计接近于均匀分布，这使得它们在训练初期的监督损失较大，交互损失较小，此时每个子网络主要由传统的交叉熵损失函数引导，这样可以保证网络的性能在迭代中逐渐提升。随着网络参数不断更新，每个子网络在自己的学习过程中获得不同的知识，其对样本类别的概率估计也会有所不同，这时由KL散度计算得到的交互损失开始促进子网络互相参考学习经验，而子网络间进行的类别估计概率交互可以传递学习到的数据分布特性，从而帮助网络改善泛化性能。

具体的，将训练集图像输入深度神经网络，包括：

S3.1锁定子网络N2、子网络N3，输入由训练集随机抽取的一组图像，以损失函数L获得的损失值对子网络N1进行反向传播更新子网络N1的参数；

S3.2锁定子网络N1、子网络N3，输入下一组图像，以损失函数L获得的损失值对子网络N2进行反向传播更新子网络N2的参数；

S3.3锁定子网络N1、子网络N2，输入下一组图像，以损失函数L获得的损失值对子网络NP进行反向传播更新子网络N3的参数；

S3.4重复上述步骤S3.1-S3.3，不断迭代至设定的次数，所述次数可以设定为100次。

S3.5锁定子网络N1的参数，输入下一组图像，以0.5*L的损失值对子网络N2、子网络N3进行反向传播，更新所述子网络N2、子网络N3的参数；

S3.6锁定子网络N2的参数，输入下一组图像，以0.5*L的损失值对子网络N1、子网络N3进行反向传播，更新所述子网络N1、子网络N3的参数；

S3.7锁定子网络N3的参数，输入下一组图像，以0.5*L的损失值对子网络N1、子网络N2进行反向传播，更新所述子网络N1、子网络N2的参数；

S3.8重复步骤S3.5-S3.7，不断迭代至设定的次数，所述次数可以设定为200次。

上述训练机制的优点在于：在训练起始阶段用3组图像分3次依次训练子网络N1,N2,N3，每次只更新一个网络的参数，如此可以避免3个子网络学习到相同的内容所导致的参数趋同化，令3子网络各有所长，从而提升网络的泛化能力。在训练的前100个迭代完成后，改为一组图像同时训练2个网络，如此可以促进网络间的交互同时保证训练稳定性。

S4.将测试集图像输入子网络N1、N2、N3进行特征提取，所述子网络输出为：特征F1、特征F2、特征F3，设其特征维度均为n；

S5.对特征Fk，k＝1,2,3,进行水平、垂直、水平+垂直翻转得到特征H(Fk)＝Fkh、V(Fk)＝Fkv、H(V(Fk))＝Fkhv；将特征Fk、Fkh、Fkv、Fkhv并列形成(4，n)维度的张量，对所述张量按列取最大值，得到最终的特征Fkf即为输入图像的对应特征，如图2所示。

需要说明的是：取最大值的计算方式是由于深度神经网络的激活层计算会将有效的特征值增大，无效的特征值减小，因此在处理Fk、Fkh、Fkv、Fkhv并列形成新的4*n维度的张量时需要按列取最大值保留特征向量中的有效元素，如此最终得到的特征Fkf中包含了水平垂直翻转后的有效特征值，因此得到了抗水平垂直翻转的特性，在输入的图像被水平或垂直翻转过的情况下仍具有良好的性能。

S6.对所述特征F1、特征F2、…、特征FP进行拼接得到图像的检索特征，维度为1*Pn；

S7.获取训练集或测试集中任意一类鞋样图与视频鞋截图，得到两者检索特征之间的欧式距离，具体方式为：

其中fpi、fqi为特征p与特征q的对应位置元素值；

S8.获取一张鞋样图p1，得到所述鞋样图p1与某一类视频鞋截图的距离，记为D₁₁＝min(d₁₁,d₁₂,d₁₃,...,d_1n)，以此类推，鞋样图p1对于第n类视频鞋截图的距离为D1n；

S9.再获取某一类鞋样图p1,p2,...,pi与某一类视频鞋截图的距离Γ1＝mean(D₁₁,D₂₁,D₃₁,...D_i1)，则该类鞋样图对于第n类视频鞋截图的距离为：Γ_n＝mean(D_1n,D_2n,D_3n,...,D_in)

S10.对得到的{Γ₁,Γ₂,Γ₃,...,Γ_n}进行排序，即得到某一类鞋样图查找视频鞋截图类别检索排名。

本实施例还提供一种用于视频中鞋样检索的特征提取、融合与比对装置，包括：

训练模块，用于训练所述深度神经网络。

本发明实施例的用于视频中鞋样检索的特征提取、融合与比对装置与上述用于视频中鞋样检索的特征提取、融合与比对方法一一对应，在上述用于视频中鞋样检索的特征提取、融合与比对方法的实施例阐述的技术特征及其有益效果均适用于本装置的实施例中。

本实施例还提供一种用于视频中鞋样检索的特征提取、融合与比对的电子设备，包括存储器和处理器，存储器存储有可执行程序，处理器执行可执行程序时实现上述用于视频中鞋样检索的特征提取、融合与比对方法的步骤。

本实施例还提供一种可读存储介质，其上存储有可执行程序，可执行程序被处理器执行时实现上述用于视频中鞋样检索的特征提取、融合与比对方法的步骤。

本领域普通技术人员可以理解实现上述实施例用于视频中鞋样检索的特征提取、融合与比对方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一非易失性的计算机可读取存储介质中，如实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述用于视频中鞋样检索的特征提取、融合与比对方法的实施例流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。