CN113221795A - 用于视频中鞋样检索的特征提取、融合与比对方法及其装置 - Google Patents
用于视频中鞋样检索的特征提取、融合与比对方法及其装置 Download PDFInfo
- Publication number
- CN113221795A CN113221795A CN202110565454.3A CN202110565454A CN113221795A CN 113221795 A CN113221795 A CN 113221795A CN 202110565454 A CN202110565454 A CN 202110565454A CN 113221795 A CN113221795 A CN 113221795A
- Authority
- CN
- China
- Prior art keywords
- sub
- network
- shoe
- networks
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims description 15
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 14
- 230000001902 propagating effect Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000011840 criminal investigation Methods 0.000 abstract description 4
- 238000007689 inspection Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 36
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了用于视频中鞋样检索的特征提取、融合与比对方法及其装置,其方法包括获取鞋样图与视频鞋截图,得到数据集;构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;训练所述深度神经网络。实际应用中通过本发明方法在视频中检索鞋样,使得检索更加准确,为刑侦勘验工作节约更多人力成本。通过提出的图查图到类查类的相似度计算机制,打通了类间检索的通道,使得鞋样图类别与视频鞋截图类别间的自动检索成为可能。
Description
技术领域
本发明涉及刑侦勘测辅助领域,具体涉及一种用于视频中鞋样检索的特征提取、融合与比对方法及其装置。
背景技术
足迹信息在现代的刑侦勘测领域起到举足轻重的作用,是现场勘验的重要物证之一,同时由足迹信息引入的鞋样信息也逐渐成为侦破案件的主要线索之一,其具体做法为通过现场遗留的足迹找到该足迹对应的鞋样照片,再采用人工或自动算法将鞋样照片与现场周边视频进行比对,从而锁定穿着该鞋的嫌疑人。
由鞋样图像锁定视频中嫌疑人需要利用视频-鞋样检索技术,当前基于深度学习的检索技术一般为:将图像输入一个或多个深度神经网络提取特征,再将提取到的特征进行比对(如计算欧氏距离)来衡量图像之间的相似程度,其单一深度神经网络的特征提取能力有限。若采用多个深度神经网络进行特征提取则需先进行特征融合再进行比对计算相似度来完成检索,其多个深度神经网络同时训练会导致各个网络学习到的特征趋于一致,降低了模型的泛化能力。
无论是单一深度神经网络还是多个深度神经网络对于翻转与镜像过的图像,均无法提取到有效特征,也无法由图像之间的相似度得出类别间的相似度。
发明内容
针对现有技术存在上述问题,本发明提供了一种用于视频中鞋样检索的特征提取、融合与比对方法及其装置,其方法包括:
获取鞋样图与视频鞋截图,得到数据集;
构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
训练所述深度神经网络。
进一步的,所述数据集包括训练集与测试集,其中训练集包括m1类鞋,每类鞋均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图;测试集包括m2类鞋,每类鞋也均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图,所述测试集仅用于检验检索效果,不参与模型训练。
进一步的,构建用于特征提取的深度神经网络,包括:
获取不同复杂度的子网络;
重构每个所述子网络输出层;
对重构后的子网络进行整合,得到全网络结构。
进一步的,重构每个所述子网络输出层,包括:
去除网络模型N1_、N2_、…、NP_的全连接层、激活层和输出层,形成子网络N1、N2、…、NP,P为子网络数量;
将所述子网络N1、N2、…、NP分别接入新的全连接层Z1、Z2、…、ZP;所述全连接层Zi,i=1、2、…、P的输入特征矩阵尺寸与子网络Ni的输出特征矩阵尺寸一致;全连接层Zi的输出特征尺寸统一设定为n维;
每个子网络的全连接层Zi后连接有概率预测层Ei,所述概率预测层Ei输出尺寸大小为训练的鞋样类别数m1。
进一步的,训练所述深度神经网络,包括:
将训练集图像输入深度神经网络,得到预测值,通过损失函数获取预测值与标签值之间的损失,指导所述深度神经网络进行参数调整;
所述损失函数有两个,其中一个是监督损失函数,其采用交叉熵损失来度量预测的目标类别与真实标签之间的差异;另一个是网络间的交互损失函数,其采用KL散度来度量两个网络预测概率分布之间的差异;
对于深度神经网络的损失函数为:
更进一步的,将训练集图像输入深度神经网络,包括:
锁定子网络N2、子网络N3、…、子网络NP的参数,输入由训练集随机抽取的一组图像,以损失函数L获得的损失值对子网络N1进行反向传播更新子网络N1的参数;
锁定子网络N1、子网络N3、…、子网络NP的参数,输入下一组图像,以损失函数L获得的损失值对子网络N2进行反向传播更新子网络N2的参数;
…
锁定子网络N1、子网络N2、…、子网络NP-1的参数,输入下一组图像,以损失函数L获得的损失值对子网络NP进行反向传播更新子网络NP的参数;
重复上述步骤,直至迭代设定的次数;
锁定子网络N1的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N2、子网络N3、…、子网络NP进行反向传播,更新所述子网络的参数;
锁定子网络N2的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N1、子网络N3、…、子网络NP进行反向传播,更新所述子网络的参数;
…
锁定子网络NP的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N1、子网络N2、…、子网络NP-1进行反向传播,更新所述子网络的参数;
重复锁定子网络N1、N2、…、NP的步骤,直至迭代设定的次数。
更进一步的,还包括:
将测试集图像输入子网络N1、N2、…、NP进行特征提取,所述子网络输出为:特征F1、特征F2、…、特征FP,设其特征维度均为n;
对特征Fk,k=1,2,…,P进行水平、垂直、水平+垂直翻转得到特征H(Fk)=Fkh、V(Fk)=Fkv、H(V(Fk))=Fkhv;
将特征Fk、Fkh、Fkv、Fkhv并列形成(4,n)维度的张量,对所述张量按列取最大值,得到最终的特征Fkf即为输入图像的对应特征。
更进一步的,还包括:
对所述特征F1、特征F2、…、特征FP进行拼接得到图像的检索特征,维度为1*Pn;
获取训练集或测试集中任意一类鞋样图与视频鞋截图,得到两者检索特征之间的欧式距离,具体方式为:
其中fpi、fqi为特征p与特征q的对应位置元素值;
获取一张鞋样图p1,得到所述鞋样图p1与某一类视频鞋截图的距离,记为D11=min(d11,d12,d13,...,d1n),以此类推,鞋样图p1对于第n类视频鞋截图的距离为D1n;
再获取某一类鞋样图p1,p2,...,pi与某一类视频鞋截图的距离Γ1=mean(D11,D21,D31,...Di1),则该类鞋样图对于第n类视频鞋截图的距离为:Γn=mean(D1n,D2n,D3n,...,Din)
对得到的{Γ1,Γ2,Γ3,...,Γn}进行排序,即得到某一类鞋样图查找视频鞋截图类别检索排名。
本发明还提供一种用于视频中鞋样检索的特征提取、融合与比对装置,包括:
数据集建立模块,用于获取鞋样图与视频鞋截图,得到数据集;
深度神经网络构建模块,构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
训练模块,用于训练所述深度神经网络。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明通过网络间概率交互及交替训练机制,提升网络泛化性能;提出特征层面的水平垂直翻转融合,赋予检索特征抗翻转镜像性能;使用类查类(组图查询组图)的特征排名机制,提升了特征检索排序的合理性,以上3个方面综合提升了特征提取、特征融合、特征比对效果。
实际应用中通过本发明方法在视频中检索鞋样,使得检索更加准确,为刑侦勘验工作节约更多人力成本。通过提出的图查图到类查类的相似度计算机制,打通了类间检索的通道,使得鞋样图类别与视频鞋截图类别间的自动检索成为可能。
附图说明
图1为本实施例中特征提取原理图;
图2为本实施例中特征变换示例图;
图3为本实施例中鞋样图与某一类视频鞋截图的距离计算原理图;
图4为本实施例中某一类鞋样图与某一类视频鞋截图的距离计算原理图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
本实施例提供一种用于视频中鞋样检索的特征提取、融合与比对方法,包括:
S1.获取鞋样图与视频鞋截图,得到数据集;
具体的,所述数据集包括训练集与测试集,其中训练集包括m1类鞋,每类鞋均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图;测试集包括m2类鞋,每类鞋也均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图,所述测试集仅用于检验检索效果,不参与模型训练。所述数据集格式可以为:
DataSet:{
Sample(高清鞋样):[S1,S2,S3,…,Sm1]
Video(低清截图):[V1,V2,...,Vm2]
}
其中:
Si=[图像1,图像2,图像3,...,图像p]代表第i类鞋包含的p张高清鞋样图。
Vi=[图像1,图像2,图像3,...,图像q]代表第i类鞋包含的q张低清视频截图。
图像所属的类别编号即为该图的标签。
图像格式可以为shape=tuple(300,300,3)的uint8形式的矩阵。
S2.构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
需要说明的是,为了便于描述,以3个子网络为例进行展开说明;训练过程中循环更新每个子网络的参数。3个子网络在训练与推理时各自独立,参数不共享,但接收的输入图像相同。如图1所示。
其构建用于特征提取的深度神经网络,包括:
S2.1获取不同复杂度的子网络;
常见的分类网络中选取3个基础网络模型记为N1_、N2_、N3_,所述分类网络包括但不限于:LeNet、VGG、ResNet、DenseNet、HRNet、ResNext、MobileNet、ShuffleNet、Darknet。选择预训练好的不同复杂度的子网络用于构建整个网络。
例如ResNet101、ResNet50、MobileNet,分别代表高复杂度、中等复杂度、低复杂度网络。低复杂度网络往往意味着层数较少,可学到表层信息如目标位置、边界等信息。高复杂度网络层数更多,善于挖掘深层语义信息。不同复杂度的网络共同组成一个大网络,训练时既关注浅层的位置信息,又学习到深层的抽象信息,达到互补平衡的效果,因此能够更精准的表达网络。
S2.2重构每个所述子网络输出层;
1)网络模型N1_、N2_、N3_,为分类网络,无法直接应用于现有的模型架构;故去除N1_、N2_、N3_的全连接层、激活层和输出层,形成子网络N1、N2、N3。
2)子网络N1、N2、N3分别接入新的全连接层Z1、Z2、Z3;全连接层Zi(i=1,2,3)的输入特征矩阵尺寸与子网络Ni的输出矩阵尺寸一致;Zi(i=1,2,3)的输出特征尺寸统一设定为n维(优选n=1024)。此处的全连接层Zi(i=1,2,3)作用是将不同子网络Ni(i=1,2,3)的输出固定为相同的大小,即输出特征维度相同,因此达到平衡每个子网络Ni(i=1,2,3)的贡献度作用。
3)每个子网络的全连接层Zi(i=1,2,3)层后连接有概率预测层Ei(i=1,2,3),Ei为常见的Softmax层,其输出尺寸大小为训练的鞋样类别数m1;
S2.3对重构后的子网络进行整合,得到全网络结构。
其全网络结构为Nfull={“input”:ImageBlob,“Net1”:[N1,Z1,E1],“Net2”:[N1,Z1,E1],“Net3”:[N1,Z1,E1],“output”:[Lc1,Lc2,Lc3]}。其中“input”为网络输入,ImageBlob是输入维度(3,300,300)的形式矩阵,是图像经过张量化结果。此处网络模型输入的ImageBlob将作为“Net1”、“Net2”、“Net3”共同输入。“Net1”、“Net2”、“Net3”是经过S2.1-S2.2处理后的每个子网络结构和参数,“output”是网络输出,为每个子网络的预测标签。
上述网络结构设计是为了训练过程中各个网络参数目标相互协调合作,子网络输出的预测标签的统一性作为网络学习收敛程度的参考指标之一,亦可直观反映训练进度。
S3.训练所述深度神经网络。
具体的,将训练集图像输入深度神经网络,得到预测值,通过损失函数获取预测值与标签值之间的损失,指导所述深度神经网络进行参数调整;所述损失函数有两个,其中一个是监督损失函数,其采用交叉熵损失来度量预测的目标类别与真实标签之间的差异;另一个是网络间的交互损失函数,其采用KL散度来度量两个网络预测概率分布之间的差异;
对于深度神经网络的损失函数为:
提出上述损失函数的优点在于:由于每个子网络一开始采用随机初始化,类别概率估计接近于均匀分布,这使得它们在训练初期的监督损失较大,交互损失较小,此时每个子网络主要由传统的交叉熵损失函数引导,这样可以保证网络的性能在迭代中逐渐提升。随着网络参数不断更新,每个子网络在自己的学习过程中获得不同的知识,其对样本类别的概率估计也会有所不同,这时由KL散度计算得到的交互损失开始促进子网络互相参考学习经验,而子网络间进行的类别估计概率交互可以传递学习到的数据分布特性,从而帮助网络改善泛化性能。
具体的,将训练集图像输入深度神经网络,包括:
S3.1锁定子网络N2、子网络N3,输入由训练集随机抽取的一组图像,以损失函数L获得的损失值对子网络N1进行反向传播更新子网络N1的参数;
S3.2锁定子网络N1、子网络N3,输入下一组图像,以损失函数L获得的损失值对子网络N2进行反向传播更新子网络N2的参数;
S3.3锁定子网络N1、子网络N2,输入下一组图像,以损失函数L获得的损失值对子网络NP进行反向传播更新子网络N3的参数;
S3.4重复上述步骤S3.1-S3.3,不断迭代至设定的次数,所述次数可以设定为100次。
S3.5锁定子网络N1的参数,输入下一组图像,以0.5*L的损失值对子网络N2、子网络N3进行反向传播,更新所述子网络N2、子网络N3的参数;
S3.6锁定子网络N2的参数,输入下一组图像,以0.5*L的损失值对子网络N1、子网络N3进行反向传播,更新所述子网络N1、子网络N3的参数;
S3.7锁定子网络N3的参数,输入下一组图像,以0.5*L的损失值对子网络N1、子网络N2进行反向传播,更新所述子网络N1、子网络N2的参数;
S3.8重复步骤S3.5-S3.7,不断迭代至设定的次数,所述次数可以设定为200次。
上述训练机制的优点在于:在训练起始阶段用3组图像分3次依次训练子网络N1,N2,N3,每次只更新一个网络的参数,如此可以避免3个子网络学习到相同的内容所导致的参数趋同化,令3子网络各有所长,从而提升网络的泛化能力。在训练的前100个迭代完成后,改为一组图像同时训练2个网络,如此可以促进网络间的交互同时保证训练稳定性。
S4.将测试集图像输入子网络N1、N2、N3进行特征提取,所述子网络输出为:特征F1、特征F2、特征F3,设其特征维度均为n;
S5.对特征Fk,k=1,2,3,进行水平、垂直、水平+垂直翻转得到特征H(Fk)=Fkh、V(Fk)=Fkv、H(V(Fk))=Fkhv;将特征Fk、Fkh、Fkv、Fkhv并列形成(4,n)维度的张量,对所述张量按列取最大值,得到最终的特征Fkf即为输入图像的对应特征,如图2所示。
需要说明的是:取最大值的计算方式是由于深度神经网络的激活层计算会将有效的特征值增大,无效的特征值减小,因此在处理Fk、Fkh、Fkv、Fkhv并列形成新的4*n维度的张量时需要按列取最大值保留特征向量中的有效元素,如此最终得到的特征Fkf中包含了水平垂直翻转后的有效特征值,因此得到了抗水平垂直翻转的特性,在输入的图像被水平或垂直翻转过的情况下仍具有良好的性能。
S6.对所述特征F1、特征F2、…、特征FP进行拼接得到图像的检索特征,维度为1*Pn;
S7.获取训练集或测试集中任意一类鞋样图与视频鞋截图,得到两者检索特征之间的欧式距离,具体方式为:
其中fpi、fqi为特征p与特征q的对应位置元素值;
S8.获取一张鞋样图p1,得到所述鞋样图p1与某一类视频鞋截图的距离,记为D11=min(d11,d12,d13,...,d1n),以此类推,鞋样图p1对于第n类视频鞋截图的距离为D1n;
S9.再获取某一类鞋样图p1,p2,...,pi与某一类视频鞋截图的距离Γ1=mean(D11,D21,D31,...Di1),则该类鞋样图对于第n类视频鞋截图的距离为:Γn=mean(D1n,D2n,D3n,...,Din)
S10.对得到的{Γ1,Γ2,Γ3,...,Γn}进行排序,即得到某一类鞋样图查找视频鞋截图类别检索排名。
本实施例还提供一种用于视频中鞋样检索的特征提取、融合与比对装置,包括:
数据集建立模块,用于获取鞋样图与视频鞋截图,得到数据集;
深度神经网络构建模块,构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
训练模块,用于训练所述深度神经网络。
本发明实施例的用于视频中鞋样检索的特征提取、融合与比对装置与上述用于视频中鞋样检索的特征提取、融合与比对方法一一对应,在上述用于视频中鞋样检索的特征提取、融合与比对方法的实施例阐述的技术特征及其有益效果均适用于本装置的实施例中。
本实施例还提供一种用于视频中鞋样检索的特征提取、融合与比对的电子设备,包括存储器和处理器,存储器存储有可执行程序,处理器执行可执行程序时实现上述用于视频中鞋样检索的特征提取、融合与比对方法的步骤。
本实施例还提供一种可读存储介质,其上存储有可执行程序,可执行程序被处理器执行时实现上述用于视频中鞋样检索的特征提取、融合与比对方法的步骤。
本领域普通技术人员可以理解实现上述实施例用于视频中鞋样检索的特征提取、融合与比对方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性的计算机可读取存储介质中,如实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述用于视频中鞋样检索的特征提取、融合与比对方法的实施例流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,包括:
获取鞋样图与视频鞋截图,得到数据集;
构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
训练所述深度神经网络。
2.根据权利要求1所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,所述数据集包括训练集与测试集,其中训练集包括m1类鞋,每类鞋均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图;测试集包括m2类鞋,每类鞋也均包括高清的相机拍摄鞋样图或网络鞋样图,以及低清的视频鞋截图。
3.根据权利要求1所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,构建用于特征提取的深度神经网络,包括:
获取不同复杂度的子网络;
重构每个所述子网络输出层;
对重构后的子网络进行整合,得到全网络结构。
4.根据权利要求3所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,重构每个所述子网络输出层,包括:
去除网络模型N1_、N2_、…、NP_的全连接层、激活层和输出层,形成子网络N1、N2、…、NP,P为子网络数量;
将所述子网络N1、N2、…、NP分别接入新的全连接层Z1、Z2、…、ZP;所述全连接层Zi,i=1、2、…、P的输入特征矩阵尺寸与子网络Ni的输出特征矩阵尺寸一致;全连接层Zi的输出特征尺寸统一设定为n维;
每个子网络的全连接层Zi后连接有概率预测层Ei,所述概率预测层Ei输出尺寸大小为训练的鞋样类别数m1。
5.根据权利要求1所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,训练所述深度神经网络,包括:
将训练集图像输入深度神经网络,得到预测值,通过损失函数获取预测值与标签值之间的损失,指导所述深度神经网络进行参数调整;
所述损失函数有两个,其中一个是监督损失函数,其采用交叉熵损失来度量预测的目标类别与真实标签之间的差异;另一个是网络间的交互损失函数,其采用KL散度来度量两个网络预测概率分布之间的差异;
对于深度神经网络的损失函数为:
6.根据权利要求5所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,将训练集图像输入深度神经网络,包括:
锁定子网络N2、子网络N3、…、子网络NP的参数,输入由训练集随机抽取的一组图像,以损失函数L获得的损失值对子网络N1进行反向传播更新子网络N1的参数;
锁定子网络N1、子网络N3、…、子网络NP的参数,输入下一组图像,以损失函数L获得的损失值对子网络N2进行反向传播更新子网络N2的参数;
…
锁定子网络N1、子网络N2、…、子网络NP-1的参数,输入下一组图像,以损失函数L获得的损失值对子网络NP进行反向传播更新子网络NP的参数;
重复上述步骤,直至迭代设定的次数;
锁定子网络N1的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N2、子网络N3、…、子网络NP进行反向传播,更新所述子网络的参数;
锁定子网络N2的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N1、子网络N3、…、子网络NP进行反向传播,更新所述子网络的参数;
…
锁定子网络NP的参数,输入下一组图像,以1/(P-1)*L的损失值对子网络N1、子网络N2、…、子网络NP-1进行反向传播,更新所述子网络的参数;
重复锁定子网络N1、N2、…、NP的步骤,直至迭代设定的次数。
7.根据权利要求1所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,还包括:
将测试集图像输入子网络N1、N2、…、NP进行特征提取,所述子网络输出为:特征F1、特征F2、…、特征FP,设其特征维度均为n;
对特征Fk,k=1,2,…,P进行水平、垂直、水平+垂直翻转得到特征H(Fk)=Fkh、V(Fk)=Fkv、H(V(Fk))=Fkhv;
将特征Fk、Fkh、Fkv、Fkhv并列形成(4,n)维度的张量,对所述张量按列取最大值,得到最终的特征Fkf即为输入图像的对应特征。
8.根据权利要求7所述一种用于视频中鞋样检索的特征提取、融合与比对方法,其特征在于,还包括:
对所述特征F1、特征F2、…、特征FP进行拼接得到图像的检索特征,维度为1*Pn;
获取训练集或测试集中任意一类鞋样图与视频鞋截图,得到两者检索特征之间的欧式距离,具体方式为:
其中fpi、fqi为特征p与特征q的对应位置元素值;
获取一张鞋样图p1,得到所述鞋样图p1与某一类视频鞋截图的距离,记为D11=min(d11,d12,d13,...,d1n),以此类推,鞋样图p1对于第n类视频鞋截图的距离为D1n;
再获取某一类鞋样图p1,p2,...,pi与某一类视频鞋截图的距离Γ1=mean(D11,D21,D31,...Di1),则该类鞋样图对于第n类视频鞋截图的距离为:Γn=mean(D1n,D2n,D3n,...,Din)
对得到的{Γ1,Γ2,Γ3,...,Γn}进行排序,即得到某一类鞋样图查找视频鞋截图类别检索排名。
9.一种用于视频中鞋样检索的特征提取、融合与比对装置,其特征在于,包括:
数据集建立模块,用于获取鞋样图与视频鞋截图,得到数据集;
深度神经网络构建模块,构建用于特征提取的深度神经网络,所述深度神经网络包括多个子网络、子网络全连接层、子网络输出层,所述子网络之间采用相互学习的策略;
训练模块,用于训练所述深度神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565454.3A CN113221795B (zh) | 2021-05-24 | 2021-05-24 | 用于视频中鞋样特征提取、融合与比对的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565454.3A CN113221795B (zh) | 2021-05-24 | 2021-05-24 | 用于视频中鞋样特征提取、融合与比对的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221795A true CN113221795A (zh) | 2021-08-06 |
CN113221795B CN113221795B (zh) | 2024-05-14 |
Family
ID=77098120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110565454.3A Active CN113221795B (zh) | 2021-05-24 | 2021-05-24 | 用于视频中鞋样特征提取、融合与比对的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221795B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403071A (zh) * | 2023-03-23 | 2023-07-07 | 河海大学 | 基于特征重构的少样本混凝土缺陷检测方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140089326A1 (en) * | 2012-09-21 | 2014-03-27 | Zhe Lin | Image Search by Query Object Segmentation |
CN106980866A (zh) * | 2016-10-24 | 2017-07-25 | 商汤集团有限公司 | 一种鞋类检索方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN109101983A (zh) * | 2018-08-02 | 2018-12-28 | 大连恒锐科技股份有限公司 | 一种基于深度学习的鞋样及足迹关键点检测方法 |
CN109671102A (zh) * | 2018-12-03 | 2019-04-23 | 华中科技大学 | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 |
CN110084195A (zh) * | 2019-04-26 | 2019-08-02 | 西安电子科技大学 | 基于卷积神经网络的遥感图像目标检测方法 |
CN110287370A (zh) * | 2019-06-26 | 2019-09-27 | 中国人民公安大学 | 基于现场鞋印的犯罪嫌疑人追踪方法、装置及存储介质 |
CN110472081A (zh) * | 2019-08-23 | 2019-11-19 | 大连海事大学 | 一种基于度量学习的鞋图片跨域检索方法 |
CN110705516A (zh) * | 2019-10-18 | 2020-01-17 | 大连海事大学 | 一种基于协同网络结构的鞋底花纹图像聚类方法 |
CN111274922A (zh) * | 2020-01-17 | 2020-06-12 | 山东师范大学 | 基于多层次深度学习网络的行人重识别方法及系统 |
CN112163602A (zh) * | 2020-09-14 | 2021-01-01 | 湖北工业大学 | 一种基于深度神经网络的目标检测方法 |
WO2021057395A1 (zh) * | 2019-09-29 | 2021-04-01 | 五邑大学 | 一种鞋跟型号识别方法、装置及存储介质 |
-
2021
- 2021-05-24 CN CN202110565454.3A patent/CN113221795B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140089326A1 (en) * | 2012-09-21 | 2014-03-27 | Zhe Lin | Image Search by Query Object Segmentation |
CN106980866A (zh) * | 2016-10-24 | 2017-07-25 | 商汤集团有限公司 | 一种鞋类检索方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN109101983A (zh) * | 2018-08-02 | 2018-12-28 | 大连恒锐科技股份有限公司 | 一种基于深度学习的鞋样及足迹关键点检测方法 |
CN109671102A (zh) * | 2018-12-03 | 2019-04-23 | 华中科技大学 | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 |
CN110084195A (zh) * | 2019-04-26 | 2019-08-02 | 西安电子科技大学 | 基于卷积神经网络的遥感图像目标检测方法 |
CN110287370A (zh) * | 2019-06-26 | 2019-09-27 | 中国人民公安大学 | 基于现场鞋印的犯罪嫌疑人追踪方法、装置及存储介质 |
CN110472081A (zh) * | 2019-08-23 | 2019-11-19 | 大连海事大学 | 一种基于度量学习的鞋图片跨域检索方法 |
WO2021057395A1 (zh) * | 2019-09-29 | 2021-04-01 | 五邑大学 | 一种鞋跟型号识别方法、装置及存储介质 |
CN110705516A (zh) * | 2019-10-18 | 2020-01-17 | 大连海事大学 | 一种基于协同网络结构的鞋底花纹图像聚类方法 |
CN111274922A (zh) * | 2020-01-17 | 2020-06-12 | 山东师范大学 | 基于多层次深度学习网络的行人重识别方法及系统 |
CN112163602A (zh) * | 2020-09-14 | 2021-01-01 | 湖北工业大学 | 一种基于深度神经网络的目标检测方法 |
Non-Patent Citations (3)
Title |
---|
ZHANYU MA等: "Shoe-Print Image Retrieval With Multi-Part Weighted CNN", SPECIAL SECTION ON AI-DRIVEN BIG DATA PROCESSING: THEORY, METHODOLOGY, AND APPLICATIONS, vol. 7, pages 59728 - 59736, XP011725170, DOI: 10.1109/ACCESS.2019.2914455 * |
杨孟京等: "一种基于卷积神经网络的鞋型识别方法", 激光与光电子学进展, vol. 56, no. 19, pages 191505 - 1 * |
金益锋等: "全国公安机关鞋样本数据库应用系统的应用与优化", 刑事技术, vol. 43, no. 6, pages 511 - 513 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403071A (zh) * | 2023-03-23 | 2023-07-07 | 河海大学 | 基于特征重构的少样本混凝土缺陷检测方法及装置 |
CN116403071B (zh) * | 2023-03-23 | 2024-03-26 | 河海大学 | 基于特征重构的少样本混凝土缺陷检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113221795B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Combination of hyperband and Bayesian optimization for hyperparameter optimization in deep learning | |
CN110473592B (zh) | 一种多视角人类协同致死基因预测方法 | |
CN112396027A (zh) | 基于图卷积神经网络的车辆重识别方法 | |
CN110298404A (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
CN109902192B (zh) | 基于无监督深度回归的遥感图像检索方法、系统、设备及介质 | |
KR102349854B1 (ko) | 표적 추적 시스템 및 방법 | |
CN113033520A (zh) | 一种基于深度学习的树木线虫病害木识别方法及系统 | |
CN113761261A (zh) | 图像检索方法、装置、计算机可读介质及电子设备 | |
Hilal et al. | Fuzzy cognitive maps with bird swarm intelligence optimization-based remote sensing image classification | |
CN113239875A (zh) | 人脸特征的获取方法、系统、装置及计算机可读存储介质 | |
CN113159115A (zh) | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 | |
CN113221795A (zh) | 用于视频中鞋样检索的特征提取、融合与比对方法及其装置 | |
Yang et al. | Heterogeneous image change detection using deep canonical correlation analysis | |
Zhou et al. | Hyperspectral image change detection by self-supervised tensor network | |
Jin et al. | Identifying exoplanets with machine learning methods: a preliminary study | |
Yan et al. | A novel clustering algorithm based on fitness proportionate sharing | |
CN115410250A (zh) | 阵列式人脸美丽预测方法、设备及存储介质 | |
CN115292509A (zh) | 基于多粒度注意力网络的图立方链接预测方法 | |
CN108647784A (zh) | 一种基于深度信念网络的终身机器学习方法 | |
Sural et al. | A genetic algorithm for feature selection in a neuro-fuzzy OCR system | |
CN113449631A (zh) | 图像分类方法及系统 | |
Zhong et al. | A dbn-crf for spectral-spatial classification of hyperspectral data | |
Changalasetty et al. | Using EM technique for Juvenile crime zoning | |
Zhang et al. | Anonymous model pruning for compressing deep neural networks | |
Chen et al. | Static correlative filter based convolutional neural network for visual question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |