CN110135363B - 基于判别词典嵌入行人图像检索方法、系统、设备及介质 - Google Patents
基于判别词典嵌入行人图像检索方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN110135363B CN110135363B CN201910416251.0A CN201910416251A CN110135363B CN 110135363 B CN110135363 B CN 110135363B CN 201910416251 A CN201910416251 A CN 201910416251A CN 110135363 B CN110135363 B CN 110135363B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- dictionary
- images
- pedestrian image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 29
- 239000013604 expression vector Substances 0.000 claims description 20
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000001174 ascending effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 9
- 230000009977 dual effect Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 101150050759 outI gene Proteins 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000012795 verification Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 241000271897 Viperidae Species 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于判别词典嵌入行人图像检索方法、系统、设备及介质,包括首先从行人图像中提取颜色与纹理特征,然后在训练集上联合学习跨视角的判别词典与度量嵌入矩阵。利用学习到的判别词典,可以把行人图像特征表达为判别性更强的词典基向量的组合系数向量,再使用学习到的度量嵌入矩阵计算测试集中不同摄像机下行人图像间的距离,实现对行人图像检索的任务。在本发明中将判别词典学习与度量学习的优势进行了组合,通过在数据集上的验证可知,本发明能够显著地提升行人图像检索的准确率。
Description
技术领域
本发明涉及图像识别,具体地,涉及一种基于判别词典嵌入行人图像检索方法、系统、设备及介质。
背景技术
在由多个摄像机组成的分布式视频监控系统中,常常需要检索出具有特定外观的行人对象,进而对此人的行为及事件进行分析。当获得了该行人在某一摄像机下的画面后,从其他摄像机画面中检索出该行人的工作就转化为一个“以图搜图”的任务,其核心是计算检索图像与待匹配图像间的距离或相似度,使得具有相同身份标签的行人在距离上更小或是相似度更高。这样就可以在对所有待匹配图像按相似度排序后,缩小检索范围,提高检索效率。
由于同一行人被不同摄像机拍摄时可能会在姿态、视角上呈现很大的差异,而且受到摄像机内部参数、成像时光照环境、行人遮挡等因素的影响,不同摄像机画面中的行人会在外观上存在相当大的差异,这使得根据行人提供的表观信息进行行人图像检索的工作面临着巨大的挑战。
当前在处理行人图像检索的问题上主要从特征描述子设计与度量学习模型两个方面开展。前一类方法主要关注从行人图像中提取对光照、视角、姿态等引起引人外观变化的因素具有鲁棒性的特征描述子,然后再借助欧氏距离、余弦相似度、巴氏距离等不需要学习的计算方法来获得检索图像与待匹配图像之间的距离/相似度。不过这些方法在匹配性能上存在一定的不足。与之相比,度量学习模型尽管不特别强调特征描述子的鲁棒性,但是能够利用训练样本与标签蕴含的判别信息来学习匹配模型的参数,获得训练样本数据的内在分布,因此通常能够获得更为优秀的检索准确率。为了获得度量学习模型,通常需要首先在训练数据上学习模型参数,然后再将模型部署到新的环境中进行测试。
在当前已公开的论文与专利中已有大量基于度量学习模型的行人图像检索方法。在名称为“Efficient PSD Constrained Asymmetric Metric Learning for Person Re-identification”的文献中公开了一种对训练样本作不对称加权的马氏距离度量学习模型,该方法能够有效地抑制训练样本中正负样本不均衡带来的度量偏差问题。名称为“Top-Push Video-Based Person Reidentification”的文献中公开了一种“顶推”(Top Push)的度量学习模型,使用由检索样本和一对正、负待匹配样本组成的三元组来约束相对距离关系。名称为“Semi-supervised coupled dictionary learning for person re-identification”的文献中通过学习跨视角的半监督耦合词典来表达同一行人在不同摄像机下的外观。名称为“Sample-Specific SVM Learning for Person Reidentification”的文献中为每个行人学习一个支持向量机的判别向量,再进一步创建最小二乘半耦合词典来表达从行人图像中提取的特征描述子,获得了更具有判别性的特征表达来计算图像间的距离。名称为“Kernel Cross-View Collaborative Representation based Classificationfor Person Re-Identification”文献中在学习跨视角的协同表达时引入了核函数来刻画行人图像检索中的不同摄像机下行人外观的非线性变化。
现有度量学习模型中仅学习了单一的马氏距离度量矩阵,尽管马氏距离度量能够捕获特征表达向量中不同维度间的关系,但是特征表达向量自身的表达能力却未能得到提升。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种判别词典嵌入的行人图像检索方法。本发明除了能够学习度量嵌入矩阵外,还联合学习了跨视角的判别词典来提升行人图像特征表达的判别性。
根据本发明提供的基于判别词典嵌入的行人图像检索方法,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
优选地,所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
优选地,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为从匹配集中行人图像提取的特征矩阵为d为特征的维度,n为行人图像数;另记为Xp与Xg中特征与(i,j=1,2,…,n)是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
其中,为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,指代Xp使用词典D进行表达时的组合系数向量,指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,为Zp第i列,为Zg的第j列i,j=1,2,…,n,n为自然数;为度量嵌入矩阵;
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。
式(1)中βij为的贡献系数,用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题;βij根据之间的距离自适应确定,首先对每个待匹配行人图像特征表达变换为计算和之间的距离,然后将(i,j=1,2,…,n)划分为如下的三个组:
式(3)中指代在根据和的距离升序排序的图像列表中,的排序顺序(Rank);指代与正确匹配的图像的排序位置;与中的样本分别对应于的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg:
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
D=XZT(ZZT+Λ*)-1 (7)
式(7)中Λ*是由最优拉格朗日对偶变量组成的对角矩阵。若ZZT+Λ*在取逆时出现矩阵奇异无法计算的情况,可以对主对角线元素添加比较小的正实数来进行正则化处理。
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
优选地,所述步骤S4包括如下步骤:
步骤S403:对距离向量d按升序排序,获得匹配集中各图像的排序次序;
步骤S404:计算各排序次序上的匹配准确率。
本发明提供的基于判别词典嵌入的行人图像检索系统,用于实现所述的基于判别词典嵌入的行人图像检索方法,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
本发明提供的基于判别词典嵌入的行人图像检索设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述基于判别词典嵌入的行人图像检索方法的步骤。
本发明提供的计算机可读存储介质,用于存储程序,所述程序被执行时实现所述基于判别词典嵌入的行人图像检索方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提供利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率;
2、本发明在从行人图像中提取特征表达时,不仅提取了颜色与纹理特征,还使用了深度学习模型来提取深度特征,这两种不同类型特征的融合,能够带来更强的行人外观信息表达能力;
3、本发明在学习度量嵌入矩阵时,使用了根据行人图像对间的距离进行自适应加权的方案,能够有效地避免训练数据中正负样本对不平衡带来的偏差。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图。
图2为本发明一实施例的算法模型流程图;
图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图;
图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图;
图5为本发明中基于判别词典嵌入的行人图像检索系统的模块示意图;
图6为本发明中基于判别词典嵌入的行人图像检索设备的结构示意图;以及
图7为本发明中计算机可读存储介质的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
在本实施例中,图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图,如图1所示,本发明提供的基于判别词典嵌入的行人图像检索方法,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的1/2;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用10×10像素的滑动窗口从图像左上角开始,在水平与垂直方向均以5像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提取8×8×8维度的第一HSV直方图、第一RGB直方图以及第一LTP直方图,其中,LTP为尺度不变局部三值模式,Local Ternary Pattern;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图,即只保留每个维度上最大的值,其余值均丢弃;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为8个水平条,在去除上下两个水平条高的一半后再划分为7个水平条;从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取2048维的深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
图2为本发明一实施例的算法模型流程图,如图2所示,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为从匹配集中行人图像提取的特征矩阵为d为特征的维度,n为行人图像数;另记为Xp与Xg中特征与(i,j=1,2,…,n)是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
其中,为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,指代Xp使用词典D进行表达时的组合系数向量,指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,为Zp第i列,为Zg的第j列i,j=1,2,…,n,n为自然数;为度量嵌入矩阵;
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。
式(1)中βij为的贡献系数,用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题;βij根据之间的距离自适应确定,首先对每个待匹配行人图像特征表达变换为计算和之间的距离,然后将(i,j=1,2,…,n)划分为如下的三个组:
式(3)中指代在根据和的距离升序排序的图像列表中,的排序顺序(Rank);指代与正确匹配的图像的排序位置;与中的样本分别对应于的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg:
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
D=XZT(ZZT+Λ*)-1 (7)
式(7)中Λ*是由最优拉格朗日对偶变量组成的对角矩阵。若ZZT+Λ*在取逆时出现矩阵奇异无法计算的情况,可以对主对角线元素添加比较小的正实数来进行正则化处理。
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
所述步骤S4包括如下步骤:
步骤S403:对距离向量d按升序排序,获得匹配集中各图像的排序次序;
步骤S404:计算各排序次序上的匹配准确率。
图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图。图中每列两张图像为同一行人被不同摄像机拍摄时的画面,该数据集中不同摄像机拍摄的行人图像在光照与视角上存在强烈的差异。
图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图。图中采用的性能评价标准为CMC累积匹配率(Cumulative Matching Rate)特征曲线,其横坐标为各排序次序,纵坐标为累积的正确匹配率(百分比),曲线左靠近左上角说明算法的检索性能越优秀。图中CDDM指代本发明提出的基于跨视角判别词典嵌入(Cross-view DiscriminativeDictionary Learning with Metric Embedding,CDDM)的行人图像检索方法。SCSP表示具有空间约束的二次核相似度检索方法(Spatially Constrained Similarity usingPolynomial kernel,SCSP);KX-CRC表示基于核化跨视角协同表达分类(Kernel Cross-View Collaborative Representation based Classification,KX-CRC)的行人图像检索方法;NFST指代使用零空间Folly-Sammon变换(Null Folly-Sammon Transformation)进行图像检索的方法;CRAFT指代摄像机相关性已知的特征扩增(Camera coRrelation AwareFeature augmenTation,CRAFT)方法;GOG指代高斯化高斯(Gaussian of Gaussian,GOG)方法;MLAPG指代基于加速近邻梯度的度量学习(Metric Learning by AcceleratedProximal Gradient,MLAPG)方法;XQDA指代跨视角二次判别分析(Cross-view QuadraticDiscriminant Analysis,XQDA)方法。从对比结果可以看出本发明的方法明显优于现有的行人图像检索方法。主要是因为在本发明提出的方法中融合了判别词典学习与度量学习的优势,不仅利用判别词典将原行人图像的特征表达为更具判别性的词典基向量组合系数向量,还利用了度量嵌入矩阵把变换后的表达投影到新的特征子空间中计算图像间的距离。因此本发明提出的方法能够更好的捕捉行人在不同摄像机视角下的外观变化关系,具有更高的图像检索准确率。
图5为本发明中基于判别词典嵌入的行人图像检索系统的模块示意图,如图5所示,本发明提供的基于判别词典嵌入的行人图像检索系统,用于实现所述的基于判别词典嵌入的行人图像检索方法,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
本发明实施例中还提供的基于判别词典嵌入的行人图像检索设备,包括处理器,存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行基于判别词典嵌入的行人图像检索方法的步骤。
如上,该实施例中利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图6是本发明中基于判别词典嵌入的行人图像检索设备的结构示意图的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例中还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的图像拼接方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率。
图7是本发明的计算机可读存储介质的结构示意图。参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本实施例中,本发明提供利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵,在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后,再使用度量嵌入矩阵投影到新的子空间中进行距离计算,将词典学习与度量学习的优势结果起来,能够进一步提高行人图像检索的准确率;本发明在从行人图像中提取特征表达时,不仅提取了颜色与纹理特征,还使用了深度学习模型来提取深度特征,这两种不同类型特征的融合,能够带来更强的行人外观信息表达能力;本发明在学习度量嵌入矩阵时,使用了根据行人图像对间的距离进行自适应加权的方案,能够有效地避免训练数据中正负样本对不平衡带来的偏差。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (7)
1.一种基于判别词典嵌入的行人图像检索方法,其特征在于,包括如下步骤:
步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
2.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S1包括如下步骤:
步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;
步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;
步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;
步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;
步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;
步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。
3.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S3包括如下步骤:
步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为从匹配集中行人图像提取的特征矩阵为d为特征的维度,n为行人图像数;另记为Xp与Xg中特征与是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:
其中,为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,指代Xp使用词典D进行表达时的组合系数向量,指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,为Zp第i列,为Zg的第j列i,j=1,2,…,n,n为自然数;为度量嵌入矩阵;
[·]+为铰链损失(Hinge Loss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大;
式(1)中βij为的贡献系数,用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题;βij根据之间的距离自适应确定,首先对每个待匹配行人图像特征表达变换为计算和之间的距离,然后将划分为如下的三个组:
式(3)中指代在根据和的距离升序排序的图像列表中,的排序顺序(Rank);指代与正确匹配的图像的排序位置;与中的样本分别对应于的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).
令N+和N-分别为训练数据集中正样本对和负样本对的数量,βij的取值根据下式自适应确定:
步骤S303:对所述跨视频判别词典嵌入学习模型固定其他参数,仅优化参数Zg;在求解后即按下式更新Zg:
步骤S404:对所述跨视频判别词典嵌入的学习模型固定其他参数,仅优化参数D;为简化运算,令X=[Xp,Xg]和Z=[Zp,Zg],把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合,对式(1)应用拉格朗日对偶方法求解D,可获得如下的更新运算式:
步骤S305:对所述判别词典嵌入学习模型固定其他参数,仅优化参数W,此时的优化问题可重新表达为:
由于式(8)中存在铰链损失函数,无法获得闭合形式的解,为了获得参数W的最优解,可以首先计算Γ(W)关于W的梯度,再使用梯度下降法来更新W,式(8)关于W的梯度如下:
步骤S306:对步骤S402至步骤S405作循环迭代,直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数,在循环迭代结束后,输出模型参数D与W。
5.一种基于判别词典嵌入的行人图像检索系统,用于实现权利要求1至4中任一项所述的基于判别词典嵌入的行人图像检索方法,其特征在于,包括:
特征表达向量生成模块,用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;
数据集生成模块,用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;
模型生成模块,用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;
图像匹配模块,用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。
6.一种基于判别词典嵌入的行人图像检索设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1 至 4 中任意一项所述基于判别词典嵌入的行人图像检索方法的步骤。
7.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1 至 4 中任意一项所述基于判别词典嵌入的行人图像检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416251.0A CN110135363B (zh) | 2019-05-13 | 2019-05-13 | 基于判别词典嵌入行人图像检索方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416251.0A CN110135363B (zh) | 2019-05-13 | 2019-05-13 | 基于判别词典嵌入行人图像检索方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135363A CN110135363A (zh) | 2019-08-16 |
CN110135363B true CN110135363B (zh) | 2022-09-27 |
Family
ID=67571604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910416251.0A Active CN110135363B (zh) | 2019-05-13 | 2019-05-13 | 基于判别词典嵌入行人图像检索方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135363B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112068866B (zh) * | 2020-09-29 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 更新业务模型的方法及装置 |
CN114332621B (zh) * | 2021-12-30 | 2023-06-13 | 华智生物技术有限公司 | 一种基于多模型特征融合的病虫害识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330397A (zh) * | 2017-06-28 | 2017-11-07 | 苏州经贸职业技术学院 | 一种基于大间隔相对距离度量学习的行人重识别方法 |
CN107506700A (zh) * | 2017-08-07 | 2017-12-22 | 苏州经贸职业技术学院 | 基于广义相似性度量学习的行人再识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858502B2 (en) * | 2014-03-31 | 2018-01-02 | Los Alamos National Security, Llc | Classification of multispectral or hyperspectral satellite imagery using clustering of sparse approximations on sparse representations in learned dictionaries obtained using efficient convolutional sparse coding |
-
2019
- 2019-05-13 CN CN201910416251.0A patent/CN110135363B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330397A (zh) * | 2017-06-28 | 2017-11-07 | 苏州经贸职业技术学院 | 一种基于大间隔相对距离度量学习的行人重识别方法 |
CN107506700A (zh) * | 2017-08-07 | 2017-12-22 | 苏州经贸职业技术学院 | 基于广义相似性度量学习的行人再识别方法 |
Non-Patent Citations (1)
Title |
---|
基于多视觉词典的显著性加权图像检索方法;孔超等;《数据采集与处理》;20170315(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110135363A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
US10691899B2 (en) | Captioning a region of an image | |
WO2020228446A1 (zh) | 模型训练方法、装置、终端及存储介质 | |
CN111310731B (zh) | 基于人工智能的视频推荐方法、装置、设备及存储介质 | |
CN111325115B (zh) | 带有三重约束损失的对抗跨模态行人重识别方法和系统 | |
US9978002B2 (en) | Object recognizer and detector for two-dimensional images using Bayesian network based classifier | |
WO2020228525A1 (zh) | 地点识别及其模型训练的方法和装置以及电子设备 | |
US6829384B2 (en) | Object finder for photographic images | |
KR100647322B1 (ko) | 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법 | |
US9070041B2 (en) | Image processing apparatus and image processing method with calculation of variance for composited partial features | |
US20100272366A1 (en) | Method and device of detecting object in image and system including the device | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
US20150235074A1 (en) | Face Detector Training Method, Face Detection Method, and Apparatuses | |
CN105005772A (zh) | 一种视频场景检测方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110516707B (zh) | 一种图像标注方法及其装置、存储介质 | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
CN110135363B (zh) | 基于判别词典嵌入行人图像检索方法、系统、设备及介质 | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN112446322A (zh) | 眼球特征检测方法、装置、设备及计算机可读存储介质 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN115862055A (zh) | 基于对比学习和对抗训练的行人重识别方法及装置 | |
KR101334858B1 (ko) | 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |