CN110135363B

CN110135363B - 基于判别词典嵌入行人图像检索方法、系统、设备及介质

Info

Publication number: CN110135363B
Application number: CN201910416251.0A
Authority: CN
Inventors: 董虎胜; 陆萍; 王利锋; 许枫丹; 徐建峰; 孙浩
Original assignee: Suzhou Institute of Trade and Commerce
Current assignee: Suzhou Institute of Trade and Commerce
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-09-27
Anticipated expiration: 2039-05-13
Also published as: CN110135363A

Abstract

本发明提供了一种基于判别词典嵌入行人图像检索方法、系统、设备及介质，包括首先从行人图像中提取颜色与纹理特征，然后在训练集上联合学习跨视角的判别词典与度量嵌入矩阵。利用学习到的判别词典，可以把行人图像特征表达为判别性更强的词典基向量的组合系数向量，再使用学习到的度量嵌入矩阵计算测试集中不同摄像机下行人图像间的距离，实现对行人图像检索的任务。在本发明中将判别词典学习与度量学习的优势进行了组合，通过在数据集上的验证可知，本发明能够显著地提升行人图像检索的准确率。

Description

基于判别词典嵌入行人图像检索方法、系统、设备及介质

技术领域

本发明涉及图像识别，具体地，涉及一种基于判别词典嵌入行人图像检索方法、系统、设备及介质。

背景技术

在由多个摄像机组成的分布式视频监控系统中，常常需要检索出具有特定外观的行人对象，进而对此人的行为及事件进行分析。当获得了该行人在某一摄像机下的画面后，从其他摄像机画面中检索出该行人的工作就转化为一个“以图搜图”的任务，其核心是计算检索图像与待匹配图像间的距离或相似度，使得具有相同身份标签的行人在距离上更小或是相似度更高。这样就可以在对所有待匹配图像按相似度排序后，缩小检索范围，提高检索效率。

由于同一行人被不同摄像机拍摄时可能会在姿态、视角上呈现很大的差异，而且受到摄像机内部参数、成像时光照环境、行人遮挡等因素的影响，不同摄像机画面中的行人会在外观上存在相当大的差异，这使得根据行人提供的表观信息进行行人图像检索的工作面临着巨大的挑战。

当前在处理行人图像检索的问题上主要从特征描述子设计与度量学习模型两个方面开展。前一类方法主要关注从行人图像中提取对光照、视角、姿态等引起引人外观变化的因素具有鲁棒性的特征描述子，然后再借助欧氏距离、余弦相似度、巴氏距离等不需要学习的计算方法来获得检索图像与待匹配图像之间的距离/相似度。不过这些方法在匹配性能上存在一定的不足。与之相比，度量学习模型尽管不特别强调特征描述子的鲁棒性，但是能够利用训练样本与标签蕴含的判别信息来学习匹配模型的参数，获得训练样本数据的内在分布，因此通常能够获得更为优秀的检索准确率。为了获得度量学习模型，通常需要首先在训练数据上学习模型参数，然后再将模型部署到新的环境中进行测试。

在当前已公开的论文与专利中已有大量基于度量学习模型的行人图像检索方法。在名称为“Efficient PSD Constrained Asymmetric Metric Learning for Person Re-identification”的文献中公开了一种对训练样本作不对称加权的马氏距离度量学习模型，该方法能够有效地抑制训练样本中正负样本不均衡带来的度量偏差问题。名称为“Top-Push Video-Based Person Reidentification”的文献中公开了一种“顶推”(Top Push)的度量学习模型，使用由检索样本和一对正、负待匹配样本组成的三元组来约束相对距离关系。名称为“Semi-supervised coupled dictionary learning for person re-identification”的文献中通过学习跨视角的半监督耦合词典来表达同一行人在不同摄像机下的外观。名称为“Sample-Specific SVM Learning for Person Reidentification”的文献中为每个行人学习一个支持向量机的判别向量，再进一步创建最小二乘半耦合词典来表达从行人图像中提取的特征描述子，获得了更具有判别性的特征表达来计算图像间的距离。名称为“Kernel Cross-View Collaborative Representation based Classificationfor Person Re-Identification”文献中在学习跨视角的协同表达时引入了核函数来刻画行人图像检索中的不同摄像机下行人外观的非线性变化。

现有度量学习模型中仅学习了单一的马氏距离度量矩阵，尽管马氏距离度量能够捕获特征表达向量中不同维度间的关系，但是特征表达向量自身的表达能力却未能得到提升。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种判别词典嵌入的行人图像检索方法。本发明除了能够学习度量嵌入矩阵外，还联合学习了跨视角的判别词典来提升行人图像特征表达的判别性。

根据本发明提供的基于判别词典嵌入的行人图像检索方法，包括如下步骤：

步骤S1：将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸，从多个所述行人图像中提取颜色特征与纹理特征，根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量；

步骤S2：将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集；

步骤S3：根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵；

步骤S4：通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量，再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离，将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序，计算各排序位上的匹配准确率。

优选地，所述步骤S1包括如下步骤：

步骤S101：将所述行人图像进行两次缩放生成缩放后行人图像，其中每次缩放时图像宽度与高度均为前一次的设定倍数；

步骤S102：对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始，在水平与垂直方向均以设定像素作为移动步长进行滑动，每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图；

步骤S103：对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图；

步骤S104：使用蒙板从所述行人图像的前景中获得行人前景，先将所述行人前景划分为多个水平条，从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图；

步骤S105：使用训练后的深度残差网络模型从行人图像中提取深度卷积特征；

步骤S106：将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。

优选地，所述步骤S3包括如下步骤：

步骤S301：令所述训练数据集中由检索集中行人图像提取的特征矩阵为

从匹配集中行人图像提取的特征矩阵为

d为特征的维度，n为行人图像数；另记

为X_p与X_g中特征

与

(i，j＝1，2，…，n)是否具有相同身份的标签矩阵，若相同y_ij＝1，否则y_ij＝-1；建立如下所示的跨视频判别词典嵌入的学习模型：

其中，

为待求解的跨视角判别词典，dⁱ为词典的第i列，m为组合系数的个数，m＜n，

指代X_p使用词典D进行表达时的组合系数向量，

指代X_g使用词典D进行表达时的组合系数向量，即原始特征矩阵作变换后的特征表达，

为Z_p第i列，

为Z_g的第j列i，j＝1，2，…，n，n为自然数；

为度量嵌入矩阵；

为距离约束损失函数，计算式为：

[·]₊为铰链损失(Hinge Loss)函数，即[x]₊＝max(0，x)，μ为一个正的常数，用作为判断阈值；式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚，使得相同标签的行人图像间距离缩小，同时使得标签不同的行人图像间距离增大。

式(1)中β_ij为

的贡献系数，用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题；β_ij根据

之间的距离自适应确定，首先对每个待匹配行人图像特征表达

变换为

计算

和

之间的距离，然后将

(i，j＝1，2，…，n)划分为如下的三个组：

式(3)中

指代在根据和

的距离升序排序的图像列表中，

的排序顺序(Rank)；

指代与

正确匹配的图像

的排序位置；

与

中的样本分别对应于

的困难匹配集(hard set)、中等匹配集(medium set)与容易匹配集(easy set).

令N⁺和N^-分别为训练数据集中正样本对和负样本对的数量，β_ij的取值根据下式自适应确定：

步骤S302：所述跨视频判别词典嵌入学习模型固定其他参数，仅优化关于Z_p的问题，此时能够获得Z_p各列闭合形式的解，即按下式计算

式(5)中

为示性函数，当

时取值为δ_ij＝y_ij，否则δ_ij＝0；I为单位矩阵；

步骤S303：对所述跨视频判别词典嵌入学习模型固定其他参数，仅优化参数Z_g；在求解后即按下式更新Z_g：

步骤S404：对所述跨视频判别词典嵌入的学习模型固定其他参数，仅优化参数D；为简化运算，令X＝[X_p，X_g]和Z＝[Z_p，Z_g]，把检索集与匹配集中行人图像的特征矩阵与词典基向量组合系数矩阵进行拼合，对式(1)应用拉格朗日对偶方法求解D，可获得如下的更新运算式：

D＝XZ^T(ZZ^T+Λ^*)^-1 (7)

式(7)中Λ^*是由最优拉格朗日对偶变量组成的对角矩阵。若ZZ^T+Λ^*在取逆时出现矩阵奇异无法计算的情况，可以对主对角线元素添加比较小的正实数来进行正则化处理。

步骤S305：对所述判别词典嵌入学习模型固定其他参数，仅优化参数W，此时的优化问题可重新表达为：

由于式(8)中存在铰链损失函数，无法获得闭合形式的解，为了获得参数W的最优解，可以首先计算Γ(W)关于W的梯度，再使用梯度下降法来更新W，式(8)关于W的梯度如下：

式(9)中

两者都是对角矩阵，R的主对角线上各元素是由β_ijδ_ij组成的矩阵各行的和，H由对应的列和组成，在采用梯度下降方法更新W时，第t步迭代中的计算式为

η为更新步长；

步骤S306：对步骤S402至步骤S405作循环迭代，直至跨视频判别词典嵌入的学习模型收敛或达到最大迭代次数，在循环迭代结束后，输出模型参数D与W。

优选地，所述步骤S4包括如下步骤：

步骤S401：对检索集中的图像

与待匹配集中的图像

通过求解下式来获得使用判别词典D表达的组合系数向量

或

式(9)中

时

若

时

步骤S402：对每个检索集中的组合系数向量

按下式计算

与

之间的距离向量d：

步骤S403：对距离向量d按升序排序，获得匹配集中各图像的排序次序；

步骤S404：计算各排序次序上的匹配准确率。

本发明提供的基于判别词典嵌入的行人图像检索系统，用于实现所述的基于判别词典嵌入的行人图像检索方法，包括：

特征表达向量生成模块，用于将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸，从多个所述行人图像中提取颜色特征与纹理特征，根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量；

数据集生成模块，用于将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集；

模型生成模块，用于根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵；

图像匹配模块，用于通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量，再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离，将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序，计算各排序位上的匹配准确率。

本发明提供的基于判别词典嵌入的行人图像检索设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述基于判别词典嵌入的行人图像检索方法的步骤。

本发明提供的计算机可读存储介质，用于存储程序，所述程序被执行时实现所述基于判别词典嵌入的行人图像检索方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵，在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后，再使用度量嵌入矩阵投影到新的子空间中进行距离计算，将词典学习与度量学习的优势结果起来，能够进一步提高行人图像检索的准确率；

2、本发明在从行人图像中提取特征表达时，不仅提取了颜色与纹理特征，还使用了深度学习模型来提取深度特征，这两种不同类型特征的融合，能够带来更强的行人外观信息表达能力；

3、本发明在学习度量嵌入矩阵时，使用了根据行人图像对间的距离进行自适应加权的方案，能够有效地避免训练数据中正负样本对不平衡带来的偏差。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图。

图2为本发明一实施例的算法模型流程图；

图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图；

图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图；

图5为本发明中基于判别词典嵌入的行人图像检索系统的模块示意图；

图6为本发明中基于判别词典嵌入的行人图像检索设备的结构示意图；以及

图7为本发明中计算机可读存储介质的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

在本实施例中，图1为本发明在基于判别词典嵌入的行人图像检索方法的步骤流程图，如图1所示，本发明提供的基于判别词典嵌入的行人图像检索方法，包括如下步骤：

所述步骤S1包括如下步骤：

步骤S101：将所述行人图像进行两次缩放生成缩放后行人图像，其中每次缩放时图像宽度与高度均为前一次的1/2；

步骤S102：对所述行人图像和所述缩放后行人图像分别使用10×10像素的滑动窗口从图像左上角开始，在水平与垂直方向均以5像素作为移动步长进行滑动，每次移动后从滑动窗口覆盖的区域中分别提取8×8×8维度的第一HSV直方图、第一RGB直方图以及第一LTP直方图，其中，LTP为尺度不变局部三值模式，Local Ternary Pattern；

步骤S103：对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图，即只保留每个维度上最大的值，其余值均丢弃；

步骤S104：使用蒙板从所述行人图像的前景中获得行人前景，先将所述行人前景划分为8个水平条，在去除上下两个水平条高的一半后再划分为7个水平条；从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图；

步骤S105：使用训练后的深度残差网络模型从行人图像中提取2048维的深度卷积特征；

图2为本发明一实施例的算法模型流程图，如图2所示，所述步骤S3包括如下步骤：

从匹配集中行人图像提取的特征矩阵为

d为特征的维度，n为行人图像数；另记

为X_p与X_g中特征

与

其中，

指代X_p使用词典D进行表达时的组合系数向量，

指代Xg使用词典D进行表达时的组合系数向量，即原始特征矩阵作变换后的特征表达，

为Z_p第i列，

为Z_g的第j列i，j＝1，2，…，n，n为自然数；

为度量嵌入矩阵；

为距离约束损失函数，计算式为：

式(1)中β_ij为

变换为

计算

和

之间的距离，然后将

(i，j＝1，2，…，n)划分为如下的三个组：

式(3)中

指代在根据和

的距离升序排序的图像列表中，

的排序顺序(Rank)；

指代与

正确匹配的图像

的排序位置；

与

中的样本分别对应于

式(5)中

为示性函数，当

对取值为δ_ij＝y_ij，否则δ_ij＝0；I为单位矩阵；

D＝XZ^T(ZZ^T+Λ^*)^-1 (7)

式(9)中

η为更新步长；

所述步骤S4包括如下步骤：

步骤S401：对检索集中的图像

与待匹配集中的图像

通过求解下式来获得使用判别词典D表达的组合系数向量

或

式(9)中

时

若

时

步骤S402：对每个检索集中的组合系数向量

按下式计算

与

之间的距离向量d：

步骤S404：计算各排序次序上的匹配准确率。

图3为本发明一实施例行人图像检索常用的VIPeR数据集中随机抽选的不同摄像机视角下的行人图像示例图。图中每列两张图像为同一行人被不同摄像机拍摄时的画面，该数据集中不同摄像机拍摄的行人图像在光照与视角上存在强烈的差异。

图4为本发明与其他方法在VIPeR数据集上检索结果性能比较示意图。图中采用的性能评价标准为CMC累积匹配率(Cumulative Matching Rate)特征曲线，其横坐标为各排序次序，纵坐标为累积的正确匹配率(百分比)，曲线左靠近左上角说明算法的检索性能越优秀。图中CDDM指代本发明提出的基于跨视角判别词典嵌入(Cross-view DiscriminativeDictionary Learning with Metric Embedding，CDDM)的行人图像检索方法。SCSP表示具有空间约束的二次核相似度检索方法(Spatially Constrained Similarity usingPolynomial kernel，SCSP)；KX-CRC表示基于核化跨视角协同表达分类(Kernel Cross-View Collaborative Representation based Classification，KX-CRC)的行人图像检索方法；NFST指代使用零空间Folly-Sammon变换(Null Folly-Sammon Transformation)进行图像检索的方法；CRAFT指代摄像机相关性已知的特征扩增(Camera coRrelation AwareFeature augmenTation，CRAFT)方法；GOG指代高斯化高斯(Gaussian of Gaussian，GOG)方法；MLAPG指代基于加速近邻梯度的度量学习(Metric Learning by AcceleratedProximal Gradient，MLAPG)方法；XQDA指代跨视角二次判别分析(Cross-view QuadraticDiscriminant Analysis，XQDA)方法。从对比结果可以看出本发明的方法明显优于现有的行人图像检索方法。主要是因为在本发明提出的方法中融合了判别词典学习与度量学习的优势，不仅利用判别词典将原行人图像的特征表达为更具判别性的词典基向量组合系数向量，还利用了度量嵌入矩阵把变换后的表达投影到新的特征子空间中计算图像间的距离。因此本发明提出的方法能够更好的捕捉行人在不同摄像机视角下的外观变化关系，具有更高的图像检索准确率。

图5为本发明中基于判别词典嵌入的行人图像检索系统的模块示意图，如图5所示，本发明提供的基于判别词典嵌入的行人图像检索系统，用于实现所述的基于判别词典嵌入的行人图像检索方法，包括：

本发明实施例中还提供的基于判别词典嵌入的行人图像检索设备，包括处理器，存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行基于判别词典嵌入的行人图像检索方法的步骤。

如上，该实施例中利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵，在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后，再使用度量嵌入矩阵投影到新的子空间中进行距离计算，将词典学习与度量学习的优势结果起来，能够进一步提高行人图像检索的准确率。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图6是本发明中基于判别词典嵌入的行人图像检索设备的结构示意图的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图6中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例中还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的图像拼接方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵，在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后，再使用度量嵌入矩阵投影到新的子空间中进行距离计算，将词典学习与度量学习的优势结果起来，能够进一步提高行人图像检索的准确率。

图7是本发明的计算机可读存储介质的结构示意图。参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本实施例中，本发明提供利用训练数据及其标签所蕴含的判别信息联合学习了跨视角的判别词典与度量嵌入矩阵，在把行人图像的特征转换为更具判别性的词典基向量的组合系数向量后，再使用度量嵌入矩阵投影到新的子空间中进行距离计算，将词典学习与度量学习的优势结果起来，能够进一步提高行人图像检索的准确率；本发明在从行人图像中提取特征表达时，不仅提取了颜色与纹理特征，还使用了深度学习模型来提取深度特征，这两种不同类型特征的融合，能够带来更强的行人外观信息表达能力；本发明在学习度量嵌入矩阵时，使用了根据行人图像对间的距离进行自适应加权的方案，能够有效地避免训练数据中正负样本对不平衡带来的偏差。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。