CN110032984A

CN110032984A - 基于非对称映射半监督字典对的低分辨率行人重学习方法

Info

Publication number: CN110032984A
Application number: CN201910324340.2A
Authority: CN
Inventors: 荆晓远; 马飞; 訾璐; 黄鹤; 姚永芳; 李娟娟
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-07-19
Anticipated expiration: 2039-04-22
Also published as: CN110032984B

Abstract

本发明属于行人重识别技术领域，公开了一种基于非对称映射半监督字典对学习的低分辨率视频行人重学习方法，针对此场景同时学习一对非对称映射，一对高低分辨率视频的字典，以及一个投影矩阵，并利用学习到的映射和字典，将低分辨率视频的特征转化为有鉴别的高分辨率特征，这样既减少了每个视频内的变量，又弥补了高低分辨率视频间的鸿沟，使得不同行人之间的判别更清晰。本发明有效解决了识别中可能存在视频的分辨率不同，特别是根据一个行人的低分辨率视频，需要在高分辨率视频集中重新识别该行人的问题；本发明能够有效应用在分辨率不同的视频对象上，并显著提高行人重识别的准确率。

Description

基于非对称映射半监督字典对的低分辨率行人重学习方法

技术领域

本发明属于行人重识别技术领域，尤其涉及一种基于非对称映射半监督字典对低分辨率视频重学习方法。

背景技术

目前，最接近的现有技术：

在行人重识别领域，一类基于特征表示的方法，关注的是设计一种鲁棒的、有鉴别力的特征表示并用于匹配。例如，通过利用类别信息来克服同一人的不同图像间外观差异较大的问题，进而建立一种有鉴别力的特征表示模型。另一类基于匹配模型学习的方法，重点关注如何学习一个具有鉴别力的匹配模型，大部分这类方法采用度量学习技术来学习匹配模型。Hirzer等人提出了一种鉴别马氏度量学习方法，该方法从来自于不同摄像头的图像构成的样本对中学习距离度量，并且在经过某些松弛之后该方法可以被高效地解决。最近，字典学习技术也已经被引入到行人重识别中，用来学习匹配模型。例如，通过学习两个耦合的字典来消除摄像头间差异带来的影响。

在提升低分辨率图像的视觉质量方面，学者们提出了一系列超分辨率恢复方法。例如，Yang等人假设存在一对耦合的高、低分辨率字典，使得每一对高、低分辨率图像块在对应字典上具有相同的稀疏表示。

行人重识别在计算机视觉和模式识别领域引发了越来越多的关注，因为在视频监控和取证上的重大作用，使其在近几年得到了广泛的研究。行人重识别是指，根据一个摄像头拍摄的某个行人的一张图像(或一段视频)，并从其他摄像头拍摄的图像或视频中重新识别该行人的过程。实际情况中，两个摄像头之间往往存在许多差异和不确定因素，比如光照，视角，距离和硬件质量等等，使得行人重识别成为一项极具挑战性的研究问题。

除此之外，行人重识别还会受到低分辨率视频的影响。由于摄像头质量差、行人距离摄像头较远等因素，摄像头拍摄到的行人视频可能具有较低分辨率。低分辨率视频的行人重识别的场景是：gallery视频集由硬件质量较好的摄像头拍摄，而probe视频由质量较差的摄像头拍摄，这种情况下，gallery视频具有较高的分辨率，而probe视频只有较低的分辨率。现有的行人重识别方法的应用场景大多为静止的图像，这些方法往往通过可视化外观特征(比如色彩，纹理和梯度等)进行匹配，可以分为基于特征学习和基于距离学习的方法两类。

特征学习聚焦于为样本寻找判定性和鲁棒的特征；距离学习目标在于学习判定性的度量，这些度量使得正确匹配的行人之间的距离要比那些错误匹配的距离要小。

由于分辨率降低会造成行人图像中的可视化信息损失，时空特征的计算也基于可视化信息，这意味着现有的行人重识别方法并不能很好地处理高低分辨率视频间的重识别问题。

综上所述，现有技术存在的问题是：

(1)现有的行人重识别方法的应用场景大多为静止的图像，无法对低分辨率行人图像中的可视化信息进行恢复或处理，一些基于视频的行人重识别方法会从行人视频中提取出时空特征，并且利用时空特征进行正常分辨率模式下的匹配，而时空特征的计算也基于可视化信息，同样不能很好地处理超分辨视频重识别问题。

(2)现有的半耦合字典学习方法趋向于处理图像超分辨率恢复任务，但直接将该技术应用到超分辨率行人重识别任务中，由于没有对鉴别项和正则项进行设计，学习到的字典对和映射矩阵可能无法具备良好的鉴别力和高效性。

(3)由于行人视频往往包含有噪声，直接利用半耦合字典学习技术学到的字典对无法很好地刻画高、低分辨率图像之间的本质关系。

解决上述技术问题的难度：

(1)低分辨率图像或低分辨率视频会造成视觉信息损失，以及影响时空特征的表现能力。需要对低分辨率的视频进行恢复，尽可能减少高、低分辨率图像特征的编码系数之间映射误差，不然很难进行超分辨率视频间的有效识别。

(2)已有的超分辨率恢复方法是为提升人类的视觉感知而设计，而不是面向对识别有利的机器感知，不能直接应用在行人重识别问题上，识别效果会得到次优。需要将已有的超分辨率恢复方法加以优化，以适应行人重识别问题。

解决上述技术问题的意义：

本发明通过超分辨率恢复方法，用于弥补低分辨率视频的可视化信息损失，以及改善时空特征的表现性能下降等。本发明对高分辨率视频进行不同程度的下采样和平滑操作，通过模拟对应的低分辨率视频，学习一对高、低分辨率字典以及一个映射函数，利用学到的字典和映射，低分辨率视频的特征可以转化为鉴别的高分辨率特征，使得高、低分辨率图像特征的编码系数之间映射误差最小。

本发明提出的基于半耦合字典学习方法，基于一个松弛的假设，即存在一对高、低分辨率特征字典，与基于强假设的耦合字典学习相比，同一行人在不同摄像头中的稀疏表示不一定相同，而是学习一种每一对高、低分辨率视频在对应字典上的编码系数之间的稳定映射关系，具有更高的灵活性和对超分辨率识别问题的适应性。

在行人重识别领域引入新的超分辨恢复方法时，根据重识别任务的特点，设计了一个鉴别保真项，用来确保学习到的字典和映射具有较好的鉴别能力；一个非对称映射项，用于减少同一行人的特征集之间的差异；以及一个正则化项，用来正则化编码系数，分离的噪声以及映射矩阵，使得模型的泛化能力更强。

发明内容

针对现有技术存在的问题，本发明提供了一种基于非对称映射半监督字典对低分辨率视频重学习方法。

本发明是这样实现的，一种基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法包括：

步骤一、对高分辨率行人视频和低分辨率行人视频分别进行时空特征提取。

步骤二、设计视频重构误差项、半耦合映射项和鉴别保真项，构造整体的目标函数。

步骤三、优化目标函数。步骤二的目的是从高低分辨率视频的特征中学习一对非对称映射、一对高低分辨率字典及一个投影矩阵，能够将低分辨率视频的特征转化为有鉴别的高分辨率特征。

步骤四、根据学习到的非对称映射、字典和投影矩阵，将高、低分辨率行人视频分别进行稀疏表示。

步骤五、经过步骤四得到的不同分辨率视频的稀疏表示，给定低分辨率probe视频集，计算与高分辨率gallery视频集的距离，并将距离最近的高分辨率视频作为匹配，即实现不同分辨率视频间的行人重识别。

进一步，在步骤二中，假定摄像头A得到的训练样本为高分辨率视频，摄像头B得到的为低分辨率样本。A＝[A¹，A²，...，A^N]，B＝[B¹，B²，...，B^N]分别代表高分辨率视频和低分辨率视频的训练样本。N为训练样本的总数。为了得到高低分辨率样本之间的关系，获得高鲁棒性的匹配，对A执行下采样和平滑操作来产生一个与B具有相同分辨率的图像集。O＝[O¹，...，O^k，...，O^C]为C个模拟的低分辨率视频(模拟低分辨率)，其中C代表摄像头A的样本下采样比例的数目。O^k＝[O^k，1，...，O^k，2，...，O^k，N]表示采用第k个下采样率获得的模拟低分辨率样本集合。

字典学习是数据表示的有效方法，因此本发明方法将学习一对字典用于不同分辨率视频的表示。X分别表示字典D_H上A的编码系数矩阵，同理，Z^k为字典D_L上O^k的系数矩阵Y为字典D_H上B的系数矩阵。其中D_H和D_L为高分辨率视频和低分辨率视频对应的字典。

视频重构误差项定义如下：

其中W,W′,V代表高分辨率，模拟低分辨率和低分辨率样本的非对称视频内映射。每个人的特征集中包含的许多变量，比如其他物品的遮挡，会阻碍视频对的正确匹配。非对称视频内映射的作用就是使得这些变量的影响最小，建模公式如下：

其中μⁱ表示第i个行人视频特征集的中心，μ^i,k表示第k个模拟低分辨率视频集中第i个行人视频特征集的中心。是Aⁱ的第j个特征向量，同理是O^k,i的第j个特征向量，是Bⁱ的第j个特征向量。

视频分辨率不同问题在现实监控安防的应用中是普遍存在并仍具有一定挑战性的。半耦合映射能够有效缓解低分辨率的问题，在图像超分辨率和素描照片合成领域有很好的应用。受此启发，本发明方法通过学习一对半耦合映射，减少摄像头A高分辨率与模拟低分辨率视频特征之间编码系数的差异，使得最终摄像头B中真实的低分辨率视频特征能够更加接近摄像头A中同一行人的高分辨率视频。假定摄像头A捕获的高分辨率视频为gallery集，摄像头B捕获的低分辨率视频为probe集。半耦合映射项如下：

其中P代表高分辨率和模拟低分辨率视频编码系数之间的半耦合映射矩阵，能够对低分辨率造成的信息损失进行良好的补充。

不同分辨率行人视频间的重识别问题中，特征数据还需要通过本发明方法获得更强的鉴别力。对重构的视频特征，应使得不同摄像头中属于同一行人的视频距离更近，不同行人之间距离更远。鉴别保真项的定义如下：

其中<i,j>∈S表示第i个元素和第j个元素属于同一行人，<i,j>∈D表示两个元素属于不同行人。β为调整参数。学习到的映射P使得B中低分辨率特征系数重构后与A中高分辨率特征系数更近。

最后的PSDPL的目标函数同时考虑视频重构误差，视频内的映射和半耦合映射矩阵，定义如下：

其中为正则化项，能够将编码系数、视频间映射及映射矩阵正则化。α,η,θ,λ为平衡因子。I为单位矩阵。

进一步，在步骤三中，尽管目标函数公式不是变量(W,W′,V,P,D_H,D_L)的联合凸函数，但是当其余变量固定的时，目标函数对于变量集合中每一个变量都是凸的，因此可以利用交替迭代优化目标函数。为了降低复杂度，公式5的目标函数可以分为4个子问题，即更新视频间映射W、W′和V，更新编码系数X、Z和Y，更新字典对D_H和D_L，更新稀疏表示系数间的投影矩阵P。

视频间的映射W、W′和V更新时，其他变量不变时，对于W,W′,V，公式5的目标函数可分别写为：

对W求导，公式6的解为：

W′,V的解与W类似。

编码系数X、Z和Y更新时，移除系数X之外的其他参数，公式(5)中目标函数可以简化为：

公式10的解可以通过将对Xⁱ求导并设为0求解，Z^k的解与Xⁱ类似。Xⁱ的解：

对于Yⁱ，公式5中目标函数可以简化为：

公式10的解可以通过将对Yⁱ求导并设为0求解，Xⁱ的解：。

更新字典D_H和D_L时，其他变量固定，目标函数简化为：

公式(14)和公式(15)可以通过ADMM算法求解，具体过程与参考文献相似。

更新视频稀疏表示间的投影矩阵P时，其他变量不变，仅考虑P，目标函数可写为：

对P求导并设为0，求解得：

目标函数的优化流程如下：

输入：高分辨率视频和模拟的低分辨率视频的时空特征集A和O，低分辨率视频的时空特征集B。

初始化D_H,D_L,P,W,W′和V；参数α,β,λ,θ和η。

迭代下面步骤直到收敛：

1)：固定其他变量，分别使用公式(6)、(7)和(8)，更新W、W′和V；

2)：固定其他变量，根据公式(11)和(13)，更新X和Y；Z^k的更新与X类似；

3)：固定其他变量，使用公式(14)和(15)更新D_H和D_L；

4)：固定其他变量，使用公式(17)更新投影P；

5)输出：视频内映射W和V、字典对D_H,D_L和投影矩阵P。

进一步，在步骤四中，通过学习得到的字典对D_H和D_L，投影P，视频内映射W和V，可以对测试视频进行鲁棒有效的稀疏表示。F记为低分辨率probe视频集的特征，G为高分辨率gallery视频集的特征。匹配过程如下：

根据学习到的P,W和V，基于低分辨率视频字典D_L，通过求解公式(12)，probe视频的表示系数f可以表示为

同理，基于高分辨率视频字典D_H，通过求解公式10，gallery视频的表示系数g可以表示为

本发明的另一目的在于提供一种基于非对称映射半耦合字典对学习的低分辨率视频行人重学习控制系统。

本发明的另一目的在于提供一种实施所述基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法的道路交通行人视频监控设备。

综上所述，本发明的优点及积极效果为：

本发明提供的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，通过将低分辨率视频的特征转化为有鉴别的高分辨率特征，减少了低分辨率带来的可视化信息损失的的影响，有效提高了该场景下行人重识别的准确率。

本发明首次分析了高低分辨率行人视频下行人重识别的应用场景，能够对具有丰富时空特性的视频信息进行有效利用，而以往处理低分辨率样本的行人重识别方法仅面向静止的图像。

本发明将半耦合字典学习技术应用在存在低分辨率视频的行人重识别中，从行人重识别的角度发掘高、低分辨率视频的可视化特征之间的映射关系。通过学习得到的一对非对称映射，减少了每个视频内的变量，学习到的高低分辨率视频的字典对和投影矩阵，能够缩小高低分辨率视频间的鸿沟，增加稀疏表示的鉴别性。通过将低分辨率视频的特征转化为有鉴别的高分辨率特征再进行匹配，能够最小化低分辨率带来的可视化信息损失，从而提升识别效率。

附图说明

图1是本发明实施例提供的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法流程图。

图2是本发明实施例提供的三个数据集上所有方法排名前r的匹配率图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于分辨率降低会造成行人图像中的可视化信息损失，时空特征的计算也基于可视化信息，现有的行人重识别方法并不能很好地处理高低分辨率视频间的重识别。

为解决上述问题，下面结合具体方案对本发明作详细描述。

如图1所示，本发明实施例提供的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法包括：

步骤三、优化目标函数。

作为本发明优选实施例，步骤二中，假定摄像头A得到的训练样本为高分辨率视频，摄像头B得到的为低分辨率样本。A＝[A¹，A²，...，A^N]，B＝[B¹，B²，...，B^N]分别代表高分辨率视频和低分辨率视频的训练样本。N为训练样本的总数。为了得到高低分辨率样本之间的关系，获得高鲁棒性的匹配，对A执行下采样和平滑操作来产生一个与B具有相同分辨率的图像集。O＝[O¹，...，O^k，...，O^C]为C个模拟的低分辨率视频(模拟低分辨率)，其中C代表摄像头A的样本下采样比例的数目。O^k＝[O^k,1,...,O^k,2,...,O^k,N]表示采用第k个下采样率获得的模拟低分辨率样本集合。

视频重构误差项定义如下：

作为本发明优选实施例，步骤三中，目的是从高低分辨率视频的特征中学习一对非对称映射、一对高低分辨率字典及一个投影矩阵，能够将低分辨率视频的特征转化为有鉴别的高分辨率特征。尽管目标函数公式不是变量(W,W′,V,P,D_H,D_L)的联合凸函数，但是当其余变量固定的时，目标函数对于变量集合中每一个变量都是凸的，因此可以利用交替迭代优化目标函数。为了降低复杂度，公式(5)的目标函数可以分为4个子问题，即更新视频间映射W、W′和V，更新编码系数X、Z和Y，更新字典对D_H和D_L，更新稀疏表示系数间的投影矩阵P。

视频间的映射W、W′和V更新时，其他变量不变时，对于W,W′,V，公式(5)的目标函数可分别写为：

对W求导，公式6的解为：

W′,V的解与W类似。

编码系数X、Z和Y更新时，移除系数X之外的其他参数，公式5中目标函数可以简化为：

对于Yⁱ，公式(5)中目标函数可以简化为：

公式10的解可以通过将对Yⁱ求导并设为0求解，Xⁱ的解：。

更新字典D_H和D_L时，其他变量固定，目标函数简化为：

对P求导并设为0，求解得：

目标函数的优化流程如下：

初始化D_H,D_L,P,W,W′和V；参数α,β,λ,θ和η。

迭代下面步骤直到收敛：

3)：固定其他变量，使用公式(14)和(15)更新D_H和D_L；

4)：固定其他变量，使用公式(17)更新投影P；

5)输出：视频内映射W和V、字典对D_H,D_L和投影矩阵P。

作为本发明优选实施例，步骤四中，通过学习得到的字典对D_H和D_L，投影P，视频内映射W和V，可以对测试视频进行鲁棒有效的稀疏表示。F记为低分辨率probe视频集的特征，G为高分辨率gallery视频集的特征。匹配过程如下：

根据学习到的P,W和V，基于低分辨率视频字典D_L，通过求解公式12，probe视频的表示系数f可以表示为

下面结合具实验效果对本发明作进一步描述。

为了对本发明方法PSDPL的高效性进行验证，在构造的高低分辨率视频数据集LOVPID、SLR-PRID2011和SLR-iLIDS-VID上，模拟的低分辨率的比例取将本发明与6种先进的基于视频和基于字典学习的行人重方法进行比较，包括STFV3D、KISSME、XQDA、TDL、SI2DL和JDML。

三个数据集上所有方法排名前r的匹配率如表1和图2所示。

表1数据集LOVPID、SLR-PRID2011和SLR-iLIDS-VID上排名前r的匹配率

表1中最好的结果加粗表示，图2中rank1匹配率附在每种方法的名称前。

实验结果显示，本发明方法PSDPL能够在所有数据集上表现得比所有对比方法好。例如，在LOVPID数据集上，rank5匹配率能够比排名第二的对比方法高7.5％(＝81.0％-73.5％)。,数据集SLR-PRID 2011和数据集SLR-iLIDS-VID上则分别提高了4.9％(＝85.9％-81.0％)和1.2％(＝71.8％-70.6％)。说明本发明方法能够被高效应用在高低分辨率视频之间的行人重识别场景中，并且能够显著提高识别的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，所述基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法包括：

步骤一、对高分辨率行人视频和低分辨率行人视频分别进行时空特征提取；

步骤二、设计视频重构误差项、半耦合映射项和鉴别保真项，构造整体的目标函数；

步骤三、优化目标函数；从高低分辨率视频的特征中学习一对非对称映射、一对高低分辨率字典及一个投影矩阵，将低分辨率视频的特征转化为有鉴别的高分辨率特征；

步骤四、根据学习到的非对称映射、字典和投影矩阵，将高、低分辨率行人视频分别进行稀疏表示；

步骤五、通过步骤四得到的不同分辨率视频的稀疏表示，给定低分辨率probe视频集，计算与高分辨率gallery视频集的距离，并将距离最近的高分辨率视频作为匹配，实现不同分辨率视频间的行人重识别。

2.如权利要求1所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，步骤二进一步包括：摄像头A得到的训练样本为高分辨率视频，摄像头B得到的为低分辨率样本；A＝[A¹,A²,...,A^N]，B＝[B¹,B²,...,B^N]分别代表高分辨率视频和低分辨率视频的训练样本；N为训练样本的总数；对A执行下采样和平滑操作产生与B具有相同分辨率的图像集；O＝[O¹,...,O^k,...,O^C]为C个模拟的低分辨率视频，C代表摄像头A的样本下采样比例的数目；O^k＝[O^k,1,...,O^k,2,...,O^k,N]表示采用第k个下采样率获得的模拟低分辨率样本集合。

3.如权利要求2所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，学习一对字典用于不同分辨率视频的表示；X分别表示字典D_H上A的编码系数矩阵，Z^k为字典D_L上O^k的系数矩阵Y为字典D_H上B的系数矩阵；D_H和D_L为高分辨率视频和低分辨率视频对应的字典。

4.如权利要求2所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，摄像头A捕获的高分辨率视频为gallery集，摄像头B捕获的低分辨率视频为probe集；半耦合映射项如下：

其中P代表高分辨率和模拟低分辨率视频编码系数之间的半耦合映射矩阵，对低分辨率造成的信息损失进行补充。

5.如权利要求1所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，步骤二中，视频重构误差项如下：

其中W,W′,V代表高分辨率，模拟低分辨率和低分辨率样本的非对称视频内映射；每个人的特征集中包含的许多变量，非对称视频内映射的作用就是使得这些变量的影响最小，建模公式如下：

其中μⁱ表示第i个行人视频特征集的中心，μ^i,k表示第k个模拟低分辨率视频集中第i个行人视频特征集的中心；是Aⁱ的第j个特征向量，同理是O^k,i的第j个特征向量，是Bⁱ的第j个特征向量。

6.如权利要求1所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，对重构的视频特征，鉴别保真项如下：

其中<i,j>∈S表示第i个元素和第j个元素属于同一行人，<i,j>∈D表示两个元素属于不同行人；β为调整参数；学习到的映射P使得B中低分辨率特征系数重构后与A中高分辨率特征系数更近；

最后的PSDPL的目标函数同时结合视频重构误差，视频内的映射和半耦合映射矩阵，如下：

其中为正则化项，将编码系数、视频间映射及映射矩阵正则化；α,η,θ,λ为平衡因子；I为单位矩阵。

7.如权利要求1所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，步骤三中，当其余变量固定的时，目标函数对于变量集合中每一个变量是凸的，利用交替迭代优化目标函数；公式(5)的目标函数分为4个子问题，即更新视频间映射W、W′和V，更新编码系数X、Z和Y，更新字典对D_H和D_L，更新稀疏表示系数间的投影矩阵P4个子问题。

8.如权利要求1所述的基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法，其特征在于，步骤四中，通过学习得到的字典对D_H和；D_L，投影P，视频内映射W和V，对测试视频进行鲁棒有效的稀疏表示；F记为低分辨率probe视频集的特征，G为高分辨率gallery视频集的特征；匹配过程包括：

根据学习到的P,W和V，基于低分辨率视频字典D_L，通过求解公式probe视频的表示系数f可以表示为

基于高分辨率视频字典D_H，通过求解公式gallery视频的表示系数g表示为

9.一种实施权利要求1所述基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法的低分辨率视频行人重学习控制系统。

10.一种实施权利要求1所述基于非对称映射半耦合字典对学习的低分辨率视频行人重学习方法的道路交通行人视频监控设备。