CN109977882B - 一种半耦合字典对学习的行人重识别方法及系统 - Google Patents
一种半耦合字典对学习的行人重识别方法及系统 Download PDFInfo
- Publication number
- CN109977882B CN109977882B CN201910246990.XA CN201910246990A CN109977882B CN 109977882 B CN109977882 B CN 109977882B CN 201910246990 A CN201910246990 A CN 201910246990A CN 109977882 B CN109977882 B CN 109977882B
- Authority
- CN
- China
- Prior art keywords
- video
- pedestrian
- gray level
- dictionary
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于行人重识别技术领域,公开了一种半耦合字典对学习的行人重识别方法及系统,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;输入训练集以及参数,训练模型;然后经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;给定测试集中任一灰阶视频,计算它与各真彩视频的距离,并按距离值大小升序排列,最后选取距离值最小的真彩视频作为该灰阶视频的真实匹配。本发明方法不仅能够适应新的真彩和灰阶视频之间的行人重识别场景,还能有效提高识别效率。
Description
技术领域
本发明属于行人重识别技术领域,尤其涉及一种半耦合字典对学习的行人重识别方法及系统,具体涉及一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
背景技术
目前,业内常用的现有技术是这样的:
现有的基于视频的行人重识别任务,主要关注视频的特征学习或距离度量学习。特征学习方面,文献提出了流动能量轮廓(FEP)将行人的步态周期进行划分,并从视频序列帧中自动选择最具判定性的视频段。以及基于FEP,STFV3D方法通过Fisher向量对步态周期的3D时空特征进行提取,学习到的特征同时包含视觉外观信息和视频序列的时间信息。度量学习方面,SI2DL方法根据STFV3D提取的特征,同时学习一个视频内的映射矩阵和一个视频间的距离度量。以及一些基于深度神经网络的方法,比如McLaughlin等人则提出一个循环和卷积神经网络结构,用于学习视觉外观和视频光流信息的深度特征向量。Zhou等人提出一种端到端的深度神经网络结构,并且利用视频的时间和空间注意力信息,对特征和度量同时进行学习。
行人重识别作为广泛研究的热点,在视频监控和智慧城市中具有重要的应用。大多数现有的行人重识别方法只考虑不同真彩摄像机内的行人匹配问题,但由于硬件故障、设备老化或者是灰度模式的特殊情况,例如真彩存储线路故障或是存储空间的节约等等,导致摄像机会产生一些灰阶视频。灰阶视频只包括单通道,因此会损失大量色彩信息,会对识别效率产生影响。这种场景下的行人重识别被叫做真彩(三通道)与灰阶(单通道)视频之间的行人重识别(CGVPR),并且是一个跨模态的问题。
行人重识别的主要任务是匹配不同摄像机中的行人。行人重识别的方法可以分为两类:基于特征学习的方法和基于距离学习的方法。基于特征学习的方法是从行人样本中学习出具有鲁棒性和判定性的表示。基于距离的度量学习方法通过学习关于行人重识别的有效度量,以消除行人在不同摄像头中存在的差异。
CGVPR作为真实场景中的重要应用,却没有得到充分的研究,特别是灰阶视频作为测试集,匹配查询集中真彩视频的情况。常规场景中的行人重识别方法,不能直接被用来有效地解决真彩和灰阶视频的跨模识别问题。主要原因在于,这些方法没有考虑到灰阶模式在视觉表现特征和时空特征上的影响。
综上所述,现有技术存在的问题是:
现有的方法仅考虑了probe和gallery视频集都为真彩模式下的行人重识别任务,而没有考虑到灰阶模式对视频的视觉表现特征和时空特征产生的影响,即视频色彩模式的不同,造成特征之间的鸿沟,灰阶模式下的视频会损失部分信息。即使是同一个人的同一张图像,不同模式的特征之间也存在不同程度的差异。如图1所示,首行表示真彩图像,尾行表示同一张图像对应的灰阶模式下的图像,中间行是应用余弦相似度对20张图像两种模式之间的相似程度进行度量的结果。其中横轴表示选取的行人图像编号,纵轴表示图像之间余弦相似度的值.不难看出,两者并不完全相似,不同模式造成的差异甚至可能达到0.3以上。因此,现有的方法对于真彩和灰阶视频的跨模识别问题,对不同模式的视频仍采用相同的处理,因而直接应用会导致识别效率的大打折扣。
仅利用半耦合字典学习技术学习到的字典和映射不具有鉴别力,重构出来的灰阶视频特征不能很好的接近真彩视频中同一个人的视频特征,并远离其他行人的视频特征,识别效率不能到达最优。
解决上述技术问题的难度:
灰阶模式下的视频相对真彩视频会造成有效信息的损失。例如灰阶模式下每个像素值通常以8位256种不同的灰度强度存储,真彩模式则以24位16M种不同的表示存储,进而不同模式的视频之间存在鸿沟。在处理视频特征时,不仅要考虑到视频内由于各种因素(例如,视角变化、光照变化、姿态变化、部分遮挡和低分辨率)导致的差异,还要考虑灰阶模式对视频特征的影响。因此需要一个松弛的假设,使得两种视频在各自克服自身噪声的同时,建立稳定的映射关系。
重构出的灰阶视频和真彩视频应具有这样的性质,同一个人的视频之间应相互靠近,不同行人的视频之间应相互远离,因此需要进一步约束调整,提高鉴别力。
解决上述技术问题的意义:
较于所有视频数据均为真彩视频的常规场景,由于硬件故障或存储空间不足,行人重识别任务极有可能会面对拍摄视频为灰度模式的情况,灰度模式描述的视频信息更有限,以及与真彩视频之间的特征差异,最终使得行人之间的匹配更为复杂,也更具挑战性。因此,真彩与灰阶视频之间的行人重识别(CGVPR)具有极为重要的研究价值。
首先通过对行人视频进行分场景处理,并同时考虑视频间噪声和灰阶视频的特征差异。最终通过缩小由于灰阶模式下视频信息部分丢失造成的视频鸿沟,以及对耦合字典学习下的强假设进行松弛,解决了视频的色彩模式差异造成的影响,使得行人重识别方法能够适应更多场景,特别是存在灰阶视频的情况。
其次,设计的鉴别项能够对属于同一行人的视频和分属不同行人的视频之间的距离关系做出更清晰的界定,使得根据灰阶probe视频进行搜索匹配时,能够更准确的鉴别出对应行人的真彩视频,进一步提高了行人重识别的效率。
发明内容
针对现有技术存在的问题,本发明提供了一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,有效减少了不同真彩视频和灰阶视频之间的差异,提高了行人重识别的效率。
本发明是这样实现的,
一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤:
步骤一,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;
步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型;经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;
步骤三,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;
步骤四、给定测试集中任一灰阶视频,计算与各真彩视频的距离,并按距离值大小升序排列,选取距离值最小的真彩视频作为该灰阶视频的真实匹配。
进一步,步骤二包括:摄像机A的采集到的训练样本是真彩视频,摄像机B采集到的是灰阶视频;将A=[A1,A2,...,Ai,...,AN]和B=[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合,N表示训练集中样本的数量;表示第i个真彩视频的特征集,表示对应的第i个人的第j个步态周期的特征;
表示第i个灰阶视频的特征集,表示第i个人的第j个步态周期的特征;d为视频特征的维度;
利用字典学习对视频样本进行稀疏表示,X是A在DC上的编码系数矩阵,Y是B在DG上的编码系数矩阵;DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典;视频重构损失项定义如下:
其中W和V分别为真彩和灰阶样本的非对称视频间映射;
非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异,具体为:
其中μi表示相应的第i个行人视频的特征中心;是Ai的第j个特征向量;是Bi的第j个特征向量。
进一步,步骤二进一步包括:摄像机A捕捉的真彩视频作为查询集,摄像机B捕捉的灰阶视频作为测试集;利用学习到的映射矩阵,摄像机B的灰阶视频特征接近于同一个人在摄像机A中的真彩视频特征;半耦合映射项为:
其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵;
判定保真项定义如下:
其中<i,j>∈S意味着第i个和第j个元素属于同一个行人;表示属于不同的行人;S和分别表示相同样本对和不同的样本对的集合;|·|表示集合中元素的数;β是调整变量;通过学习到的映射P,摄像机B的灰阶特征系数接近摄像机A的真彩特征系数;
最后目标函数分析视频重构损失、半耦合映射以及判定保真性,具体为:
其中α和λ是平衡因子;ρ1和ρ2用来控制视频内映射和半耦合映射先验设置为是正则项,使得编码系数、视频间映射和映射矩阵正则化。
进一步,步骤二进一步包括:目标函数的优化分为四个子问题:更新视频间映射矩阵W和V、更新编码系数X和Y、更新字典对DC和DD以及更新稀疏表示系数的映射函数P;
更新视频间映射矩阵W和V时,当其他变量固定后,对于W和V,目标函数写为:
通过对W求导,得到的解为:
其中I是单位矩阵;V的解与W相似;对V求导,得到的解为:
更新编码系数X和Y时,通过移除X以外的其他变量,目标函数简化为:
通过将Xi的导数设置为0,得到的解为:
对于Y,目标函数简化为:
通过将Yi的导数设置为0,得到Yi的解为:
更新字典DC和DG时,其他变量固定,目标函数简化为:
通过交替方向乘子算法ADMM得到、 的解;
更新映射矩阵P时,其他变量固定,目标函数简化为:
通过将P的导数设置为0,得到解为:
进一步,步骤三包括:通过学习到的字典对DC和DG、映射P、视频间子空间映射W和V,进行测试视频的离散表示;若F表示某一灰阶测试视频的特征,C表示真彩训练视频的特征集合,根据学习到的P,W,V,基于灰阶字典DG对测试视频的表示系数f进行编码:
基于真彩字典DC对查询视频的表示系数g进行编码:
本发明的另一目的在于提供一种实施所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的基于非对称的视频间映射的半耦合字典对学习的行人重识别系统。
本发明的另一目的在于提供一种基于非对称的视频间映射的半耦合字典对学习的行人重识别程序,所述基于非对称的视频间映射的半耦合字典对学习的行人重识别程序实现所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
本发明的另一目的在于提供一种终端,所述终端搭载实现基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的控制器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
本发明的另一目的在于提供一种实施所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的交通视频信息监控设备。
综上所述,本发明的优点及积极效果为:
本发明前期对灰阶视频在行人重识别任务中的普遍性和存在的挑战进行了详细研究和调查,提出了一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,该方法填补了现有研究中对于存在灰阶视频的行人重识别场景下的空白。不仅具有良好的适应性,而且具有高精度、自动化的应用价值。
本发明能够同时对真彩视频和灰阶视频进行处理,能在避免拍摄视频由于光照、视角、遮挡等众多因素造成的自身噪声的同时,通过学习出一对松弛的字典和一个映射矩阵,与已有的方法相比,更加准确地解决了不同色彩模式的视频之间的跨模识别问题。
本发明通过设计一个鉴别项,对视频之间的关系距离进行了优化,使得学到的字典和映射更具鉴别力,最终潜在地促使灰阶视频与相应的真彩视频之间的正确匹配,进一步增强识别效率。
本发明方法所提的一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,与以往解决常规行人重识别问题的方法相比,在新的真彩和灰阶视频共存的应用场景下,能够达到更高的匹配率。例如,SDPL与当前最好的对比方法JDML相比,使用时空特征STFV3D时,排名1的匹配率提高了3.2%(=23.3%-20.1%);使用深度特征PCB时,排名1的匹配率提高了2.0%(=49.9%-47.9%)。
附图说明
图1不同色彩模式下同一行人图像之间的余弦相似性结果示意图。
图2是本发明实施例提供的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法流程图。
图3是本发明实施例提供的CGVID数据集上各方法基于STFV3D特征的CMC曲线图。
图4是本发明实施例提供的CGVID数据集上各方法基于深度特征PCB的CMC曲线图。
图5是本发明实施例提供的使用两类特征提取方法,分别提取视频特征并进行行人重识别试验的部分真实结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
常规场景中的行人重识别方法,不能直接被用来有效地解决真彩和灰阶视频的跨模识别问题。没有考虑到灰阶模式在视觉表现特征和时空特征上的影响。
为解决上述问题,下面结合具体方案对本发明作详细描述。
如图2所示,本发明的实施例提供的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,包括以下步骤:
步骤1、分别提取CGVID数据集中真彩视频和灰阶视频的时空特征。
步骤2、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型。然后经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P。
步骤3、根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示。
步骤4、给定测试集中任一灰阶视频,计算它与各真彩视频的距离,并按距离值大小升序排列,最后选取距离值最小的真彩视频作为该灰阶视频的真实匹配。
作为本发明优选实施例,步骤2中,输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型。然后经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P。假设摄像机A的采集到的训练样本是真彩视频,摄像机B采集到的是灰阶视频。那么,可以将A=[A1,A2,...,Ai,...,AN]和B=[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合,N表示训练集中样本的数量。表示第i个真彩视频的特征集, 表示对应的第i个人的第j个步态周期的特征。同理,表示第i个灰阶视频的特征集,表示第i个人的第j个步态周期的特征。d为视频特征的维度。
字典学习能够有效表示大规模样本,因此利用字典学习对视频样本进行稀疏表示,假定X是A在DC上的编码系数矩阵,Y是B在DG上的编码系数矩阵。DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典。视频重构损失项定义如下:
其中W和V分别为真彩和灰阶样本的非对称视频间映射。样本视频中同一个行人的特征集往往会受各种因素影响,比如,其他目标的遮挡,导致样本之间可能存在较大的差异。非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异,其定义如下:
其中μi表示相应的第i个行人视频的特征中心。是Ai的第j个特征向量。同理,是Bi的第j个特征向量。
半耦合映射技术能够有效的缓解异质问题,并在照片-草图合成以及识别领域已有良好的应用。本发明提出的方法能够学习半耦合映射来消除真彩和灰阶视频特征的编码系数之间的鸿沟。将摄像机A捕捉的真彩视频作为查询集,摄像机B捕捉的灰阶视频作为测试集。利用学习到的映射矩阵,摄像机B的灰阶视频特征会更接近于同一个人在摄像机A中的真彩视频特征。半耦合映射项的定义如下:
其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵。通过学习到的映射P,能够在一定程度上弥补视频色彩特征降维造成的信息损失。为了提升重构视频特征的表示效率,使得不同摄像机中的同一行人的特征相距较近,不同行人之间相距较远。设计判定保真项定义如下:
其中〈i,j>∈S意味着第i个和第j个元素属于同一个行人。相对的,表示属于不同的行人。S和分别表示相同样本对和不同的样本对的集合。|·|表示集合中元素的数目。β是调整变量。通过学习到的映射P,摄像机B的灰阶特征系数能够更加接近摄像机A的真彩特征系数。
最后目标函数同时考虑到视频重构损失、半耦合映射以及判定保真性,定义如下:
其中α和λ是平衡因子。ρ1和ρ2用来控制视频内映射和半耦合映射先验设置为是正则项,能够使得编码系数、视频间映射和映射矩阵正则化。
在优化过程中,由于目标函数在固定其他变量的情况下对某个变量是凸函数,因而目标函数的优化可分为四个子问题:更新视频间映射矩阵W和V、更新编码系数X和Y、更新字典对DC和DD以及更新稀疏表示系数的映射函数P。
更新视频间映射矩阵W和V时,当其他变量固定后,对于W和V,目标函数(5)可写为:
通过对W求导,得到公式(6)的解:
其中I是单位矩阵。V的解与W相似。同理,对V求导,得到公式(7)的解:
更新编码系数X和Y时,通过移除X以外的其他变量,目标函数(5)可以简化为:
通过将Xi的导数设置为0,可以得到(10)的解:
同理,对于Y,目标函数(5)可以简化为:
通过将Yi的导数设置为0,可以得到Yi的解为:
更新字典DC和DG时,其他变量固定,目标函数(5)可以简化为:
通过交替方向乘子算法ADMM可以得到(14)和(15)的解。
更新映射矩阵P时,其他变量固定,目标函数(5)可以简化为:
通过将P的导数设置为0,得到解:
作为本发明优选实施例,步骤3中,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示。通过学习到的字典对DC和DG、映射P、视频间子空间映射W和V,可以为测试视频提供鲁棒和有效的离散表示。若F表示某一灰阶测试视频的特征,C表示真彩训练视频的特征集合,根据学习到的P,W,V,基于灰阶字典DG对测试视频的表示系数f进行编码:
同理,基于真彩字典DC对查询视频的表示系数g进行编码:
作为本发明优选实施例,步骤4中,给定测试集中任一灰阶视频,计算它与各真彩视频的距离,并按距离值大小升序排列,最后选取距离值最小的真彩视频作为该灰阶视频的真实匹配。
本发明实施例中,本发明提供一种基于非对称的视频间映射的半耦合字典对学习的行人重识别系统。
下面结合具体实验对本发明作进一步描述。
为了验证该发明所提方法的有效性,设计实验基于灰阶测试视频和真彩查询视频的应用场景。实验的数据集为真彩和灰阶视频数据集CGVID,包含两个不同类型的不重合摄像机捕捉的200个行人的52723帧图像。特征提取采用两类经典的特征,基于视频的特征STFV3D和深度学习特征PCB。模型的相关参数α=0.04、β=0.06、λ=0.2,ρ1、ρ2的经验性赋值为其中N为训练样本的总数。对比方法包括一些先进的基于视频和基于字典学习的行人重识别方法:STFV3D、KISSME、XQDA、TDL、SI2DL和JDML,以及一些典型的基于深度学习的方法:RNNCNN、ASTPN和PCB。
本发明实施例中提供一种基于非对称的视频间映射的半耦合字典对学习的行人重识别控制系统。
下面结合实验结果的评价指标为累积匹配曲线CMC和排名前R的匹配率对本发明作进一步描述。
CGVID数据集上各方法基于STFV3D特征的CMC曲线如图3。CGVID数据集上各方法基于深度特征PCB的CMC曲线图如图4.
CGVID数据集上各方法排名前R的匹配率如下(最佳结果用黑体表示):
多个提取的特征集上的实验结果表明,本发明方法所提的一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,与以往解决常规行人重识别问题的方法相比,在新的真彩和灰阶视频共存的应用场景下,能够达到更高的匹配率。例如,SDPL与当前最好的对比方法JDML相比,使用时空特征STFV3D时,排名1的匹配率提高了3.2%(=23.3%-20.1%);使用深度特征PCB时,排名1的匹配率提高了2.0%(=49.9%-47.9%)。
下面结合使用两类特征提取方法分析对本发明作进一步描述。
图5为使用两类特征提取方法,如时空特征STFV3D和深度特征PCB,分别提取视频特征并进行行人重识别试验的部分真实结果。其中,图5.(a)~(c)的提取方法为PCB,图5.(d)~(f)的提取方法为STFV3D。首行表示作为probe的灰阶视频序列,其余5行表示在gallery集中,匹配出的排名前5的真彩视频序列。红色的“x”标记表示该行的视频序列为错误的匹配,绿色的“√”标记表示正确的匹配。
该结果同时也说明了,灰阶视频由于只包含单通道的像素值,对基于视频的行人重识别任务只能提供非常有限的信息,因而使得存在灰阶视频场景下的识别更具挑战性。比如图5(a)中,高纯度的蓝色和红色在真彩模式下的差异非常显著,但是由于灰阶模式只能取白到黑256种灰度值,两者在灰阶模式下的差异可能并不明显,因而会导致错误的匹配。本发明方法能够缓解色彩模式退化造成的不利影响,最大程度地对灰度视频序列的信息进行重构和映射,与已有的方法相比,可以达到不同色彩模式下行人重识别的最高准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤:
步骤一,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;
步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型;经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;
步骤三,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;
步骤四、给定测试集中任一灰阶视频,计算与各真彩视频的距离,并按距离值大小升序排列,选取距离值最小的真彩视频作为该灰阶视频的真实匹配;
步骤二包括:摄像机A的采集到的训练样本是真彩视频,摄像机B采集到的是灰阶视频;将A=[A1,A2,...,Ai,...,AN]和B=[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合,N表示训练集中样本的数量;表示第i个真彩视频的特征集,
表示第i个灰阶视频的特征集,d为视频特征的维度;
利用字典学习对视频样本进行稀疏表示,X是A在DC上的编码系数矩阵,Y是B在DG上的编码系数矩阵;DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典;视频重构损失项定义如下:
其中W和V分别为真彩和灰阶样本的非对称视频间映射;
非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异,具体为:
其中μi表示相应的第i个行人视频的特征中心;是Ai的第j个特征向量;是Bi的第j个特征向量;
步骤二进一步包括:摄像机A捕捉的真彩视频作为查询集,摄像机B捕捉的灰阶视频作为测试集;利用学习到的映射矩阵,摄像机B的灰阶视频特征接近于同一个人在摄像机A中的真彩视频特征;半耦合映射项为:
其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵;
判定保真项定义如下:
其中<i,j>∈S意味着第i个和第j个元素属于同一个行人;表示属于不同的行人;S和分别表示相同样本对和不同的样本对的集合;|·|表示集合中元素的数量;β是调整变量;通过学习到的映射P,摄像机B的灰阶特征系数将接近摄像机A的真彩特征系数;
最后目标函数分析视频重构损失、半耦合映射以及判定保真性,具体为:
其中α和λ是平衡因子;ρ1和ρ2用来控制视频内映射和半耦合映射,先验设置为 是正则项,作用是将编码系数、视频间映射和映射矩阵正则化;
步骤二进一步包括:目标函数的优化分为四个子问题:更新视频间映射矩阵W和V、更新编码系数X和Y、更新字典对DC和DG以及更新稀疏表示系数的映射函数P;
更新视频间映射矩阵W和V时,当其他变量固定后,对于W和V,目标函数写为:
通过对W求导,得到的解为:
其中I是单位矩阵;V的解与W相似;对V求导,得到的解为:
更新编码系数X和Y时,通过移除X以外的其他变量,目标函数简化为:
通过将Xi的导数设置为0,得到的解为:
对于Y,目标函数简化为:
通过将Yi的导数设置为0,得到Yi的解为:
更新字典DC和DG时,其他变量固定,目标函数简化为:
通过交替方向乘子算法ADMM得到 的解;
更新映射矩阵P时,其他变量固定,目标函数简化为:
通过将P的导数设置为0,得到解为:
2.如权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,步骤三包括:通过学习到的字典对DC和DG、映射P、视频间子空间映射W和V,进行测试视频的离散表示;若F表示某一灰阶测试视频的特征,C表示真彩训练视频的特征集合,根据学习到的P,W,V,基于灰阶字典DG对测试视频的表示系数f进行编码:
基于真彩字典DC对查询视频的表示系数g进行编码:
3.一种实施权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的基于非对称的视频间映射的半耦合字典对学习的行人重识别系统。
4.一种终端,其特征在于,所述终端搭载实现权利要求1~2任意一项所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的控制器。
5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-2任意一项所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
6.一种实施权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法的交通视频信息监控设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910246990.XA CN109977882B (zh) | 2019-03-29 | 2019-03-29 | 一种半耦合字典对学习的行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910246990.XA CN109977882B (zh) | 2019-03-29 | 2019-03-29 | 一种半耦合字典对学习的行人重识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977882A CN109977882A (zh) | 2019-07-05 |
CN109977882B true CN109977882B (zh) | 2019-12-03 |
Family
ID=67081518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910246990.XA Active CN109977882B (zh) | 2019-03-29 | 2019-03-29 | 一种半耦合字典对学习的行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977882B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516787B (zh) * | 2019-07-15 | 2021-04-09 | 杭州电子科技大学 | 基于易分特征丢弃的网络正则化约束的行人重识别方法 |
CN111931637B (zh) * | 2020-08-07 | 2023-09-15 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和系统 |
CN113033410B (zh) * | 2021-03-26 | 2023-06-06 | 中山大学 | 基于自动数据增强的域泛化行人重识别方法、系统及介质 |
CN114840107B (zh) * | 2021-04-28 | 2023-08-01 | 中国科学院软件研究所 | 一种草图数据重用与场景草图辅助构建方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145827A (zh) * | 2017-04-01 | 2017-09-08 | 浙江大学 | 基于自适应距离度量学习的跨摄像机行人再识别方法 |
CN107506703A (zh) * | 2017-08-09 | 2017-12-22 | 中国科学院大学 | 一种基于无监督局部度量学习和重排序的行人再识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070219796A1 (en) * | 2006-03-20 | 2007-09-20 | Microsoft Corporation | Weighted likelihood ratio for pattern recognition |
CN106960182B (zh) * | 2017-03-02 | 2018-12-14 | 云南大学 | 一种基于多特征集成的行人再识别方法 |
CN106874884B (zh) * | 2017-03-03 | 2019-11-12 | 中国民航大学 | 基于部位分割的人体再识别方法 |
CN107679461A (zh) * | 2017-09-12 | 2018-02-09 | 国家新闻出版广电总局广播科学研究院 | 基于对偶综合‑解析字典学习的行人再识别方法 |
CN109284668B (zh) * | 2018-07-27 | 2021-06-18 | 昆明理工大学 | 一种基于距离正则化投影和字典学习的行人重识别方法 |
-
2019
- 2019-03-29 CN CN201910246990.XA patent/CN109977882B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145827A (zh) * | 2017-04-01 | 2017-09-08 | 浙江大学 | 基于自适应距离度量学习的跨摄像机行人再识别方法 |
CN107506703A (zh) * | 2017-08-09 | 2017-12-22 | 中国科学院大学 | 一种基于无监督局部度量学习和重排序的行人再识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109977882A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977882B (zh) | 一种半耦合字典对学习的行人重识别方法及系统 | |
CN111488756B (zh) | 基于面部识别的活体检测的方法、电子设备和存储介质 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN108717524B (zh) | 一种基于双摄手机和人工智能系统的手势识别系统 | |
CN110853074B (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
CA2934514A1 (en) | System and method for identifying faces in unconstrained media | |
CN104298992B (zh) | 一种基于数据驱动的自适应尺度行人重识别方法 | |
KR101906796B1 (ko) | 딥러닝 기반 영상 분석 장치 및 영상 분석 방법 | |
CN113947814B (zh) | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 | |
CN110189294B (zh) | 基于深度可信度分析的rgb-d图像显著性检测方法 | |
CN105740775A (zh) | 一种三维人脸活体识别方法及其装置 | |
CN108960142B (zh) | 基于全局特征损失函数的行人再识别方法 | |
CN107766864B (zh) | 提取特征的方法和装置、物体识别的方法和装置 | |
CN110674759A (zh) | 一种基于深度图的单目人脸活体检测方法、装置及设备 | |
CN106355607B (zh) | 一种宽基线彩色图像模板匹配方法 | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 | |
CN115035003A (zh) | 交互补偿注意力的红外与可见光图像对抗融合方法 | |
CN109376641A (zh) | 一种基于无人机航拍视频的运动车辆检测方法 | |
CN109635712B (zh) | 基于同构网络的自发微表情种类判别方法 | |
CN108921872B (zh) | 一种适用于长程跟踪的鲁棒性视觉目标跟踪方法 | |
CN108491857A (zh) | 一种视域重叠的多摄像机目标匹配方法 | |
CN108470178A (zh) | 一种结合深度可信度评价因子的深度图显著性检测方法 | |
CN113724379A (zh) | 三维重建方法、装置、设备及存储介质 | |
CN111222502B (zh) | 一种红外小目标图像标注方法及系统 | |
CN109886195A (zh) | 基于深度相机近红外单色灰度图的皮肤识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |