CN113255394A - 基于无监督学习的行人再识别方法及系统 - Google Patents
基于无监督学习的行人再识别方法及系统 Download PDFInfo
- Publication number
- CN113255394A CN113255394A CN202010082628.6A CN202010082628A CN113255394A CN 113255394 A CN113255394 A CN 113255394A CN 202010082628 A CN202010082628 A CN 202010082628A CN 113255394 A CN113255394 A CN 113255394A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- video frames
- pedestrians
- matrix
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及基于无监督学习的行人再识别方法及系统。
背景技术
目前,行人再识别是计算机视觉领域的一个重要应用,旨在通过摄像头捕捉到的行人的外观信息识别出行人的身份,可以进行身份的验证和检索。行人再识别在安防监控、智慧城市和智能零售等领域都有着非常重要的应用前景。
主流的行人再识别方法都是基于深度学习与大规模有标签数据训练的深度卷积神经网络模型作为行人特征提取模型,再通过比对不同行人之间的特征相似性来判断其是否为同一身份。这样的方法取得了很好的实际效果,但是当应用场景中的数据与训练样本的数据域相差较大时往往效果会显著降低。例如,用在北京的冬天采集到的行人数据作为训练样本训练出的行人特征提取模型往往不能很好的推广应用于上海的夏天场景下。一个可行的解决办法是尽可能的标注出各种场景下的训练样本,但是标注行人身份所需的成本过高,使得这种办法不能很好的解决问题。
为了解决这个问题,现有技术中提供了一种基于无监督学习的行人再识别方法,通过未经标注的大量行人数据学习得到泛化性能良好的行人特征提取模型以用于进行行人再识别,即对行人特征提取模型进行无监督学习。行人特征提取模型的无监督学习方法具体是引入一些第三方算法模块提供的辅助信息作为监督信号,如利用多目标跟踪:在跟踪正确的情况下,同一个轨迹里的个体是同一个人,而不同轨迹里的个体不是同一个人;或者采用自步学习进行不断聚类-训练迭代。
但是,现有技术中存在的基于无监督学习的行人再识别方法中,行人特征提取模型过度依赖于第三方算法模块提供的辅助信息进行辅助监督,而辅助监督往往会出错,使得行人再识别结果不准确。例如,利用多目标跟踪的方法来无监督学习行人特征提取模型,强烈依赖于跟踪效果的好坏,一旦跟踪出错(现实中这样的错误很容易发生),监督信号就是错误的。又如,通过聚类-训练迭代的方法来无监督学习行人特征提取模型,需要给每个行人分配一个伪标签,但是很有可能伪标签的分配是不合理甚至是错误的,因此会很大程度的影响行人特征提取模型的无监督学习,导致行人再识别效果无法得到保证。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明实施例提供了一种基于无监督学习的行人再识别方法及系统。
第一方面,本发明实施例提供了一种基于无监督学习的行人再识别方法,包括:
获取包含有若干行人的两个待识别视频帧;
将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
优选地,对所述行人再识别模型进行训练时,具体包括第一训练阶段和第二训练阶段;相应地,
所述包含有若干行人的两个样本视频帧在所述第一训练阶段具体为:同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧;
所述包含有若干行人的两个样本视频帧在所述第二训练阶段具体为:混合视频帧集合中的两个视频帧;所述混合视频帧集合由具有相同视域的两个摄像装置拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧与所述第一类视频帧混合后得到。
优选地,所述确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,具体包括:
基于所述行人再识别模型,分别提取两个样本视频帧中每个行人的行人特征,每个样本视频帧对应一组行人特征,并确定两组行人特征的余弦相似度矩阵;
对所述余弦相似度矩阵的每一行应用Softmax函数确定正向分配矩阵,对所述余弦相似度矩阵的转置矩阵的每一行应用Softmax函数确定反向分配矩阵;
基于所述正向分配矩阵和反向分配矩阵,确定所述循环分配矩阵。
优选地,所述确定两组行人特征的余弦相似度矩阵,具体包括:
将两组行人特征中第一组行人特征中每个行人的行人特征按行进行排列,第二组行人特征中每个行人的行人特征按列进行排列,分别得到所述第一组行人特征和所述第二组行人特征对应的特征矩阵;
将所述第一组行人特征和所述第二组行人特征对应的特征矩阵相乘,得到所述余弦相似度矩阵。
优选地,若两个样本视频帧中的行人数量相等,则所述基于所述循环分配矩阵,确定优化损失函数,具体包括:
通过如下公式确定所述优化损失函数:
其中,Lsymmetric为所述优化损失函数,K为每个样本视频帧中的行人数量,Acycle为所述循环分配矩阵,I为与所述循环分配矩阵大小相等的单位矩阵。
优选地,所述基于所述循环分配矩阵,确定优化损失函数,还包括:
通过如下公式确定所述优化损失函数:
其中,Lasymmetric为所述优化损失函数,K1为所述循环分配矩阵中的行数,为所述循环分配矩阵中第i行第j列的元素,为所述循环分配矩阵中第i行第i列的元素,为所述循环分配矩阵中第k行第j列的元素,m为常数。
第二方面,本发明实施例提供了一种基于无监督学习的行人再识别系统,包括:获取模块和再识别模块。其中,
获取模块用于获取包含有若干行人的两个待识别视频帧;
再识别模块用于将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于无监督学习的行人再识别方法的步骤。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的基于无监督学习的行人再识别方法的步骤。
本发明实施例提供的一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于无监督学习的行人再识别方法的流程示意图;
图2为本发明实施例提供的一种基于无监督学习的行人再识别方法中两个样本视频帧的来源示意图;
图3a为本发明实施例提供的一种基于无监督学习的行人再识别方法中,未经训练的行人再识别模型提取的同一行人在不同视频帧中的行人特征空间分布示意图;
图3b为本发明实施例提供的一种基于无监督学习的行人再识别方法中,行人再识别模型经过第一训练阶段后提取的同一行人在同一摄像装置下的第一类视频帧中的行人特征空间分布示意图;
图3c为本发明实施例提供的一种基于无监督学习的行人再识别方法中,行人再识别模型经过第二训练阶段后提取的同一行人在不同视频帧中的行人特征空间分布示意图;
图4为本发明实施例提供的一种基于无监督学习的行人再识别系统的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于无监督学习的行人再识别方法,包括:
S1,获取包含有若干行人的两个待识别视频帧;
S2,将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
具体地,本发明实施例中提供的基于无监督学习的行人再识别方法,其执行主体为服务器,具体可以是电脑或云端服务器等,本发明实施例中对此不作具体限定。
首先执行步骤S1。在获取包含有若干行人的两个待识别视频帧时,具体可以通过摄像装置采集,摄像装置与服务器通信连接,将获取到的两个待识别视频帧传输至服务器以进行再识别(即重识别),也就是判断两个待识别视频帧中是否包含有同一行人。需要说明的是,摄像装置具体可以是摄像头,其应用场景可以是行人密集场所,如街道、地铁站、机场等。摄像装置可以采集视频,而两个待识别视频帧既可以是同一视频中两个不同时刻对应的视频帧,也可以是不同视频中相同时刻或不同时刻对应的两个视频帧,本发明实施例中对此不作具体限定。每个待识别视频帧中均包括若干行人,构成行人组,行人组中的行人数量可以为1个或多个。
然后执行步骤S2。通过行人再识别模型判断两个待识别视频帧中是否包含有同一行人,即例如第一个待识别视频帧中有n1个行人,第二个待识别视频帧中有n2个行人,判断第一个待识别视频帧中的每个行人是否出现在第二个待识别视频帧中。本发明实施例中采用的行人再识别模型是基于深度卷积神经网络构建,且在对行人再识别模型进行训练时,先构建训练样本集,训练样本集中包括多个样本视频帧,每个样本视频帧中均包含有若干行人,构成行人组,行人组中的行人数量可以为1个或多个;然后确定两个样本视频帧之间行人的循环分配矩阵,循环分配矩阵用于表征两个样本视频帧之间行人的匹配可能性,即循环分配矩阵中每一元素的取值均为0至1之间的数。设两个样本视频帧分别为a和b,则确定循环分配矩阵时具体可以先确定样本视频帧a中的行人组匹配至样本视频帧b中的行人组得到的正向分配矩阵以及样本视频帧b中的行人组匹配至样本视频帧a中的行人组得到的反向分配矩阵,结合正向分配矩阵以及反向分配矩阵确定循环分配矩阵。容易理解的是,循环分配矩阵是将每个行人经过一次正向反向循环后被分配至其自身,因此本发明实施例中基于循环分配矩阵确定对行人再识别模型进行训练时应用的优化损失函数。
本发明实施例中提供的基于无监督学习的行人再识别方法,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,进而实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。
在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,对所述行人再识别模型进行训练时,具体包括第一训练阶段和第二训练阶段;相应地,
所述包含有若干行人的两个样本视频帧在所述第一训练阶段具体为:同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧;
所述包含有若干行人的两个样本视频帧在所述第二训练阶段具体为:混合视频帧集合中的两个视频帧;所述混合视频帧集合由具有相同视域的两个摄像装置拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧与所述第一类视频帧混合后得到。
具体地,本发明实施例中,通过两个训练阶段对行人再识别模型进行训练,分别为第一训练阶段和第二训练阶段。在第一训练阶段,采用的两个样本视频帧是摄像装置内采样数据,具体是指同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧。第一类视频中的两个第一类视频帧具体是对应于不同时刻的两个视频帧,不同时刻可以相邻也可以不相邻。例如,两个样本视频帧可以是第一类视频中的第1374帧和第1380帧等。
在第二训练阶段,采用的两个样本视频帧是摄像装置内采样数据与摄像装置间采样数据混合后选取的两个视频帧,具体可以理解为混合视频帧集合中的两个视频帧。如图2所示,摄像装置内采样数据是指同一摄像装置e拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧,例如,第一类视频中的第1374帧和第1380帧。摄像装置间采样数据是指具有相同视域的两个摄像装置c、d拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧,例如摄像装置c拍摄得到的第二类视频中的第1590帧和摄像装置d拍摄得到的第二类视频中的第1590帧。其中,具有相同视域的两个摄像装置是指可以同时拍摄一片相同的区域,该区域常常通过行人即可。混合视频帧集合由摄像装置内采样数据与摄像装置间采样数据混合后得到。本发明实施例中可以只采用两个具有相同视域的摄像装置得到样本视频帧,在第一训练阶段,采用其中任一个摄像装置采集的第一类视频中的两个第一类视频帧,在第二训练阶段,同时采用两个摄像装置在同一时刻得到的第二类视频帧与第一类视频帧。
本发明实施例中,对行人再识别模型进行训练时,分为第一训练阶段和第二训练阶段,第一训练阶段只采用摄像装置内采样数据训练。由于摄像装置内采样数据的行人外观变化较小,对于行人再识别模型来说更加容易学习,因此第一训练阶段的优化损失函数易于收敛。优化损失函数收敛之后开启第二训练阶段。第二训练阶段采用摄像装置内和摄像装置间采样数据混合训练。摄像装置间采样数据的行人外观变化较大,可以使得行人再识别模型学习到对外观变化更加鲁棒的特征表示。
在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,所述确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,具体包括:
基于所述行人再识别模型,分别提取两个样本视频帧中每个行人的行人特征,每个样本视频帧对应一组行人特征,并确定两组行人特征的余弦相似度矩阵;
对所述余弦相似度矩阵的每一行应用Softmax函数确定正向分配矩阵,对所述余弦相似度矩阵的转置矩阵的每一行应用Softmax函数确定反向分配矩阵;
基于所述正向分配矩阵和反向分配矩阵,确定所述循环分配矩阵。
具体地,本发明实施例中,在确定循环分配矩阵时,首先可以通过行人再识别模型分别提取两个样本视频帧a、b中每个行人的行人特征,每个行人的行人特征具体可以表示为高维的行向量。样本视频帧a中所有行人的行人特征可以构成一组行人特征,同样样本视频帧b中所有行人的行人特征可以构成一组行人特征。然后确定两组行人特征的余弦相似度矩阵,余弦相似度矩阵的确定方法可以根据现有技术中提供的方法实现,本发明实施例中对此不作具体限定。
对余弦相似度矩阵的每一行应用Softmax函数确定正向分配矩阵,Softmax函数不改变余弦相似度矩阵的大小,仅仅对余弦相似度矩阵中的每个元素进行处理得到正向分配矩阵,正向分配矩阵用于表征样本视频帧a中的每个行人分配至样本视频帧b中的概率,即从样本视频帧b中的行人组中寻找样本视频帧a中的每个行人。正向分配矩阵的大小与余弦相似度矩阵的大小一致,正向分配矩阵中的每个元素取值均为0至1之间。
对余弦相似度矩阵的转置矩阵的每一行应用Softmax函数确定反向分配矩阵,Softmax函数不改变转置矩阵的大小,仅仅对转置矩阵中的每个元素进行处理得到反向分配矩阵,反向分配矩阵用于表征样本视频帧b中的每个行人分配至样本视频帧a中的概率,即从样本视频帧a中的行人组中寻找样本视频帧b中的每个行人。反向分配矩阵的大小与转置矩阵的大小一致,反向分配矩阵中的每个元素取值均为0至1之间。
最后,结合正向分配矩阵和反向分配矩阵确定循环分配矩阵,具体可以将正向分配矩阵和反向分配矩阵相乘,即可得到循环分配矩阵。本发明实施例中,循环分配矩阵表示的是每个行人经过一次正向反向循环后被分配到其自身。
图3a为未经训练的行人再识别模型提取的同一行人在不同视频帧中的行人特征空间分布示意图,图3a中每个框内包含有不同行人的行人特征;图3b为行人再识别模型经过第一训练阶段后提取的同一行人在同一摄像装置下的第一类视频帧中的行人特征空间分布示意图,图3b中每个框内包含有同一行人的行人特征;图3c为行人再识别模型经过第二训练阶段后提取的同一行人在不同视频帧中的行人特征空间分布示意图,图3c中每个框内包含有同一行人的行人特征。从图3a、图3b以及图3c可以看出,未经训练的行人再识别模型提取的行人特征空间分布是杂乱无章的;行人再识别模型经过第一训练阶段后提取的同一行人的同一摄像装置下的第一类视频帧中的行人特征可以在空间内聚集在一起;行人再识别模型经过第二训练阶段后提取的同一行人的所有视频帧中的行人特征,无论在哪个摄像装置下,可以在空间内聚集在一起,说明行人再识别模型经过第二训练阶段后已经对于大的行人外观变化拥有较好的识别能力。
在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,所述确定两组行人特征的余弦相似度矩阵,具体包括:
将两组行人特征中第一组行人特征中每个行人的行人特征按行进行排列,第二组行人特征中每个行人的行人特征按列进行排列,分别得到所述第一组行人特征和所述第二组行人特征对应的特征矩阵;
将所述第一组行人特征和所述第二组行人特征对应的特征矩阵相乘,得到所述余弦相似度矩阵。
具体地,本发明实施例中,在确定余弦相似度矩阵时,样本视频帧a中所有行人的行人特征可以构成一组行人特征,将其作为第一组行人特征,样本视频帧b中所有行人的行人特征可以构成一组行人特征,将其作为第二组行人特征。第一组行人特征具体可以表示为对应的特征矩阵,该特征矩阵的每一行为样本视频帧a中一个行人的行人特征。第二组行人特征具体可以表示为对应的特征矩阵,该特征矩阵的每一列为样本视频帧b中一个行人的行人特征。
将第一组行人特征对应的特征矩阵和第二组行人特征对应的特征矩阵相乘,即可得到余弦相似度矩阵。
在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,可以通过循环分配矩阵和单位矩阵的差距作为优化损失函数,具体可通过如下公式(1)表示:
其中,Lsymmetric为所述优化损失函数,K为每个样本视频帧中的行人数量,Acycle为所述循环分配矩阵,I为与所述循环分配矩阵大小相等的单位矩阵。
上述公式(1)可以适用于两个样本视频帧中的行人数量相等的情况。但是在实际数据中,由于存在遮挡,或者行人进入和离开视域的原因,这将导致两个样本视频帧中的数据往往是不对称的,即行人数量不一定相同,也不一定具有相同的行人,只有一部分行人能够找到一一对应关系,而另一部分行人无法找到一一对应关系。
因此,在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,可以使循环分配矩阵中的对角元要比其所在的行和列中最大的元素大一个固定的间隔,如此得到的优化损失函数更加合理。具体可通过如下公式(2)表示:
其中,Lasymmetric为所述优化损失函数,K1为所述循环分配矩阵中的行数,为所述循环分配矩阵中第i行第j列的元素,为所述循环分配矩阵中第i行第i列的元素,为所述循环分配矩阵中第k行第j列的元素,m为常数。
在上述实施例的基础上,本发明实施例中提供的基于无监督学习的行人再识别方法,可以选取不同场景下的样本视频帧,以对行人再识别模型进行训练,使得行人识别模型可以适应于不同应用场景。本发明实施例中的行人再识别模型还可以随着训练数据的不断增多而不断改善,具有广泛的应用前景。
本发明实施例中提供的基于无监督学习的行人再识别方法,应用行人再识别模型实现对行人的再识别,在对行人再识别模型进行训练时,不依赖于除行人检测外的第三方算法模块提供辅助监督,且训练过程简单,可扩展性强,结合无标签的视频数据训练得到的行人特征几乎可以和通过监督学习得到的行人特征性能相当,并且明显提升了当前无监督行人特征学习的最优效果。
如图4所示,在上述实施例的基础上,本发明实施例中提供了一种基于无监督学习的行人再识别系统,包括:获取模块41和再识别模块42。其中,
获取模块41用于获取包含有若干行人的两个待识别视频帧;
再识别模块42用于将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
具体地,本发明实施例中提供的基于无监督学习的行人再识别系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
在上述实施例的基础上,本发明实施例中提供了一种基于无监督学习的行人再识别系统,对所述行人再识别模型进行训练时,具体包括第一训练阶段和第二训练阶段;相应地,
所述包含有若干行人的两个样本视频帧在所述第一训练阶段具体为:同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧;
所述包含有若干行人的两个样本视频帧在所述第二训练阶段具体为:混合视频帧集合中的两个视频帧;所述混合视频帧集合由具有相同视域的两个摄像装置拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧与所述第一类视频帧混合后得到。
图5所示,在上述实施例的基础上,本发明实施例中提供了一种电子设备,包括:处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和通信总线504;其中,
所述处理器501、存储器502、通信接口503通过通信总线504完成相互间的通信。所述存储器502存储有可被所述处理器501执行的程序指令,处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取包含有若干行人的两个待识别视频帧;将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图5所示的处理器501、通信接口503、存储器502和通信总线504,其中处理器501、通信接口503和存储器502通过通信总线504完成相互间的通信,且处理器501可以调用存储器502中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取包含有若干行人的两个待识别视频帧;将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人。
在上述实施例的基础上,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取包含有若干行人的两个待识别视频帧;将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于无监督学习的行人再识别方法,其特征在于,包括:
获取包含有若干行人的两个待识别视频帧;
将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
2.根据权利要求1所述的基于无监督学习的行人再识别方法,其特征在于,对所述行人再识别模型进行训练时,具体包括第一训练阶段和第二训练阶段;相应地,
所述包含有若干行人的两个样本视频帧在所述第一训练阶段具体为:同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧;
所述包含有若干行人的两个样本视频帧在所述第二训练阶段具体为:混合视频帧集合中的两个视频帧;所述混合视频帧集合由具有相同视域的两个摄像装置拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧与所述第一类视频帧混合后得到。
3.根据权利要求1所述的基于无监督学习的行人再识别方法,其特征在于,所述确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,具体包括:
基于所述行人再识别模型,分别提取两个样本视频帧中每个行人的行人特征,每个样本视频帧对应一组行人特征,并确定两组行人特征的余弦相似度矩阵;
对所述余弦相似度矩阵的每一行应用Softmax函数确定正向分配矩阵,对所述余弦相似度矩阵的转置矩阵的每一行应用Softmax函数确定反向分配矩阵;
基于所述正向分配矩阵和反向分配矩阵,确定所述循环分配矩阵。
4.根据权利要求3所述的基于无监督学习的行人再识别方法,其特征在于,所述确定两组行人特征的余弦相似度矩阵,具体包括:
将两组行人特征中第一组行人特征中每个行人的行人特征按行进行排列,第二组行人特征中每个行人的行人特征按列进行排列,分别得到所述第一组行人特征和所述第二组行人特征对应的特征矩阵;
将所述第一组行人特征和所述第二组行人特征对应的特征矩阵相乘,得到所述余弦相似度矩阵。
7.一种基于无监督学习的行人再识别系统,其特征在于,包括:
获取模块,用于获取包含有若干行人的两个待识别视频帧;
再识别模块,用于将两个待识别视频帧输入至行人再识别模型,由所述行人再识别模型确定两个待识别视频帧中是否包含有同一行人;
其中,所述行人再识别模型基于深度卷积神经网络构建,且对所述行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于所述循环分配矩阵,确定优化损失函数;所述循环分配矩阵用于表征所述两个样本视频帧之间行人的匹配可能性。
8.根据权利要求7所述的基于无监督学习的行人再识别系统,其特征在于,对所述行人再识别模型进行训练时,具体包括第一训练阶段和第二训练阶段;相应地,
所述包含有若干行人的两个样本视频帧在所述第一训练阶段具体为:同一摄像装置拍摄得到的、包含有若干行人的第一类视频中的两个第一类视频帧;
所述包含有若干行人的两个样本视频帧在所述第二训练阶段具体为:混合视频帧集合中的两个视频帧;所述混合视频帧集合由具有相同视域的两个摄像装置拍摄得到的、包含有若干行人的第二类视频对中同一时刻对应的第二类视频帧与所述第一类视频帧混合后得到。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于无监督学习的行人再识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于无监督学习的行人再识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082628.6A CN113255394A (zh) | 2020-02-07 | 2020-02-07 | 基于无监督学习的行人再识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082628.6A CN113255394A (zh) | 2020-02-07 | 2020-02-07 | 基于无监督学习的行人再识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255394A true CN113255394A (zh) | 2021-08-13 |
Family
ID=77219299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082628.6A Pending CN113255394A (zh) | 2020-02-07 | 2020-02-07 | 基于无监督学习的行人再识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255394A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642685A (zh) * | 2021-10-19 | 2021-11-12 | 之江实验室 | 一种高效的基于相似度的跨摄像头的目标重识别方法 |
CN113673483A (zh) * | 2021-09-07 | 2021-11-19 | 天津大学 | 一种基于深度神经网络的多视角多目标关联方法 |
US11836966B2 (en) | 2021-10-19 | 2023-12-05 | Zhejiang Lab | Efficient across-camera target re-identification method based on similarity |
-
2020
- 2020-02-07 CN CN202010082628.6A patent/CN113255394A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673483A (zh) * | 2021-09-07 | 2021-11-19 | 天津大学 | 一种基于深度神经网络的多视角多目标关联方法 |
CN113673483B (zh) * | 2021-09-07 | 2023-07-14 | 天津大学 | 一种基于深度神经网络的多视角多目标关联方法 |
CN113642685A (zh) * | 2021-10-19 | 2021-11-12 | 之江实验室 | 一种高效的基于相似度的跨摄像头的目标重识别方法 |
WO2023065472A1 (zh) * | 2021-10-19 | 2023-04-27 | 之江实验室 | 一种高效的基于相似度的跨摄像头的目标重识别方法 |
US11836966B2 (en) | 2021-10-19 | 2023-12-05 | Zhejiang Lab | Efficient across-camera target re-identification method based on similarity |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN108229314B (zh) | 目标人物的搜索方法、装置和电子设备 | |
CN109446889B (zh) | 基于孪生匹配网络的物体追踪方法及装置 | |
CN109978893A (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
CN109117781B (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN113255394A (zh) | 基于无监督学习的行人再识别方法及系统 | |
US20140270489A1 (en) | Learned mid-level representation for contour and object detection | |
CN106127197B (zh) | 基于显著标签排序的图像显著性目标检测方法和装置 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
US20220292394A1 (en) | Multi-scale deep supervision based reverse attention model | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
US11062455B2 (en) | Data filtering of image stacks and video streams | |
CN111967429A (zh) | 一种基于主动学习的行人重识别模型训练方法及装置 | |
CN111931703B (zh) | 基于人-物体交互弱监督标签的物体检测方法 | |
CN115082966B (zh) | 行人重识别模型训练方法、行人重识别方法、装置和设备 | |
CN111898703A (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
Fernandes et al. | Low power affordable and efficient face detection in the presence of various noises and blurring effects on a single-board computer | |
CN111985333B (zh) | 一种基于图结构信息交互增强的行为检测方法及电子装置 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
Zhong et al. | Improved localization accuracy by locnet for faster r-cnn based text detection | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
CN113936175A (zh) | 一种识别视频中的事件的方法及系统 | |
CN114996495A (zh) | 一种基于多原型和迭代增强的单样本图像分割方法及装置 | |
CN110909645B (zh) | 一种基于半监督流形嵌入的人群计数方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |