CN113361392B

CN113361392B - 无监督的基于相机和无线定位的多模态行人重识别方法

Info

Publication number: CN113361392B
Application number: CN202110623624.9A
Authority: CN
Inventors: 李厚强; 周文罡; 刘一衡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-07-15
Anticipated expiration: 2041-06-04
Also published as: CN113361392A

Abstract

本发明公开了一种无监督的基于相机和无线定位的多模态行人重识别方法，只需要标注每个相机的大致位置，更容易维护，并提出了一个迭代更新的策略，其允许多模态的数据在视觉数据节点之间传播和融合，最终通过无监督的方式获得一个更有区分力的模型。

Description

无监督的基于相机和无线定位的多模态行人重识别方法

技术领域

本发明涉及行人重识别技术领域，尤其涉及一种无监督的基于相机和无线定位的多模态行人重识别方法。

背景技术

1)行人重识别。

基于视觉的行人重识别旨在匹配不同监控相机下行人的身份，根据方法分类，其可以分为有监督的行人重识别和无监督的行人重识别。

有监督的行人重识别使用的训练数据是有标签的。大量的工作致力于设计出更好的模型来提取具有区分性而且鲁棒的特征，以缓解遮挡、模糊以及行人的姿态和视角的变化。常用的方法有基于局部对齐的方法来解决身体错位的情况，以及借助行人标签和相机标签的对偶性缓解背景的影响的方法。对于处理视频数据的方法，设计出更有效的融合多帧特征的模型是提升性能的关键。常用的方法有借助循环神经网络的方法和注意力模块的方法。

无监督的行人重识别使用的训练数据是没有标签的，这可以降低标注数据所带来的人力成本，并且提升在实际场景中的扩展能力。无监督的行人重识别致力于在无标签的数据上训练一个具有较高区分能力的行人重识别模型。常用的做法是将模型的训练分为两个阶段，第一个阶段是相机内的数据训练，第二个阶段是相机间的视频片段关联。

2)多模态数据和视觉任务。

因为视觉数据很容易受到模糊、遮挡以及复杂背景的影响，寻求多模态数据来弥补视觉数据的缺陷已经成为一个重要的研究方向。为此，很多的设定都被探索并获得了满意的结果。

现有的方法中有用到无线信号强度来辅助视觉的跟踪任务，但是信号强度很容易受到环境的影响。还有一些方法会通过WiFi的CSI估计来提取步态信息并用于行人的识别，这要求视觉数据要有较高的质量来提取行人的三维网格。

WiFi的嗅探是一种用于感知行人手机的无线信号的手段，也有一些方法用WiFi嗅探来辅助人脸识别。但是现在出于隐私保护，手机系统会返回随机的MAC地址给WiFi嗅探，这使得这种方法无法工作。同时，这些方法需要将数据根据时间和地点划分为不同的事件，比如吃饭、会议以及健身等等。但是行人重识别任务是一个不间断的且内容一致的任务，所以这种方法是不可行的。

现在也有一些方法致力于探索多模态数据在行人重识别任务上的应用。比如有工作利用雷达信号来进行行人重识别，但是这里面并没有考虑视觉数据。也有工作借助于无线定位来辅助跨域的行人重识别，借助视觉轨迹到世界坐标系的映射来进行视觉数据与无线数据的匹配。

但是，现有技术主要存在如下缺陷：

1)：现有的基于视觉数据的行人重识别方法依赖于视觉数据的质量，当视觉数据因为遮挡、模糊或者行人衣着变化而变得不可靠时，这些方法的性能便无法保证了。

2)：现有的基于多模态数据的行人重识别方法开销过大，需要对每个监控场景进行细致的场景标注，获得每个位置的定位坐标。在大规模监控网络中，这种方式会消耗大量的人力资源来标注数据，同时，这要求每个摄像机的拍摄角度，拍摄范围，拍摄内容不能出现大的变化，这在真实场景中是很难长期维护的。

3)：现有的基于多模态数据的行人重识别需要源数据集训练模型，其性能会受到源数据集与目标数据集的数据偏差的影响。同时，源数据集的标注也需要人力资源，效率较低。

发明内容

本发明的目的是提供一种无监督的基于相机和无线定位的多模态行人重识别方法，借助无线记录和视觉数据，可以训练出一个更有区分力的行人重识别模型，提升识别效果。

本发明的目的是通过以下技术方案实现的：

一种无监督的基于相机和无线定位的多模态行人重识别方法，包括：

对于所有监控相机捕捉到的视频，利用经过初始训练的卷积神经网络进行视觉特征提取，并使用最近邻关联获得跨监控相机的视频关联，从而为每一视频分配伪行人身份标识，称为伪视觉标签；

通过基站获得每个移动终端具有唯一标识的无线信号并进行定位，根据移动终端的定位位置，出现在经过位置标注的相应监控相机附近时，视为感知相应的无线记录；对于当前监控相机，当其捕捉的视频与无线记录的时间戳存在重叠时，则表示相应视频与无线记录存在物理关联；基于各视频与各无线记录之间的物理关联，计算不同视频之间的无线相似性，得到包含所有视频之间的无线相似性的无线相似性矩阵；

将各视频的视觉特征以及相应的无线相似性矩阵输入至多模态图卷积神经网络，并以伪视觉标签作为监督来训练所述多模态图卷积神经网络；

利用多模态图卷积神经网络输出的特征使用最近邻关联重新为各个视频分配伪行人身份标识，作为伪多模态标签，并对卷积神经网络进行训练，再利用训练后的卷积神经网络进行视觉特征提取并重新为每一视频分配伪视觉标签；

以上过程中卷积神经网络与多模态图卷积神经网络交替生成新的伪标签并指导对方训练，多次迭代更新后，获得最终的卷积神经网络，并利用所述最终的卷积神经网络实现行人重识别。

由上述本发明提供的技术方案可以看出，基于视觉数据的行人重识别依赖于视觉数据的质量，其可靠性无法保证，而现有的多模态的行人重识别系统需要大量的人力来维护系统，效率很低。基于这些考虑，本发明提出了一个新的无监督的多模态行人重识别系统，其只需要标注每个相机的大致位置，更容易维护，并提出了一个迭代更新的策略，其允许多模态的数据在视觉数据节点之间传播和融合，最终通过无监督的方式获得一个更有区分力的模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种无监督的基于相机和无线定位的多模态行人重识别方法的流程图；

图2为本发明实施例提供的多模态数据的获取与使用的示意图；

图3为本发明实施例提供的多模态数据关联策略流程图；

图4为本发明实施例提供的图卷积神经网络结构图；

图5为本发明实施例提供的图卷积模块结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种无监督的基于相机和无线定位的多模态行人重识别方法，如图1所示，为该方法的主要框架，主要步骤包括：

对于所有监控相机捕捉到的视频，利用经过初始训练的卷积神经网络(CNN F(·))进行视觉特征(Features X)提取，并使用最近邻关联(NNA)获得跨监控相机的视频关联，从而为每一视频分配伪行人身份标识，作为伪视觉标签(Visual Label)；

通过基站获得每个移动终端具有唯一标识的无线信号并进行定位，根据移动终端的定位位置，出现在经过位置标注的监控相机附近时，视为在相应监控区域内感知到无线记录(Wireless Records)；对于当前监控相机，当其捕捉的视频与无线记录的时间戳存在重叠时，则表示相应视频与无线记录存在物理关联(Physical Connection)；基于各视频与各无线记录之间的物理关联，计算不同视频之间的无线相似性，得到包含所有视频之间的无线相似性的无线相似性矩阵；

将各视频的视觉特征以及相应的无线相似性矩阵输入至多模态图卷积神经网络(MMGN)，并以伪视觉标签作为监督来训练所述多模态图卷积神经网络；

利用多模态图卷积神经网络输出的特征(Features Z)使用最近邻关联(NNA)重新为各个视频分配伪行人身份标识，作为伪多模态标签(Multimodal Label)，并对卷积神经网络进行训练，再利用训练后的卷积神经网络进行视觉特征提取并重新为每一视频分配伪视觉标签；

上述方法的主要核心技术包含三部分内容，即：1)无监督的多模态行人重识别框架可以利用多模态数据训练一个更有区分力的行人重识别模型。2)多模态数据关联策略可以为多模态数据建立关联。3)多模态图神经网络主要由图卷积神经模块构成，可以在视觉节点之间传播无线信息。

为了便于理解，下面针对本发明做详细的介绍。

1、首先，对于监控网络，需要知道每个监控相机大致的经纬度位置。在监控覆盖范围内，通过基站获得每个手机的无线信号并定位获得运动轨迹。通过设定一个阈值，当一个行人携带的移动终端(例如，手机)的定位位置与某个监控相机的距离小于此阈值时，认为在此相机场景下感知到了一个无线记录。当该行人走到不同监控区域时，会被感知到若干个无线记录。手机的无线信号定位轨迹是一个长轨迹，是该行人的大范围的运动记录，而这些被感知到的无线记录是无线定位轨迹的一个个小片段，是行人局部运动的轨迹记录。同一个无线信号被感知到的多个无线记录享有相同的信号身份。将在所有监控场景感知到的无线记录表示为

其中I_p是第p个无线记录。

如图2所示，为本发明的应用场景示例，图2中扇形阴影区域为监控相机的监控覆盖区域，圆形虚线框为相应监控相机的无线感知区域(即，移动终端进入该区域后能够被感知到一个无线记录)，道路上的线条为无线定位轨迹。

本领域技术人员可以理解，一个移动终端的无线信号只对应一个行人，当一个携带移动终端的行人，走在城市中时，会通过基站定位获得其无线定位轨迹，当行人路过某个监控相机，会被感知到无线记录，并被录到视频。但是要强调的是，同一时刻，比如一个街道的监控相机，同时会出现很多行人，且都有无线信号，监控相机也会拍摄到这些人的视频。但是，难以区分无线信号与每个行人的对应关系，因为这些数据是同时出现在同一个地点的，此阶段是无法区分的。

2、伪视觉标签的生成。

在初始训练阶段，使用一个多分支的结构来训练模型，其有一个共享的骨干网络F(·)和多个独立的分类器，本发明实施例中，该骨干网络为卷积神经网络(比如ResNet50模型)。

如图1左上角虚线框区域所示，将每一监控视频捕捉的视频输入至卷积神经网络，所述卷积神经网络逐帧提取每一视频的视觉特征；对于每一视频，将所有帧的视觉特征取平均作为相应视频的特征表达；之后，每一视频的特征表达送入相应监控相机对应的分类器；每一分类器的类别数目为监控相机所捕捉的视频的总数目，即每一视频对应一个行人；每一分类器都使用交叉熵损失函数来训练，总的损失函数是所有分类器的损失函数之和。

本发明实施例中，监控相机总数记为C，则分类器数目为C。

在初始训练之后，获得了一个具有基础分辨能力的模型F(·)，给定N个视频，使用此模型提取他们的视频特征，并使用最近邻关联获得跨摄像头的视频关联并获得伪视觉标签。

对于每一个视频，基于视觉特征之间的余弦距离，获得其跨监控相机的最近邻视频，构成最近邻视频对；对于两个视频，如果他们互为最近邻，则认为他们属于同一个人并分配相同的伪行人身份标识(即，伪视觉标签)。对所有的视频处理后，便为若干个视频分配了伪视觉标签。由于有一些视频没有标签，需要在训练时过滤掉这些视频，但是这并不影响算法设计，所以本发明假设所有的视频都分配了伪视觉标签。

3、无线相似性矩阵的生成。

对于C个监控相机，其共捕捉到N个视频，表示为

其中，V_i是第i个视频，C与N的数值大小，以及数值大小关系没有限制。在同一个监控相机的监控区域内获得的视频V_i和无线记录I_p，如果它们的时间戳有重叠，则表示视频V_i中的行人和无线记录I_p的手机携带者曾同时出现在该相机下，并有可能是属于同一个人。用Q_p,i＝1表示这种基础的物理关联，如果他们没有重叠的时间段，则Q_p,i＝0。

代表了P个无线记录和N个视频之间的基础物理关联。

在M个无线信号中，对于属于第m个无线信号的无线记录组，使用

来表示；对于每一个无线记录

根据物理关联，能够得到相关的视频组{V_i|Q_p,i＝1}，其中，Q_p,i＝1表示视频V_i与无线记录I_p存在物理关联。

本发明实施例中，

是指一个移动终端被多个监控区域感知的无线记录，一个无线记录I_p实际只对应一个视频；但是，在实际应用中，考虑到无线信号定位的误差，如果监控区域内的人员密集，则难以区分无线信号与每个行人的对应关系；例如，在某一个监控场景下，有3个人，每个人都带了一个移动终端，则具有3个无线信号，进而同一个监控相机将感知到3个无线记录，并拍摄到3个视频，此阶段无法建立3个无线信号与3个行人的一对一关系；也就是说，无线信号是唯一绑定一个移动终端的，但是当多个人同时出现在同一个位置区域的时候，无法得知谁是移动终端的持有者。对于上述例子中的3个无线记录，每个记录会关联三个视频，即这个无线信号可能属于三个视频中的某一个人，因此，一个无线记录会同时关联多个视频。

对于整个属于第m个无线信号的无线记录组

根据物理关联，能够获得所有相关的视频，表示为

之后，使用k-means算法聚类并得到K_m个簇

如图3所示，多模态数据关联策略流程图，可自适应地关联多模态数据。

如之前所述一个无线记录会同时关联多个视频，这些视频里面有第m个无线信号的真实对应的行人的视频，但也有一些路人的，因此对这些视频聚类，当聚类效果较好时，每个人的视频会被聚为一类，即一个簇。簇的总数量，则代表算法认为所有相关的视频中包含的行人总数量，其中某一个簇中的视频，为第m个无线信号的移动终端携带者。

因此，本发明实施例中，将每一个簇

都视为一个行人，其在监控相机下出现的次数由与其关联的无线记录的数量来得到，公式化为

如果行人为目标行人，则次数值等于相应无线信号被感知的次数，即

估计簇

为目标行人的概率为：

其中，

表示簇

对应行人在监控相机下出现的次数。

定义簇

中不同视频V_i和视频V_j之间的基于第m个无线信号的无线相似性为：

则代表了所有视频之间的无线相似性，它是一个3维的矩阵，分别用i,j,m指代每一维的下标，S_i,j,m为S的下标为(i,j,m)处的值。

为S的第三维的下标取m得到的一个稀疏二维矩阵，并表示了所有的N个视频基于第m个无线信号的无线相似性。

本发明实施例中，使用P/M来估计一个行人平均拥有的视频的数量，同时，

为与第m个无线信号相关的视频的数量，则估计

个视频是来自于

个行人；

在k-means算法聚类过程中，视频组

被聚为K_m个簇，K_m应当接近于真实的行人的数量。故K_m的估计公式定义为：

其中，λ为调整预测的行人数量与估计的K_m之间的系数，P为无线记录总数目。

4、多模态图卷积神经网络。

如图4所示，多模态图卷积神经网络中包含多个图卷积模块(MGM)以及一个分类器，其能够融合多模态数据，在视觉节点间传播多模态信息；示例性的，卷积模块的数目可以为6个。

每一图卷积模块的输入均为所有视频的视觉特征X以及相应的伪多模态标签，输出为处理后的特征；使用多头机制将所有图卷积模块的输出特征z级联得到特征Z并送到分类器中进行分类，分类器使用伪视觉标签作为监督信息，使用交叉熵损失函数训练；所述分类器采用去掉末尾批标准化层和激活函数的图卷积模块实现。

本发明实施例中，所有图卷积模块的输入是完全相同的，但是都采用随机初始化的，因此，各个图卷积模块的参数是有区别的，因此，虽然学习的目标相同，输入也相同，但是，最终输出的特征是不同的。

图卷积模块的结构如图5所示，能够借助无线数据在视觉节点中传播无线信息，其内部处理过程包括：

将所有的N个视频定义为一个包含N个节点的图，每个节点使用对应视频的视觉特征表示；给定视频之间的无线相似性S，通过对第三个维度取均值得到基础邻接矩阵为A^avg，

同时，计算无线相似性S的直方图统计A^h，

其中h(·)返回输入向量的直方图统计向量，h(·)使用了32个统计堆栈反映了无线相似性在多个无线轨迹下的变化。高位堆栈的值越大，这两个视频在越多的无线信号下有大的无线相似性。

对于

使用多个神经网络层来自适应地学习图的邻接矩阵

A^h首先被调整为一个二维矩阵

其每一个向量被视为一个特征向量并依次送入到两个全连接块中得到

每一个全连接块包含一个全连接层，一个批标准化层和一个激活函数，第一个全连接层输出16维的特征，第二个全连接层输出1维的特征；最终的邻接矩阵为A＝softmax(A′⊙u(A^avg))，其中，u(·)为单位阶跃函数，⊙为原子级相乘，其过滤掉A′中无无线关联的视频间的响应。

在获得图的邻接矩阵A后，为了获得最终的更新后的特征，将所有视频的视觉特征X使用一个全连接层映射为一个多维的向量(例如，512维向量)，然后与邻接矩阵A做矩阵乘法以得到经过信息传播后的特征，再经过批标准化层和激活函数的处理，得到图卷积模块的输出特征。

本发明实施例中，视觉特征X是二维矩阵，每一行是一个视频的视觉特征，行数为视频的数目。

5、伪视觉标签和伪多模态标签的交替更新。

在图神经网络训练之后，我们用最近邻关联策略基于其更新后的特征Z重新为各个视频分配伪行人身份标识，计算原理可参见前文“伪视觉标签的生成”中介绍的内容，由于更新后的特征Z包含了多模态信息，因此，此时得到的伪标签称为伪多模态标签。利用此多模态标签，使用三元组损失函数进一步优化卷积神经网络F(·)。在卷积神经网络F(·)优化完之后，基于其提取的视觉特征，会重新估计新的伪视觉标签。这样，卷积神经网络F(·)和多模态神经网络之间交替估计新的标签并指导对方的训练，在多次迭代更新后(迭代总次数可以根据经验自行设定)，最终获得的卷积神经网络F(·)融合了多模态的信息并有了更强的行人区分能力。在行人重识别测试时，我们使用F(·)分别提取待查询视频的特征和库中视频的特征，通过比较特征距离并排序，我们即可找到库中与待查询视频最相似的视频。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，包括：

2.根据权利要求1所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，所述使用最近邻关联获得跨监控相机的视频关联，从而为每一视频分配伪视觉标签包括：

对于每一个视频，基于视觉特征之间的余弦距离，获得其跨监控相机的最近邻视频，构成最近邻视频对；

为每一个最近邻视频对分配相同的伪视觉标签。

3.根据权利要求1或2所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，所述卷积神经网络的初始训练方式包括：

将每一监控视频捕捉的视频输入至卷积神经网络，所述卷积神经网络逐帧提取每一视频的视觉特征；对于每一视频，将所有帧的视觉特征取平均作为相应视频的特征表达；之后，每一视频的特征表达送入相应监控相机对应的分类器；

每一分类器的类别数目为监控相机所捕捉的视频的总数目，即每一视频对应一个行人；每一分类器都使用交叉熵损失函数来训练，总的损失函数是所有分类器的损失函数之和。

4.根据权利要求1所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，所述基于各视频与各无线记录之间的物理关联，计算不同视频之间的无线相似性，得到包含所有视频之间的无线相似性矩阵包括：

来表示；对于每一个无线记录

根据物理关联，能够得到相关的视频组{V_i|Q_p,i＝1}，其中，Q_p,i＝1表示视频V_i与无线记录I_p存在物理关联；

对于整个属于第m个无线信号的无线记录组

根据物理关联，能够获得所有相关的视频，表示为

之后，使用k-means算法聚类并得到K_m个簇

每一个簇

估计簇

为目标行人的概率为：

其中，

表示簇

对应行人在监控相机下出现的次数；

定义簇

其中，

则代表了所有视频之间的无线相似性，S_i,j,m为S的下标为(i,j,m)处的值，

5.根据权利要求4所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，

使用

来估计一个行人平均拥有的视频的数量，同时，

为与第m个无线信号相关的视频的数量，则估计

个视频是来自于

个行人；

在k-means算法聚类过程中，视频组

被聚为K_m个簇，K_m的估计公式定义为：

6.根据权利要求1所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，所述多模态图卷积神经网络中包含多个图卷积模块以及一个分类器；

每一图卷积模块的输入均为所有视频的视觉特征X以及相应的伪多模态标签，输出为处理后的特征；

使用多头机制将所有图卷积模块的输出特征级联并送到分类器中进行分类，分类器使用伪视觉标签作为监督信息，使用交叉熵损失函数训练；

所述分类器采用去掉末尾批标准化层和激活函数的图卷积模块实现。

7.根据权利要求6所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，所述图卷积模块内部处理过程包括：

将所有的N个视频定义为一个包含N个节点的图，每个节点使用对应视频的视觉特征表示；

给定无线相似性S，获得其均值为A^avg，同时，计算伪多模态标签S的直方图统计A^h；

对于A^h，使用多个神经网络层来自适应地学习图的邻接矩阵A；A^h首先被调整为一个二维矩阵，其每一个向量被视为一个特征向量并依次送入到两个全连接块中得到A′，每一个全连接块包含一个全连接层，一个批标准化层和一个激活函数；最终的邻接矩阵为A＝softmax(A′⊙u(A^avg))，其中，u(·)为单位阶跃函数，⊙为原子级相乘，其过滤掉A′中无无线关联的视频间的响应；

在获得图的邻接矩阵A，将所有视频的视觉特征X使用一个全连接层映射为一个多维的向量，然后与邻接矩阵A做矩阵乘法以得到经过信息传播后的特征，再经过批标准化层和激活函数的处理，得到图卷积模块的输出特征。

8.根据权利要求6所述的一种无监督的基于相机和无线定位的多模态行人重识别方法，其特征在于，

利用多模态图卷积神经网络输出的特征使用最近邻关联重新计算伪多模态标签后，利用重新计算得到的伪多模态标签，使用三元组损失函数对卷积神经网络进行训练。