CN113408428B

CN113408428B - 行人图像不变性特征提取和无监督行人重识别方法与装置

Info

Publication number: CN113408428B
Application number: CN202110690143.XA
Authority: CN
Inventors: 万超群; 朱世强; 沈旭; 田新梅; 顾建军; 孟启炜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-03-14
Anticipated expiration: 2041-06-22
Also published as: CN113408428A

Abstract

本发明公开了一种行人图像不变性特征提取和无监督行人重识别方法与装置，通过模型分离实现神经网络部分知识迁移，从辅助模型中提取行人图像的行人主体(图像前景)的不变性特征表达；根据行人主体的不变性特征，利用K远邻聚类算法估计行人图像中潜在的相同行人，构建同一行人不同背景的联系，挖掘行人图像的背景风格的不变性特征表达；将上述的行人图像中行人主体和背景风格的不变性特征表达进行融合，得到输出特征，用于判别行人身份，进行行人重识别。本发明在多个行人重识别数据集上超过目前最好的基于无监督迁移学习的算法，解决了相关技术中提到的行人图像的背景风格差异显著，导致迁移学习效率低下的问题。

Description

行人图像不变性特征提取和无监督行人重识别方法与装置

技术领域

本发明属于计算机技术领域，尤其涉及一种行人图像不变性特征提取和无监督行人重识别方法与装置。

背景技术

当今时代，深度学习发展迅猛。在近几年，深度学习技术被广泛应用到各个领域中，而行人重识别是一种具有急切需求而又影响深远的图像检索和图像识别技术。该项技术旨在利用深度学习，分析不同监控摄像头中行人的表征特点，实现跨越摄像头的行人匹配和识别任务。在智能视频监控领域，相比人脸识别技术，行人重识别具有远距离、大范围和低分辨率可行等优点。朴素的行人重识别算法利用有标注的行人图像训练神经网络模型，从而针对行人图像中变化的行人姿态和背景环境，提取具有不变性的特征表达。然而，行人图像的收集和标注需要花费大量的人力物力；除此之外，由于明显的监控环境差异，每一个新的监控场景都需要重新收集并标注该监控场景中的行人图像，带来不可估量的成本代价。为了克服朴素的行人重识别算法对于数据标注的依赖，以及充分利用现有的标注图像，基于迁移学习和无监督学习的行人重识别算法应运而生。

现有的基于迁移学习和无监督学习的行人重识别算法主要分为三步进行：首先，基于已有的其他监控场景的辅助数据训练一个辅助的神经网络模型；然后，利用辅助的神经网络模型提取目标监控场景下行人图像的特征，通过无监督聚类的方式给行人图像赋予伪标签；最后利用生成的伪标签，训练新的神经网络模型，重新提取目标监控场景下行人图像的特征。这种做法有两个缺点：首先，由于巨大的监控环境差异，利用其他监控场景下的辅助数据训练的模型，在目标监控场景的行人图像上表现力很差；即利用辅助模型提取得到的目标监控场景下行人图像的特征，相同行人的特征可能相距很远，不同行人的特征可能相距很近。其次，传统的无监督聚类算法依赖于输入特征的良好分布；然而由于第一点原因，传统的无监督聚类算法很容易将相同的行人图像判断成不同的行人，而不同的行人图像判断成相同的人。

因此，如何更好的利用已有的辅助数据，以及如何避免对目标监控场景的行人图像进行错误聚类，这些是基于迁移学习和无监督学习的行人重识别算法亟待解决的问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种行人图像不变性特征提取和无监督行人重识别方法与装置。

本发明的目的是通过以下技术方案来实现的：一种基于迁移学习和无监督学习的行人图像不变性特征提取方法，包括：

通过模型分离实现神经网络部分知识迁移，从辅助模型中提取行人图像的行人主体的不变性特征表达。

利用K远邻算法估计潜在的相同行人，构建同一行人不同背景的联系，挖掘行人图像的背景风格的不变性特征表达。

综合行人主体和背景风格的不变性特征表达进行融合，得到完整的行人图像的不变性特征表达。

进一步地，事先利用有标注的辅助数据训练辅助的神经网络模型。

进一步地，所述模型分离，包括：

神经网络的卷积模块解耦，将卷积层中的卷积核分离为行人相关和背景相关等两部分。

神经网络的归一化模块解耦，将归一化层中的特征维度分离为行人相关和背景相关两部分。

进一步地，行人图像的行人主体的不变性特征表达，包括：从辅助神经网络中保留行人相关的卷积模块和归一化模块参数，提取行人主体的不变性特征表达。

进一步地，K远邻算法估计潜在的相同行人，包括：

寻找行人图像中距离最远的K张样本作为锚点，认为他们是不同的行人；

基于找到的每个锚点，寻找与其距离小的行人图像，认为这些图像与锚点为相同行人；

重复上述两个步骤若干次，得到若干组估计结果。

进一步地，挖掘行人图像的背景风格的不变性特征表达，包括：

从辅助神经网络中初始化背景相关的卷积模块和归一化模块参数；

基于K远邻算法估计潜在的相同行人的结果，重新优化背景相关的卷积模块和归一化模块参数；

根据训练得到的神经网络，提取背景风格的不变性特征表达。

进一步地，综合行人主体和背景风格的不变性特征表达进行融合，包括：针对神经网络中每一个卷积层和归一化层，通过特征级联的方法进行特征融合。

一种无监督行人重识别的方法，包括：采用上述的基于迁移学习和无监督学习的行人图像不变性特征提取方法，获取行人图像的不变性特征表达，在目标监控场景中对不同监控摄像头下相同的行人进行匹配和识别。

无监督包括：不使用目标监控场景中带有标注的行人图像数据，仅能使用无标注的行人图像数据；可以使用已有的其他监控场景中带有标注的行人图像数据。

行人图像不变性特征包括：行人主体的不变性特征表达和背景风格的不变性特征表达。

一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述的方法。

一种用于实现接口预加载的装置，包括存储器和处理器，存储器中存储有以下可被处理器执行的指令：用于执行上述的方法的步骤。

本发明的有益效果是：本发明提供了一种基于迁移学习和无监督学习的行人图像不变性特征提取方法与装置和无监督行人重识别的方法与装置，能够在没有目标监控场景数据标注的条件下，分别处理目标监控场景下行人图像的行人主体和背景风格不同的内容信息。这种方法能够充分利用辅助数据和辅助模型学习得到的行人主体的知识内容，以及充分挖掘目标数据中背景风格的知识内容，解决了当前基于迁移学习和无监督学习的行人重识别算法中由于监控环境差异带来的学习效率和效果低下的问题。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明三维时空局部特征提取方法的流程图；

图2为本发明三维时空局部特征提取装置的组成结构示意图；

图3为本发明三维时空对象识别方法的流程图；

图4为本发明三维时空对象识别装置的组成结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

深度学习(Deep Learning)：深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

行人重识别(Person Re-Identification)：行人重识别是智能视频分析领域的研究热点，得到了学术界的广泛重视，旨在非重叠视角域多摄像头网络下进行的行人匹配，即确认不同位置的摄像头在不同的时刻拍摄到的行人目标是否为同一人。与其他监控识别技术，如人脸识别相比，行人重识别具有远距离、广泛围以及低分辨率可行等优势。

迁移学习(Transfer Learning)：迁移学习指的是在一种环境中学到的知识被用在另一个领域中来提高它的泛化性能。随着越来越多的机器学习应用场景的出现，充分利用已有标注的数据和模型学习得到的知识，直接应用于新的应用和领域，迁移学习至关重要。

无监督学习(Unsupervised Learning)：无监督学习旨在不依赖于数据标注，从数据分布的角度出发，分析数据与数据之间关系的学习方法。

行人图像的行人主体和背景风格(Human Components and BackgroundComponents of Pedestrian Samples)：行人图像的行人主体表示行人图像中行人身份直接相关的图像前景内容，诸如行人的体态、姿势、角度等等；行人图像的背景风格表示与行人身份间接相关的图像背景内容，诸如行人衣着颜色、光照条件、街道背景等等。行人图像的行人主体内容和背景风格能从不同的侧面帮助模型识别不同人的身份。

在本发明一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本发明实施例中，通过模型分解的方式，神经网络中的卷积层和归一化层被分解为处理行人图像中行人主体和背景风格两种独立的子模块；行人主体和背景风格子模块的输出结合行人完整的行人图像的特征表达。基于利用其他监控场景下的辅助数据训练的神经网络模型，通过保留处理行人图像中行人主体的子模块，以实现神经网络部分知识迁移，从而提取目标监控场景中行人图像的行人主体不变性特征。其次，针对目标监控场景下的行人图像，通过无监督的K远邻聚类算法，估计潜在的相同行人，构建同一行人不同背景的联系，提取目标监控场景中行人图像背景风格不变性特征。综合行人图像中行人主体不变性特征和背景风格不变性特征，得到行人图像完整的特征表达，从而实现基于无监督条件的目标场景下的行人重识别任务。

在本发明实施例中，模型分解的方法分离了行人图像的行人主体和背景风格两大主要内容，并相对独立地进行处理。这种方式有效地避免了因为巨大的监控场景环境的差异带来的影响——利用辅助模型仅仅提取目标监控场景下行人图像的行人主体的不变性特征，避免了辅助模型无法处理目标场景下未知的行人图像的背景风格的问题。模型分解的方法便于从辅助模型中迁移部分可用的知识，从而提高了辅助模型的利用效率；最终结合基于无监督的K远邻聚类挖掘得到的目标场景下行人图像的背景风格的知识，获取能够同时针对目标场景下行人图像变化的行人主体和背景风格具有不变性的特征表达。

实施例1

图1为本发明基于迁移学习和无监督学习的行人图像不变性特征的提取方法的流程图，如图1所示，包括：

步骤100：通过模型分离实现神经网络部分知识迁移，从辅助模型中提取行人图像的行人主体的不变性特征表达。

在一种示例性实例中，模型分离为：对神经网络中的基础计算模块进行解耦操作，包括卷积模块的解耦和归一化模块的解耦。其中，神经网络的卷积模块解耦，旨在将卷积层中的卷积核分离为处理行人图像不同内容的两部分；而神经网络的归一化模块解耦，旨在将归一化层中的特征维度分离为处理行人图像不同内容的两部分。

在一种示例性实例中，行人图像的不同内容包括：行人身份直接相关的图像前景内容，诸如行人的体态、姿势、角度等等；行人身份间接相关的图像背景内容，诸如行人衣着颜色、光照条件、街道背景等等。

模型分离的目的在于针对行人图像的行人主体和背景风格的不同内容，利用不同的网络子模块相对独立地分别处理，避免了目标监控场景下由于明显的背景风格差异导致的模型对于背景风格内容处理的不足，同时便于后续单独进行部分知识(行人主体内容)的迁移。

模型分离为多监控场景的行人图像的训练提供了便利的条件，也为辅助监控场景中学习得到的行人主体的不变性知识向目标监控场景需求的行人主体的不变性知识的迁移，创造了有利条件。模型分离充分挖掘和利用了辅助数据和辅助模型中可迁移的知识内容，为后续无监督学习创造了先决条件。

因此，本发明利用模型分离的方法，针对性地分别处理行人图像的不同内容，从而实现对于图像部分内容处理的模块的迁移，在本发明中称为部分知识迁移。利用迁移的模块提取目标监控场景下行人图像的特征，获取针对特定图像内容的不变性特征表达。

在一种示例性实例中，行人图像的内容包括行人主体和背景风格。由于不同监控场景下行人主体内容接近，不同背景风格内容相差甚远。因此，通过网络分离的方式，仅迁移辅助模型中行人主体的子模块，对目标监控场景提取行人主体的不变性特征。

在本发明中，辅助数据可以来自一个已知的监控场景或者多个已知的监控场景，并且带有数据标注；而目标监控场景的行人图像数据没有数据标注。

步骤101：利用K远邻算法估计潜在的相同行人，构建同一行人不同背景的联系，挖掘目标监控下行人图像的背景风格的不变性特征表达。

在一种示例性实例中，对于目标监控场景的行人图像，通过辅助模型提取得到的行人主体的不变性特征，从而基于距离度量寻找K个相距最远的行人图像，并根据K个行人图像分别寻找其临近范围内的行人样本作为相同行人。重复前述过程若干次，以获取多组潜在的相同行人估计结果。

在一种示例性实例中，K取正整数，而且可以相对较小，比如100。

需要说明的是，按照实际需求，本步骤K也可以取较大的正整数，但要保证寻找到的K个行人图像距离尽可能大。

在一种示例性实例中，重复次数取正整数，而且尽可能大，比如10。

需要说明的是，按照实际需求，重复次数的增加会线性增加算法所需的存储和计算资源。具体的重复次数可以根据实际情况确定，并不用于限定本发明的保护范围。

在一种示例性实例中，距离度量利用杰卡德相似性系数。

需要说明的是，距离度量也可以采用欧式距离、余弦距离、散度距离等度量方法。具体的度量方法可以根据实际情况确定，并不用于限定本发明的保护范围。

本发明中，通过K远邻算法估计潜在的相同行人，用以重新训练神经网络中处理目标场景下行人图像的背景风格的子模块，从而提取目标监控下行人图像的背景风格的不变性特征表达。

步骤102：综合行人主体和背景风格的不变性特征表达进行融合，得到完整的行人图像的不变性特征表达。

在一种示例性实例中，本步骤可以包括：利用目标模型中处理行人主体的子模块，提取得到目标监控场景下行人图像的行人主体的不变性特征；利用目标模型中处理背景风格的子模块，提取得到目标监控场景下行人图像的背景风格的不变性特征。通过特征级联的方式，融合行人主体的不变性特征和背景风格的不变性特征，得到行人图像完整的特征表达。

需要说明的是，特征融合的方法也可以使用特征相加、相乘、外积等操作。具体的融合方法可以根据实际情况确定，并不用于限定本发明的保护范围。

本发明还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上任一项的局部特征提取方法。

本发明再提供一种计算机装置，包括存储器和处理器，其中，存储器中存储有上述任一项的局部特征提取方法的步骤。

实施例2

图2为本发明基于迁移学习和无监督学习的行人图像不变性特征的提取装置的组成结构示意图，如图2所示，至少包括：模型分离单元和特征融合模块；其中，

模型分离单元，用于分离神经网络模块，分别处理行人图像中行人主体和背景风格两种不同的图像内容，并做特征提取。

特征融合模块，用于对提取出的行人主体和背景风格的特征进行融合，形成完整的行人图像的特征表达。

在一种示例性实例中，模型分离单元包括：神经网络中卷积模块的分离，将卷积层中的卷积核解耦为行人相关和背景相关两部分；神经网络中归一化模块分离，将归一化层中的特征维度解耦为行人相关和背景相关两部分。

在一种示例性实例中，特征融合模块包括级联行人主体和背景风格的特征。

实施例3

图3为本发明模型分离示意图，本实施例以卷积层和归一化层为例，如图3所示，包括：

图3左表示卷积层的模型分离。根据卷积核的个数，按照一定比例分配，比如3比1，分成两组；其中一组用于处理行人图像中的行人主体内容，另一组用于处理行人图像中的背景风格内容。本实施例中，对于同一输入，行人主体内容相关的子模块(白色)和背景风格内容相关的子模块(绿色)对输入进行分别处理，得到的特征图经过级联后形成行人图像完整的特征表达。

图3右表示归一化层的模型分离。根据输入/输出特征图的通道数，按照一定比例分配，比如3比1，分成两组；其中一组用于处理行人图像中的行人主体内容，另一组用于处理行人图像中的背景风格内容。本实施例中，对于同一输入，行人主体内容相关的子模块(白色)和背景风格内容相关的子模块(绿色)对输入进行分别处理，得到的特征图经过级联后形成行人图像完整的特征表达。

实施例4

图4为本发明无监督行人重识别方法的流程图，如图4所示，包括：

步骤400：基于迁移学习和无监督学习的行人图像不变性特征提取方法，获取行人图像的不变性特征表达，包括：通过模型分离实现神经网络部分知识迁移，从辅助模型中提取行人图像的行人主体的不变性特征表达；利用K远邻算法估计潜在的相同行人，构建同一行人不同背景的联系，挖掘目标监控下行人图像的背景风格的不变性特征表达。

本步骤的实现可参见图1所示基于迁移学习和无监督学习的行人图像不变性特征的提取，这里不再赘述。

步骤401：综合行人主体和背景风格的不变性特征表达进行融合作为对象识别结果。

Claims

1.一种基于迁移学习和无监督学习的行人图像不变性特征提取方法，其特征在于，包括：

(1)通过辅助模型分离实现神经网络部分知识迁移，从辅助模型中提取行人图像的行人主体的不变性特征表达；

所述辅助模型分离，包括：

神经网络的卷积模块解耦，将卷积层中的卷积核分离为行人相关和背景相关；

神经网络的归一化模块解耦，将归一化层中的特征维度分离为行人相关和背景相关两部分；

所述行人图像的行人主体的不变性特征表达，包括：从辅助模型中保留行人相关的卷积模块和归一化模块参数，提取行人主体的不变性特征表达；

(2)利用K远邻算法估计潜在的相同行人，构建同一行人不同背景的联系，挖掘行人图像的背景风格的不变性特征表达；

(2.1)所述K远邻算法估计潜在的相同行人，包括：

(2.1.1)寻找行人图像中距离最远的K张样本作为锚点，认为他们是不同的行人；

(2.1.2)基于找到的每个锚点，寻找与其距离小的行人图像，认为这些图像与锚点为相同行人；

(2.1.3)重复步骤(2.1.1)～(2.1.2)若干次，得到若干组估计结果；

(2.2)所述挖掘行人图像的背景风格的不变性特征表达，包括：

从辅助模型中初始化背景相关的卷积模块和归一化模块参数；

根据训练得到的神经网络，提取背景风格的不变性特征表达；

(3)综合行人主体和背景风格的不变性特征表达进行融合，得到完整的行人图像的不变性特征表达。

2.根据权利要求1所述的基于迁移学习和无监督学习的行人图像不变性特征提取方法，其特征在于，事先利用有标注的辅助数据训练辅助模型。

3.根据权利要求1所述的基于迁移学习和无监督学习的行人图像不变性特征提取方法，其特征在于，综合行人主体和背景风格的不变性特征表达进行融合，包括：针对神经网络中每一个卷积层和归一化层，通过特征级联的方法进行特征融合。

4.一种无监督行人重识别的方法，其特征在于，包括：采用权利要求1～3任一项所述的基于迁移学习和无监督学习的行人图像不变性特征提取方法，获取行人图像的不变性特征表达，在目标监控场景中对不同监控摄像头下相同的行人进行匹配和识别；

无监督包括：不使用目标监控场景中带有标注的行人图像数据，仅能使用无标注的行人图像数据；可以使用已有的其他监控场景中带有标注的行人图像数据；

5.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行权利要求4所述的方法。

6.一种用于实现接口预加载的装置，包括存储器和处理器，其特征在于，存储器中存储有以下可被处理器执行的指令：用于执行权利要求4所述的方法的步骤。