CN112132014B

CN112132014B - 基于非督导金字塔相似性学习的目标重识别方法及系统

Info

Publication number: CN112132014B
Application number: CN202011003036.7A
Authority: CN
Inventors: 董文会; 曲培树; 刘汉平; 唐延柯; 陈慧杰; 高迎; 张俊叶
Original assignee: Dezhou University
Current assignee: Dezhou University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-04-12
Anticipated expiration: 2040-09-22
Also published as: NL2029214A; WO2022062419A1; NL2029214B1; CN112132014A

Abstract

本发明属于目标重识别领域，提供了一种基于非督导金字塔相似性学习的目标重识别方法及系统。其中，基于非督导金字塔相似性学习的目标重识别方法包括获取待查询样本图像及目标场景域图像；经目标重识别模型输出目标场景域中与待查询样本图像匹配的目标图像；其中，目标重识别模型的训练和更新过程为：对源场景域和目标场景域图像进行非督导多尺度水平金字塔相似性学习；根据相似性对目标场景域样本图像进行自动标注并筛选出训练样本来对初始模型进行训练和更新，得到目标重识别模型。通过不断的迭代训练和更新，使得模型越来越适应目标场景域中的样本数据，能够提高行人目标重识别的准确性。

Description

基于非督导金字塔相似性学习的目标重识别方法及系统

技术领域

本发明属于目标重识别领域，尤其涉及一种基于非督导金字塔相似性学习的目标重识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目标重识别的目的是将需要查找的行人目标图像与在不同摄像机下获得的行人图像进行比较和匹配，查找该目标行人在不同摄像机监控场景中是否出现。该项技术在智能监控和公共安全方面有重要作用。在复杂的监控环境中(如光照发生变化、目标被其他事物遮挡、不同的监控视角等)，该问题一直具有挑战性。

最近，基于深度学习框架的目标重识别方法获得了较好的性能，该类方法可以分为督导式深度目标重识别方法和非督导式深度目标重识别方法。督导式深度目标重识别方法具有较高的识别正确率，但是该方法需要对监控场景中的大量行人目标进行标注，这将会消耗大量的人力和物力。对于不同的应用场景该方法不具备自适应性，需要重新标注数据。非督导式深度目标重识别方法无需标注监控场景中的数据，其难点是如何有效的学习行人目标的模型。在该类方法中基于非督导交叉域学习的深度重识别方法具有较好的性能。基于非督导交叉域学习的深度重识别方法利用已标注的源场景域数据训练深度学习框架获得原始模型，在目标场景域中利用未标注数据对原始模型进行训练，使得模型自适应目标场景域的数据并获得准确的目标模型。由于源场景域与目标场景域的不同，如何获得良好的自适应模型是这类方法需要解决的关键问题。目前解决这一问题的方法有：学习不变特征的目标模型并通过属性和标号对齐的方式进行自适应更新、通过对抗网络在目标域中生成与源场景已标注图像样式一致的图像作为训练样本进行自适应或者学习不同摄像机中相似性的不一致性等。这些方法在性能上仍然不如相应的督导式方法，在构建模型、迁移算法等方面仍存在问题，大部分采用的是整体特征模型，当目标被遮挡或监控视角改变时性能将出现大幅度下降。

综上所述，发明人发现，目前的目标重识别方法所构建的目标模型不准确，而且目标模型不适用未标注样本特性。

发明内容

为了解决上述问题，本发明提供一种基于非督导金字塔相似性学习的目标重识别方法及系统，其通过非督导聚类的方式对于不同尺度的特征块进行分类标识，并筛选出有效的数据样本对初始模型进行训练和更新，通过不断的迭代训练和更新，使得模型越来越适应目标场景域中的样本数据，能够提高行人目标重识别的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于非督导金字塔相似性学习的目标重识别方法。

一种基于非督导金字塔相似性学习的目标重识别方法，包括：

获取待查询样本图像及目标场景域图像；

经目标重识别模型输出目标场景域中与待查询样本图像匹配的目标图像；

其中，目标重识别模型的训练和更新过程为：

对源场景域和目标场景域图像进行非督导多尺度水平金字塔相似性学习；

根据相似性对目标场景域样本图像进行自动标注并筛选出训练样本来对初始模型进行训练和更新，得到目标重识别模型。

本发明的第二个方面提供一种基于非督导金字塔相似性学习的目标重识别系统。

一种基于非督导金字塔相似性学习的目标重识别系统，包括：

图像获取模块，其用于获取待查询样本图像及目标场景域图像；

目标重识别模块，其用于经目标重识别模型输出目标场景域中与待查询样本图像匹配的目标图像；

其中，目标重识别模型的训练和更新过程为：

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明的多尺度金子塔特征分块简单通用，可以从整体到局部全面描述样本特征，充分挖掘样本的辨识性信息。

本发明将多尺度金字塔相似性学习融入非督导深度卷积神经网络，构建了多尺度的特征深度模型来学习未标识样本的特性，该模型全面学习了不同样本、不同尺度特征块之间的相似性，具有稳定和鲁棒的特性。

本发明在迁移学习中设计了度量源场景域与目标场景域的相似性及目标场景域样本间的相似性距离度量函数，在此基础上各尺度特征块利用DBSCAN聚类实现了样本自动标注和筛选。通过此方法筛选的样本更加有利于模型的迁移和自适应，从而获得更好的性能。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于非督导金字塔相似性学习的目标重识别方法流程图；

图2是本发明实施例的初始模型深度卷积神经网络框架图

图3是本发明实施例的多尺度金字塔特征分块流程图；

图4是本发明实施例的自适应迁移学习框架图；

图5是本发明实施例的不同尺度对应的Rank-1识别准确率曲线图；

图6是本发明实施例的不同参数对应的Rank-1识别准确率曲线图；

图7是本发明实施例的不同参数p对应的Rank-1识别准确率曲线图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例的基于非督导金字塔相似性学习的目标重识别方法，包括：

步骤1：获取待查询样本图像及目标场景域图像；

步骤2：经目标重识别模型输出目标场景域中与待查询样本图像匹配的目标图像；

其中，目标重识别模型的训练和更新过程为：

标注和筛选后的样本用于继续训练模型，经过若干次的迭代训练将使得更新后的模型更加适应目标场景区域，从而获得更高的目标重识别准确率。

在具体实施中，初始模型是为目标场景域未标识样本的前期学习提供经验，提高初步学习的准确率。初始模型通过源场景域中的已标注样本训练构建的深度卷积神经网络而获得。

本实施例的初始模型的具体实施例如图2所示，初始模型为改造的ResNet-50深度卷积神经网络。

此处需要说明的是，在其他实施例中，初始模型也可采用其他现有的深度卷积神经网络模型来实现，此处不再详述。

下面以改造的ResNet-50深度卷积神经网络为例来说明：

具体改造为：

保留ResNet-50的前四层，添加均匀池化层和两个全连接层FC1和FC2。FC1的输出维数为2048，FC2的输出维数为实际实体的个数。

在损失函数设计为交叉熵损失函数(cross entropy loss)和三元组损失函数(triplet loss)的联合，在第一个全连接层使用三元组损失函数，在第二个全连接层使用交叉熵损失函数。两种损失函数的联合将充分发挥分类和验证两种方法的优势。

三元组损失函数(triplet loss)采用batch-hard triplet loss,每一个小批量通过随机采样P个目标实体的K个样本实例构建，其定义如下：

其中，

为选中样本的特征；

为与

标号一致的样本特征，

与

标号不一致的样本特征，m为边缘参数。

交叉熵损失函数(cross entropy loss)的定义为：

其中，

分别为实际标号和预测的标号，_lCE为样本的交叉熵损失。

源场景域训练时使用的损失函数L_source为公式(1)和(2)的叠加。

L_source＝L_triplet+L_CE (3)

以用Market1501公共数据库进行训练为例，其库中行人的个数为750个，则FC2的输出维数为750。在训练过程中使用的损失函数为交叉熵损失函数和三元组损失函数。

非督导多尺度金字塔相似性学习为：

非督导多尺度相似性学习用于挖掘目标场景域样本与源场景域样本之间以及目标场景域内样本之间在多种尺度上的相似性。目标场景域样本与源场景域样本之间相似性学习主要是为了挖掘源场景与目标场景域之间的相似性，该相似性的挖掘有助于初始模型向目标场景域的迁移，尤其初始学习阶段。目标场景域内样本间相似性学习主要是为了挖掘样本间的相似度，为目标域样本的自动标注提供依据。

非督导多尺度金字塔相似性学习的具体方案如下：

设将第j幅目标场景域的样本图像

输入初始模型后获得的特征图为

根据设置的尺度参数σ，特征图被均匀的水平分割为2^σ块，对每一分块均匀池化后，可以获得特征集合

多尺度金字塔体现在：设σ＝σ₀，则尺度参数集合可以设置为小于σ₀的所有正整数的集合{0，1，…，σ₀}，则对于特征图为

最终获得的多尺度金字塔特征集为

该集合中包含了从整体(尺度参数为0)到2^σ个局部特征的不同尺度的特征，可以充分的表述该幅图像的特性。

目标场景域样本与源场景域样本之间相似性定义为：

其中，

为目标场景域样本特征

在源场景域的最近邻样本。

越小说明该样本越与源场景域相近。对源场景和目标场景域中对应的分块特征利用公式(4)计算二者的相似性，可以充分分析两个不同场景域的相似性。

为更准确的实现目标场景域内样本之间的相似性学习，本方案采用每一个样本的上下文环境来描述相应样本，上下文环境描述具体采用K相互近邻样本向量(k-reciprocalvector)。样本

的K相互近邻样本向量v_i，k定义为：当样本

是样本

的K相互近邻时

当二者不是K相互近邻时ν_i，k＝0。

目标场景域内样本之间的相似性定义为：

其中，

为目标场景域中的两个样本特征，v_i，k，v_j，k分别为样本i和j的K相互近邻样本向量，N_T为目标场景域中的样本总数。对所有的样本特征块使用公式(5)可以计算相应分块特征对应的相似性。

图3为多尺度金字塔特征分块的实施例流程图。具体为将特征图按照尺度参数σ,将特征图均匀分成2^σ块。多尺度性体现在对特征图采用多个尺度进行分块，如图3中采用的尺度为{0，1，2，3}，特征图最终被分解{1,2,4,8}块，这些特征块经过均匀池化形成多尺度金字塔特征。

在目标场景域样本自动标注及训练样本筛选的过程中：

样本标注和样本筛选主要用于训练模型，使用准确标注且适当的样本对模型进行训练有助于获得较高的识别准确率。

样本自动标注和筛选方案为：对不同尺度分块样本集合采用非督导聚类算法DBSCAN进行聚类并分配伪标签。DBSCAN聚类中采用的距离标准为公式(4)和(5)两种距离的结合，具体为：

其中，

为目标场景样本的第k个金字塔特征块，β∈[0，1]为平衡参数。

为筛选数据样本，将所有通过公式(6)计算的样本对距离从小到大排序，设置DBSCAN聚类算法的扫描半径ε为前pN个距离的均值。其中p为比例因子，N为目标场景中样本对的总数。只有在扫描半径内的样本才会被选择。

在模型的训练和更新的过程中：

模型的训练和更新用于实现模型由源场景域到目标场景域的迁移，训练和更新后的模型将更加适应目标场景域，从而具有良好的性能。

在目标场景域训练时使用的损失函数是将所有的金字塔特征块作为独立的个体计算，分别代入公式(3)中并求累加和：

目标场景域的自适应迁移学习的具体过程如图4所示，所有样本按图3过程获得多尺度金字塔特征，然后采用DBSCAN非督导聚类算法进行标注和筛选，DBSCAN聚类的距离标准由公式(6)计算获得，样本的筛选按照公式(6)计算获得的距离按照由小到大排序后，在扫描半径ε内的样本用于自适应迁移学习的训练，其余的将被排除在外。每一个尺度的金字塔特征都需要作为独立个体进行DBSCAN聚类，即每一个样本将获得多个尺度范围上的标注。目标场景域的自适应迁移学习使用的深度学习框架基本与初始模型图2相似，不同在于训练过程中每一尺度的样本特征均会作为独立个体参与其中，因此的损失函数为公式(7)是所有尺度上损失函数的累加和。

模型的训练和更新采用多次迭代训练的方式，每次迭代都重新标注获取样本特征，重新标注样本和筛选，随着迭代次数的增加，模型将逐步适应目标场景域样本，从而获得准确的识别率。在进行目标重识别时将查询样本图像输入模型中即可获取匹配的目标图像，从而实现查询目的。

通过以下仿真进一步说明：

对本实施例的目标重识别方法中的关键性参数选择进行了仿真计算，包括尺度参数σ、距离标准计算中融合与源场景相似性和目标场景域样本相似性的参数β及计算ε需要的比例参数p。仿真中使用的源场景域图像库为DukeMTMC-ReID，目标场景域图像库为Market1501，二者均为公用目标重识别常用库。仿真结果可以为相关技术人员在具体案例中的应用提供参考。

图5为不同尺度参数时本实施例的该方案Rank-1的识别准确率，可见不同的尺度参数将获得不同的识别率，仿真结果显示当σ＝2时，即对应的参数集合为σ＝{0,1，2}时将具有最高的识别准确率。

图6为不同参数β对应的Rank-1的识别准确率。由公式(6)距离标准计算中可见β的作用为相似性学习中两种相似性所占的权重比例，通过仿真结果可见，当β＝0.1时，即与源场景相似性比重为0.1，目标场景域样本相似性占0.9时将获得最高的Rank-1的识别准确率。

图7为不同比例参数p对应的Rank-1识别率准确率。本实施例中扫描半径ε设置为前pN个距离的均值，其中N是样本对的个数。由于N的个数很大，因而p的具体设置将对识别准确率的影响较大。通过仿真结果可见，当p设置为1.7×10^-3时识别准确率最高。

实施例二

本实施例的基于非督导金字塔相似性学习的目标重识别系统，包括：

其中，目标重识别模型的训练和更新过程为：

本实施例的基于非督导金字塔相似性学习的目标重识别系统的各个模块与实施例一中的基于非督导金字塔相似性学习的目标重识别方法中步骤一一对应，其具体实施过程如实施例一所述，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非督导金字塔相似性学习的目标重识别方法，其特征在于，包括：

获取待查询样本图像及目标场景域图像；

其中，目标重识别模型的训练和更新过程为：

根据相似性对目标场景域样本图像进行自动标注并筛选出训练样本来对初始模型进行训练和更新，得到目标重识别模型；

其中，非督导多尺度金字塔相似性学习的方案如下：

设将第j幅目标场景域的样本图像

输入初始模型后获得的特征图为

根据设置的尺度参数σ，特征图被均匀的水平分割为2^σ块，对每一分块均匀池化后，获得特征集合

多尺度金字塔体现在：设σ＝σ₀，则尺度参数集合设置为小于σ₀的所有正整数的集合{0,1，…，σ₀}，则对于特征图为

最终获得的多尺度金字塔特征集为

在非督导多尺度水平金字塔相似性学习的过程中，目标场景域样本与源场景域样本之间相似性可表示为1与自然对数项的差值，该自然对数项是目标场景域样本特征与其在源场景域的最近邻样本之间距离取负后的自然对数。

2.如权利要求1所述的基于非督导金字塔相似性学习的目标重识别方法，其特征在于，初始模型通过源场景域中的已标注样本训练构建的深度卷积神经网络而获得。

3.如权利要求1所述的基于非督导金字塔相似性学习的目标重识别方法，其特征在于，在非督导多尺度水平金字塔相似性学习的过程中，利用初始模型在目标区域中提取目标场景域中未标识样本的特征图并将其进行不同尺度的水平分块，利用从全局到不同局部的特征来挖掘未标识样本的辨识性信息。

4.如权利要求1所述的基于非督导金字塔相似性学习的目标重识别方法，其特征在于，在非督导多尺度水平金字塔相似性学习的过程中，目标场景域内样本之间的相似性为1与比值的差值，该比值为任意两个样本K相互近邻样本向量的较小者的累加和与任意两个样本K相互近邻样本向量的较大者的累加和的比值。

5.如权利要求1所述的基于非督导金字塔相似性学习的目标重识别方法，其特征在于，在自动标注并筛选出训练样本的过程中，通过非督导聚类的方式对于不同尺度的特征块进行分类标识，并筛选出有效的数据样本。

6.如权利要求1所述的基于非督导金字塔相似性学习的目标重识别方法，其特征在于，在目标重识别模型的训练和更新过程中，采用多次迭代训练的方式，每次迭代都重新标注获取样本特征，重新标注样本和筛选，随着迭代次数的增加，目标重识别模型逐步适应目标场景域样本。

7.一种基于非督导金字塔相似性学习的目标重识别系统，其特征在于，包括：

其中，目标重识别模型的训练和更新过程为：

其中，非督导多尺度金字塔相似性学习的方案如下：

设将第j幅目标场景域的样本图像

输入初始模型后获得的特征图为

最终获得的多尺度金字塔特征集为

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于非督导金字塔相似性学习的目标重识别方法中的步骤。