CN111027442A

CN111027442A - 用于行人重识别的模型训练方法、识别方法、装置及介质

Info

Publication number: CN111027442A
Application number: CN201911223130.0A
Authority: CN
Inventors: 李珂; 孙星; 程昊; 杨丰祥; 彭湃; 余宗桥; 郭晓威; 黄小明; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-17

Abstract

本申请公开了一种用于行人重识别的模型识别方法、装置、设备及介质，所述方法属于计算机视觉领域，所述方法包括：获取主模型和辅助模型；对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；通过所述辅助模型从所述聚类失败样本中挖掘出第一样本子集；与所述聚类成功样本中的第二样本子集组合为混合样本子集；采用所述混合样本子集对所述主模型进行训练；通过所述主模型从所述聚类成功样本中挖掘出第三样本子集；采用所述第三样本子集对所述辅助模型进行训练；交替迭代上述两个步骤至满足结束条件，将训练后的所述主模型确定为应用于所述行人重识别的模型。

Description

用于行人重识别的模型训练方法、识别方法、装置及介质

技术领域

本申请实施例涉及人机交互领域，特别涉及一种用于行人重识别的模型训练方法、识别方法、装置及介质。

背景技术

行人再识别的目标是判断来自无重叠视域内不同摄像机拍摄的行人是否为同一行人。由于存在摄像机拍摄的视频分辨率较低、不同摄像机之间的光线不同、拍摄角度不同，以及行人遮挡等问题，使得同类行人在不同摄像机下可能存在着较大的差异，因此行人再识别颇具挑战性。

相关技术中采用深度学习模型来实现行人再识别。深度学习模型是采用训练集训练得到的。大多数深度学习模型在与训练集类似的场景下能够取到很好的效果，但迁移到新场景中时都会面临很严重的效果损失。一种常见的解决方法是在新场景中通过聚类算法给图像标上伪标签，利用伪标签对深度学习模型重新进行训练，从而提升深度学习模型在新场景下的效果。

但是聚类算法会引入噪声标签并失败掉低置信度的样本，导致深度学习模型在跨域适应训练后所提升的效果有限。

发明内容

本申请实施例提供了一种用于行人重识别的模型识别方法、装置、设备及存储介质，可以解决相关技术只能聚类算法会引入噪声标签并失败掉低置信度的样本，导致深度学习模型在跨域适应训练后所提升的效果有限的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种用于行人重识别的模型训练方法，所述方法包括：

获取主模型和辅助模型；

对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；

通过所述辅助模型从所述聚类失败样本中挖掘出第一样本子集；与所述聚类成功样本中的第二样本子集组合为混合样本子集；采用所述混合样本子集对所述主模型进行训练；

通过所述主模型从所述聚类成功样本中挖掘出第三样本子集；采用所述第三样本子集对所述辅助模型进行训练；

交替迭代上述两个步骤至满足结束条件，将训练后的所述主模型确定为应用于所述行人重识别的模型。

获取待识别的监控图像；

通过主模型提取所述监控图像的图像特征，所述主模型是通过混合样本子集训练得到的，所述混合样本子集中的第一样本子集是辅助模型从聚类失败样本中挖掘出的，所述混合样本子集中的第二样本子集是聚类成功样本的子集，所述聚类失败样本和所述聚类成功样本是采用聚类算法对无标签样本集中的样本聚类的到的，所述辅助模型是通过所述主模型从所述聚类成功样本中挖掘的第三样本子集训练得到的；

根据所述图像特征进行所述行人重识别。

根据本申请的一个方面，提供了一种用于行人重识别的模型训练装置，所述装置包括：

获取模块，用于获取主模型和辅助模型；

聚类模块，用于对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；

主训练模块，用于通过所述辅助模型从所述聚类失败样本中挖掘出第一样本子集；与所述聚类成功样本中的第二样本子集组合为混合样本子集；采用所述混合样本子集对所述主模型进行训练；

辅助训练模块，用于通过所述主模型从所述聚类成功样本中挖掘出第三样本子集；采用所述第三样本子集对所述辅助模型进行训练；

确定模块，用于交替迭代上述两个步骤至满足结束条件，将训练后的所述主模型确定为应用于所述行人重识别的模型。

根据本申请的一个方面，提供了一种用于行人重识别的模型识别装置，所述装置包括：

获取模块，用于获取待识别的监控图像；

提取模块，用于通过主模型提取所述监控图像的图像特征，所述主模型是通过混合样本子集训练得到的，所述混合样本子集中的第一样本子集是辅助模型从聚类失败样本中挖掘出的，所述混合样本子集中的第二样本子集是聚类成功样本的子集，所述聚类失败样本和所述聚类成功样本是采用聚类算法对无标签样本集中的样本聚类的到的，所述辅助模型是通过所述主模型从所述聚类成功样本中挖掘的第三样本子集训练得到的；

重识别模块，用于根据所述图像特征进行所述行人重识别。

根据本申请的另一方面，提供了一种计算机设备(或装置)，所述计算机设备包括存储器和处理器；所述存储器存储有至少一条程序，所述至少一条程序由所述处理器加载并执行以实现如上所述的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现如上所述的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

根据本申请的另一方面，提供了一种计算机程序产品，所述计算机程序产品中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现如上所述的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过主模型和辅助模型之间进行非对称协同教学训练，由辅助模型从聚类失败样本中为主模型挖掘出尽量多样化的样本，由主模型从聚类成功样本中为辅助模型挖掘出尽量干净的样本，交替对主模型和辅助模型进行协同教学，能够使得主模型充分利用聚类失败样本中的有效数据信息，获得尽可能高的模型识别效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种计算机系统的示意图；

图2是本申请另一个示例性实施例提供的用于行人重识别的模型训练方法的流程图；

图3是本申请另一个示例性实施例提供的用于行人重识别的模型训练方法的原理图；

图4是本申请另一个示例性实施例提供的用于行人重识别的模型训练方法的流程图；

图5是本申请另一个示例性实施例提供的三元组的示意图；

图6是本申请另一个示例性实施例提供的用于行人重识别的模型训练方法的原理图；

图7是本申请另一个示例性实施例提供的用于行人重识别的模型训练方法的流程图；

图8是本申请另一个示例性实施例提供的小损失的聚类失败样本和大损失的聚类失败样本的对比图；

图9是本申请另一个示例性实施例提供的三种学习框架的对比图；

图10是本申请另一个示例性实施例提供的用于行人重识别的模型识别方法的流程图；

图11是本申请另一个示例性实施例提供的用于行人重识别的轨迹还原功能的效果示意图；

图12是本申请另一个示例性实施例提供的用于行人重识别的模型训练装置的框图；

图13是本申请另一个示例性实施例提供的用于行人重识别的模型识别装置的框图；

图14是本申请另一个示例性实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区域分开。例如，在不脱离各种所述示例的范围的情况下，第一方向可以被称为第二方向，并且类似地，第二方向可以被称为第一方向。第一方向和第二方向都可以是方向，并且在某些情况下，可以是单独且不同的方向。

在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”，“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“inCludes”“inCluding”“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

根据上下文，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

首先对本申请涉及的若干个名词进行简介：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

行人重识别：又称行人再识别，它是完成一个行人在不同的摄像头不同时间段再次被识别出来的图像或者视频检索任务。比如，一个大人带着个孩子去游玩，由于疏忽小孩和大人走散了。当大人发现已经看不到孩子了。这个时候向警察求助帮忙找孩子，而城市里有大量的摄像头搜集到很多视频。如果人工浏览这些视频耗时费力容易出现误检漏检。而通过行人重识别技术，输入一张孩子的照片，然后在视频中匹配这张照片来寻找孩子。这比人工搜索大概节省了95％的工作时间。

领域(简称域)差异：对一个训练集中样本子集产生整体性分布偏差的因素，比如对于行人重识别，不同地区的建筑风格不同，可视为一种领域差异；不同地区的日照环境不同，也可视为一种领域差异；不同地区的行人穿着不同(比如短袖和棉袄)，也可视为一种领域差异；不同地区的行人肤色差异不同，也可视为一种领域差异。

有标签样本集：每个样本具有人工和/或机器标定的标签，由“图像+标签”形成的训练集。

无标签样本集：每个样本不具有人工和/或机器标定的标签，仅由“图像”形成的训练集。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明。

图1示出了本申请一个示例性实施例提供的监控系统的结构框图。该监控系统100包括：摄像头120和计算机设备140。

摄像头120用于采集监控图像，该监控图像可以是含有行人的图像。摄像头120可以为多个。多个摄像头120中可以存在不同型号、不同类别、不同分辨率、不同处理性能的摄像头。多个摄像头120可分布于同一读取或不同地区的不同监控位置。每个摄像头120采集各自对应的监控图像。

摄像头120通过有线网络或无线网络与计算机设备140相连。

计算机设备140接收摄像头120上报的监控图像。计算机设备140对监控图像中的行人重识别任务的计算。计算机设备140中设置有用于行人重识别的深度学习模型。

相关技术中采用深度学习模型来实现行人再识别。深度学习模型是采用有标签样本集训练得到的。大多数深度学习模型在与有标签样本集类似的场景(域A)下能够取到很好的效果，但迁移到新场景(域B)中时都会面临很严重的效果损失。常见的解决方法是采集新场景中无标签样本集，通过聚类算法对无标签样本集中的样本标上伪标签(也即成功聚类为一簇的样本具有同一个标签)，利用伪标签对深度学习模型重新进行训练，从而提升深度学习模型(简称模型)在新场景下的效果。但是该方式至少存在如下三个技术问题：

第一，聚类算法会引入噪声标签，这些噪声标签如果不加以处理，直接用来训练的话，会对模型的效果产生严重的负面影响，使得模型向错误的方向进行优化，进而导致模型提取的图像特征失效。

其二，聚类算法会失败掉那些低置信度的样本，这会极大地限制样本的多样性，导致用来训练模型的样本多为简单样本，进而使得模型在训练后的效果提升有限，无法获取具有良好判别能力的特征表达。

第三，传统的抗噪训练方法，如“协同教学”，容易陷入局部极优。“协同教学”通过选取损失函数值较小的样本作为“纯净样本”进行网络微调，但是仅仅使用损失函数值较小的样本并不能在大范围上更新模型参数，使得模型陷入局部极优，对模型的精度提升产生阻碍。

本申请提出的非对称协同教学网络在聚类方案的基础上，通过显式地在聚类后增加一个样本过滤流程，挖掘聚类失败样本中的小损失样本可以被更有效地利用。为了达成这一目标，本申请设计了一个非对称互学习的框架。该框架可以很好地抵抗聚类后的标签噪声。具体来说，两个模型(主模型和辅助模型)为彼此选择尽可能干净的标签样本，与此同时，辅助模型用尽可能纯净的样本来训练，主模型用尽可能多样化的样本来训练，使得两个模型可以在迭代中互相促进。从而解决了当前的主流聚类算法的不足，克服了行人再识别算法在迁移到新场景后效果损失严重的问题。

图2示出了本申请一个示意性实施例提供的用于行人重识别的模型训练方法的流程图。该方法可以应用于图1所示的计算机设备来执行。该方法包括：

步骤201，获取主模型和辅助模型；

主模型是用来提取监控图像中的行人特征的模型，辅助模型是用来辅助训练主模型的模型。主模型和辅助模型在训练时的样本不同，因此称为非对称协同教学。

可选地，主模型和辅助模型是通过同一个机器学习模型初始化得到的。该机器学习模型是具有图像特征提取能力的模型。在一个示例中，机器学习模型是使用域A中的有标签样本集中的样本训练得到的模型。

步骤202，对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；

聚类成功样本是指由聚类算法聚类出的置信度高于预设条件的样本，聚类失败样本是指聚类算法聚类出的置信度低于预设条件的样本。

属于同一个簇的聚类成功样本具有同一个标签(re-ID)，每个标签代表一个行人。

虽然聚类失败样本在聚类过程中失败了，但是聚类失败样本中仍然含有多样化的样本，比如行人转身背对或侧对摄像头的监控图像，很可能就属于聚类失败样本；又比如，日光或灯光较暗的监控图像，很可能就属于聚类失败样本。

步骤203，通过辅助模型从聚类失败样本中挖掘出第一样本子集；与聚类成功样本中的第二样本子集组合为混合样本子集；采用混合样本子集对主模型进行训练；

第一样本子集是由辅助模型从聚类失败样本中挖掘出的尽可能多样化的样本子集。将第一样本子集与聚类成功样本中的第二样本子集混合为混合样本子集后，能够形成多样化的样本子集来对主模型进行训练。

其中，第一样本子集的第一样本数量小于第二样本子集中的第二样本数量。比如，第一样本数量等于第二样本数量*K％。K是小于100的正整数。

步骤204，通过主模型从聚类成功样本中挖掘出第三样本子集；采用第三样本子集对辅助模型进行训练；

第三样本子集是由主模型从聚类成功样本中挖掘出的尽可能纯净的样本子集。

步骤205，交替迭代上述两个步骤至满足结束条件，将训练后的主模型确定为应用于行人重识别的模型。

结束条件包括但不限于：损失函数值最小化，或，迭代次数达到预定次数。

综上所述，本实施例提供的方法，通过主模型和辅助模型之间进行非对称协同教学训练，由辅助模型从聚类失败样本中为主模型挖掘出尽量多样化的样本，由主模型从聚类成功样本中为辅助模型挖掘出尽量干净的样本，交替对主模型和辅助模型进行协同教学，能够使得主模型充分利用聚类失败样本中的有效数据信息，获得尽可能高的模型识别效果。

此外，上述非对称教学框架将难样本(第一样本子集)引入早期的re-ID域适应过程中，使得模型跳出局部最优，从而在跨域适应过程中能更好地提升模型的识别精度。

结合参考图3，本申请提供的方法至少包括两步阶段：

第一步，聚类；

当采用源域(域A)的有标签样本集训练得到深度学习模型m后，可以将深度学习模型m迁移至目标域(域B)中使用。为了提高深度学习模型m在目标域的识别效果，获取目标域的无标签样本集。采用深度学习模型m对无标签样本集进行聚类，得到聚类成功样本和聚类失败样本。

对于聚类成功样本，被聚类为同一个簇的各个样本标注同一个标签(re-ID)，被聚类为不同簇的各个样本标注不同的标签。

对于聚类失败样本中的每个样本x，计算该样本x与聚类成功样本中的各个样本y之间的距离。将距离最近的样本y的标签，确定为该样本x的标签。也即，对聚类失败样本中的每个样本x，计算样本x在聚类成功样本中距离最近的相似样本y；将相似样本的标签y，确定为样本x的标签。

第二步，非对称协同教学。

对于主模型M_main(简称M)的训练：由辅助模型C从聚类失败样本中挖掘出的尽可能多样化的样本子集。将第一样本子集与聚类成功样本中的第二样本子集混合为混合样本子集后，能够形成多样化的混合样本子集来对主模型进行训练。

对于辅助模型M_co(简称C)的训练：由主模型M从聚类成功样本中挖掘出第三样本子集；采用第三样本子集对辅助模型C进行训练。

交替迭代对主模型M和辅助模型C的训练，最终训练得到识别精度较好的主模型M和辅助模型C。

下面对主模型的训练过程进行介绍，上述步骤203可选包括如下子步骤，如图4所示：

步骤2031，从聚类失败样本中采样n个第一样本构建n个第一三元组，每个第一三元组包括锚点图像、正样本图像和负样本图像；

三元组损失是一种被广泛应用的度量学习损失。一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为锚点图像(Anchor，a)、正样本图像(Positive，p)和负样本图像(Negative，n)。

如图5所示，锚点图像a和正样本图像p为一对正样本对，锚点图像a和负样本图像n为一对负样本对。三元组损失用于拉近正样本对之间的距离，推开负样本对之间的距离。最后使得具有相同re-ID的行人图像在特征空间中形成聚类，达到行人重识别的目的。

在本实施例中，计算机设备从聚类失败样本中采样n个第一样本，第i个第一样本作为第i个第一三元组中的锚点图像，同时在聚类失败样本中选择与锚点图像具有相同标签的另一张图像作为正样本图像，在聚类失败样本中选择与锚点图像具有不同标签的另一张图像作为负样本图像，构建得到第i个第一三元组。

步骤2032，通过辅助模型计算n个第一三元组中每个第一三元组的三元组损失；

步骤2033，按照三元组损失由小到大顺序，在n个第一三元组中选择第一比例的三元组中的锚点图像，作为挖掘出的第一样本子集；

可选地，在n个第一三元组中选择三元组损失最小的K％*n个第一三元组，将三元组损失最小的K％*n个第一三元组中的锚点图像，作为挖掘出的第一样本子集。其中，K是不大于100的正整数。

步骤2034，从聚类成功样本中采样n个第二样本，作为第二样本子集；

步骤2035，将第一样本子集和第二样本子集进行混合，得到混合样本子集；

步骤2036，采用混合样本子集对主模型进行训练。

综上所述，本实施例提供的方法，通过采用K％*n个的第一样本子集和n个第二样本子集进行混合后，对主模型进行训练。由于K％*n个的第一样本子集是聚类失败样本中多样化的样本，相当于将难样本(第一样本子集)引入早期的re-ID域适应过程中，使得主模型跳出局部最优，从而在跨域适应过程中能更好地提升主模型的识别精度。

下面对辅助模型的训练过程进行介绍，上述步骤204可选包括如下子步骤，如图6所示：

步骤2041，从聚类成功样本中采样n个第二样本构建n个第二三元组，每个第二三元组包括锚点图像、正样本图像和负样本图像；

计算机设备从聚类成功样本中采样n个第二样本，第i个第二样本作为第i个第二三元组中的锚点图像，同时在聚类成功样本中选择与锚点图像具有相同标签的另一张图像作为正样本图像，在聚类成功样本中选择与锚点图像具有不同标签的另一张图像作为负样本图像，构建得到第i个第二三元组。

步骤2042，通过主模型计算n个第二三元组中每个第二三元组的三元组损失；

步骤2043，按照三元组损失由小到大顺序，在n个第二三元组中选择第二比例的三元组中的锚点图像，作为挖掘出的第三样本子集；

第二比例与第一比例相同，或第二比例与第一比例相同不同。

可选地，在n个第二三元组中选择三元组损失最小的K％*n个第二三元组，将三元组损失最小的K％*n个第二三元组中的锚点图像，作为挖掘出的第三样本子集。其中，K是不大于100的正整数。

步骤2044，采用第三样本子集对辅助模型进行训练。

综上所述，本实施例提供的方法，通过采用K％*n个的第三样本子集对辅助模型进行训练。由于K％*n个的第一样本子集是聚类失败样本中多样化的样本，相当于将难样本(第一样本子集)引入早期的re-ID域适应过程中，使得主模型跳出局部最优，从而在跨域适应过程中能更好地提升主模型的识别精度。

设T是目标域的无标签样本集，S是源域的有标签样本集。无监督的域自适应学习试图利用T和S来学习一个能很好概括目标域的行人重识别模型。

图7示出了本申请一个示意性实施例提供的用于行人重识别的模型识别方法的流程图。该方法可以应用于图1所示的计算机设备来执行。该方法包括三个阶段：(1)源模型的训练过程；(2)基于聚类的自适应算法；(3)适应的非对称协同教学。前两个阶段的目标是采用源域的有标签样本集训练出源模型，并采用目标域的无标签样本集对源模型进行微调训练，从而得到一个具有基本可识别能力的模型。第三阶段是通过第二阶段得到的模型初始化得到主模型和辅助模型，对主模型和辅助模型进行非对称协同教学训练，从而得到最终的自适应模型。

阶段一：源模型的训练过程；

步骤701，获取有标签样本集；

获取源域(域A)的有标签样本集。该有标签样本集包括多个样本图像以及每个样本图像对应的行人标签。

步骤702，采用有标签样本集训练得到图像识别模型；

采用具有图像分类能力的机器学习网络作为初始模型。采用有标签样本集训练得到图像识别模型，也即源模型。

可选地，计算机设备通过将最小化交叉熵损失和三元组损失作为训练目标，来对初始模型进行训练，得到源模型M_src。

大部分情况下，该图像识别模型在属于域A的行人重识别场景中，具有较好的行人重识别效果。但本申请希望将该图像识别模型迁移至目标域(域B)中进行行人重识别任务。

阶段二：基于聚类的自适应算法；

步骤703，对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；

由于源域到目标域之间的域移动，源模型通常不能很好地推广到新的无标签样本集上。示例性的，本申请采用源模型M_src提取无标签样本集中的每个样本图像的pooling-5特征(一种图像特征)，作为聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)的输入。聚类算法DBSCAN对每个样本图像的pooling-5进行聚类，得到聚类成功样本(inliers)和聚类失败样本(outlines)。

在一个示例中，选择k-相互近邻和Jaccard距离作为聚类时的距离度量。

其中，M_i,_j为使用pooling-5计算得到的样本i和样本j之间的相似度。样本j是样本i的前k个近邻里面的样本，样本i的前k个近邻是根据k-相互近邻算法计算得到的。i，j，k均为不大于n的正整数。

对于无标签样本集中所有相似矩阵M后，计算Jaccard距离d_J(i，_j)为：

其中，N_t为无标签样本集中的总图像数。为了提高相似度，每个无标签样本集中的目标样本的特征应该接近于一些有标签数据集中的源样本的特征，也即最小化：

其中，N_s(x_i)为目标图像i在源域(有标签样本集)中的最近邻，考虑d_J和d_W，最终的聚类距离度量为：

d_i，j＝λ[d_W(x_i)+d_W(x_j)]+(1-λ)d_J(i，j)

λ∈|0，1||是平衡因素，在一个例子中，将λ设置为0.1。

基于计算出的距离矩阵M，对目标域的未标记样本集T执行聚类算法DBSCAN，并将其分为聚类成功样本T_i和聚类失败样本T_o。

聚类成功样本是指由聚类算法聚类出的置信度高于预设条件的样本，也即成功聚类至某个类簇的样本；聚类失败样本是指聚类算法聚类出的置信度低于预设条件的样本，也即未能成功聚类至某个类簇的样本。

步骤704，采用聚类成功样本对图像识别模型进行迁移训练，得到迁移后的图像识别模型；

本申请可以利用T_i的伪标签对源模型M_src进行微调，并根据优化的M_src对聚类结果进行更新。三元组损失L_tri是通过如下公式使用pooling-5特征计算的：

其中，N_b为训练时的批次大小，a为锚点图像，p和n分别为针对锚点图像中最不相似的正样本图像和最相似的负样本图像。m是margin的简写，是三元组损失中的一个超参数。margin的解释为正样本图像p离锚点图像a的距离和负样本图像n离锚点图像a的距离要至少大于margin。x是指图像的pooling-5特征。

经过调整后，本申请得到了一个更好的re-ID模型。但是，由于源域和目标域分布不一致，模型提取的图像特征对于下游的聚类任务来说不够可靠。因此，聚类结果可能包含许多有噪声的标签。为了进一步针对有噪声的数据集调整模型，本申请提出了第三阶段的非对称协同教学。

阶段三：适应的非对称协同教学；

步骤705，将迁移后的图像识别模型初始化为主模型和辅助模型；

需要说明的是，也可以不执行步骤704和步骤705，直接将步骤702得到的图像识别模型，初始化为主模型和辅助模型。

步骤706，对聚类失败样本中的每个样本，计算样本在聚类成功样本中距离最近的相似样本；

步骤707，将相似样本的标签，确定为样本的标签；

对于聚类失败样本中的每个样本x，计算样本x在聚类成功样本中距离最近的相似样本y；将相似样本的标签y，确定为样本x的标签。

步骤708，从聚类失败样本中采样n个第一样本构建n个第一三元组，每个第一三元组包括锚点图像、正样本图像和负样本图像；

从聚类失败样本中采样n个第一样本，第i个第一样本作为第i个第一三元组中的锚点图像，同时在聚类失败样本中选择与锚点图像具有相同标签的另一张图像作为正样本图像，在聚类失败样本中选择与锚点图像具有不同标签的另一张图像作为负样本图像，构建得到第i个第一三元组。

步骤709，通过辅助模型计算n个第一三元组中每个第一三元组的三元组损失；

步骤710，按照三元组损失由小到大顺序，在n个第一三元组中选择第一比例的三元组中的锚点图像，作为挖掘出的第一样本子集；

图8是损失函数值较小的第一样本子集的可视化，本实施例从聚类失败样本中选择损失函数值较小的样本作为第一样本子集，相比于损失函数值较大的聚类失败样本，损失函数值较小的样本受光照和遮挡的影响不严重，有助于主模型的多样化。

步骤711，从聚类成功样本中采样n个第二样本，作为第二样本子集；

步骤712，将第一样本子集和第二样本子集进行混合，得到混合样本子集；

步骤713，采用混合样本子集对主模型进行训练；

步骤714，从聚类成功样本中采样n个第二样本构建n个第二三元组，每个第二三元组包括锚点图像、正样本图像和负样本图像；

从聚类成功样本中采样n个第二样本，第i个第二样本作为第i个第二三元组中的锚点图像，同时在聚类成功样本中选择与锚点图像具有相同标签的另一张图像作为正样本图像，在聚类成功样本中选择与锚点图像具有不同标签的另一张图像作为负样本图像，构建得到第i个第二三元组。

步骤715，通过主模型计算n个第二三元组中每个第二三元组的三元组损失；

步骤716，按照三元组损失由小到大顺序，在n个第二三元组中选择第二比例的三元组中的锚点图像，作为挖掘出的第二样本子集；

步骤717，采用第三样本子集对辅助模型进行训练；

步骤718，交替迭代上述两组训练步骤至满足结束条件，将训练后的主模型确定为应用于行人重识别的模型。

当训练过程结束后，本申请采用主模型作为最终用于行人重识别的来测试集的图像提取特征来测试。

至此，本申请就得到了跨域自适应的行人重识别模型。整个过程无需人工参与，可以自动挖掘纯净且多样化的样本对主模型进行调整。在两个常见的行人重识别样本集(Market1501和DukeMTMC)上，本申请的方法均取得了目前最好的效果。Market-1501数据集是在中国的清华大学校园中采集，夏天拍摄，在2015年构建并公开的数据集。DukeMTMC数据集是一个大规模标记的多目标多摄像机行人跟踪数据集。它提供了一个由8个同步摄像机记录的新型大型高清视频数据集，具有7,000多个单摄像机轨迹和超过2,700多个独立人物。

在一个示例中，本申请提出的方法的伪代码如下。

示例性的，上述伪代码翻译如下：

输入：已标记的源样本集S，未标记的目标样本集T，基于图像神经网络的预训练模型M。训练三批迭代次数e₁，e₂和e₃。训练目标为最大化r₂，r₃。

输出：调整后的模型M_ada。

1、阶段1

2、在迭代次数e₁的迭代训练中，利用三元组损失和交叉熵损失采用源样本集S对M进行训练，得到源模型M_src；

3、阶段2

4、根据聚类算法DB-SCAN结果将T分为聚类成功样本T_i和聚类失败样本T_o；

5、在迭代次数e₂的迭代训练中，使用聚类成功样本T_i对M_src进行微调训练；重复迭代这两个步骤直至r₂最大化→调整后的模型M_ada；

6、阶段3

7、使用M_ada作为初始化的主模型M_main，以及使用M_ada作为初始化的辅助模型M_co；

8、为了最大化r3，从i＝1开始执行如下步骤：

9、部署M_main，和采用聚类算法DBSCAN将T分为T_i和T_o；

10、在迭代次数e₃的迭代训练中，从j＝1开始执行如下步骤：

11、迭代＝0；

12、重复；

13、挖掘小损失样本t_i，以及t_o；t_i是来自T_i，t_o是来自T_o；

14、如果迭代比例iter％2＝＝0，则

15、//优化主模型M_main。

16、部署M_co，从t_o中选择损失值较小的样本，与t_i混合，来优化主模型M_main；

17、否则；

18、//优化辅助模型M_co；

19、部署M_main，从t_i中选择损失值较小的样本，优化M_co；

20、否则；

21、迭代++；

22、直至T_i被枚举；

23、结束；

24、结束；

将主模型M_main，作为调整后的模型M_ada。

同时，图9示出了协同教学、改进的协同教学和本申请提出的非对称协同教学之间的比较，以便观察哪种结构达到了最高的识别精度。其中，虚线是没有反向传播过程的基本操作。

研发人员试验性的直接将T_o合并到训练过程中，根据它们在T_i中最近的近邻标签赋值给To，然后将新数据集发送到re-ID网络进行微调。在将T_o合并到Ti后，两项适应性任务的mAP分数分别提高了2.7％和0.7％，说明需要将其纳入到训练过程中。然而，在训练样本中可能存在的噪声标签可能会阻碍进一步的改进。为了证明该观点，研发人员采用协同教学来滤除噪声样本。如下表一所示，原协同教学在适应方面有一定程度的改善。结果可能是由于上述缺陷造成的，所以本申请又进行了一次实验，将每一轮的协同教学的处理带入，使re-ID模型跳出局部最小值。协同教学及改良的协同教学(CT with T_o)的详细情况见图9-(a)、图9-(b)。从下表一可以看出，改进的协同教学可以获得更高但不显著的mAP评分。进一步评估本申请提出的非对称结构的有效性，如图9-(c)所示。本申请在两项适应任务中都能获得最高的准确率，分别为60.6％和54.5％的mAP分数。

表一

图10示出了本申请一个示例性实施例提供的用于行人重识别的模型识别方法的流程图。该方法可以应用于图1所示的计算机设备中，该方法包括：

步骤1001，获取待识别的监控图像；

步骤1002，通过主模型提取监控图像的图像特征，主模型是通过与辅助模型进行非对称协同教学训练得到的；

其中，主模型是通过混合样本子集训练得到的，混合样本子集中的第一样本子集是辅助模型从聚类失败样本中挖掘出的，混合样本子集中的第二样本子集是聚类成功样本的子集，聚类失败样本和聚类成功样本是采用聚类算法对无标签样本集中的样本聚类的到的，辅助模型是通过主模型从聚类成功样本中挖掘的第三样本子集训练得到的；

可选地，该主模型是通过上述实施例训练得到的模型M_main。

步骤1003，根据图像特征进行行人重识别。

可选地，该行人重识别可以用于行人分类、指定人追踪、轨迹还原等应用。图11示出了在新场景下行人重识别系统可以完成的轨迹还原功能的示意图。

综上所述，由于主模型是通过与辅助模型进行非对称协同教学训练得到的，充分利用了聚类失败样本中的多样化的小损失样本，所以能够在进行跨域的行人重识别场景中，获得非常好的模型识别效果。

图12示出了本申请一个示例性实施例提供的一种用于行人重识别的模型训练装置的框图。所述装置包括：

获取模块1220，用于获取主模型和辅助模型；

聚类模块1240，用于对无标签样本集中的样本进行聚类，得到聚类成功样本和聚类失败样本；

主训练模块1262，用于通过所述辅助模型从所述聚类失败样本中挖掘出第一样本子集；与所述聚类成功样本中的第二样本子集组合为混合样本子集；采用所述混合样本子集对所述主模型进行训练；

辅助训练模块1264，用于通过所述主模型从所述聚类成功样本中挖掘出第三样本子集；采用所述第三样本子集对所述辅助模型进行训练；

确定模块1280，用于交替迭代上述两个步骤至满足结束条件，将训练后的所述主模型确定为应用于所述行人重识别的模型。

在一个可选的实施例中，所述主训练模块1262，用于从所述聚类失败样本中采样n个第一样本构建n个第一三元组，每个所述第一三元组包括锚点图像、正样本图像和负样本图像；通过所述辅助模型计算所述n个第一三元组中每个第一三元组的三元组损失；按照所述三元组损失由小到大顺序，在所述n个第一三元组中选择第一比例的三元组中的所述锚点图像，作为挖掘出的第一样本子集；

其中，所述n个样本中的第i个第一样本是第i个第一三元组中的锚点图像，所述正样本图像是所述聚类失败样本中与所述锚点图像具有相同标签的图像，所述负样本图像是所述聚类失败样本中与所述锚点图像具有不同标签的图像。

在一个可选的实施例中，所述聚类成功样本具有各自的标签；所述装置还包括：标定模块1292；

所述标定模块1292，用于对所述聚类失败样本中的每个样本，计算所述样本在所述聚类成功样本中距离最近的相似样本；将所述相似样本的标签，确定为所述样本的标签。

在一个可选的实施例中，所述主训练模块1262，还用于从所述聚类成功样本中采样n个第二样本，作为所述第二样本子集；将所述第一样本子集和所述第二样本子集进行混合，得到所述混合样本子集。

在一个可选的实施例中，所述辅助训练模块1264，用于从所述聚类成功样本中采样n个第二样本构建n个第二三元组，每个所述第二三元组包括锚点图像、正样本图像和负样本图像；通过所述主模型计算所述n个第二三元组中每个第二三元组的三元组损失；按照所述三元组损失由小到大顺序，在所述n个第二三元组中选择第二比例的三元组中的所述锚点图像，作为挖掘出的第二样本子集；

其中，所述n个样本中的第i个第二样本是第i个第二三元组中的锚点图像，所述正样本图像是所述聚类成功样本中与所述锚点图像具有相同标签的图像，所述负样本图像是所述聚类成功样本中与所述锚点图像具有不同标签的图像。

在一个可选的实施例中，所述装置还包括有标签训练模块1294；

所述获取模块1220，用于获取有标签样本集；

所述有标签训练模块1294，用于采用所述有标签样本集训练得到图像识别模型；将所述图像识别模型初始化为所述主模型和所述辅助模型。

在一个可选的实施例中，所述有标签训练模块1294，用于采用所述聚类成功样本对所述图像识别模型进行迁移训练，得到迁移后的图像识别模型；所述获取模块，用于将所述迁移后的图像识别模型初始化为所述主模型和所述辅助模型。

图13示出了本申请一个示例性实施例提供的一种用于行人重识别的模型识别装置的框图。所述装置包括：

获取模块1320，用于获取待识别的监控图像；

提取模块1340，用于通过主模型提取所述监控图像的图像特征，所述主模型是通过混合样本子集训练得到的，所述混合样本子集中的第一样本子集是辅助模型从聚类失败样本中挖掘出的，所述混合样本子集中的第二样本子集是聚类成功样本的子集，所述聚类失败样本和所述聚类成功样本是采用聚类算法对无标签样本集中的样本聚类的到的，所述辅助模型是通过所述主模型从所述聚类成功样本中挖掘的第三样本子集训练得到的；

重识别模块1360，用于根据所述图像特征进行所述行人重识别。

在一个可选的实施例中，所述聚类失败样本中的每个样本的标签，是根据所述样本在所述聚类成功样本中距离最近的相似样本的标签确定的。

在一个可选的实施例中，所述主模型是通过上述训练装置训练得到的。

图14示出了本申请还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的方法。需要说明的是，该计算机设备可以是如下图14所提供的计算机设备。

请参考图14，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备1400包括中央处理单元(CPU)1401、包括随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1410的大容量存储设备1407。

基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，大容量存储设备1407可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1401执行，一个或多个程序包含用于实现上述时序动作提名的生成模型的训练方法或时序动作提名的生成方法的指令，中央处理单元1401执行该一个或多个程序实现上述各个方法实施例提供的邮件发送方法。

根据本申请的各种实施例，计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的邮件发送方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

可选地，本申请还提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述各个方法实施例所提供的用于行人重识别的模型训练方法或用于行人重识别的模型识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于行人重识别的模型训练方法，其特征在于，所述方法包括：

获取主模型和辅助模型；

2.根据权利要求1所述的方法，其特征在于，所述通过所述辅助模型从所述聚类失败样本中挖掘出第一样本子集，包括：

从所述聚类失败样本中采样n个第一样本构建n个第一三元组，每个所述第一三元组包括锚点图像、正样本图像和负样本图像，n为正整数；

通过所述辅助模型计算所述n个第一三元组中每个第一三元组的三元组损失；

按照所述三元组损失由小到大顺序，在所述n个第一三元组中选择第一比例的三元组中的所述锚点图像，作为挖掘出的第一样本子集；

其中，所述n个样本中的第i个第一样本是第i个第一三元组中的锚点图像，所述正样本图像是所述聚类失败样本中与所述锚点图像具有相同标签的图像，所述负样本图像是所述聚类失败样本中与所述锚点图像具有不同标签的图像，i为不大于n的正整数。

3.根据权利要求2所述的方法，其特征在于，所述聚类成功样本具有各自的标签；

所述从所述聚类失败样本中采样n个样本构建n个三元组之前，还包括：

对所述聚类失败样本中的每个样本，计算所述样本在所述聚类成功样本中距离最近的相似样本；

将所述相似样本的标签，确定为所述样本的标签。

4.根据权利要求2所述的方法，其特征在于，所述与所述聚类成功样本中的第二样本子集组合为混合样本子集，包括：

从所述聚类成功样本中采样n个第二样本，作为所述第二样本子集；

将所述第一样本子集和所述第二样本子集进行混合，得到所述混合样本子集。

5.根据权利要求1所述的方法，其特征在于，所述通过所述主模型从所述聚类成功样本中挖掘出第三样本子集，包括：

从所述聚类成功样本中采样n个第二样本构建n个第二三元组，每个所述第二三元组包括锚点图像、正样本图像和负样本图像；

通过所述主模型计算所述n个第二三元组中每个第二三元组的三元组损失；

按照所述三元组损失由小到大顺序，在所述n个第二三元组中选择第二比例的三元组中的所述锚点图像，作为挖掘出的所述第三样本子集；

6.根据权利要求1至5任一所述的方法，其特征在于，所述获取主模型和辅助模型，包括：

获取有标签样本集；

采用所述有标签样本集训练得到图像识别模型；

将所述图像识别模型初始化为所述主模型和所述辅助模型。

7.根据权利要求6所述的方法，其特征在于，所述将所述图像识别模型初始化为所述主模型和所述辅助模型之前，还包括：

采用所述聚类成功样本对所述图像识别模型进行迁移训练，得到迁移后的图像识别模型；

所述将所述图像识别模型初始化为所述主模型和所述辅助模型，包括：

将所述迁移后的图像识别模型初始化为所述主模型和所述辅助模型。

8.一种用于行人重识别的模型识别方法，其特征在于，所述方法包括：

获取待识别的监控图像；

根据所述图像特征进行所述行人重识别。

9.根据权利要求8所述的方法，其特征在于，所述聚类失败样本中的每个样本的标签，是根据所述样本在所述聚类成功样本中距离最近的相似样本的标签确定的。

10.一种用于行人重识别的模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取主模型和辅助模型；

11.一种用于行人重识别的模型识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的监控图像；

重识别模块，用于根据所述图像特征进行所述行人重识别。

12.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器存储有至少一条程序，所述至少一条程序由所述处理器加载并执行以实现如上权利要求1至7任一所述的用于行人重识别的模型训练方法。

13.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器存储有至少一条程序，所述至少一条程序由所述处理器加载并执行以实现如上权利要求8或9所述的用于行人重识别的模型识别方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序，所述至少一条程序由处理器加载并执行以实现如上权利要求1至7任一所述的用于行人重识别的模型训练方法，或，权利要求8或9所述的用于行人重识别的模型识别方法。