CN113920540A

CN113920540A - 基于知识蒸馏的行人重识别方法、装置、设备及存储介质

Info

Publication number: CN113920540A
Application number: CN202111300499.4A
Authority: CN
Inventors: 魏超; 林修明; 王兵; 翟永强; 徐晶; 林劼
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-01-11

Abstract

本发明提供一种基于知识蒸馏的行人重识别方法、装置、设备及存储介质，方法包括：基于训练好的行人重识别模型对待识别的图像数据进行行人重识别，得到行人重识别结果；以及还包括：基于数据训练集和所述数据训练集所对应的预设教师模型集，得到第一输出数据；基于所述数据训练集对神经网络进行训练，得到学生模型以及所述学生模型输出的第二输出数据；基于所述第一输出数据、所述第二输出数据和判别器网络计算所述学生模型的损失函数；调整所述学生模型的模型参数以使所述损失函数最小化，得到所述训练好的行人重识别模型。根据本发明，基于跨域数据集和知识蒸馏的学习方法训练行人重识别模型，从而提高行人重识别的精确度。

Description

基于知识蒸馏的行人重识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及基于知识蒸馏的行人重识别方法、装置、设备及存储介质。

背景技术

随着社会和科技的进步，人脸识别越来越成为一项可依赖的安防技术。但是对于现今大部分摄像头而言，其分辨率往往不能达到人脸识别系统的要求，故可以应用于现有监控系统的行人重识别技术是极有必要的。行人重识别(Person re-identification)是利用图像处理技术来判定某一摄像头下的行人是否出现在其他摄像头中，从而可以描绘行人的活动路径，实现跨镜头追踪的目的。现阶段行人重识别常用方法主要有表征学习、度量学习、基于局部特征或视频序列等方法，这些行人重识别方法的训练数据集采集标记难度高，现有的数据集往往只能达到几万的级别。一方面，训练数据集的数量较小使得行人重识别方法的精度无法进一步提升。另一方面，即使是将各个数量较小的训练数据集合并在训练中也不一定能形成正向贡献，这些都阻碍了行人重识别技术进一步走向实用化。

发明内容

有鉴于此，本发明一个或多个实施例的目的在于提出基于知识蒸馏的行人重识别方法、装置、设备及存储介质，以至少解决上述问题之一。

基于上述目的，根据本发明的第一方面，提供了一种基于知识蒸馏的行人重识别方法，包括：

获取待识别的图像数据；

基于训练好的行人重识别模型对所述待识别的图像数据进行行人重识别，得到行人重识别结果；

其中，训练好的行人重识别模型的训练包括：

基于数据训练集和所述数据训练集所对应的预设教师模型集，得到第一输出数据；

基于所述数据训练集对神经网络进行训练，得到学生模型以及所述学生模型输出的第二输出数据；

基于所述第一输出数据、所述第二输出数据和判别器网络计算所述学生模型的损失函数；

调整所述学生模型的模型参数以使所述损失函数最小化，得到所述训练好的行人重识别模型。

可选地，基于数据训练集和所述数据训练集所对应的预设教师模型集，得到第一输出数据，包括：

获取所述训练数据集；

基于所述训练数据集在教师模型数据集合中确定所述对应的预设教师模型集；

将所述训练数据集输入所述对应的预设教师模型集，得到每个预设教师模型集的输出数据；

计算所有所述预设教师模型集的输出数据的平均输出数据，得到所述第一输出数据。

可选地，计算所有所述预设教师模型集的输出数据的平均输出数据，得到所述第一输出数据，包括：

其中，

表示第t个预设教师模型的输出,K表示预设教师模型集的总数，t和K为正整数。

可选地，基于所述第一输出数据、所述第二输出数据和判别器网络计算所述学生模型的损失函数，包括：

基于所述第一输出数据和所述第二输出数据计算得到第一损失函数；

基于所述第一输出数据、所述第二输出数据和判别器网络计算第二损失函数；

计算所述第一损失函数和所述第二损失函数之和，得到所述学生模型的损失函数。

可选地，所述第一损失函数包括：

其中，N表示所述训练数据集的训练图像数量，S_θ表示所述学生模型，E_T(X)表示所述第一输出数据，E_Sθ表示所述第二输出数据。

可选地，所述第二损失函数包括：

其中，N表示所述训练数据集的训练图像数量，y表示目标输出，p表示所述目标输出是所述第一输出数据或所述第二输出数据。

可选地，基于所述数据训练集对神经网络进行训练，得到学生模型以及所述学生模型输出的第二输出数据，包括：

基于所述数据训练集训练所述神经网络，得到所述神经网络自身的损失函数最小的所述学生模型，以及对应的所述第二输出数据。

根据本发明的第二方面，提供了一种基于知识蒸馏的行人重识别装置，包括：

获取模块，用于获取待识别的图像数据；

识别模块，用于基于训练好的行人重识别模型对所述待识别的图像数据进行行人重识别，得到行人重识别结果；

其中，训练好的行人重识别模型的训练包括：

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如第一方面所述的方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面所述方法。

从上面所述可以看出，本发明一个或多个实施例提供的基于知识蒸馏的行人重识别方法、装置、设备及存储介质，基于跨域数据集和知识蒸馏的学习方法训练行人重识别模型，丰富模型训练的数据基础，让每个数据集内的数据合力对整个训练过程形成正向贡献，从而提高行人重识别的精确度。

附图说明

为了更清楚地说明本发明一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于知识蒸馏的行人重识别方法的示意性流程图；

图2为根据本发明实施例的基于知识蒸馏的行人重识别方法的示意性示例；

图3为本发明实施例的基于知识蒸馏的行人重识别装置的示意性框图；

图4为本发明实施例的电子设备的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明一个或多个实施例使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

行人和人脸类似，都具有各自的结构，但是不同于人脸，行人的结构往往更加复杂。在实际应用场景中可能存在无正脸、配饰不一、姿态变化及遮挡、摄像头的拍摄角度、室内外环境的变化、白天与黑夜的光线差异、季节穿搭(冬天进入室内可能会脱掉外套)等等不利条件和干扰因素。与此同时，不同于人脸可以到互联网直接爬取名人的图片，行人重识别由于其任务的特殊性，其训练数据集采集标记难度更高，现有的数据集往往只能达到几万的级别，这也阻碍了行人重识别技术进一步走向实用化。将现有的多个开源数据集合并成一个大的数据集不失为一种快速扩大训练样本集的有效方式，但是不同数据集采集条件不一，如何让每个数据集内的数据合力对整个有监督训练过程形成正向贡献是一个亟需解决的问题。

基于上述考虑，本发明实施例提供了一种基于知识蒸馏的行人重识别方法。参见图1，图1示出了根据本发明实施例的基于知识蒸馏的行人重识别方法的示意性流程图。如图1所示，基于知识蒸馏的行人重识别方法包括：

步骤S110，获取待识别的图像数据；

步骤S120，基于训练好的行人重识别模型对所述待识别的图像数据进行行人重识别，得到行人重识别结果；

其中，训练好的行人重识别模型的训练包括：

其中，本发明实施例基于数据训练集对应的不同教师模型组成预设教师模型集，用来指导学生模型的训练，从而基于跨数据集和知识蒸馏的学习方法训练行人重识别模型，丰富模型训练的数据基础，让每个数据集内的数据合力对整个训练过程形成正向贡献，从而提高行人重识别的精确度。可以广泛用于各种需要对行人重识别的场景。

可选地，在步骤S110中，获取待识别的图像数据。

其中，待识别的图像数据可以是通过图像采集装置直接采集得到的实时数据，也可以是从本地数据源或远程数据源获取得到的图像数据。

在一些实施例中，所述待识别的图像数据可以包括视频数据和图像。在一些实施例中，所述待识别的图像数据可以是视频数据中的一帧图像或多帧图像。在一些实施例中，可以对视频数据进行分帧，得到图像数据。在一些实施例中，待识别的图像数据还可以是连续或非连续的图像序列。

可选地，在步骤S130中，基于训练好的行人重识别模型对所述待识别的图像数据进行行人重识别，得到行人重识别结果。

具体来说，可以将待识别的图像数据输入训练好的行人重识别模型，该训练好的行人重识别模型对待识别的图像数据进行相应的处理后，输出所述行人重识别结果。

在一些实施例中，行人重识别结果可以包括：目标对象的身份信息。例如ID号、姓名等等。

在一些实施例中，训练好的行人重识别模型的训练包括：

在一些实施例中，基于数据训练集和所述数据训练集所对应的预设教师模型集，得到第一输出数据，可以包括：

获取所述训练数据集；

在一些实施例中，训练数据集可以是一个或更多个。例如，多个开源数据集。

相应地，在一些实施例中，每个训练数据集可以对应一个或多个预设教师模型。每个训练数据集所对应的预设教师模型可以形成预设教师模型集。

在一些实施例中，教师模型数据集合可以指多个训练数据集所对应的预设教师模型的集合。例如，可以包括一个或者更多个Market1501开源模型、一个或更多个DukeMTMC开源模型、一个或者更多个CUHK03开源模型、一个或更多个MSMT17开源模型等等。

根据本发明实施例，针对不同的训练数据集，其所对应的教师模型是不同的。对于某一特定训练数据集X而言，将该训练数据集X对应的多个开源模型作为预设教师模型，形成该训练数据集X对应的预设教师模型集。此时，可以集成多个预设教师模型的输出数据的平均数据为教师模型的输出。

在一些实施例中，计算所有所述预设教师模型集的输出数据的平均输出数据，得到所述第一输出数据，包括：

其中，

在一些实施例中，基于所述数据训练集对神经网络进行训练，得到学生模型以及所述学生模型输出的第二输出数据，包括：

在一些实施例中，基于所述第一输出数据、所述第二输出数据和判别器网络计算所述学生模型的损失函数，包括：

在一些实施例中，所述第一损失函数包括：

其中，N表示所述训练数据集的训练图像数量，S_θ表示所述学生模型，E_T(X)表示所述第一输出数据，E_Sθ(X)表示所述第二输出数据。

其中，第一损失函数可以是判别不同数据分布间相似程度的有效度量。训练过程中学生模型S_θ以最小化自身输出E_Sθ(X)与集成教师模型输出E_T(X)之间的KL散度为目标。

在一些实施例中，所述第二损失函数包括：

其中，判别器网络是二元分类器，用于判定给定输入是来自于教师模型，还是学生模型。判别器网络可以防止学生模型在训练数据上过拟合，即不让学生模型过分学习教师模型的输出。在一些实施例中，判别器网络可以采用一个3层全连接(FC)的子网络。在一些实施例中，目标输出是所述第一输出数据时，p＝1。一些实施例中，目标输出是所述第二输出数据时，p＝0。

在一些实施例中，所述学生模型的整体损失可以包括所述第一损失函数和所述第二损失函数之和，具体包括：

其中，X_i表示不同训练数据集，M表示所使用的训练数据集数目。

在一些实施例中，如图2所示，图2示出了根据本发明实施例的基于知识蒸馏的行人重识别方法的示意性示例。图2中，可以采用多个训练数据集210用于训练行人重识别模型，多个训练数据集210对应的预设教师模型集220包括多个预设教师模型。训练数据集210输入预设教师模型集220后，将所有预设教师模型的输出取平均值，得到第一输出数据。训练数据集210输入学生模型230后，得到第二输出数据。计算第一输出数据和第二输出数据之间的KL散度，得到第一损失函数。将第一输出数据和第二输出数据输入判别器网络，判别器网络判断给定的目标输出是第一输出数据还是第二输出数据，即判断给定的目标输出是来自学生模型还是来自教师模型，并基于二元交叉熵函数计算第二损失函数，将第一损失函数和第二损失函数之和最小化作为学生模型的训练目标进行训练，即可得到训练好的行人重识别模型。

需要说明的是，本发明一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本发明一个或多个实施例还提供了一种基于知识蒸馏的行人重识别装置。

参考图3，所述基于知识蒸馏的行人重识别装置，包括：

获取模块，用于获取待识别的图像数据；

其中，训练好的行人重识别模型的训练包括：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于知识蒸馏的行人重识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本发明一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于知识蒸馏的行人重识别方法。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。

处理器410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案。

存储器420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序，在通过软件或者固件来实现本发明实施例所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。

输入/输出接口430用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口440用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线450包括一通路，在设备的各个组件(例如处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本发明实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于知识蒸馏的行人重识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本发明一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于知识蒸馏的行人重识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于知识蒸馏的行人重识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。