CN114330554A

CN114330554A - 一种面向智能安防的视觉深度模型知识重组方法

Info

Publication number: CN114330554A
Application number: CN202111639661.5A
Authority: CN
Inventors: 宋明黎; 谢东霖; 余若男; 方共凡; 宋杰; 冯尊磊; 高艺; 董玮
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-12

Abstract

一种面向智能安防的视觉深度模型知识重组方法，首先，收集安防边缘测的视觉数据，明确模型任务，收集数据进行标注，训练目标任务模型。然后，利用归因图计算目标模型和不同预训练模型之间的可迁移分数，将归一化的可迁移分数作为模型选择的概率，可放回地采样形成模型集合；在联邦学习范式的基础上，将目标模型分发到不同的节点，利用表征蒸馏迁移预训练模型的特征提取能力，在目标模型学习和迁移完成后，通过平均的方式在中心节点进行知识重组，重组过后的模型再次分发到选择的模型节点进一步迭代。最后，再利用目标数据集进行微调目标模型，从而学习得到一个在智能安防领域的目标任务上表现良好的视觉深度模型，并且保护了数据隐私和模型隐私。

Description

一种面向智能安防的视觉深度模型知识重组方法

技术领域

本发明属于智能安防和联邦学习领域，涉及一种面向智能安防的视觉深度模型知识重组方法。

背景技术

智能安防是一种涉及人脸识别，大数据分析以及视频结构化等多种技术的领域。随着深度学习等技术的快速发展，智能安防产品的功能也越发多元化，安防技术在交通、社区等多种场景下成功应用落地。

然而深度学习技术的成功依赖于两大因素，一是大量的标注数据，二是实际深度学习模型复用形式的发展：使用他人预先训练好的、经过公开验证的网络模型，从而大大减少网络训练的工作量。在智能安防领域，大量的标注数据需要大量的人力成本，因而质量优秀的标注数据是稀缺的；而日益发展的模型共享形式也面临着一个问题：良好性能的网络需要耗费巨大的资源，即使训练该网络的研究人员或机构有意向公开该模型，但由于隐私保护、安全或知识产权等问题，他们无法向公众分享他们的模型。现有的模型重用方法，如知识蒸馏、迁移学习和领域自适应，通常需要预训练模型才能进行使用，因此在这种情况下是无法解决该问题的。

发明内容

为了解决上述问题，本发明提供一种面向智能安防的视觉深度模型知识重组方法。其目的是在几个分散的教师模型的帮助下训练一个学生模型。这个学生模型关注于安防领域的具体目标任务，如深度估计，行人重识别。为了确保模型信息在训练的过程中不被泄露，预训练模型的细节(包括预训练的任务和数据)始终保持私有，其他训练参与者不能获得任何有关信息。这样的问题设置给联邦模型重用带来了巨大的挑战，因为很难为目标任务找到有用的教师模型。同时，不同的教师模型的训练领域是不同的，学生模型的训练必须考虑平衡来自不同教师的知识汇总。

为此，本发明提出了一种面向智能安防的视觉深度模型知识重组技术来解决此类问题。该方法通过利用私密的教师模型的预训练知识来定制一个学生模型。本发明不是通过模仿教师模型来训练学生模型，而是通过基于特征的训练模式，从教师模型处过滤和吸收有用的知识。特征分析在网络可解释性的文献中被广泛使用，也被用来揭示网络的可迁移性。基于特征分析，本发明提出了一种自适应训练模式。在不直接访问私有教师模型的情况下选择有用的教师模型。具体而言就是：本发明使用目标任务的标记数据训练学生模型，同时计算学生模型和私密的教师模型之间的表征相似度来进行知识选择。并根据相似度增加选择的概率，所选择的教师模型通过本地节点内部的表征蒸馏将知识迁移给学生模型，并通过平均的方式进行知识重组，然后再根据目标任务数据进行微调。

本发明考虑智能安防领域模型训练的实际场景，有限的标注数据使得直接训练一个泛化性能良好的模型是极其困难的。本发明在预训练模型及其训练数据不可直接获取的条件下，借鉴于现有的联邦学习范式，提出了一种用于面向智能安防的视觉深度模型知识重组方法。本发明的技术方案是：

一种面向安防的视觉深度模型知识重组方法，包含如下步骤：

1.收集与训练智能安防数据；

本发明首先收集安防边缘测(如摄像头)的视觉数据，明确具体的模型任务，如行人重识别，为收集的小部分数据进行标注，这一小部分标注后的数据将作为目标任务数据集D_T，其中包含了M个数据样本以及标签。由于安防设备所处的环境以及昂贵的标注成本，安防设备收集的数据通常是不充分的，因而直接利用该部分数据训练学习难以获得一个表现良好的深度模型。为了让安防的深度模型拥有一定的关于目标任务的知识，首先需要利用收集的目标任务数据集训练目标任务模型。

2.选择模型知识；

预训练模型{M₁,M₂,…,M_N}是在不同训练数据和不同的任务上训练的，因而预训练模型包含了不同领域的知识。并且预训练模型以及数据存放在不同的节点上。对于智能安防具体的目标任务模型而言，不同的预训练模型的知识的可迁移性是不同的。可迁移性更好的预训练模型知识对于目标任务更有帮助。为了从若干预训练模型中选择合适的模型，本发明首先计算不同模型在目标数据集上的归因图

其中

表示第n个模型第k层对于第j个输入的归因图，归因图是计算特定输入的反向传播梯度得到的，归因图反映了模型对于输入的注意力区域。因而，不同模型之间归因图的距离可以作为一种模型知识可迁移性的度量。利用目标数据集计算不同模型之间的可迁移性距离如下：

其中，

表示计算余弦相似性。在计算得到目标模型和预训练模型之间的归因图距离之后，模型之间的可迁移分数可以基于归因图距离计算得到。

本发明将可迁移分数归一化为一个离散的概率分布{P₁,P₂,…,P_N}，概率值表示选择某一个预训练模型的概率。本发明将根据概率分布{P₁,P₂,…,P_N}有放回地采样k个模型，形成一个模型集合S_M。这一模型集合将用于后续的联邦知识重组中。

3.重组联邦知识；

在不直接接触预训练模型和数据集的条件下，为了将模型集合S_M的知识重组到目标模型，本发明按照过程是否发生在预训练模型的边缘节点上，将联邦知识重组划分为本地知识重组和中心知识重组两个阶段。两个阶段的划分可以避免对预训练模型的直接接触，进而保护了预训练模型和数据的隐私。

首先，本发明将目标模型M_t的参数

复制到预训练模型M_n所在的节点。对于绝大多数深度模型而言，模型可以划分为编码器部分和解码器部分，编码器将原始输入编码到特征空间的向量，特征提取部分是与任务无关的，具有良好的泛化性。而解码器将特征空间的向量解码成与任务相关的输出。在本地重组的过程中，本发明迫使目标模型的特征输出和预训练的特征输出保持一致，目标模型的副本将学习到预训练模型的特征提取能力。由于预训练模型M_n和目标模型M_t的网络结构可能是异构的，目标模型和本地预训练模型的输出特征可能存在输出维度的差异，因而本发明利用3个1×1的卷积操作对齐不同模型的特征输出维度。本地重组过程中损失计算如下：

其中，X表示预训练模型M_n的训练数据集，

表示预训练模型M_n的参数，

表示本地目标模型的参数，而

分别表示预训练模型和目标模型对齐过后的特征输出。本地重组过程将依据损失更新本地目标模型的参数：

其中，η_t表示本地重组的学习率。

在本地知识重组完成以后，本地目标模型的参数

会被上传到中心节点。中心节点在收集到不同节点的目标模型参数以后，将会进行中心节点的知识重组，目标模型的参数更新如下：

在中心节点的知识的重组完成以后，将会再次进行知识的选择和本地知识的重组。在迭代的学习过程中，目标模型将会从多个预训练模型中筛选和学习到可迁移的教师的表征提取能力。

4.智能安防任务适应

本发明考虑深度学习模型的拓扑结构特点，在知识重组阶段收敛完成以后，将继续在智能安防的目标任务数据集上进行训练，以获得更多与目标任务相关的知识。具体来说，这一阶段利用目标数据集对目标模型的解码器部分进行训练。在此阶段，目标模型将学习到特征映射到目标标签的能力。进而，可以在智能安防的相关任务上，如行人重识别，获得良好的表现。

本发明的优点是：可以在可以在不直接访问私密模型的情况下实现模型知识的迁移，进而在智能安防领域的目标任务上获得较好的表现；本发明与传统的只关注数据隐私的联邦学习框架不同，本发明不仅考虑到了数据隐私，还考虑到了模型的隐私。这为智能安防领域的模型共享提供了一种灵活和安全的方式。

附图说明

图1是本发明的知识选择和联邦知识重组的流程示意图。

图2是本发明的本地知识重组的示意图。

图3是本发明的联邦知识重组的流程示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行清晰、完整的解释和描述。

一种面向智能安防的视觉深度模型知识重组方法，包含如下步骤：

1.收集与训练智能安防数据；

2.选择模型知识；

其中

其中，

本发明将可迁移分数归一化为一个离散的概率分布{P₁,P₂,…,P_N}，概率值表示选择某一个预训练模型的概率。本发明将根据概率分布{P₁,P₂,…,P_N}有放回地采样k个模型，形成一个模型集合S_M。这一模型集合将用于后续的联邦知识重组中。(图1)

3.重组联邦知识；

首先，本发明将目标模型M_t的参数

其中，X表示预训练模型M_n的训练数据集，

表示预训练模型M_n的参数，

表示本地目标模型的参数，而

其中，η_t表示本地重组的学习率。(图2)

在本地知识重组完成以后，本地目标模型的参数

在中心节点的知识的重组完成以后，将会再次进行知识的选择和本地知识的重组。在迭代的学习过程中，目标模型将会从多个预训练模型中筛选和学习到可迁移的教师的表征提取能力。(图3)

4.目标任务适应；

本发明首先收集安防边缘测(如摄像头)的视觉数据，明确具体的模型任务，如行人重识别，为收集的小部分数据进行标注，利用收集的目标任务数据集训练目标任务模型。然后，利用归因图计算目标模型和不同预训练模型之间的可迁移分数，将归一化的可迁移分数作为模型选择的概率，可放回地采样形成模型集合；在联邦学习范式的基础上，将目标模型分发到不同的节点，利用表征蒸馏迁移预训练模型的特征提取能力，在目标模型学习和迁移完成后，通过平均的方式在中心节点进行知识重组，重组过后的模型再次分发到选择的模型节点进一步迭代。最后，再利用目标数据集进行微调目标模型，从而学习得到一个在智能安防领域的目标任务上表现良好的视觉深度模型，并且保护了数据隐私和模型隐私。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种面向智能安防的视觉深度模型知识重组方法，包含如下步骤：

步骤1：收集与训练智能安防数据；

首先收集安防边缘测的视觉数据，明确具体的模型任务，为收集的小部分数据进行标注标注后的数据作为目标任务数据集D_T，其中包含了M个数据样本以及标签；由于安防设备所处的环境以及昂贵的标注成本，安防设备收集的数据是不充分的，因而直接利用该部分数据训练学习难以获得一个表现良好的深度模型；为了让安防的深度模型拥有足够的关于目标任务的知识，首先需要利用收集的目标任务数据集训练目标任务模型；

步骤2：选择模型知识；

预训练模型{M₁，M₂，...，M_N}是在不同训练数据和不同的任务上训练的，因而预训练模型包含了不同领域的知识；并且预训练模型以及数据存放在不同的节点上；对于智能安防具体的目标任务模型而言，不同的预训练模型的知识的可迁移性是不同的；可迁移性更好的预训练模型知识对于目标任务更有帮助；为了从若干预训练模型中选择合适的模型，首先计算不同模型在目标数据集上的归因图

其中

表示第n个模型第k层对于第j个输入的归因图，归因图是计算特定输入的反向传播梯度得到的，归因图反映了模型对于输入的注意力区域；因而，不同模型之间归因图的距离能作为一种模型知识可迁移性的度量；利用目标数据集计算不同模型之间的可迁移性距离如下：

其中，

表示计算余弦相似性；在计算得到目标模型和预训练模型之间的归因图距离之后，模型之间的可迁移分数可以基于归因图距离计算得到；

将可迁移分数归一化为一个离散的概率分布{P₁，P₂，...，P_N}，概率值表示选择某一个预训练模型的概率；将根据概率分布{P₁，P₂，...，P_N}有放回地采样k个模型，形成一个模型集合S_M；这一模型集合将用于后续的联邦知识重组中；

步骤3：重组联邦知识；

在不直接接触预训练模型和数据集的条件下，为了将模型集合S_M的知识重组到目标模型，按照过程是否发生在预训练模型的边缘节点上，将联邦知识重组划分为本地知识重组和中心知识重组两个阶段；两个阶段的划分可以避免对预训练模型的直接接触，进而保护了预训练模型和数据的隐私；

首先，将目标模型M_t的参数

复制到预训练模型M_n所在的节点；深度模型能划分为编码器部分和解码器部分，编码器将原始输入编码到特征空间的向量，特征提取部分是与任务无关的，具有良好的泛化性；而解码器将特征空间的向量解码成与任务相关的输出；在本地重组的过程中，迫使目标模型的特征输出和预训练的特征输出保持一致，目标模型的副本将学习到预训练模型的特征提取能力；由于预训练模型M_n和目标模型M_t的网络结构可能是异构的，目标模型和本地预训练模型的输出特征可能存在输出维度的差异，因而利用3个1×1的卷积操作对齐不同模型的特征输出维度；本地重组过程中损失计算如下：

其中，X表示预训练模型M_n的训练数据集，

表示预训练模型M_n的参数，

表示本地目标模型的参数，而

分别表示预训练模型和目标模型对齐过后的特征输出；本地重组过程将依据损失更新本地目标模型的参数：

其中，η_t表示本地重组的学习率；

在本地知识重组完成以后，本地目标模型的参数

会被上传到中心节点；中心节点在收集到不同节点的目标模型参数以后，将会进行中心节点的知识重组，目标模型的参数更新如下：

在中心节点的知识的重组完成以后，将会再次进行知识的选择和本地知识的重组；在迭代的学习过程中，目标模型将会从多个预训练模型中筛选和学习到可迁移的教师的表征提取能力；

步骤4：智能安防任务适应；

考虑深度学习模型的拓扑结构特点，在知识重组阶段收敛完成以后，将继续在智能安防的目标任务数据集上进行训练，以获得更多与目标任务相关的知识；具体来说，利用目标数据集对目标模型的解码器部分进行训练，目标模型将学习到特征映射到目标标签的能力，在智能安防的模型任务上获得良好的表现。

2.如权利要求1所述的面向边缘侧的视觉深度模型知识重组方法，其特征在于：步骤1所述的安防边缘测是摄像头，所述的模型任务是行人重识别。