CN117612214A - 一种基于知识蒸馏的行人搜索模型压缩方法 - Google Patents
一种基于知识蒸馏的行人搜索模型压缩方法 Download PDFInfo
- Publication number
- CN117612214A CN117612214A CN202410090297.9A CN202410090297A CN117612214A CN 117612214 A CN117612214 A CN 117612214A CN 202410090297 A CN202410090297 A CN 202410090297A CN 117612214 A CN117612214 A CN 117612214A
- Authority
- CN
- China
- Prior art keywords
- representing
- pedestrian
- loss
- model
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000006835 compression Effects 0.000 title claims abstract description 22
- 238000007906 compression Methods 0.000 title claims abstract description 22
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 18
- 238000004821 distillation Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 239000010410 layer Substances 0.000 claims description 72
- 238000012512 characterization method Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000001514 detection method Methods 0.000 claims description 36
- 239000011229 interlayer Substances 0.000 claims description 28
- 230000003416 augmentation Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000013137 model compression technique Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于知识蒸馏的行人搜索模型压缩方法,压缩方法包括如下步骤:S1:大型行人搜索网络结构作为教师模型,在行人搜索数据集上与训练教师模型;S2:轻量行人搜索网络结构作为学生模型;S3:在行人搜索数据集上训练学生模型时,从教师模型获取第一输出数据,从学生模型第二输出数据;S4:使用行人搜索模型压缩方法解耦蒸馏第一数据输出中的知识,计算解耦蒸馏损失;S5:联合行人搜索任务损失和解耦蒸馏损失训练学生模型,提高所述学生模型的性能。本发明针对图像特征和行人搜索任务的特点设计压缩方法,将大型行人搜索模型的有益知识转移到轻量模型中,有利于在真实监控场景中部署高精确度的轻量行人搜索模型。
Description
技术领域
本发明涉及智能视觉监控和模型压缩领域,具体涉及一种基于知识蒸馏的行人搜索模型压缩方法。
背景技术
行人搜索旨在跨摄像机场景图像中准确定位和标识目标行人,为目标跟踪、轨迹分析、异常检测等相关任务提供技术支撑。该任务作为智能视觉监控系统最核心的环节之一,在视频监控、自助服务等领域有着广泛的应用前景,受到了学术界和工业界的广泛关注和深入研究。
行人搜索联合行人检测和行人重识别技术,能够更好地为智能监控系统提供技术保障和服务支持。因此目前大多数研究聚焦于如何设计一个统一的框架来解决该问题,例如《The IEEE/CVF Computer Vision and Pattern Recognition Conference 2017》会议上发表的《Joint Detection and Identification Feature Learning for PersonSearch》,《International Journal of Computer Vision》期刊,2023年发表的《EfficientPerson Search: An Anchor-Free Approach》,目标检测与重识别模型在端到端框架中被联合训练。此外,许多研究利用大型的神经网络和/或精心设计的行人匹配策略提升行人搜索模型的性能,并取得了较为可观的进展,在CUHK-SYSU和PRW两个国际通用的行人搜素数据库上达到了较高的检索精度。现有方法的表现受益于大型网络模型的图像表征能力,但是受限于高昂的计算代价和缓慢的推理速度,导致现有的先进模型无法在真实世界应用场景中使用。
知识蒸馏是最流行的模型压缩技术之一,已经被成功应用在多种视觉任务中。知识蒸馏技术通过将大型的教师网络的信息迁移到轻量的学生网络模型中,提升轻量模型性能的同时并不增加额外的推理代价。
因此,基于上述技术问题需要设计一种新的基于知识蒸馏的行人搜索模型压缩方法。
发明内容
发明目的:针对上述现有技术,提出一种基于知识蒸馏的行人搜索模型压缩方法,实现轻量行人搜索模型在实际应用场景中高效、准确的识别目标行人。
技术方案:一种基于知识蒸馏的行人搜索模型压缩方法,包括如下步骤:
步骤S1:获取教师模型,在行人搜索数据集上训练所述教师模型,通过行人搜索任务损失更新所述教师模型的网络参数,得到训练好的教师模型;
步骤S2:获取学生模型,在行人搜索数据集上训练所述学生模型,在训练时,从训练好的教师模型获取第一输出数据,从所述学生模型获取第二输出数据;
步骤S3:解耦蒸馏所述第一输出数据中的知识,度量第一输出数据中知识和第二输出数据中知识的差异,并计算解耦蒸馏损失;
步骤S4:联合所述行人搜索任务损失和所述解耦蒸馏损失更新学生模型的网络参数,最终得到训练好的学生模型,将训练好的学生模型用于行人搜索任务。
优选的,所述步骤S1具体包括以下步骤:
S101:对无裁剪的真实监控场景图像执行图像增广操作,将执行图像增广操作后的图像作为所述教师模型的输入,所述教师模型输出所述第一输出数据,所述第一输出数据包括第一多级中间层特征图、第一行人和背景分类/>、第一重识别行人表征;
所述教师模型包括依次串接的骨干网络、区域候选网络、检测子网络、重识别子网络:所述骨干网络生成所述第一多级中间层特征图,所述区域候选网络在所述第一多级中间层特征图/>上生成候选区域,将生成的候选区域所对应的图像表征输入所述检测子网络,所述检测子网络生成目标区域,将生成的所述目标区域所对应的图像表征输入所述重识别子网络,所述重识别子网络生成行人实例特征/>;
S102:通过行人搜索任务损失更新所述教师模型的网络参数:
行人搜索任务损失包括所述区域候选网络的损失/>、所述检测子网络的分类损失/>和回归损失/>、所述重识别子网络的重识别损失/>,具体计算如下:
,
,
,
,
其中:
表示所述区域候选网络生成的候选区域数量,/>表示候选区域的索引值;
表示所述区域候选网络生成的正候选区域数量,/>表示正候选区域的索引值;
表示所述检测子网络生成的目标区域数量,/>表示目标区域的索引值;
表示所述检测子网络生成的正目标区域数量,/>表示正目标区域的索引值;
表示第/>个候选区域的真实标签,/>表示第/>个候选区域的预测概率;
表示第b个正候选区域的真实标签,/>表示第/>个正候选区域的定位预测回归值;/>表示第/>个正候选区域的真实回归值,/>表示平滑损失;
表示第/>个目标区域的真实标签,/>表示第/>个目标区域的预测概率;
表示第/>个正目标区域的定位预测回归值,/>表示第/>个正目标区域的真实回归值;
表示规范感知模块的损失,所述规范感知模块串接于所述重识别子网络,所述规范感知模块映射所述重识别子网络生成的行人实例特征/>,获取所述第一重识别行人表征/>;
所述行人搜索任务损失为所述区域候选网络的损失/>、所述检测子网络的分类损失/>、所述检测子网络的回归损失/>、所述重识别子网络的重识别损失/>之和。
优选的,步骤S2中:在行人搜索数据集上训练所述学生模型时,对无裁剪的真实监控场景图像执行图像增广操作,将执行增广操作后的图像作为所述学生模型以及训练好的教师模型的输入,所述学生模型输出所述第二输出数据,所述第二输出数据包括第二多级中间层特征图、第二行人和背景分类 />、第二重识别行人表征/>。
优选的,所述步骤S3包括以下步骤:
S301:对于所述第一多级中间层特征图和第二多级中间层特征图/>的每一级中间层特征图/>均依次计算二值掩码/>,空间注意力掩码值/>,通道注意力掩码值/>,比例掩码/>和全局像素关系/>;
二值掩码的计算公式如下:
,
其中表示真实目标标注框,/>是中间层特征图/>的/>处坐标,表示否则;
空间注意力掩码值和通道注意力掩码值/>的计算公式如下
,
:
其中代表中间层特征图/>的通道数,/>代表中间层特征图/>的高度,/>代表中间层特征图/>的宽度;/>是温度系数,/>是中间层特征图/>的第/>个通道的特征值,是中间层特征图/>的/>坐标处的特征值;/>为归一化函数;/>表示绝对值;
比例掩码的计算公式如下:
,
其中是真实目标标注框的高,/>是真实目标标注框的宽;
全局像素关系的计算公式如下:
,
,
;
其中表示内容瓶颈变换,/>是全局注意力池化的权重,/>,/>,/>均代表的卷积层,/>代表/>激活函数,/>代表层正则化操作,/>是/>、/>和的乘积,代表所述中间层特征图/>的像素数量,/>表示第/>个像素的特征值,/>表示第/>个像素的特征值,/>表示指数;
解耦蒸馏损失的计算公式为:
;
其中,代表特征损失,/>代表注意力损失,/>代表全局像素关系损失,具体计算公式如下:
,
,
,
,
其中,/>,/>和/>是超参数;/>表示第二多级中间层特征图/>的中间层特征图/>在/>坐标处空间注意力掩码值,/>表示第二多级中间层特征图/>的中间层特征图/>在第/>个通道的通道注意力掩码值;/>是自适应卷积层;/>表示第一多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值,/>表示第二多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值;/>是损失即平均绝对值误差;/>表示第二多级中间层特征图/>的空间注意力掩码值,表示第一多级中间层特征图/>的空间注意力掩码值;/>表示第二多级中间层特征图/>的通道注意力掩码值,/>表示第一多级中间层特征图/>通道注意力掩码值;表示所述第一多级中间层特征图/>的全局像素关系,/>表示所述第二多级中间层特征图/>的全局像素关系;
S302:Logit蒸馏方法蒸馏所述第一输出数据中的第一行人和背景分类、所述第二输出数据中的第二行人和背景分类/>,使用Kullback–Leiblerdivergence即KL散度来度量分类概率/>和/>之间的差异,将分类概率/>中的知识蒸馏到所述学生模型的检测子网络中:
所述Logit蒸馏方法的损失的计算公式如下:
,
其中参数的取值为/>,/>表示Kullback–Leibler divergence即KL散度;和/>表示分类概率;
S303:所述教师模型的第一重识别行人表征的关系图邻接矩阵表示为:
,
其中,表示余弦相似度,/>和/>表示任意两个第一重识别行人表征,使用余弦相似度计算任意两个第一重识别行人表征/>和/>之间的距离作为相似度;
所述学生模型的第二重识别行人表征关系图的邻接矩阵表示为:
,
其中和/>表示任意两个第二重识别行人表征;
重识别行人表征关系蒸馏损失计算公式为:
。
优选的,步骤S4包括如下子步骤:
S401:联合所述行人搜索任务损失和所述解耦蒸馏损失/>联合训练学生模型,优化学生模型的表征能力,将所述教师模型的能力迁移到所述学生模型中,学生模型训练的总损失/>计算方式如下:
,
其中是超参数。
有益效果:本发明针对图像特征和行人搜索联合优化行人检测和行人重识别任务的特点设计压缩方法,将大型行人搜索模型的有益知识转移到轻量模型中,有利于在真实监控场景中部署高精确度的轻量行人搜索模型。
附图说明
图1是本发明的基于知识蒸馏的行人搜索模型压缩方法的流程图;
图2是本发明行人搜索模型的网络结构示意图;
图3是本发明中行人搜索解耦蒸馏压缩方法的网络结构示意图。
实施方式
下面结合附图对本发明做更进一步的解释。
如图1所示,根据一种基于知识蒸馏的行人搜索模型压缩方法包括以下步骤:
S1:给定大型行人搜索网络结构,作为教师模型,在行人搜索数据集上与训练所述教师模型,包括如下具体步骤:
S101:如图2所示,对无裁剪的真实监控场景图像执行图像增广操作,将执行图像增广操作后的图像作为所述教师模型的输入,所述教师模型输出所述第一输出数据,所述第一输出数据包括第一多级中间层特征图、第一行人和背景分类/>、第一重识别行人表征/>;
所述教师模型包括依次串接的骨干网络、区域候选网络、检测子网络、重识别子网络:所述骨干网络生成所述第一多级中间层特征图,所述区域候选网络在所述第一多级中间层特征图/>上生成候选区域,将生成的候选区域所对应的图像表征输入所述检测子网络,所述检测子网络生成目标区域,将生成的所述目标区域所对应的图像表征输入所述重识别子网络,所述重识别子网络生成行人实例特征/>;
S102:通过行人搜索任务损失更新所述教师模型的网络参数:行人搜索任务损失包括所述区域候选网络的损失/>、所述检测子网络的分类损失/>和回归损失、所述重识别子网络的重识别损失/>,具体计算如下:
,
,
,
,
其中:
表示所述区域候选网络生成的候选区域数量,/>表示候选区域的索引值;
表示所述区域候选网络生成的正候选区域数量,/>表示正候选区域的索引值;
表示所述检测子网络生成的目标区域数量,/>表示目标区域的索引值;
表示所述检测子网络生成的正目标区域数量,/>表示正目标区域的索引值;
表示第/>个候选区域的真实标签,/>表示第/>个候选区域的预测概率;
表示第b个正候选区域的真实标签,/>表示第/>个正候选区域的定位预测回归值;/>表示第/>个正候选区域的真实回归值,/>表示平滑损失;
表示第/>个目标区域的真实标签,/>表示第/>个目标区域的预测概率;
表示第/>个正目标区域的定位预测回归值,/>表示第/>个正目标区域的真实回归值;
表示规范感知模块的损失,所述规范感知模块串接于所述重识别子网络,所述规范感知模块映射所述重识别子网络生成的行人实例特征/>,获取所述第一重识别行人表征/>。
所述大型行人搜索网络结构采用大型骨干网络,例如ResNet-50作为特征提取网络,使用金字塔特征网络融合ResNet-50提取的特征,并输出多级中间层特征网络,可以获得更鲁棒的图像表征能力,提高所述教师模型在行人搜索任务上的表现。
步骤S2:给定轻量行人搜索网络结构,作为学生模型,所述学生模型与所述教师模型具有相似的网络结构,如图2所示,区别在于使用所述学生模型采用轻量的骨干网络提取特征,例如选择ResNet-18或者MobileNetV2作为特征提取网络,具有较所述教师模型更少的训练参数,更快的推理速度:在行人搜索数据集上训练所述学生模型时,对无裁剪的真实监控场景图像执行图像增广操作,将执行增广操作后的图像作为所述学生模型以及训练好的教师模型的输入,所述学生模型输出所述第二输出数据,所述第二输出数据包括第二多级中间层特征图、第二行人和背景分类 />、第二重识别行人表征/>。
S3:在行人搜索数据集上训练所述学生模型时,从所述训练好的教师模型获取第一输出数据,从所述学生模型获取第二输出数据,包括如下步骤:
S301:所述学生模型训练时,读取无裁剪的真实监控场景图像作为模型训练输入;
S302:对所述监控场景图像执行图像增广操作,增广后的无裁剪真实监控场景图像被分别输入所述教师模型和所述学生模型;
S303:冻结所述教师模型参数,所述教师模型处理所述增广图像后,获取所述第一输出数据,包括从所述大型骨干网络输出的多级中间层特征图,所述教师模型中检测子网络输出的行人和背景分类/>,所述教师模型中重识别子网络输出的行人表征/>。
S304:所述学生模型执行训练过程处理所述增广图像,获取所述第二输出数据,包括从所述轻量骨干网络输出的多级中间层特征图,所述学生模型检测子网络输出的行人和背景分类/>,所述学生模型重识别子网络输出的行人表征/>。
S4:使用所述行人搜索模型压缩方法解耦蒸馏所述第一数据输出中的知识,度量第一数据输出和第二数据输出中知识的差异,计算解耦蒸馏损失,如图3所示,包括如下步骤:
S401:所述基于知识蒸馏的行人搜索压缩方法分别蒸馏所述行人搜索任务子网络的输出和中间层特征图映射的任务级和特征级知识。面向行人搜索任务,蒸馏过程被解耦为两个面向任务的子过程,检测蒸馏和重识别蒸馏;对于中间层特征图的特征蒸馏,特征图被解耦为行人区域和背景区域,并且分别对两个区域蒸馏;
S402:对特征图的蒸馏使用特征图解耦蒸馏方法,所述特征图解耦蒸馏方法损失包括特征损失/>,注意力损失/>和全局像素关系损失/>,即。所述第一输出数据和所述第二输出数据的所述多级中间层特征图/>和/>被输入所述特征图解耦蒸馏方法。对于所述/>和/>的每一级特征图/>均依次执行二值掩码计算二值掩码/>,空间注意力掩码值/>,通道注意力掩码值/>,比例掩码和全局像素关系/>;
二值掩码的计算公式如下:
,
其中表示真实目标标注框,/>是中间层特征图/>的/>处坐标,表示否则;
空间注意力掩码值和通道注意力掩码值/>的计算公式如下
,
:
其中代表中间层特征图/>的通道数,/>代表中间层特征图/>的高度,/>代表中间层特征图/>的宽度;/>是温度系数,/>是中间层特征图/>的第/>个通道的特征值,是中间层特征图/>的/>坐标处的特征值;/>为归一化函数;
比例掩码的计算公式如下:
,
其中和/>分别是真实目标标注框的高和宽;
全局像素关系的计算公式如下:
,
,
;
其中表示内容瓶颈变换,/>是全局注意力池化的权重,/>,/>,/>均代表的卷积层,/>代表/>激活函数,/>代表层正则化操作,/>是/>、/>和的乘积,代表所述中间层特征图/>的像素数量,/>表示第/>个像素的特征值,/>表示第/>个像素的特征值,/>表示指数。
解耦蒸馏损失的计算公式为:
;
其中,代表特征损失,/>代表注意力损失,/>代表全局像素关系损失,具体计算公式如下:
,
,
,
,
其中,/>,/>和/>是超参数;/>表示第二多级中间层特征图/>的中间层特征图/>在/>坐标处空间注意力掩码值,/>表示第二多级中间层特征图/>的中间层特征图/>在第/>个通道的通道注意力掩码值;/>是自适应卷积层;/>表示第一多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值,/>表示第二多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值;/>是损失即平均绝对值误差;/>表示第二多级中间层特征图/>的空间注意力掩码值,将第二多级中间层特征图/>代入空间注意力掩码值/>的计算公式中得到,/>表示第一多级中间层特征图/>的空间注意力掩码值,将第一多级中间层特征图/>代入空间注意力掩码值/>的计算公式中得到;/>表示第二多级中间层特征图/>的通道注意力掩码值,将第二多级中间层特征图/>代入通道注意力掩码值/>的计算公式得到,/>表示第一多级中间层特征图/>通道注意力掩码值,将第一多级中间层特征图/>代入通道注意力掩码值/>的计算公式得到;/>表示所述第一多级中间层特征图/>的全局像素关系,将所述第一多级中间层特征图/>代入全局像素关系/>的计算公式中得到;/>表示所述第二多级中间层特征图/>的全局像素关系,将所述第二多级中间层特征图/>代入全局像素关系/>的计算公式中得到;
所述Logit蒸馏方法的损失的计算公式如下:
,
其中参数的取值为/>,/>表示Kullback–Leibler divergence即KL散度;和/>表示分类概率;其中/>在/>中取值是由于所述检测分类/>和/>都是二分类结果。
S404:所述面向重识别子任务的重识别蒸馏方法蒸馏所述教师网络中行人表征关系知识,使所述学生网络模仿所述教师网络中行人表征的分布。利用重识别子网络输出的行人表征构建关系图,行人表征作为关系图/>的定点,任意两个表征之间的相似度作为关系图中边/>的权重。所述教师模型的所述行人表征关系图邻接矩阵表示为:
,
其中使用余弦相似度计算任意两个行人表征和/>之间的距离作为相似度。
所述学生模型的所述行人表征关系图邻接矩阵表示为:
,
所述行人表征关系蒸馏损失计算公式为:
。
S5:联合行人搜索任务损失和所述解耦蒸馏损失训练学生模型,所述任务损失优化所述学生模型的表征学习能力,所述解耦蒸馏损失使所述学生模型模仿所述教师模型的表征能力和行人搜索能力,从而提高所述学生模型的性能,训练总损失计算方式如下:
,
其中是超参数,用来权衡各个损失。
表1是基于本发明上述实施实例所提供的方法得到的教师模型与学生模型在通用数据集CUHK-SYSU上的行人搜索准确度对比,其中学生模型S1采用与教师模型同构的特征提取网络,检测和重识别子任务的性能都有很大的提升,均超过了教师模型的表现;S2采用与教师模型异构的特征提取网络,仍然可以从教师网络中蒸馏对学生模型有益的知识,大幅提高行人搜索任务的表现,并且与教师模型的性能接近。
表2是基于本发明上述实施实例所提供的方法得到的教师模型与学生模型在通用数据集PRW上的行人搜索准确度对比,与CUHK-SYSU相比,PRW中训练集图像数量和行人类别个数均少于CUHK-SYSU数据集,因此PRW上行人检测任务表现差于在CUHK-SYSU数据集上训练模型的性能,其中使用本发明的实施例,学生模型S1和S2在蒸馏后性能都超过了教师模型的表现。
表1:本实施例在CUHK-SYSU数据集上行人搜索准确度结果:
/>
表2:本实施例在PRW数据集上行人搜索准确度结果
本发明还提供了一种框架,具体如下:
一种基于知识蒸馏的行人搜索模型压缩框架,包括行人搜索网络结构、特征图解耦蒸馏网络模块、Logit蒸馏网络模块和行人表征关系蒸馏网络模块:
所述行人搜索网络结构包括依次串接的骨干网络、区域候选网络、检测子网络、重识别子网络,所述骨干网络包括特征提取网络和金字塔特征网络;
所述特征解耦网络模块包括一个一层自适应卷积层网络和一个全局内容块,全局内容块包括全局注意力池化层和瓶颈变换模块;输入所述特征解耦网络模块的第一多级中间层特征图通道数与第二多级中间层特征图的通道数相等;
所述Logit蒸馏网络模块输入相同候选目标区域对应的分类logits,即相同的候选目标区域分别输入所述教师网络和所述学生网络的检测子网络处理后得到的分类logits;所述分类logits是检测子网络中SoftMax层前一层的输出;输入所述Logit蒸馏网络模块的所述第一输出数据中的所述分类logit的类别维度与所述第二输出数据中的所述分类logit的类别维度相等;
所述行人表征关系蒸馏网络模块输入相同行人目标检测区域对应的行人表征,即相同的行人目标检测区域分别输入所述教师网络和所述学生网络的重识别子网络处理后得到的行人表征;所述行人表征的维度等于行人搜索数据集行人身份数;输入所述行人表征关系蒸馏网络模块的所述第一输出数据中的所述行人表征类别维度与所述第二输出数据中的所述行人表征类别维度相等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于知识蒸馏的行人搜索模型压缩方法,其特征在于,包括如下步骤:
步骤S1:获取教师模型,在行人搜索数据集上训练所述教师模型,通过行人搜索任务损失更新所述教师模型的网络参数,得到训练好的教师模型;
步骤S2:获取学生模型,在行人搜索数据集上训练所述学生模型,在训练时,从训练好的教师模型获取第一输出数据,从所述学生模型获取第二输出数据;
步骤S3:解耦蒸馏所述第一输出数据中的知识,度量第一输出数据中知识和第二输出数据中知识的差异,并计算解耦蒸馏损失;
步骤S4:联合所述行人搜索任务损失和所述解耦蒸馏损失更新学生模型的网络参数,最终得到训练好的学生模型,将训练好的学生模型用于行人搜索任务。
2.根据权利要求1所述的一种基于知识蒸馏的行人搜索模型压缩方法,其特征在于,所述步骤S1具体包括以下步骤:
S101:对无裁剪的真实监控场景图像执行图像增广操作,将执行图像增广操作后的图像作为所述教师模型的输入,所述教师模型输出所述第一输出数据,所述第一输出数据包括第一多级中间层特征图、第一行人和背景分类/>、第一重识别行人表征/>;
所述教师模型包括依次串接的骨干网络、区域候选网络、检测子网络、重识别子网络:所述骨干网络生成所述第一多级中间层特征图,所述区域候选网络在所述第一多级中间层特征图/>上生成候选区域,将生成的候选区域所对应的图像表征输入所述检测子网络,所述检测子网络生成目标区域,将生成的所述目标区域所对应的图像表征输入所述重识别子网络,所述重识别子网络生成行人实例特征/>;
S102:通过行人搜索任务损失更新所述教师模型的网络参数:
行人搜索任务损失包括所述区域候选网络的损失/>、所述检测子网络的分类损失/>和回归损失/>、所述重识别子网络的重识别损失/>,具体计算如下:
,
,
,
,
其中:
表示所述区域候选网络生成的候选区域数量,/>表示候选区域的索引值;
表示所述区域候选网络生成的正候选区域数量,/>表示正候选区域的索引值;
表示所述检测子网络生成的目标区域数量,/>表示目标区域的索引值;
表示所述检测子网络生成的正目标区域数量,/>表示正目标区域的索引值;
表示第/>个候选区域的真实标签,/>表示第/>个候选区域的预测概率;
表示第b个正候选区域的真实标签,/>表示第/>个正候选区域的定位预测回归值;表示第/>个正候选区域的真实回归值,/>表示平滑损失;
表示第/>个目标区域的真实标签,/>表示第/>个目标区域的预测概率;
表示第/>个正目标区域的定位预测回归值,/>表示第/>个正目标区域的真实回归值;
表示规范感知模块的损失,所述规范感知模块串接于所述重识别子网络,所述规范感知模块映射所述重识别子网络生成的行人实例特征/>,获取所述第一重识别行人表征;
所述行人搜索任务损失为所述区域候选网络的损失/>、所述检测子网络的分类损失/>、所述检测子网络的回归损失/>、所述重识别子网络的重识别损失/>之和。
3.根据权利要求2所述的一种基于知识蒸馏的行人搜索模型压缩方法,其特征在于,步骤S2中:在行人搜索数据集上训练所述学生模型时,对无裁剪的真实监控场景图像执行图像增广操作,将执行增广操作后的图像作为所述学生模型以及训练好的教师模型的输入,所述学生模型输出所述第二输出数据,所述第二输出数据包括第二多级中间层特征图、第二行人和背景分类 />、第二重识别行人表征/>。
4.根据权利要求3所述的一种基于知识蒸馏的行人搜索模型压缩方法,其特征在于,所述步骤S3包括以下步骤:
S301:对于所述第一多级中间层特征图和第二多级中间层特征图/>的每一级中间层特征图/>均依次计算二值掩码/>,空间注意力掩码值/>,通道注意力掩码值/>,比例掩码/>和全局像素关系/>;
二值掩码的计算公式如下:
,
其中表示真实目标标注框,/>是中间层特征图/>的/>处坐标,/>表示否则;
空间注意力掩码值和通道注意力掩码值/>的计算公式如下:
,
:
其中代表中间层特征图/>的通道数,/>代表中间层特征图/>的高度,/>代表中间层特征图/>的宽度;/>是温度系数,/>是中间层特征图/>的第/>个通道的特征值,/>是中间层特征图/>的/>坐标处的特征值;/>为归一化函数;/>表示绝对值;
比例掩码的计算公式如下:
,
其中是真实目标标注框的高,/>是真实目标标注框的宽;
全局像素关系的计算公式如下:
,
,
;
其中表示内容瓶颈变换,/>是全局注意力池化的权重,/>,/>,/>均代表的卷积层,/>代表/>激活函数,/>代表层正则化操作,/>是/>、/>和的乘积,代表所述中间层特征图/>的像素数量,/>表示第/>个像素的特征值,/>表示第/>个像素的特征值,/>表示指数;
解耦蒸馏损失的计算公式为:
;
其中,代表特征损失,/>代表注意力损失,/>代表全局像素关系损失,具体计算公式如下:
,
,
,
,
其中,/>,/>和/>是超参数;/>表示第二多级中间层特征图/>的中间层特征图在/>坐标处空间注意力掩码值,/>表示第二多级中间层特征图/>的中间层特征图在第/>个通道的通道注意力掩码值;/>是自适应卷积层;/>表示第一多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值,/>表示第二多级中间层特征图/>的中间层特征图/>在通道数为/>、坐标为/>处的特征值;/>是/>损失即平均绝对值误差;/>表示第二多级中间层特征图/>的空间注意力掩码值,/>表示第一多级中间层特征图/>的空间注意力掩码值;/>表示第二多级中间层特征图/>的通道注意力掩码值,/>表示第一多级中间层特征图/>通道注意力掩码值;/>表示所述第一多级中间层特征图/>的全局像素关系,/>表示所述第二多级中间层特征图的全局像素关系;
S302:Logit蒸馏方法蒸馏所述第一输出数据中的第一行人和背景分类、所述第二输出数据中的第二行人和背景分类/>,使用Kullback–Leibler divergence即KL散度来度量分类概率/>和/>之间的差异,将分类概率/>中的知识蒸馏到所述学生模型的检测子网络中:
所述Logit蒸馏方法的损失的计算公式如下:
,
其中参数的取值为/>,/>表示Kullback–Leibler divergence即KL散度;/>和/>表示分类概率;
S303:所述教师模型的第一重识别行人表征的关系图邻接矩阵表示为:
,
其中,表示余弦相似度,/>和/>表示任意两个第一重识别行人表征,使用余弦相似度计算任意两个第一重识别行人表征/>和/>之间的距离作为相似度;
所述学生模型的第二重识别行人表征关系图的邻接矩阵表示为:
,
其中和/>表示任意两个第二重识别行人表征;
重识别行人表征关系蒸馏损失计算公式为:
。
5.根据权利要求4所述的一种基于知识蒸馏的行人搜索模型压缩方法,其特征在于,步骤S4包括如下子步骤:
S401:联合所述行人搜索任务损失和所述解耦蒸馏损失/>联合训练学生模型,优化学生模型的表征能力,将所述教师模型的能力迁移到所述学生模型中,学生模型训练的总损失/>计算方式如下:
,
其中是超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090297.9A CN117612214B (zh) | 2024-01-23 | 2024-01-23 | 一种基于知识蒸馏的行人搜索模型压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410090297.9A CN117612214B (zh) | 2024-01-23 | 2024-01-23 | 一种基于知识蒸馏的行人搜索模型压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117612214A true CN117612214A (zh) | 2024-02-27 |
CN117612214B CN117612214B (zh) | 2024-04-12 |
Family
ID=89946615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410090297.9A Active CN117612214B (zh) | 2024-01-23 | 2024-01-23 | 一种基于知识蒸馏的行人搜索模型压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612214B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560631A (zh) * | 2020-12-09 | 2021-03-26 | 昆明理工大学 | 一种基于知识蒸馏的行人重识别方法 |
CN113297906A (zh) * | 2021-04-20 | 2021-08-24 | 之江实验室 | 一种基于知识蒸馏的行人重识别模型压缩方法及评价方法 |
CN113920540A (zh) * | 2021-11-04 | 2022-01-11 | 厦门市美亚柏科信息股份有限公司 | 基于知识蒸馏的行人重识别方法、装置、设备及存储介质 |
CN114742224A (zh) * | 2021-06-25 | 2022-07-12 | 江苏大学 | 行人重识别方法、装置、计算机设备及存储介质 |
CN115546840A (zh) * | 2022-10-24 | 2022-12-30 | 深圳须弥云图空间科技有限公司 | 基于半监督知识蒸馏的行人重识别模型训练方法及装置 |
CN115690833A (zh) * | 2022-09-07 | 2023-02-03 | 河南大学 | 一种基于深度主动学习和模型压缩的行人重识别方法 |
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
US20230351203A1 (en) * | 2022-04-27 | 2023-11-02 | Samsung Electronics Co., Ltd. | Method for knowledge distillation and model genertation |
WO2023220878A1 (en) * | 2022-05-16 | 2023-11-23 | Intel Corporation | Training neural network trough dense-connection based knowlege distillation |
CN117114053A (zh) * | 2023-08-24 | 2023-11-24 | 之江实验室 | 基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置 |
-
2024
- 2024-01-23 CN CN202410090297.9A patent/CN117612214B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560631A (zh) * | 2020-12-09 | 2021-03-26 | 昆明理工大学 | 一种基于知识蒸馏的行人重识别方法 |
CN113297906A (zh) * | 2021-04-20 | 2021-08-24 | 之江实验室 | 一种基于知识蒸馏的行人重识别模型压缩方法及评价方法 |
CN114742224A (zh) * | 2021-06-25 | 2022-07-12 | 江苏大学 | 行人重识别方法、装置、计算机设备及存储介质 |
CN113920540A (zh) * | 2021-11-04 | 2022-01-11 | 厦门市美亚柏科信息股份有限公司 | 基于知识蒸馏的行人重识别方法、装置、设备及存储介质 |
US20230351203A1 (en) * | 2022-04-27 | 2023-11-02 | Samsung Electronics Co., Ltd. | Method for knowledge distillation and model genertation |
WO2023220878A1 (en) * | 2022-05-16 | 2023-11-23 | Intel Corporation | Training neural network trough dense-connection based knowlege distillation |
CN115690833A (zh) * | 2022-09-07 | 2023-02-03 | 河南大学 | 一种基于深度主动学习和模型压缩的行人重识别方法 |
CN115546840A (zh) * | 2022-10-24 | 2022-12-30 | 深圳须弥云图空间科技有限公司 | 基于半监督知识蒸馏的行人重识别模型训练方法及装置 |
CN117114053A (zh) * | 2023-08-24 | 2023-11-24 | 之江实验室 | 基于结构搜索和知识蒸馏的卷积神经网络模型压缩方法和装置 |
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
CHAO LI等: "A Deep Neural Network Compression Algorithm Based on Knowledge Transfer for Edge Device", 《2018 THIRD ACM/IEEE SYMPOSIUM ON EDGE COMPUTING》, 31 December 2018 (2018-12-31), pages 1 - 2 * |
IDOIA RUIZ等: "Optimizing speed/accuracy trade-off for person re-identification via knowledge distillation", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》, 30 December 2019 (2019-12-30), pages 1 - 11 * |
李瑞龙: "基于卷积神经网络的行人搜索算法研究", 《万方学位论文》, 24 May 2023 (2023-05-24), pages 1 - 83 * |
祁磊 等: "虚实结合的行人重识别方法", 《计算机研究与发展》, 9 January 2024 (2024-01-09), pages 2 - 14 * |
邵仁荣 等: "深度学习中知识蒸馏研究综述", 《计算机学报》, vol. 45, no. 8, 31 August 2022 (2022-08-31), pages 1638 - 1673 * |
Also Published As
Publication number | Publication date |
---|---|
CN117612214B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
WO2023273290A1 (zh) | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN109165540B (zh) | 一种基于先验候选框选择策略的行人搜索方法和装置 | |
CN110569901A (zh) | 一种基于通道选择的对抗消除弱监督目标检测方法 | |
CN106557579B (zh) | 一种基于卷积神经网络的车辆型号检索系统及方法 | |
CN112907602B (zh) | 一种基于改进k-近邻算法的三维场景点云分割方法 | |
CN111583263A (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN110717526A (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN113034545A (zh) | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 | |
CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN111860106B (zh) | 一种无监督的桥梁裂缝识别方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
CN112329559A (zh) | 一种基于深度卷积神经网络的宅基地目标检测方法 | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN107291813B (zh) | 基于语义分割场景的示例搜索方法 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
Sun et al. | Shared coupling-bridge for weakly supervised local feature learning | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统 | |
CN117612214B (zh) | 一种基于知识蒸馏的行人搜索模型压缩方法 | |
CN111797903B (zh) | 一种基于数据驱动粒子群算法的多模态遥感图像配准方法 | |
Xudong et al. | Pedestrian detection and tracking with deep mutual learning | |
CN112801179A (zh) | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |