CN116310328A - 基于跨图像相似度关系的语义分割知识蒸馏方法及系统 - Google Patents

基于跨图像相似度关系的语义分割知识蒸馏方法及系统 Download PDF

Info

Publication number
CN116310328A
CN116310328A CN202310190417.8A CN202310190417A CN116310328A CN 116310328 A CN116310328 A CN 116310328A CN 202310190417 A CN202310190417 A CN 202310190417A CN 116310328 A CN116310328 A CN 116310328A
Authority
CN
China
Prior art keywords
image
student
teacher
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310190417.8A
Other languages
English (en)
Inventor
杨传广
安竹林
于新强
徐勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202310190417.8A priority Critical patent/CN116310328A/zh
Publication of CN116310328A publication Critical patent/CN116310328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于跨图像相似度关系的语义分割知识蒸馏方法,包括:统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差,以训练更新该学生模型,执行语义分割任务。通过迁移跨图像间的相似度关系,学生模型可以学习到教师模型全局像素特征关系依赖,从而提高语义分割准确度。

Description

基于跨图像相似度关系的语义分割知识蒸馏方法及系统
技术领域
本发明涉及图像语义分割技术以及图像分类技术领域,并特别涉及一种基于跨图像相似度关系的语义分割知识蒸馏方法及系统。
背景技术
图像语义分割是一个视觉上的基础任务,其目的是对图像上的每一个像素点进行分类,从而图像上的不同语义区域可以被分割出来。图像语义分割技术在自动驾驶,虚拟现实以及机器人领域具有广泛的应用价值。虽然现有的语义分割模型,可以在分割上获得很好的性能,但是也需要较大的计算代价。这个缺点限制了这些模型被部署在现实世界场景和资源限制的边缘设备。知识蒸馏作为一项模型压缩技术,可以利用教师教授学生的模式来提升学生网络的性能,这里教师模型通常是复杂度高但是性能优良的网络,学生模型通常是复杂度低但是性能不足的网络。通过知识蒸馏算法,可以使得部署的学生网络可以完成实际的任务性能需求同时需要极少的计算开销。
知识蒸馏算法的核心是定义一种有意义的知识形式,然后将该知识从教师模型传到学生模型,然后设计用于语义分割的知识形式是一个挑战性的问题。最早的特征蒸馏算法尝试直接利用原始特征进行教师-学生之间的对齐,但是没有考虑到结构化的相关度信息。后来的一些结构化知识蒸馏方法考虑建模样本之间的相似度信息作为有意义的知识形式,比如像素点到像素点之间的相似度分布和像素点到区域向量之间的相似度分布,其中区域向量代表了相同类别像素向量的聚类中心。除了在像素点维度上的关系抽取,通道蒸馏将特征通道级别的信息作为知识形式进行蒸馏。
现有方法能有效提升学生网络的性能,但是在一些复杂场景下分割质量不高。发明人发现现有技术中该项缺陷是由先前建模的知识形式导致的,该种知识形式仅仅是从单张图像中提取的,因此不能捕捉到整个数据集中更加广泛的关系依赖,造成不能对城市分割场景下的不同目标建立联系。
发明内容
发明人经过不同图像间的像素到像素关系型建模研究发现,解决该项缺陷可以通过跨图像像素建模全局的图像关系依赖的方法来实现。通过迁移跨图像间的相似度关系,学生模型可以学习到教师模型全局像素特征关系依赖,从而可以使得对语义分割的效果更好。
针对现有技术的不足,本发明提出一种基于跨图像相似度关系的语义分割知识蒸馏方法,包括:
步骤1、获取由多张图像构成的训练集,将训练集中图像分别输入教师模型和学生模型,得到该图像的教师特征图和学生特征图,分别集合所有图像的教师特征图和学生特征图,构成教师特征图集和学生特征图集;
步骤2、统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;
步骤3、统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差;
步骤4、根据该总误差采用随机梯度下降训练更新该学生模型,直到该总误差收敛或达到预设迭代次数,保存当前学生网络作为最终语义分割模型,将待语义分割图像输入该最终语义分割模型,得到该待语义分割图像的语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其中该步骤4包括:该最终语义分割模型提取该待语义分割图像的准确特征,通过分类器对该准确特征中每一个特征像素点进行分类,从而得到该语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其中
该步骤1包括:给定训练集
Figure BDA0004108236180000021
中图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图/>
Figure BDA0004108236180000022
和学生特征图/>
Figure BDA0004108236180000023
Ft=ft(x),Fs=fs(x)
其中H、W和d分别是特征图高度、宽度和通道数;
教师模型ft和学生模型fs可以分别输出得到M个特征图,分别构成该教师特征图集
Figure BDA0004108236180000024
和该学生特征图集/>
Figure BDA0004108236180000025
该步骤2包括:对于该教师特征图集和该学生特征图集中第i张图像和第j张图像,计算两者对应像素特征
Figure BDA0004108236180000031
和/>
Figure BDA0004108236180000032
的相似度矩阵/>
Figure BDA0004108236180000033
其中T表示矩阵转置,分别得到该教师特征图集和该学生特征图集的像素相似度矩阵:
Figure BDA0004108236180000034
该步骤3中总误差L为:
Figure BDA0004108236180000035
Figure BDA0004108236180000036
式中a和b分别是矩阵的行索引和列索引。
所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其中该教师模型的网络规模大于该学生模型的网络规模;该训练集为汽车自动驾驶任务所需图像。
本发明还提出了一种基于跨图像相似度关系的语义分割知识蒸馏系统,其中包括:
初始模块,用于获取由多张图像构成的训练集,将训练集中图像分别输入教师模型和学生模型,得到该图像的教师特征图和学生特征图,分别集合所有图像的教师特征图和学生特征图,构成教师特征图集和学生特征图集;
第一统计模块,用于统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;
第二统计模块,用于统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差;
训练模块,用于根据该总误差采用随机梯度下降训练更新该学生模型,直到该总误差收敛或达到预设迭代次数,保存当前学生网络作为最终语义分割模型,将待语义分割图像输入该最终语义分割模型,得到该待语义分割图像的语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中该训练模块用于:该最终语义分割模型提取该待语义分割图像的准确特征,通过分类器对该准确特征中每一个特征像素点进行分类,从而得到该语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中
该初始模块用于:给定训练集
Figure BDA0004108236180000041
中图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图/>
Figure BDA0004108236180000042
和学生特征图/>
Figure BDA0004108236180000043
Ft=ft(x),Fs=fs(x)
其中H、W和d分别是特征图高度、宽度和通道数;
教师模型ft和学生模型fs可以分别输出得到M个特征图,分别构成该教师特征图集
Figure BDA0004108236180000044
和该学生特征图集/>
Figure BDA0004108236180000045
该第一统计模块用于:对于该教师特征图集和该学生特征图集中第i张图像和第j张图像,计算两者对应像素特征
Figure BDA0004108236180000046
和/>
Figure BDA0004108236180000047
的相似度矩阵/>
Figure BDA0004108236180000048
其中T表示矩阵转置,分别得到该教师特征图集和该学生特征图集的像素相似度矩阵:
Figure BDA0004108236180000049
该第二统计模块中总误差L为:
Figure BDA00041082361800000410
Figure BDA00041082361800000411
式中a和b分别是矩阵的行索引和列索引。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中该教师模型的网络规模大于该学生模型的网络规模;该训练集为汽车自动驾驶任务所需图像。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于跨图像相似度关系的语义分割知识蒸馏方法的程序。
本发明还提出了一种客户端,用于任意一种基于跨图像相似度关系的语义分割知识蒸馏系统。
由以上方案可知,本发明的优点在于:
与其他现有语义分割知识蒸馏方法相比,本发明优化得到的模型在城市场景分割上具有更高的性能,尤其是在复杂场景下具有更好的分割质量,同时在计算代价上低,能够满足实时推理的需求。
附图说明
图1为本发明整体流程图。
具体实施方式
本发明的目的是解决现有技术在复杂场景下分割质量不高的问题,提出了一种基于跨图像相似度关系的语义分割知识蒸馏方法。该方法从全局图像的角度出发,建模像素特征的相似度信息,从而捕捉到了例如城市分割场景下的不同目标依赖,在城市分割场景和自动驾驶任务下具有广泛的应用前景。为了实现上述技术效果,本发明包括如下关键技术点:
关键点1,本发明提出跨图像相似度关系作为知识形式;在技术效果上可以对城市分割场景下的不同目标建立联系,从而提升复杂场景下分割质量。
关键点2,本发明建模像素到像素的相似度分布,然后将该分布通过L2误差来完成教师到学生的逼近;在技术效果上可以使得学生模型可以学习到教师模型的全局像素特征向量的结构化关系,提升学生模型的语义分割效果。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
与其他现有方法相比,本发明在图像分类任务具有更高的性能,但是在参数量和计算量方面代价很低,且具有很小的冗余性。本发明整体的流程如附图1所示。
步骤1,推理产生像素特征向量。给定输入图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图
Figure BDA0004108236180000051
和学生特征图/>
Figure BDA0004108236180000052
Ft=ft(x),Fs=fs(x)
其中H,W,d分别是特征图高度,宽度和通道个数。这里,可以将特征图视为具有H×W个像素特征向量,每一个特征向量的长度为d。为了方便描述,令S=H×W。教师网络可具体采用DeepLabV3-ResNet-101,学生网络可采用DeepLabV3-ResNet-18,教师网络的网络规模大于学生网络,教师网络的网络层数为101层,多于学生网络的18层。
给定一批数据包括个图像样本,表达为
Figure BDA0004108236180000053
教师模型ft和学生模型fs可以分别输出得到M个特征图,表达为/>
Figure BDA0004108236180000054
和/>
Figure BDA0004108236180000055
M个样本通常是同分布的,例如针对城市分割场景,M个样本是不同地方的街景图片,虽然是不同的街景图片,但是通常都包含了车辆行人和建筑等。
步骤2,对图像集合中所有两两图片进行相似度计算,建模图像间的相似度矩阵。对于第i张图像和第j张图像,本发明计算两者对应像素特征
Figure BDA0004108236180000061
和/>
Figure BDA0004108236180000062
的相似度矩阵,表达为/>
Figure BDA0004108236180000063
这里T表示矩阵转置。教师模型端和学生模型端进行相同的算法来计算,分别得到两者的像素相似度矩阵:
Figure BDA0004108236180000064
其中,Bt ij和Bs ij分别是教师和学生产生的跨图像像素相似度矩阵,产生自第i张图像和第j张图像。
步骤3,教师到学生跨图像像素相似度矩阵蒸馏。知识蒸馏的核心思想是学生端的知识去逼近教师端对应更好的知识,从提升学生模型的性能。基于这个思想,本发明引导学生网络产生的跨图像像素相似度矩阵Bs ij去逼近教师网络产生的Bt ij。这里采用了最小平方误差准则函数的形式,如下所示:
Figure BDA0004108236180000065
式中a和b分别是矩阵的行索引和列索引。通过误差函数,可以使得学生网络Bs ij尽可能与Bt ij接近,从而学习更好的相似度关系。对于M个图像样本
Figure BDA0004108236180000066
而言,本发明采用两两计算的原则来产生跨图像的相似度矩阵关系,从而推导出如下的总体误差:
Figure BDA0004108236180000067
以教师网络产生的相似度矩阵作为目标值,让学生网络的预测值去逼近差距,故本发明的目标进一步使用随机梯度下降来最小化误差以达到优化目的。优化后可使得学生网络学习到准确特征,根据准确特征,通过分类器对准确特征中每一个特征像素点进行分类,从而得到最终的图像语义分割结果。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于跨图像相似度关系的语义分割知识蒸馏系统,其中包括:
初始模块,用于获取由多张图像构成的训练集,将训练集中图像分别输入教师模型和学生模型,得到该图像的教师特征图和学生特征图,分别集合所有图像的教师特征图和学生特征图,构成教师特征图集和学生特征图集;
第一统计模块,用于统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;
第二统计模块,用于统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差;
训练模块,用于根据该总误差采用随机梯度下降训练更新该学生模型,直到该总误差收敛或达到预设迭代次数,保存当前学生网络作为最终语义分割模型,将待语义分割图像输入该最终语义分割模型,得到该待语义分割图像的语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中该训练模块用于:该最终语义分割模型提取该待语义分割图像的准确特征,通过分类器对该准确特征中每一个特征像素点进行分类,从而得到该语义分割结果。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中
该初始模块用于:给定训练集
Figure BDA0004108236180000071
中图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图/>
Figure BDA0004108236180000072
和学生特征图/>
Figure BDA0004108236180000073
Ft=ft(x),Fs=fs(x)
其中H、W和d分别是特征图高度、宽度和通道数;
教师模型ft和学生模型fs可以分别输出得到M个特征图,分别构成该教师特征图集
Figure BDA0004108236180000074
和该学生特征图集/>
Figure BDA0004108236180000075
该第一统计模块用于:对于该教师特征图集和该学生特征图集中第i张图像和第j张图像,计算两者对应像素特征
Figure BDA0004108236180000076
和/>
Figure BDA0004108236180000077
的相似度矩阵/>
Figure BDA0004108236180000078
其中T表示矩阵转置,分别得到该教师特征图集和该学生特征图集的像素相似度矩阵:
Figure BDA0004108236180000079
该第二统计模块中总误差L为:
Figure BDA00041082361800000710
Figure BDA0004108236180000081
式中a和b分别是矩阵的行索引和列索引。
所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其中该教师模型的网络规模大于该学生模型的网络规模;该训练集为汽车自动驾驶任务所需图像。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于跨图像相似度关系的语义分割知识蒸馏方法的程序。
本发明还提出了一种客户端,用于任意一种基于跨图像相似度关系的语义分割知识蒸馏系统。

Claims (10)

1.一种基于跨图像相似度关系的语义分割知识蒸馏方法,其特征在于,包括:
步骤1、获取由多张图像构成的训练集,将训练集中图像分别输入教师模型和学生模型,得到该图像的教师特征图和学生特征图,分别集合所有图像的教师特征图和学生特征图,构成教师特征图集和学生特征图集;
步骤2、统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;
步骤3、统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差;
步骤4、根据该总误差采用随机梯度下降训练更新该学生模型,直到该总误差收敛或达到预设迭代次数,保存当前学生网络作为最终语义分割模型,将待语义分割图像输入该最终语义分割模型,得到该待语义分割图像的语义分割结果。
2.如权利要求1所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其特征在于,该步骤4包括:该最终语义分割模型提取该待语义分割图像的准确特征,通过分类器对该准确特征中每一个特征像素点进行分类,从而得到该语义分割结果。
3.如权利要求1所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其特征在于,
该步骤1包括:给定训练集
Figure FDA0004108236160000011
中图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图/>
Figure FDA0004108236160000012
和学生特征图/>
Figure FDA0004108236160000013
Ft=ft(x),Fs=fs(x)
其中H、W和d分别是特征图高度、宽度和通道数;
教师模型ft和学生模型fs可以分别输出得到M个特征图,分别构成该教师特征图集
Figure FDA0004108236160000014
和该学生特征图集/>
Figure FDA0004108236160000015
该步骤2包括:对于该教师特征图集和该学生特征图集中第i张图像和第j张图像,计算两者对应像素特征
Figure FDA0004108236160000016
和/>
Figure FDA0004108236160000017
的相似度矩阵/>
Figure FDA0004108236160000021
其中T表示矩阵转置,分别得到该教师特征图集和该学生特征图集的像素相似度矩阵:
Figure FDA0004108236160000022
该步骤3中总误差L为:
Figure FDA0004108236160000023
Figure FDA0004108236160000024
式中a和b分别是矩阵的行索引和列索引。
4.如权利要求1所述的基于跨图像相似度关系的语义分割知识蒸馏方法,其特征在于,该教师模型的网络规模大于该学生模型的网络规模;该训练集为汽车自动驾驶任务所需图像。
5.一种基于跨图像相似度关系的语义分割知识蒸馏系统,其特征在于,包括:
初始模块,用于获取由多张图像构成的训练集,将训练集中图像分别输入教师模型和学生模型,得到该图像的教师特征图和学生特征图,分别集合所有图像的教师特征图和学生特征图,构成教师特征图集和学生特征图集;
第一统计模块,用于统计该教师特征图集中两两特征图间像素的相似度,得到教师图像相似度矩阵,统计该学生特征图集中两两特征图间像素的相似度,得到学生图像相似度矩阵;
第二统计模块,用于统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差,作为该两两特征图的误差,集合该训练集中所有两两特征图的误差,得到总误差;
训练模块,用于根据该总误差采用随机梯度下降训练更新该学生模型,直到该总误差收敛或达到预设迭代次数,保存当前学生网络作为最终语义分割模型,将待语义分割图像输入该最终语义分割模型,得到该待语义分割图像的语义分割结果。
6.如权利要求5所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其特征在于,该训练模块用于:该最终语义分割模型提取该待语义分割图像的准确特征,通过分类器对该准确特征中每一个特征像素点进行分类,从而得到该语义分割结果。
7.如权利要求5所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其特征在于,
该初始模块用于:给定训练集
Figure FDA0004108236160000031
中图像x,以及教师模型ft和学生模型fs,两者推理产生教师特征图/>
Figure FDA0004108236160000032
和学生特征图/>
Figure FDA0004108236160000033
Ft=ft(x),Fs=fs(x)
其中H、W和d分别是特征图高度、宽度和通道数;
教师模型ft和学生模型fs可以分别输出得到M个特征图,分别构成该教师特征图集
Figure FDA0004108236160000034
和该学生特征图集/>
Figure FDA0004108236160000035
该第一统计模块用于:对于该教师特征图集和该学生特征图集中第i张图像和第j张图像,计算两者对应像素特征
Figure FDA0004108236160000036
和/>
Figure FDA0004108236160000037
的相似度矩阵/>
Figure FDA0004108236160000038
其中T表示矩阵转置,分别得到该教师特征图集和该学生特征图集的像素相似度矩阵:
Figure FDA0004108236160000039
该第二统计模块中总误差L为:
Figure FDA00041082361600000310
Figure FDA00041082361600000311
式中a和b分别是矩阵的行索引和列索引。
8.如权利要求5所述的基于跨图像相似度关系的语义分割知识蒸馏系统,其特征在于,该教师模型的网络规模大于该学生模型的网络规模;该训练集为汽车自动驾驶任务所需图像。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于跨图像相似度关系的语义分割知识蒸馏方法的程序。
10.一种客户端,用于权利要求5至8中任意一种基于跨图像相似度关系的语义分割知识蒸馏系统。
CN202310190417.8A 2023-02-23 2023-02-23 基于跨图像相似度关系的语义分割知识蒸馏方法及系统 Pending CN116310328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310190417.8A CN116310328A (zh) 2023-02-23 2023-02-23 基于跨图像相似度关系的语义分割知识蒸馏方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310190417.8A CN116310328A (zh) 2023-02-23 2023-02-23 基于跨图像相似度关系的语义分割知识蒸馏方法及系统

Publications (1)

Publication Number Publication Date
CN116310328A true CN116310328A (zh) 2023-06-23

Family

ID=86821683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310190417.8A Pending CN116310328A (zh) 2023-02-23 2023-02-23 基于跨图像相似度关系的语义分割知识蒸馏方法及系统

Country Status (1)

Country Link
CN (1) CN116310328A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015431A (zh) * 2024-04-03 2024-05-10 阿里巴巴(中国)有限公司 图像处理方法、设备、存储介质和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015431A (zh) * 2024-04-03 2024-05-10 阿里巴巴(中国)有限公司 图像处理方法、设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
CN111062951B (zh) 一种基于语义分割类内特征差异性的知识蒸馏方法
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN110717493B (zh) 一种基于深度学习的含堆叠字符的车牌识别方法
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN111428558A (zh) 一种基于改进YOLOv3方法的车辆检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN114897160A (zh) 模型训练方法、系统及计算机存储介质
CN116310328A (zh) 基于跨图像相似度关系的语义分割知识蒸馏方法及系统
CN115830535A (zh) 一种变电站周边区域积水检测方法、系统、设备及介质
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN111914596A (zh) 车道线检测方法、装置、系统及存储介质
CN116977712B (zh) 基于知识蒸馏的道路场景分割方法、系统、设备及介质
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN115424243A (zh) 基于yolov5-shufflenetv2的车位号码识别方法、设备和介质
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法
CN114494284A (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115272814B (zh) 一种远距离空间自适应多尺度的小目标检测方法
CN115861997B (zh) 一种关键前景特征引导知识蒸馏的车牌检测识别方法
CN115841585B (zh) 一种对点云分割网络进行知识蒸馏的方法
CN117274723B (zh) 一种用于输电巡检的目标识别方法、系统、介质及设备
CN115170970B (zh) 一种用于检测城市街道景观破损的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination