CN116704196B - 一种训练图像语义分割模型的方法 - Google Patents

一种训练图像语义分割模型的方法 Download PDF

Info

Publication number
CN116704196B
CN116704196B CN202310966937.3A CN202310966937A CN116704196B CN 116704196 B CN116704196 B CN 116704196B CN 202310966937 A CN202310966937 A CN 202310966937A CN 116704196 B CN116704196 B CN 116704196B
Authority
CN
China
Prior art keywords
model
target
loss function
mask
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310966937.3A
Other languages
English (en)
Other versions
CN116704196A (zh
Inventor
刘振锋
周兆龙
许秋宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Digital Power Technology Co ltd
Original Assignee
Zhuhai Digital Power Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Digital Power Technology Co ltd filed Critical Zhuhai Digital Power Technology Co ltd
Priority to CN202310966937.3A priority Critical patent/CN116704196B/zh
Publication of CN116704196A publication Critical patent/CN116704196A/zh
Application granted granted Critical
Publication of CN116704196B publication Critical patent/CN116704196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种训练图像语义分割模型的方法。该方法包括:预先训练知识蒸馏的教师模型并固定;在知识蒸馏的教师模型和学生模型之间嵌入目标类掩膜函数和非目标类掩膜函数,分别结合教师模型和学生模型的中间特征图、输出图,构建对应的目标类掩膜特征和非目标类掩膜特征;基于构建的目标类掩膜特征、非目标类掩膜特征的KL散度构建知识蒸馏的损失函数;基于交叉熵损失函数和所述知识蒸馏的损失函数构建训练学生模型的损失函数对所述学生模型进行训练以获得图像语义分割模型。通过本发明提供的技术方案使知识蒸馏过程中轻量级的学生模型更关注目标类区域与非目标类区域两种知识,由此得到图像语义分割模型具有速度快、准确率高的优点。

Description

一种训练图像语义分割模型的方法
技术领域
本申请涉及基于神经网络模型的人工智能领域。具体涉及一种训练图像语义分割模型的方法。
背景技术
语义分割是指对图像中各个像素进行分类的一项计算机视觉技术。作为场景理解的一项基础任务,语义分割在自动驾驶、遥感影像、医疗图像诊断等方面均有着重要应用。随着近年来深度学习的发展,语义分割的性能不断提高,但是很多方法都忽略了性能与效率之间的平衡,这使得语义分割在实际应用中有一定难度。
知识蒸馏是一种模型压缩的方法,其一定程度上可以解决轻量级模型性能较低的问题,通过教师模型输出的软标签或是中间层的特征,来指导学生模型(轻量级模型)学习更有用的知识。这是因为知识蒸馏只在训练过程中实施,在最终推理阶段中轻量级模型可以在不引入任何额外参数量的情况下提升性能,一定程度上兼顾性能与效率。目前,知识蒸馏方法应用在图像语义分割模型训练时,通常都是基于教师模型和/或学生模型的输出图(logits)或者中间特征图进行整体知识迁移。
然而,目前在图像语义分割模型训练应用知识蒸馏时,并没有针对分类的目标类知识和非目标类知识加以强调以便模型进行额外额的关注。由此、导致现有基于知识蒸馏训练的图像语义分割模型,难以快速地、准确地处理目标类与非目标类的知识,限制了模型性能的提升。
发明内容
为了提高基于知识蒸馏的图像语义分割模型的性能,本发明从使知识蒸馏中相关模型更加关目标类与非目标类的角度出发,提出一种训练图像语义分割模型的方法。该方法通过在知识蒸馏过程中嵌入目标类掩膜函数和非目标类掩膜函数构建对应的目标类掩膜特征和非目标类掩膜特征,将该目标类掩膜特征和非目标类掩膜特征用于构建训练学生模型的损失函数;从而使基于该损失函数训练后学生模型的性能得到提升,能够更快、更准确地处理目标类和非目标类。
本发明提供的技术方案实现为一种训练图像语义分割模型的方法。该方法包括:
S1,基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型。S2,采用已标注好像素类型的图像先行对教师模型进行有监督训练,将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息。
S3,构建尺寸为()的第一目标类掩膜/>和第一非目标类掩膜,N为图像批次大小,C为像素的类别数,H为教师模型/学生模型输出图的高度,W为教师模型/学生模型输出图的宽度,(i,j)为第i行第j列像素点的坐标。其中,所述第一目标类掩膜/>和第一非目标类掩膜/>具有以下性质:在像素点(i,j)被所述教师模型、学生模型任一者的分类模块判定属于第一目标类/>时,/>在第一目标类对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0。在像素点(i,j)被所述教师模型、学生模型任一者的分类模块判定不属于第一目标类/>时,/>的值为0、/>的值为1。
S4,基于所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征。
S5,基于所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征。
S6,基于步骤S4得到的第一目标类掩膜特征和第一非目标类掩膜特征、步骤S5得到的第二目标类掩膜特征和第二非目标类掩膜特征各自的KL散度构建知识蒸馏的损失函数进行知识蒸馏。
S7,基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>,设置学生模型的训练参数后采用样本图像对所述学生模型进行训练以获得所述图像语义分割模型。
PSPNet为常用语义分割模型,其组成包括骨干网络、金字塔池化模块和分类器。在本发明的一个实施例中,所述步骤S1中教师模型所采用的PSPNet的骨干网络为ResNet101,学生模型所采用的PSPNet的骨干网络为ResNet18。
进一步地,上述步骤S4实现为:按照以下公式(1)-(4)分别构建对应于所述教师模型的第一目标类掩膜特征和第一非目标类掩膜特征/>,对应于所述学生模型的第一目标类掩膜特征/>和第一非目标类掩膜特征/>
其中、为所述学生模型的输出图,/>为所述教师模型的输出图。
类似地,上述步骤S5中构建第二目标类掩膜特征和第二非目标类掩膜特征,实现为:按照以下公式(5)-(8)分别构建教师模型的第二目标类掩膜特征和第二非目标类掩膜特征/>,构建所述学生模型的第二目标类掩膜特征/>、第二非目标类掩膜特征
其中,为对齐函数,用于将学生模型特征图的尺度与教师模型特征图的尺度对齐;/>为所述教师模型的中间特征图,/>所述学生模型的中间特征图;a为C个类别中与第二目标类别对应的输出通道序号。
进一步地,所述步骤S6中构建知识蒸馏的损失函数,包括:将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由/>进行尺度变换为,然后按照KL散度的计算公式(9)-(10)构建第一目标类损失函数/>,第一非目标类损失函数/>
其中,为设置的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式。
类似地,将步骤S5得到的第二目标类掩膜特征、第二非目标类掩膜特征分别由进行尺度变换为/>,然后按照KL散度的计算公式(11)-(12)构建第二目标类损失函数/>,第二非目标类损失函数/>
其中,为设定的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式。
基于上述目标类损失函数和非目标类损失函数,构建知识蒸馏的损失函数
其中,,/>,/>,/>为各项损失函数的权重系数。
优选地,所述步骤S7中基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建训练学生模型的损失函数/>,实现为:将交叉熵损失函数/>加上所述知识蒸馏的损失函数/>作为所述学生模型训练的损失函数/>
本发明提供的技术方案通过将目标类掩膜和非目标类掩膜嵌入到知识蒸馏过程中,使训练后的学生模型更加关注目标类和非目标类区域,在保持轻量级优势的基础上,更快、更准确地处理目标类和非目标类的计算。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的训练图像语义分割模型的方法的过程框图。
图2为本发明中生成掩膜特征的过程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明提供的训练图像语义分割模型的方法,包括以下步骤:
S1,基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型。如图1所示,PSPNet主要包括骨干网络、金字塔池化模块、分量模块。其中,骨干网络的类型可以选择/替换,其输出为中间特征图(即图1中的特征图);分类模块用于对图像区域进行分类,其输出为输出图;金字塔池化层,用于提取不同尺度和区域的上下文信息提高模型识别不同尺度目标以及获取全局信息的能力。在本发明的一个实施例中,教师模型所采用的PSPNet的骨干网络为ResNet101,学生模型所采用的PSPNet的骨干网络为ResNet18。
S2,采用已标注好像素类型的图像先行对教师模型进行有监督训练,将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息。教师模型训练好后,在接下来对学生模型的训练过程中,其网络参数将固定不变;仅将教师模型的预测输出作为知蒸馏过程中的蒸馏信息。
S3,构建尺寸为()的第一目标类掩膜/>和第一非目标类掩膜,N为图像批次大小,C为像素的类别数,H为教师模型/学生模型输出图的高度,W为教师模型/学生模型输出图的宽度,(i,j)为第i行第j列像素点的坐标。
构建的第一目标类掩膜和第一非目标类掩膜/>具有以下性质:在像素点(i,j)被所述教师模型、学生模型任一者的分类模块判定为属于第一目标类/>时,/>在第一目标类/>对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0,否则,/>的值为0、/>的值为1。
S4,采用所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征。
从目标类掩膜函数、非目标类掩膜函数到相应的目标类掩膜特征和非目标类掩膜特征的过程如图2所示。基于标注图像构建的目标类掩膜函数和目标类掩膜函数分别于教师模型、学生模型的中间特征图和输出图差进行计算,产生相应的目标类掩膜特征和非目标类掩膜特征。具体到上述步骤S4,按照以下公式(1)-(4)分别构建对应于所述教师模型的第一目标类掩膜特征和第一非目标类掩膜特征/>,对应于所述学生模型的第一目标类掩膜特征/>和第一非目标类掩膜特征/>
其中、为所述学生模型的输出图,/>为所述教师模型的输出图。
S5,采用所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征。与上述步骤S4类似,步骤S5实现为:按照以下公式(5)-(8)分别构建教师模型的第二目标类掩膜特征/>和第二非目标类掩膜特征/>,构建所述学生模型的第二目标类掩膜特征/>、第二非目标类掩膜特征/>
为对齐函数,用于将学生模型特征图的尺度与教师模型特征图的尺度对齐;/>为所述教师模型的中间特征图,/>所述学生模型的中间特征图,a为C个类别中与第二目标类别对应的输出通道序号。
S6,基于步骤S4得到的第一目标类掩膜特征和第一非目标类掩膜特征、步骤S5得到的第二目标类掩膜特征和第二非目标类掩膜特征各自的KL散度构建知识蒸馏的损失函数进行知识蒸馏。
为了将目标类掩膜特征和目标类函数特征融入到训练学生模型的知识蒸馏过程,这里选择目标类掩膜特征和目标类函数特征转化为训练过程中知识蒸馏的损失函数。所述步骤S6具体实现为:将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由进行尺度变换为/>,然后按照KL散度的计算公式(9)-(10)构建第一目标类损失函数/>,第一非目标类损失函数/>
其中,为设置的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式。
类似地,将步骤S5得到的第二目标类掩膜特征、第二非目标类掩膜特征分别由进行尺度变换为/>,然后按照KL散度的计算公式(11)-(12)构建第二目标类损失函数/>,第二非目标类损失函数/>
其中,为设定的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式。
S7,基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>,设置学生模型的训练参数后采用样本图像对所述学生模型进行训练以获得所述图像语义分割模型。
在一个实施例中,训练学生模型的过程:输入的图像到学生模型中,使用SGD优化器(初始学习率learning rate为0.0001,动量momentum为0.9,权重衰减weight decay为0.0005)优化学生模型,其中学习率衰减因子为(iter为当前迭代轮次),数据批大小(batchsize)为16,迭代次数为40000轮。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种训练图像语义分割模型的方法,其特征在于,该方法包括:
S1,基于包含分类器的PSPNet构建基于知识蒸馏的教师模型和学生模型;
S2,采用已标注好像素类型的图像先行对教师模型进行有监督训练,将训练好的教师模型的网络参数固定、预测输出作为蒸馏信息;
S3,构建尺寸为的第一目标类掩膜/>和第一非目标类掩膜,N为图像批次大小,C为像素的类别数,H为教师模型/学生模型输出图的高度,W为教师模型/学生模型输出图的宽度,(i,j)为第i行第j列像素点的坐标;在像素点(i,j )被所述教师模型、学生模型任一者的分类模块判定为属于第一目标类/>时,/>在第一目标类/>对应的k号输出通道输出值/>为1、/>在第一目标类/>对应的k号输出通道输出值/>为0;在像素点(i,j )被所述教师模型、学生模型任一者的分类模块判定为不属于第一目标类/>时,/>的值为0、/>的值为1;
S4,基于所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的输出图、学生模型的输出图构建第一目标类掩膜特征和第一非目标类掩膜特征;
S5,基于所述第一目标类掩膜和第一非目标类掩膜/>,结合教师模型的中间特征图、学生模型的中间特征图构建第二目标类掩膜特征和第二非目标类掩膜特征;
S6,基于步骤S4得到的第一目标类掩膜特征和第一非目标类掩膜特征、步骤S5得到的第二目标类掩膜特征和第二非目标类掩膜特征各自的KL散度构建知识蒸馏的损失函数进行知识蒸馏;
S7,基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>,设置学生模型的训练参数后采用样本图像对所述学生模型进行训练以获得所述图像语义分割模型。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中教师模型所采用的PSPNet的骨干网络为ResNet101,学生模型所采用的PSPNet的骨干网络为ResNet18。
3.如权利要求1或2所述的方法,其特征在于,所述步骤S6实现为:将步骤S4得到的第一目标类掩膜特征、第一非目标类掩膜特征分别由进行尺度变换为,然后按照KL散度的计算公式(9)-(10)构建第一目标类损失函数/>,第一非目标类损失函数/>
其中,为对应于所述教师模型的第一目标类掩膜特征,/>为对应于所述教师模型的第一非目标类掩膜特征;/>为对应于所述学生模型的第一目标类掩膜特征,/>为对应于所述学生模型的第一非目标类掩膜特征;/>为设置的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式;
将步骤S5得到的第二目标类掩膜特征、第二非目标类掩膜特征分别由进行尺度变换为/>,然后按照KL散度的计算公式(11)-(12)构建第二目标类损失函数/>,第二非目标类损失函数/>:
其中,为对应于教师模型的第二目标类掩膜特征,/>为对应于所述教师模型的第二非目标类掩膜特征;/>为对应于所述学生模型的第二目标类掩膜特征,/>为对应于所述学生模型的第二非目标类掩膜特征;/>为设定的系数,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>为/>尺度变换后的形式,/>尺度变换后的形式;
构建知识蒸馏的损失函数
其中,为各项损失函数的权重系数。
4.如权利要求3所述的方法,其特征在于,所述步骤S7中基于交叉熵损失函数和所述知识蒸馏的损失函数/>构建学生模型训练的损失函数/>,实现为:将交叉熵损失函数/>加上所述知识蒸馏的损失函数/>作为所述学生模型训练的损失函数/>
CN202310966937.3A 2023-08-03 2023-08-03 一种训练图像语义分割模型的方法 Active CN116704196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310966937.3A CN116704196B (zh) 2023-08-03 2023-08-03 一种训练图像语义分割模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310966937.3A CN116704196B (zh) 2023-08-03 2023-08-03 一种训练图像语义分割模型的方法

Publications (2)

Publication Number Publication Date
CN116704196A CN116704196A (zh) 2023-09-05
CN116704196B true CN116704196B (zh) 2023-11-10

Family

ID=87841847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310966937.3A Active CN116704196B (zh) 2023-08-03 2023-08-03 一种训练图像语义分割模型的方法

Country Status (1)

Country Link
CN (1) CN116704196B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537292A (zh) * 2018-04-10 2018-09-14 上海白泽网络科技有限公司 语义分割网络训练方法、图像语义分割方法及装置
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN114549840A (zh) * 2022-02-23 2022-05-27 北京百度网讯科技有限公司 语义分割模型的训练方法和语义分割方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4200763A4 (en) * 2020-09-09 2024-02-28 Huawei Tech Co Ltd METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK MODEL USING ANTAGONISTIC LEARNING AND KNOWLEDGE DISTILLATION

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537292A (zh) * 2018-04-10 2018-09-14 上海白泽网络科技有限公司 语义分割网络训练方法、图像语义分割方法及装置
CN111062951A (zh) * 2019-12-11 2020-04-24 华中科技大学 一种基于语义分割类内特征差异性的知识蒸馏方法
CN114549840A (zh) * 2022-02-23 2022-05-27 北京百度网讯科技有限公司 语义分割模型的训练方法和语义分割方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Context-Aware Mixup for Domain Adaptive Semantic Segmentation;Qianyu Zhou et al.;《IEEE Transactions on Circuits and Systems for Video Technology》;第33卷(第2期);第804-817页 *
动态生成掩膜弱监督语义分割;陈辰 等;中国图象图形学报(第06期);第1190-1200页 *

Also Published As

Publication number Publication date
CN116704196A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN106960206B (zh) 字符识别方法和字符识别系统
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN114912612A (zh) 鸟类识别方法、装置、计算机设备及存储介质
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN115049534A (zh) 基于知识蒸馏的鱼眼图像实时语义分割方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
Gong et al. Erroneous pixel prediction for semantic image segmentation
Chacon-Murguia et al. Moving object detection in video sequences based on a two-frame temporal information CNN
CN116704196B (zh) 一种训练图像语义分割模型的方法
CN112085164A (zh) 一种基于无锚框网络的区域推荐网络提取方法
CN111709442A (zh) 一种面向图像分类任务的多层字典学习方法
CN115439791A (zh) 跨域视频动作识别方法、装置、设备和计算机可存储介质
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法
CN114241456A (zh) 一种利用特征自适应加权的安全驾驶监测方法
CN113409327A (zh) 一种基于排序与语义一致性约束的实例分割改进方法
CN112132839B (zh) 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN116030347B (zh) 一种基于注意力网络的高分辨率遥感影像建筑物提取方法
Yang et al. FRPNet: An improved Faster-ResNet with PASPP for real-time semantic segmentation in the unstructured field scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant