CN114972749B - 用于处理语义分割模型的方法、装置、介质和设备 - Google Patents

用于处理语义分割模型的方法、装置、介质和设备 Download PDF

Info

Publication number
CN114972749B
CN114972749B CN202210461761.1A CN202210461761A CN114972749B CN 114972749 B CN114972749 B CN 114972749B CN 202210461761 A CN202210461761 A CN 202210461761A CN 114972749 B CN114972749 B CN 114972749B
Authority
CN
China
Prior art keywords
image
content
similarity
style
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210461761.1A
Other languages
English (en)
Other versions
CN114972749A (zh
Inventor
高欢
王国利
张骞
黄畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN202210461761.1A priority Critical patent/CN114972749B/zh
Publication of CN114972749A publication Critical patent/CN114972749A/zh
Application granted granted Critical
Publication of CN114972749B publication Critical patent/CN114972749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种用于处理语义分割模型的方法、装置、存储介质和电子设备,其中,其中,方法包括:获取第一语义分割模型的中间层输出的两种亮图像各自的中间层特征和第二语义分割模型的中间层输出的两种暗图像各自的中间层特征;确定两个场景中每个场景对应的亮图像和暗图像之间的风格相似度和内容相似度,得到第一风格相似度、第二风格相似度和第一内容相似度、第二内容相似度;基于第一风格相似度与第二风格相似度,确定风格损失函数;基于第一内容相似度与第二内容相似度,确定内容损失函数;基于风格损失函数和内容损失函数,确定蒸馏损失函数;将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数,得到处理后的第二语义分割模型。

Description

用于处理语义分割模型的方法、装置、介质和设备
技术领域
本公开涉及人工智能领域,尤其涉及一种用于处理语义分割模型的方法、装置、存储介质 和电子设备。
背景技术
语义分割作为计算机视觉领域中的重要分支,已被广泛应用于许多领域,例如医学图像分 析、图像识别、自动驾驶等。随着卷积神经网络的提出,卷积神经网络已经被广泛应用于语义 分割任务。
基于卷积的语义分割模型在训练时往往依赖于大量的像素级标签。通常,在光照条件较好 的场景中拍摄的图像可以具有更高的清晰度和充足的像素级标签,与此相比,在光照条件较差 的场景中拍摄的图像的清晰度较低,且像素级标签的数量相对较少,因此,用于训练语义分割 模型的样本数据中,光照条件较差的图像数量较少,导致语义分割模型在处理此类图像时的分 割性能较差。
相关技术中,为了在样本有限的条件下提升语义分割模型针对光照条件较差的图像的分割 性能,通常采用域适应方法使基于光照条件较好的图像训练的语义分割模型能够适应光照条件 较差的图像,从而实现在不使用光照条件较差的图像的像素级标签的前提下,提高语义分割模 型对光照条件较差的图像的分割性能。
发明内容
本公开的实施例提供了一种用于处理语义分割模型的方法、装置、存储介质和电子设备, 可以在不引入额外数据和运算量的前提下,更好地提高语义分割模型针对暗图像的语义分割性 能。
根据本公开实施例的一个方面,提供了一种用于改进语义分割模型的方法,包括:利用第 一语义分割模型对两种亮图像进行处理,并获取第一语义分割模型的中间层输出的两种亮图像 各自的中间层特征两种亮图像为在两个场景中采集得到的图像;利用第二语义分割模型对两种 暗图像进行处理,并获取第二语义分割模型的中间层输出的两种暗图像各自的中间层特征,第 二语义分割模型与第一语义分割模型具有相同结构,两种暗图像为在两个场景中采集得到的图 像;基于两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别确定出两个 场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和第二内容相 似度,以及,分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相似度,得到 第一风格相似度和第二风格相似度;基于第一风格相似度与第二风格相似度,确定风格损失函 数;基于第一内容相似度与第二内容相似度,确定内容损失函数;基于风格损失函数和内容损 失函数,确定蒸馏损失函数;将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型 的参数,得到处理后的第二语义分割模型。
根据本公开实施例的又一个方面,提供了一种用于处理语义分割模型的装置,包括:第一 处理单元,被配置成利用第一语义分割模型对两种亮图像进行处理,并获取第一语义分割模型 的中间层输出的两种亮图像各自的中间层特征,两种亮图像为在两个场景中采集得到的图像; 第二处理单元,被配置成利用第二语义分割模型对两种暗图像进行处理,并获取第二语义分割 模型的中间层输出的两种暗图像各自的中间层特征,第二语义分割模型与第一语义分割模型具 有相同结构,两种暗图像为在两个场景中采集得到的图像;第三处理单元,被配置成基于两种 亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别确定出两个场景中每个场 景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和第二内容相似度,以及, 分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相似度,得到第一风格相似 度和第二风格相似度;风格损失单元,被配置成基于第一风格相似度与第二风格相似度,确定 风格损失函数;内容损失单元,被配置成基于第一内容相似度与第二内容相似度,确定内容损 失函数;蒸馏损失单元,被配置成基于风格损失函数和内容损失函数,确定蒸馏损失函数;模 型处理单元,被配置成将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数, 得到处理后的第二语义分割模型。
根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,存储介质存储有计算 机程序,计算机程序用于执行上述任一实施例中的方法。
根据本公开实施例的又一个方面,提供了一种电子设备,电子设备包括:处理器;用于存 储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现 上述任一实施例中的方法。
本公开的用于处理语义分割模型的方法,首先获取第一语义分割模型的中间层输出的两种 亮图像各自的中间层特征,以及第二语义分割模型的中间层输出的两种暗图像各自的中间层特 征;之后,分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相似度和内容相 似度,得到第一风格相似度、第二风格相似度和第一内容相似度、第二内容相似度;然后基于 第一风格相似度与第二风格相似度确定风格损失函数,基于第一内容相似度与第二内容相似度 确定内容损失函数;之后,基于风格损失函数和内容损失函数确定蒸馏损失函数,并将蒸馏损 失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数。通过不同亮图像之间以及不同 暗图像之间的风格表征的一致性、相同场景的亮图像与暗图像的内容表征的一致性,对蒸馏过 程进行监督,可以将第一语义分割模型的语义级相关知识迁移至第二语义分割模型,使得第二 语义分割模型在处理暗图像时提取的中间层特征与第一语义分割模型在处理亮图像时提取的 中间层特征具有相同或相似的特征分布,实现了不引入额外数据和运算量的前提下,提高第二 语义分割模型针对暗图像的分割性能。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优 势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分, 与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号 通常代表相同部件或步骤。
图1是本公开的用于处理语义分割模型的方法的一个场景示意图;
图2是本公开的用于处理语义分割模型的方法的一个实施例的流程示意图;
图3是本公开的用于处理语义分割模型的方法的一个实施例中获取图像的流程示意图;
图4是本公开的用于处理语义分割模型的方法的一个实施例中确定第一风格相似度和第 二风格相似度的流程示意图;
图5是本公开的用于处理语义分割模型的方法的一个实施例中确定第一内容相似度和第 二内容相似度的流程示意图;
图6是本公开的用于处理语义分割模型的方法的又一个实施例的流程示意图;
图7是本公开的用于处理语义分割模型的方法的一个实施例中确定风格损失函数和内容 损失函数的示意图;
图8是本公开的用于处理语义分割模型的方法的一个实施例中生成第二图像的流程示意 图;
图9是本公开的用于处理语义分割模型的方法的一个实施例中修正蒸馏损失函数的流程 示意图;
图10是本公开的用于处理语义分割模型的装置的一个实施例的结构示意图;
图11是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本 公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施 例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字 表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、 设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、 两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前 后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种 关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相 似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例 关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用 或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下, 所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图 中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通 用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一 起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机 系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机 顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任 何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行 指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、 组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统 /服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接 的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远 程计算系统存储介质上。
申请概述
利用域适应的方法使基于光照条件较好的图像训练得到的语义分割模型适应光照条件较 差的图像,通常包括以下两种方式:一种是通过预训练图像风格转换网络,对不同光照条件的 图像(例如光照条件较好的白天场景图像和光照条件较差的夜间场景图像)进行风格转换,生 成合成数据集;一种是利用光照条件居中的图像(例如可以是黄昏时拍摄的图像)作为中间域, 逐步实现光照条件从好到差的域适应。
在实现本公开的过程中,发明人发现,前者没有充分利用语义分割任务中的语义特征,导 致转换后的图像风格不能与真实图像完全对齐,从而影响了语义分割模型的分割性能的提升效 果,且引入了额外的运算量,增加了训练过程的复杂程度;后者没有考虑到不同数据集之间的 固有差异,影响了语义分割模型的分割性能的提升效果,且引入了额外数据。
由此可知,利用域适应提升语义分割模型的分割性能的方法至少存在以下缺陷:引入额外 的数据或运算量,且提升效果较差。
示例性系统
知识蒸馏是指通过引入教师网络相关的软目标作为蒸馏损失函数的一部分,引导学生网络 的训练以实现知识迁移的目的。
下面结合图1对本公开的用于处理语义分割模型的方法进行示例性说明,图1示出了本公 开的用于处理语义分割模型的方法的一个场景示意图。如图1所示,可以利用第一语义分割模 型150分别对亮图像110和亮图像130进行处理,分别得到对应的第一中间层特征111和第三 中间层特征131;同时,利用第二语义分割模型160分别对暗图像120和暗图像140进行处理, 分别得到对应的第二中间层特征121和第四中间层特征141。之后,可以确定出第一中间层特 征111与第二中间层特征121之间的第一风格相似度,以及第三中间层特征131与第四中间层 特征141之间的第二风格相似度,进而得到风格损失函数。同时,可以确定出第一中间层特征 111与第二中间层特征121之间的第一内容相似度,以及第三中间层特征131与第四中间层特 征141之间的第二内容相似度,进而得到内容损失函数。然后,根据风格损失函数和内容损失 函数确定蒸馏损失函数,并利用蒸馏损失函数监督第二语义分割模型160的蒸馏训练过程,以 提高第二语义分割模型针对暗图像的语义分割性能。
示例性方法
下面结合图2对本公开的用于处理语义模型的方法进行示例性说明。图2示出了本公开的 用于处理语义模型的一个实施例的流程图,如图2所示,该流程包括以下步骤:
步骤210、利用第一语义分割模型对两种亮图像进行处理,并获取第一语义分割模型的中 间层输出的两种亮图像各自的中间层特征。
其中,两种亮图像为在两个场景中采集得到的图像。
在本实施例中,场景可以表征相机在真实世界中的拍摄范围。两个场景对应两个不同的拍 摄范围,例如可以是两个城市、同一个城市中的两个区域、不同的街区等等。作为示例,执行 主体(例如可以是终端设备或服务器)可以通过网络从公开数据集中获取两个城市的白天街景 图,作为两种亮图像,相应地,该两个城市的夜间街景图可以作为两种暗图像。
在本实施例中,亮图像表征曝光度大于预设阈值、清晰程度较高的图像。例如可以包括在 光照条件较好的场景中采用正常曝光的拍摄方式得到的图像,以及,在光照条件较差的场景中 采用长曝光的拍摄方式得到的图像,具体的,可以包括白天拍摄的户外图像、照明条件较好的 室内图像以及傍晚时刻采用长曝光的方式拍摄得到的图像等。两种亮图像是指分别在两种场景 中拍摄得到的图像。
作为示例,可以通过对多种清晰度较高的图像的曝光度进行统计分析,然后根据统计分析 的结果确定预设阈值。或者,还可以根据经验确定预设阈值。执行主体获取到图像集之后,可 以通过工具(例如OpenCV)计算图像集中图像的曝光度,然后将曝光度高于预设阈值的图像 确定为亮图像,将曝光度等于或低于预设阈值的图像确定为暗图像。
语义分割模型的中间层是指神经网络的隐藏层,例如,当语义分割模型为全卷积神经网络 时,中间层可以是位于输入层和最后一个卷积层之间的卷积层。
中间层特征是语义分割模型的中间层输出的经编码或压缩后的高层语义特征,其数据形式 例如可以是特征图(feature map)。作为示例,中间层特征例如可以是某个隐藏层输出的特征, 也可以是多个隐藏层输出的特征的集合。
作为示例,执行主体(例如可以是终端设备或服务器)在利用全卷积神经网络分别对两种 亮图像进行语义分割时,可以提取全卷积神经网络中的倒数第二个卷积层输出的特征,作为两 种亮图像的中间层特征。
步骤220、利用第二语义分割模型对两种暗图像进行处理,并获取第二语义分割模型的中 间层输出的两种暗图像各自的中间层特征。
其中,第二语义分割模型与第一语义分割模型具有相同结构,两种暗图像为在两个场景中 采集得到的图像。
在本实施例中,每个场景均对应有一个亮图像和一个暗图像,作为示例,可以在同一个场 景中采集不同时段的图像,以得到该场景对应的亮图像和暗图像,例如,可以在同一个地点分 别采集白天图像和夜间图像,即可得到该场景对应的亮图像和暗图像。更换地点,重复该操作 即可得到另一个场景对应的亮图像和暗图像。从而得到本实施例中的两种亮图像和两种暗图像。
步骤230、基于两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别 确定出两个场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和 第二内容相似度,以及,分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相 似度,得到第一风格相似度和第二风格相似度。
在本实施例中,内容相似度表征两个图像中所包含的内容之间的相似程度,通常与图像的 拍摄场景有关,而与图像的风格表征无关。例如拍摄于同一个场景中的两个图像包含的内容相 似程度较高,则内容相似度也较高。第一内容相似度和第二内容相似度分别表示两个场景各自 对应的亮图像和暗图像之间的内容相似度。
作为示例,执行主体可以首先根据拍摄场景,确定两种亮图像和两种暗图像之间的两两对 应关系,将拍摄场景相同的亮图像和暗图像确定为图像对。然后,对每个图像对对应的两个中 间层特征做归一化处理,例如可以将两个中间层特征映射至相同的向量空间,得到两个归一化 后的特征向量,在两个特征向量中,相同的特征值表示相同的语义含义,从而将两个图像内容 的差异抽象为两个特征向量之间数值的差异。之后,通过计算两个特征向量的相似程度(例如 可以是特征向量之间的距离或余弦相似度),得到图像对对应的第一内容相似度或第二内容相 似度。对另一个图像对执行上述步骤,可以得到另一个图像对对应的第二内容相似度或第一内 容相似度。
在本实施例中,风格相似度表示拍摄于同一个场景中的亮图像与暗图像的风格表征之间的 相似程度,例如,第一风格相似度可以表征两个场景中的一个场景对应的亮图像和暗图像之间 的风格相似程度,相应地,第二风格相似度表征两个场景中的另一个场景对应的亮图像和暗图 像之间的风格相似程度。
风格表征可以通过图像的照明度、颜色的色调偏向等特征来表征。
作为示例,执行主体可以从图像对中包括的亮图像和暗图像对应的中间层特征中提取各自 的风格嵌入,然后将两个风格嵌入的相似程度作为第一风格相似度或第二风格相似度。
通常,Gram矩阵被用来表示特征在通道维度的自相关性,反应了不同滤波器的相应关系, 因而能够反应特征的风格特征,本实施例可以将中间层特征的Gram矩阵作为中间层特征的风 格嵌入。
步骤240、基于第一风格相似度与第二风格相似度,确定风格损失函数。
在本实施例中,风格损失函数可以表征两个图形对(相同场景下的亮图像和暗图像)各自 对应的风格相似程度之间的差异。由于风格表征与图像内容无关,两个图像对各自的风格相似 度是相似的。基于该原理,利用风格损失函数迫使第二风格相似度和第二风格相似度相等,可 以在语义级别上实现从亮图像到暗图像的风格转换。
作为示例,风格损失函数可以是第一风格相似度与第二风格相似度的L2距离。L2距离也 称为均方差(Mean Square Error,MSE),其计算方式如公式(1)所示。
式中,表示第一风格相似度,/>表示第二风格相似度,LCDS表示风格损失函数。
步骤250、基于第一内容相似度与第二内容相似度,确定内容损失函数。
在本实施例中,内容损失函数可以表征两个场景对应的图像之间的内容差异。由于同一个 场景中的两个图像的内容差异与图像的风格无关,因而,两个场景中每个场景对应的亮图像和 暗图像之间的内容相似程度应保持一致,基于该原理,利用内容损失函数迫使第一内容相似度 与第二内容相似度相等,可以内容表征的维度上实现语义级别的知识传递。
作为示例,内容损失函数可以是第一内容相似度与第二内容相似度的L2距离,其计算方 式如公式(2)所示。
式中,表示第一内容相似度,/>表示第二内容相似度,LCDC表示内容损失函 数。
步骤260、基于风格损失函数和内容损失函数,确定蒸馏损失函数。
在本实施例中,蒸馏损失函数可以表征后续蒸馏训练中的整体损失。利用蒸馏损失函数对 蒸馏训练进行监督,可以同时从风格和内容两个维度对第二语义分割模型的参数进行约束。
作为示例,可以将风格损失函数和内容损失函数的加权和作为蒸馏损失函数,其计算方式 可以如公式(3)所示。
L=x LCDC+y LCDS (3)
式中,L表示蒸馏损失函数,x、y表示权重系数,LCDC表示公式(2)中的内容损失函数, LCDS表示公式(1)中的风格损失函数。
步骤270、将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数,得到 处理后的第二语义分割模型。
在本实施例中,蒸馏训练表示基于知识蒸馏的原理对第二语义分割模型进行处理的过程, 其中,教师网络为第一语义分割模型,学生网络为第二语义分割模型,两者具有相同的结构。
下面对蒸馏训练的具体过程进行示例性说明。执行主体利用第一语义分割模型和第二语义 分割模型分别对两种亮图像和两种暗图像进行语义分割处理,根据第一语义分割模型输出的中 间层特征确定出第一风格相似度,并结合第二语义分割模型的输出的中间层特征确定第一内容 相似度和第二内容相似度,该操作对应的是从教师网络中蒸馏暗知识。之后,根据第二语义分 割模型输出的中间层特征确定第二风格相似度,进而确定该组训练图像的蒸馏损失函数值,然 后根据蒸馏损失函数值,基于反向传播原理对第二语义分割模型的参数进行优化,以将暗知识 迁移至学生网络。多次迭代,直至蒸馏损失函数收敛,即可完成对第二语义分割模型的蒸馏训 练。
本实施例提供的用于处理语义分割模型的方法,首先获取第一语义分割模型的中间层输出 的两种亮图像各自的中间层特征,以及,第二语义分割模型的中间层输出的两种暗图像各自的 中间层特征;之后,分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相似度 和内容相似度,得到第一风格相似度、第二风格相似度和第一内容相似度、第二内容相似度; 然后基于第一风格相似度与第二风格相似度确定风格损失函数,基于第一内容相似度与第二内 容相似度确定内容损失函数;之后,基于风格损失函数和内容损失函数确定蒸馏损失函数,并 将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数。通过不同亮图像之间 以及不同暗图像之间的风格表征的一致性、相同场景的亮图像与暗图像的内容表征的一致性, 对蒸馏过程进行监督,可以将第一语义分割模型的语义级相关知识迁移至第二语义分割模型, 使得第二语义分割模型在处理暗图像时提取的中间层特征与第一语义分割模型在处理亮图像 时提取的中间层特征具有相同或相似的特征分布,实现了不引入额外数据和运算量的前提下, 提高第二语义分割模型针对暗图像的分割性能。
接着参考图3,图3示出了本公开的用于处理语义分割模型的方法的一个实施例中获取图 像的流程图,如图3所示,该流程包括以下步骤:
步骤310、获取第一图像集、第二图像集、第三图像集和第四图像集。
其中,第一图像集中的第一图像为在第一场景采集的、已标记的亮图像,第二图像集中的 第二图像为在第一场景采集的、已标记的暗图像,第三图像集中的第三图像为在第二场景采集 的、未标记的亮图像,第四图像集中的第四图像为在第二场景采集的、未标记的暗图像。
步骤320、将第一图像集中的第一图像和第三图像集中的第三图像确定为两种亮图像,将 第二图像集中的第二图像和第四图像集中的第四图像确定为两种暗图像。
在一个具体的示例中,执行主体可以通过网络获取公开图像数据,并以此构建四个图像集。 例如,可以分别获取两个城市的白天图像和夜间图像,然后对第一城市的白天图像和夜间图像 进行标记,分别作为第一图像和第二图像,并将第二城市的白天图像和夜间图像分别作为第三 图像和第四图像。
在本实施例中,通过获取四种类型的图像,并以此组合成两种亮图像和两种暗图像,提供 给第一语义分割模型和第二语义分割模型进行处理,一方面确保同一个场景中的亮图像和暗图 像在内容表征上的一致性,另一方面可以在保持不同亮图像或不同暗图像之间的内容差异的前 提下,确保同亮图像或不同暗图像之间的在风格表征上的一致性,可以更有针对性地蒸馏语义 级别的相关知识,有助于进一步提高知识蒸馏的效果,使得第二语义分割模型获得更好的针对 暗图像的分割性能。
在图3所示实施例的基础上参考图4,图4示出了本公开的用于处理语义分割模型的方法 的一个实施例中确定第一风格相似度和第二风格相似度的流程图,如图4所示,该流程包括以 下步骤:
步骤410、利用第一语义分割模型分别对第一图像集中的第一图像和第三图像集中的第三 图像进行处理,获取第一语义分割模型的中间层输出的第一图像的第一中间层特征和第三图像 的第三中间层特征。
步骤420、利用第二语义分割模型分别对第二图像集中的第二图像和第四图像集中的第四 图像进行处理,并获取第二语义分割模型的中间层输出的第二图像的第二中间层特征和第四图 像的第四中间层特征;
步骤430、分别确定第一中间层特征对应的第一风格嵌入、第二中间层特征对应的第二风 格嵌入、第三中间层特征对应的第三风格嵌入以及第四中间层特征对应的第四风格嵌入。
步骤440、基于第一风格嵌入和第二风格嵌入的相似程度,确定第一风格相似度。
步骤450、基于第三风格嵌入和第四风格嵌入的相似程度,确定第二风格相似度。
在一个具体的示例中,{Sd}、{Sn}、{Td}、{Tn}分别表示第一图像集、第二图像集、第三 图像集和第四图像集。步骤430可以通过公式(4)确定出四个中间层特征对应的Gram矩阵, 分别对应于第一风格嵌入、第二风格嵌入、第三风格嵌入和第四风格嵌入。公式(4)如下所 示:
式中,GD表示图像D的风格嵌入,FD表示图像D的中间层特征,p表示中间层特征中的像素点,i、j表示通道的编号。
进一步的,步骤440和步骤450可以通过公式(5)确定出第一风格相似度和第二风格相 似度。
根据k的取值(S或T),表示第一风格嵌入或第三风格嵌入,/>表示第二风格嵌入或 第四风格嵌入,相应地,/>表示第一风格相似度或第二风格相似度。
在本实施例中,可以基于图3所示的实施例中获取的四个图像集确定第一风格相似度和第 二风格相似度,可以继承四个图像集中图像数据的针对性,有助于提高第一风格相似度和第二 风格相似度对风格表征差异的刻画准确度。
接着在图4所示的实施例的基础上进一步参考图5,图5示出了本公开的用于处理语义分 割模型的方法的一个实施例中确定第一内容相似度和二内容相似度的流程图,如图5所示,该 流程包括以下步骤:
步骤510、分别确定出第一中间层特征对应的第一内容嵌入、第二中间层特征对应的第二 内容嵌入、第三中间层特征对应的第三内容嵌入以及第四中间层特征对应的第四内容嵌入。
步骤520、基于第一内容嵌入和第二内容嵌入的相似程度,确定第一内容相似度。
步骤530、基于第三内容嵌入和第四内容嵌入的相似程度,确定第二内容相似度。
继续结合图4所示的实施例中的图像集进行示例性说明,步骤520和步骤530可以通过公 式(6)确定出第一内容相似度和第二内容相似度,公式(6)如下所示:
式中,根据k的取值(S或T),表示第一内容嵌入或第三内容嵌入,/>表示第二内容 嵌入或第四内容嵌入,相应地,/>表示第一内容相似度或第二内容相似度。
在图5所示的实施例中,可以基于图3所示的实施例中获取的四个图像集确定第一内容相 似度和第二内容相似度,可以继承四个图像集中图像数据的针对性,有助于提高第一内容相似 度和第二内容相似度对内容表征差异的刻画准确度。
在本实施例的一些可选地实现方式中,第一内容嵌入、第二内容嵌入、第三内容嵌入和第 一内容嵌入通过如下方式确定:
利用预设的映射模块,分别将第一中间层特征、第二中间层特征、第三中间层特征和第四 中间层特征分别映射至语义特征空间,得到第一内容嵌入、第二内容嵌入、第三内容嵌入和第 四内容嵌入。
其中,映射模块采用映射损失函数对映射过程进行约束,映射损失函数表征预设乘积与第 三预设散度、第四预设散度的差值,其中,预设乘积为第一预设散度与第二预设散度的和与预 设权重系数的乘积,第一预设散度为第一内容嵌入与第二内容嵌入之间的预设散度,第二预设 散度为第三内容嵌入与第四内容嵌入之间的预设散度,第三预设散度为第一内容嵌入与第三内 容嵌入之间的预设散度,第四预设散度为第二内容嵌入与第四内容嵌入之间的预设散度。
作为示例,映射模块例如可以是2个1×1的卷积层,通过卷积处理,将各个中间层特征 映射至同一个语义特征空间,分别得到各个内容嵌入,使得各个内容嵌入中的同一个数值表征 相同的语义特征。还可以基于JS散度(Jensen-Shannon divergence)计算第一预设散度、第二 预设散度、第三预设散度和第四预设散度。
继续结合图4所示的实施例中的四个图像集进行示例性说明,本实施方式中的映射损失函 数可以通过如下公式(7)表征:
式中,LJS表示映射损失函数,λ表示预设权重系数,分别表示第一内 容嵌入、第二内容嵌入、第三内容嵌入和第四内容嵌入,/> 分别表示第一预设散度、第二预设散度、第三预设散度和第四预设散度。
在本实施方式中,通过映射损失函数对中间层特征的映射过程进行约束,可以使得内容相 近的图像(例如同一个场景中的第一图像和第二图像)对应的内容嵌入在语义特征空间中的距 离更接近,同时使得内容不同的图像(例如第一图像和第三图像)对应的内容嵌入在语义特征 空间中的距离更远,以此确定出的内容相似度可以更准确地刻画图像内容的差异程度,进而可 以更准确地实现内容维度上的知识传递。
接着参考图6,图6示出了本公开的用于处理语义分割模型的方法的又一个实施例的流程 图,如图6所示,该流程包括以下步骤:
步骤610、利用第一语义分割模型对两种亮图像进行处理,并获取第一语义分割模型的中 间层输出的两种亮图像各自的中间层特征。
步骤620、利用第二语义分割模型对两种暗图像进行处理,并获取第二语义分割模型的中 间层输出的两种暗图像各自的中间层特征。
步骤630、基于两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别 确定出两个场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和 第二内容相似度,以及,分别确定出所述两个场景中每个场景对应的亮图像和暗图像之间的风 格相似度,得到第一风格相似度和第二风格相似度。
在本实施例中,两种亮图像和两种暗图像通过图3所示的流程得到的,步骤610、步骤620 与前述步骤210、步骤220相对应。
步骤630可以通过图4和图5所示的流程实现,可以得到第一风格嵌入、第二风格嵌入、 第三风格嵌入、第四风格嵌入、第一风格相似度和第二风格相似度,以及,第一内容嵌入、第 二内容嵌入、第三内容嵌入、第四内容嵌入、第一内容相似度和第二内容相似度。并且,第一 内容嵌入、第二内容嵌入、第三内容嵌入和第四内容嵌入是利用上述实施方式中的映射模块得 到的。
步骤640、基于第一风格相似度与第二风格相似度,确定风格损失函数。
步骤650、基于第一内容相似度与第二内容相似度,确定内容损失函数。
步骤660、基于风格损失函数和内容损失函数,确定蒸馏损失函数。
步骤670、基于第一内容嵌入与第三内容嵌入之间的相似程度,确定第三内容相似度。
步骤680、基于第二内容嵌入与第四内容嵌入之间的相似程度,确定第四内容相似度。
步骤690、基于第三内容相似度与第四内容相似度的L2距离、映射损失函数,对内容损 失函数进行修正。
步骤691、将蒸馏损失函数作为监督,通过蒸馏训练更新第二语义分割模型的参数,得到 处理后的第二语义分割模型。
继续结合图4所示的图像集以及前述公式进行示例性说明,步骤670和步骤680可以通过 如下公式(8)确定第三内容相似度和第四内容相似度:
式中,根据r的取值(d或n),可以表示第一内容嵌入或第二内容嵌入,/>可以表示 第三内容嵌入或第四内容嵌入,相应地,/>可以表示第三内容相似度或地四内容相似度。
步骤690可以采用加权相加的方式,利用第三内容相似度与第四内容相似度的L2距离、 映射损失函数,对内容损失函数进行修正,例如修正后的内容损失函数如公式(9)所示:
式中,LCDC表示内容损失函数,表示第一内容相似度,/>表示第二内容相似 度,/>表示第三内容相似度,/>表示第四内容相似度,LJS表示映射损失函数。
此时,步骤690中的蒸馏损失函数可以如公式(10)所示:
在上述示例的基础上可以进一步参考图7,在图7中D∈{Sd,Sn,Td,Tn},GD表示图像D的 风格嵌入,FD表示图像D的中间层特征,eD表示图像D的内容嵌入,Proj表示映射处理,Gram 表示Gram算法。图7(a)图示了本实施例中第一内容相似度、第二内容相似度、第三内容相 似度、第四内容相似度以及内容损失函数的计算流程。图7(b)图示了本实施例中第一风格 相似度、第二风格相似度以及风格损失函数的计算流程。
在图6所示的实施例中,体现了基于第三内容相似度与第四内容相似度的L2距离、映射 损失函数,对内容损失函数进行修正的步骤,可以将第三内容相似度与第四内容相似度的L2 距离、映射损失函数引入蒸馏损失函数,可以增强蒸馏训练过程中在内容表征维度上的约束, 有助于提高内容维度上的知识传递的准确度,从而进一步提高第二语义分割模型在暗图像上的 分割性能。
接着参考图8,图8示出了本公开的用于处理语义分割模型的方法的一个实施例中生成第 二图像的流程图。在图3至图6所示的实施例的一些可选的实施方式中,第二图像可以通过图 8所示的流程得到,如图8所示,该流程包括以下步骤:
步骤810、将第一图像和第四图像分别映射至第一预设色彩空间,得到变换后的第一图像 和变换后的第四图像。
作为示例,第一图像、第二图像、第三图像和第四图像均是RGB图像。第一预设色彩空 间可以是Lab色彩空间,其中,L表示照度(Luminosity),相当于亮度;a表示从红色至绿色 的范围,b表示从蓝色至黄色的范围。
步骤820、确定变换的第一图像的第一均值和第一方差,以及,变换后的第四图像的第四 均值和第四方差。
步骤830、调整变换后的第一图像,使得第一均值和第一方差分别与第四均值和第四方差 对齐,得到调整后的第一图像。
步骤840、将调整后的第一图像映射至第二预设色彩空间,得到第二图像。
作为示例,第二预设色彩空间可以是RGB空间。
在图8所示的实施例中,可以通过色彩映射将根据第一图像和第四图像映射至同一个色彩 空间,然后将第一图像的均值和方差与第四图像的均值和方差对齐,再将调整后的第一图像映 射回原色彩空间,可以在保持亮图像(即第一图像)的内容不变的前提下,将亮图像转化为暗 图像(即第二图像),使得亮图像中的语义级标签转移到暗图像,可以更好地保持第一图像和 第二图像的内容一致性,同时确保第一图像和第二图像的风格的差异,有助于进一步提高第一 图像和第二图像的针对性,进而提高最终第二语义分割模型在暗图像上的分割性能。
在图8的基础上参考图9,图9示出了本公开的用于处理语义分割模型的方法的一个实施 例中修正蒸馏损失函数的流程图,如图9所示,该流程包括以下步骤:
步骤910、获取第一语义分割模型输出的第一图像对应的第一预测结果和第三图像对应的 第三预测结果。
步骤920、获取第二语义分割模型输出的第二图像对应的第二预测结果和第四图像对应的 第四预测结果。
步骤930、确定第一预测结果和第二预测结果的交叉熵。
步骤940、将第三预测结果作为第四图像的标签,确定第四预测结果的交叉熵。
在本实施例中,第三图像与第四图像在静态物体上的语义标签是相似的,因而可以更容易 训练的第三图像对应的第三预测结果作为第四图像的标签,以此确定出的第四预测结果的交叉 熵可以更准确地表征第二语义分割模型的分割性能。
步骤950、基于第一预测结果、第二预测结果和第四预测结果各自对应的交叉熵,确定交 叉熵损失函数。
作为示例,可以将第一预测结果、第二预测结果和第四预测结果各自对应的交叉熵的加权 和确定为交叉熵损失函数。
步骤960、基于交叉熵损失函数,对蒸馏损失函数进行修正。
继续结合图6所示的实施例中的公式(10)进行示例性说明,基于交叉熵损失函数对蒸馏 损失函数进行修正后得到的蒸馏损失函数可以如公式(11)所示:
式中,z表示权重系数,H表示交叉熵损失函数。
在本实施例中,步骤960之后,可以通过前述步骤260或前述步骤690,完成对第二语义 分割模型的蒸馏训练过程。通过将第一语义分割模型和第二语义分割模型的交叉熵引入蒸馏损 失函数,可以基于预测结果的准确度对第二语义分割模型的参数进行约束,从而进一步提高第 二语义分割模型的分割性能。
本公开实施例提供的任一种用于处理语义分割模型的方法可以由任意适当的具有数据处 理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种 用于处理语义分割模型的方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来 执行本公开实施例提及的任一种用于处理语义分割模型的方法。下文不再赘述。
示例性装置
下面结合图10对本公开的用于处理语义模型的装置进行示例性说明,图10示出了本公开 的用于处理语义分割模型的装置的一个实施例的结构示意图,如图10所示,该装置包括:第 一处理单元1010,被配置成利用第一语义分割模型对两种亮图像进行处理,并获取第一语义 分割模型的中间层输出的两种亮图像各自的中间层特征,两种亮图像为在两个场景中采集得到 的图像;第二处理单元1020,被配置成利用第二语义分割模型对两种暗图像进行处理,并获 取第二语义分割模型的中间层输出的两种暗图像各自的中间层特征,第二语义分割模型与第一 语义分割模型具有相同结构,两种暗图像为在两个场景中采集得到的图像;第三处理单元1030, 被配置成基于两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别确定出 两个场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和第二内 容相似度,以及,分别确定出两个场景中每个场景对应的亮图像和暗图像之间的风格相似度, 得到第一风格相似度和第二风格相似度;风格损失单元1040,被配置成基于第一风格相似度 与第二风格相似度,确定风格损失函数;内容损失单元1050,被配置成基于第一内容相似度 与第二内容相似度,确定内容损失函数;蒸馏损失单元1060,被配置成基于风格损失函数和 内容损失函数,确定蒸馏损失函数;模型处理单元1070,被配置成将蒸馏损失函数作为监督, 通过蒸馏训练更新第二语义分割模型的参数,得到处理后的第二语义分割模型。
在其中一个实施方式中,该装置还包括:图像获取单元,被配置成获取第一图像集、第二 图像集、第三图像集和第四图像集,其中,第一图像集中的第一图像为在第一场景采集的、已 标记的亮图像,第二图像集中的第二图像为在第一场景采集的、已标记的暗图像,第三图像集 中的第三图像为在第二场景采集的、未标记的亮图像,第四图像集中的第四图像为在第二场景 采集的、未标记的暗图像;图像确定单元,被配置成将第一图像集中的第一图像和第三图像集 中的第三图像确定为两种亮图像,将第二图像集中的第二图像和第四图像集中的第四图像确定 为两种暗图像。
在其中一个实施方式中,第三处理单元1030包括:第一中间层特征提取模块,被配置成 利用第一语义分割模型分别对第一图像集中的第一图像和第三图像集中的第三图像进行处理, 获取第一语义分割模型的中间层输出的第一图像的第一中间层特征和第三图像的第三中间层 特征;第二中间层特征提取模块,被配置成利用第二语义分割模型分别对第二图像集中的第二 图像和第四图像集中的第四图像进行处理,并获取第二语义分割模型的中间层输出的第二图像 的第二中间层特征和第四图像的第四中间层特征;风格嵌入模块,被配置成分别确定第一中间 层特征对应的第一风格嵌入、第二中间层特征对应的第二风格嵌入、第三中间层特征对应的第 三风格嵌入和第四风格嵌入;第一风格相似度模块,被配置成基于第一风格嵌入和第二风格嵌 入确定第一风格相似度;第二风格相似度模块,被配置成基于第三风格嵌入和第四风格嵌入确 定第二风格相似度;
在其中一个实施方式中,第三处理单元1030进一步包括:内容嵌入模块,被配置成分别 确定出第一中间层特征对应的第一内容嵌入、第二中间层特征对应的第二内容嵌入、第三中间 层特征对应的第三内容嵌入以及第四中间层特征对应的第四内容嵌入;第一内容相似度模块, 被配置成基于第一内容嵌入和第二内容嵌入的相似程度,确定第一内容相似度;第二内容相似 度模块,被配置成基于第三内容嵌入和第四内容嵌入的相似程度,确定所述第二内容相似度。
在其中一个实施方式中,该装置还包括映射单元,被配置成:利用预设的映射模块,分别 将第一中间层特征、第二中间层特征、第三中间层特征和第四中间层特征分别映射至语义特征 空间,得到第一内容嵌入、第二内容嵌入、第三内容嵌入和第四内容嵌入;其中,映射模块采 用映射损失函数对映射过程进行约束,映射损失函数表征预设乘积与第三预设散度、第四预设 散度的差值,其中,预设乘积为第一预设散度与第二预设散度的和与预设权重系数的乘积,第 一预设散度为第一内容嵌入与第二内容嵌入之间的预设散度,第二预设散度为第三内容嵌入与 第四内容嵌入之间的预设散度,第三预设散度为第一内容嵌入与第三内容嵌入之间的预设散度, 第四预设散度为第二内容嵌入与第四内容嵌入之间的预设散度。
在其中一个实施方式中,该装置还包括:第三内容相似度单元,被配置成基于第一内容嵌 入与第三内容嵌入之间的相似程度,确定第三内容相似度;第四内容相似度单元,被配置成基 于第二内容嵌入与第四内容嵌入之间的相似程度,确定第四内容相似度;第一修正单元,被配 置成基于第三内容相似度与第四内容相似度的L2距离、映射损失函数,对内容损失函数进行 修正。
在其中一个实施方式中,该装置还包括图像生成单元,被配置成:将第一图像和第四图像 分别映射至第一预设色彩空间,得到变换后的第一图像和变换后的第四图像;确定变换的第一 图像的第一均值和第一方差,以及,变换后的第四图像的第四均值和第四方差;整变换后的第 一图像,使得第一均值和第一方差分别与第四均值和第四方差对齐,得到调整后的第一图像; 将调整后的第一图像映射至第二预设色彩空间,得到第二图像。
在其中一个实施方式中,该装置还包括:第一预测单元,被配置成获取第一语义分割模型 输出的第一图像对应的第一预测结果和第三图像对应的第三预测结果;第二预测单元,被配置 成获取第二语义分割模型输出的第二图像对应的第二预测结果和第四图像对应的第四预测结 果;第一交叉熵单元,被配置成分别确定第一预测结果和第三预测结果各自的交叉熵;第二交 叉熵单元,被配置成将第三预测结果作为第四图像的标签,确定第四预测结果的交叉熵;交叉 熵损失单元,被配置成基于第一预测结果、第三预测结果和第四预测结果各自对应的交叉熵, 确定交叉熵损失函数;第二修正单元,被配置成基于交叉熵损失函数,对蒸馏损失函数进行修 正。
示例性电子设备
下面,参考图11来描述根据本公开实施例的电子设备。图11图示了根据本公开实施例的 电子设备的框图。
如图11所示,电子设备1100包括一个或多个处理器1110和存储器1120。
处理器1110可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其 他形式的处理单元,并且可以控制电子设备1100中的其他组件以执行期望的功能。
存储器1120可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形 式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如 可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例 如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个 或多个计算机程序指令,处理器1110可以运行所述程序指令,以实现上文所述的本公开的各 个实施例的用于处理语义模型的方法以及/或者其他期望的功能。在所述计算机可读存储介质 中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备1100还可以包括:输入装置1130和输出装置1140,这些组件 通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备1130还可以包括例如键盘、鼠标等等。
该输出装置1140可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输 出设备1140可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设 备等等。
当然,为了简化,图11中仅示出了该电子设备1100中与本公开有关的组件中的一些,省 略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1100还 可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序 指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法” 部分中描述的根据本公开各种实施例的用于处理语义模型的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开 实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等, 还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全 地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用 户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述 计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描 述的根据本公开各种实施例的用于处理语义模型的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读 信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举 的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读 存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的 优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实 施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限 制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例 的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其 与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或 暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以 按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等 等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和” 指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如” 指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、 硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了 进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外, 在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据 本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的 记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重 新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这 些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以 应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是 按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制 到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识 到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种用于处理语义分割模型的方法,包括:
利用第一语义分割模型对两种亮图像进行处理,并获取所述第一语义分割模型的中间层输出的所述两种亮图像各自的中间层特征,所述两种亮图像为在两个场景中采集得到的图像;
利用第二语义分割模型对两种暗图像进行处理,并获取所述第二语义分割模型的中间层输出的所述两种暗图像各自的中间层特征,所述第二语义分割模型与所述第一语义分割模型具有相同结构,所述两种暗图像为在所述两个场景中采集得到的图像;
基于所述两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别确定出所述两个场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和第二内容相似度,以及,分别确定出所述两个场景中每个场景对应的亮图像和暗图像之间的风格相似度,得到第一风格相似度和第二风格相似度;
基于所述第一风格相似度与所述第二风格相似度,确定风格损失函数;
基于所述第一内容相似度与所述第二内容相似度,确定内容损失函数;
基于所述风格损失函数和所述内容损失函数,确定蒸馏损失函数;
将所述蒸馏损失函数作为监督,通过蒸馏训练更新所述第二语义分割模型的参数,得到处理后的第二语义分割模型。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取第一图像集、第二图像集、第三图像集和第四图像集,其中,所述第一图像集中的第一图像为在第一场景采集的、已标记的亮图像,所述第二图像集中的第二图像为在所述第一场景采集的、已标记的暗图像,所述第三图像集中的第三图像为在第二场景采集的、未标记的亮图像,所述第四图像集中的第四图像为在所述第二场景采集的、未标记的暗图像;
将所述第一图像集中的第一图像和所述第三图像集中的第三图像确定为所述两种亮图像,将所述第二图像集中的第二图像和所述第四图像集中的第四图像确定为所述两种暗图像。
3.根据权利要求2所述的方法,其中所述第一风格相似度和所述第二风格相似度通过如下方式确定:
利用所述第一语义分割模型分别对所述第一图像集中的第一图像和所述第三图像集中的第三图像进行处理,并获取所述第一语义分割模型的中间层输出的所述第一图像的第一中间层特征和所述第三图像的第三中间层特征;
利用所述第二语义分割模型分别对第二图像集中的第二图像和第四图像集中的第四图像进行处理,并获取所述第二语义分割模型的中间层输出的第二图像的第二中间层特征和所述第四图像的第四中间层特征;
分别确定所述第一中间层特征对应的第一风格嵌入、所述第二中间层特征对应的第二风格嵌入、所述第三中间层特征对应的第三风格嵌入以及所述第四中间层特征对应的第四风格嵌入;
基于所述第一风格嵌入和所述第二风格嵌入的相似程度,确定所述第一风格相似度;
基于所述第三风格嵌入和所述第四风格嵌入的相似程度,确定所述第二风格相似度。
4.根据权利要求3所述的方法,其中,所述第一内容相似度和所述第二内容相似度通过如下方式确定:
分别确定出所述第一中间层特征对应的第一内容嵌入、所述第二中间层特征对应的第二内容嵌入、所述第三中间层特征对应的第三内容嵌入以及所述第四中间层特征对应的第四内容嵌入;
基于所述第一内容嵌入和所述第二内容嵌入的相似程度,确定所述第一内容相似度;
基于所述第三内容嵌入和所述第四内容嵌入的相似程度,确定所述第二内容相似度。
5.根据权利要求4所述的方法,其中,所述第一内容嵌入、所述第二内容嵌入、所述第三内容嵌入和所述第一内容嵌入通过如下方式确定:
利用预设的映射模块,分别将所述第一中间层特征、所述第二中间层特征、所述第三中间层特征和所述第四中间层特征分别映射至语义特征空间,得到所述第一内容嵌入、所述第二内容嵌入、所述第三内容嵌入和所述第四内容嵌入;
其中,所述映射模块采用映射损失函数对映射过程进行约束,所述映射损失函数表征预设乘积与第三预设散度、第四预设散度的差值,其中,预设乘积为第一预设散度与第二预设散度的和与预设权重系数的乘积,所述第一预设散度为所述第一内容嵌入与所述第二内容嵌入之间的预设散度,所述第二预设散度为所述第三内容嵌入与所述第四内容嵌入之间的预设散度,所述第三预设散度为所述第一内容嵌入与所述第三内容嵌入之间的预设散度,所述第四预设散度为所述第二内容嵌入与所述第四内容嵌入之间的预设散度。
6.根据权利要求2至5之一所述的方法,其中,所述第二图像通过如下方式得到:
将所述第一图像和所述第四图像分别映射至第一预设色彩空间,得到变换后的第一图像和变换后的第四图像;
确定所述变换的第一图像的第一均值和第一方差,以及,所述变换后的第四图像的第四均值和第四方差;
调整所述变换后的第一图像,使得所述第一均值和所述第一方差分别与所述第四均值和所述第四方差对齐,得到调整后的第一图像;
将所述调整后的第一图像映射至第二预设色彩空间,得到所述第二图像。
7.根据权利要求6所述的方法,其中,所述方法还包括:
获取所述第一语义分割模型输出的所述第一图像对应的第一预测结果和所述第三图像对应的第三预测结果;
获取所述第二语义分割模型输出的所述第二图像对应的第二预测结果和所述第四图像对应的第四预测结果;
分别确定所述第一预测结果和所述第二预测结果各自的交叉熵;
将所述第三预测结果作为所述第四图像的标签,确定所述第四预测结果的交叉熵;
基于所述第一预测结果、所述第二预测结果和所述第四预测结果各自对应的交叉熵,确定交叉熵损失函数;
以及,所述将所述蒸馏损失函数作为监督之前,所述方法还包括:
基于所述交叉熵损失函数,对所述蒸馏损失函数进行修正。
8.一种用于处理语义分割模型的装置,包括:
第一处理单元,被配置成利用第一语义分割模型对两种亮图像进行处理,并获取所述第一语义分割模型的中间层输出的所述两种亮图像各自的中间层特征,所述两种亮图像为在两个场景中采集得到的图像;
第二处理单元,被配置成利用第二语义分割模型对两种暗图像进行处理,并获取所述第二语义分割模型的中间层输出的所述两种暗图像各自的中间层特征之间,所述第二语义分割模型与所述第一语义分割模型具有相同结构,所述两种暗图像为在所述两个场景中采集得到的图像;
第三处理单元,被配置成基于所述两种亮图像各自的中间层特征与所述两种暗图像各自的中间层特征,分别确定出所述两个场景中每个场景对应的亮图像和暗图像之间的内容相似度,得到第一内容相似度和第二内容相似度,以及,分别确定出所述两个场景中每个场景对应的亮图像和暗图像之间的风格相似度,得到第一风格相似度和第二风格相似度;
风格损失单元,被配置成基于所述第一风格相似度与所述第二风格相似度,确定风格损失函数;
内容损失单元,被配置成基于所述第一内容相似度与所述第二内容相似度,确定内容损失函数;
蒸馏损失单元,被配置成基于所述风格损失函数和所述内容损失函数,确定蒸馏损失函数;
模型处理单元,被配置成将所述蒸馏损失函数作为监督,通过蒸馏训练更新所述第二语义分割模型的参数,得到处理后的第二语义分割模型。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的方法。
CN202210461761.1A 2022-04-28 2022-04-28 用于处理语义分割模型的方法、装置、介质和设备 Active CN114972749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210461761.1A CN114972749B (zh) 2022-04-28 2022-04-28 用于处理语义分割模型的方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210461761.1A CN114972749B (zh) 2022-04-28 2022-04-28 用于处理语义分割模型的方法、装置、介质和设备

Publications (2)

Publication Number Publication Date
CN114972749A CN114972749A (zh) 2022-08-30
CN114972749B true CN114972749B (zh) 2024-03-19

Family

ID=82980184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210461761.1A Active CN114972749B (zh) 2022-04-28 2022-04-28 用于处理语义分割模型的方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN114972749B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072886A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 图像风格迁移方法、装置、设备及存储介质
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN114331031A (zh) * 2021-12-08 2022-04-12 北京华清安地建筑设计有限公司 一种建筑传统特征识别评价方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072886A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 图像风格迁移方法、装置、设备及存储介质
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN114331031A (zh) * 2021-12-08 2022-04-12 北京华清安地建筑设计有限公司 一种建筑传统特征识别评价方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于加权损失函数的多尺度对抗网络图像语义分割算法;张宏钊;吕启深;党晓婧;李炎裕;代德宇;;计算机应用与软件;20200112(第01期);全文 *

Also Published As

Publication number Publication date
CN114972749A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
Hwang et al. Context-based automatic local image enhancement
CN110648375B (zh) 基于参考信息的图像彩色化
US8666148B2 (en) Image adjustment
US8903169B1 (en) Automatic adaptation to image processing pipeline
CN111489401B (zh) 一种图像颜色恒常性处理方法、系统、设备和存储介质
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN112614070B (zh) 一种基于DefogNet的单幅图像去雾方法
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN110782448A (zh) 渲染图像的评价方法及装置
CN112581355A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN114187515A (zh) 图像分割方法和图像分割装置
CN114972749B (zh) 用于处理语义分割模型的方法、装置、介质和设备
CN117252778A (zh) 基于语义保持的颜色恒常性方法和系统
CN112990340A (zh) 一种基于特征共享的自学习迁移方法
CN111738964A (zh) 一种基于建模的图像数据增强的方法
CN112001300A (zh) 基于按位置交叉熵的楼宇监控方法、装置和电子设备
CN113627342B (zh) 视频深度特征提取优化的方法、系统、设备及存储介质
CN112926552B (zh) 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN115205157A (zh) 图像处理方法和系统、电子设备和存储介质
CN113191376A (zh) 图像处理方法、装置、电子设备和可读存储介质
CN112001301A (zh) 基于全局交叉熵加权的楼宇监控方法、装置和电子设备
CN115082703B (zh) 概念关联颜色提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant