CN115222940B - 一种语义分割方法、系统、设备和存储介质 - Google Patents

一种语义分割方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN115222940B
CN115222940B CN202210795660.8A CN202210795660A CN115222940B CN 115222940 B CN115222940 B CN 115222940B CN 202210795660 A CN202210795660 A CN 202210795660A CN 115222940 B CN115222940 B CN 115222940B
Authority
CN
China
Prior art keywords
domain
picture
network
domain picture
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210795660.8A
Other languages
English (en)
Other versions
CN115222940A (zh
Inventor
梁孔明
单祥轩
马占宇
郭军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210795660.8A priority Critical patent/CN115222940B/zh
Publication of CN115222940A publication Critical patent/CN115222940A/zh
Application granted granted Critical
Publication of CN115222940B publication Critical patent/CN115222940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例公开了一种语义分割方法和系统,所述方法包括:将源域图片转化为拟真域图片;将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。降低源域和目标域间的域隙,达到更好的域迁移目的。

Description

一种语义分割方法、系统、设备和存储介质
技术领域
本申请实施例涉及深度学习技术领域,具体涉及一种语义分割方法、系统、设备和存储介质。
背景技术
语义分割作为深度学习和机器学习下辖子任务之一,其涉及到的逐像素分类,在自动驾驶、医学疾病检测等领域具有重要应用场景,是计算机视觉识别任务中的一个重要研究课题。
当下语义分割图像识别主要存在以下几方面的问题:(1)语义分割任务识别的图像场景复杂,像素点间关系紧密,特征难以解耦。(2)语义分割图像标注需要人工逐像素手动标注,费时费力,并因此导致相关数据集规模较小。(3)为增加数据集尺度所构建的虚拟数据集,与真实数据集在风格纹理上存在巨大差异,域隙过大,难以匹配。
发明内容
为此,本申请实施例提供一种语义分割方法、系统、设备和存储介质,降低源域和目标域间的域隙,达到更好的域迁移目的。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种语义分割方法,所述方法包括:
将源域图片转化为拟真域图片;
将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
将所述源域图片及其真实标注、目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;
将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。
可选地,所述利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络,包括:
将所述拟真域预测结果和源域图片的真实标注输入所述输出级预测修正网络,得到预测掩码;
计算所述预测掩码和所述源域图片的真实标注的加权交叉熵损失,以对所述输出级预测修正网络的参数进行调整。
可选地,所述加权交叉熵损失按照如下步骤计算:
计算所述预测掩码中的每个像素点至每个像素点各自最近边界像素点的距离;
筛选满足设定距离的像素点分别进行加权图计算;
根据所有满足设定距离的像素点的加权图计算所述输出级预测修正网络边界的加权交叉熵损失。
可选地,在将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果之后,所述方法还包括:
计算拟真域预测结果和源域预测结果的熵图,将所述拟真域预测结果的熵图和源域预测结果的熵图输入所述第一中间级熵对齐网络中的鉴别器网络,以使得判断所述拟真域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第一中间级熵对齐网络中的生成器网络;所述源域预测结果是根据所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络得到的。
可选地,在将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果之后,所述方法还包括:
计算目标域预测结果的熵图,将源域预测结果的熵图和所述目标域预测结果的熵图输入所述第二中间级熵对齐网络中的鉴别器网络,以使得判断所述目标域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第二中间级熵对齐网络中的生成器网络。
可选地,在所述将源域图片转化为拟真域图片之后,在将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络之前,所述方法还包括:
将所述拟真域图片输入第一鉴别器,获得拟真域图片相对目标域图片的第一对抗性损失,以对所述第一生成器和所述第一鉴别器中的参数进行调整;所述拟真域图片是将所述源域图片输入循环生成对抗网络的第一生成器得到;所述循环生成对抗网络包括所述第一生成器、第二生成器、所述第一鉴别器和第二鉴别器;
基于所述第一鉴别器鉴别所述目标域图片和所述拟真域图片;
将所述拟真域图片输入第二生成器得到重构源域图片,并确定所述重构源域图片相对所述源域图片的第一循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
可选地,所述方法还包括:
将所述目标域图片基于第二生成器得到拟假域图片;
将所述拟假域图片和源域图片输入第二鉴别器,获得源域图片相对拟假域图片的第二对抗性损失,以对所述第二生成器和所述第二鉴别器中的参数进行调整;
基于第二鉴别器鉴别拟假域图片和所述源域图片;
将所述拟假域图片基于第一生成器转化为重构目标域图片,并确定所述重构目标域图片相对所述目标域图片的第二循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
根据本申请实施例的第二方面,提供了一种语义分割系统,所述系统包括:
输入级风格迁移模块,用于将源域图片转化为拟真域图片;
第一中间级熵对齐模块,用于将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
第二中间级熵对齐模块,用于将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
输出级预测修正网络训练模块,用于利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;
掩码修正模块,用于将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。
根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
综上所述,本申请实施例提供了一种语义分割方法、系统、设备和存储介质,通过将源域图片转化为拟真域图片;将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。降低源域和目标域间的域隙,达到更好的域迁移目的。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的现有虚拟数据集和真实数据集及其对应标注示意图;
图2为本申请实施例提供的一种语义分割方法流程图;
图3为本申请实施例提供的基于多端对齐的掩码修正语义分割域自适应方法的整体流程图;
图4为本申请实施例提供的输入级图片风格迁移流程图;
图5为本申请实施例提供的中间级熵最小化特征对齐流程图;
图6为本申请实施例提供的输出级掩码修正步骤流程图;
图7为本申请实施例提供的一种语义分割系统框图;
图8示出了本申请实施例提供的一种电子设备的结构示意图;
图9示出了本申请实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有虚拟数据集和真实数据集及其对应标注图片如附图1所示。现有的方案主要通过在虚拟数据集和真实数据集间进行域自适应学习,以解决真实数据集规模较小的问题。
现有域自适应方法主要通过三个方面达到在两个域间进行迁移的目的:(1)基于风格迁移算法的输入端虚拟图像与真实图像对齐。(2)基于各类特征对齐的中间级域间对齐。(3)针对输出预测结果的域间对齐。
相似方案1:循环生成对抗网络(Cycle Generative Adversarial Network)首先通过一对生成器和鉴别器,将源域图片转化为目标域图片,并与真实目标域图片进行比对,完成对抗性学习,再通过另一对生成器和鉴别器,将转化后的图片再转化回源域进行比对,从而实现源域图片到目标域图片的风格迁移。
相似方案2:边界变换网络(Segfix:Boundary Refinement Network),该方法先对预测结果,用卷积神经网络(Convolutional Neural Networks)进行边缘检测,再针对边缘像素点学习指向内部像素的方向及移动距离,从而逐步校正错误的边界像素。
本申请实施例提供的域自适应语义分割方法是在实现源域图片逐像素预测的基础上,在目标域同时达到可观的预测效果,其中源域图片有标注而目标域图片没有。因此该问题需要缩小源域和目标域之间的域隙,实现两个域间的迁移学习。
图2示出了本申请实施例提供的一种语义分割方法,所述方法包括:
步骤201:将源域图片转化为拟真域图片;
步骤202:将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
步骤203:将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
步骤204:利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;
步骤205:将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。
在一种可能的实施方式中,在步骤201在所述将源域图片转化为拟真域图片之后,在将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络之前,所述方法还包括:
将所述拟真域图片输入第一鉴别器,获得拟真域图片相对目标域图片的第一对抗性损失,以对所述第一生成器和所述第一鉴别器中的参数进行调整;所述拟真域图片是将所述源域图片输入循环生成对抗网络的第一生成器得到;所述循环生成对抗网络包括所述第一生成器、第二生成器、所述第一鉴别器和第二鉴别器;
基于所述第一鉴别器鉴别所述目标域图片和所述拟真域图片;
将所述拟真域图片输入第二生成器得到重构源域图片,并确定所述重构源域图片相对所述源域图片的第一循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
在一种可能的实施方式中,所述方法还包括:
将所述目标域图片基于第二生成器得到拟假域图片;
将所述拟假域图片和源域图片输入第二鉴别器,获得源域图片相对拟假域图片的第二对抗性损失,以对所述第二生成器和所述第二鉴别器中的参数进行调整;
基于第二鉴别器鉴别拟假域图片和所述源域图片;
将所述拟假域图片基于第一生成器转化为重构目标域图片,并确定所述重构目标域图片相对所述目标域图片的第二循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
在一种可能的实施方式中,在步骤202将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果之后,所述方法还包括:
计算拟真域预测结果和源域预测结果的熵图,将所述拟真域预测结果的熵图和源域预测结果的熵图输入所述第一中间级熵对齐网络中的鉴别器网络,以使得判断所述拟真域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第一中间级熵对齐网络中的生成器网络;所述源域预测结果是根据所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络得到的。
在一种可能的实施方式中,在步骤203将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果之后,所述方法还包括:
计算目标域预测结果的熵图,将源域预测结果的熵图和所述目标域预测结果的熵图输入所述第二中间级熵对齐网络中的鉴别器网络,以使得判断所述目标域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第二中间级熵对齐网络中的生成器网络。
在一种可能的实施方式中,在步骤204中所述利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络,包括:
将所述拟真域预测结果和源域图片的真实标注输入所述输出级预测修正网络,得到预测掩码;
计算所述预测掩码和所述源域图片的真实标注的加权交叉熵损失,以对所述输出级预测修正网络的参数进行调整。
在一种可能的实施方式中,所述加权交叉熵损失按照如下步骤计算:
计算所述预测掩码中的每个像素点至每个像素点各自最近边界像素点的距离;
筛选满足设定距离的像素点分别进行加权图计算;
根据所有满足设定距离的像素点的加权图计算所述输出级预测修正网络边界的加权交叉熵损失。
下面结合附图对本申请实施例提供的方法进行进一步描述。
图3示出了本申请实施例提供的基于多端对齐的掩码修正语义分割域自适应方法的整体流程图。具体包括如下几个方面:
第一方面:输入级图片风格迁移:将源域虚拟图片转化为具有真实质感的,接近目标域风格的拟真域图片。
学习一对生成器和鉴别器,实现将源域虚拟图片转化为具有真实目标域质感的拟真域图片,并与目标域图片进行鉴别,实现风格迁移;学习另一对生成器和鉴别器,实现将前述转化得到的拟真域图片再转化为源域,与源域图片进行鉴别,实现图片内容不变。在上述两个步骤的转化过程中,同时保持源域图片、拟真域图片和真实图片的相位不变性,从而保留语义信息。
具体的,通过训练一个鉴别器的方式进行鉴别,鉴别器输入一张目标域图片或者一张由生成器生成的拟真域图片,鉴别器判断这张图片是目标域的还是拟真域的,输出1或0的域标签,也就是进行一个二分类,而同时在训练过程中会记录这张图片到底属于哪个域,也就是有域标签的真实label,因此可以计算损失,让鉴别器鉴别的更好,并把这个结果反馈给生成器,从而生成器知道自身哪些图片生成的不好被鉴别器成功鉴别出来,哪些生成的好没有被鉴别出,从而通过损失函数提升自身的生成能力。
通过两对生成器和鉴别器,可以把一张源域图片转化为具有真实质感的拟真域图片,再把拟真域图片转化回源域,理论上应该再重新得到源域图片,但是实际情况下没有这么好。由于在转化的过程中没有确保语义不变,例如之前是天空的地方,再转化回来就可能会变成树木,所以对于源域图片和由拟真域图片二次转化回来的图片,计算二者的相位一致性损失(图片的相位承载语义信息),具体损失函数在后面有陈述,并把这个损失回传给生成器,从而约束生成器,确保相位不变,也就有了语义不变。
具体地,输入级风格迁移网络是基准的Cycle-GAN网络,即两对生成器和鉴别器组成的循环生成对抗网络。生成器采用神经风格迁移网络(Neural Style TransferNetwork),鉴别器采用PatchGAN网络。
对于源域图片
Figure GDA0004093936970000091
和目标域图片/>
Figure GDA0004093936970000092
两个生成器的作用分别是G:X→Y和F:Y→X;两个对抗性鉴别器分别为DS和DT,其中,DS目标是区分源域图片x和转换后的图像F(y),DT则是区分目标域图片y和转化后的图像G(x)。
整个网络的优化目标有两个,一个是对抗性损失,即匹配由源域生成的拟真图像和目标域真实图像,使二者风格相近;另一个是循环一致性损失,防止生成器G和F彼此矛盾。
对抗性损失,对于生成器G和它的鉴别器DT,目标函数为
Figure GDA0004093936970000101
对于生成器F和它的鉴别器DS同理可得。
循环一致性损失,为了进一步确保正确的迁移映射,循环一致性损失的约束,可以使转化后的拟真图像再转化回源域,使其与原本图像一致,即:x→G(x)→F(G(x))≈x。
对y同理,目标函数为:
Figure GDA0004093936970000102
接下来是在Cycle-GAN的基础上,额外引入的相位一致性损失。对一张图片来说,它的傅里叶变换的幅度决定图像纹理风格,而相位决定语义信息,所以对于风格迁移,保持图片相位不变性,可以保证转化后的图片语义信息不变,达到更好的风格迁移目的。
具体来说,设F:RH×W→RH×W×2为傅里叶变换,对于单通道图片x,在迁移变换T的过程中,相位一致性需要由如下损失函数确保:
Figure GDA0004093936970000103
本步骤输入级图片风格迁移流程图如附图4所示。a用来宏观上描述网络整体,即两对生成器鉴别器,进行风格迁移,图像输入级对齐,约束相位一致性损失和循环一致性损失。
b和c示出两对生成器鉴别器的处理流程。b描述把一张源域图片S用生成器G得到拟真域图片,利用鉴别器DT鉴别拟真域图片和目标域图片,再用一个生成器F,把拟真域图片转化回源域图片,此时要计算源域和拟真域之间的循环一致性损失,确保语义不变性。b和c是基本相同的两个部分,只不过方向不一样,b是把源域图片转化到目标域再转化回来,而c是把目标域转化到源域再转化回来。
第二方面:中间级熵最小化特征对齐:用于对齐源域和目标域预测结果的熵值,以及源域和拟真域预测结果的熵值,并分别反作用于生成预测结果的卷积神经网络。
这个阶段的中间级熵对齐网络分训练和测试两个阶段,训练阶段基于源域的所有图片和标注,以及目标域图片的训练集,输入生成器生成源域图片的预测结果和目标域图片的预测结果,然后计算熵图,输入到鉴别器中进行鉴别。在测试阶段,仅利用目标域图片的测试集。源域的预测结果只是为了训练网络,不参与后续的过程。
拟真域的预测结果相较于目标域来说,离真实标注距离更近,因为它是前两个步骤共同对齐后生成的,具有源域和目标域共同的信息,而且它的真实标注可以在训练阶段使用,所以可以服务于下一个输出级掩码修正步骤。
利用生成对抗网络,对齐目标域预测结果与源域预测结果的熵值,使其都维持在低熵状态,并将损失反作用于分割网络;同时利用拟真域图片和虚拟源域图片进行上述网络预测,生成拟真域预测结果,利用拟真域的预测结果进一步降低两域域隙。
语义分割指标mIoU比较高的预测结果,它的熵会低,而预测结果不好的熵会高。通过一个鉴别器,鉴别源域预测结果的熵图和目标域预测结果的熵图,生成域标签(类似第一个步骤),并把域标签反作用于生成器,使得生成器在目标域的预测结果的熵,也能生成比较低的熵值(通过让目标域熵图接近源域,而源域的熵值是低的,所以目标域的熵值间接地也低),都低熵代表预测结果都比较好,从而通过熵间接最小化的方式降低二者的域隙。
如图3所示,有两个相同的中间级熵最小化特征对齐网络,一个网络在训练时输入源域图片和目标域图片,降低二者的域隙,测试时生成目标域的预测结果,此时的结果相较于真实标注仍有差距。另一个网络输入拟真域图片和源域图片,降低二者域隙,测试时生成拟真域的预测结果,此时的预测结果会比前面目标域的预测结果更好(因为拟真域作为源域和目标域的中间域,从源域到拟真域的域隙小,而从源域到目标域的域隙大)。
第二方面分两阶段进行。本步骤中间级熵最小化特征对齐流程图如附图5所示。首先是第一阶段的训练和测试,输入为源域虚拟图片和第一阶段生成的拟真域图片,同时输入的还有源域图片的真实标注。本部分采用Deeplab-V2这一语义分割常用模型,作为图像分割部分的网络模型,并采用在Imagenet上预训练的ResNet-101网络作为骨干。
在分割网络后是一个对抗网络D,该网络采用DCGAN模型,鉴别分割网络输出预测结果的熵图,是属于源域还是拟真域,并将损失反作用于分割网络,从而使分割网络在无监督的拟真域上能达到与在有监督的源域上同样较好的结果。鉴别器是中间级熵对齐网络的一部分,中间级熵对齐网络包含一个生成器和一个鉴别器,生成器也就是分割网络,用来输出预测结果,并计算熵图,鉴别器根据熵图判断它属于哪个域生成的,并把域标签反作用于生成器,使其生成的更能“以假乱真”,也即生成的预测效果更好。
在本步骤过程中,主要技术要点在对抗网络D,具体来说,由分割网络生成的像素级预测类别值Px(h,w,c),其自信息可定义为-logPx(h,w,c),像素级熵值即为自信息的均值,也即加权自信息图:
Ix(h,w)=EC[-logPx(h,w,c)]=-Px(h,w)logPx(h,w)。
鉴别器输入加权自信息图,输出此加权自信息图所属域的预测,1代表源域,0代表拟真域,并将此输出生成损失回传至鉴别器及分类器网络,使得分类器达到更好的分割效果,迷惑鉴别器,而鉴别器达到更好的域分类效果。
鉴别器的训练目标为
Figure GDA0004093936970000121
分割网络的训练目标为鉴别器损失及源域有监督分割损失,即为
Figure GDA0004093936970000122
由此,通过熵分布对齐,使得分割网络在拟真域上生成较好的预测结果,同理再利用有监督的源域图片和无监督目标域图片再训练一个生成对抗网络,生成目标域的预测结果。本部分训练方法和前面说的基本完全一致,输入源域图片及其真实标注和拟真域图片,生成器对源域图片和拟真域图片生成预测结果,并计算熵图,把熵图输入给鉴别器网络,鉴别器根据输入的熵图,判断这个熵图是属于源域的还是拟真域的,生成域标签0或1,而每张图片真正属于哪个域是可知的,所以可以计算损失,作用于鉴别器,使其达到更好的鉴别效果。同时,鉴别器鉴别出来的域标签,也会反作用于生成器。而生成器本身是有一个针对源域的监督损失的(因为源域图片有真实标注,所以可以进行有监督学习,所以会生成比较好的源域预测结果),而通过域标签的作用,生成器就可以改变生成的拟真域预测结果,使它更能像源域预测结果那样规整,低熵,也即效果更好。
第三方面:输出级掩码修正:针对前述网络生成的拟真域和目标域预测结果,学习拟真域预测结果到人工标注的映射,从而达到学习后处理掩码修正的目的。
由前述步骤得到了拟真域的预测结果和目标域的预测结果,由于拟真域与源域图像分布一致,而与目标域风格纹理一致,故作为中间域,相较于目标域预测结果mIoU更高,更接近于真实标注。故本步骤旨在学习拟真域预测结果到真实标注的映射,从而应用于目标域预测结果上,进行输出级的掩码修正。
利用Unet卷积神经网络,学习拟真域的预测结果到真实标注间的预测,并在测试时用真实目标域的预测结果进行掩码修正;在学习过程中,着重学习边缘信息,在输入时插入原图提取的边缘信息,在训练过程中对损失函数进行加权,使其更关注边缘信息。
本步骤输出级掩码修正流程图如附图6所示。采用Unet网络作为修正网络,输入拟真域的预测结果及真实标注进行学习。同时根据实验观察到,拟真域预测结果的错误点主要集中在物体边缘和细小物体,故对拟真域原图,经Canny算子计算得到边缘信息,作为额外一维输入到掩码修正网络中。由于边缘像素点感受野中的像素点往往属于多个不同类,所以网络更难分类,但同时,这些像素点经分割网络提取出的特征会覆盖到更多类别信息,这些特征有利于网络进行分类,所以边缘像素点应当在网络损失中权重更大,所以本方案引入了边界加权交叉熵损失。
具体来说,对于边界像素Xm(h,w),对预测掩码中的每个像素点x,求其至最近边界像素点的距离
Figure GDA0004093936970000141
并只对距离小于λd的进行加权,加权图为
Figure GDA0004093936970000142
因此,最终网络的边界加权交叉熵损失为:
Figure GDA0004093936970000143
经过本步骤,目标域的预测掩码进一步修正,从而得到最终的预测结果。
在训练阶段,输入拟真域的掩码和它的真实标注,生成新的掩码,计算这个新掩码和真实标注之间的加权交叉熵损失,反作用于修正网络,使得网络学习掩码修正,学习拟真域预测结果到真实标注的映射(即把拟真域预测结果的错误部分修正);在测试阶段,输入目标域的预测结果,对该掩码进行修正,从而得到修正后的最终预测结果。
这一步骤不是语义分割的必备步骤。语义分割必备步骤是输入图片,生成像素级预测结果,但本步骤是方法的创新点,学习掩码到真实值的映射,而非一般的图片到真实值的映射。
与现有技术相比,本申请实施例提供的语义分割方法将输入级、中间级和输出级三级对齐融合到一起,通过三层作用共同降低源域和目标域间的域隙,达到更好的域迁移目的。其中,输入级方法在现有技术上加入了相位对齐,保证语义信息不变性,从而生成更高质量的拟真域图片。中间级方法采用熵对齐,约束目标域预测结果。输出级新发明了一种后处理的掩码修正方法,实现掩码到掩码的预测变换,该方法可结合于其他现有方法,作为现有方法之后的掩码修正,进一步提升性能。
综上所述,本申请实施例提供了一种语义分割方法,通过将源域图片转化为拟真域图片;将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。降低源域和目标域间的域隙,达到更好的域迁移目的。
基于相同的技术构思,本申请实施例还提供了一种语义分割系统,如图7所示,所述系统包括:
输入级风格迁移模块701,用于将源域图片转化为拟真域图片;
第一中间级熵对齐模块702,用于将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
第二中间级熵对齐模块703,用于将所述源域图片及其真实标注、所述目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
输出级预测修正网络训练模块704,用于利用所述拟真域预测结果和源域图片的真实标注训练输出级预测修正网络;
掩码修正模块705,用于将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图8,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种语义分割方法,其特征在于,所述方法包括:
将源域图片转化为拟真域图片;
将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
将所述源域图片及其真实标注、目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
将所述拟真域预测结果和源域图片的真实标注输入输出级预测修正网络,得到预测掩码;
计算所述预测掩码和所述源域图片的真实标注的加权交叉熵损失,以对所述输出级预测修正网络的参数进行调整;
将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果;
所述加权交叉熵损失按照如下步骤计算:
计算所述预测掩码中的每个像素点至每个像素点各自最近边界像素点的距离;筛选满足设定距离的像素点分别进行加权图计算;按照如下公式根据所有满足设定距离的像素点的加权图计算所述输出级预测修正网络边界的加权交叉熵损失:
Figure QLYQS_1
其中,H表示图片高度,W表示图片宽度,Mb表示像素点间距离的加权图,Lce表示交叉熵损失函数,Xm表示边界像素点的预测掩码值,Ym表示边界像素点的真实掩码值,h表示边界像素点的坐标高度,w表示边界像素点的坐标宽度。
2.如权利要求1所述的方法,其特征在于,在将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果之后,所述方法还包括:
计算拟真域预测结果和源域预测结果的熵图,将所述拟真域预测结果的熵图和源域预测结果的熵图输入所述第一中间级熵对齐网络中的鉴别器网络,以使得判断所述拟真域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第一中间级熵对齐网络中的生成器网络;所述源域预测结果是根据所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络得到的。
3.如权利要求1所述的方法,其特征在于,在将所述源域图片及其真实标注、目标域图片输入第二中间级熵对齐网络,输出目标域预测结果之后,所述方法还包括:
计算目标域预测结果的熵图,将源域预测结果的熵图和所述目标域预测结果的熵图输入所述第二中间级熵对齐网络中的鉴别器网络,以使得判断所述目标域预测结果的熵图和源域预测结果的熵图的域标签,所述域标签用于训练所述第二中间级熵对齐网络中的生成器网络。
4.如权利要求1所述的方法,其特征在于,在所述将源域图片转化为拟真域图片之后,在将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络之前,所述方法还包括:
将所述拟真域图片输入第一鉴别器,获得拟真域图片相对目标域图片的第一对抗性损失,以对第一生成器和所述第一鉴别器中的参数进行调整;所述拟真域图片是将所述源域图片输入循环生成对抗网络的第一生成器得到;所述循环生成对抗网络包括所述第一生成器、第二生成器、所述第一鉴别器和第二鉴别器;
基于所述第一鉴别器鉴别所述目标域图片和所述拟真域图片;
将所述拟真域图片输入第二生成器得到重构源域图片,并确定所述重构源域图片相对所述源域图片的第一循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
将所述目标域图片基于第二生成器得到拟假域图片;
将所述拟假域图片和源域图片输入第二鉴别器,获得源域图片相对拟假域图片的第二对抗性损失,以对所述第二生成器和所述第二鉴别器中的参数进行调整;
基于第二鉴别器鉴别拟假域图片和所述源域图片;
将所述拟假域图片基于第一生成器转化为重构目标域图片,并确定所述重构目标域图片相对所述目标域图片的第二循环一致性损失,以对所述第一生成器和所述第二生成器中的参数进行调整。
6.一种语义分割系统,其特征在于,所述系统包括:
输入级风格迁移模块,用于将源域图片转化为拟真域图片;
第一中间级熵对齐模块,用于将所述源域图片及其真实标注、所述拟真域图片输入第一中间级熵对齐网络,输出拟真域预测结果;
第二中间级熵对齐模块,用于将所述源域图片及其真实标注、目标域图片输入第二中间级熵对齐网络,输出目标域预测结果;
输出级预测修正网络训练模块,用于将所述拟真域预测结果和源域图片的真实标注输入输出级预测修正网络,得到预测掩码;计算所述预测掩码和所述源域图片的真实标注的加权交叉熵损失,以对所述输出级预测修正网络的参数进行调整;
掩码修正模块,用于将所述目标域预测结果输入所述输出级预测修正网络进行掩码修正,得到修正后的掩码结果;
所述输出级预测修正网络训练模块,用于按照如下步骤计算所述加权交叉熵损失:
计算所述预测掩码中的每个像素点至每个像素点各自最近边界像素点的距离;筛选满足设定距离的像素点分别进行加权图计算;按照如下公式根据所有满足设定距离的像素点的加权图计算所述输出级预测修正网络边界的加权交叉熵损失:
Figure QLYQS_2
其中,H表示图片高度,W表示图片宽度,Mb表示像素点间距离的加权图,Lce表示交叉熵损失函数,Xm表示边界像素点的预测掩码值,Ym表示边界像素点的真实掩码值,h表示边界像素点的坐标高度,w表示边界像素点的坐标宽度。
7.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1-5任一项所述的方法。
CN202210795660.8A 2022-07-07 2022-07-07 一种语义分割方法、系统、设备和存储介质 Active CN115222940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210795660.8A CN115222940B (zh) 2022-07-07 2022-07-07 一种语义分割方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210795660.8A CN115222940B (zh) 2022-07-07 2022-07-07 一种语义分割方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115222940A CN115222940A (zh) 2022-10-21
CN115222940B true CN115222940B (zh) 2023-06-09

Family

ID=83609626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210795660.8A Active CN115222940B (zh) 2022-07-07 2022-07-07 一种语义分割方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115222940B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612658A (zh) * 2022-02-24 2022-06-10 南京工业大学 基于双重类别级对抗网络的图像语义分割方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190707A (zh) * 2018-09-12 2019-01-11 深圳市唯特视科技有限公司 一种基于对抗学习的域自适应图像语义分割方法
CN110322445B (zh) * 2019-06-12 2021-06-22 浙江大学 基于最大化预测和标签间相关性损失函数的语义分割方法
CN110322446B (zh) * 2019-07-01 2021-02-19 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
EP3805986A1 (en) * 2019-10-07 2021-04-14 Robert Bosch GmbH Method for measuring the boundary performance of a semantic segmentation network
CN111199550B (zh) * 2020-04-09 2020-08-11 腾讯科技(深圳)有限公司 图像分割网络的训练方法、分割方法、装置和存储介质
US20220156528A1 (en) * 2020-11-16 2022-05-19 Qualcomm Incorporated Distance-based boundary aware semantic segmentation
CN113822284B (zh) * 2021-09-24 2023-08-01 北京邮电大学 一种基于边界注意力的rgbd图像语义分割方法
CN113936275A (zh) * 2021-10-14 2022-01-14 上海交通大学 一种基于区域特征对齐的无监督域适应语义分割方法
CN114387283A (zh) * 2021-12-21 2022-04-22 山东众阳健康科技集团有限公司 一种医学图像肺炎区域分割智能诊断系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612658A (zh) * 2022-02-24 2022-06-10 南京工业大学 基于双重类别级对抗网络的图像语义分割方法

Also Published As

Publication number Publication date
CN115222940A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
Ma et al. Feature split–merge–enhancement network for remote sensing object detection
CN108647665B (zh) 基于深度学习的航拍车辆实时检测方法
Tian et al. A dual neural network for object detection in UAV images
CN110378837B (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
WO2017059576A1 (en) Apparatus and method for pedestrian detection
CN116670687A (zh) 用于调整训练后的物体检测模型以适应域偏移的方法和系统
CN111274981A (zh) 目标检测网络构建方法及装置、目标检测方法
CN111553242B (zh) 用于预测驾驶行为的生成对抗网络的训练方法和电子设备
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
Asyraf et al. CNN-based YOLOv3 comparison for underwater object detection
Song et al. Sign-YOLO: a novel lightweight detection model for Chinese traffic sign
CN113723352A (zh) 一种文本检测方法、系统、存储介质及电子设备
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
CN112634141A (zh) 一种车牌矫正方法、装置、设备及介质
CN115222940B (zh) 一种语义分割方法、系统、设备和存储介质
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN116486151A (zh) 图像分类模型训练方法、图像分类方法、设备及存储介质
Rawlley et al. Employing cross-domain modelings for robust object detection in dynamic environment of autonomous vehicles
Jiang et al. Enhanced and lightweight design of small object detector based on YOLOv5s model
Guo et al. STOD: toward semi-supervised tiny object detection
CN118279931A (zh) 一种基于头部中心点辅助的特征对比行人检测方法及系统
Zhang et al. Residual attention mechanism and weighted feature fusion for multi-scale object detection
CN114399655A (zh) 目标检测方法、系统及存储介质
Qi et al. Research on traffic sign recognition based on the YOLOv8 algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant