CN112598003B - 基于数据扩充和全监督预处理的实时语义分割方法 - Google Patents

基于数据扩充和全监督预处理的实时语义分割方法 Download PDF

Info

Publication number
CN112598003B
CN112598003B CN202011499496.3A CN202011499496A CN112598003B CN 112598003 B CN112598003 B CN 112598003B CN 202011499496 A CN202011499496 A CN 202011499496A CN 112598003 B CN112598003 B CN 112598003B
Authority
CN
China
Prior art keywords
target image
preprocessing
loss
path
detail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011499496.3A
Other languages
English (en)
Other versions
CN112598003A (zh
Inventor
刘天歌
张志文
靳玮钰
于露
聂鹏举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202011499496.3A priority Critical patent/CN112598003B/zh
Publication of CN112598003A publication Critical patent/CN112598003A/zh
Application granted granted Critical
Publication of CN112598003B publication Critical patent/CN112598003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据扩充和全监督预处理的实时语义分割方法。本发明通过设置细节路径部分、空间路径部分,其中,细节路径部分利用高分辨率的输入得到丰富的边界信息,空间路径部分利用细节路径部分产生的高质量特征图获得足够大的感受野,最后利用图像融合方式进行融合处理,以达到在计算速度与分割性能之间取得良好的平衡;在空间路径部分的后面加入了注意力模块,并通过特征融合模块将细节信息和空间信息有效结合;同时,本发明还通过裁剪—粘贴小目标的方式,增加小目标点在训练集上的比重,实现提升小目标点的分割结果。

Description

基于数据扩充和全监督预处理的实时语义分割方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于数据扩充和全监督预处理的实时语义分割方法。
背景技术
街景图像的分割在工业运用中具有十分重要的作用。但是街景图像具有类别种类繁多、对象遮挡严重、光照变化明显等特点,而且在考虑分割准确性的同时要兼顾分割的实时性,所以研究该类图像分割技术是一个极具挑战性的工作。
卷积神经网络在图像的分类、定位以及场景理解等方面取得了成功。随着增强现实和自动驾驶车辆等任务的激增,许多研究人员将注意力转移到场景理解上,其中一个主要步骤就是语义分割,即对所给定图像中的每个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。
语义分割问题在很多应用场景中都有着十分重要的作用,例如图片理解、自动驾驶等,所以近年来,语义分割问题在学术界和工业界得到了广泛的关注。语义分割的目的是为每个图像像素分配密集的标签,是计算机视觉的一项重要任务。语义分割在自动驾驶、视频监控、机器人传感等领域具有许多潜在的应用前景。
但是对于实际应用技术,对于语义分割技术,如何在保持高效推理速度的同时,保证分割结果的精确性,现有方法还有很多不足。对于街景图像分割技术,一方面,街景图像的分割主要应用在移动设备上,移动端的设备配置一般不高,然而现有的网络设计过于追求算法的分割精度,模型过于复杂,忽视了运行时间这一重要指标,导致运行时间过长且不能满足移动设备的要求;另一方面,由于街景图像具有光照变化明显,目标遮挡严重等特点,且存在数据样本在类别分布上严重不均衡的问题,这导致街景图像的整体分割效果不高,尤其是对于小物体的分割,然而小目标(例如交通灯、交通标志)对于街景图像来说是不可忽视的。
故,有必要提供一种技术方案,以解决上述技术问题。
发明内容
有鉴于此,本发明实施例提供了一种基于数据扩充和全监督预处理的实时语义分割方法。
本发明实施例的第一方面提供了一种基于数据扩充和全监督预处理的实时语义分割方法,所述方法包括以下步骤:
对目标图像进行预处理,其中,所述预处理包括对所述目标图像处中不同光照强度的处理、对所述目标图像的参数进行归一化操作;
对所述目标图像进行细节路径处理得到特征图,其中,所述细节路径处理为N项卷积层进行卷积处理,其中N为整数;
根据所述特征图与损失函数,进行空间路径处理得到空间信息,其中,所述空间路径处理为采用不同大小的卷积核与分组卷积,并将所述可分离卷积后的所述特征图叠加融合处理;所述损失函数包括预测损失函数、辅助损失函数;
根据所述空间信息,设置注意力操作,其中,所述注意力操作包括全局平均池化、条状平均池化;
对于经所述注意力操作后的空间信息,设置特征融合操作,其中,所述特征融合操作通过使用空间路径形成的高级语义信息,指导细节路径的特征响应,从而有效地编码信息。
优选的,在本发明中,所述预处理具体包括设置伽马变换,其中,所述伽马变换为:
Figure GDA0003895901460000031
Figure GDA0003895901460000032
其中,γ表示所述目标图像中的直方图偏移量;mean()为所述目标图像的均值;Iout为所述目标图像的输出参数,Iin为所述目标图像的输入参数。
优选的,在本发明中,所述预处理具体还包括在经过所述伽马变换后,设置线性变化函数:
Iout=l·Iin+d
l=exp(-std(Iin))
d=exp(-mean(Iin))
其中,l为调节所述目标图像的图像对比度参数,d为调节所述目标图像的图像亮度参数;Iout为所述目标图像的输出参数,Iin为所述目标图像的输入参数;exp()表示指数函数,std()为所述目标图像的方差,mean()为所述目标图像的均值。
Figure GDA0003895901460000033
其中,可训练参数α表示对比度调节因子、可训练参数β表示亮度调节因子;l为所述目标图像的图像对比度参数,d为所述目标图像的图像亮度参数;R、G、B表示处理所述目标图像对应的三个信息编码通道;RGBout为经过预处理后得到的新三张所述特征图,RGBin表示输入的三张所述特征图。
优选的,在本发明中,所述注意力操作包括:一个所述全局平均池化、两个所述条状平均池化;
其中,所述条状平均池化的大小分别为(1*W)、(H*1),(H,W)为输入所述特征图的尺寸;
Figure GDA0003895901460000041
其中,fin表示所述特征图的输入特征值,fout表示所述特征图的输出特征值;ki为可训练参数;对于所述全局平均池化,mean()表示全局平均值;对于所述条状平均池化,mean()表示条状平均值。
优选的,在本发明中,所述实时语义分割方法还包括数据增强处理,
所述数据增强处理具体包括:待插入小目标与所述目标图像进行直方图匹配;
确定所述待插入小目标具体信息;
根据所述待插入小目标具体信息,确定插入位置。
优选的,在本发明中,所述损失函数为:
loss=A·predict_loss+B·auxiliary_loss
其中,A表示预测损失presdict_loss的损失权重,B表示所述多个辅助损失auxiliary_loss的损失权重。
本发明实施例与现有技术相比存在的有益效果是:
本发明通过设置细节路径部分、空间路径部分,其中,细节路径部分利用高分辨率的输入得到丰富的边界信息,空间路径部分利用细节路径部分产生的高质量特征图获得足够大的感受野,最后利用图像融合方式进行融合处理,以达到在计算速度与分割性能之间取得良好的平衡;在空间路径部分的后面加入了注意力模块,并通过特征融合模块将细节信息和空间信息有效结合;同时,本发明还通过裁剪—粘贴小目标的方式,增加小目标点在训练集上的比重,实现提升小目标点的分割结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于数据扩充和全监督预处理的实时语义分割方法流程示意图;
图2是本发明实施例二提供的一种基于数据扩充和全监督预处理的实时语义分割方法训练示意图;
图3是本发明实施例三提供的一种基于数据扩充和全监督预处理的实时语义分割方法中空间路径部分算法结构。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明实施例一提供的一种基于数据扩充和全监督预处理的实时语义分割方法流程示意图。所述方法包括以下步骤:
对目标图像进行预处理,其中,所述预处理包括对所述目标图像处中不同光照强度的处理、对所述目标图像的参数进行归一化操作;
对所述目标图像进行细节路径处理得到特征图,其中,所述细节路径处理为N项卷积层进行卷积处理,其中N为整数;
根据所述特征图与损失函数,进行空间路径处理得到空间信息,其中,所述空间路径处理为采用不同大小的卷积核与分组卷积,并将所述可分离卷积后的所述特征图叠加融合处理;所述损失函数包括预测损失函数、辅助损失函数;
其中,本发明提出的细节路径+空间路径结合的方式,细节路径要为空间路径提供高质量的特征图,利用细节路径的高质量特征图,空间路径可以更好的获取语义信息。
根据所述空间信息,设置注意力操作,其中,所述注意力操作包括全局平均池化、条状平均池化;
其中,设置注意力机制可以利用高层信息来指导前馈网络,本发明通过设置注意力操作,利用全局平均池化来捕捉全局信息,并且用条状平均池化增强局部信息的表示,从而有效整合了全局和局部的信息,同时该操作计算量可以忽略。
对于经所述注意力操作后的空间信息,设置双路径特征融合操作,其中,所述特征融合操作通过使用空间路径形成的高级语义信息,指导细节路径的特征响应,从而有效地编码信息。在不同的尺度引导下,可以捕获不同的尺度特征表示。同时,与简单的组合相比,这种指导方式能够在两个路径之间进行有效的通信。
在空间路径中,本文设计了四个并行分支的结构,首先将特征图按1:1:1:1的比例分成四份,然后分别用3*3、1*3、3*1、3*3大小的卷积核进行深度可分离卷积,最后再将产生的不同尺度的特征图组合起来,这样既获得了多尺度的信息又减少了网络的过拟合。
优选的,在本发明中,所述预处理具体包括设置伽马变换,其中,所述伽马变换为:
Figure GDA0003895901460000071
Figure GDA0003895901460000072
其中,γ表示所述目标图像中的直方图偏移量;mean()为所述目标图像的均值;Iout为所述目标图像的输出参数,Iin为所述目标图像的输入参数。γ<1时,直方图右移,γ>1时,直方图左移,本文用图像在每个通道上的均值来代替γ,这样使得经过伽马变换后,不同光照的街景图像在直方图的分布趋于一致。
优选的,在本发明中,经过伽马变换后,观察图像直方图可以发现,不同街景图像的均值和方差还有很大的差异,所以本发明设置图像的线性变化,即所述预处理具体还包括在经过所述伽马变换后,设置线性变化函数:
Iout=l·Iin+d
l=exp(-std(Iin))
d=exp(-mean(Iin))
其中,l为调节所述目标图像的图像对比度参数,d为调节所述目标图像的图像亮度参数;Iout为所述目标图像的输出参数,Iin为所述目标图像的输入参数;exp()表示指数函数,std()为所述目标图像的方差,mean()为所述目标图像的均值。
Figure GDA0003895901460000081
其中,可训练参数α表示对比度调节因子、可训练参数β表示亮度调节因子;l为所述目标图像的图像对比度参数,d为所述目标图像的图像亮度参数;R、G、B表示处理所述目标图像对应的三个信息编码通道;RGBout为经过预处理后得到的新三张所述特征图,RGBin表示输入的三张所述特征图。
具体的,α,β是可训练参数,首先该模块对RGB三通道分别求一个均值并取负,然后作用于指数函数,最后经过1x1卷积得到三个值。若输入图像的光照强,则经过这些操作会得到较小的三个数,同理,光照较弱会得到较大的三个数,这三个数分别与原RGB相乘,就得到了新的RGB,并且对于任何图像,经过预处理模块,都会在三个通道上保持像素值的一致性。
优选的,在本发明中,所述注意力操作包括:一个所述全局平均池化、两个所述条状平均池化;
其中,所述条状平均池化的大小分别为(1*W)、(H*1),(H,W)为输入所述特征图的尺寸;
Figure GDA0003895901460000091
其中,fin表示所述特征图的输入特征值,fout表示所述特征图的输出特征值;ki为可训练参数;对于所述全局平均池化,mean()表示全局平均值;对于所述条状平均池化,mean()表示条状平均值。
优选的,在本发明中,所述实时语义分割方法还包括数据增强处理,
所述数据增强处理具体包括:待插入小目标与所述目标图像进行直方图匹配;
其中,由于训练集包含不同场景的图像,图像的光照程度等因素会有比较大的差异,所以直接将待插入小目标插入到另一张图像,会导致待插入小目标和背景不匹配。所以在插入待插入小目标之前要让待插入小目标所在的图像和要插入到的图像进行直方图匹配,然后在匹配后的图像上进行下一步操作。
确定所述待插入小目标具体信息;
其中,由于街景图像遮挡严重,选取的待插入小目标很可能只是一个完整待插入小目标的一部分,如果选取的待插入小目标太小,则要对其进行舍弃,重新选取另一个待插入小目标,直到选取到合适的待插入小目标。在选取待插入小目标特别应该注意的是,交通灯和交通标志通常放置在电线杆上;同样,骑手也位于摩托车或自行车的顶部。所以将这些共同出现的小对象提取在一起。
根据所述待插入小目标具体信息,确定插入位置。
其中,待插入小目标包含(poles,traffic lights,traffic signs,person,riders,motorcycles,bicycles),本文在每一张训练图像上都进行了待插入小目标的粘贴,每张图像大约插入了4-8个待插入小目标,这使得训练集中的图像扩充了一倍,并且这样可以有效地增加小样本点在训练集所占的比例,从而提升网络的分割结果。
本发明通过对待插入小目标的剪切和粘贴来扩充了数据集,并且通过了直方图匹配来解决待插入小目标和目标图像不一致的问题,对网络的训练阶段,提供了强有力的数据支持。
优选的,在本发明中,所述损失函数为:
loss=A·predict_loss+B·auxiliary_loss
其中,A表示预测损失presdict_loss的损失权重,B表示所述多个辅助损失auxiliary_loss的损失权重。
本发明通过设置细节路径部分、空间路径部分,其中,细节路径部分利用高分辨率的输入得到丰富的边界信息,空间路径部分利用细节路径部分产生的高质量特征图获得足够大的感受野,最后利用图像融合方式进行融合处理,以达到在计算速度与分割性能之间取得良好的平衡;在空间路径部分的后面加入了注意力模块,并通过特征融合模块将细节信息和空间信息有效结合;同时,本发明还通过裁剪—粘贴小目标的方式,增加小目标点在训练集上的比重,实现提升小目标点的分割结果。
如图2所示,是本发明实施例二提供的一种基于数据扩充和全监督预处理的实时语义分割方法训练示意图。
其中,detail path是细节路径,用来获取细节的信息;spatial path1和spatialpath2是两条空间路径,用来获得丰富的语义信息;IPM(Image Processing Model)是图像预处理模块,目的是处理不同光照强度的图像;FFM(Feature Fusion Module)是特征融合模块,其作用是融合两个路径的信息;Auxiliary_loss是辅助损失函数,C是Concatenate操作,Conv3x3是3*3卷积。
在本发明中,细节路径设置的比较简单,只包含传统的3*3卷积,如图所示,网络的细节路径包含4个阶段,第一阶段包含2个卷积层,每个卷积层的步长为2,其余阶段都包含3个卷积层,并且只有第一个卷积层步长为2,其余步长为1。其中第2,3和4阶段所产生的特征图,要送到空间路径。所以细节路径的作用有两个:首先,利用细节路径获取细节信息,为最后的两个路径的融合做准备;其次,为空间路径提供高质量的特征图。细节路径的详细操作如表1所示。
表1细节路径
Figure GDA0003895901460000111
相对于细节路径,网络的空间路径设计的更为复杂,其利用细节路径提供的1/8、1/16和1/32大小的特征图去获取空间信息,空间分支由空间多尺度模块SMM(SpatialMulti-scale Module)组成,在图3中,详细展示了SMM模块,其中(b)和(c)是空间路径的基础块,当步长为1时,使用(a)模块,步长为2时,使用(b)模块。(a)和(b)中的MDWConv即(c)模块,(c)是SMM模块的核心组成,多尺度卷积在(c)中完成,考虑到推理时间的要求,该模块首先将特征图平均分成四组,每组用不同的卷积核进行深度可分离卷积,最后再把卷积后的特征图叠加起来,该模块由不同形状的卷积核组成,很好的获取了多尺度的信息。
如图3所示,是本发明实施例三提供的一种基于数据扩充和全监督预处理的实时语义分割方法中空间路径部分算法结构。
相对于细节路径,网络的空间路径设计的更为复杂,其利用细节路径提供的1/8、1/16和1/32大小的特征图去获取空间信息,空间分支由空间多尺度模块SMM(SpatialMulti-scale Module)组成,在图3中,详细展示了SMM模块,其中(b)和(c)是空间路径的基础块,当步长为1时,使用(a)模块,步长为2时,使用(b)模块。(a)和(b)中的MDWConv即(c)模块,(c)是SMM模块的核心组成,多尺度卷积在(c)中完成,考虑到推理时间的要求,该模块首先将特征图平均分成四组,每组用不同的卷积核进行深度可分离卷积,最后再把卷积后的特征图叠加起来,该模块由不同形状的卷积核组成,很好的获取了多尺度的信息。
两条空间路径的信息要输入到注意力模块,经注意力模块将两条空间路径的信息融合后,作为整个空间部分的输出。空间路径与细节路径不是独立的,而是采用横向连接方式将细节路径的信息传向空间路径,通过信息的交流,既获得了多尺度的信息,又加大了空间路径的感受野。空间路径的详细操作如表2所示。
表2空间路径
Figure GDA0003895901460000131
本发明的空间路径中设计了多尺度聚合模块,该模块利用不同大小的卷积核与深度可分离卷积结合,获得了多尺度的信息的同时减小了过拟合。
对于损失函数,除了网络最后的预测损失predict_loss,本文还引入了多个辅助损失auxiliary_loss来监督训练网络,本文把辅助损失函数放在空间路径中,网络的总损失函数是最后的预测损失和辅助损失的总和,总损失定义如下式所示,A,B是各个损失的权重,可以自行调控,在本发明中可选择,A=B=1。
loss=A·predict_loss+B·auxiliary_loss
本发明中的预测损失函数和辅助损失函数都是OHME(online hard exampleminiing)[26],OHME可以对输入样本的损失进行筛选,筛选出hard example,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:
对目标图像进行预处理,其中,所述预处理包括处理不同光照强度的所述目标图像;
设置细节路径和空间路径;
对所述目标图像进行所述细节路径处理得到N层细节路径特征图,其中,所述细节路径处理为N项卷积层进行卷积处理,其中N为整数;所述细节路径特征图提供1/8、1/16、1/32大小的细节特征图,将所述细节路径特征图提供1/8、1/16、1/32大小的所述细节特征图分别送到所述空间路径;
在所述空间路径中,设计四个并行分支结构,将特征图按1:1:1:1的比例分成四份,分别用3*3、1*3、3*1、3*3大小的卷积核进行深度可分离卷积,再将产生的不同尺度的特征图组合起来;
根据所述空间信息,设置注意力操作,其中,所述注意力操作包括全局平均池化、条状平均池化;
对于经所述注意力操作后的空间信息,设置特征融合操作,其中,所述特征融合操作融合细节路径信息、空间路径信息,设置多个辅助损失来监督训练网络,将所述辅助损失函数放在所述空间路径中,所述网络的总损失函数是最后的预测损失和辅助损失的总和。
2.根据权利要求1所述基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:所述预处理具体包括设置伽马变换,其中,所述伽马变换为:
Figure FDA0003895901450000021
Figure FDA0003895901450000022
其中,γ表示所述目标图像中的直方图偏移量;mean()为所述目标图像的均值;Iout为所述目标图像的输出参数,Iin为所述目标图像的输入参数。
3.根据权利要求2所述基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:
所述预处理具体还包括在经过所述伽马变换后,设置线性变化函数:
Iout=I·Iin+d
I=exp(-std(Iin))
d=exp(-mean(Iin))
其中,l为调节所述目标图像的图像对比度参数,d为调节所述目标图像的图像亮度参数;Iout为所述目标图像的输出参数,Iin为所述目标图像的输
入参数;exp()表示指数函数,std()为所述目标图像的方差,mean()为所述目标图像的均值;
Figure FDA0003895901450000023
其中,可训练参数α表示对比度调节因子、可训练参数β表示亮度调节因子;l为所述目标图像的图像对比度参数,d为所述目标图像的图像亮度参数;R、G、B表示处理所述目标图像对应的三个信息编码通道;RGBout为经过预处理后得到的新三张所述特征图,RGBin表示输入的三张所述特征图。
4.根据权利要求1所述基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:所述注意力操作包括:一个所述全局平均池化、两个所述条状平均池化;
其中,所述条状平均池化的大小分别为1*W、H*1,H,W为输入所述特征图的尺寸;
Figure FDA0003895901450000031
其中,fin表示所述特征图的输入特征值,fout表示所述特征图的输出特征值;ki为可训练参数;对于所述全局平均池化,mean()表示全局平均值;对于所述条状平均池化,mean()表示条状平均值。
5.根据权利要求1所述基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:所述实时语义分割方法还包括数据增强处理,
所述数据增强处理具体包括:待插入小目标与所述目标图像进行直方图匹配;
确定所述待插入小目标具体信息;
根据所述待插入小目标具体信息,确定插入位置。
6.根据权利要求1所述基于数据扩充和全监督预处理的实时语义分割方法,其特征在于:所述损失函数为:
loss=A·predict_loss+B·auxiliary_loss
其中,A表示预测损失presdict_loss的损失权重,B表示所述多个辅助损失auxiliary_loss的损失权重。
CN202011499496.3A 2020-12-18 2020-12-18 基于数据扩充和全监督预处理的实时语义分割方法 Active CN112598003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499496.3A CN112598003B (zh) 2020-12-18 2020-12-18 基于数据扩充和全监督预处理的实时语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499496.3A CN112598003B (zh) 2020-12-18 2020-12-18 基于数据扩充和全监督预处理的实时语义分割方法

Publications (2)

Publication Number Publication Date
CN112598003A CN112598003A (zh) 2021-04-02
CN112598003B true CN112598003B (zh) 2022-11-25

Family

ID=75199142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499496.3A Active CN112598003B (zh) 2020-12-18 2020-12-18 基于数据扩充和全监督预处理的实时语义分割方法

Country Status (1)

Country Link
CN (1) CN112598003B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906707B (zh) * 2021-05-10 2021-07-09 武汉科技大学 一种表面缺陷图像的语义分割方法、装置及计算机设备
CN113221902B (zh) * 2021-05-11 2021-10-15 中国科学院自动化研究所 基于数据分布扩充的跨域自适应语义分割方法及系统
CN116309601B (zh) * 2023-05-24 2023-08-22 泉州装备制造研究所 基于Lite-EDNet的皮革缺陷实时检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781756A (zh) * 2019-09-29 2020-02-11 北京化工大学 基于遥感图像的城市道路提取方法及装置
CN111582104A (zh) * 2020-04-28 2020-08-25 中国科学院空天信息创新研究院 一种遥感图像语义分割方法及装置
CN112084901A (zh) * 2020-08-26 2020-12-15 长沙理工大学 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统
CN112085741A (zh) * 2020-09-04 2020-12-15 厦门大学 一种基于深度学习的胃癌病理切片分割算法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3334150B1 (en) * 2016-12-06 2022-09-07 Canon Kabushiki Kaisha Image processing apparatus
CN109087302A (zh) * 2018-08-06 2018-12-25 北京大恒普信医疗技术有限公司 一种眼底图像血管分割方法及设备
CN110006435A (zh) * 2019-04-23 2019-07-12 西南科技大学 一种基于残差网络的变电站巡检机器人视觉辅助导航方法
CN110059769B (zh) * 2019-04-30 2022-11-18 福州大学 用于街景理解的基于像素重排重建的语义分割方法及系统
CN110288546B (zh) * 2019-06-27 2022-11-01 华侨大学 一种采用双向伽马变换的低照度图像增强方法
CN111127470B (zh) * 2019-12-24 2023-06-16 江西理工大学 一种基于上下文和浅层空间编解码网络的图像语义分割方法
CN111462126B (zh) * 2020-04-08 2022-10-11 武汉大学 一种基于边缘增强的语义图像分割方法及系统
CN112001931A (zh) * 2020-08-24 2020-11-27 上海眼控科技股份有限公司 图像分割方法、装置、设备及存储介质
CN112070049B (zh) * 2020-09-16 2022-08-09 福州大学 基于BiSeNet的自动驾驶场景下的语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781756A (zh) * 2019-09-29 2020-02-11 北京化工大学 基于遥感图像的城市道路提取方法及装置
CN111582104A (zh) * 2020-04-28 2020-08-25 中国科学院空天信息创新研究院 一种遥感图像语义分割方法及装置
CN112084901A (zh) * 2020-08-26 2020-12-15 长沙理工大学 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统
CN112085741A (zh) * 2020-09-04 2020-12-15 厦门大学 一种基于深度学习的胃癌病理切片分割算法

Also Published As

Publication number Publication date
CN112598003A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112598003B (zh) 基于数据扩充和全监督预处理的实时语义分割方法
CN110378222B (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN106599773A (zh) 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN107274445A (zh) 一种图像深度估计方法和系统
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN108039044B (zh) 基于多尺度卷积神经网络的车辆智能排队的系统及方法
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN108021923A (zh) 一种用于深度神经网络的图像特征提取方法
CN108510451A (zh) 一种基于双层卷积神经网络的重建车牌的方法
CN109493300A (zh) 基于fpga卷积神经网络的航拍图像实时去雾方法及无人机
CN115223082A (zh) 一种基于时空多尺度Transformer的航拍视频分类方法
CN111626960A (zh) 图像去雾方法、终端及计算机存储介质
CN115984698A (zh) 一种基于改进YOLOv5的荔枝果实生长期识别方法
CN113963170A (zh) 一种基于交互式特征融合的rgbd图像显著性检测方法
CN107347125A (zh) 视频图像的处理方法、装置和终端设备
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN114708566A (zh) 一种基于改进YOLOv4的自动驾驶目标检测方法
CN116385996A (zh) 一种基于三维矩阵相机的多任务处理方法和装置
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN106683043A (zh) 一种多通道光学探测系统的并行图像拼接方法、装置
CN113989785A (zh) 一种驾驶场景分类方法、装置、设备及存储介质
CN109325405A (zh) 一种镜头类型的标注方法、装置及设备
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN110796716A (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN113221823B (zh) 一种基于改进轻量级YOLOv3的交通信号灯倒计时识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant