CN111626298A - 一种实时图像语义分割装置及分割方法 - Google Patents

一种实时图像语义分割装置及分割方法 Download PDF

Info

Publication number
CN111626298A
CN111626298A CN202010306188.8A CN202010306188A CN111626298A CN 111626298 A CN111626298 A CN 111626298A CN 202010306188 A CN202010306188 A CN 202010306188A CN 111626298 A CN111626298 A CN 111626298A
Authority
CN
China
Prior art keywords
convolution
decoder
edge
main
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010306188.8A
Other languages
English (en)
Other versions
CN111626298B (zh
Inventor
周军
白兴
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN202010306188.8A priority Critical patent/CN111626298B/zh
Publication of CN111626298A publication Critical patent/CN111626298A/zh
Application granted granted Critical
Publication of CN111626298B publication Critical patent/CN111626298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。

Description

一种实时图像语义分割装置及分割方法
技术领域
本发明涉及图像语义分割技术领域,尤其涉及一种实时图像语义分割装置及分割方法。
背景技术
随着深度学习技术的快速发展,计算机视觉领域也迎来了一波发展热潮。在实际应用中,无论是物体检测还是自动驾驶技术,计算机视觉技术都是不可或缺的。图像语义分割是图像处理的基础算法,所以其性能对后续的应用有很大的影响。因此,寻找一种高效的图像语义分割方法具有极为重要的现实意义和较强的应用价值。
图像语义分割将图像分割和目标识别相结合,将图像分成具有特定语义的像素组,识别每个区域的类别,最终得到分类图。2015年,Long等在CVPR上的论文中提出的模型首先将深度语义分割的潮流转向全卷积神经网络。所谓全卷积的意思就是在网络结构中摒弃全连接层,与之前使用CNN进行图像语义分割的方法相比,FCN对输入图像的大小没有限制,并且可以实现端到端的训练。随后,许多研究人员在FCN基础上提出了各种用于语义分割的神经网络算法。
语义分割模型面临两个主要问题:恢复输入图像的分辨率和扩大感受野。最简单的恢复输入分辨率的方法就是避免下采样。通常用步长为1的池化层来代替步长为2的池化层,在后续的卷积层中使用空洞卷积。但是,这种方法增加了深层特征图的分辨率,增加了计算复杂度,以目前的计算能力,不能实现实时分割的效果。
另一种方法是在下采样过后的特征图上做预测然后通过上采样特征图逐渐恢复分辨率。这个过程可以通过结合语义信息丰富的深层特征图和空间信息丰富的浅层特征图来完成。
目前最优的图像语义分割方法使用的编码器都是深度全卷积神经网络,如ResNet、MobileNet,这些方法需要巨大的计算资源。许多重要的应用如自动导航、辅助驾驶需要处理像素非常高的图像而且必须要注意到200米外的行人。同时,这些应用为了能实时判断,需要非常低的延迟。这些要求增加了计算压力。
最简单的实时图像语义分割方法是使用在ImageNet上预训练过的分类网络,去掉其最后的池化、全连接层后,将特征图输入像素级的损失函数来获得预测值。这样的模型预测速度非常快,但是精度非常低。首先,因为预测值的分辨率非常小,只有输入图像的1/32,所以很难被识别。其次,因为这种模型的感受野不大,所以难以分类大目标(如公共汽车和卡车)。
发明内容
有鉴于此,本申请实施例提供了一种实时图像语义分割装置及分割方法。
第一方面,一种实时图像语义分割装置,包括:
编码器,用于对输入的原始图像进行处理,提取出至少两个大小不同的编码图像;
第一解码器,用于将所述至少两个大小不同的编码图像输入至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图;其中,所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到,所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图;
第二解码器,用于将所述至少两个大小不同的编码图像输入到第二解码器,得到边缘特征图;
所述第一解码器还用于,根据所述主特征图计算所述原始图像的主损失;
所述第二解码器还用于,根据所述边缘特征图计算所述原始图像的边缘损失;
处理器,用于将所述主损失和边缘损失相加得到所述原始图像的最终损失;并根据所述最终损失训练所述第一解码器和第二解码器。
可选地,所述第一解码器和所述第二解码器结构相同;
所述第一解码器和所述第二解码器中包括:至少两个分组卷积横向连接模块与至少两个并行分组全局卷积模块横向连接。
可选地,所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括:
将所述主特征图与主标签进行比较得到主损失;将所述边缘特征图与边缘标签进行比较得到边缘损失;
将所述主损失与所述边缘损失相加得到所述原始图像的最终损失。
可选地,将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图,包括:
将所述至少两个大小不同的编码图像分别通过核为(1,1)、(3,3)和(1,1)的卷积层;
所述将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,包括:
将所述至少两个特征图经过核为(1,k)和(k,1)的卷积层。
可选地,每个卷积层后都包括一个整流线性单元和批标准化层。
第二方面,一种实时图像语义分割方法,包括:
将原始图像输入到编码器,提取出至少两个大小不同的编码图像;
将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图;其中,所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到,所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图;
根据所述主特征图和边缘特征图计算所述原始图像的最终损失,其中,所述边缘特征图是由第二解码器对编码器输出的至少两个编码图像进行处理得到的;根据最终损失训练所述第一解码器和所述第二解码器;
将待预测图像输入到编码器得到至少两个大小不同的特征图,将至少两个大小不同的特征图输入到第一解码器中,得到主特征图。
可选地,所述第一解码器和所述第二解码器结构相同;
所述第一解码器和所述第二解码器中包括:至少两个分组卷积横向连接模块与至少两个并行分组全局卷积模块横向连接。
可选地,所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括:
将所述主特征图与主标签进行比较得到主损失;将所述边缘特征图与边缘标签进行比较得到边缘损失;
将所述主损失与所述边缘损失相加得到所述原始图像的最终损失。
可选地,将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图,包括:
将所述至少两个大小不同的编码图像分别通过核为(1,1)、(3,3)和(1,1)的卷积层;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,包括:
将所述至少两个特征图经过核为(1,k)和(k,1)的卷积层。
可选地,每个卷积层后都包括一个整流线性单元和批标准化层。
本申请实施例提供一种实时图像语义分割装置及分割方法。在一个实施例中,使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。在解码器中使用了新的横向连接方式,在增加很少的计算量和参数的情况下,提高了分割精度。在解码器中增加了并行分组全局卷积模块(PGCN),能更好的提取编码器各个模块生成的特征图的特征。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1本发明申请一种实时图像语义分割装置的结构图;
图2本发明申请一种实时图像语义分割装置中的RB模块的结构示意图;
图3本发明申请一种实时图像语义分割装置中的PGCN模块的结构示意图;
图4本发明申请一种实时图像语义分割方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在本发明申请实施例中,提出了基于轻量级ImagNet分类网络、衡量了效率与精度的模型。本发明在实现实时语义分割的基础上,有效地提高了分割精度。
图1为本发明申请一种实时图像语义分割装置的结构图。参照图1,本发明申请一种实时图像语义分割装置包括:编码器101、主解码器102、边缘解码器103。
编码器101用于对输入的原始图像进行处理。将原始图像输入到编码器,经过编码器的四个模块处理后,得到四种大小不同的特征图。
主解码器102,用于对编码器101输出的特征图进行处理然后提取出主特征。在主解码器102中包括分组卷积横向连接模块(RB)和并行分组全局卷积模块(PGCN)。其中,RB模块的结构示意图如图2所示,PGCN模块的结构示意图如图3所示。
在RB模块中包括3个卷积层分别为:in_channels×fpn_dim×1×1的卷积层、fpn_dim×fpn_dim×3×3、fpn_dim×fpn_dim×1×1。在RB模块中的每个卷积层之后,都包含一个整流线性单元(ReLU)和批标准化层(BatchNorm)。
PGCN模块包括两个不同的分支PGCN-LEFT和PGCN-RIGHT。其中PGCN-LEFT中包括padding=(0,(k-1)/2)的fpn_dim×inter_channels×1×k的卷积层、BatchNorm层、ReLU层、padding=((k-1)/2,0),groups=inter_channels的inter_channels×inter_channels×k×1的卷积层、BatchNorm层、ReLU层。PGCN-RIGHT包括padding=((k-1)/2,0)的fpn_dim×inter_channels×k×1的卷积层、BatchNorm层、ReLU层、padding=(0,(k-1)/2),groups=inter_channels的inter_channels×inter_channels×1×k的卷积层、BatchNorm层、ReLU层。
在一个可能的实施例中,对于卷积层的计算为:设定输入的特征图为(Cin,H,W),输出的特征图为(Cin,Hout,Wout),二维卷积的公式如下:
Figure BDA0002455876330000061
其中,★是二维互相关运算符,C是特征图的数目,H是特征图的高,W是特征图的宽。
在一个可能的实施例中,ReLU层的计算公式为:ReLU(x)=max(0,x)。
在一个可能的实施例中,批标准化(BatchNorm)层的计算公式为:
Figure BDA0002455876330000071
边缘解码器103,用于对编码器101输出的特征图进行处理然后提取出边缘特征。边缘解码器103和主解码器102的结构相同,在此不做重复叙述。
在一个可能的实施例中,对用于自动驾驶的语义分割装置进行训练包括:首先,将原始图像输入编码器101,经过编码101的四个模块处理后,得到4种大小不同的特征图。在训练时,将四种大小不同的特征图分别输入主解码器102和边缘解码器103中的4个RB模块,将它们的通道数统一变为fpn_dim,继而将深一层的特征图放大两倍,与浅一层的特征图相加,得到新的特征图。然后将新的特征图分别输入PGCN模块,将得到的特征图放大到原图像大小的1/4。将这些特征图联接起来后输入核3的卷积层得到最终的特征图。将得到的特征图与主解码器中的主标签比较计算主损失,将得到的特征图与边缘解码器中的边缘标签比较计算边缘损失。最后将主损失与边缘损失相加作为最终的损失,训练主解码器和边缘解码器。
在一个可能的实施例中,将主解码器102输出的主特征与主标签进行比较,得到主损失。将边缘解码器103输出的边缘特征与边缘标签进行比较得到边缘损失。
在一个可能的实施例中,制作边缘标签包括:在每幅图像的注释(annotation)中找出每个目标边缘处的2个像素,并将其余标签置为0。
其中,通过主损失和边缘损失计算最终损失的计算公式为:loss=main loss+edge scale×edge loss。
图4为本发明申请一种实时图像语义分割方法的流程图,参照图4,本发明申请一种实时图像语义分割方法包括步骤S401-步骤S405。
步骤S401:将原始图像输入到编码器,提取出至少两个大小不同的编码图像。
得到的至少两个大小不同的编码图像中最大的编码图像的大小为原始图像大小的1/4。
步骤S402:将至少两个大小不同的编码图像输入到第一解码器的至少两个RB模块中进行卷积处理得到至少两个特征图;其中,至少两个特征图中的第二特征图是由第一RB模块中输出的第一特征图进行上采样后与第二RB模块输出的特征图相加得到的;将至少两个特征图输入到至少两个PGCN模块中进行卷积处理,将至少两个PGCN模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图。
步骤S403:将编码器输出的至少两个大小不同的编码图像输入到第二解码器,得到边缘特征图。
步骤S402和步骤S403在执行上不存在先后顺序。
步骤S404:根据原始图像的主特征和边缘特征计算所述原始图像的最终损失;并根据最终损失训练主解码器和边缘解码器。
步骤S405:将待预测图像输入到编码器得到至少两个大小不同的编码图像,将至少两个大小不同的编码图像输入到第一解码器中,得到主特征图。
在训练好的用于自动驾驶的语义分割装置中进行预测时,只涉及到编码器101和主解码102。边缘解码器103用于在训练过程中对主解码器102进行优化训练。
在一个可能的实施例中,将原始图像输入到编码器101,经过编码器101的四个模块进行处理后,输出的特征图像分别为Res-2、Res-3、Res-4、Res-5,将编码器101输出的特征图像分别输入到主解码器102中。
将特征图像Res-2、Res-3、Res-4、Res-5分别输入到主解码器102中不同的RB模块,对于Res-5,先将其输入512×fpn_dim×1×1的卷积层、BatchNorm层、ReLU层得到第一特征图。然后将得到的第一特征图输入groups为fpn_dim,padding为1的512×fpn_dim×3×3的卷积层、BatchNorm层、ReLU层得到第二特征图。然后将得到的第二特征特征图输入512×fpn_dim×1×1的卷积层、BatchNorm层、ReLU层得到第三特征图。将得到的第三特征图记为fpn-5,假设原输入图像的大小为3×1024×1024,则fpn-5的大小为128×32×32,将Res-4输入结构相同的RB-4,将得到的特征图记为rb-4,rb-4的大小为128×64×64,将fpn-5放大两倍,然后与rb-4相加,将得到的特征图记为fpn-4,以此类推,将fpn-4放大两倍与rb-3相加,将得到的特征图记为fpn-3,将fpn-3放大两倍与rb-2相加,将得到的特征图记为fpn-2。
将fpn-5,fpn-4,fpn-3,fpn-2分别输入结构相同的四个PGCN模块中,以fpn-5为例,将其输入两个不同的分支PGCN-LEFT和PGCN-RIGHT。其中PGCN-LEFT中包括padding=(0,11)的fpn_dim×inter_channels×1×k的卷积层、BatchNorm层、ReLU层、padding=(11,0),groups=inter_channels的inter_channels×inter_channels×k×1的卷积层、BatchNorm层、ReLU层。PGCN-RIGHT包括padding=(11,0)的fpn_dim×inter_channels×k×1的卷积层、BatchNorm层、ReLU层、padding=(0,11),groups=128的inter_channels×inter_channel×1×k的卷积层、BatchNorm层、ReLU层。将fpn-5经过PGCN-LEFT模块后的特征图记为pgcn-left-5,将其经过PGCN-RIGHT模块后的特征图记为pgcn-right-5,将pgcn-left-5与pgcn-right-5相加,将得到的特征图分别输入padding=1的inter_channels×num_class×3×3的卷积层、BatchNorm层、ReLU层,并将得到的特征图记为pgcn-5。以此类推,分别得到pgcn-4、pgcn-3、pgcn-2。将pgcn-4、pgcn-3、pgcn-2放大到与pgcn-5大小相同,然后将pgcn-5、pgcn-4、pgcn-3、pgcn-2联接起来,得到4*num_class×H/4×W/4的特征图。
在本发明申请实施例中,在解码器的PGCN模块中使用了空洞卷积,在没有显著增加计算量的情况下,增大了感受野。在预测时,计算量小,在分割像素为1024×1024的图像时,所需的GFLOPs仅为58.58GMac,模型参数为13.7M。在实现实时分割的基础上,分割精度高,比如在Cityscapes数据集上可达到75.8%meanIoU。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种实时图像语义分割装置,包括:
编码器,用于对输入的原始图像进行处理,提取出至少两个大小不同的编码图像;
第一解码器,用于将所述至少两个大小不同的编码图像输入至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图;其中,所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到,所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图;
第二解码器,用于将所述至少两个大小不同的编码图像输入到第二解码器,得到边缘特征图;
所述第一解码器还用于,根据所述主特征图计算所述原始图像的主损失;
所述第二解码器还用于,根据所述边缘特征图计算所述原始图像的边缘损失;
处理器,用于将所述主损失和边缘损失相加得到所述原始图像的最终损失;并根据所述最终损失训练所述第一解码器和第二解码器。
2.根据权利要求1所述的装置,其特征在于,所述第一解码器和所述第二解码器结构相同;
所述第一解码器和所述第二解码器中包括:至少两个分组卷积横向连接模块与至少两个并行分组全局卷积模块横向连接。
3.根据权利要求1所述的装置,其特征在于,所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括:
将所述主特征图与主标签进行比较得到主损失;将所述边缘特征图与边缘标签进行比较得到边缘损失;
将所述主损失与所述边缘损失相加得到所述原始图像的最终损失。
4.根据权利要求1所述的装置,其特征在于,将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图,包括:
将所述至少两个大小不同的编码图像分别通过核为(1,1)、(3,3)和(1,1)的卷积层;
所述将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,包括:
将所述至少两个特征图经过核为(1,k)和(k,1)的卷积层。
5.根据权利要求4所述的装置,其特征在于,每个卷积层后都包括一个整流线性单元和批标准化层。
6.一种实时图像语义分割方法,包括:
将原始图像输入到编码器,提取出至少两个大小不同的编码图像;
将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图;其中,所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到,所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图;
根据所述主特征图和边缘特征图计算所述原始图像的最终损失,其中,所述边缘特征图是由第二解码器对编码器输出的至少两个编码图像进行处理得到的;根据最终损失训练所述第一解码器和所述第二解码器;
将待预测图像输入到编码器得到至少两个大小不同的特征图,将至少两个大小不同的特征图输入到第一解码器中,得到主特征图。
7.根据权利要求6所述的方法,其特征在于,所述第一解码器和所述第二解码器结构相同;
所述第一解码器和所述第二解码器中包括:至少两个分组卷积横向连接模块与至少两个并行分组全局卷积模块横向连接。
8.根据权利要求6所述的方法,其特征在于,所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括:
将所述主特征图与主标签进行比较得到主损失;将所述边缘特征图与边缘标签进行比较得到边缘损失;
将所述主损失与所述边缘损失相加得到所述原始图像的最终损失。
9.根据权利要求6所述的方法,其特征在于,将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图,包括:
将所述至少两个大小不同的编码图像分别通过核为(1,1)、(3,3)和(1,1)的卷积层;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,包括:
将所述至少两个特征图经过核为(1,k)和(k,1)的卷积层。
10.根据权利要求9所述的方法,其特征在于,每个卷积层后都包括一个整流线性单元和批标准化层。
CN202010306188.8A 2020-04-17 2020-04-17 一种实时图像语义分割装置及分割方法 Active CN111626298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010306188.8A CN111626298B (zh) 2020-04-17 2020-04-17 一种实时图像语义分割装置及分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306188.8A CN111626298B (zh) 2020-04-17 2020-04-17 一种实时图像语义分割装置及分割方法

Publications (2)

Publication Number Publication Date
CN111626298A true CN111626298A (zh) 2020-09-04
CN111626298B CN111626298B (zh) 2023-08-18

Family

ID=72260949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306188.8A Active CN111626298B (zh) 2020-04-17 2020-04-17 一种实时图像语义分割装置及分割方法

Country Status (1)

Country Link
CN (1) CN111626298B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096001A (zh) * 2021-04-01 2021-07-09 咪咕文化科技有限公司 图像处理方法、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN109325954A (zh) * 2018-09-18 2019-02-12 北京旷视科技有限公司 图像分割方法、装置及电子设备
CN109461177A (zh) * 2018-09-29 2019-03-12 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN109598728A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN110084274A (zh) * 2019-03-29 2019-08-02 南京邮电大学 实时图像语义分割方法及系统、可读存储介质和终端
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110517278A (zh) * 2019-08-07 2019-11-29 北京旷视科技有限公司 图像分割和图像分割网络的训练方法、装置和计算机设备
CN110532914A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 基于精细特征学习的建筑物检测方法
EP3611665A1 (en) * 2018-08-17 2020-02-19 Siemens Aktiengesellschaft Mapping images to the synthetic domain
CN110880038A (zh) * 2019-11-29 2020-03-13 中国科学院自动化研究所 基于fpga的加速卷积计算的系统、卷积神经网络

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
EP3611665A1 (en) * 2018-08-17 2020-02-19 Siemens Aktiengesellschaft Mapping images to the synthetic domain
CN109325954A (zh) * 2018-09-18 2019-02-12 北京旷视科技有限公司 图像分割方法、装置及电子设备
CN109461177A (zh) * 2018-09-29 2019-03-12 浙江科技学院 一种基于神经网络的单目图像深度预测方法
CN109598728A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN110084274A (zh) * 2019-03-29 2019-08-02 南京邮电大学 实时图像语义分割方法及系统、可读存储介质和终端
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110517278A (zh) * 2019-08-07 2019-11-29 北京旷视科技有限公司 图像分割和图像分割网络的训练方法、装置和计算机设备
CN110532914A (zh) * 2019-08-20 2019-12-03 西安电子科技大学 基于精细特征学习的建筑物检测方法
CN110880038A (zh) * 2019-11-29 2020-03-13 中国科学院自动化研究所 基于fpga的加速卷积计算的系统、卷积神经网络

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟令同: "基于神经网络的显著性预测模型及应用探究", 万方电子学位论文数据库 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096001A (zh) * 2021-04-01 2021-07-09 咪咕文化科技有限公司 图像处理方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111626298B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN110321910B (zh) 面向点云的特征提取方法、装置及设备
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN111209910A (zh) 用于语义分割的系统、方法和非暂时性计算机可读介质
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN110443883B (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN112990219B (zh) 用于图像语义分割的方法和装置
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114170516A (zh) 一种基于路侧感知的车辆重识别方法、装置及电子设备
CN112348056A (zh) 点云数据分类方法、装置、设备及可读存储介质
Wang et al. Deep leaning-based ultra-fast stair detection
CN116630932A (zh) 一种基于改进yolov5的道路遮挡目标检测方法
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN114399737A (zh) 一种道路检测方法、装置、存储介质及电子设备
CN114492755A (zh) 基于知识蒸馏的目标检测模型压缩方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN113313162A (zh) 一种多尺度特征融合目标检测的方法及系统
CN111626298A (zh) 一种实时图像语义分割装置及分割方法
WO2023207531A1 (zh) 一种图像处理方法及相关设备
CN116229584A (zh) 一种人工智能领域的文本分割识别方法、系统、设备及介质
CN114913339A (zh) 特征图提取模型的训练方法和装置
Fan et al. PT-ResNet: Perspective transformation-based residual network for semantic road image segmentation
CN112733934A (zh) 复杂环境下的多模态特征融合道路场景语义分割方法
CN113239771A (zh) 一种姿态估计方法、系统及其应用
CN112347962A (zh) 一种基于感受野的卷积神经网络目标检测系统与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant