CN113205519B - 一种基于多支路特征融合的图像分割方法及系统 - Google Patents

一种基于多支路特征融合的图像分割方法及系统 Download PDF

Info

Publication number
CN113205519B
CN113205519B CN202110432657.5A CN202110432657A CN113205519B CN 113205519 B CN113205519 B CN 113205519B CN 202110432657 A CN202110432657 A CN 202110432657A CN 113205519 B CN113205519 B CN 113205519B
Authority
CN
China
Prior art keywords
output
sub
feature extraction
extraction module
image segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110432657.5A
Other languages
English (en)
Other versions
CN113205519A (zh
Inventor
古晶
孙新凯
巨小杰
冯婕
杨淑媛
刘芳
焦李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110432657.5A priority Critical patent/CN113205519B/zh
Publication of CN113205519A publication Critical patent/CN113205519A/zh
Application granted granted Critical
Publication of CN113205519B publication Critical patent/CN113205519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多支路特征融合的图像分割方法及系统,建立三个基于Xception的轻量化子网络,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出,然后将第一高级特征输出和第二高级特征输出并联到第二特征提取模块和第三特征提取模块,构造图像分割模型的编码器;将三个特征提取子网络的输出分别进行通道缩减操作得到低级特征和高级特征,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数;使用随机梯度下降优化器对损失函数进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。本发明提高了分割准确率;加快图像分割速度;改善分割结果图细节部分。

Description

一种基于多支路特征融合的图像分割方法及系统
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多支路特征融合的图像分割方法及系统,可用于分辨便携设备识别图像上所有像素所属类型,并用于地理信息测量、医学影像分析和自动驾驶等问题。
背景技术
随着技术进步和硬件设备不断更新,日常生活中图像的获取难度越来越低、处理需求变得越来越大,因此对图像的快速地理解和处理就变得十分重要。在图像处理领域,图像分割是与图像分类同样重要的问题,所以图像分割一直是学者们关注的焦点之一。
图像分割是计算机视觉领域一个重要的研究课题,在自动驾驶和医学影像分析等大量实际应用场景中,图像分割处理速度成为了一项影响图像分割工作效率的重要指标。近几年,越来越多图像分割方法被提出,分割处理速度和分割准确率都取得了大幅度上升。随着深度神经网络的提出,大量分割性能优秀的图像分割方法被应用于各种实际场景。然而,现有的大部分图像分割方法的网络参数量和计算成本都十分庞大,无法应用于需要快速处理分割问题的情况。这些方法为了提高图像分割准确率,一般会采用较大的编码器-解码器结构和空洞卷积来提高神经网络对图像中特征提取能力,然而这无疑会带来计算成本的急剧提升。
对于高精度带来的高额计算成本需求,大部分实时图像分割方法采用较小输入图像分辨率或减少神经网络中部分通道的方式来改善该问题。但是减小输入图像的分辨率又会带来分割精度下降,因为低分辨率图像中所包含的信息要远小于通常图像中所包含的信息。而减少神经网络中部分通道会来神经网络对图像特征提取能力的下降,导致提取到的特征不足以支持高精度分割任务,最终也会导致分割精度下降。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于多支路特征融合的图像分割方法及系统,提高图像分割速度,达到实际场景应用的处理速度要求。
本发明采用以下技术方案:
一种基于多支路特征融合的图像分割方法,包括以下步骤:
S1、建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;
S2、将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
具体的,步骤S1中,基于Xception的轻量化子网络Subnet_1的内部网络结构为:输入图像→通道扩展操作→特征提取模块Stage1_1→特征提取模块Stage1_2→特征提取模块Stage1_3→注意力模块FC_attention→输出层。
进一步的,通道扩展操作包含1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1;特征提取子模块Substage包含3个深度可分离卷积模块;深度可分离卷积模块包含1个线性整流函数ReLU→1个深度可分离卷积层SeparableConv→1个批标准化BN;深度可分离卷积的卷积核均为3x3,除每个特征提取模块中第一个深度可分离卷积层外,所有深度可分离卷积层的步长为1,第一个深度可分离卷积层的步长为2;注意力模块FC_attention包含1个全连接层FC和→1个卷积层,全连接层长度为192,卷积层中的卷积核为1x1。
具体的,步骤S1中,图像分割模型的编码器的第一个子网络Subnet_1的输入为8通道,通过第一个特征提取模块Stage1_1后,通道增数增加到48、特征图尺寸变为输入图像的1/4;第二个特征提取模块Stage2_1输出的通道数为96、特征图尺寸变为1/8;第三个特征提取模块Stage2_3输出的通道数为192、特征图尺寸变为1/16;经过注意集中模块和通道缩减后,输出的通道数减少为32,特征图尺寸维持1/16;第二个子网络Subnet_2的输入尺寸为第一个子网络Subnet_1输入尺寸的1/2,通道数为80;第三个子网络Subnet_3的输入尺寸为第一个子网络Subnet_1输入尺寸的1/4,通道数为88。
具体的,步骤S1中,对三个子网络的输出进行通道缩减操作具体为:
通道缩减操作包含1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1。
具体的,步骤S2中,图像分割模型的解码器结构具体为:
将特征输出Output_3与特征输出Output_6相加→2倍双线性上采样→与特征输出Output_2与Output_5再相加→2倍双线性上采样→与特征输出Output_1与Output_4再相加→4倍双线性上采样→1个卷积层→输出图像。
进一步的,特征输出Output_3与特征输出Output_6相加后的特征经过1个卷积层然后输出尺寸为最终预测图像1/16的小尺寸预测图像。
进一步的,所有特征加和的输出均为32通道,经过双线性上采样后,第一个双线性上采样的输出尺寸为64x64,第二个双线性上采样的输出尺寸为128x128,第三个双线性上采样的输出尺寸为512x512;经过最后一个卷积层后,输出通道减少为3。
具体的,步骤S2中,对损失函数L进行优化训练的迭代次数为800,训练中批尺寸Batch_Size为16,使用两个尺寸不同的预测图像构造损失函数L如下:
L=L1+λL2
其中,L1和L2分别为原图分辨率大小和1/16分辨率大小预测图像的交叉熵损失,λ为L2对应的权重值。
本发明的另一技术方案是,一种基于多支路特征融合的图像分割系统,包括:
编码器模块,建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;
解码器模块,将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于多支路特征融合的图像分割方法,从输入的不同分辨率图像中提取特征,可以有效减少细节信息的丢失;重复利用网络提取到的高级特征,充分融合各级特征,提高对小目标的特征描述;采用不同分辨率的预测图像来构造损失函数,改善了分割结果边缘粗糙的问题,增加图像分割的准确率。
进一步的,基于Xception的轻量化子网络可以在三种不同的感受野下提取图像中的特征,提取到的特征对分割任务更加有利;通过注意力模块FC_attention增强有助于提取能增加分割正确率的有效特征、抑制冗余特征。
进一步的,特征提取子模块中深度可分离卷积的一个卷积核只处理一个通道,相比常规的卷积操作,参数数量和运算成本被降低。
进一步的,编码器部分中,伴随特征图尺寸减小,特征图的数量逐渐增加,在降低运算复杂度的同时,保证绝大多数的图像信息不被丢失。
进一步的,对三个子网络的输出进行通道缩减,将提取到的大量特征进一步筛选,确保各级编码模块传递给解码器的特征量不会非常庞大,同时保证各级特征数量的一致,解码器能够对其进行加和操作。
进一步的,采用加和方式来构造解码器的特征融合模块,极大地减少了解码器的参数量,双线性上采样使得尺寸放大的特征图细节部分更加平滑。
进一步的,输出尺寸为最终预测图像1/16的小尺寸预测图像作为损失函数的一部分,在较大感受野的情况下监督分割结果,改善了分割结果边缘有毛刺的问题。
进一步的,解码器部分所有尺寸的特征融合模块都采用了相同的通道数,使解码器部分不需要进一步增加额外的卷积层来改变通道数量,减少了解码器模块的参数量。
进一步的,使用原图分辨率大小和1/16分辨率大小两个尺寸不同的预测图像来构造损失函数,与通常的监督方式相比,增加了一个较大感受野的情况下的监督分支,改善了分割结果边缘粗糙的问题,增加图像分割的准确率。
综上所述,本发明的图像分割模型可以保留更多的图像细节信息,融合高级和低级特征,更全面、更准确地描述图像中不同尺寸对象的特征,用不同分辨率标签监督模型参数的训练,有效地抑制上采样操作引起的错误预测放大,从而改善分割效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的实现流程图;
图2为本发明图像分割模型的结构图;
图3为本发明进行图像分割的效果图,其中,(a)为包含道路、红绿灯、行人和树木等不同类别物体的待分割图像,(b)为(a)对应的分割结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于多支路特征融合的图像分割方法,建立一个由编码器-解码器结构组成的对图像分割模型;原图像和下采样后低分辨率图像作为模型的两个输入图像;在编码器中,使用三个轻量化子网络提取图像的特征图,在三个子网络间增加特征传递通道;在解码器中,采用双线性上采样以及特征加和来融合不同级别的特征;在解码器中两个不同的特征融合阶段输出两个不同尺寸的分割结果,采用对应尺寸的标签进行监督训练;得到原图像的图像分割结果。本发明在图像分割精度与速度这一矛盾上找到了一个较好的平衡点。
请参阅图1,本发明一种基于多支路特征融合的图像分割方法,在需要同步图像处理结果的实际应用场景中,实时图像分割非常重要;采用编码器-解码器结构和空洞卷积的图像分割方法已经得到了充分发展,但这些方法对图像的处理速度普遍较慢,无法应用于需要分割速度快和低延迟的场景;使用同一幅图像两种分辨率下的图像作为分割模型的输入,充分利用原图像中包含的信息,从而提高分割准确率;使用轻量化网络作为模型的子网络,极大地加快图像分割速度;在网络模型中编入多个轻量化子网络支路,并在模型支路之间增加特征传递通道,提高特征利用率,进而提高分割的准确率;采用两种分辨率下分割结果标签来指导网络模型的训练,改善分割结果图细节部分;具体步骤如下:
S1、建立图像分割模型的编码器;
S101、建立一个基于Xception的轻量化子网络Subnet_1,其内部网络结构为:输入图像→通道扩展操作→特征提取模块Stage1_1(由4个特征提取子模块Substage组成)→特征提取模块Stage1_2(由6个特征提取子模块组成)→特征提取模块Stage1_3(由4个特征提取子模块组成)→注意力模块FC_attention→输出层。
通道扩展操作包含:1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1。
特征提取子模块Substage包含3个深度可分离卷积模块,深度可分离卷积模块包含:1个线性整流函数ReLU→1个深度可分离卷积层SeparableConv→1个批标准化BN,深度可分离卷积的卷积核均为3x3,除每个特征提取模块中第一个深度可分离卷积层外,所有深度可分离卷积层的步长为1,第一个深度可分离卷积层的步长为2。
注意力模块FC_attention包含:1个全连接层FC和→1个卷积层,全连接层长度为192,卷积层中的卷积核为1x1;
S102、按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,子网络Subnet_2中的特征提取模块分别命名为Stage2_1、Stage2_2和Stage2_3,子网络Subnet_3中的特征提取模块分别命名为Stage3_1、Stage3_2和Stage3_3。
子网络Subnet_2相比子网络Subnet_1和子网络Subnet_3,没有输入图像以及通道扩展操作;子网络Subnet_1和子网络Subnet_3的输入图像尺寸分别为512x512和128x128。
建好三个子网络后,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上。
相似地,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,以此类推,最终将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上。
进一步,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3。
与通道扩展操作类似,通道缩减操作包含:1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1。
然后高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上。
至此,本发明的图像分割模型的编码器部分构造完成。
请参阅图2,图2详细描述本发明建立的图像分割网络。本发明的图像分割模型的输入为原图像和其经过裁剪和下采样的图像,之后用三个包含深度可分离卷子层的子网络来提取特征,再在三个子网络之间增加特征传递通道,从而构成本发明的图像分割模型的编码器部分。深度可分离卷积相较于普通卷积,其参数数量以及运算成本能够降低很多,从而解决编码器过大而无法达到快速分割的问题。批标准化BN加速模型训练速度,也能在一定程度上缓解模型过拟合问题。线性整流函数ReLU相较于其他激活函数,能够降低神经网络的计算成本,且能够避免梯度爆炸和梯度消失的问题。
注意集中模块FC_attention通过对特征的筛选,进一步提升了有效信息的利用以及去除部分无效信息。图像分模型的第一个子网络输入图像为3通道,经过通道扩展操作后通道增数增加到8、特征图尺寸变为输入图像的1/2;通过第一个特征提取模块后,通道增数增加到48、特征图尺寸变为输入图像的1/4;第二个特征提取模块输出的通道数为96、特征图尺寸变为1/8;第三个特征提取模块输出的通道数为192、特征图尺寸变为1/16;经过注意集中模块和通道缩减后,输出的通道数减少为32,特征图尺寸维持1/16。第二和第三个子网络与第一个子网络相似,区别为第三个子网络输入图像尺寸为第一个子网络输入图像的1/4,通道数为88,第二个子网络没有输入图像。
S2、建立图像分割模型的解码器
S201、将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6;
S202、构造图像分割模型的解码器部分,其结构为:将特征输出Output_3与Output_6相加→2倍双线性上采样→与特征输出Output_2与Output_5再相加→2倍双线性上采样→与特征输出Output_1与Output_4再相加→4倍双线性上采样→1个卷积层→输出图像。
其中,特征输出Output_3与Output_6相加后的特征也会经过1个卷积层然后输出尺寸为最终预测图像1/16的小尺寸预测图像。
请参阅图2,因为所有特征输出都经过了通道缩减,所以所有特征加和的输出均为32通道,经过双线性上采样后,第一个双线性上采样的输出尺寸为64x64,第二个双线性上采样的输出尺寸为128x128,第三个双线性上采样的输出尺寸为512x512。经过最后一个卷积层后,输出通道减少为3,得到预测图像。
S203、使用两个尺寸不同的预测图像构造损失函数L,训练中批尺寸Batch_Size为16;使用随机梯度下降优化器对损失函数L进行优化,训练的迭代次数为800;
使用两个尺寸不同的预测图像来构造损失函数L:
L=L1+λL2
其中,L1和L2分别为原图分辨率大小和1/16分辨率大小预测图像的交叉熵损失,λ为L2对应的权重值,调整λ的数值可以改善最终分割结果的边缘,一般λ设置为0.2。
S204、获得训练好的图像分割网络,使用训练好的图像分割模型完成对图像的分割任务。
本发明再一个实施例中,提供一种基于多支路特征融合的图像分割系统,该系统能够用于实现上述基于多支路特征融合的图像分割方法,具体的,该基于多支路特征融合的图像分割系统包括编码器模块以及解码器模块。
其中,编码器模块,建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;
解码器模块,将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于多支路特征融合的图像分割的操作,包括:
建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于多支路特征融合的图像分割方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
使用带有RTX 2080TI显卡的工作站,使用Pytorch框架。
选择包含道路、红绿灯、行人和树木等不同类别物体的图像作为待分割图像,如图3中的(a)。
2.仿真内容
用本发明的方法对包含道路、红绿灯、行人和树木等不同类别物体的图像进行分割,获得的图像分割结果,如图3中的(b)。
3.仿真结果分析
从图3中的(b)能够观察到,对于包含对象类别数量较多的图像,本发明能够将图像中各种对象的类别准确地分割出来。
综上所述,本发明一种基于多支路特征融合的图像分割方法,具有以下特点:
1)在现有的实时图像分割方法的基础上,通过增加不同分辨率的图像作为模型的输入,充分利用原图像中所包含信息,进一步考虑了低分辨率图像中的特征,在不损失原图像中所包含信息的同时,增加了实时图像分割模型中提取到的小目标数量。
2)采用了多个轻量化的子络来提取和融合不同分辨率图像特征,通过在子络之间增加特征的信息传递以及高级特征的多次利用,使得轻量化网络也能够充分地提取和利用各级特征,解决了深层网络无法实现快速图像分割以及轻量化网络无法实现高精度分割的问题,在保持分割效果良好的情况下,实现了实时的图像分割。
3)通过增加图像分割网络解码器部分中用于监督的标签,融合不同层次的特征,在两种不同的分辨率预测下对网络参数进行监督训练,改善了最终分割结果图中边缘粗糙和容易产生毛刺的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于多支路特征融合的图像分割方法,其特征在于,包括以下步骤:
S1、建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;
S2、将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,基于Xception的轻量化子网络Subnet_1的内部网络结构为:输入图像→通道扩展操作→特征提取模块Stage1_1→特征提取模块Stage1_2→特征提取模块Stage1_3→注意力模块FC_attention→输出层。
3.根据权利要求2所述的方法,其特征在于,通道扩展操作包含1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1;特征提取子模块Substage包含3个深度可分离卷积模块;深度可分离卷积模块包含1个线性整流函数ReLU→1个深度可分离卷积层SeparableConv→1个批标准化BN;深度可分离卷积的卷积核均为3x3,除每个特征提取模块中第一个深度可分离卷积层外,所有深度可分离卷积层的步长为1,第一个深度可分离卷积层的步长为2;注意力模块FC_attention包含1个全连接层FC和→1个卷积层,全连接层长度为192,卷积层中的卷积核为1x1。
4.根据权利要求1所述的方法,其特征在于,步骤S1中,图像分割模型的编码器的第一个子网络Subnet_1的输入为8通道,通过第一个特征提取模块Stage1_1后,通道增数增加到48、特征图尺寸变为输入图像的1/4;第二个特征提取模块Stage2_1输出的通道数为96、特征图尺寸变为1/8;第三个特征提取模块Stage2_3输出的通道数为192、特征图尺寸变为1/16;经过注意集中模块和通道缩减后,输出的通道数减少为32,特征图尺寸维持1/16;第二个子网络Subnet_2的输入尺寸为第一个子网络Subnet_1输入尺寸的1/2,通道数为80;第三个子网络Subnet_3的输入尺寸为第一个子网络Subnet_1输入尺寸的1/4,通道数为88。
5.根据权利要求1所述的方法,其特征在于,步骤S1中,对三个子网络的输出进行通道缩减操作具体为:
通道缩减操作包含1个卷积层Conv→1个批标准化BN→1个线性整流函数ReLU,卷积层的卷积核均为3x3、步长为1。
6.根据权利要求1所述的方法,其特征在于,步骤S2中,图像分割模型的解码器结构具体为:
将特征输出Output_3与特征输出Output_6相加→2倍双线性上采样→与特征输出Output_2与Output_5再相加→2倍双线性上采样→与特征输出Output_1与Output_4再相加→4倍双线性上采样→1个卷积层→输出图像。
7.根据权利要求6所述的方法,其特征在于,特征输出Output_3与特征输出Output_6相加后的特征经过1个卷积层然后输出尺寸为最终预测图像1/16的小尺寸预测图像。
8.根据权利要求6所述的方法,其特征在于,所有特征加和的输出均为32通道,经过双线性上采样后,第一个双线性上采样的输出尺寸为64x64,第二个双线性上采样的输出尺寸为128x128,第三个双线性上采样的输出尺寸为512x512;经过最后一个卷积层后,输出通道减少为3。
9.根据权利要求1所述的方法,其特征在于,步骤S2中,对损失函数L进行优化训练的迭代次数为800,训练中批尺寸Batch_Size为16,使用两个尺寸不同的预测图像构造损失函数L如下:
L=L1+λL2
其中,L1和L2分别为原图分辨率大小和1/16分辨率大小预测图像的交叉熵损失,λ为L2对应的权重值。
10.一种基于多支路特征融合的图像分割系统,其特征在于,包括:
编码器模块,建立一个基于Xception的轻量化子网络Subnet_1,按照建好的子网络Subnet_1结构建立相同结构的子网络Subnet_2和子网络Subnet_3,将子网络Subnet_1的特征提取模块Stage1_1的输出连接到子网络Subnet_2的特征提取模块Stage2_1的输入上,将特征提取模块Stage1_2的输出并联到特征提取模块Stage2_2的输入上,将特征提取模块Stage2_3的输出并联到特征提取模块Stage3_3的输入上,对三个子网络的输出进行通道缩减操作和4倍双线性上采样,得到三个子网络的高级特征输出Output_1、Output_2和Output_3,然后将高级特征输出Output_1和Output_2分别并联到特征提取模块Stage2_1和Stage3_1上,构造完成图像分割模型的编码器;
解码器模块,将特征提取模块Stage1_1、Stage2_1和Stage3_1的输出分别进行通道缩减操作,得到三个子网络tput_4、Output_5和Output_6,构造完成图像分割模型的解码器;使用两个尺寸不同的预测图像构造损失函数L;使用随机梯度下降优化器对损失函数L进行优化训练,获得训练好的图像分割模型,使用训练好的图像分割模型完成图像的分割任务。
CN202110432657.5A 2021-04-21 2021-04-21 一种基于多支路特征融合的图像分割方法及系统 Active CN113205519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110432657.5A CN113205519B (zh) 2021-04-21 2021-04-21 一种基于多支路特征融合的图像分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110432657.5A CN113205519B (zh) 2021-04-21 2021-04-21 一种基于多支路特征融合的图像分割方法及系统

Publications (2)

Publication Number Publication Date
CN113205519A CN113205519A (zh) 2021-08-03
CN113205519B true CN113205519B (zh) 2023-07-25

Family

ID=77027741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110432657.5A Active CN113205519B (zh) 2021-04-21 2021-04-21 一种基于多支路特征融合的图像分割方法及系统

Country Status (1)

Country Link
CN (1) CN113205519B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187606B (zh) * 2021-10-21 2023-07-25 江阴市智行工控科技有限公司 一种采用分支融合网络轻量化的车库行人检测方法及系统
CN114267062B (zh) * 2021-12-07 2022-12-16 合肥的卢深视科技有限公司 人脸解析模型的训练方法、电子设备和存储介质
CN116229065B (zh) * 2023-02-14 2023-12-01 湖南大学 一种基于多分支融合的机器人手术器械分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462133A (zh) * 2020-03-31 2020-07-28 厦门亿联网络技术股份有限公司 一种实时视频人像分割的系统、方法、存储介质和设备
CN112102283A (zh) * 2020-09-14 2020-12-18 北京航空航天大学 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462133A (zh) * 2020-03-31 2020-07-28 厦门亿联网络技术股份有限公司 一种实时视频人像分割的系统、方法、存储介质和设备
CN112102283A (zh) * 2020-09-14 2020-12-18 北京航空航天大学 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合注意力机制的移动端人像分割网络;周鹏;姚剑敏;林志贤;严群;郭太良;;液晶与显示(第06期);全文 *

Also Published As

Publication number Publication date
CN113205519A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113205519B (zh) 一种基于多支路特征融合的图像分割方法及系统
JP7218805B2 (ja) ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
CN112733919B (zh) 基于空洞卷积和多尺度多分支的图像语义分割方法及系统
CN113850824B (zh) 一种基于多尺度特征融合的遥感图像路网提取方法
CN110084274B (zh) 实时图像语义分割方法及系统、可读存储介质和终端
CN117078943B (zh) 融合多尺度特征和双注意力机制的遥感影像道路分割方法
CN112084923B (zh) 一种遥感图像语义分割方法、存储介质及计算设备
CN111696110B (zh) 场景分割方法及系统
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111401379A (zh) 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法
CN115082928B (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN111860683A (zh) 一种基于特征融合的目标检测方法
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN110264483B (zh) 一种基于深度学习的语义图像分割方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN116109920A (zh) 一种基于Transformer的遥感图像建筑物提取方法
CN113344827B (zh) 一种图像去噪方法、图像去噪网络运算单元及设备
Chan et al. Asymmetric cascade fusion network for building extraction
CN117173395A (zh) 一种YOLOv8部分卷积网络目标检测方法
CN114494006A (zh) 图像重建模型的训练方法、装置、电子设备及存储介质
CN115082371B (zh) 图像融合方法、装置、移动终端设备及可读存储介质
CN112488115B (zh) 一种基于two-stream架构的语义分割方法
CN116246109A (zh) 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用
CN116543155A (zh) 基于上下文级联和多尺度特征细化的语义分割方法及装置
CN113255675B (zh) 基于扩张卷积和残差路径的图像语义分割网络结构及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant