CN117456191B - 一种基于三分支网络结构的复杂环境下语义分割方法 - Google Patents

一种基于三分支网络结构的复杂环境下语义分割方法 Download PDF

Info

Publication number
CN117456191B
CN117456191B CN202311734012.2A CN202311734012A CN117456191B CN 117456191 B CN117456191 B CN 117456191B CN 202311734012 A CN202311734012 A CN 202311734012A CN 117456191 B CN117456191 B CN 117456191B
Authority
CN
China
Prior art keywords
branch
convolution
network structure
image
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311734012.2A
Other languages
English (en)
Other versions
CN117456191A (zh
Inventor
余锋
周鑫磊
姜明华
刘莉
周昌龙
宋坤芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202311734012.2A priority Critical patent/CN117456191B/zh
Publication of CN117456191A publication Critical patent/CN117456191A/zh
Application granted granted Critical
Publication of CN117456191B publication Critical patent/CN117456191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三分支网络结构的复杂环境下语义分割方法,包括如下步骤:S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。本发明通过改进模型网络结构和设计有针对性的损失函数,可以明显提高复杂环境下目标物体语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。

Description

一种基于三分支网络结构的复杂环境下语义分割方法
技术领域
本发明涉及图像分割领域,并且更具体地,涉及一种基于三分支网络结构的复杂环境下语义分割方法。
背景技术
在复杂环境下进行语义分割是一个挑战性的任务,因为复杂环境中通常存在多样化的物体、不同尺度的对象、光照变化、遮挡等因素,这些因素使得单一模型难以准确地捕获和分割各种对象,因此,研究如何精准分割出复杂环境下的目标物体就显得尤为重要。复杂环境下语义分割的应用领域十分广泛,如:自动驾驶与智能交通、医学图像分割、农业与农业机器人、城市规划与环境监测、工业与智能制造、环境保护与资源管理、无人机与航拍影像分析等。现有三分支网络结构使用普通卷积堆叠的方式进行特征提取,这就使得网络参数冗余且庞大复杂,导致需要较长的训练时间和更多的训练数据才能达到较好的性能;在编码阶段的每一个分支采用串行结构进行特征提取,这种串行的结构限制了信息在网络中的流动和传递,导致网络无法充分利用从图像中提取到的特征;在解码阶段由于特征重建能力低使得细节信息丢失,导致预测出的图像整体分割效果较差,边界模糊不清。对于复杂环境下语义分割,常规损失函数难以准确地表达不同尺度和对象的重要性,需要一种更具针对性的损失函数来参与网络模型的训练。在复杂环境下进行语义分割需要更精细化的语义信息,现有三分支网络结构难以确保对各种对象的精准分割。
公开号为CN110136141A的中国专利公开了“一种面向复杂环境的图像语义分割方法及装置”,使用VGG16卷积神经网络作为基础神经网络,其可以解决现有方法在复杂环境下分割边界模糊的缺点,产生高分辨率的预测图像。但是,VGG16是一个用于图像分类的卷积神经网络,对于复杂环境下的语义分割任务,使用VGG16使得整个方法实现流程变得复杂,模型变得臃肿。
因此,亟待设计一种高效、准确的语义分割方法应用于复杂环境下的语义分割,解决上述现有技术存在的问题。
发明内容
针对现有技术的以上缺陷以及改进需求,本发明提供了一种基于三分支网络结构的复杂环境下语义分割方法,其目的在于使用三个不同的分支网络处理不同尺度、不同层级的特征,提高对复杂环境下目标物体分割的准确度。
为实现上述目的,本发明采用了如下技术方案:
一种基于三分支网络结构的复杂环境下语义分割方法,包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
进一步的,所述步骤S1中的第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作。
进一步的,所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
进一步的,所述步骤S1中的图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次/>卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图。
进一步的,所述步骤S1中的图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图。
进一步的,所述步骤S1中的第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支同时并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作。
进一步的,所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
细节损失通过计算细节分支的输出与真实图像之间的差异指导网络优化,细节分支的输出用第个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。在公式最前面加上负号的目的是使细节损失朝着最小化的方向进行参数更新。细节损失的值越小,说明细节分支提取的语义信息与真实图像之间的差异越小,从而使得模型能够更好的重建出输入图像中的细节信息。
进一步的,所述上下文损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
进一步的,所述边界损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>
与现有技术相比,本发明的有益效果是:
(1)通过在语义分割网络模型的编码器尾部设置图像特征提取模块,图像特征提取模块采用双分支并行结构处理特征图,可使模型在编码阶段更加充分地提取到来自图像的语义信息,深度可分离卷积的应用可以大大减少模型的计算成本和参数数量,在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构,将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力,进而更好地保留和传递重要的语义信息。
(2)通过在语义分割网络模型的解码器头部设置图像特征重建模块,在解码阶段增强网络特征重建能力,有效提高网络对目标物体的整体分割精度,图像特征重建模块用于从经过图像特征提取模块处理后的特征图中恢复图像信息,其使用“全局平均池化→卷积层→Sigmoid”结构,可通过学习特征通道之间的相关性和重要性,自动调整特征通道的权重分配,这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道,同时抑制或忽略不重要的通道,从而提升模型最终分割效果。
(3)通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数,即细节损失函数、上下文损失函数和边界损失函数,其中细节损失函数可有效提升网络对图像细节特征的提取能力;上下文损失函数可使得网络具有更加丰富的语义信息;边界损失函数可用于协调细节损失和上下文损失,从而更好地优化整个网络,准确地表达不同尺度和对象的重要性。
(4)通过将复杂背景图像输入模型中生成高质量的标注图片,大大节省了人工成本,通过在编码器和解码器中分别设置三分支网络结构,可提高语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的流程图;
图2示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的语义分割网络模型示意图;
图3示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征提取模块示意图;
图4示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征重建模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提出了一种基于三分支网络结构的复杂环境下语义分割方法的实现方案,如图1所示,所述基于三分支网络结构的复杂环境下语义分割方法包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
如图2所示,所述步骤S1中的第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作。
所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
如图3所示,所述步骤S1中的图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次/>卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图。
图像特征提取模块使用双分支结构对经过第一三分支网络结构处理后得到的特征图进行进一步的特征提取,将第一分支和第二分支处理后得到的特征图进行相加融合,从而使得模型可以在编码阶段从图像中提取更为丰富的语义信息。其中,将深度可分离卷积应用于图像特征提取模块中可以减少计算成本和参数数量,从而降低模型推理时间;在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构,将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力,进而更好地保留和传递重要的语义信息。
如图4所示,所述步骤S1中的图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图。
图像特征重建模块用于从经过编码器处理的特征图中恢复图像信息。使用“全局平均池化→卷积层→Sigmoid”结构,可通过学习特征通道之间的相关性和重要性,自动调整特征通道的权重分配,这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道,同时抑制或忽略不重要的通道,从而提升模型最终分割效果。
如图2所示,所述步骤S1中的第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支独立并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作。
所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
细节损失通过计算细节分支的输出与真实图像之间的差异指导网络优化,细节分支的输出用第个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。在公式最前面加上负号的目的是使细节损失朝着最小化的方向进行参数更新。细节损失的值越小,说明细节分支提取的语义信息与真实图像之间的差异越小,从而使得模型能够更好的重建出输入图像中的细节信息。
所述上下文损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
预测概率值的取值范围为/>,预测概率值中的正样本代表的是预测概率值大于等于0.5的预测结果,真实标签/>的取值为0或1,真实标签的值为1时代表的是正样本。
表示预测概率值和真实标签的交集的总和,用于计算模型预测正确的像素数量,/>表示预测概率值中所有正样本的总和,/>表示真实标签中所有正样本的总和。
上下文损失通过计算上下文分支的输出与真实图像之间的差异指导网络优化,其取值范围为,上下文分支的输出用第/>个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。计算结果越接近于0说明上下文分支预测的语义信息越接近真实图像,那么这个语义信息将很大程度上被保留并用于下次的特征提取中。
所述边界损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>。即当/>大于/>时,/>取值为1,当/>小于/>时,/>取值为0。
物体边界的语义信息通常对比较为强烈,通过预定义阈值动态调整模型对边界信息的提取强度,从而达到更好的分割结果。当图像中物体边界色彩对比不明显时,将设为一个较大的值,掩盖预测结果,使模型更加倾向于实际标签所对应的语义信息,从而提高模型对于边界分割的性能。
通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数,即细节损失函数、上下文损失函数和边界损失函数,其中细节损失函数可有效提升网络对图像细节特征的提取能力;上下文损失函数可使得网络具有更加丰富的语义信息;边界损失函数可用于协调细节损失和上下文损失,从而更好地优化整个网络,准确地表达不同尺度和对象的重要性。
通过将复杂背景图像输入模型中生成高质量的标注图片,大大节省了人工成本,通过在编码器和解码器中分别设置三分支网络结构,可提高语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于三分支网络结构的复杂环境下语义分割方法,其特征在于,包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
所述第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作;
所述图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图;
所述图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图;
所述第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支同时并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
2.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
3.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
4.如权利要求3所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述上下文损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
5.如权利要求4所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述边界损失函数表示为:
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>
CN202311734012.2A 2023-12-15 2023-12-15 一种基于三分支网络结构的复杂环境下语义分割方法 Active CN117456191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311734012.2A CN117456191B (zh) 2023-12-15 2023-12-15 一种基于三分支网络结构的复杂环境下语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311734012.2A CN117456191B (zh) 2023-12-15 2023-12-15 一种基于三分支网络结构的复杂环境下语义分割方法

Publications (2)

Publication Number Publication Date
CN117456191A CN117456191A (zh) 2024-01-26
CN117456191B true CN117456191B (zh) 2024-03-08

Family

ID=89585757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311734012.2A Active CN117456191B (zh) 2023-12-15 2023-12-15 一种基于三分支网络结构的复杂环境下语义分割方法

Country Status (1)

Country Link
CN (1) CN117456191B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801294A (zh) * 2018-12-14 2019-05-24 深圳先进技术研究院 三维左心房分割方法、装置、终端设备及存储介质
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
CN114612666A (zh) * 2022-03-18 2022-06-10 浙江大学 一种基于多模态对比学习的rgb-d语义分割方法
CN114863099A (zh) * 2022-05-18 2022-08-05 邱波 一种基于多分支非对称卷积模块和多尺度特征融合的地基云图分割网络
CN114943963A (zh) * 2022-04-29 2022-08-26 南京信息工程大学 一种基于双分支融合网络的遥感图像云和云影分割方法
CN115496909A (zh) * 2022-10-24 2022-12-20 桂林电子科技大学 一种三分支自适应权重特征融合的语义分割方法
CN115512103A (zh) * 2022-09-01 2022-12-23 中国海洋大学 多尺度融合遥感图像语义分割方法及系统
WO2023277722A1 (en) * 2021-06-28 2023-01-05 Harman International Industries, Incorporated Multimodal method and apparatus for segmentation and depht estimation
WO2023077816A1 (zh) * 2021-11-03 2023-05-11 中国华能集团清洁能源技术研究院有限公司 边界优化的遥感图像语义分割方法、装置、设备及介质
CN116229461A (zh) * 2023-01-31 2023-06-06 西南大学 一种基于多尺度细化的室内场景图像实时语义分割方法
CN116229056A (zh) * 2022-12-16 2023-06-06 长沙理工大学 基于双分支特征融合的语义分割方法、装置、设备
CN116681679A (zh) * 2023-06-09 2023-09-01 成都信息工程大学 基于双分支特征融合注意的医学图像小目标分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2580671B (en) * 2019-01-22 2022-05-04 Toshiba Kk A computer vision system and method
CN110110617B (zh) * 2019-04-22 2021-04-20 腾讯科技(深圳)有限公司 医学影像分割方法、装置、电子设备和存储介质
US11580646B2 (en) * 2021-03-26 2023-02-14 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on U-Net

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801294A (zh) * 2018-12-14 2019-05-24 深圳先进技术研究院 三维左心房分割方法、装置、终端设备及存储介质
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
WO2023277722A1 (en) * 2021-06-28 2023-01-05 Harman International Industries, Incorporated Multimodal method and apparatus for segmentation and depht estimation
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
WO2023077816A1 (zh) * 2021-11-03 2023-05-11 中国华能集团清洁能源技术研究院有限公司 边界优化的遥感图像语义分割方法、装置、设备及介质
CN114612666A (zh) * 2022-03-18 2022-06-10 浙江大学 一种基于多模态对比学习的rgb-d语义分割方法
CN114943963A (zh) * 2022-04-29 2022-08-26 南京信息工程大学 一种基于双分支融合网络的遥感图像云和云影分割方法
CN114863099A (zh) * 2022-05-18 2022-08-05 邱波 一种基于多分支非对称卷积模块和多尺度特征融合的地基云图分割网络
CN115512103A (zh) * 2022-09-01 2022-12-23 中国海洋大学 多尺度融合遥感图像语义分割方法及系统
CN115496909A (zh) * 2022-10-24 2022-12-20 桂林电子科技大学 一种三分支自适应权重特征融合的语义分割方法
CN116229056A (zh) * 2022-12-16 2023-06-06 长沙理工大学 基于双分支特征融合的语义分割方法、装置、设备
CN116229461A (zh) * 2023-01-31 2023-06-06 西南大学 一种基于多尺度细化的室内场景图像实时语义分割方法
CN116681679A (zh) * 2023-06-09 2023-09-01 成都信息工程大学 基于双分支特征融合注意的医学图像小目标分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers;Jiacong Xu 等;《 arXiv:2206.02066v3 [cs.CV]》;20230307;1-11 *
深度卷积神经网络图像语义分割研究进展;青晨;禹晶;肖创柏;段娟;;中国图象图形学报;20200616(第06期);5-26 *
深度学习在二维虚拟试衣技术的应用与进展;花爱玲 等;《计算机工程与应用》;20230601;第59卷(第11期);37-45 *

Also Published As

Publication number Publication date
CN117456191A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN110298266B (zh) 基于多尺度感受野特征融合的深度神经网络目标检测方法
CN110276765B (zh) 基于多任务学习深度神经网络的图像全景分割方法
CN108830171B (zh) 一种基于深度学习的智能物流仓库引导线视觉检测方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110648310A (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN113393370A (zh) 中国书法文字图像风格迁移的方法、系统、智能终端
CN112712052A (zh) 一种机场全景视频中微弱目标的检测识别方法
CN112651423A (zh) 一种智能视觉系统
CN112989942A (zh) 一种基于交通监控视频的目标实例分割方法
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN112991281B (zh) 视觉检测方法、系统、电子设备及介质
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN111401360B (zh) 优化车牌检测模型的方法及系统、车牌检测方法及系统
CN117456191B (zh) 一种基于三分支网络结构的复杂环境下语义分割方法
CN116543162A (zh) 基于特征差值与上下文感知一致性的图像分割方法及系统
CN115690704B (zh) 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN109255794B (zh) 一种标准件深度全卷积特征边缘检测方法
CN114998570B (zh) 一种对象检测框的确定方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant