CN117456191A - 一种基于三分支网络结构的复杂环境下语义分割方法 - Google Patents
一种基于三分支网络结构的复杂环境下语义分割方法 Download PDFInfo
- Publication number
- CN117456191A CN117456191A CN202311734012.2A CN202311734012A CN117456191A CN 117456191 A CN117456191 A CN 117456191A CN 202311734012 A CN202311734012 A CN 202311734012A CN 117456191 A CN117456191 A CN 117456191A
- Authority
- CN
- China
- Prior art keywords
- branch
- network structure
- convolution
- semantic segmentation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 28
- 230000000694 effects Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于三分支网络结构的复杂环境下语义分割方法,包括如下步骤:S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。本发明通过改进模型网络结构和设计有针对性的损失函数,可以明显提高复杂环境下目标物体语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。
Description
技术领域
本发明涉及图像分割领域,并且更具体地,涉及一种基于三分支网络结构的复杂环境下语义分割方法。
背景技术
在复杂环境下进行语义分割是一个挑战性的任务,因为复杂环境中通常存在多样化的物体、不同尺度的对象、光照变化、遮挡等因素,这些因素使得单一模型难以准确地捕获和分割各种对象,因此,研究如何精准分割出复杂环境下的目标物体就显得尤为重要。复杂环境下语义分割的应用领域十分广泛,如:自动驾驶与智能交通、医学图像分割、农业与农业机器人、城市规划与环境监测、工业与智能制造、环境保护与资源管理、无人机与航拍影像分析等。现有三分支网络结构使用普通卷积堆叠的方式进行特征提取,这就使得网络参数冗余且庞大复杂,导致需要较长的训练时间和更多的训练数据才能达到较好的性能;在编码阶段的每一个分支采用串行结构进行特征提取,这种串行的结构限制了信息在网络中的流动和传递,导致网络无法充分利用从图像中提取到的特征;在解码阶段由于特征重建能力低使得细节信息丢失,导致预测出的图像整体分割效果较差,边界模糊不清。对于复杂环境下语义分割,常规损失函数难以准确地表达不同尺度和对象的重要性,需要一种更具针对性的损失函数来参与网络模型的训练。在复杂环境下进行语义分割需要更精细化的语义信息,现有三分支网络结构难以确保对各种对象的精准分割。
公开号为CN110136141A的中国专利公开了“一种面向复杂环境的图像语义分割方法及装置”,使用VGG16卷积神经网络作为基础神经网络,其可以解决现有方法在复杂环境下分割边界模糊的缺点,产生高分辨率的预测图像。但是,VGG16是一个用于图像分类的卷积神经网络,对于复杂环境下的语义分割任务,使用VGG16使得整个方法实现流程变得复杂,模型变得臃肿。
因此,亟待设计一种高效、准确的语义分割方法应用于复杂环境下的语义分割,解决上述现有技术存在的问题。
发明内容
针对现有技术的以上缺陷以及改进需求,本发明提供了一种基于三分支网络结构的复杂环境下语义分割方法,其目的在于使用三个不同的分支网络处理不同尺度、不同层级的特征,提高对复杂环境下目标物体分割的准确度。
为实现上述目的,本发明采用了如下技术方案:
一种基于三分支网络结构的复杂环境下语义分割方法,包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
进一步的,所述步骤S1中的第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作。
进一步的,所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
进一步的,所述步骤S1中的图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图。
进一步的,所述步骤S1中的图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图。
进一步的,所述步骤S1中的第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支同时并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作。
进一步的,所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
细节损失通过计算细节分支的输出与真实图像之间的差异指导网络优化,细节分支的输出用第个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。在公式最前面加上负号的目的是使细节损失朝着最小化的方向进行参数更新。细节损失的值越小,说明细节分支提取的语义信息与真实图像之间的差异越小,从而使得模型能够更好的重建出输入图像中的细节信息。
进一步的,所述上下文损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
进一步的,所述边界损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
;
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>。
与现有技术相比,本发明的有益效果是:
(1)通过在语义分割网络模型的编码器尾部设置图像特征提取模块,图像特征提取模块采用双分支并行结构处理特征图,可使模型在编码阶段更加充分地提取到来自图像的语义信息,深度可分离卷积的应用可以大大减少模型的计算成本和参数数量,在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构,将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力,进而更好地保留和传递重要的语义信息。
(2)通过在语义分割网络模型的解码器头部设置图像特征重建模块,在解码阶段增强网络特征重建能力,有效提高网络对目标物体的整体分割精度,图像特征重建模块用于从经过图像特征提取模块处理后的特征图中恢复图像信息,其使用“全局平均池化→卷积层→Sigmoid”结构,可通过学习特征通道之间的相关性和重要性,自动调整特征通道的权重分配,这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道,同时抑制或忽略不重要的通道,从而提升模型最终分割效果。
(3)通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数,即细节损失函数、上下文损失函数和边界损失函数,其中细节损失函数可有效提升网络对图像细节特征的提取能力;上下文损失函数可使得网络具有更加丰富的语义信息;边界损失函数可用于协调细节损失和上下文损失,从而更好地优化整个网络,准确地表达不同尺度和对象的重要性。
(4)通过将复杂背景图像输入模型中生成高质量的标注图片,大大节省了人工成本,通过在编码器和解码器中分别设置三分支网络结构,可提高语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的流程图;
图2示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的语义分割网络模型示意图;
图3示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征提取模块示意图;
图4示出了本发明实施例基于三分支网络结构的复杂环境下语义分割方法的图像特征重建模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提出了一种基于三分支网络结构的复杂环境下语义分割方法的实现方案,如图1所示,所述基于三分支网络结构的复杂环境下语义分割方法包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
如图2所示,所述步骤S1中的第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作。
所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
如图3所示,所述步骤S1中的图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图。
图像特征提取模块使用双分支结构对经过第一三分支网络结构处理后得到的特征图进行进一步的特征提取,将第一分支和第二分支处理后得到的特征图进行相加融合,从而使得模型可以在编码阶段从图像中提取更为丰富的语义信息。其中,将深度可分离卷积应用于图像特征提取模块中可以减少计算成本和参数数量,从而降低模型推理时间;在第一分支和第二分支中均采用“卷积层→深度可分离卷积→卷积层”结构,将此结构应用于图像特征提取模块中可以增强模型对语义信息的提取能力,进而更好地保留和传递重要的语义信息。
如图4所示,所述步骤S1中的图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图。
图像特征重建模块用于从经过编码器处理的特征图中恢复图像信息。使用“全局平均池化→卷积层→Sigmoid”结构,可通过学习特征通道之间的相关性和重要性,自动调整特征通道的权重分配,这样可以使得模型专注于关注对于待分割物体而言较为重要的特征通道,同时抑制或忽略不重要的通道,从而提升模型最终分割效果。
如图2所示,所述步骤S1中的第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支独立并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作。
所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
细节损失通过计算细节分支的输出与真实图像之间的差异指导网络优化,细节分支的输出用第个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。在公式最前面加上负号的目的是使细节损失朝着最小化的方向进行参数更新。细节损失的值越小,说明细节分支提取的语义信息与真实图像之间的差异越小,从而使得模型能够更好的重建出输入图像中的细节信息。
所述上下文损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
预测概率值的取值范围为/>,预测概率值中的正样本代表的是预测概率值大于等于0.5的预测结果,真实标签/>的取值为0或1,真实标签的值为1时代表的是正样本。
表示预测概率值和真实标签的交集的总和,用于计算模型预测正确的像素数量,/>表示预测概率值中所有正样本的总和,/>表示真实标签中所有正样本的总和。
上下文损失通过计算上下文分支的输出与真实图像之间的差异指导网络优化,其取值范围为,上下文分支的输出用第/>个图片的第/>个类别的预测概率值/>表示,真实图像用第/>个图片的第/>个类别的实际标签值/>表示。计算结果越接近于0说明上下文分支预测的语义信息越接近真实图像,那么这个语义信息将很大程度上被保留并用于下次的特征提取中。
所述边界损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
;
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>。即当/>大于/>时,/>取值为1,当/>小于/>时,/>取值为0。
物体边界的语义信息通常对比较为强烈,通过预定义阈值动态调整模型对边界信息的提取强度,从而达到更好的分割结果。当图像中物体边界色彩对比不明显时,将设为一个较大的值,掩盖预测结果,使模型更加倾向于实际标签所对应的语义信息,从而提高模型对于边界分割的性能。
通过对三分支网络结构的细节分支、上下文分支和边界分支分别设计有针对性的损失函数,即细节损失函数、上下文损失函数和边界损失函数,其中细节损失函数可有效提升网络对图像细节特征的提取能力;上下文损失函数可使得网络具有更加丰富的语义信息;边界损失函数可用于协调细节损失和上下文损失,从而更好地优化整个网络,准确地表达不同尺度和对象的重要性。
通过将复杂背景图像输入模型中生成高质量的标注图片,大大节省了人工成本,通过在编码器和解码器中分别设置三分支网络结构,可提高语义分割的准确性和鲁棒性,以适应各种多样化、复杂性高的场景。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于三分支网络结构的复杂环境下语义分割方法,其特征在于,包括以下步骤:
S1.设计分割复杂环境下目标物体的基于三分支结构的语义分割网络模型;
所述语义分割网络模型包括编码器和解码器,所述编码器包括第一三分支网络结构和图像特征提取模块,所述解码器包括第二三分支网络结构和图像特征重建模块;
所述第一三分支网络结构位于编码器的头部,第一三分支网络结构包括第一细节分支、第一上下文分支和第一边界分支,每个分支同时并行;
所述第一细节分支的具体操作是:将图像送入两个步距为1的卷积块进行特征提取,再进行三次卷积操作;
所述第一上下文分支的具体操作是:将图像送入两个步距为2的卷积块进行特征提取,再进行两次卷积操作,最后进行一次步距为2的/>卷积操作;
所述第一边界分支的具体操作是:将图像送入一个步距为1的卷积块进行特征提取,接着进行一次卷积操作,然后再送入一个步距为1的卷积块进行特征提取,最后进行两次/>卷积操作;
S2.设计损失函数,并利用损失函数训练设计好的语义分割网络模型;
S3.使用训练好的语义分割网络模型解析复杂环境下的目标物体,生成像素级的二进制图像。
2.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步距为1的卷积块依次由两次卷积操作和一次ReLU操作组成;所述步距为2的卷积块依次由两次/>卷积操作、一次步距为2的/>卷积操作和一次ReLU操作组成。
3.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步骤S1中的图像特征提取模块位于编码器的尾部,图像特征提取模块由双分支结构组成,图像特征提取模块的具体操作如下:
输入经过第一三分支网络结构处理后得到的特征图;
第一分支将特征图依次经过一次卷积操作、一次深度可分离卷积操作和三次/>卷积操作;
第二分支将特征图依次经过两次深度可分离卷积操作、一次卷积操作、一次深度可分卷积操作和一次/>卷积操作后,再与经过第一三分支网络结构处理后得到的特征图进行相加融合操作;
将第一分支和第二分支处理后得到的特征图进行相加融合,得到经过图像特征提取模块处理后的特征图。
4.如权利要求3所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步骤S1中的图像特征重建模块位于解码器的头部,图像特征重建模块用于处理经过图像特征提取模块处理后的特征图,图像特征重建模块的具体操作如下:
首先将特征图依次进行一次卷积操作、归一化操作和ReLU操作;
然后将经过ReLU操作后的特征图依次进行一次全局平均池化操作、一次卷积操作和一次Sigmoid操作;
最后将经过Sigmoid操作后的特征图和经过ReLU操作后的特征图进行相乘,得到经过图像特征重建模块处理后的特征图。
5.如权利要求4所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步骤S1中的第二三分支网络结构位于解码器的尾部,第二三分支网络结构用于处理经过图像特征重建模块处理后的特征图,将经过图像特征重建模块处理后的特征图分别送入第二三分支网络结构的三个分支中进行进一步的特征恢复,第二三分支网络结构包括第二细节分支、第二上下文分支和第二边界分支,每个分支同时并行:
所述第二细节分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二上下文分支的具体操作是:将特征图进行一次步距为2的卷积操作,再进行归一化操作,然后进行ReLU操作;
所述第二边界分支的具体操作是:将特征图进行一次卷积操作,再进行归一化操作,然后进行ReLU操作。
6.如权利要求1所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述步骤S2中的损失函数由细节损失函数、上下文损失函数和边界损失函数组成;
所述细节损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值。
7.如权利要求6所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述上下文损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的预测概率值,/>为第/>个图片的第/>个类别的真实标签,/>是一个很小的常数,用于避免分母为零的情况。
8.如权利要求7所述的基于三分支网络结构的复杂环境下语义分割方法,其特征在于,所述边界损失函数表示为:
;
其中,为每个训练批次中的图像数量,/>为当前训练图片的索引,/>为类别数量,/>为类别索引,/>为第/>个图片的第/>个类别的实际标签值,/>为第/>个图片的第/>个类别的预测概率值,/>的取值为0或1,用于动态调整模型对边界信息的提取强度,/>计算公式具体如下:
;
其中,为第/>个图片的第/>个类别的预测概率值,/>为预定义阈值,/>的范围为/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734012.2A CN117456191B (zh) | 2023-12-15 | 2023-12-15 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311734012.2A CN117456191B (zh) | 2023-12-15 | 2023-12-15 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456191A true CN117456191A (zh) | 2024-01-26 |
CN117456191B CN117456191B (zh) | 2024-03-08 |
Family
ID=89585757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311734012.2A Active CN117456191B (zh) | 2023-12-15 | 2023-12-15 | 一种基于三分支网络结构的复杂环境下语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456191B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801294A (zh) * | 2018-12-14 | 2019-05-24 | 深圳先进技术研究院 | 三维左心房分割方法、装置、终端设备及存储介质 |
US20200234447A1 (en) * | 2019-01-22 | 2020-07-23 | Kabushiki Kaisha Toshiba | Computer vision system and method |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
US20210365717A1 (en) * | 2019-04-22 | 2021-11-25 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for segmenting a medical image, and storage medium |
CN113807355A (zh) * | 2021-07-29 | 2021-12-17 | 北京工商大学 | 一种基于编解码结构的图像语义分割方法 |
CN114612666A (zh) * | 2022-03-18 | 2022-06-10 | 浙江大学 | 一种基于多模态对比学习的rgb-d语义分割方法 |
CN114863099A (zh) * | 2022-05-18 | 2022-08-05 | 邱波 | 一种基于多分支非对称卷积模块和多尺度特征融合的地基云图分割网络 |
CN114943963A (zh) * | 2022-04-29 | 2022-08-26 | 南京信息工程大学 | 一种基于双分支融合网络的遥感图像云和云影分割方法 |
US20220309674A1 (en) * | 2021-03-26 | 2022-09-29 | Nanjing University Of Posts And Telecommunications | Medical image segmentation method based on u-net |
CN115496909A (zh) * | 2022-10-24 | 2022-12-20 | 桂林电子科技大学 | 一种三分支自适应权重特征融合的语义分割方法 |
CN115512103A (zh) * | 2022-09-01 | 2022-12-23 | 中国海洋大学 | 多尺度融合遥感图像语义分割方法及系统 |
WO2023277722A1 (en) * | 2021-06-28 | 2023-01-05 | Harman International Industries, Incorporated | Multimodal method and apparatus for segmentation and depht estimation |
WO2023077816A1 (zh) * | 2021-11-03 | 2023-05-11 | 中国华能集团清洁能源技术研究院有限公司 | 边界优化的遥感图像语义分割方法、装置、设备及介质 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
CN116229056A (zh) * | 2022-12-16 | 2023-06-06 | 长沙理工大学 | 基于双分支特征融合的语义分割方法、装置、设备 |
CN116681679A (zh) * | 2023-06-09 | 2023-09-01 | 成都信息工程大学 | 基于双分支特征融合注意的医学图像小目标分割方法 |
-
2023
- 2023-12-15 CN CN202311734012.2A patent/CN117456191B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801294A (zh) * | 2018-12-14 | 2019-05-24 | 深圳先进技术研究院 | 三维左心房分割方法、装置、终端设备及存储介质 |
US20200234447A1 (en) * | 2019-01-22 | 2020-07-23 | Kabushiki Kaisha Toshiba | Computer vision system and method |
US20210365717A1 (en) * | 2019-04-22 | 2021-11-25 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for segmenting a medical image, and storage medium |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
US20220309674A1 (en) * | 2021-03-26 | 2022-09-29 | Nanjing University Of Posts And Telecommunications | Medical image segmentation method based on u-net |
WO2023277722A1 (en) * | 2021-06-28 | 2023-01-05 | Harman International Industries, Incorporated | Multimodal method and apparatus for segmentation and depht estimation |
CN113807355A (zh) * | 2021-07-29 | 2021-12-17 | 北京工商大学 | 一种基于编解码结构的图像语义分割方法 |
WO2023077816A1 (zh) * | 2021-11-03 | 2023-05-11 | 中国华能集团清洁能源技术研究院有限公司 | 边界优化的遥感图像语义分割方法、装置、设备及介质 |
CN114612666A (zh) * | 2022-03-18 | 2022-06-10 | 浙江大学 | 一种基于多模态对比学习的rgb-d语义分割方法 |
CN114943963A (zh) * | 2022-04-29 | 2022-08-26 | 南京信息工程大学 | 一种基于双分支融合网络的遥感图像云和云影分割方法 |
CN114863099A (zh) * | 2022-05-18 | 2022-08-05 | 邱波 | 一种基于多分支非对称卷积模块和多尺度特征融合的地基云图分割网络 |
CN115512103A (zh) * | 2022-09-01 | 2022-12-23 | 中国海洋大学 | 多尺度融合遥感图像语义分割方法及系统 |
CN115496909A (zh) * | 2022-10-24 | 2022-12-20 | 桂林电子科技大学 | 一种三分支自适应权重特征融合的语义分割方法 |
CN116229056A (zh) * | 2022-12-16 | 2023-06-06 | 长沙理工大学 | 基于双分支特征融合的语义分割方法、装置、设备 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
CN116681679A (zh) * | 2023-06-09 | 2023-09-01 | 成都信息工程大学 | 基于双分支特征融合注意的医学图像小目标分割方法 |
Non-Patent Citations (3)
Title |
---|
JIACONG XU 等: "PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers", 《 ARXIV:2206.02066V3 [CS.CV]》, 7 March 2023 (2023-03-07), pages 1 - 11 * |
花爱玲 等: "深度学习在二维虚拟试衣技术的应用与进展", 《计算机工程与应用》, vol. 59, no. 11, 1 June 2023 (2023-06-01), pages 37 - 45 * |
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16), pages 5 - 26 * |
Also Published As
Publication number | Publication date |
---|---|
CN117456191B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN108830171B (zh) | 一种基于深度学习的智能物流仓库引导线视觉检测方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN110659601B (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN117727046A (zh) | 新型山洪前端仪器仪表读数自动识别方法及系统 | |
CN112396042A (zh) | 实时更新的目标检测方法及系统、计算机可读存储介质 | |
CN112861987A (zh) | 暗光环境下的目标检测方法 | |
CN110659572B (zh) | 基于双向特征金字塔的视频动作检测方法 | |
CN112199539A (zh) | 无人机三维地图摄影图像内容自动标注方法、系统及设备 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN113223011B (zh) | 基于引导网络和全连接条件随机场的小样本图像分割方法 | |
CN109241893B (zh) | 基于人工智能技术的道路选择方法、装置及可读存储介质 | |
CN112991281B (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN116543162B (zh) | 基于特征差值与上下文感知一致性的图像分割方法及系统 | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 | |
CN117456191B (zh) | 一种基于三分支网络结构的复杂环境下语义分割方法 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN114998570B (zh) | 一种对象检测框的确定方法、装置、存储介质及电子装置 | |
CN109255794B (zh) | 一种标准件深度全卷积特征边缘检测方法 | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN115424243A (zh) | 基于yolov5-shufflenetv2的车位号码识别方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |