CN116091524B - 一种针对复杂背景中目标的检测与分割方法 - Google Patents

一种针对复杂背景中目标的检测与分割方法 Download PDF

Info

Publication number
CN116091524B
CN116091524B CN202310364445.7A CN202310364445A CN116091524B CN 116091524 B CN116091524 B CN 116091524B CN 202310364445 A CN202310364445 A CN 202310364445A CN 116091524 B CN116091524 B CN 116091524B
Authority
CN
China
Prior art keywords
features
splicing
feature
sampling
bilinear interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310364445.7A
Other languages
English (en)
Other versions
CN116091524A (zh
Inventor
王涛
王坚
王丽
吴旭光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202310364445.7A priority Critical patent/CN116091524B/zh
Publication of CN116091524A publication Critical patent/CN116091524A/zh
Application granted granted Critical
Publication of CN116091524B publication Critical patent/CN116091524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对复杂背景中目标的检测与分割方法,包括如下步骤:S1、制作训练集与测试集;S2、构建检测分割初始模型;S3、输入数据集通过编码器提取特征信息;S4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征;S5、输入提取的特征信息通过倒三角解码器生成预测特征;S6、将预测特征和预测特征通过特征交叉融合网络生成最终预测图;S7、输入数据集训练检测分割初始模型,得到检测分割最终模型,该方法主要由编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络组成,通过对神经网络进行训练,得到最优参数,实现对目标的自动检测与分割。

Description

一种针对复杂背景中目标的检测与分割方法
技术领域
本发明涉及图像处理技术领域,具体指一种基于深度学习并针对复杂背景中目标的检测与分割方法。
背景技术
复杂背景中的目标指的是难以被肉眼或传统计算机视觉技术识别出来的目标。其中,背景可能包括树木、草丛、花园、城市街道等,而目标可以是人、车、建筑、装备或其他任何物体。这些目标采用包括颜色伪装、纹理伪装、形状伪装等独特的伪装技术,将其融入到周围环境中,与背景融为一体,使其自身难以被发现,以避免被侦测或识别。通常这种目标的检测与分割方法用于隐蔽军事行动、犯罪活动、情报收集等领域,也被广泛用于生物学和生态学研究中,以帮助科学家研究野生动物的行为和生存策略。
目标的检测和分割是图像处理、计算机视觉和机器学习等领域中的一个重要研究课题,其目的是让计算机像人一样识别和理解视觉场景中的目标物体。显著性目标是指在一张图片中与背景显著不同的目标物体。目前,研究者在显著性目标检测和分割领域已经取得了很大的成功,并取得了许多优秀的成果。然而,由于显著性目标与伪装目标之间的差异,显著性目标检测模型并不能完美地应用于复杂背景中目标的检测。针对该目标和背景高度相似的特点,通常需要采用更加复杂和精细的方法,例如纹理分析、形状分析、特征匹配等技术,来识别和检测伪装目标,但是计算复杂,效率低下,并且成功率也非常不乐观。
目前针对复杂背景中目标检测与分割的研究仍不成熟。现有的工作主要模仿人类视觉系统,将检测和分割分为定位和聚焦两个阶段。首先,定位模块会大致确定目标的位置,然后聚焦模块会进一步细化目标的边缘和细节特征。但是,目前的模型不能深入分析各种特征之间的差别,也不能深入分析伪装目标前景和背景的特征差异。因此,研究人员无法根据伪装目标的特征针对性地构建模型以获得最佳效果。
本发明重点分析复杂背景中目标的相似特征并进行交叉融合,针对多场景、多物体种类、多隐藏模式的目标,分析出前景与背景的差异特征,而后围绕特征的异同性开展检测与分割工作。
发明内容
针对现有技术中存在的不足,本发明提出一种针对复杂背景中目标的检测与分割方法,该方法主要由Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络组成,通过对神经网络进行训练,得到最优参数,实现对目标的自动检测与分割。
为了解决上述技术问题,本发明的技术方案为:
一种针对复杂背景中目标的检测与分割方法,包括如下步骤:
S1、获取COOD10K数据集,所述COOD10K数据集包括原图与真值图,并制作训练集与测试集;
S2、构建检测分割初始模型,所述检测分割初始模型包括Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络;
所述的Res2Net-50编码器的结构与ResNet50一致,由50个基本块组成,但在每个基本块单个残差块内构造分层的残差类连接,以更细粒度表示多尺度特征,并增加每个网络层的感受野范围,该模块可提取5层包含不同层级信息的特征;
所述的自上向下的解码方式,由双线性插值上采样操作和拼接组成,对高层信息使用双线性插值上采样操作扩大尺寸后,与其下一级特征进行拼接,并缩减通道数。本操作使用高级特征指导低级特征,以增强相似特征,减弱相异特征。
所述的倒三角解码器为聚合特征金字塔结构,由双线性插值上采样、逐元素相乘、拼接等组成,本模块用于融合高级特征与低级特征,以保持不同层级的语义信息一致性并跨层级拼接上下文信息,定位隐藏对象,生成粗糙预测图。
所述的特征交叉融合网络,主要由逐元素相乘与Sigmoid操作组成。使用预测特征
Figure SMS_1
与预测特征
Figure SMS_2
互相交叉指导验证,将验证结果拼接后输出最终预测图,以进一步细化特征信息得到精确的显著图。
S3、输入数据集通过Res2Net-50编码器提取特征信息;
S4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征
Figure SMS_3
S5、输入提取的特征信息通过由双线性插值上采样和拼接组成的倒三角解码器生成预测特征
Figure SMS_4
S6、将预测特征
Figure SMS_5
和预测特征
Figure SMS_6
通过特征交叉融合网络生成最终预测图;
S7、输入数据集训练检测分割初始模型,得到检测分割最终模型。
作为优选,所述Res2Net-50编码器是以ResNet50为主干网络,并且在ResNet50中每个基本块单个残差块内构造分层的残差类连接。
作为优选,所述步骤S3中提取特征信息的方法为:导入数据集中的训练数据提取5层特征
Figure SMS_7
Figure SMS_8
,其中,
Figure SMS_9
Figure SMS_10
为低级语义特征,包括图像的纹理信息和颜色信息;
Figure SMS_11
Figure SMS_12
Figure SMS_13
层为高级语义特征,包括图像的位置信息和上下文内容语义信息;使用Conv3+BN+Relu操作将每层特征的通道数均降至64通道。
作为优选,所述步骤S4中生成预测特征
Figure SMS_14
的方法为:输入由步骤S3提取的特征信息,每一次操作时,对上一层特征进行双线性插值上采样,使其尺寸与下一层特征相同,然后采用拼接操作获取特征
Figure SMS_15
,随后进行降通道操作,得到预测特征
Figure SMS_16
作为优选,所述步骤S5中生成预测特征
Figure SMS_17
的方法为:输入由步骤S3提取的特征信息,使用双线性插值上采样扩大高级语义特征的尺寸,使其与下一级特征具有相同的尺寸,然后将两级特征进行逐元素相乘并与高级语义特征进行拼接,生成位置图,重复上述步骤得到多个位置图,多个位置图两两进行逐元素相乘,得到预测特征
Figure SMS_18
具体的说,本模块共有3个输入,分别为
Figure SMS_22
Figure SMS_25
Figure SMS_28
。首先对
Figure SMS_19
使用双线性插值上采样操作,将其尺寸放大一倍,然后与
Figure SMS_23
逐元素相乘,然后与上一层级信息进行拼接操作,得到
Figure SMS_26
。对
Figure SMS_29
Figure SMS_20
使用同样的操作,得到
Figure SMS_24
。最后对
Figure SMS_27
Figure SMS_30
进行逐元素相乘,得到预测特征
Figure SMS_21
作为优选,所述步骤S6的具体方法为:将预测特征
Figure SMS_31
Figure SMS_32
进过Sigmoid操作,映射至0-1区间,经过交叉融合,进一步强化细节特征,然后使用拼接操作得到最终预测图
Figure SMS_33
作为优选,所述步骤S7的具体方法:在训练过程中,使用Conv1的卷积层将中间特征
Figure SMS_34
的通道数降为1,随后进行Sigmoid操作,生成中间预测图,监督中间预测图和最终预测图
Figure SMS_35
的输出。
作为优选,所述监督的方法为:通过双线性插值上采样放大结果,使其输出的尺寸大小与输入图片相同,然后通过Sigmoid操作将预测图的数值输出映射到0-1,通过比较最终预测图和真值图的差异即损失值,观察损失值之和是否收敛来判断网络的训练过程。
本发明具有以下的特点和有益效果:
结合残差网络、双线性插值上采样和交叉融合等操作,使深度学习网络尽可能的准确识别并分割出复杂背景下的目标,又减轻了网络的训练负担。
Res2Net-50编码器在每个残差块的内部构建特征金字塔结构,进行多尺度的卷积,形成不同感受野,获得不同细粒度的5层特征。通过自上向下的解码方式,利用高级特征逐步指导细化低级特征,以增强相似特征,减弱相异特征。利用倒三角解码器融合高级特征与低级特征,保持不同层级的语义信息一致性并跨层级拼接上下文信息,定位隐藏对象,生成粗糙的预测图。
最后使用特征交叉融合解码器,进一步强化细节特征,生成最终准确的预测图。优异的网络结构,配合严谨的模型训练过程,可得到最优参数,进一步提升了目标预测的准确率。
另外,与已有公开发明相比,本发明具有网络结构简单明了,训练速度快等优点,并且本发明适用于多种复杂场景下的目标,对难以察觉的目标有着更好的观察效果。本发明结构简单,工程部署更为便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种针对复杂背景中目标的检测与分割方法的神经网络模型结构图。
图2为本发明实施例中倒三角解码器结构图。
图3为本发明实施例的测试效果图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
本发明提供了本发明提供了一种针对复杂背景中目标的检测与分割方法,如图1所示,包括如下步骤:
S1、获取COOD10K数据集,所述COOD10K数据集包括原图与真值图,并制作训练集与测试集;
S2、构建针对复杂背景中目标检测与分割的模型;
所述模型包括Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络;
具体的,所述的Res2Net-50编码器的结构与ResNet50一致,由50个基本块组成,但在每个基本块单个残差块内构造分层的残差类连接,以更细粒度表示多尺度特征,并增加每个网络层的感受野范围,该模块可提取5层包含不同层级信息的特征。
如图2所示,所述的自上向下的解码方式,由双线性插值上采样操作和拼接组成,对高层信息使用双线性插值上采样操作扩大尺寸后,与其下一级特征进行拼接,并缩减通道数。本操作使用高级特征指导低级特征,以增强相似特征,减弱相异特征。
所述的倒三角解码器为聚合特征金字塔结构,由双线性插值上采样、逐元素相乘、拼接等组成,本模块用于融合高级特征与低级特征,以保持不同层级的语义信息一致性并跨层级拼接上下文信息,定位隐藏对象,生成粗糙预测图。
所述的特征交叉融合网络,主要由逐元素相乘与Sigmoid操作组成。使用预测特征
Figure SMS_36
与预测特征
Figure SMS_37
互相交叉指导验证,将验证结果拼接后输出最终预测图,以进一步细化特征信息得到精确的显著图。
S3、通过编码器部分提取特征信息;
具体的,利用Res2Net-50编码器,导入数据集中预训练数据提取5层特征
Figure SMS_38
Figure SMS_39
Figure SMS_40
Figure SMS_41
为低级语义特征,包括图像的纹理、颜色等信息,
Figure SMS_42
Figure SMS_43
Figure SMS_44
层为高级语义特征,包括图像的位置、上下文内容等语义信息。
具体的,本实施例中,输入图像尺寸为352×352,输出信息尺寸分别为原图像的1/2、1/2、1/4、1/8和1/16,即176×176、176×176、88×88、44×44和22×22,通道数分别为64、256、512、1024和2048,使用Conv3+BN+Relu操作将每层特征的通道数均降至64通道,分别标注为
Figure SMS_45
Figure SMS_46
S4、通过自上向下的解码方式生成预测特征
Figure SMS_47
具体的,每一次操作时,对上一层特征进行双线性插值上采样,使其尺寸与下一层特征相同,然后采用拼接操作获取特征
Figure SMS_48
,随后使用Conv3+BN+Relu进行降通道操作。
本实施例中,对于特征
Figure SMS_49
,其尺寸为22×22,而特征
Figure SMS_53
的尺寸为44×44。因此本发明使用双线性插值上采样,将特征
Figure SMS_56
的尺寸扩大为44×44,后采用拼接操作,并使用Conv3+BN+Relu将通道数降为64得到特征
Figure SMS_51
。同理,使用双线性插值上采样放大特征
Figure SMS_54
,并与特征
Figure SMS_57
进行拼接,并使用Conv3+BN+Relu将通道数降为64得到特征
Figure SMS_58
。由于特征
Figure SMS_50
与特征
Figure SMS_52
之间具有相同的尺寸,在这一部分本发明不采用双线性插值上采样操作。本步骤使用高级特征逐步指导细化低级特征,以增强相似特征,减弱相异特征,以获得粗糙的预测特征
Figure SMS_55
,其尺寸为176×176,通道数为64。本步骤融合细节特征,提高检测精度。
S5、通过倒三角解码器模块生成预测特征
Figure SMS_59
具体的,本模块并使用双线性插值上采样扩大高级特征的尺寸,使其与下一级特征具有相同的尺寸,然后将两级特征进行逐元素相乘并与高级特征进行拼接,用于不同层级内的语义一致性并跨层级拼接上下文信息,定位隐藏对象,生成粗糙的位置图。
本实施例中,共有3个输入,分别为
Figure SMS_67
Figure SMS_63
Figure SMS_71
。其中特征
Figure SMS_64
的尺寸为44×44,其中特征
Figure SMS_72
的尺寸为88×88,其中特征
Figure SMS_68
的尺寸为176×176,三个特征均为64通道。首先对
Figure SMS_75
使用双线性插值上采样操作,将其尺寸放大为88×88,然后与
Figure SMS_60
进行逐元素相乘操作,并拼接经过上采样后的特征
Figure SMS_69
,然后经过Conv3+BN+Relu操作将通道数降为64,得到
Figure SMS_62
,其尺寸为88×88。同理,对
Figure SMS_73
Figure SMS_66
执行同样的操作,得到
Figure SMS_74
,其尺寸为176×176,通道数为64。最后使用双线性插值上采样将
Figure SMS_65
的尺寸放大至176×176,并与
Figure SMS_70
进行逐元素相乘,使用Conv3+BN+Relu操作将通道数降为64,得到预测特征
Figure SMS_61
,其尺寸为176×176。公式如下:
倒三角解码器:
Figure SMS_76
其中CBR(‧)表示Conv3+BN+Relu操作,
Figure SMS_77
表示双线性插值上采样2倍操作,Cat(‧)表示拼接操作,
Figure SMS_78
表示逐元素相乘操作。
S6、通过特征交叉融合网络生成精确的最终预测图
具体的,将预测特征
Figure SMS_79
Figure SMS_80
进过Sigmoid操作,映射至0-1区间后,经过交叉融合,进一步强化细节特征。
本实施例中,对预测特征
Figure SMS_83
使用Sigmoid操作得到的张量与预测特征
Figure SMS_84
逐元素相乘,得到特征
Figure SMS_87
,其尺寸为176×176,通道数为64。同理,对预测特征
Figure SMS_82
使用Sigmoid操作得到的张量与预测特征
Figure SMS_85
逐元素相乘,得到特征
Figure SMS_88
,其尺寸为176×176,通道数为64。然后,将特征
Figure SMS_89
与特征
Figure SMS_81
拼接,随后是Conv3+BN+Relu降通道操作,得到最终的结果
Figure SMS_86
,其尺寸为176×176,通道数为1,此为本神经网络的最终输出,公式如下:
特征交叉融合网络:
Figure SMS_90
其中CBR(‧)表示Conv3+BN+Relu操作,
Figure SMS_91
表示逐元素相乘操作,Cat(‧)表示拼接操作。
S7、训练构建好的针对复杂背景中目标检测与分割的模型
具体的,训练过程中,使用Conv1的卷积层将中间特征
Figure SMS_92
的通道数降为1,随后进行Sigmoid操作,生成中间预测图,监督如附图1所示位置的中间预测图和最终预测图
Figure SMS_93
的输出。对需要监督的部分,通过双线性插值上采样放大结果,使其输出的尺寸大小为352×352,与输入图片相同。然后通过Sigmoid运算将预测图的数值输出映射到0-1。通过比较预测图和真值图的差异,观察六个损失值之和是否收敛来判断网络的训练过程。
其中,预测图与GT图的差异对比采用BCE损失和SSIM损失计算。
其中,所述步骤S7中输入数据的尺寸统一调整为352×352×3,批处理大小设置为16,在训练过程中利用Adam优化器对模型参数进行更新操作,初始学习率设置为1e-3。
上述技术方案中,结合使用BCE损失和SSIM损失,SSIM损失度量区块级损失,考虑了每个像素的局部邻域,对细节有很好的监督作用。BCE是交叉熵损失,侧重于像素级,有助于网络收敛。SSIM损失考虑每个像素点的局部临近区域,对边界具有较好的监督作用。每张位置图的损失值为
Figure SMS_94
,本训练过程中,通过观测6个损失值的和
Figure SMS_95
是否收敛来判断网络的训练过程,若其值收敛,则此网络训练完成。
本发明重点分析复杂背景中目标的相似特征并进行交叉融合,针对多场景、多物体种类、多隐藏模式的目标,分析出前景与背景的差异特征,而后围绕特征的异同性开展检测与分割工作。本发明主要是采用自上向下的解码方式,同时采用特征交叉融合模块补充遗漏的细节信息。具体的说,当一张图片经过编码器提取特征后,其可提取出5层特征,分别为低级特征和高级特征,其中低级特征主要包括空间细节信息(如边缘信息、纹理信息等),高级特征主要包括语义信息(如位置信息等)。本发明首先采用双线性插值上采样、拼接等操作方法,利用高层语义信息指导低层语义信息,在这过程中,逐步增强高级特征与低级特征的相似特征,并检索相异特征,得到预测特征
Figure SMS_96
。同时,使用倒三角解码器,同时将高级特征与低级特征进行解码输出,得到预测特征
Figure SMS_97
。最后,使用特征交叉融合模块,充分挖掘预测特征
Figure SMS_98
与预测特征
Figure SMS_99
的相似特征,进一步细化边缘纹理信息,提高模型的检测精度与范围。
相比现有技术而言,结构更加简单,特征提取所占用内存小,大大提高了目标检测和分割的效率,同时,该方法对检测精度有明显的提升。
针对复杂背景中目标检测与分割的方法的意义不仅体现在学术研究中,还可以与现实生活相结合,具有实际工程应用价值。例如,可应用于在医学领域中病变部位的息肉也检测,区分并分割息肉与感染病灶。在农学领域的病害虫检测,以实现害虫控制。军事领域可用于伪装和隐藏士兵和军事设备的检测,以保护士兵安全,取得战场主动权。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (7)

1.一种针对复杂背景中目标的检测与分割方法,其特征在于,包括如下步骤:
S1、获取COOD10K数据集,所述COOD10K数据集中包括原图与真值图,并制作训练集与测试集;
S2、构建检测分割初始模型,所述检测分割初始模型包括Res2Net-50编码器、双线性插值上采样、拼接、倒三角解码器和特征交叉融合网络,
所述Res2Net-50编码器是以ResNet50为主干网络,并且在ResNet50中每个基本块单个残差块内构造分层的残差类连接;
由双线性插值上采样操作和拼接组成进行自上向下的解码方式;
所述倒三角解码器为聚合特征金字塔结构,由双线性插值上采样、逐元素相乘、拼接组成;
所述特征交叉融合网络,由逐元素相乘与Sigmoid操作组成;
S3、输入数据集通过Res2Net-50编码器提取特征信息;
S4、输入提取的特征信息由双线性插值上采样和拼接组成的网络通过自上向下的解码方式生成预测特征
Figure QLYQS_1
S5、输入提取的特征信息通过由双线性插值上采样和拼接组成的倒三角解码器生成预测特征
Figure QLYQS_2
S6、将预测特征
Figure QLYQS_3
和预测特征
Figure QLYQS_4
通过特征交叉融合网络生成预测图;
S7、输入数据集训练检测分割初始模型,得到检测分割最终模型。
2.根据权利要求1所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述步骤S3中提取特征信息的方法为:导入数据集中的训练数据提取5层特征
Figure QLYQS_6
Figure QLYQS_8
,其中,
Figure QLYQS_10
Figure QLYQS_7
为低级语义特征,包括图像的纹理信息和颜色信息;
Figure QLYQS_9
Figure QLYQS_11
Figure QLYQS_12
层为高级语义特征,包括图像的位置信息和上下文内容语义信息;使用
Figure QLYQS_5
操作将每层特征的通道数均降至64通道。
3.根据权利要求2所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述步骤S4中生成预测特征
Figure QLYQS_13
的方法为:输入由步骤S3提取的特征信息,每一次操作时,对上一层特征进行双线性插值上采样,使其尺寸与下一层特征相同,然后采用拼接操作获取特征
Figure QLYQS_14
,随后进行降通道操作,得到预测特征
Figure QLYQS_15
4.根据权利要求3所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述步骤S5中生成预测特征
Figure QLYQS_16
的方法为:输入由步骤S3提取的特征信息,使用双线性插值上采样扩大高级语义特征的尺寸,使其与下一级特征具有相同的尺寸,然后将两级特征进行逐元素相乘并与高级语义特征进行拼接,生成位置图,重复上述步骤得到多个位置图,多个位置图两两进行逐元素相乘,得到预测特征
Figure QLYQS_17
5.根据权利要求4所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述步骤S6的具体方法为:将预测特征
Figure QLYQS_18
Figure QLYQS_19
进过Sigmoid操作,映射至0-1区间,经过交叉融合,进一步强化细节特征,然后,使用拼接操作得到最终的输出最终预测图
Figure QLYQS_20
6.根据权利要求1-5任意一项所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述步骤S7的具体方法:在训练过程中,使用
Figure QLYQS_21
卷积层将中间特征
Figure QLYQS_22
的通道数变为1,随后进行Sigmoid,生成中间预测图,监督中间预测图和最终预测图
Figure QLYQS_23
7.根据权利要求6所述的一种针对复杂背景中目标的检测与分割方法,其特征在于,所述监督的方法为:通过双线性插值上采样放大结果,使其输出的尺寸大小与输入图片相同,然后通过Sigmoid操作将最终预测图的数值输出映射到0-1,通过比较最终预测图
Figure QLYQS_24
和真值图的差异即损失值,观察损失值之和是否收敛来判断网络的训练过程。
CN202310364445.7A 2023-04-07 2023-04-07 一种针对复杂背景中目标的检测与分割方法 Active CN116091524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310364445.7A CN116091524B (zh) 2023-04-07 2023-04-07 一种针对复杂背景中目标的检测与分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310364445.7A CN116091524B (zh) 2023-04-07 2023-04-07 一种针对复杂背景中目标的检测与分割方法

Publications (2)

Publication Number Publication Date
CN116091524A CN116091524A (zh) 2023-05-09
CN116091524B true CN116091524B (zh) 2023-06-13

Family

ID=86201036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310364445.7A Active CN116091524B (zh) 2023-04-07 2023-04-07 一种针对复杂背景中目标的检测与分割方法

Country Status (1)

Country Link
CN (1) CN116091524B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197166B (zh) * 2023-11-06 2024-02-06 中南大学 基于边缘和邻域信息的息肉图像分割方法及成像方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389078B (zh) * 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
CN113891060B (zh) * 2020-07-03 2024-06-07 阿里巴巴集团控股有限公司 自由视点视频重建方法及播放处理方法、设备及存储介质
CN112464901B (zh) * 2020-12-16 2024-02-02 杭州电子科技大学 基于梯度脸局部高阶主方向模式的人脸特征提取方法
CN112669325B (zh) * 2021-01-06 2022-10-14 大连理工大学 一种基于主动式学习的视频语义分割方法
CN114627299B (zh) * 2022-04-21 2023-10-27 杭州电子科技大学 一种模仿人类视觉系统对伪装目标检测与分割方法

Also Published As

Publication number Publication date
CN116091524A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111666921B (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN113240691B (zh) 一种基于u型网络的医学图像分割方法
JP7026826B2 (ja) 画像処理方法、電子機器および記憶媒体
CN110853022B (zh) 病理切片图像的处理方法、装置、系统及存储介质
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110555434A (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN111242959B (zh) 基于卷积神经网络的多模态医学图像的目标区域提取方法
CN112419295B (zh) 医学图像处理方法、装置、计算机设备和存储介质
CN113192124B (zh) 一种基于孪生网络的图像目标定位方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN116091524B (zh) 一种针对复杂背景中目标的检测与分割方法
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN110942464A (zh) 一种融合2维和3维模型的pet图像分割方法
CN113989261A (zh) 基于Unet改进的无人机视角下红外图像光伏板边界分割方法
CN113554656B (zh) 基于图神经网络的光学遥感图像实例分割方法及装置
US20240185590A1 (en) Method for training object detection model, object detection method and apparatus
CN112489062B (zh) 基于边界及邻域引导的医学图像分割方法及系统
Wang et al. Water hazard detection using conditional generative adversarial network with mixture reflection attention units
CN117496138A (zh) 面向点云分割的伪实例对比学习实现方法、装置及介质
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant