CN117593633A - 面向海洋场景的图像识别方法、系统、设备和存储介质 - Google Patents

面向海洋场景的图像识别方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN117593633A
CN117593633A CN202410083148.XA CN202410083148A CN117593633A CN 117593633 A CN117593633 A CN 117593633A CN 202410083148 A CN202410083148 A CN 202410083148A CN 117593633 A CN117593633 A CN 117593633A
Authority
CN
China
Prior art keywords
feature map
feature
image
depth
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410083148.XA
Other languages
English (en)
Inventor
叶宁
乐仁龙
楼杭欣
楼靖娟
王冲亚
雷景生
杨胜英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Haihaixian Information Technology Co ltd
Original Assignee
Ningbo Haihaixian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Haihaixian Information Technology Co ltd filed Critical Ningbo Haihaixian Information Technology Co ltd
Priority to CN202410083148.XA priority Critical patent/CN117593633A/zh
Publication of CN117593633A publication Critical patent/CN117593633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及一种面向海洋场景的图像识别方法、系统、设备和存储介质,通过主干网络对有待测目标的原始图像进行特征提取,得到初始特征图,并对初始特征图进行下采样,得到多尺度特征图;通过关联感知注意力模型获取初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,将注意力特征图和初始特征图进行拼接得到输出特征图;通过深度金字塔池化模型提取初始特征图n层深度的特征信息,并对特征信息进行融合拼接,得到多深度特征图;根据多尺度特征图、输出特征图和多深度特征图进行解码重构,得到分割图像;识别出原始图像中待测目标的类别,本发明通过结合深度金字塔池化和关联感知注意力模型,解决图像识别精度低的问题。

Description

面向海洋场景的图像识别方法、系统、设备和存储介质
技术领域
本发明涉及图像识别技术领域,特别是涉及面向海洋场景的图像识别方法、系统、设备和存储介质。
背景技术
随着海洋养殖和水下抓取技术的不断发展挑战,高精度的水下生物和物品识别成为了挑战。而现有的水下目标检测技术仅能给出物体的大体位置,无法提供物体轮廓等更加细致的信息。在现有技术中,常采用语义分割模型来进行对象识别,而语义分割模型相较于普通目标检测算法,不同的是语义分割模型是给定图像中的每个像素点分配类别标签,因此是图像理解很重要的一环。
但是,在对水下图像进行分割过程中,通常会面临目标尺度多样性、空间关系复杂、布局位置不规则和光谱不一的情况,因此语义分割模型应用在水下场景拍摄的图像时,无法充分整合图像的上下文信息且缺乏提取判别性特征信息能力,使得模型在分割时存在边缘分割不清晰与分类错误等问题,从而降低了对水下图像进行识别的精度。
发明内容
本发明实施例提供了一种面向海洋场景的图像识别方法、系统、设备和存储介质,以至少解决相关技术中解决了特征提取过程中上下文信息不足、特征关联性不强和特征不显著的问题的问题。
第一方面,本发明实施例提供了一种面向海洋场景的图像识别方法,包括:
通过主干网络对有待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图;
通过关联感知注意力模型获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,将所述注意力特征图和所述初始特征图进行拼接得到输出特征图;
通过深度金字塔池化模型提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图;
根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;
对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别。
在一实施例中,对所述初始特征图分别进行1×1卷积、扩张率为6的3×3卷积、扩张率为12的3×3卷积、扩张率为18的3×3卷积和平均池化处理,得到多个包含不同语义信息的语义特征图;
根据通道将多个语义特征图进行拼接,得到拼接特征图;
将所述拼接特征图进行1×1卷积处理,得到所述多尺度特征图。
在一实施例中,所述通过关联感知注意力模型获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,包括:
按照通道维度将所述初始特征图平均分为第一特征图和第二特征图;
将所述第一特征图和第二特征图依次进行深度卷积、最大池化和逐点卷积处理,得到不同通道维度的第一注意力特征图和第二注意力特征图;
对所述第一注意力特征图和第二注意力特征图进行逐像素相加处理,得到包含跨通道交互信息的注意力特征图。
在一实施例中,所述将所述注意力特征图和所述初始特征图进行拼接得到输出特征图,包括:
对所述注意力特征图进行全局平均池化处理得到聚合特征;
将所述聚合特征依次进行卷积核大小为k的一维卷积处理和Sigmoid激活处理,得到待输出特征图,其中,k根据所述通道维度确定;
将所述待输出特征图进行尺寸扩张处理后,与所述初始特征图进行逐像素拼接得到所述输出特征图。
在一实施例中,所述通过深度金字塔池化模型提取所述初始特征图n层深度的特征信息,包括:
将所述初始特征图进行1×1卷积处理,得到第1层深度的特征信息;
将所述初始特征图经多个分支的平均池化处理后再分别进行1×1卷积降维,得到第2层至第n-1层深度的特征信息;
将所述初始特征图进行全局平均池化处理再进行1×1卷积降维,得到第n层的特征信息。
在一实施例中,所述对所述特征信息进行融合拼接,得到多深度特征图,包括:
若当前深度为第一层,则将第一层深度的特征信息作为当前深度的待融合信息;若当前深度为第2层至第n层中的任意一层,则对当前深度的特征信息进行双线性插值上采样后,与前一层深度的待融合信息相加并进行3×3卷积处理,得到当前深度的待融合信息;
根据通道依次将每一层深度的待融合信息进行拼接,得到融合信息;
分别对所述初始特征图和所述融合信息进行卷积降维处理,将降维后的初始特征图和融合信息进行残差连接,得到所述多深度特征图。
在一实施例中,所述根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像,包括:
将卷积降维处理后的输出特征图与所述多深度特征图根据通道进行拼接,得到第三特征图;
将所述多尺度特征图进行上采样处理后,再与所述第三特征图融合得到第四特征图;
对所述第四特征图依次进行3×3卷积和上采样处理,得到分割图像。
第二方面,本发明实施例提供了一种面向海洋场景的图像识别系统,所述系统包括编码器和解码器,所述编码器包括主干网络、关联感知注意力模块和深度金字塔池化模块;
其中,所述主干网络对包含待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图;
所述关联感知注意力模块获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,将所述注意力特征图和所述初始特征图进行拼接得到输出特征图;
所述深度金字塔池化模块通过深度金字塔池化模块提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图;
所述解码器根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;并对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的面向海洋场景的图像识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的面向海洋场景的图像识别方法。
本发明实施例提供的面向海洋场景的图像识别方法、系统、设备和存储介质至少具有以下技术效果:
综上所述,本发明引入了关联感知注意力模型,生成可以通过通道维度的非线性映射自适应确定卷积核大小的通道注意力,通过建立像素点间的长距离依赖和选择性捕获显著通道特征来提高模型识别准确度和分割精确度。本发明通过结合深度金字塔池化和关联感知注意力模型,解决相关技术中解决了特征提取过程中上下文信息不足、特征关联性不强和特征不显著的问题的问题。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明一实施例面向海洋场景的图像识别方法的流程图;
图2是本发明一实施例面向海洋场景的图像识别系统的结构框图;
图3是本发明一实施例关联感知注意力模块的结构框图;
图4是本发明一实施例深度金字塔池化模块的结构框图;
图5是应用本发明图像识别方法对图像进行处理得到的分割结果可视化图;
图6是本发明一实施例电子设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本发明公开的内容相关的本领域的普通技术人员而言,在本发明揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本发明公开的内容不充分。
在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本发明所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本发明所涉及的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本发明所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本发明所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本发明所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
传统的金字塔池模块虽然能有效融合多尺度信息,但由于其对高层多尺度特征图经过简单的池化操作,并无法防止分辨率和细节信息的丢失,即便后续加入空洞卷积优化也无法避免像素点采样不密集、信息被抛弃的问题,并且缺乏提取目标有判别性特征的能力,从而导致像素点分类错误。因此本发明为提高语义分割模型的性能,提出了结合深度金字塔池化和关联感知注意力的多策略融合方法,以解决以上问题。
图2是结合深度金字塔池化模块和关联感知注意力模块的多策略融合模型是在一个通用的编码器和解码器基础上搭建,其具体的结构如图2所示,其中主干网络选用ResNet,输入主干网络的是包含有待测目标的原始图像,如在拍摄水底生物的图片,经过主干网络处理后发送编码器中的深度金字塔池化模块和关联感知注意力模块,解码器用于对深度金字塔池化模块和关联感知注意力模块输出的结果进行解码重构,输出分割结果。
本发明提出了一种面向海洋场景的图像识别方法、系统、设备和存储介质,包括场景目标分割的结合深度金字塔池化和关联感知注意力多策略融合模型,该网络采用深度金字塔池化模块(包含深度金字塔池化模型)和关联感知注意力模块(包含关联感知注意力模型)相结合,解决了特征提取过程中上下文信息不足、特征关联性不强和特征不显著的问题,参考图1,本发明一实施例的图像识别方法具体包括如下内容。
步骤S1,通过主干网络对包含待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图。
具体地参考图2,本发明实施例对主干网络输出的初始特征图分别进行1×1卷积、扩张率为6的3×3卷积、扩张率为12的3×3卷积、扩张率为18的3×3卷积和平均池化处理,得到多个包含不同语义信息的语义特征图;根据通道将多个语义特征图进行拼接,得到拼接特征图;将所述拼接特征图镜像进行1×1卷积处理,得到所述多尺度特征图。即本发明的编码器通过对输入的初始图像分别经过1×1卷积、扩张率为6的3×3卷积、扩张率为12的3×3卷积、扩张率为18的3×3卷积和平均池化下采样来获取丰富的语义信息,然后将学习到的高层特征通过解码器进行解码重构并用于像素级语义预测。
步骤S2,通过关联感知注意力模型获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,并将所述注意力特征图和所述初始特征图进行拼接得到输出特征图。
在获取注意力特征图时,本实施例先按照通道维度将所述初始特征图平均分为两组,得到第一特征图和第二特征图;然后将所述第一特征图和第二特征图依次进行深度卷积、最大池化和逐点卷积处理,得到不同通道维度的第一注意力特征图和第二注意力特征图;再对所述第一注意力特征图和第二注意力特征图进行逐像素相加处理,得到包含跨通道交互信息的注意力特征图。
在得到注意力特征图后,可以对注意力特征图做进一步处理得到输出特征图。其中,首先对所述注意力特征图进行全局平均池化处理得到聚合特征;然后将所述聚合特征依次进行卷积核大小为k的一维卷积处理和Sigmoid激活处理,得到待输出特征图,其中,k根据所述通道维度确定;再将所述待输出特征图进行尺寸扩张处理后,再与所述初始特征图进行逐像素拼接得到所述输出特征图。
参考图3,在一优选实施例中,本实施例关联感知注意力模块将初始特征图按照通道维度平均分为两组:第一特征图/>和第二特征图/>,如图3所示。其中R代表域,w×h表示初始特征图尺寸大小,c表示初始特征图的通道数。在本发明中,深度金字塔池化模块中的卷积核能够保证在遍历过程中捕获丰富特征信息,而关联感知注意力模块则考虑到适当减少模型复杂度不会影响模型分割精确度的基础上,将普通卷积更换为深度可分离卷积进行操作,得到的第一注意力特征图/>和第二注意力特征图/>,本实施例对两组通道维度不同的特征图的操作都相同,其过程可用以下公式表示:
(1)
(2)
其中,是1×1深度卷积处理,/>是最大池化处理,/>是1×1逐点卷积处理,最后将/>和/>拼接成注意力特征图/>。本实施例通过将初始特征图分成两部分进行卷积再逐元素相加生成注意力特征图/>的方式,以去捕获像素间的长期依赖联系。
通过关联感知注意力模块对初始特征图的处理,本实施例在不降维丢失细节信息的基础上使用通道注意力的方式去捕获跨通道交互信息,提高判别性特征信息的提取能力。接下来,本实施例将注意力特征图通过全局平均池化获得聚合特征,再执行大小为/>的一维卷积和Sigmoid激活后进行尺寸扩张,再与初始特征图点乘(逐元素相积)得到输出特征图。
在本实施例中,是由通道维度的大小自适应确定,分组卷积结构下的神经网络结构中,通道维度越高面向的卷积数也越多,其中存在正比关系,于是也能推出通道交互的覆盖范围即/>和通道数c之间也存在对应的映射关系:
(3)
其中,q和d为函数参数。本实施例将通道数的设置为2的次方,由此可以将线性函数经过推广得出一个简单的且具有一定可行性的非线性函数:
(4)
而在通道数c已知的情况下,可以求得卷积核大小
(5)
其中是奇偶判断函数,若结果为奇数的话则在原先基础上进行加1运算,偶数则不变,通过这种映射关系可以实现卷积核大小的自适应。在本实施例中,参数q和d的值皆由用户根据实际情况设置,本发明在所有实验中,将参数/>和/>分别设置为1和2来计算通道数c。最后将注意力特征图尺寸扩张到初始大小并与上分支逐元素(初始特征图)相积后得到输出特征图O。
步骤S3,通过深度金字塔池化模型提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图。本实施例改善了传统的金字塔池化模块,将不同深度与不同大小的池化核相结合,聚合局部和全局的深度信息,从而增强空间信息,提高模型的鲁棒性。
在本实施例中,假设获取初始特征图n层深度的信息,则对于第一层深度,将所述初始特征图进行1×1卷积处理,得到第一层深度的特征信息;对于第2至n-1层的深度,将所述初始特征图经多个分支的平均池化处理后再分别进行1×1卷积降维,得到第二层至第n-1层深度的特征信息;对于第n层的深度,将所述初始特征图进行全局平均池化处理后再进行1×1卷积降维,得到第n层的特征信息。
在得到不同深度的特征信息后,再对每一层的特征信息进行融合,从而得到不同深度的上下文信息。具体地,若当前深度为第一层,则将第一层深度的特征信息作为当前深度的待融合信息;若当前深度为第2-n层中的任意一层,则对当前深度的特征信息进行双线性插值上采样后,与前一层深度的待融合信息相加后进行3×3卷积处理,得到当前深度的待融合信息;再根据通道依次将每一层深度的待融合信息进行拼接,得到融合信息;最后分别对所述初始特征图和所述融合信息进行卷积降维处理,将降维后的初始特征图和融合信息进行残差连接,得到包含了上下文信息的多深度特征图。
在本发明一优选实施例中,深度金字塔池模块的结构具体如图4所示,该模块从主干网络中接收到原始图像1/4分辨率的特征图(即初始特征图),然后经过多分支的平均池化处理获得1/8、1/16、1/32图像分辨率的特征图(相当于特征信息),以及一个全局平均池化将空间信息整合汇总生成图像级信息(第n层的特征信息)。在将第2至n层深度的特征信息进行1×1卷积进行降维后,再将特征图均匀地分割成特征映射子集用表示,然后再经过上采样处理。另外,本实施例的深度金字塔池化模块在1×1卷积之后增加逐层3×3卷积以分层残差的方式融合不同尺度的上下文信息,有效避免了网络在下采样导致的特征信息丢失,其中,输出的各个尺度特征信息以公式(6)表示:
(6)
其中,Conv3x3表示卷积核为3×3的卷积,Up表示双线性插值上采样,Xi是第i层的特征信息,Si是第i层的待融合信息。在本实施例中,除去X1和S1是未经过任何操作的直接映射外,其余每个Xi都通过与对应的Si-1相加输入到3×3卷积进行转换,从而在获取多深度特征图的同时扩大感受野。最后将拼接的所有特征图(相当于融合信息)通过1×1卷积进行降维后进行残差连接。
步骤S4,根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;将卷积降维处理后的输出特征图与所述多深度特征图根据通道进行拼接,得到第三特征图。具体地,将所述多尺度特征图进行上采样处理后,再与所述第三特征图融合得到第四特征图;对所述第四特征图依次进行3×3卷积和上采样处理,得到分割图像。
例如,参考图2,在解码阶段,传统的解码器由于在上采样恢复特征图分辨率的过程中存在空间信息损失的问题,很大程度降低了模型在分割的性能,因此,本发明将上采样的过程分为两部分,首先将得到的多尺度特征图M进行上采样4倍,再通过与特征图W融合进行特征补全,其中特征图W是由关联感知注意力模块和深度金字塔池化模块的输出特征图融合所得(即W是通过将第三特征图进行1×1卷积处理后得到的)。本实施例通过上述内容,避免了大倍率上采样导致的细节信息丢失,再经过3×3卷积层来细化特征,最后再进行一次4倍上采样,并将特征映射到类,从而将类映射重新缩放到输入分辨率。
步骤S5,对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别,最后对分割图像进行识别,由于经过步骤S1-S4的处理,图像中的待测目标(生物或者物品)与周围环境界限清晰、有着明显的差别,如图5所示,图5中的(a)是原图,图5中的(b)是经过本发明方案处理得到的分割结果图,将分割结果图与原图进行对比,很容易识别出原图中待测目标的形状及位置,根据分割结果图可将待测目标精准的从模糊的图片中识别出来,从而提高了图像识别的精度。
本发明通过采用深度特征金字塔和关联感知注意力模块,解决了特征提取过程中上下文信息不足、特征关联性不强和特征不显著的问题。在应用本发明的方案时,本发明的图像识别方法在场景目标分割数据集即 Pascal VOC 2012上保持出色的性能,取得10.7%的MIoU,在水下数据集即DUT-USEG上取得优秀的结果,即76.3%的MIoU,相比现有技术,在识别精度上有明显的提升。
综上所述,本发明提供的面向海洋场景的图像识别方法改善了传统的金字塔池化模块,将不同深度与不同大小的池化核相结合,聚合局部和全局的深度信息,从而增强空间信息,提高模型的鲁棒性。另外,本发明还引入了关联感知注意力模块,生成可以通过通道维度的非线性映射自适应确定卷积核大小的通道注意力,通过建立像素点间的长距离依赖和选择性捕获显著通道特征来提高模型识别准确度和分割精确度。
第二方面,本发明实施例提供了一种面向海洋场景的图像识别系统,其特征在于,所述系统包括编码器和解码器,所述编码器包括主干网络、关联感知注意力模块和深度金字塔池化模块。
其中,所述主干网络对包含待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图;所述关联感知注意力模块获取所述初始特征图中不同通道维度的特征交互信息进行融合得到注意力特征图,并将所述注意力特征图和所述初始特征图进行拼接得到输出特征图;所述深度金字塔池化模块通过深度金字塔池化模块提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图;所述解码器根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;并对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别。
综上所述,本发明提供的面向海洋场景的图像识别系统,改善了传统的金字塔池化模块,将不同深度与不同大小的池化核相结合,聚合局部和全局的深度信息,从而增强空间信息,提高模型的鲁棒性。另外,本发明还引入了关联感知注意力模块,生成可以通过通道维度的非线性映射自适应确定卷积核大小的通道注意力,通过建立像素点间的长距离依赖和选择性捕获显著通道特征来提高模型识别准确度和分割精确度。
需要说明的是,本实施例提供的面向海洋场景的图像识别系统用于实现上述实施方式,已经进行过说明的不再赘述。如以上所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以上实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
第三方面,本发明实施例提供了一种电子设备,图6是根据一示例性实施例示出的电子设备的框图。如图6所示,该电子设备可以包括处理器11以及存储有计算机程序指令的存储器12。
具体地,上述处理器11可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
其中,存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器12可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器12可在数据处理装置的内部或外部。在特定实施例中,存储器12是非易失性(Non-Volatile)存储器。在特定实施例中,存储器12包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器11所执行的可能的计算机程序指令。
处理器11通过读取并执行存储器12中存储的计算机程序指令,以实现上述实施例中的任意一种面向海洋场景的图像识别方法。
在一实施例中,电子设备还可包括通信接口13和总线10。其中,如图6所示,处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。
通信接口13用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线10包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线10可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线10可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现第一方面中提供的面向海洋场景的图像识别方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现第一方面提供的面向海洋场景的图像识别方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向海洋场景的图像识别方法,其特征在于,包括:
通过主干网络对有待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图;
通过关联感知注意力模型获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,将所述注意力特征图和所述初始特征图进行拼接得到输出特征图;
通过深度金字塔池化模型提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图;
根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;
对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始特征图进行下采样,得到多尺度特征图,包括:
对所述初始特征图分别进行1×1卷积、扩张率为6的3×3卷积、扩张率为12的3×3卷积、扩张率为18的3×3卷积和平均池化处理,得到多个包含不同语义信息的语义特征图;
根据通道将多个语义特征图进行拼接,得到拼接特征图;
将所述拼接特征图进行1×1卷积处理,得到所述多尺度特征图。
3.根据权利要求1所述的方法,其特征在于,所述通过关联感知注意力模型获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,包括:
按照通道维度将所述初始特征图平均分为第一特征图和第二特征图;
将所述第一特征图和第二特征图依次进行深度卷积、最大池化和逐点卷积处理,得到通道维度不同的第一注意力特征图和第二注意力特征图;
对所述第一注意力特征图和第二注意力特征图进行逐像素相加处理,得到包含跨通道交互信息的注意力特征图。
4.根据权利要求3所述的方法,其特征在于,所述将所述注意力特征图和所述初始特征图进行拼接得到输出特征图,包括:
对所述注意力特征图进行全局平均池化处理得到聚合特征;
将所述聚合特征依次进行一维卷积处理和Sigmoid激活处理,得到待输出特征图;
将所述待输出特征图进行尺寸扩张处理后,与所述初始特征图进行逐像素拼接得到所述输出特征图。
5.根据权利要求1所述的方法,其特征在于,所述通过深度金字塔池化模型提取所述初始特征图n层深度的特征信息,包括:
将所述初始特征图进行1×1卷积处理,得到第1层深度的特征信息;
将所述初始特征图经多个分支的平均池化处理后再分别进行1×1卷积降维,得到第2层至第n-1层深度的特征信息;
将所述初始特征图进行全局平均池化处理再进行1×1卷积降维,得到第n层的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述特征信息进行融合拼接,得到多深度特征图,包括:
若当前深度为第一层,则将第一层深度的特征信息作为当前深度的待融合信息;若当前深度为第2层至第n层中的任意一层,则对当前深度的特征信息进行双线性插值上采样后,与前一层深度的待融合信息相加并进行3×3卷积处理,得到当前深度的待融合信息;
根据通道依次将每一层深度的待融合信息进行拼接,得到融合信息;
分别对所述初始特征图和所述融合信息进行卷积降维处理,将降维后的初始特征图和融合信息进行残差连接,得到所述多深度特征图。
7.根据权利要求1所述的方法,其特征在于,所述根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像,包括:
将卷积降维处理后的输出特征图与所述多深度特征图根据通道进行拼接,得到第三特征图;
将所述多尺度特征图进行上采样处理,再与所述第三特征图融合得到第四特征图;
对所述第四特征图依次进行3×3卷积和上采样处理,得到分割图像。
8.一种面向海洋场景的图像识别系统,其特征在于,所述系统包括编码器和解码器,所述编码器包括主干网络、关联感知注意力模块和深度金字塔池化模块;其中,
所述主干网络对包含待测目标的原始图像进行特征提取,得到初始特征图,并对所述初始特征图进行下采样,得到多尺度特征图;
所述关联感知注意力模块获取所述初始特征图中不同通道维度的特征交互信息并进行融合得到注意力特征图,将所述注意力特征图和所述初始特征图进行拼接得到输出特征图;
所述深度金字塔池化模块通过深度金字塔池化模块提取所述初始特征图n层深度的特征信息,并对所述特征信息进行融合拼接,得到多深度特征图;
所述解码器根据所述多尺度特征图、所述输出特征图和多深度特征图进行解码重构,得到分割图像;并对所述分割图像进行像素级语义预测识别出所述原始图像中待测目标的类别。
9.一种电子设备,其特征在于,包括存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的面向海洋场景的图像识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的面向海洋场景的图像识别方法。
CN202410083148.XA 2024-01-19 2024-01-19 面向海洋场景的图像识别方法、系统、设备和存储介质 Pending CN117593633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410083148.XA CN117593633A (zh) 2024-01-19 2024-01-19 面向海洋场景的图像识别方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410083148.XA CN117593633A (zh) 2024-01-19 2024-01-19 面向海洋场景的图像识别方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN117593633A true CN117593633A (zh) 2024-02-23

Family

ID=89917070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410083148.XA Pending CN117593633A (zh) 2024-01-19 2024-01-19 面向海洋场景的图像识别方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117593633A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN113807210A (zh) * 2021-08-31 2021-12-17 西安理工大学 一种基于金字塔切分注意力模块的遥感图像语义分割方法
CN114565655A (zh) * 2022-02-28 2022-05-31 上海应用技术大学 一种基于金字塔分割注意力的深度估计方法及装置
WO2022227913A1 (zh) * 2021-04-25 2022-11-03 浙江师范大学 一种基于物联网感知的双特征融合的语义分割系统及方法
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
US20230184927A1 (en) * 2021-12-15 2023-06-15 Anhui University Contextual visual-based sar target detection method and apparatus, and storage medium
CN116630704A (zh) * 2023-05-23 2023-08-22 电子科技大学 一种基于注意力增强和密集多尺度的地物分类网络模型
CN116645598A (zh) * 2023-04-25 2023-08-25 浙江工业大学 一种基于通道注意力特征融合的遥感图像语义分割方法
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN116912588A (zh) * 2023-07-26 2023-10-20 河南大学 编码-解码下融合非局部注意力机制的农业大棚识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
WO2022227913A1 (zh) * 2021-04-25 2022-11-03 浙江师范大学 一种基于物联网感知的双特征融合的语义分割系统及方法
CN113807210A (zh) * 2021-08-31 2021-12-17 西安理工大学 一种基于金字塔切分注意力模块的遥感图像语义分割方法
US20230184927A1 (en) * 2021-12-15 2023-06-15 Anhui University Contextual visual-based sar target detection method and apparatus, and storage medium
CN114565655A (zh) * 2022-02-28 2022-05-31 上海应用技术大学 一种基于金字塔分割注意力的深度估计方法及装置
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116645598A (zh) * 2023-04-25 2023-08-25 浙江工业大学 一种基于通道注意力特征融合的遥感图像语义分割方法
CN116630704A (zh) * 2023-05-23 2023-08-22 电子科技大学 一种基于注意力增强和密集多尺度的地物分类网络模型
CN116912588A (zh) * 2023-07-26 2023-10-20 河南大学 编码-解码下融合非局部注意力机制的农业大棚识别方法
CN116740362A (zh) * 2023-08-14 2023-09-12 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANFENG OU 等: "Semantic segmentation based on double pyramid network with improved global attention mechanism", 《APPLIED INTELLIGENCE 》, 14 February 2023 (2023-02-14), pages 18898 *
叶绿;段婷;朱家懿;NWOBODO SAMUEL CHUWKUEBUKA;NNOR ARNOLD ANTWI;: "基于多层特征融合的单目深度估计模型", 浙江科技学院学报, no. 04, 31 July 2020 (2020-07-31), pages 14 - 20 *
郭启帆;刘磊;张珹;徐文娟;靖稳峰;: "基于特征金字塔的多尺度特征融合网络", 工程数学学报, no. 05, 15 October 2020 (2020-10-15), pages 5 - 14 *

Similar Documents

Publication Publication Date Title
CN109493350B (zh) 人像分割方法及装置
CN108710847B (zh) 场景识别方法、装置及电子设备
CN110428366B (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN108664981B (zh) 显著图像提取方法及装置
CN106934397B (zh) 图像处理方法、装置及电子设备
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
EP3757890A1 (en) Method and device for image processing, method and device for training object detection model
CN110781923B (zh) 特征提取方法及装置
KR101760323B1 (ko) 장면의 3차원 뷰들을 렌더링 하기 위한 시스템 및 방법
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN112602088B (zh) 提高弱光图像的质量的方法、系统和计算机可读介质
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN107590811B (zh) 基于场景分割的风景图像处理方法、装置及计算设备
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
CN112308866A (zh) 图像处理方法、装置、电子设备及存储介质
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
CN112150363A (zh) 一种基于卷积神经网络的图像夜景处理方法及运行该方法的计算模块与可读存储介质
CN116485944A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
US20230098437A1 (en) Reference-Based Super-Resolution for Image and Video Enhancement
CN117593633A (zh) 面向海洋场景的图像识别方法、系统、设备和存储介质
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN115423697A (zh) 图像修复方法、终端及计算机存储介质
CN112861883B (zh) 一种图像显著性区域检测方法及装置
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination