CN116758092A - 图像分割方法、装置、电子设备及存储介质 - Google Patents

图像分割方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116758092A
CN116758092A CN202310532254.7A CN202310532254A CN116758092A CN 116758092 A CN116758092 A CN 116758092A CN 202310532254 A CN202310532254 A CN 202310532254A CN 116758092 A CN116758092 A CN 116758092A
Authority
CN
China
Prior art keywords
image
feature
attention
features
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310532254.7A
Other languages
English (en)
Inventor
马志豪
孟维亮
郭建伟
张吉光
张晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310532254.7A priority Critical patent/CN116758092A/zh
Publication of CN116758092A publication Critical patent/CN116758092A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像分割方法、装置、电子设备及存储介质,其中方法包括:获取待分割图像;将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;基于所述图像特征,对所述待分割图像进行图像分割;所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。本发明提供的方法、装置、电子设备及存储介质,提高了图像特征涵盖的特征信息的全面性,进一步提高了图像特征的提取质量,提高了图像分割的准确性和可靠性。

Description

图像分割方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像分割方法、装置、电子设备及存储介质。
背景技术
卷积神经网络作为一种广泛应用于图像处理领域的深度学习模型,已经取得了很多成功的应用。
现有技术中,传统的卷积神经网络只能提取局部信息而忽略全局信息,导致在处理大型图像和多尺度图像时存在一定的局限性。自注意力机制是一种强大的图像特征提取方法,但它也存在一些局限性,其局限之一是缺失局部信息。
因此,基于传统的卷积神经网络和自注意力机制提取到的特征信息不够全面、进而基于提取到的特征进行图像分割的准确性和可靠性较低。
发明内容
本发明提供一种图像分割方法、装置、电子设备及存储介质,用以解决现有技术中基于传统的卷积神经网络和自注意力机制提取到的特征信息不够全面、进而基于提取到的特征进行图像分割的准确性和可靠性较低的缺陷。
本发明提供一种图像分割方法,包括:
获取待分割图像;
将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
根据本发明提供的一种图像分割方法,所述图像特征提取模型包括第一提取分支、第二提取分支和第三提取分支,所述第一提取分支、所述第二提取分支和所述第三提取分支均包括特征提取模块,所述特征提取模块包括并行的所述三分支注意力机制、所述视觉转换器和所述卷积模型;
所述第一提取分支用于基于所述特征提取模块提取所述待分割图像的第一图像特征;
所述第二提取分支用于对待分割图像进行下采样,得到第一下采样图像特征,并基于所述特征提取模块对所述第一下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第二图像特征;
所述第三提取分支用于对所述第一下采样图像特征进行再次下采样,得到第二下采样图像特征,并基于所述特征提取模块对所述第二下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第三图像特征;
所述第一提取分支还用于基于所述第一图像特征、所述第二图像特征和所述第三图像特征进行融合得到融合图像特征,并基于所述特征提取模块对所述融合图像特征进行图像分割。
根据本发明提供的一种图像分割方法,所述三分支注意力机制包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支;
所述第一注意力分支用于对所述待分割图像进行列注意力提取,得到列注意力特征;
所述第二注意力分支用于对所述待分割图像进行行注意力提取,得到行注意力特征;
所述第三注意力分支用于对所述待分割图像进行通道注意力提取,得到通道注意力特征;
所述第一注意力分支还用于基于所述列注意力特征、所述行注意力特征和所述通道注意力特征,确定融合特征;
所述融合分支用于将所述融合特征和所述待分割图像的特征图进行特征融合,得到注意力特征。
根据本发明提供的一种图像分割方法,所述第一注意力分支、所述第二注意力分支和所述第三注意力分支均包括顺次连接的第一全连接层、第一归一化层、激活层、第二全连接层和第二归一化层。
根据本发明提供的一种图像分割方法,所述视觉转换器包括第一视觉转换层和第二视觉转换层;
所述第一视觉转换层用于对所述待分割图像的特征图进行位置嵌入,得到位置嵌入特征,并对所述位置嵌入特征进行层正则化,得到正则化特征,再对所述正则化特征进行多头自注意力提取,得到多头自注意力特征,并基于所述多头自注意力特征和所述位置嵌入特征得到第一视觉转换特征;
所述第二视觉转换层用于对所述第一视觉转换特征进行层正则化,得到层正则化特征,再对所述层正则化特征进行感知分类,得到第二视觉转换特征,并基于所述第一视觉转换特征和所述第二视觉转换特征得到视觉转换特征。
根据本发明提供的一种图像分割方法,所述卷积模型包括多个卷积模块,所述卷积模块用于对所述待分割图像的特征图进行卷积操作得到卷积特征,对所述卷积特征进行层归一化得到归一化特征,并对所述归一化特征进行激活得到图像卷积特征。
根据本发明提供的一种图像分割方法,所述特征提取模块还用于基于所述注意力特征、所述视觉转换特征和所述图像卷积特征,得到目标提取特征。
本发明还提供一种图像分割装置,包括:
获取单元,用于获取待分割图像;
特征提取单元,用于将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
图像分割单元,用于基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像分割方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像分割方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法。
本发明提供的图像分割方法、装置、电子设备及存储介质,图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,由此,不仅可以提取到待分割图像中的令牌对应的令牌特征信息,还可以提取到待分割图像的全局特征信息,以及提取到待分割图像的局部特征信息,大大增强了各个特征信息的提取效果,提高了图像特征涵盖的特征信息的全面性,进一步提高了图像特征的提取质量,因此保证了图像分割的有效性,提高了图像分割的准确性和可靠性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像分割方法的流程示意图;
图2是本发明提供的图像特征提取模型的结构示意图;
图3是本发明提供的特征提取模块的结构示意图;
图4是本发明提供的三分支注意力机制的结构示意图;
图5是本发明提供的视觉转换器的结构示意图;
图6是本发明提供的图像分割装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类。
相关技术中,传统的卷积神经网络只能提取局部信息而忽略全局信息,导致在处理大型图像和多尺度图像时存在一定的局限性。因此,为了更好地处理全局信息和多尺度信息,近年来出现了很多新的卷积神经网络结构,如全局平均池化、空间金字塔池化、多尺度卷积等。
尽管这些新的结构取得了一定的成效,但是它们仍然存在一些问题。例如,全局平均池化无法处理具有丰富细节信息的图像;空间金字塔池化需要显式指定不同的尺度,导致计算量增加;多尺度卷积需要设计复杂的网络结构,增加了模型的复杂度和训练难度。
自注意力机制是一种强大的图像特征提取方法,但它也存在一些局限性,局限之一是缺失局部信息。因为自注意力机制是通过计算全局特征向量来捕获相似性,因此可能会忽略掉某些局部特征。例如,在处理物体的边缘或细节时,自注意力机制可能无法准确地捕捉到这些重要的局部信息,因为它只关注了全局特征。
自注意力机制的另一个缺点是忽略了每个patch内部的整体信息。自注意力机制在计算每个像素的权重时,只使用了该像素与其他像素之间的相似度,导致提取的特征不够完整或准确。
基于上述问题,本发明提供一种图像分割方法,图1是本发明提供的图像分割方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待分割图像。
具体地,可以获取待分割图像,此处的待分割图像即后续需要进行图像分割的图像,待分割图像可以是通过图像采集设备预先采集得到的,也可以是实时拍摄得到的,还可以是通过互联网下载或者扫描得到的,例如,待分割图像可以是自然灾害图像等,本发明实施例对此不作具体限定。
步骤120,将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
步骤130,基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
具体地,在获取到待分割图像之后,可以将待分割图像输入至图像特征提取模型,得到图像特征提取模型输出的图像特征。
此处的图像特征提取模型可以包括并行的三分支注意力机制、视觉转换器(Vision Transformer,ViT)和卷积模型。此处的三分支注意力机制可以包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支。
此处的三分支注意力机制可以用于提取待分割图像的令牌对应的令牌特征信息,此处的视觉转换器用于提取待分割图像的全局特征信息,此处的卷积模型可以用于提取待分割图像的局部特征信息。
此处的令牌是指将待分割图像以滑动窗口的方式,划分为不同的图像块,并对每个图像块进行编码得到的,此处,对每个图像块进行编码可以使用级联结构的多层卷积神经网络(Convolutional Neural Network,CNN),也可以是深度神经网络(Deep NeuralNetworks,DNN),还可以是CNN和DNN的组合结构等,本发明实施例对此不作具体限定。
此处的令牌特征信息是指待分割图像中各个令牌反映的令牌内部特征信息。
可以理解的是,包括并行的三分支注意力机制、视觉转换器和卷积模型的图像特征提取模型,不仅可以提取到待分割图像中的令牌对应的令牌特征信息,还可以提取到待分割图像的全局特征信息,以及提取到待分割图像的局部特征信息,由此,大大增强了各个特征信息的提取效果,提高了图像特征涵盖的特征信息的全面性。
然后,基于图像特征,对待分割图像进行图像分割,由此,提高了图像分割的准确性和可靠性。
此处,还可以基于图像特征,对待分割图像进行其他图像处理,例如目标检测、语义分割、图像重建等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,由此,不仅可以提取到待分割图像中的令牌对应的令牌特征信息,还可以提取到待分割图像的全局特征信息,以及提取到待分割图像的局部特征信息,大大增强了各个特征信息的提取效果,提高了图像特征涵盖的特征信息的全面性,进一步提高了图像特征的提取质量,因此保证了图像分割的有效性,提高了图像分割的准确性和可靠性。
考虑到传统的卷积神经网络通常采用多层卷积操作来提取图像特征,但这种方法往往只能捕捉到相对较大的特征,而无法充分利用图像中的细节信息,尤其是边缘信息。因此,在图像特征提取中引入层次化结构,可以帮助模型充分利用图像中不同尺度的信息,提高对特征边缘信息的提取能力。
基于上述实施例,图2是本发明提供的图像特征提取模型的结构示意图,如图2所示,所述图像特征提取模型包括第一提取分支、第二提取分支和第三提取分支,所述第一提取分支、所述第二提取分支和所述第三提取分支均包括特征提取模块;
图3是本发明提供的特征提取模块的结构示意图,如图3所示,所述特征提取模块包括并行的所述三分支注意力机制、所述视觉转换器和所述卷积模型;
所述第一提取分支用于基于所述特征提取模块提取所述待分割图像的第一图像特征;
所述第二提取分支用于对待分割图像进行下采样,得到第一下采样图像特征,并基于所述特征提取模块对所述第一下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第二图像特征;
所述第三提取分支用于对所述第一下采样图像特征进行再次下采样,得到第二下采样图像特征,并基于所述特征提取模块对所述第二下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第三图像特征;
所述第一提取分支还用于基于所述第一图像特征、所述第二图像特征和所述第三图像特征进行融合得到融合图像特征,并基于所述特征提取模块对所述融合图像特征进行图像分割。
具体地,图像特征提取模型可以包括第一提取分支、第二提取分支和第三提取分支的层次化结构,该层次化结构可以帮助模型充分利用图像中不同尺度的信息,提高对特征边缘信息的提取能力。
此处的第一提取分支、第二提取分支和第三提取分支均包括特征提取模块。
此处的第一提取分支用于基于特征提取模块提取待分割图像的第一图像特征,第一图像特征与待分割图像的特征图的尺寸相同。特征提取模块可以包括并行的三分支注意力机制、视觉转换器和卷积模型,还可以将三分支注意力机制、视觉转换器和卷积模型输出的特征进行特征融合,再将特征融合后的特征输入至解码器中,得到输出结果。
此处的第二提取分支用于对待分割图像进行下采样,得到第一下采样图像特征,并基于特征提取模块对第一下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第二图像特征,即第二图像特征的尺寸也与待分割图像的特征图的尺寸相同。此处,对待分割图像进行下采样可以对待分割图像进行2倍下采样等,本发明实施例对此不作具体限定。
此处的第三提取分支用于对第一下采样图像特征进行再次下采样,得到第二下采样图像特征,并基于特征提取模块对第二下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第三图像特征,即,第三图像特征的尺寸也与待分割图像的特征图的尺寸相同。此处,对第一下采样图像特征进行再次下采样,可以对第一下采样图像特征进行2倍下采样等,本发明实施例对此不作具体限定。
此处的第一提取分支还可以用于基于第一图像特征、第二图像特征和第三图像特征进行融合得到融合图像特征,并基于特征提取模块对融合图像特征进行图像分割。此处的融合图像特征是融合了第一图像特征、第二图像特征和第三图像特征的特征。
可以理解的是,第一提取分支、第二提取分支和第三提取分支均包括并行的三分支注意力机制、视觉转换器和卷积模型,由此,不仅可以提取到待分割图像中的令牌对应的令牌特征信息,还可以提取到待分割图像的全局特征信息,以及提取到待分割图像的局部特征信息,大大增强了各个特征信息的提取效果,提高了图像特征涵盖的特征信息的全面性,进一步提高了图像特征的提取质量;并且,在图像特征提取中引入层次化结构,可以帮助模型充分利用图像中不同尺度的信息,提高对特征边缘信息的提取能力,因此保证了图像分割的有效性,进一步提高了图像分割的准确性和可靠性。
基于上述实施例,图4是本发明提供的三分支注意力机制的结构示意图,如图4所示,所述三分支注意力机制包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支;
所述第一注意力分支用于对所述待分割图像进行列注意力提取,得到列注意力特征;
所述第二注意力分支用于对所述待分割图像进行行注意力提取,得到行注意力特征;
所述第三注意力分支用于对所述待分割图像进行通道注意力提取,得到通道注意力特征;
所述第一注意力分支还用于基于所述列注意力特征、所述行注意力特征和所述通道注意力特征,确定融合特征;
所述融合分支用于将所述融合特征和所述待分割图像的特征图进行特征融合,得到注意力特征。
具体地,三分支注意力机制可以包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支,此处的第一注意力分支用于对待分割图像进行列注意力提取,得到列注意力特征,此处的列注意力特征反映了列方向层面的注意力特征信息。例如,可以将第一注意力分支的行维度乘上W,同时将通道维度乘上C,得到扩充后的第一注意力分支THF∈RC ×H×W
例如,使用全局平均池化操作将待分割图像的特征图处理为三条分支,具体操作如公式所示:
TF=σ(TWF+THF+TCF)
其中,σ表示非线性激活sigmoid函数,TWF,THF和TCF分别表示第一注意力分支、第二注意力分支和第三注意力分支。
例如,在对列进行加权操作时,第一注意力分支对特征图的行和通道进行全局池化,消除了行和通道对列信息的影响。然后使用全连接层将列向量进行加权。具体而言,为了减少参数开销,隐藏激活大小被设置为其中r是缩减比率,第一注意力分支的处理公式如下:
TWF=BN(FC(ReLU(BN1(FC(sH)))))
=BN(W1(ReLU(BN1(W0sH+b0)))+b1)
其中,b1∈RH,FC表示全连接层,TWF表示列注意力特征,BN1表示归一化层,ReLU表示激活层,BN表示归一化层,值得注意的是,在BN1层之后应用了激活函数ReLU。
在行、列和通道上加权注意力的过程中,这些与列相关的操作同样也被用于行和通道。
此处的第二注意力分支用于对待分割图像进行行注意力提取,得到行注意力特征,此处的行注意力特征反映了行方向层面的注意力特征信息。例如,可以将第二注意力分支的列维度乘上H,同时将通道维度乘上C,得到扩充后的第二注意力分支TWF∈RC×H×W
此处的第三注意力分支用于对待分割图像进行通道注意力提取,得到通道注意力特征,此处的通道注意力特征反映了通道方向层面的注意力特征信息。例如,可以将第三注意力分支的行维度乘上W,同时将列维度乘上H,得到扩充后的第三注意力分支TCF∈RC×H×W
此处,第二注意力分支对待分割图像进行行注意力提取,得到行注意力特征,以及第三注意力分支对待分割图像进行通道注意力提取,得到通道注意力特征的公式与第一注意力分支的处理公式类似,此处不再赘述。
第一注意力分支还可以用于基于列注意力特征、行注意力特征和通道注意力特征,确定融合特征TF,公式如下:
TF=σ(TWF+TCF+THF)
其中,σ表示非线性激活sigmoid,TWF表示列注意力特征,TCF表示行注意力特征,THF表示通道注意力特征。
此处的融合分支用于将融合特征和待分割图像的特征图进行特征融合,得到注意力特征。
此处,将融合特征和待分割图像的特征图进行特征融合,可以是将融合特征和待分割图像的特征图进行拼接,还可以是利用注意力机制将融合特征和待分割图像的特征图进行加权之后再拼接等,本发明实施例对此不作具体限定。
即,每个分支的加权结果被扩展到其原始特征图的尺寸大小。由于一开始采用了平均池化,因此扩展后的结果与待分割图像的特征图在数量级上是一致的。最后,这些扩展得到的特征图被加起来,然后乘以特征图,完成对特征图的加权操作。
具体的公示如下:
F′=F+F×TF
其中,×表示元素的相乘,而F表示待分割图像的特征图,TF表示融合特征,F′表示最终得到的注意力特征。
基于上述实施例,所述第一注意力分支、所述第二注意力分支和所述第三注意力分支均包括顺次连接的第一全连接层、第一归一化层、激活层、第二全连接层和第二归一化层。
具体地,第一注意力分支、第二注意力分支和第三注意力分支可以均包括顺次连接的第一全连接层(Fully Connected layers,FC)、第一归一化层、激活层、第二全连接层和第二归一化层。
此处的第一全连接层可以与第二全连接层相同,也可以与第二全连接层不同,本发明实施例对此不作具体限定。
此处的第一归一化层可以与第二归一化层相同,也可以与第二归一化层不同,本发明实施例对此不作具体限定。
此处的第一归一化层可以是LN,也可以是BN(Batch Normalization),还可以是IN,此处的激活层可以使用GELU激活函数,也可以使用Sigmoid激活函数,还可以使用ReLU激活函数,本发明实施例对此不作具体限定。
基于上述实施例,图5是本发明提供的视觉转换器的结构示意图,如图5所示,所述视觉转换器包括第一视觉转换层和第二视觉转换层;
所述第一视觉转换层用于对所述待分割图像的特征图进行位置嵌入,得到位置嵌入特征,并对所述位置嵌入特征进行层正则化,得到正则化特征,再对所述正则化特征进行多头自注意力提取,得到多头自注意力特征,并基于所述多头自注意力特征和所述位置嵌入特征得到第一视觉转换特征;
所述第二视觉转换层用于对所述第一视觉转换特征进行层正则化,得到层正则化特征,再对所述层正则化特征进行感知分类,得到第二视觉转换特征,并基于所述第一视觉转换特征和所述第二视觉转换特征得到视觉转换特征。
具体地,视觉转换器可以包括第一视觉转换层和第二视觉转换层,此处的第一视觉转换层用于对待分割图像的特征图进行位置嵌入,得到位置嵌入特征,即对特征图添加位置嵌入来标记每个token在待分割中的位置。然后,将这些token在维度方向上进行全连接,之后分解为三个尺寸大小相同的token,分别命名为key(k)、query(q)和value(v)。从注意力机制的角度来看,这其实是对token做了一次通道上的注意力加权。
视觉转换器对k和q进行转置相乘,然后对结果进行归一化,如此便获取到了token之间的相互关系。因此,自注意力机制的本质就是用经过加权处理的value的值来代替query。
具体的公式如下:
其中,dk表示矩阵q、k的列数,即向量维度,kT表示k的转置矩阵。
k和q的转置乘积实际上是每个token与包括自身在内的所有其他token之间的关系匹配,最终得到每个token与所有token之间的关系,然后在v上加权得到最终的输出结果。上述操作,在注意力机制的角度来说,无疑是做了空间上的注意力加权。
再对位置嵌入特征进行层正则化,即对token集合正则化(标准化处理),得到正则化特征,再对正则化特征进行多头自注意力提取,得到多头自注意力特征,并基于多头自注意力特征和位置嵌入特征融合得到第一视觉转换特征。
此处的第二视觉转换层用于对第一视觉转换特征进行层正则化,得到层正则化特征,再对层正则化特征进行感知分类,得到第二视觉转换特征,并基于第一视觉转换特征和第二视觉转换特征融合得到视觉转换特征。
此处,对层正则化特征进行感知分类可以使用感知器(Multilayer Perceptron,MLP)。
基于上述实施例,所述卷积模型包括多个卷积模块,所述卷积模块用于对所述待分割图像的特征图进行卷积操作得到卷积特征,对所述卷积特征进行层归一化得到归一化特征,并对所述归一化特征进行激活得到图像卷积特征。
具体地,卷积模型可以包括多个卷积模块,卷积模块用于对待分割图像的特征图进行卷积操作得到卷积特征,对卷积特征进行层归一化得到归一化特征,并对归一化特征进行激活得到图像卷积特征。
首先,可以使用1×1的卷积块将特征图的大小转换为原来的1/2,然后使用两个3×3的卷积块,最后再使用一个1×1的卷积块将其恢复到原始大小。由此,可以在大大减少参数数量的同时更有效地提取局部特征信息。
此处对卷积特征进行层归一化得到归一化特征,可以使用LN,也可以使用BN(Batch Normalization),还可以使用IN,此处对归一化特征进行激活得到图像卷积特征可以使用GELU激活函数,也可以使用Sigmoid激活函数,还可以使用ReLU激活函数,本发明实施例对此不作具体限定。
基于上述实施例,所述特征提取模块还用于基于所述注意力特征、所述视觉转换特征和所述图像卷积特征,得到目标提取特征。
具体地,特征提取模块还可以用于基于注意力特征、视觉转换特征和图像卷积特征,得到目标提取特征,此处,可以对注意力特征、视觉转换特征和图像卷积特征进行特征融合,得到目标提取特征。此处的目标提取特征即特征提取模块最终输出的特征。
此处,将注意力特征、视觉转换特征和图像卷积特征进行特征融合,可以是将注意力特征、视觉转换特征和图像卷积特征进行拼接,还可以是利用注意力机制将注意力特征、视觉转换特征和图像卷积特征进行加权之后再拼接等,本发明实施例对此不作具体限定。
下面对本发明提供的图像分割装置进行描述,下文描述的图像分割装置与上文描述的图像分割方法可相互对应参照。
基于上述实施例,本发明提供一种图像分割装置,图6是本发明提供的图像分割装置的结构示意图,如图6所示,该装置包括:
获取单元610,用于获取待分割图像;
特征提取单元620,用于将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
图像分割单元630,用于基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
本发明实施例提供的装置,图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,由此,不仅可以提取到待分割图像中的令牌对应的令牌特征信息,还可以提取到待分割图像的全局特征信息,以及提取到待分割图像的局部特征信息,大大增强了各个特征信息的提取效果,提高了图像特征涵盖的特征信息的全面性,进一步提高了图像特征的提取质量,因此保证了图像分割的有效性,提高了图像分割的准确性和可靠性。
基于上述任一实施例,所述图像特征提取模型包括第一提取分支、第二提取分支和第三提取分支,所述第一提取分支、所述第二提取分支和所述第三提取分支均包括特征提取模块,所述特征提取模块包括并行的所述三分支注意力机制、所述视觉转换器和所述卷积模型;
所述第一提取分支用于基于所述特征提取模块提取所述待分割图像的第一图像特征;
所述第二提取分支用于对待分割图像进行下采样,得到第一下采样图像特征,并基于所述特征提取模块对所述第一下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第二图像特征;
所述第三提取分支用于对所述第一下采样图像特征进行再次下采样,得到第二下采样图像特征,并基于所述特征提取模块对所述第二下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第三图像特征;
所述第一提取分支还用于基于所述第一图像特征、所述第二图像特征和所述第三图像特征进行融合得到融合图像特征,并基于所述特征提取模块对所述融合图像特征进行图像分割。
基于上述任一实施例,所述三分支注意力机制包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支;
所述第一注意力分支用于对所述待分割图像进行列注意力提取,得到列注意力特征;
所述第二注意力分支用于对所述待分割图像进行行注意力提取,得到行注意力特征;
所述第三注意力分支用于对所述待分割图像进行通道注意力提取,得到通道注意力特征;
所述第一注意力分支还用于基于所述列注意力特征、所述行注意力特征和所述通道注意力特征,确定融合特征;
所述融合分支用于将所述融合特征和所述待分割图像的特征图进行特征融合,得到注意力特征。
基于上述任一实施例,所述第一注意力分支、所述第二注意力分支和所述第三注意力分支均包括顺次连接的第一全连接层、第一归一化层、激活层、第二全连接层和第二归一化层。
基于上述任一实施例,所述视觉转换器包括第一视觉转换层和第二视觉转换层;
所述第一视觉转换层用于对所述待分割图像的特征图进行位置嵌入,得到位置嵌入特征,并对所述位置嵌入特征进行层正则化,得到正则化特征,再对所述正则化特征进行多头自注意力提取,得到多头自注意力特征,并基于所述多头自注意力特征和所述位置嵌入特征得到第一视觉转换特征;
所述第二视觉转换层用于对所述第一视觉转换特征进行层正则化,得到层正则化特征,再对所述层正则化特征进行感知分类,得到第二视觉转换特征,并基于所述第一视觉转换特征和所述第二视觉转换特征得到视觉转换特征。
基于上述任一实施例,所述卷积模型包括多个卷积模块,所述卷积模块用于对所述待分割图像的特征图进行卷积操作得到卷积特征,对所述卷积特征进行层归一化得到归一化特征,并对所述归一化特征进行激活得到图像卷积特征。
基于上述任一实施例,所述特征提取模块还用于基于所述注意力特征、所述视觉转换特征和所述图像卷积特征,得到目标提取特征。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像分割方法,该方法包括:获取待分割图像;将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;基于所述图像特征,对所述待分割图像进行图像分割;所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像分割方法,该方法包括:获取待分割图像;将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;基于所述图像特征,对所述待分割图像进行图像分割;所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像分割方法,该方法包括:获取待分割图像;将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;基于所述图像特征,对所述待分割图像进行图像分割;所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种图像分割方法,其特征在于,包括:
获取待分割图像;
将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
2.根据权利要求1所述的图像分割方法,其特征在于,所述图像特征提取模型包括第一提取分支、第二提取分支和第三提取分支,所述第一提取分支、所述第二提取分支和所述第三提取分支均包括特征提取模块,所述特征提取模块包括并行的所述三分支注意力机制、所述视觉转换器和所述卷积模型;
所述第一提取分支用于基于所述特征提取模块提取所述待分割图像的第一图像特征;
所述第二提取分支用于对待分割图像进行下采样,得到第一下采样图像特征,并基于所述特征提取模块对所述第一下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第二图像特征;
所述第三提取分支用于对所述第一下采样图像特征进行再次下采样,得到第二下采样图像特征,并基于所述特征提取模块对所述第二下采样图像特征进行特征提取,再对特征提取所得的特征进行上采样,得到第三图像特征;
所述第一提取分支还用于基于所述第一图像特征、所述第二图像特征和所述第三图像特征进行融合得到融合图像特征,并基于所述特征提取模块对所述融合图像特征进行图像分割。
3.根据权利要求1所述的图像分割方法,其特征在于,所述三分支注意力机制包括第一注意力分支、第二注意力分支、第三注意力分支和融合分支;
所述第一注意力分支用于对所述待分割图像进行列注意力提取,得到列注意力特征;
所述第二注意力分支用于对所述待分割图像进行行注意力提取,得到行注意力特征;
所述第三注意力分支用于对所述待分割图像进行通道注意力提取,得到通道注意力特征;
所述第一注意力分支还用于基于所述列注意力特征、所述行注意力特征和所述通道注意力特征,确定融合特征;
所述融合分支用于将所述融合特征和所述待分割图像的特征图进行特征融合,得到注意力特征。
4.根据权利要求3所述的图像分割方法,其特征在于,所述第一注意力分支、所述第二注意力分支和所述第三注意力分支均包括顺次连接的第一全连接层、第一归一化层、激活层、第二全连接层和第二归一化层。
5.根据权利要求1所述的图像分割方法,其特征在于,所述视觉转换器包括第一视觉转换层和第二视觉转换层;
所述第一视觉转换层用于对所述待分割图像的特征图进行位置嵌入,得到位置嵌入特征,并对所述位置嵌入特征进行层正则化,得到正则化特征,再对所述正则化特征进行多头自注意力提取,得到多头自注意力特征,并基于所述多头自注意力特征和所述位置嵌入特征得到第一视觉转换特征;
所述第二视觉转换层用于对所述第一视觉转换特征进行层正则化,得到层正则化特征,再对所述层正则化特征进行感知分类,得到第二视觉转换特征,并基于所述第一视觉转换特征和所述第二视觉转换特征得到视觉转换特征。
6.根据权利要求1所述的图像分割方法,其特征在于,所述卷积模型包括多个卷积模块,所述卷积模块用于对所述待分割图像的特征图进行卷积操作得到卷积特征,对所述卷积特征进行层归一化得到归一化特征,并对所述归一化特征进行激活得到图像卷积特征。
7.根据权利要求1至6中任一项所述的图像分割方法,其特征在于,所述特征提取模块还用于基于所述注意力特征、所述视觉转换特征和所述图像卷积特征,得到目标提取特征。
8.一种图像分割装置,其特征在于,包括:
获取单元,用于获取待分割图像;
特征提取单元,用于将所述待分割图像输入至图像特征提取模型,得到所述图像特征提取模型输出的图像特征;
图像分割单元,用于基于所述图像特征,对所述待分割图像进行图像分割;
所述图像特征提取模型包括并行的三分支注意力机制、视觉转换器和卷积模型,所述三分支注意力机制用于提取所述待分割图像的令牌对应的令牌特征信息,所述视觉转换器用于提取所述待分割图像的全局特征信息,所述卷积模型用于提取所述待分割图像的局部特征信息。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像分割方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像分割方法。
CN202310532254.7A 2023-05-11 2023-05-11 图像分割方法、装置、电子设备及存储介质 Pending CN116758092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310532254.7A CN116758092A (zh) 2023-05-11 2023-05-11 图像分割方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310532254.7A CN116758092A (zh) 2023-05-11 2023-05-11 图像分割方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116758092A true CN116758092A (zh) 2023-09-15

Family

ID=87954138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310532254.7A Pending CN116758092A (zh) 2023-05-11 2023-05-11 图像分割方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116758092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117883103A (zh) * 2024-01-02 2024-04-16 北京长木谷医疗科技股份有限公司 基于深度学习算法的骨密度测量方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117883103A (zh) * 2024-01-02 2024-04-16 北京长木谷医疗科技股份有限公司 基于深度学习算法的骨密度测量方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Chen et al. The face image super-resolution algorithm based on combined representation learning
Kim et al. Fully deep blind image quality predictor
Fang et al. Blind visual quality assessment for image super-resolution by convolutional neural network
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
An et al. TR-MISR: Multiimage super-resolution based on feature fusion with transformers
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115222998B (zh) 一种图像分类方法
CN116758092A (zh) 图像分割方法、装置、电子设备及存储介质
CN116452930A (zh) 降质环境下基于频域增强的多光谱图像融合方法与系统
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
Gao A method for face image inpainting based on generative adversarial networks
Li et al. Underwater Imaging Formation Model‐Embedded Multiscale Deep Neural Network for Underwater Image Enhancement
Lai et al. Generative focused feedback residual networks for image steganalysis and hidden information reconstruction
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
Zheng et al. Transformer-based hierarchical dynamic decoders for salient object detection
CN117726513A (zh) 一种基于彩色图像引导的深度图超分辨率重建方法及系统
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
US20230110393A1 (en) System and method for image transformation
Fan et al. EGFNet: Efficient guided feature fusion network for skin cancer lesion segmentation
Li et al. Semantic prior-driven fused contextual transformation network for image inpainting
Sharma et al. Multilevel progressive recursive dilated networks with correlation filter (MPRDNCF) for image super-resolution
Jones Deep learning for image enhancement and visibility improvement
Chen et al. Single image de-raining using spinning detail perceptual generative adversarial networks
Li et al. Human Detection via Image Denoising for 5G‐Enabled Intelligent Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination