CN112183507A - 图像分割方法、装置、设备、存储介质 - Google Patents

图像分割方法、装置、设备、存储介质 Download PDF

Info

Publication number
CN112183507A
CN112183507A CN202011369633.1A CN202011369633A CN112183507A CN 112183507 A CN112183507 A CN 112183507A CN 202011369633 A CN202011369633 A CN 202011369633A CN 112183507 A CN112183507 A CN 112183507A
Authority
CN
China
Prior art keywords
feature
layer
feature map
decoding
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011369633.1A
Other languages
English (en)
Other versions
CN112183507B (zh
Inventor
刘武
梅涛
周伯文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011369633.1A priority Critical patent/CN112183507B/zh
Publication of CN112183507A publication Critical patent/CN112183507A/zh
Application granted granted Critical
Publication of CN112183507B publication Critical patent/CN112183507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种图像分割方法、装置、设备和存储介质,所述方法包括:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。

Description

图像分割方法、装置、设备、存储介质
技术领域
本申请涉及计算机视觉技术,涉及但不限于一种图像分割方法、装置、设备、存储介质。
背景技术
图像分割主要是利用图像像素的颜色、强度、纹理等信息对图像进行像素级别的语义分类,相关技术中,一般通过深度卷积网络中的编码解码框架进行图像语义分割,图像被输入到编码器中进行下采样,得到分辨率较低但语义信息丰富的包含高层特征的高层特征图。之后,高层特征图被输入到解码器中通过多次上采样逐步恢复至原图的分辨率,同时,在上采样过程中,不断和分辨率较大并且细节丰富的包含低层特征的低层特征图融合得到图像分割结果。
然而由于深度卷积网络对于高层特征图和低层特征图的融合只是对感受野内变换过之后的特征的加和,可能会存在高层特征和低层特征之间的特征错位问题。
发明内容
有鉴于此,本申请提供一种图像分割方法及装置、设备、存储介质。
第一方面,本申请实施例提供一种图像分割方法,所述方法包括:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
第二方面,本申请实施例提供一种图像分割装置,包括:编码模块,用于编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;解码模块,用于解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;分类模块,用于分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例任一所述图像分割方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例任一所述图像分割方法中的步骤。
本申请实施例中,先通过编码器对待处理图像进行编码处理,得到多层第一特征图,再通过解码器对所述多层第一特征图进行解码,由于每一解码层是采用内容注意力算子和几何注意力算子来实现的,而每一解码层的输入又包括前层的输出结果和尺度相一致的第一特征图,由于在特征图融合时考虑到了特征图中特征之间在内容和空间上的相关性,从而能够缓解特征图融合时的错位问题,并得到细节更准确、语义更清晰的图像分割结果。
附图说明
图1为本申请实施例一种图像分割方法的流程示意图;
图2为本申请实施例一种利用U-Net网络进行图像分割的示意图;
图3为本申请实施例一种特征图融合方法的示意图;
图4为本申请实施例一种确定两个特征之间的相关度的示意图;
图5为本申请实施例一种内容注意力算子的迭代优化的算法的流程示意图;
图6为本申请实施例一种图像分割装置的组成结构示意图;
图7为本申请实施例计算机设备的一种硬件实体示意图。
具体实施方式
下面结合附图和实施例对本申请的技术方案进一步详细阐述。
图1为本申请实施例提供的一种图像分割方法的实现流程示意图,如图1所示,该方法包括:
步骤102:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
其中,待处理图像可以是需要进行图像分割的图像,图像分割主要是利用图像像素的颜色、强度、纹理等信息对图像进行像素级别的语义分类,属于同一类的像素都要被归为一类,在待处理图像为人骑摩托车的图像的情况下,属于人的像素要被分成一类,属于摩托车的像素要被分为一类,背景像素也要被分为一类。
在一个实施例中,可以通过卷积神经网络的编码-解码框架中的编码器对所述待处理图像进行压缩编码处理,所述编码器可以包括顺序连接的首层编码层、第二层编码层和第三层编码层;可以通过所述首层编码层对所述待处理图像进行压缩编码处理,得到首层第一特征图,可以通过所述第二层编码层对所述首层第一特征图进行压缩编码处理,得到第二层第一特征图,可以通过所述第三层编码层对所述第二层第一特征图进行压缩编码处理,得到第三层第一特征图,因此,可得到多层第一特征图,其中,所述首层编码层的输入为待处理图像,所述第二层编码层的输入为首层第一特征图,所述第三层编码层的输入为第二层第一特征图;所述首层第一特征图至所述第三层第一特征图中,第一特征的尺度逐渐减小,第一特征的语义性逐渐增强,分辨率逐渐降低,对细节的感知能力逐渐减弱,可以将经过的压缩次数较少、尺度较大的第一特征认为是低层特征,将经过的压缩次数较多、尺度较小的第一特征认为是高层特征;对应地,可以将包含低层特征的特征图认为是低层特征图,将包含高层特征的特征图认为是高层特征图。
所述卷积神经网络可以是DeeplabV3+网络,UNet网络等;所述压缩编码处理又可以称为图像缩小处理、下采样处理或降采样处理,对于一幅尺寸为M*N的图像,对其进行S倍下采样,即得到(M/S)*(N/S)尺寸的分辨率图像,SMN的公约数;如果考虑的是矩阵形式的图像,则可以把待处理图像的S*S窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。
步骤104:解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;
在一个实施例中,可以通过卷积神经网络的编码-解码框架中的解码器对所述多层第一特征图进行解码处理,所述解码处理又可以成为图像放大处理、上采样处理或图像插值,可以采用内插值方法,在原有图像像素的基础上,在像素点之间采用合适的插值算法插入新的元素。
所述解码器可以包括顺序连接的首层解码层、第二层解码层和第三层解码层;假设所述首层解码层的尺度相一致的第一特征图为所述第三层第一特征图,所述第二层解码层的尺度相一致的第一特征图为所述第二层第一特征图,所述第三层解码层的尺度相一致的第一特征图为所述首层第一特征图;对应地,所述首层解码层的输入为所述第三层第一特征图,所述第二层解码层的输入为首层输出结果和所述第二层第一特征图,所述第三层解码层的输入为第二层输出结果和所述首层第一特征图。
可以通过所述首层解码层对所述第三层第一特征图进行解码处理,得到首层输出结果,可以通过所述第二层解码层对所述首层输出结果和第二层第一特征图进行解码处理,得到第二层输出结果,可以通过所述第三层解码层对所述第二层输出结果和首层第一特征图进行解码处理,得到融合特征图;所述首层输出结果至所述融合特征图中,包含的特征的尺度逐渐增大,特征的语义性逐渐减弱,分辨率逐渐增大,对细节的感知能力逐渐增强,可以将经过的解压缩次数较少、尺度较小的特征认为是高层特征,将经过的解压缩次数较多、尺度较大的特征认为是低层特征;对应地,可以将包含低层特征的特征图认为是低层特征图,将包含高层特征的特征图认为是高层特征图,即第二层输出结果相对于首层输出结果而言为低层特征图,相对于融合特征图而言为高层特征图。
步骤106:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
其中,所述融合特征图中包含的特征可以是所述融合特征图中的像素,分类器可以是对融合特征图中的像素进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法;在所述待处理图像为人脸的情况下,所述图像分割结果可以是标记出脸的轮廓、眼睛、鼻子和嘴巴之后的图像。
本申请实施例中,先通过编码器对待处理图像进行编码处理,得到多层第一特征图,再通过解码器对所述多层第一特征图进行解码,由于每一解码层是采用内容注意力算子和几何注意力算子来实现的,而每一解码层的输入又包括前层的输出结果和尺度相一致的第一特征图,由于在特征图融合时考虑到了特征图中特征之间在内容和空间上的相关性,从而能够缓解特征图融合时的错位问题,并得到细节更准确、语义更清晰的图像分割结果。
在一些实施例中,步骤102至步骤106中的图像分割方法可以采用图2所示的U-Net网络来实现,在U-Net中,通过对卷积算子、池化算子、上采样算子等基本结构单元的堆叠连接构成了可以用于图像分割的全卷积网络;如图2所示,U-Net网络包括编码器202和解码器203,编码器202可以包括M层编码层,对应地,解码器203可以包括N层解码层,一般来说,编码器与解码器的层数可以相同,在另一些实施例中,编码器与解码器的层数也可以不同,但是,不管层数是否相同,编码器与解码器中有一些层数是互逆的,本实施例中可以认为编码器与解码器的层数相同,且均为M层。图2中以第j层编码层和第j’层解码层作为编解码过程中的互逆操作为例进行说明步骤102至步骤106中的图像分割方法。
获取待处理图像201,编码器202的首层编码层对待处理图像201进行编码处理,得到首层第一特征图,即所述首层编码层的输入为待处理图像201,输出为首层第一特征图;编码器202的第二层编码层对所述首层第一特征图进行编码处理,得到第二层第一特征图,即所述第二层编码层的输入为首层第一特征图,输出为第二层第一特征图;……;编码器202的第j层编码层对所述第j-1层第一特征图进行编码处理,得到第j层第一特征图,即所述第j层编码层的输入为第j-1层第一特征图,输出为第j层第一特征图;……;编码器202的第M层编码层对所述第M-1层第一特征图进行编码处理,得到第M层第一特征图,即所述第M层编码层的输入为第M-1层第一特征图,输出为第M层第一特征图;从所述首层第一特征图至所述第M层第一特征图,特征图中包含的第一特征的尺度逐渐减小。
解码器203的首层解码层对所述第M层第一特征图进行解码处理,得到首层解码层的处理结果,所述首层解码层的输入包括所述第M层第一特征图;解码器203的第二层解码器对所述第M-1层第一特征图进行解码处理,得到第二层解码层的处理结果,所述第二层解码层的输入包括所述首层解码层的处理结果和所述第M-1层第一特征图;……;解码器203的第j’层解码器对所述第j层第一特征图进行解码处理,得到第j’层解码层的处理结果,所述第j’层解码层的输入包括所述第j’-1层解码层的处理结果和所述第j层第一特征图;……;解码器203的第M层解码器对所述首层第一特征图进行解码处理,得到第M层解码层的处理结果,即融合特征图,所述第M层解码层的输入包括所述第M-1层解码层的处理结果和所述首层第一特征图;从所述首层解码层的处理结果至所述第M层解码层的处理结果,特征图中包含的特征的尺度逐渐增大。
分类器对所述融合特征图进行逐像素分类,得到所述待处理图像201的图像分割结果204。
本申请实施例还提供一种图像分割方法,所述方法包括步骤S202至步骤S210:
步骤S202:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器包括顺序连接的至少两个解码层,所述解码器的每一解码层执行如下步骤S204至步骤S208:
步骤S204:对本层的前一层的处理结果进行上采样,得到上采样特征图;
其中,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;所述上采样特征图即为本层的前一层的输出结果;所述尺度相一致的第一特征图即为与所述上采样特征图的尺度相一致的第一特征图,所述上采样特征图和所述尺度相一致的第一特征图中包含的特征的尺度相同。
图3为本申请实施例一种应用于解码器203的解码层2031的特征图融合方法的示意图,参见图3,以解码层203为第j’层解码层2031为例进行说明,对第
Figure DEST_PATH_IMAGE001
层解码层的前一层第j’-1层的处理结果301进行上采样(例如可以是各个边长扩大2倍)操作之后,可以得到放大后的上采样特征图302,所述上采样特征图302即为第j’-1层的输出结果。
步骤S206:将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
参见图3,可以将上采样特征图302和匹配的第一特征图303进行拼接,得到拼接后的特征图304;由于上采样特征图302是第j’层解码层的前一层第j’-1层的处理结果301进行上采样得到的特征图,并且所述匹配的第一特征图303与所述上采样特征图302的尺度相一致,因此,可以认为第j’-1层的处理结果301相对于所述匹配的第一特征图303而言为高层特征图,所述第一特征图303为低层特征图,则所述第j’-1层的处理结果301中可以包含高层特征f h ,上采样特征图302中可以包含高层特征f h 对应的高层特征f h ,所述第一特征图303中包含低层特征f l
步骤S208:利用多头注意力机制,对所述拼接后的特征图在空间上和内容上进行融合处理,得到本层解码层的处理结果;
其中,解码层的处理结果为经过融合处理的拼接后的特征图;在认知科学中,由于信息处理的瓶颈,一般会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制;多头注意力机制是利用多个查询,来平行地计算从输入信息中选取多个信息,每个注意力关注输入信息的不同部分,例如分别关注输入信息的内容和空间;参见图3,利用多头注意力机制,对拼接后的特征图304,在空间上和内容上进行融合处理,得到第j’层解码层2031的处理结果305,所述处理结果中包括输出特征f o ,所述输出特征f o 可以认为是低层特征f l 和高层特征f h 进行特征拼接和特征融合后得到的特征,同理,可得到解码器的任一层解码层的处理结果,并可以通过对解码器的任一层解码层的处理结果进行上采样,得到对应解码层的输出结果,或称对应解码层的上采样特征图。
其中,所述解码器的末层解码层的处理结果即为所述融合特征图;其中,所述多头注意力机制采用所述内容注意力算子和所述空间注意力算子来实现的;每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;
步骤S210:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
本申请实施例中,通过进行特征图的拼接,并利用多头注意力机制,对拼接后的特征图在空间上和内容上进行融合处理,最终得到融合特征图,从而能够使得到的融合特征图更加准确,并且由于在特征图融合时考虑到了特征图中特征之间在内容和空间上的相关性,从而能够缓解特征图融合时的错位问题,并得到细节更准确、语义更清晰的图像分割结果。
本申请实施例还提供一种图像分割方法,所述方法包括步骤S302至步骤S318:
步骤S302:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器包括顺序连接的至少两个解码层,所述解码器的每一解码层执行如下步骤S304至步骤S316:
步骤S304:对本层的前一层的处理结果进行上采样,得到上采样特征图;
步骤S306:将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
步骤S308:从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;
图4为本申请实施例一种确定两个特征之间的相关度的示意图,参见图3和图4,在得到拼接后的特征图304后,可以从拼接后的特征图304中采样出第二特征σ(x i 以及第二特征对应的参考特征集合Φ(x j ,所述参考特征集合Φ(x j 中可以包含k×k个参考特征。
步骤S310:利用多头注意力机制,确定每一所述第二特征和对应参考特征集合中每一参考特征在内容上和空间上的综合相关度;
其中,所述综合相关度可以用于表征所述第二特征和对应的参考特征集合中每一参考特征在内容上和空间上的相似性,综合相关度越高,表明特征之间越相似。
步骤S312:将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;
步骤S314:将每一所述第二特征和对应的目标参考特征进行融合处理,得到对应的第二更新特征;
步骤S316:根据每一所述第二更新特征,得到本层解码层的处理结果。
参见图3,在将第二特征σ(x i 和参考特征集合Φ(x j 中的目标参考特征进行融合处理后,可以得到第二更新特征,再根据第二更新特征,得到本层解码层的处理结果305;所述解码器的末层解码层的处理结果即为所述融合特征图。
步骤S318:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
本申请实施例中,通过利用多头注意力机制,确定特征图中第二特征和参考特征之间的综合相关度,以确定第二特征匹配的目标参考特征,从而能够通过特征图中相匹配特征的融合,更好地得到解码层的处理结果,进而得到融合特征图,并且使用多头注意力机制时,使得该解码层更轻量,参数更少,计算复杂度更小,具有更强的自适应性和灵活性。
本申请实施例还提供一种图像分割方法,所述方法包括步骤S402至步骤S428:
步骤S402:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器包括顺序连接的至少两个解码层,所述解码器的每一解码层执行如下步骤S404至步骤S426:
步骤S404:对本层的前一层的处理结果进行上采样,得到上采样特征图;
步骤S406:将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
步骤S408:从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;
对每一所述第二特征和每一所述参考特征作为待匹配对;
针对每一待匹配对,执行以下步骤S410至步骤S418:
步骤S410:利用内容注意力算子,确定所述第二特征和所述参考特征在内容上的第一相关度;
其中,所述多头注意力机制可以利用内容注意力算子关注输入的第二特征和参考特征在内容上的相关度;算子可以理解为对函数进行的某一项操作。
步骤S412:根据所述第一相关度,确定所述参考特征的第一权重;
其中,第一相关度和第一权重可以成正比,即第二特征和参考特征的相关度越高,参考特征所占的权重越大。
步骤S414:利用几何注意力算子,确定所述参考特征的第二权重;
其中,所述多头注意力机制可以利用几何注意力算子确定用于衡量输入的第二特征和参考特征在空间上的相关度的第二权重;参考特征的第二权重越大,第二特征和参考特征在空间上的相关性越大。
步骤S416:根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;
步骤S418:根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
步骤S420:将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;
对每一所述第二特征与对应的目标参考特征作为待融合对;
针对每一待融合对,执行以下步骤S422和步骤S424:
步骤S422:对所述目标参考特征进行变换,得到目标变换特征;
步骤S424:根据归一化因子、所述第二特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二更新特征,所述第二更新特征为更新后的所述第二特征。
对于拼接后的特征图中的某个元素(又称第二特征或像素)x i i∈[1,…,HW]和该元素对应的参考特征集合(局部采样集合Ω i );其中,x i ∈R d ,这里i只是对特征的宽高两个维度进行索引。这个过程可以表示为如下公式(4):
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,第二特征x i ∈R H×w×d 经过局部双边注意力算子处理之后得到第二更新特征y i ∈R H ×w×d α(x i, x j,i,j )⟼R函数用于度量元素(第二特征)x i 和元素(第二特征对应的参考特征集合中的某个参考特征)x j 之间的相关性关系,该关系包含内容上的相似度度量以及几何上的相似度度量,可以将与第二特征的综合相关度最高的参考特征确定为目标参考特征,并将该最高的综合相关度确定为所述第二特征和所述目标参考特征之间的综合相关度,参见公式(6),C扮演了归一化因子的角色。β(x j )⟼R d 函数是对输入的参考特征x j 的变换后得到的目标变换特征,该变换可以是复杂的非线性变换也可以是简洁的线性变换,这里出于效率因素的考虑,可以采用线性变换,对参考特征x j 进行线性变换,以将参考特征x j 变换到新的特征空间。
步骤S426:根据每一所述第二更新特征,得到本层解码层的处理结果。
其中,所述解码器的末层解码层的处理结果即为所述融合特征图。
步骤S428:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
本申请实施例中,通过分别利用内容注意力算子和几何注意力算子,确定第二特征和参考特征在内容和空间上的相关度,进一步提高了第二特征和参考之间相关性确定的准确度。
本申请实施例还提供一种图像分割方法,所述方法包括步骤S502至步骤S530:
步骤S502:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器包括顺序连接的至少两个解码层,所述解码器的每一解码层执行如下步骤S504至步骤S528:
步骤S504:对本层的前一层的处理结果进行上采样,得到上采样特征图;
步骤S506:将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
步骤S508:从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;
对每一所述第二特征和每一所述参考特征作为待匹配对;
针对每一待匹配对,执行以下步骤S510至步骤S522:
步骤S510:利用内容注意力算子,确定所述第二特征对应的第一特征向量和所述参考特征对应的第二特征向量;
步骤S512:确定所述第一特征向量和所述第二特征向量之间的点积;
步骤S514:根据所述点积,确定所述第一特征向量和所述第二特征向量在内容上的第一相关度。
其中,所述点积越大,可以认为所述第一相关度越大,即所述第一特征向量和所述第二特征向量在内容上越相似。
步骤S516:根据所述第一相关度,确定所述参考特征的第一权重;
在一个实施例中,对于内容注意力算子,本申请实施例利用点积注意力机制去建模在特征内容层面的相似度。因此,相似度估计函数可以实例化为特征向量之间的点积,这个过程可以表示为如下公式(1):
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
W ϱ 可以是神经网络的参数,exp是以自然常数e为底的指数函数,由于内容注意力算子具有几何上的置换不变性,随机打乱局部采样集合Ω i 中元素的顺序,得到的特征表达并不发生改变。该特性使得单纯的内容注意力机制难以用于分割任务,例如,某个区域处于一条锐利的边缘,但是如果随机将该区域内的像素打乱,得到的结果却往往表示一个平滑的表面。对于内容注意力算子来说,这两种情况下得到的特征表达一致,则无法区分该区域的属性。因此本申请实施例考虑引入几何注意力算子。
步骤S518:利用几何注意力算子,确定所述参考特征的第二权重;
在一个实施例中,对于几何注意力算子,可以利用动态卷积,该集合注意力算子利用线性变换γ(x i )⟼R k×k 对感受野内的每个位置预测了一个自适应的权重,这个过程可以表示为如下公式(2):
Figure DEST_PATH_IMAGE006
其中,W γ 表示线性变换γ(x i )的权重参数,[j,·]表示对矩阵抽取第j行的行向量。
步骤S520:根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;
步骤S522:根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
在一个实施例中,可以将以上两个独立的注意力算子进行有机的融合,并提出了双边注意力算子,可以用如下公式(3)表示:
Figure DEST_PATH_IMAGE007
该双边注意力算子可以既考虑了元素x i 和元素x j 之间内容上的相似度也考虑了几何上的相似度。并且,在双边注意力算子中,两种相似性关系可以相互调制对方,从而使得关注的元素既内容上相似,同时几何上也相关。
步骤S524:将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;
步骤S526:将每一所述第二特征和对应的目标参考特征进行融合处理,得到对应的第二更新特征;
步骤S528:根据每一所述第二更新特征,得到本层解码层的处理结果。
步骤S530:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
本申请实施例还提供一种图像分割方法,所述方法包括步骤S602至步骤S630:
步骤S602:编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器包括顺序连接的至少两个解码层,所述解码器的每一解码层执行如下步骤S604至步骤S628:
步骤S604:对本层的前一层的处理结果进行上采样,得到上采样特征图;
步骤S606:将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
步骤S608:从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;
对每一所述第二特征和每一所述参考特征作为待匹配对;
针对每一待匹配对,执行以下步骤S610至步骤S618:
步骤S610:利用内容注意力算子,确定所述第二特征和所述参考特征在内容上的第一相关度;
步骤S612:根据所述第一相关度,确定所述参考特征的第一权重;
步骤S614:利用几何注意力算子,确定所述参考特征的第二权重;
步骤S616:根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;
步骤S618:根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
步骤S620:将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;
对每一所述第二特征与对应的目标参考特征作为待融合对;
针对每一待融合对,执行以下步骤S622至步骤S626:
步骤S622:对所述目标参考特征进行变换,得到目标变换特征;
步骤S624:根据归一化因子、所述第二特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二更新特征,所述第二更新特征为更新后的所述第二特征。
步骤S626:根据归一化因子、所述第二更新特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二再更新特征,所述第二再更新特征为更新后的所述第二更新特征;
在一个实施例中,所述第二更新特征和所述目标参考特征的综合相关度的确定方法可以包括以下步骤:利用内容注意力算子,确定所述第二更新特征和所述参考特征在内容上的第三相关度;根据所述第三相关度,确定所述参考特征的第三权重;根据所述第三权重和所述第二权重,确定所述参考特征的最终的综合权重(最终的注意力权重);根据所述最终的综合权重,确定所述第二更新特征和所述参考特征在内容上和空间上的综合相关度;将与所述第二更新特征的综合相关度最高的参考特征,确定为与所述第二更新特征匹配的目标参考特征,并将对应的综合相关度确定为第二更新特征和目标参考特征的综合相关度。
图5为本申请实施例提出的一种内容注意力算子的迭代优化的算法的流程示意图,该算法可以将注意力机制中的每个特征看做是胶囊神经元-若干人工神经元的集合。因此可以在胶囊网络的动态路由算法的基础上,修改得到了迭代优化算法;上述实施例中确定最终的综合权重的方法可以用图5所示的算法实现。
参见图5,在语句2中,对于当前i位置的元素(第二特征)x i 以及对应感受野内的元素集合(参考特征集合){x j; jΩ i },并且这里共享了W ϱ ,Wσ,W γ ,所以只需要计算一次线性变换即可;在语句3中,计算第二特征x i 和参考特征x j (所有的j)之间的点积,得到c j ;在语句4中,迭代T次;在语句5中,c j 经过softmax函数,得到注意力权重α j ;在语句6中,根据注意力权重α j ,融合第二特征x i 和参考特征x j ,得到第二更新特征x i ;在语句7中,经过挤压函数squash,对第二更新特征对应的第二更新特征向量x i 进行激活,得到u i ;在语句8中,再次计算激活后的第二更新特征u i 和参考特征x j (所有的j)之间的点积,得到更新后的c j ;在语句9中,返回最后得到的更新后的c j c j 经过softmax函数之后可以得到最终的注意力权重。
其中,挤压函数可以用如下公式(5)来表示:
Figure DEST_PATH_IMAGE008
其中,为了兼顾效率,一般将T设置为3。在经过T次迭代后,将优化过的内容注意力权重c j 和几何注意力权重作用,得到最终的特征聚合的权重。
步骤S628:根据每一所述第二再更新特征,得到本层解码层的处理结果;
其中,所述解码器的末层解码层的处理结果即为所述融合特征图。
步骤S630:分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
本申请实施例中,在确定内容注意力算子时,通过确定第二更新特征和参考特征在内容上的第三相关度,来进一步确定第二更新特征和参考特征的综合相关度,采用迭代的算法,可以使得第二特征和参考特征之间的综合相关度的确定更加准确。
本申请实施例提出了一种局部双边注意力算子,首先,可以根据输入的特征动态调整其行为;另外,该算子在空间特征聚合上,可以根据内容动态调整不同位置特征的重要性,可以产生不同的聚合方式,从而缓解特征融合时的错位问题;最后,该算子相比较于卷积操作,具有更低的计算复杂度和参数量。由于该算子和标准卷积操作共享相同的超参数,因此可以无缝替换分割模型中解码器中的卷积操作,从而增强分割模型中解码器的性能;本申请实施例还提出了一种迭代的注意力权重优化方法,将该方法用于内容注意力算子上,通过多次迭代优化注意力权重,从而得到更准确的权重预测。
卷积中比较关键的超参数有输入特征的维度,输出特征的维度、卷积核大小等。该算子也同样支持对这些超参数的调整。有很多用于分割任务的神经网络结构,这些网络是以卷积为原子操作的。不同层之间,卷积的超参数有差异,比如输入特征的维度,输出特征的维度、卷积核大小等,这些超参数决定了模型性能。本申请实施例中的原子操作,可以直接继承以往的网络结构,将卷积操作替换的同时,在对应位置使用相同的超参数。
图像语义分割是计算机视觉中的基础问题之一,其主要利用图像像素的颜色、强度、纹理等信息对图像进行像素级别的语义分类。图像语义分割技术可以广泛的应用于自动驾驶、虚拟现实以及医疗图像分析等领域;相关技术中,一般通过深度卷积网络中编码--解码框架进行图像语义分割;在编码--解码框架中,图像被编码器压缩、抽象,得到分辨率较低但语义信息丰富的高层特征图,之后高层特征图被输入到解码器中,通过多次上采样逐步恢复至原图像的分辨率,同时,在上采样过程中,不断和分辨率较大并且细节丰富的低层特征图融合最终得到细节准确、语义清晰的预测结果。
其中,卷积是卷积神经网络中的一种原子操作,可以将卷积看作一种算子,通过堆叠卷积等操作,构成卷积神经网络,所述卷积神经网络可以用于图像语义分割,所述卷积神经网络可以是DeeplabV3+,深度学习分割网络UNet等网络。使用时,将图像输入网络中,经过网络处理即可得到分割的结果。
在解码器的上采样过程中,主要由卷积实现将高层语义特征和低层细节特征进行融合的作用。虽然卷积在计算机视觉任务中有着十分重要的作用,但是该操作在处理上采样特征融合的时候存在若干需要提高的问题:
首先,卷积是一种内容无关的局部算子;在整个特征图上,卷积的参数是共享的,因此卷积在处理多样变化的局部信息时缺乏足够的自适应性。例如,在处理不同区域的特征时,无论该区域是一个平滑的表面还是一个锐利的边缘,卷积行为是一致的,不会根据输入的内容动态的调整其行为。
其次,卷积在空间特征的融合上缺乏灵活性;卷积由于在空间特征的聚合上只是对感受野内变换过之后的特征的加和,缺乏对感受野中不同位置重要性的权衡,因此卷积在应对特征错位(misalignment)问题上缺乏足够的灵活性。不同层次特征的对齐问题,例如由于低层特征分辨率较低,放大到与高层特征相同的尺度之后,会存在特征之间的错位,所以有对齐的问题。在下采样和上采样的过程中,特征图的压缩和放大必然导致不同尺度、不同层次特征存在错位问题,空间灵活性的缺乏导致卷积难以处理特征错位问题。
最后,卷积操作的复杂度较高;卷积核参数量和计算复杂度与卷积核的大小呈二次方关系。在图像分割模型的解码器中,需要处理分辨率较大的特征图,因此算子的计算复杂度成为需要关注的问题。
本申请实施例打破卷积模型的限制,选择利用注意力机制处理解码器中的特征融合。本申请实施例将注意力机制应用于解码器部分,用于恢复图像的细节信息;注意力机制是一种计算量巨大的非局部的操作,由于在解码器中,本申请实施例更关注局部信息,如纹理等,所以本申请实施例采用了更高效的局部注意力机制。
本申请实施例提出了一种局部双边注意力算子,可以用于替换解码器中的卷积操作。首先,该算子是一种内容相关的算子,可以根据输入的特征动态调整其行为;另外,该算子在空间特征聚合上,可以根据内容动态调整不同位置特征的重要性,在拓展为多头注意力(Multi-Head Attention)机制之后,可以产生不同的聚合方式,从而缓解特征融合时的错位问题;最后,该算子相比较于卷积操作,具有更低的计算复杂度和参数量。
本申请实施例提出的用于图像分割模型解码器中局部双边注意力算子,可以同时考虑像素之间内容上的相似度和像素之间的几何关系。首先介绍该算子的具体流程。然后介绍迭代优化权重估计的算法,该算法可以辅助模型生成更精确的注意力权重。
图3为本申请实施例一种应用于解码器203的第j’层2031的特征融合方法的示意图,参见图3,第j’-1层的处理结果301经过上采样(各个边长扩大2倍)操作之后,得到放大后的上采样特征图302。然后将上采样特征图302与匹配的第一特征图303进行拼接,得到拼接后的特征图304,拼接后的特征图304经过双边注意力算子处理后得到第j’层解码层的处理结果305,第j’层为解码器的最末解码层时,所述处理结果为融合特征图。使得该解码层层更轻量、参数更少,计算复杂度更小。在处理特征图的拼接时,具有更强的自适应性和灵活性。
在如图2所示的U-Net网络结构中,输入图像经过编码器得到抽象的高层语义特征。再经过解码器,将特征逐步还原至原始尺度,最终经过对每个像素位置特征的分类获得最终语义分割的结果。本申请实施例主要用于替换如图2所示的解码器的功能层2031中的K*K卷积操作。
图4为本申请实施例一种确定两个特征之间的相关度的示意图,参见图4,所述局部双边注意力算子包括内容注意力算子和几何注意力算子,σ(x i 可以用于表示对输入的第二特征x i 进行一种线性变换,Φ(x j 可以用于表示对输入的参考特征x j 进行另一种线性变换,d×1×1可以用于表示尺寸为d个通道,空间尺度为1×1的特征,d×k×k可以用于表示尺寸为d个通道,空间尺度为k×k的特征,k²×1×1可以用于表示尺寸为k²个通道,空间尺度为1×1的特征;Ω i 可以用于第二特征x i 对应的局部采样集合,所述局部采样集合为所述第二特征对应的参考特征集合。
首先,介绍一下对注意力机制的形式化,输入特征x i ∈R H×w×d 经过局部双边注意力算子处理之后得到y i ∈R H×w×d 。输入采样集合Ω i 内的所有参考特征x j 和当前位置的第二特征x i ,得到更新过之后的第二特征y i 。即该算子用于聚合与输入的第二特征内容上最相似且几何上最相关的参考特征,得到对输入的第二特征的新表达。
对于特征图中的某个元素(第二特征)x i i∈[1,…,HW]和该元素对应的局部采样集合(参考特征集合)Ω i ,其中,x i ∈R d ,这里i只是对特征的宽高两个维度进行索引。这个过程可以表示为如下公式(4):
Figure DEST_PATH_IMAGE009
其中,呼应输入的第二特征x i ∈R H×w×d 经过局部双边注意力算子处理之后得到第二更新特征y i ∈R H×w×d α(x i, x j,i,j )⟼R函数用于度量元素(第二特征)x i 和元素(参考特征)x j 之间的相关性关系,该关系包含内容上的相似度度量以及几何上的相似度度量。C扮演了归一化因子的角色。β(x j )⟼R d 函数是对输入的参考特征x j 的变换,该变换可以是复杂的非线性变换也可以是简洁的线性变换,这里出于效率因素的考虑,可以采用线性变换,对参考特征x j 进行线性变换,以将参考特征x j 变换到新的特征空间。
对于内容注意力算子,本申请实施例利用点积注意力机制去建模在特征内容层面的相似度。因此,相似度估计函数可以实例化为特征向量之间的点积,这个过程可以表示为如下公式(1):
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
W ϱ 可以是神经网络的参数,exp是以自然常数e为底的指数函数,由于内容注意力算子具有几何上的置换不变性,随机打乱局部采样集合Ω i 中元素的顺序,得到的特征表达并不发生改变。该特性使得单纯的内容注意力机制难以用于分割任务,例如,某个区域处于一条锐利的边缘,但是如果随机将该区域内的像素打乱,得到的结果却往往表示一个平滑的表面。对于内容注意力算子来说,这两种情况下得到的特征表达一致,则无法区分该区域的属性。因此本申请实施例考虑引入几何注意力算子。
对于几何注意力算子,本申请实施例利用动态卷积,该算子利用线性变换γ(x i )⟼ R k×k 对感受野内的每个位置预测了一个自适应的权重,即为每个位置对应的第二特征赋予一个权重,这个过程可以表示为如下公式(2):
Figure DEST_PATH_IMAGE012
其中,W γ 表示线性变换γ(x i )的权重参数,[j,·]表示对矩阵抽取第j行的行向量。
如图4所示,本申请实施例将以上两个独立的注意力算子进行有机的融合,并提出了双边注意力算子,可以用如下公式(3)表示:
Figure DEST_PATH_IMAGE013
该双边注意力算子可以既考虑了元素x i 和元素x j 之间内容上的相似度也考虑了几何上的相似度。并且,在双边注意力算子中,两种相似性关系可以相互调制对方,从而使得关注的元素既内容上相似,同时几何上也相关。
该双边注意力算子相比较于卷积操作,可以根据输入的特征动态调整其行为,具有更强的自适应性。在实现中,本申请实施例将上述注意力算子拓展到了多头注意力(Multi-Head Attention)机制下,使得其可以同时探索若干特征子空间,得到更多的特征组合方式。最后,由于卷积网络中的参数量和计算量主体来自于W权重参数,本申请实施例相比于同样感受野K的卷积操作,参数量和计算量为4/k²,K一般取值为3,则参数量和计算量为4/9,即相比较标准卷积而言,本申请实施例的算子在参数量和计算量都大约降低为原来的50%,在效率方面有较大的提升。
图5为本申请实施例一种内容注意力算子的迭代优化的算法的流程示意图,该算法可以将注意力机制中的每个特征看做是胶囊神经元-若干人工神经元的集合。为了估计更准确的内容注意力权重,可以在胶囊网络的动态路由算法的基础上,修改得到迭代优化算法。
参见图5,所述迭代优化算法包括语句1至语句10,在语句2中,对于当前i位置的元素(第二特征)x i 以及对应感受野内的元素集合(参考特征集合){x j; jΩ i },并且这里共享了W ϱ ,Wσ,W γ ,所以只需要计算一次线性变换即可;在语句3中,计算第二特征x i 和参考特征x j (所有的j)之间的点积,得到c j ;在语句4中,迭代T次;在语句5中,c j 经过softmax函数,得到注意力权重α j ;在语句6中,根据注意力权重α j ,融合第二特征x i 和参考特征x j ,得到新的第二更新特征x i ;在语句7中,经过挤压函数squash,对第二更新特征对应的第二更新特征向量x i 进行激活,得到u i ;在语句8中,再次计算激活后的第二更新特征u i 和参考特征x j (所有的j)之间的点积,得到更新后的c j ;在语句9中,返回最后得到的更新后的c j c j 经过softmax函数之后可以得到最终的注意力权重。
其中,挤压函数可以用如下公式(5)来表示:
Figure DEST_PATH_IMAGE014
其中,为了兼顾效率,一般将T设置为3。在经过T次迭代后,将优化过的内容注意力权重c j 和几何注意力权重作用,得到最终的特征聚合的权重。
本申请实施例提出了一种局部双边注意力算子,首先,可以根据输入的特征动态调整其行为;另外,该算子在空间特征聚合上,可以根据内容动态调整不同位置特征的重要性,可以产生不同的聚合方式,从而缓解特征融合时的错位问题;最后,该算子相比较于卷积操作,具有更低的计算复杂度和参数量。由于该算子和标准卷积操作共享相同的超参数,因此可以无缝替换分割模型中解码器中的卷积操作,从而增强分割模型中解码器的性能;本申请实施例还提出了一种迭代的注意力权重优化方法,将该方法用于内容注意力算子上,通过多次迭代优化注意力权重,从而得到更准确的权重预测。
卷积中比较关键的超参数有输入特征的维度,输出特征的维度、卷积核大小等。该算子也同样支持对这些超参数的调整。有很多用于分割任务的神经网络结构,这些网络是以卷积为原子操作的。不同层之间,卷积的超参数有差异,比如输入特征的维度,输出特征的维度、卷积核大小等,这些超参数决定了模型性能。本申请实施例中的原子操作,可以直接继承以往的网络结构,将卷积操作替换的同时,在对应位置使用相同的超参数。
基于前述的实施例,本申请实施例提供一种图像分割装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图6为本申请实施例图像分割装置的组成结构示意图,如图6所示,所述装置600包括编码模块601、解码模块602和分类模块603,其中:
编码模块601,用于编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码模块602,用于解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;
分类模块603,用于分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
在一个实施例中,所述解码模块602,包括:采样单元,用于对本层解码层的前一层的处理结果进行上采样,得到上采样特征图;拼接单元,用于将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;融合单元,用于利用多头注意力机制,对所述拼接后的特征图在空间上和内容上进行融合处理,得到本层解码层的处理结果;其中,所述解码器的末层解码层的处理结果为所述融合特征图;其中,所述多头注意力机制采用所述内容注意力算子和所述空间注意力算子来实现的。
在一个实施例中,所述融合单元,包括:采样子单元,用于从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;第一确定子单元,用于利用多头注意力机制,确定每一所述第二特征和对应参考特征集合中每一参考特征在内容上和空间上的综合相关度;第二确定子单元,用于将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;融合子单元,用于将每一所述第二特征和对应的目标参考特征进行融合处理,得到对应的第二更新特征;处理子单元,根据每一所述第二更新特征,得到本层解码层的处理结果。
在一个实施例中,所述第一确定子单元,用于对每一所述第二特征和每一所述参考特征作为待匹配对;针对每一待匹配对,执行以下步骤:利用内容注意力算子,确定所述第二特征和所述参考特征在内容上的第一相关度;根据所述第一相关度,确定所述参考特征的第一权重;利用几何注意力算子,确定所述参考特征的第二权重;根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
在一个实施例中,所述第一确定子单元,用于对每一所述第二特征和每一所述参考特征作为待匹配对;针对每一待匹配对,执行以下步骤:利用内容注意力算子,确定所述第二特征对应的第一特征向量和所述参考特征对应的第二特征向量;确定所述第一特征向量和所述第二特征向量之间的点积;根据所述点积,确定所述第一特征向量和所述第二特征向量在内容上的第一相关度;根据所述第一相关度,确定所述参考特征的第一权重;利用几何注意力算子,确定所述参考特征的第二权重;根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
在一个实施例中,所述融合子单元,用于对每一所述第二特征与对应的目标参考特征作为待融合对;针对每一待融合对,执行以下步骤:对所述目标参考特征进行变换,得到目标变换特征;根据归一化因子、所述第二特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二更新特征,所述第二更新特征为更新后的所述第二特征。
在一个实施例中,所述融合单元还包括:迭代融合子单元,用于根据归一化因子、所述第二更新特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二再更新特征,所述第二再更新特征为更新后的所述第二更新特征;
对应地,所述处理子单元,用于根据每一所述第二再更新特征,得到本层解码层的处理结果。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的图像分割方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得计算机设备(可以是手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、视频电话、电视机、传感设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例提供一种计算机设备,图7为本申请实施例计算机设备的一种硬件实体示意图,如图7所示,该计算机设备700的硬件实体包括:包括存储器701和处理器702,所述存储器701存储有可在处理器702上运行的计算机程序,所述处理器702执行所述程序时实现上述实施例中提供的图像分割方法中的步骤。
存储器701配置为存储由处理器702可执行的指令和应用,还可以缓存待处理器702以及计算机设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的图像分割方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得计算机设备(可以是手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、视频电话、电视机、传感设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种图像分割方法,其特征在于,所述方法包括:
编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;
分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
2.根据权利要求1所述的方法,其特征在于,所述解码器对所述多层第一特征图进行解码处理,得到融合特征图,包括:
所述解码器的每一解码层执行如下步骤:
对本层的前一层的处理结果进行上采样,得到上采样特征图;
将上采样特征图和匹配的第一特征图进行特征拼接,得到拼接后的特征图;
利用多头注意力机制,对所述拼接后的特征图在空间上和内容上进行融合处理,得到本层解码层的处理结果;
其中,所述解码器的末层解码层的处理结果为所述融合特征图;其中,所述多头注意力机制采用所述内容注意力算子和所述空间注意力算子来实现的。
3.根据权利要求2所述的方法,其特征在于,所述利用多头注意力机制,对所述拼接后的特征图在空间上和内容上进行融合处理,得到本层解码层的处理结果,包括:
从所述拼接后的特征图中采样出多个第二特征和每一所述第二特征对应的参考特征集合;
利用多头注意力机制,确定每一所述第二特征和对应参考特征集合中每一参考特征在内容上和空间上的综合相关度;
将与每一所述第二特征的综合相关度最高的参考特征,确定为与对应第二特征匹配的目标参考特征;
将每一所述第二特征和对应的目标参考特征进行融合处理,得到对应的第二更新特征;
根据每一所述第二更新特征,得到本层解码层的处理结果。
4.根据权利要求3所述的方法,其特征在于,所述利用多头注意力机制,确定每一所述第二特征和对应参考特征集合中每一参考特征在内容上和空间上的综合相关度,包括:
对每一所述第二特征和每一所述参考特征作为待匹配对;
针对每一待匹配对,执行以下步骤:
利用内容注意力算子,确定所述第二特征和所述参考特征在内容上的第一相关度;
根据所述第一相关度,确定所述参考特征的第一权重;
利用几何注意力算子,确定所述参考特征的第二权重;
根据所述第一权重和所述第二权重,确定所述参考特征的综合权重;
根据所述综合权重,确定所述第二特征和所述参考特征在内容上和空间上的综合相关度。
5.根据权利要求4所述的方法,其特征在于,所述利用内容注意力算子,确定所述第二特征和所述参考特征在内容上的第一相关度,包括:
利用内容注意力算子,确定所述第二特征对应的第一特征向量和所述参考特征对应的第二特征向量;
确定所述第一特征向量和所述第二特征向量之间的点积;
根据所述点积,确定所述第一特征向量和所述第二特征向量在内容上的第一相关度。
6.根据权利要求3所述的方法,其特征在于,所述将每一所述第二特征和对应的目标参考特征进行融合处理,得到对应的第二更新特征,包括:
对每一所述第二特征与对应的目标参考特征作为待融合对;
针对每一待融合对,执行以下步骤:
对所述目标参考特征进行变换,得到目标变换特征;
根据归一化因子、所述第二特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二更新特征,所述第二更新特征为更新后的所述第二特征。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据归一化因子、所述第二更新特征和所述目标参考特征的综合相关度、所述目标变换特征,确定第二再更新特征,所述第二再更新特征为更新后的所述第二更新特征;
对应地,所述根据每一所述第二更新特征,得到本层解码层的处理结果,包括:
根据每一所述第二再更新特征,得到本层解码层的处理结果。
8.一种图像分割装置,其特征在于,所述装置包括:
编码模块,用于编码器对获取的待处理图像进行编码处理,得到多层第一特征图,所述多层第一特征图包含不同尺度的第一特征;所述编码器包括顺序连接的至少两个编码层,每一所述编码层输出一层第一特征图,每一所述编码层的输入包括前层的输出结果或所述待处理图像;
解码模块,用于解码器对所述多层第一特征图进行解码处理,得到融合特征图;其中,所述解码器包括顺序连接的至少两个解码层,每一所述解码层采用内容注意力算子和空间注意力算子来实现的,每一所述解码层的输入包括前层的输出结果和尺度相一致的第一特征图;
分类模块,用于分类器对所述融合特征图进行逐像素分类,得到所述待处理图像的图像分割结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述图像分割方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述图像分割方法中的步骤。
CN202011369633.1A 2020-11-30 2020-11-30 图像分割方法、装置、设备、存储介质 Active CN112183507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011369633.1A CN112183507B (zh) 2020-11-30 2020-11-30 图像分割方法、装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011369633.1A CN112183507B (zh) 2020-11-30 2020-11-30 图像分割方法、装置、设备、存储介质

Publications (2)

Publication Number Publication Date
CN112183507A true CN112183507A (zh) 2021-01-05
CN112183507B CN112183507B (zh) 2021-03-19

Family

ID=73918219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011369633.1A Active CN112183507B (zh) 2020-11-30 2020-11-30 图像分割方法、装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN112183507B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634292A (zh) * 2021-01-06 2021-04-09 烟台大学 一种基于深度卷积神经网络的沥青路面裂缝图像分割方法
CN112862909A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 一种数据处理方法、装置、设备以及存储介质
CN112990219A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 用于图像语义分割的方法和装置
CN113221988A (zh) * 2021-04-30 2021-08-06 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的轻量级网络的构建方法
CN113658283A (zh) * 2021-08-18 2021-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018100325A4 (en) * 2018-03-15 2018-04-26 Nian, Xilai MR A New Method For Fast Images And Videos Coloring By Using Conditional Generative Adversarial Networks
CN111310764A (zh) * 2020-01-20 2020-06-19 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN111612790A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018100325A4 (en) * 2018-03-15 2018-04-26 Nian, Xilai MR A New Method For Fast Images And Videos Coloring By Using Conditional Generative Adversarial Networks
CN111310764A (zh) * 2020-01-20 2020-06-19 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN111612790A (zh) * 2020-04-29 2020-09-01 杭州电子科技大学 一种基于t型注意力结构的医学图像分割方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634292A (zh) * 2021-01-06 2021-04-09 烟台大学 一种基于深度卷积神经网络的沥青路面裂缝图像分割方法
CN112634292B (zh) * 2021-01-06 2021-08-24 烟台大学 一种基于深度卷积神经网络的沥青路面裂缝图像分割方法
CN112862909A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 一种数据处理方法、装置、设备以及存储介质
CN112990219A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 用于图像语义分割的方法和装置
CN112990219B (zh) * 2021-03-25 2023-08-08 北京百度网讯科技有限公司 用于图像语义分割的方法和装置
CN113221988A (zh) * 2021-04-30 2021-08-06 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的轻量级网络的构建方法
CN113658283A (zh) * 2021-08-18 2021-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN113658283B (zh) * 2021-08-18 2023-11-28 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112183507B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112183507B (zh) 图像分割方法、装置、设备、存储介质
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN113096140B (zh) 实例分割方法及装置、电子设备及存储介质
CN115953665B (zh) 一种目标检测方法、装置、设备及存储介质
Patel et al. A generative adversarial network for tone mapping hdr images
Yu et al. Frechet inception distance (fid) for evaluating gans
CN114038006A (zh) 一种抠图网络训练方法及抠图方法
CN113392791A (zh) 一种皮肤预测处理方法、装置、设备及存储介质
CN112488923A (zh) 图像超分辨率重建方法、装置、存储介质及电子设备
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法
Wang et al. Convolutional LSTM-based hierarchical feature fusion for multispectral pan-sharpening
Li et al. Hierarchical opacity propagation for image matting
CN115272250A (zh) 确定病灶位置方法、装置、计算机设备和存储介质
Mahmoudi et al. Kernel-based convolution expansion for facial expression recognition
US11948090B2 (en) Method and apparatus for video coding
CN116912268A (zh) 一种皮肤病变图像分割方法、装置、设备及存储介质
CN116894974A (zh) 图像分类方法、装置、计算机设备及其存储介质
CN115761371A (zh) 医学影像分类方法、装置、存储介质及电子设备
CN112927250B (zh) 一种基于多粒度注意力分层网络的边缘检测系统和方法
Hashemifard et al. Weakly supervised human skin segmentation using guidance attention mechanisms
CN113762319A (zh) 一种多模态信息处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant