CN114648760A - 图像分割方法、图像分割装置、电子设备和存储介质 - Google Patents

图像分割方法、图像分割装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114648760A
CN114648760A CN202210061207.4A CN202210061207A CN114648760A CN 114648760 A CN114648760 A CN 114648760A CN 202210061207 A CN202210061207 A CN 202210061207A CN 114648760 A CN114648760 A CN 114648760A
Authority
CN
China
Prior art keywords
semantic
segmentation
feature map
current scale
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210061207.4A
Other languages
English (en)
Inventor
车正平
丁晓峰
徐志远
奉飞飞
唐剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Original Assignee
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Midea Group Shanghai Co Ltd filed Critical Midea Group Co Ltd
Priority to CN202210061207.4A priority Critical patent/CN114648760A/zh
Publication of CN114648760A publication Critical patent/CN114648760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,提供一种图像分割方法、图像分割装置、电子设备和存储介质,该图像分割方法包括:对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,将第一个语义特征图作为第一个分割语义;对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义;确定最后一个语义特征图对应的分割语义为图像分割结果。本发明的图像分割方法,可充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割准确性。

Description

图像分割方法、图像分割装置、电子设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像分割方法、图像分割装置、电子设备和存储介质。
背景技术
图像分割是图像识别和计算机视觉任务中至关重要的预处理,被广泛应用于各个领域,包括物体识别、对象跟踪和图像分类等。
相关技术中,图像分割多关注局部特征的边界,对于特征之间的关联性考虑不多。为此,部分技术采用语义上下文来指导特定特征图的特征表示,但是这些技术忽略了语义上下文的全局表示,分割效果不够理想。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种图像分割方法,以提高分割结果的准确性。
本发明还提出一种图像分割装置。
本发明还提出一种电子设备。
本发明还提出一种非暂态计算机可读存储介质。
本发明还提出一种计算机程序产品。
根据本发明第一方面实施例的图像分割方法,包括:
对待分割图像进行特征提取,得到不同尺度的多个语义特征图,所述多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,所述当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,所述目标分割语义为上一尺度的语义特征图对应的分割语义;
确定最后一个语义特征图对应的分割语义为图像分割结果。
根据本发明实施例的图像分割方法,通过提取多个尺度的语义特征图,可以充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割结果的准确性。
根据本发明的一个实施例,所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,包括:
对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图;
通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征;
基于所述当前尺度的语义表示特征,得到当前尺度的图像特征;
将所述当前尺度的图像特征与所述目标分割语义进行融合,得到当前分割语义。
根据本发明的一个实施例,所述对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图,包括:
将当前尺度的语义特征图嵌入到记忆张量,得到当前尺度的嵌入特征图。
根据本发明的一个实施例,所述将当前尺度的语义特征图嵌入到记忆张量,得到当前尺度的嵌入特征图,包括:
从记忆张量中确定与当前尺度的语义特征图中目标第一特征相似度最大的目标记忆特征;
将所述目标第一特征嵌入到所述目标记忆特征,得到当前尺度的嵌入特征图中的目标嵌入特征。
根据本发明的一个实施例,所述通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征,包括:
对目标分割语义进行softmax操作,得到概率图;
通过所述概率图对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征。
根据本发明的一个实施例,所述基于所述当前尺度的语义表示特征,得到当前尺度的图像特征,包括:
将所述当前尺度的语义表示特征与所述当前尺度的语义特征图进行连接及特征提取,得到当前尺度的图像特征。
根据本发明的一个实施例,所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,包括:
将当前尺度的语义特征图输入到图像分割模型的当前分割层,得到所述当前分割层输出的各分割语义。
根据本发明的一个实施例,所述图像分割模型的损失函数为交叉熵损失函数,且所述交叉熵损失函数用于表征各分割层的分割损失。
根据本发明第二方面实施例的图像分割装置,包括:
提取模块,用于对待分割图像进行特征提取,得到不同尺度的多个语义特征图,所述多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
语义分割模块,用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,所述当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,所述目标分割语义为上一尺度的语义特征图对应的分割语义;
确定模块,用于确定最后一个语义特征图对应的分割语义为图像分割结果。
根据本发明实施例的图像分割装置,通过提取多个尺度的语义特征图,可以充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割结果的准确性。
根据本发明第三方面实施例的电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述图像分割方法的步骤。
根据本发明第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法的步骤。
根据本发明第五方面实施例的计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像分割方法的步骤。
本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过提取多个尺度的语义特征图,可以充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割结果的准确性。
进一步的,通过层间的注意力机制,使得模型在进行残差学习时能够关注特征的学习,进而能够进一步提高特征提取的准确性和可靠性。
更进一步的,通过对当前尺度的语义表示特征与当前尺度的语义特征图进行连接操作,这样重新得到的图像特征结合了原来的语义特征图以及经过语义嵌入和注意力结合得到的语义表示特征,可以关注到语义上下文之间的联系;
更进一步的,通过跨层迭代分割,在保证分割准确度的前提下,可减少分割层数,从而帮助精简网络,这样该方法可直接用于各种终端独立运行,不依赖于服务器的计算。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的图像分割方法的流程示意图之一;
图2是本发明实施例提供的图像分割方法的流程示意图之二;
图3是本发明实施例提供的图像分割方法的流程示意图之三;
图4是本发明实施例提供的图像分割方法的流程示意图之四;
图5是本发明实施例提供的图像分割方法的流程示意图之五;
图6是本发明实施例提供的图像分割方法的流程示意图之六;
图7是本发明实施例提供的图像分割装置的结构示意图;
图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以通过无线或有线的电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
在本发明实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
下面结合图1-图6描述本发明实施例的图像分割方法。
如图1所示,本发明实施例的图像分割方法包括步骤110-步骤130。
步骤110、对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
在该步骤中,通过特征提取得到的多个语义特征图的分辨率相同。
如图3所示,该步骤可以包括:对待分割图像进行上下文语义捕捉,得到多个第一语义特征(Res-1、Res-2、Res-3和Res-4),各第一语义特征的维度相同;基于上一层的第二语义特征,对当前层第一语义特征进行解码,得到当前层第二语义特征(F2、F3和F4);对当前层第二语义特征进行特征提取,得到当前层的语义特征图(X1、X2、X3和X4);其中,最高层第二语义特征F1基于最高层第一语义特征Res-4解码得到。
该图像分割方法可以通过图像分割模型来实现,对应地,步骤110可以通过图像分割模型的特征提取网络来实现,特征提取网络包括多个尺度下的特征提取层,此处每个尺度分别对应一个特征提取层。
此处,不同尺度下采样区域的特征,能够体现出待分割图像在不同尺度下的信息。尺度越大/高(比如语义特征图X1),则对应的特征越能够反映对待分割图像整体信息的描述,从而捕获语义上下文信息;尺度越小/低(比如语义特征图X4),则对应的特征越能够反映对待分割图像细节信息的描述,语义特征图提供局部文本细节。
在实际的执行中,该步骤可以包括:将待分割图像输入至图像分割模型的多个尺度下的特征提取层,得到多个语义特征图,多个语义特征图的尺度不同。
特征提取网络可以包括带有ResNet主干的编码器-解码器架构,该编码器-解码器架构用于捕获多尺度特征信息,该编码器-解码器架构可以通过空洞卷积实现。
如图3所示,将待分割图像输入至编码层(backbone),得到多个第一语义特征(Res-1、Res-2、Res-3和Res-4),对第一语义特征(Res-1、Res-2、Res-3和Res-4)进行解码,得到第二语义特征(F1、F2、F3和F4);对第二语义特征(F1、F2、F3和F4)进行特征提取,得到不同尺度的多个语义特征图(X1、X2、X3和X4)。
语义特征图可以表征为三维矩阵HW×D,其中H表示高,W表示宽,D表示通道数。该特征提取网络可以通过空洞卷积实现。
本发明实施例的图像分割方法需要通过层间的迭代来实现分割,对于第一个语义特征图X1,其并不存在上一层,因此,如图3所示,直接将第一个语义特征图X1作为第一个分割语义L1
步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义。
可以理解的是,该步骤中,每次进行语义分割时,通过语义嵌入与注意力转换,可以得到语义上下文的全局语义表示。
相关技术中,一般通过类中心特征等简单的聚合方式进行特征表示,这会使不同的特征混淆,提供不合理的特征信息并误导特征表示。
本发明中,通过嵌入的特征与注意力机制结合起来进行聚合,来生成分割语义,可以通过全局语义表示建立特征信息和语义上下文之间的联系,使得分割更准确。
如图3所示,将第一个语义特征图X1作为第一个分割语义L1
步骤120中的当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义。
从第二个语义特征图X2开始,将该语义特征图X2与目标分割语义L1进行语义嵌入及注意力转换,得到当前分割语义L2
将语义特征图X3与目标分割语义L2进行语义嵌入及注意力转换,得到当前分割语义L3
将语义特征图X4与目标分割语义L3进行语义嵌入及注意力转换,得到当前分割语义L4
如果有更多层,继续按此规则进行层间的语义嵌入及注意力转换。
该步骤提供了一种对分割语义进行粗到精迭代分割的方式,最终能够迭代精炼语义分割结果。
步骤130、确定最后一个语义特征图对应的分割语义为图像分割结果。
可以理解的是,在执行步骤110以及执行多次步骤120后,提供的了从粗到细的多个分割语义,以图3为例,得到了分割语义L1、L2、L3和L4,其中分割语义L4为最后一个语义特征图对应的分割语义,将分割语义L4作为图像分割结果即可。
本发明实施例提供的图像分割方法,通过提取多个尺度的语义特征图,可以充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割结果的准确性。
另外,通过跨层迭代分割,在保证分割准确度的前提下,可减少分割层数,从而帮助精简网络,这样该方法可直接用于各种终端独立运行,不依赖于服务器的计算。
比如在加载在冰箱中,通过对食物图像进行分割,在实现食物的腐败识别;或者加载在抽烟机上,通过对食物图像进行分割,在实现食物的熟度识别等。
在一些实施例中,步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,可以包括:步骤121、步骤122、步骤123和步骤124。
步骤121、对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图;
需要说明的是,上述当前尺度的语义特征图不包括最高尺度的语义特征图,即不包括图3中的X1
在对语义特征图进行嵌入编码的过程,可记录各个分类的特征表示,并通过相似度计算区分各个分类对应的嵌入特征。
如图5所示,通过对语义特征图X进行语义嵌入,可以得到嵌入特征图Yc
语义嵌入不改变语义特征图的维度,如图5所示,语义特征图X和嵌入特征图Yc可以均表征为三维矩阵HW×D,其中H表示高,W表示宽,D表示通道数。
在一些实施例中,步骤121、对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图,可以包括:将当前尺度的语义特征图X嵌入到记忆张量M,得到当前尺度的嵌入特征图Yc
记忆张量M可以记录语义上下文的全局表示,记忆张量M=[M1,M2,…,MC]。记忆张量M中的每个元素Mi=[mi1,mi2,…,miN]分别记录了类别i的语义表示,i=1,2,…,c,mij∈RD为单个记忆特征,j=1,2,…,N,N为记忆容量,D为通道维度。
如图5所示,对于每个类别c,给定语义特征图X中的单个输入第一特征x∈RD,语义嵌入过程为将输入第一特征x嵌入到语义表示中,并使用记忆特征Mc构造嵌入特征y∈RD
Figure BDA0003478417120000081
其中,mcN∈RD是总和为1的非负项的权重向量,wcn表示输入特征x对特征Mcn的嵌入权重。
在一些实施例中,上述步骤将当前尺度的语义特征图X嵌入到记忆张量M,得到当前尺度的嵌入特征图Yc,包括:
从记忆张量M中确定与当前尺度的语义特征图X中目标第一特征x相似度最大的目标记忆特征Mc;将目标第一特征x嵌入到目标记忆特征Mc,得到当前尺度的嵌入特征图Yc中的目标嵌入特征y。
对语义特征图X中每个第一特征x均执行上述步骤,即可得到嵌入特征图Yc
上述方式,通过对输入的第一特征x进行重构,得到由记忆特征Mc表征的嵌入特征y。在实际执行中,选择与输入的第一特征x最相似的记忆特征来构建嵌入特征y。
具体来说,权重向量wc中的记忆相似性为
Figure BDA0003478417120000091
其中,mcn'参考上述mij的定义,为类别c的第n'个记忆特征,d(,)是相似性度量:
d(x,mcn)=xTmcn
可以理解的是,上述语义嵌入过程通过提取与输入的第一特征x最相似的记忆特征Mc来构造对应的嵌入特征y。对于同一类别的不同特征,由于其最相似的记忆特征是不同的,这样通过相似度计算可得到不同的嵌入特征。此外,多个记忆特征可以表示具有复杂分布的类别特征。假设一个类别有多个特征中心,语义嵌入过程可以记录它们的特征表示,并通过相似度计算区分它们对应的嵌入特征。
如图4和图5所示,在实际执行过程中,可以通过语义嵌入模块SE(SemanticEmbedding Block)完成上述语义嵌入的处理。
基于单个第一特征x的语义嵌入过程,输入语义特征图X=[x1,x2,…,xHW],其中xi∈RD是像素i的输入特征,i=1,2,…,HW。HW是特征图的大小(高度乘以宽度)。
如图5所示,对于每个类别c,我们将语义嵌入过程应用于每个第一特征xi并获得特征映射Yc=[y1,y2,…,yHW],yi∈RD是与xi对应的嵌入特征,i=1,2,…,HW。HW是特征图的大小(高度乘以宽度)。通过计算所有类别之间的嵌入特征,我们得到嵌入特征图Y=[Y1,Y2,…,YC]。
步骤122、通过目标分割语义对当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征;
如图3、图4和图6所示,通过分割语义L1对嵌入特征图Y2进行注意力转换,得到语义表示特征Z2;通过分割语义L2对嵌入特征图Y3进行注意力转换,得到语义表示特征Z3;通过分割语义L3对嵌入特征图Y4进行注意力转换,得到语义表示特征Z4
如图4和图6所示,在实际执行过程中,可以通过注意力模块SA(SemanticAttention Block)完成上述注意力转换的处理。
通过层间的注意力机制,使得模型在进行残差学习时能够关注特征的学习,进而能够进一步提高特征提取的准确性和可靠性。
在一些实施例中,如图6所示,步骤122、通过目标分割语义对当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征,包括:
对目标分割语义L进行softmax操作,得到概率图P;
通过概率图P对当前尺度的嵌入特征图Y进行注意力转换,得到当前尺度的语义表示特征Z。
在实际执行中,将softmax操作应用于分割语义L并获得概率图P,P=[p1,p2,…,pHW],pi∈RC为像素i的概率向量,i=1,2,…,HW。HW是特征图的大小(高度乘以宽度)。将概率图P作为注意力图来聚合嵌入特征Y并得到语义表示特征Z=[z1,z2,…,zHW],zi∈RD为像素i的语义表示特征,i=1,2,…,HW。HW是特征图的大小(高度乘以宽度)。
对于每个像素i,语义的注意力转换通过如下公式实现:
Figure BDA0003478417120000101
步骤123、基于当前尺度的语义表示特征,得到当前尺度的图像特征;
将当前尺度的语义表示特征Z与当前尺度的语义特征图X进行连接及特征提取,得到当前尺度的图像特征。
如图4所示,对当前尺度的语义表示特征与当前尺度的语义特征图X进行连接操作(Concat),再对连接得到的图进行特征提取(Conv),得到当前尺度的图像特征。
这样重新得到的图像特征结合了原来的语义特征图X以及经过语义嵌入和注意力结合得到的语义表示特征,可以关注到语义上下文之间的联系。
如图3和图4所示,上述步骤121-步骤123,可以通过语义表示模块SR(SemanticRepresentation Module)来执行。如图4所示,注意力模块SA语义表示模块SR结合了语义嵌入模块SE和注意力模块SA,语义表示模块SR通过全局语义表示建立了特征信息和语义上下文之间的联系。对于每个单个特征x,通过根据语义上下文将特征嵌入到语义记忆中来得到重建的语义表示特征Z。
语义表示模块SR输出的特征为当前尺度的图像特征。
换言之,上述方法通过语义上下文和特征信息分别选择相应的记忆特征和嵌入权重。因此,本发明的语义表示模块SR可自适应地学习所有类别的全局表示。
步骤124、将当前尺度的图像特征与目标分割语义进行融合,得到当前分割语义。
如图3所示,当前层的语义表示模块SR输出的图像特征与上一尺度的分割语义Li-1进行融合,可得到当前分割语义Li
上述图像分割方法,通过语义嵌入和注意力,以及跨层间的多次融合,可以充分利用语义上下文,进行粗到精的迭代分割,分割结果的准确性高。
在一些实施例中,步骤120、对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,包括:将当前尺度的语义特征图输入到图像分割模型的当前分割层,得到当前分割层输出的各分割语义。
换言之,该步骤可以通过神经网络来实现,其中步骤110可以通过特征提取网络实现,该特征提取网络可以包括带有ResNet主干的编码器-解码器架构,步骤121-步骤124可以通过多个分割层实现,每个分割层可以包括上述语义表示模块SR。
该图像分割模型可以为以样本输入图像为样本,以与样本分割图像对应的样本分割结果为样本标签训练得到。实际训练过程,特征提取网络和分割层可以联合训练或独立训练,比如特征提取网络可以为预训练的网络。
图像分割模型的损失函数为交叉熵损失函数,且交叉熵损失函数用于表征各分割层的分割损失。
图像分割模型包括特征提取网络ResNet和语义表示分割网络SRRNet(SemanticRep-resentation Refinement Network),特征提取网络ResNet的输入为待分割图像,输出为不同尺度的多个语义特征图(X1、X2、X3和X4),语义表示分割网络SRRNet的输入为语义特征图(X1、X2、X3和X4),输出为分割结果。
需要说明的是,本发明实施例的图像分割方法采用多尺度的特征信息,通过高级特征捕获全局语义上下文,低级特征提供局部文本细节,再通过跨层迭代细化分割,且在分割时,将语义表示模块SR应用于所有层,以进一步利用语义上下文。
在训练时,通过多尺度损失来进行深度监督,确保所有
Figure BDA0003478417120000121
其中4表示图3所示的模型中具有4层,最终损失函数为
Figure BDA0003478417120000122
其中,如图3所示GT为ground truth,表示样本标签,αs为尺度系数,用于平衡不同尺度的分割损失,比如依据经验设置αs,比如可以随尺度s设置αs=2s-4
发明人采用如下两个基准数据集上对上述方法进行了试验评估:PASCAL VOC2012和Cityscapes。
PASCAL VOC 2012数据集有20个对象类和一个背景类,包含10582个增强图像、1464个训练图像、1449个验证图像和1456个测试图像。Cityscapes数据集有19个语义类,分别提供2975、500和1525个精细注释图像用于训练、验证和测试。
使用预训练的ResNet主干构建编码器-解码器基线模型ASPP模块作为特征提取网络。所有模型都采用了最后两个ResNet模块的扩张策略。SRRNet的内存容量设置为N=8。在训练阶段,采用poly学习率调度
Figure BDA0003478417120000123
Niter是当前的迭代次数,Ntotal是总迭代次数,γ0为基础学习率,且采用具有动量0.9和权重衰减系数0.0001的随机梯度下降(SGD)优化器。
在训练过程中,采用随机水平翻转和随机尺度策略,尺度比从0.5到2.0。对于PASCAL VOC 2012数据集,训练batch大小为16,基本学习率为0.001,训练epoch为80,训练大小为480X 480。在测试阶段,水平翻转和多尺度输入策略被用来促进分割结果,比例设置为{0.5、0.75、1.0、1.25、1.5、1.75}。
对于Cityscapes数据集,训练batch大小为8,基本学习率为0.001,训练epoch为240,训练大小为768X 768。在测试阶段,水平翻转和多尺度输入策略被用来促进分割结果。比例设置为{0.75、1.0、1.25、1.5、1.75、2.0}。另外还可以采用训练epoch为5的预热策略、在线硬示例挖掘(OHEM)方法和最后一个ResNet模块的大小为(4,8,16)的多网格方法。
通过试验发现,本发明的语义表示分割网络SRRNet在PASCAL VOC 2012上实现了优于其他方法的性能(85.4%)。在这些对比方法中,EncNet使用编码层捕获全局场景的编码语义,而DFN使用边界网络捕获语义信息,并通过语义边界监督指导特征学习。此外,如表二所示,SRRNet在Cityscapes上也实现了82.3%的卓越性能,大大优于以前的方法。此外,带有ResNet-50主干的SRRNet甚至优于带有ResNet-100的一些基于语义上下文的方法,包括DFN和CPNet,进一步验证了本发明模型的有效性。
表一PASCAL VOC 2012数据集定量评估
Figure BDA0003478417120000131
表二Cityscapes PASCAL VOC 2012数据集定量评估
Figure BDA0003478417120000141
下面对本发明实施例提供的图像分割装置进行描述,下文描述的图像分割装置与上文描述的图像分割方法可相互对应参照。
如图7所示,本发明实施例的图像分割装置,包括:提取模块710、语义分割模块720和确定模块730。
提取模块710,用于对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
语义分割模块720,用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义;
确定模块730,用于确定最后一个语义特征图对应的分割语义为图像分割结果。
本发明实施例提供的图像分割装置,通过提取多个尺度的语义特征图,可以充分利用语义上下文,再结合语义嵌入和注意力转换跨层进行粗到精的迭代分割,有助于提高分割结果的准确性。
另外,通过跨层迭代分割,在保证分割准确度的前提下,可减少分割层数,从而帮助精简网络,这样该方法可直接用于各种终端独立运行,不依赖于服务器的计算。
在一些实施例中,语义分割模块720,还用于对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图;通过目标分割语义对当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征;基于当前尺度的语义表示特征,得到当前尺度的图像特征;将当前尺度的图像特征与目标分割语义进行融合,得到当前分割语义。
在一些实施例中,语义分割模块720,还用于将当前尺度的语义特征图嵌入到记忆张量,得到当前尺度的嵌入特征图。
在一些实施例中,语义分割模块720,还用于从记忆张量中确定与当前尺度的语义特征图中目标第一特征相似度最大的目标记忆特征;将目标第一特征嵌入到目标记忆特征,得到当前尺度的嵌入特征图中的目标嵌入特征。
在一些实施例中,语义分割模块720,还用于对目标分割语义进行softmax操作,得到概率图;通过概率图对当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征。
通过层间的注意力机制,使得模型在进行残差学习时能够关注特征的学习,进而能够进一步提高特征提取的准确性和可靠性。
在一些实施例中,语义分割模块720,还用于将当前尺度的语义表示特征与当前尺度的语义特征图进行连接,在将连接后的图进行特征提取,得到当前尺度的图像特征。
这样重新得到的图像特征结合了原来的语义特征图X以及经过语义嵌入和注意力结合得到的语义表示特征,可以关注到语义上下文之间的联系。
在一些实施例中,语义分割模块720,还用于将当前尺度的语义特征图输入到图像分割模型的当前分割层,得到当前分割层输出的各分割语义。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行图像分割方法,该方法包括:对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义;确定最后一个语义特征图对应的分割语义为图像分割结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的图像分割方法,该方法包括:对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义;确定最后一个语义特征图对应的分割语义为图像分割结果。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的图像分割方法,该方法包括:对待分割图像进行特征提取,得到不同尺度的多个语义特征图,多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,当前尺度的语义特征图包括除第一个语义特征图之外的其他语义特征图,目标分割语义为上一尺度的语义特征图对应的分割语义;确定最后一个语义特征图对应的分割语义为图像分割结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围中。

Claims (12)

1.一种图像分割方法,其特征在于,包括:
对待分割图像进行特征提取,得到不同尺度的多个语义特征图,所述多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,所述当前尺度的语义特征图包括除所述第一个语义特征图之外的其他语义特征图,所述目标分割语义为上一尺度的语义特征图对应的分割语义;
确定最后一个语义特征图对应的分割语义为图像分割结果。
2.根据权利要求1所述的图像分割方法,其特征在于,所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,包括:
对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图;
通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征;
基于所述当前尺度的语义表示特征,得到当前尺度的图像特征;
将所述当前尺度的图像特征与所述目标分割语义进行融合,得到当前分割语义。
3.根据权利要求2所述的图像分割方法,其特征在于,所述对当前尺度的语义特征图进行语义嵌入,得到当前尺度的嵌入特征图,包括:
将当前尺度的语义特征图嵌入到记忆张量,得到当前尺度的嵌入特征图。
4.根据权利要求3所述的图像分割方法,其特征在于,所述将当前尺度的语义特征图嵌入到记忆张量,得到当前尺度的嵌入特征图,包括:
从记忆张量中确定与当前尺度的语义特征图中目标第一特征相似度最大的目标记忆特征;
将所述目标第一特征嵌入到所述目标记忆特征,得到当前尺度的嵌入特征图中的目标嵌入特征。
5.根据权利要求2所述的图像分割方法,其特征在于,所述通过目标分割语义对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征,包括:
对目标分割语义进行softmax操作,得到概率图;
通过所述概率图对所述当前尺度的嵌入特征图进行注意力转换,得到当前尺度的语义表示特征。
6.根据权利要求2所述的图像分割方法,其特征在于,所述基于所述当前尺度的语义表示特征,得到当前尺度的图像特征,包括:
将所述当前尺度的语义表示特征与所述当前尺度的语义特征图进行连接及特征提取,得到当前尺度的图像特征。
7.根据权利要求1所述的图像分割方法,其特征在于,所述对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,包括:
将当前尺度的语义特征图输入到图像分割模型的当前分割层,得到所述当前分割层输出的各分割语义。
8.根据权利要求7所述的图像分割方法,其特征在于,所述图像分割模型的损失函数为交叉熵损失函数,且所述交叉熵损失函数用于表征各分割层的分割损失。
9.一种图像分割装置,其特征在于,包括:
提取模块,用于对待分割图像进行特征提取,得到不同尺度的多个语义特征图,所述多个语义特征图按照尺度从高到低排序,且将第一个语义特征图作为第一个分割语义;
语义分割模块,用于对当前尺度的语义特征图与目标分割语义进行语义嵌入和注意力转换,得到当前分割语义,所述当前尺度的语义特征图包括除所述第一个语义特征图之外的其他语义特征图,所述目标分割语义为上一尺度的语义特征图对应的分割语义;
确定模块,用于确定最后一个语义特征图对应的分割语义为图像分割结果。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述的图像分割方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像分割方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像分割方法的步骤。
CN202210061207.4A 2022-01-19 2022-01-19 图像分割方法、图像分割装置、电子设备和存储介质 Pending CN114648760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210061207.4A CN114648760A (zh) 2022-01-19 2022-01-19 图像分割方法、图像分割装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210061207.4A CN114648760A (zh) 2022-01-19 2022-01-19 图像分割方法、图像分割装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114648760A true CN114648760A (zh) 2022-06-21

Family

ID=81993940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210061207.4A Pending CN114648760A (zh) 2022-01-19 2022-01-19 图像分割方法、图像分割装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114648760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681957A (zh) * 2023-08-03 2023-09-01 富璟科技(深圳)有限公司 一种基于人工智能的图像识别方法及计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681957A (zh) * 2023-08-03 2023-09-01 富璟科技(深圳)有限公司 一种基于人工智能的图像识别方法及计算机设备
CN116681957B (zh) * 2023-08-03 2023-10-17 富璟科技(深圳)有限公司 一种基于人工智能的图像识别方法及计算机设备

Similar Documents

Publication Publication Date Title
CN107330127B (zh) 一种基于文本图片检索的相似文本检测方法
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
Yang et al. TTL-IQA: Transitive transfer learning based no-reference image quality assessment
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN115393606A (zh) 图像识别的方法和系统
CN114648760A (zh) 图像分割方法、图像分割装置、电子设备和存储介质
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN114662567A (zh) 基于不同模型特征融合的卷积神经网络图像分类方法
CN113449613A (zh) 多任务长尾分布图像识别方法、系统、电子设备及介质
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116823983A (zh) 基于风格收集机制的一对多风格书法图片生成方法
US11816909B2 (en) Document clusterization using neural networks
CN114565625A (zh) 一种基于全局特征的矿物图像分割方法及装置
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
CN112364193A (zh) 面向图像检索的融合多层特征深度神经网络模型方法
CN116758618B (zh) 图像识别方法、训练方法、装置、电子设备及存储介质
CN114049634B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN116050428B (zh) 意图识别方法、装置、设备及存储介质
CN114708467B (zh) 基于知识蒸馏的不良场景识别方法及系统及设备
CN111709479B (zh) 一种图像分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination