CN111815639A - 目标分割方法及其相关装置 - Google Patents

目标分割方法及其相关装置 Download PDF

Info

Publication number
CN111815639A
CN111815639A CN202010634962.8A CN202010634962A CN111815639A CN 111815639 A CN111815639 A CN 111815639A CN 202010634962 A CN202010634962 A CN 202010634962A CN 111815639 A CN111815639 A CN 111815639A
Authority
CN
China
Prior art keywords
feature map
feature
fused
attention
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010634962.8A
Other languages
English (en)
Inventor
张迪
潘华东
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202010634962.8A priority Critical patent/CN111815639A/zh
Publication of CN111815639A publication Critical patent/CN111815639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供目标分割方法及其相关装置。该目标分割方法包括:获得目标图像的不同层次的特征图;将不同层次的特征图中至少部分特征图进行融合,得到融合特征图;利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到注意力特征图;对注意力特征图进行处理,得到目标图像的分割结果。本申请的方法可以使得分割出来的结果更加精准。

Description

目标分割方法及其相关装置
技术领域
本申请涉及图像分割技术领域,特别是涉及目标分割方法及其相关装置。
背景技术
目前通常使用目标分割算法将目标图像中目标所在区域提取出来。但是由于实际监控场景中环境复杂多变,目标区域容易被遮挡,导致分割不准确,另外,可能会存在至少部分非目标区域中与目标区域相似的情况,也会导致分割效果不佳。
发明内容
本申请提供目标分割方法及其相关装置,以解决目前目标分割方法分割效果不佳的问题。
为解决上述问题,本申请提供一种目标分割方法,该方法包括:
获得目标图像的不同层次的特征图;
将不同层次的特征图中至少部分特征图进行融合,得到融合特征图;
利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到注意力特征图;
对注意力特征图进行处理,得到目标图像的分割结果。
其中,不同层次的特征图包括n层特征图;
将不同层次的特征图中至少部分特征图进行融合,包括:将第n层特征图和第n-1层特征图进行融合,得到融合特征图;
将融合特征图和第y层特征图进行融合,得到新的融合特征图;
在y>1时,将第y-1层特征图作为第y层特征图,并返回将融合特征图和第y层特征图进行融合,得到新的融合特征图的步骤;
其中,y初始为n-2。
其中,将第n层特征图和第n-1层特征图进行融合,得到融合特征图,包括:对第n层特征图和/或第n-1层特征图进行处理,以让第n层特征图的宽和高分别与第n-1层特征图的宽和高相等;将第n层特征图和第n-1层特征图进行融合,得到融合特征图;
将融合特征图和第y层特征图进行融合,得到新的融合特征图,包括:利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到第一注意力特征图;对第一注意特征图和/或第y层特征图进行处理,以让第一注意力特征图的宽和高分别与第y层特征图的宽和高相等;将第一注意力特征图和第y层特征图进行融合,得到新的融合特征图。
其中,利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到注意力特征图,包括:
确定融合特征图的空间注意力权重,将空间注意力权重和融合特征图相乘,得到第一特征图;
确定融合特征图的通道注意力权重,将通道注意力权重和融合特征图相乘,得到第二特征图;
将第一特征图和第二特征图进行融合,得到注意力特征图。
其中,确定融合特征图的空间注意力权重,包括:对融合特征图进行卷积和第一激活函数处理,得到通道为1的空间注意力权重;和/或,
确定融合特征图的通道注意力权重,包括:对融合特征图进行全局平均池化处理,得到宽为1且高为1的第一特征向量,第一特征向量的通道数与融合特征图的通道数相等;对第一特征向量进行1*1卷积和第二激活函数处理,得到通道数为融合特征图通道数一半的第二特征向量;对第二特征向量进行1*1卷积和第三激活函数处理,得到通道数与融合特征图通道数相等的通道注意力权重。
其中,方法基于目标分割网络实现目标分割,目标分割网络包括特征提取层、融合注意力层和目标分割层;
获得目标图像的不同层次的特征图,包括:通过特征提取层获得目标图像的不同层次的特征图;
将不同层次的特征图中至少部分特征图进行融合,得到融合特征图,包括:通过融合注意力层将不同层次的特征图中至少部分特征图进行融合,得到融合特征图;
对注意力特征图进行处理,包括:通过目标分割层对注意力特征图进行处理;
得到目标图像的分割结果,之后包括:利用交叉熵损失函数和focal loss损失函数,基于目标图像的分割结果和标注掩码计算损失;
基于损失训练目标分割网络。
其中,基于损失训练目标分割网络,包括:利用Adam优化器优化损失,直至目标分割网络收敛,以得到训练后的目标分割网络。
其中,对注意力特征图进行处理,得到目标图像的分割结果,包括:
对注意力特征图进行卷积和上采样处理,得到通道数为2的第三特征图,第三特征图的宽和高分别与目标图像的宽和高相等;
基于第三特征图中每个位置的两个通道的像素值,确认目标图像每个位置是否为目标所在区域;
基于目标图像每个位置是否为目标所在区域的判断结果得到目标图像的分割结果。
为解决上述问题,本申请还提供一种目标分割装置,该目标分割装置包括相互耦接的存储器和处理器,存储器用于存储程序指令,处理器用于执行程序指令以实现上述任一项的方法。
为解决上述问题,本申请还提供一种计算机可读存储介质,该计算机可读存储介质包括存储有能够实现上述任一项的方法的程序文件。
本申请的方法是:获得目标图像的不同层次的特征图,并且将不同层次的特征图中至少部分特征图进行融合,得到融合特征图,结合了浅层特征图中位置精确的特点,深层特征图中语义信息强的特点,有利于提高分割结果的准确性;然后利用空间注意力机制和通道注意力机制对融合特征图进行处理,可以对融合特征图进行校正,使得分割出来的结果更加精准。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请目标分割方法第一实施方式的流程示意图;
图2是本申请目标分割方法中空间注意力机制的示意图;
图3是本申请目标分割方法中通道注意力机制的示意图;
图4是本申请目标分割方法第二实施方式的流程示意图;
图5是本申请目标分割装置一实施方式的结构示意图;
图6是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,下面结合附图和具体实施方式对本申请所提供的目标分割方法及其相关装置做进一步详细描述。
具体请参阅图1,图1是本申请目标分割方法第一实施方式的流程示意图。其中目标分割方法可用于将目标图像中的目标对应的部分分割出来。目标可以是人、动物、植物等各种物体。目标图像是指包含目标的图像。例如,目标分割方法可用于将目标图像中的人对应的部分分割出来。本实施方式目标分割方法包括以下步骤。
S101:获得目标图像的不同层次的特征图。
提取目标图像的特征,获得目标图像的不同层次的特征图。
可以通过任意具有特征提取功能的网络提取目标图像的特征,以获得目标图像的不同层次的特征图。
例如,可以通过VGG16、resnet18或resnet50中的特征提取单元提取目标图像的特征。
示例性地,目标图像先经过resnet18中7*7的卷积层以及resnet18的layer1进行两倍下采样,得到两倍采样的第一层特征图f1,第一层特征图的通道数为32,第一层特征图f1经过resnet18的layer2进行两倍下采样,得到四倍采样的第二层特征图f2,第二层特征图的通道数为64,第二层特征图f2经过resnet18的layer3进行两倍下采样,得到八倍采样的第三层特征图f3,第三层特征图的通道数为128,第三层特征图f3经过resnet18的layer4进行两倍下采样,得到十六倍采样的第四层特征图f4,第四层特征图的通道数为256。即通过resnet18提取目标图像的特征,可以获得目标图像的4层特征图。
不同层次的特征图可以包括n层特征图,其中n为整数且n≥2。另外,n层特征图的尺寸可以都不相同。在其他实现方式中,n层特征图的至少部分特征图的尺寸可以相同。
可以理解的是,本申请的特征图的尺寸是指特征图的宽、高和通道数。两个特征图的宽、高和通道数中的至少一个不相同时,即可以代表两个特征图的尺寸不相同。两个特征图的宽、高和通道数均相同时,可以代表两个特征图的尺寸相同。
S102:将不同层次的特征图中至少部分特征图进行融合,得到融合特征图。
可以通过多种方法将不同层次的特征图中至少部分特征图进行融合,得到融合特征图,以将浅层特征和深层特征相结合,结合了浅层特征图中位置精确的特点,深层特征图中语义信息强的特点。
在一实现方式中,直接将不同层次的特征图中至少部分特征图进行一步融合。
在另一实现方式中,逐步将不同层次的特征图中至少部分特征图进行融合。例如,在不同层次的特征图包括n层特征图时,将第n层特征图和第n-1层特征图进行融合,得到当前融合特征图;将当前融合特征图和第y层特征图进行融合,得到新的融合特征图,将新的融合特征图作为当前融合特征图;在y>1时,将第y-1层特征图作为第y层特征图,并返回将当前融合特征图和第y层特征图进行融合,得到新的融合特征图,将新的融合特征图作为当前融合特征图的步骤;在y≤1时,将当前融合特征图作为不同层次的特征图中至少部分特征图融合得到的融合特征图,其中,y初始为n-2。示例性地,对以resnet18获得的目标图像的4层特征图(f1、f2、f3和f4)进行融合时,先对第四层特征图f4和第三层特征图f3进行特征图融合,得到融合特征图d1。然后对融合特征图d1和第二层特征图f2进行融合,得到新的融合特征图d2,接着对融合特征图d2和第一层特征图f1进行融合,得到新的融合特征图d3。
另外,可以通过将不同层的特征图在通道维度上进行合并,或通过将不同层的特征图相加,或者通过将不同层的特征图进行加权融合,以将不同层的特征图进行融合。
可以理解的是,将不同层的特征图进行融合,还可以包括对需要进行融合的特征图中的至少一者进行处理,以将需要进行融合的特征图的宽和高统一,以方便将不同层的特征图进行融合。例如,在将通过resnet18获得的f4和f3进行融合的过程中,可以对f4进行上采样,让上采样后的f4的宽和高与f3的宽和高相同;或者可以对f3进行下采样,让下采样后的f3的宽和高与f4的宽和高相同。即在将第n层特征图和第n-1层特征图进行融合的过程中,需要对第n层特征图和/或第n-1层特征图进行处理,以让第n层特征图的宽和高分别与第n-1层特征图的宽和高相等。相应地,在将通过resnet18获得的f2和融合特征图b1进行融合的过程中,也需要对f2和/或b1进行处理,以让处理后的b1和f2的宽和高相同;在将通过resnet18获得的f1和融合特征图b2进行融合的过程中,也需要对f1和/或b2进行处理,以让处理后的b2和f1的宽和高相同。进一步地,可以将需要进行融合的特征图的尺寸统一,即将需要进行融合的特征图的宽、高和通道数统一。
S103:利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到注意力特征图。
利用空间注意力机制和通道注意力机制对融合特征图进行处理,可以对融合特征图进行校正,使得分割出来的结果更加精准,可以实现用少量的参数提高分割结果准确性的效果。
在一实现方式中,可以先利用空间注意力机制对融合特征图进行处理,得到空间注意力特征图;然后利用通道注意力机制对空间注意力特征图进行处理,得到注意力特征图。
在又一实现方式中,可以先利用通道注意力机制对融合特征图进行处理,得到通道注意力特征图;然后利用空间注意力机制对通道注意力特征图进行处理,得到注意力特征图。
在另一实现方式中,可以分别利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到第一特征图和第二特征图;将第一特征图和第二特征图进行融合,得到注意力特征图。示例性地,利用空间注意力机制和通道注意力机制对融合特征图进行处理的步骤,可以包括:确定融合特征图的空间注意力权重,将空间注意力权重和融合特征图相乘,得到第一特征图;确定融合特征图的通道注意力权重,将通道注意力权重和融合特征图相乘,得到第二特征图;将第一特征图和第二特征图进行融合,得到注意力特征图。
可选地,可以通过将第一特征图和第二特征图在通道维度上进行合并,或通过将第一特征图和第二特征图相加,或者通过将第一特征图和第二特征图进行加权融合,以将第一特征图和第二特征图进行融合。
其中,如图2所示,确定融合特征图的空间注意力权重的步骤,可以包括:对融合特征图进行卷积和第一激活函数处理,得到通道为1的空间注意力权重。
另外,如图3所示,确定融合特征图的通道注意力权重的步骤,可以包括:对融合特征图进行全局平均池化处理,得到宽为1且高为1的第一特征向量,第一特征向量的通道数与融合特征图的通道数相等;对第一特征向量进行1*1卷积和第二激活函数处理,得到通道数为融合特征图通道数一半的第二特征向量;对第二特征向量进行1*1卷积和第三激活函数处理,得到通道数与融合特征图通道数相等的通道注意力权重。
第一激活函数、第二激活函数和第三激活函数可以相同或不相同。第一激活函数、第二激活函数和第三激活函数可以为sigmoid激活函数、tanh激活函数、Relu激活函数、Leaky ReLU函数、ELU(Exponential Linear Units)激活函数或MaxOut函数,当然不限于此。例如,第一激活函数为sigmoid激活函数,第二激活函数为Relu激活函数,第三激活函数为sigmoid激活函数。
S104:对注意力特征图进行处理,得到目标图像的分割结果。
在本实施方式中,获得目标图像的不同层次的特征图,并且将不同层次的特征图中至少部分特征图进行融合,得到融合特征图,结合了浅层特征图中位置精确的特点,深层特征图中语义信息强的特点,有利于提高分割结果的准确性;然后利用空间注意力机制和通道注意力机制对融合特征图进行处理,可以对融合特征图进行校正,使得分割出来的结果更加精准。
可选地,在步骤S102中,逐步将不同层次的特征图中至少部分特征图进行融合的过程中,每得到一当前融合特征图,都可以利用空间注意力机制和通道注意力机制对新得到的当前融合特征图进行校正。即将当前融合特征图和第y层特征图进行融合,得到新的融合特征图的步骤,可以包括:利用空间注意力机制和通道注意力机制对当前融合特征图进行处理,得到第一注意力特征图;对第一注意特征图和/或第y层特征图进行处理,以让第一注意力特征图的宽和高分别与第y层特征图的宽和高相等;将第一注意力特征图和第y层特征图进行融合,得到新的融合特征图。
另外,本申请的目标分割方法可以基于目标分割网络实现目标分割,目标分割网络包括特征提取层、融合注意力层和目标分割层。当然还可以通过本申请目标分割方法训练目标分割网络。具体请参阅图4,图4是本申请目标分割方法第二实施方式的流程示意图。
S201:通过特征提取层获得目标图像的不同层次的特征图。
目标图像可以是训练集中的目标图像,或者其他需要进行目标分割的目标图像。
其中,训练集可以包括目标图像及其标注掩码。训练集中的目标图像可以通过收集目标在实际场景中的图像,运用目标与跟踪方法得到。目标图像的标注掩码可以通过抠图的方式对目标图像进行标注,然后将目标所在区域的像素值设置为第一值,将非目标所在区域的像素值设置为第二值,以得到目标图像的标注掩码。其中,第一值和第二值可以设置为任意值,只要第一值和第二值不相同即可。例如第一值为1,第二值为0。例如,目标为行人时,可以利用抠图的方式对目标图像进行标注,其中人体区域(包括行人的附着物)标注为像素值为1的点,非人体区域标注为像素值为0的点,得到该张目标图像的标注掩码。
另外,可以对训练集中目标图像及其标注掩码进行随机翻转、随机缩放、随机模糊等数据增强处理,以丰富训练集中训练样本。训练集中行人图像及其标注掩码的尺寸可以统一,例如可以将训练集中行人图像及其标注掩码统一为384*160大小的图像。
S202:通过融合注意力层将不同层次的特征图中至少部分特征图进行融合,得到融合特征图。
具体请参见步骤S102,在此不做赘述。
S203:利用空间注意力机制和通道注意力机制对融合特征图进行处理,得到注意力特征图。
具体请参见步骤S103,在此不做赘述。
S204:利用目标分割层对注意力特征图进行处理,得到目标图像的分割结果。
利用目标分割层对注意力特征图进行处理,得到目标图像的分割结果,包括:对注意力特征图进行处理,得到通道数为2的第三特征图,第三特征图的宽和高分别与目标图像的宽和高相等;基于第三特征图中每个位置的两个通道的像素值,确认目标图像每个位置是否为目标所在区域;基于目标图像每个位置是否为目标所在区域的判断结果得到目标图像的分割结果。
其中,可以对注意力特征图进行卷积和上采样处理,以得到第三特征图。第三特征图的两个通道分别为目标区域预测结果和非目标区域预测结果,从而通过比较每个位置的两个通道的值,可以确定目标图像每个位置是否为目标所在区域。例如,利用目标分割方法进行行人分割,第0通道为人体区域预测结果,第1通道为非人体区域预测结果(背景区域预测结果),可以基于每个位置的两个通道的值判断目标图像每个位置是否为人体区域;若一位置的第0通道的值大于该位置的第1通道的值,可以判断该位置为人体所在区域,若一位置的第1通道的值大于该位置的第0通道的值,可以判断该位置为非人体所在区域。
另外,目标所在区域在目标图像的分割结果中对应像素点的像素值为第三值,非目标所在区域在目标图像的分割结果中对应像素点的像素值为第四值。其中,第三值和第四值可以设置为任意值,只要第三值和第四值不相同即可。例如第三值为255,第四值为0。
S205:基于目标图像的分割结果和标注掩码计算损失。
可以以任意损失函数基于特征向量计算损失。
其中,可以以平方损失函数、绞链损失函数、交叉熵损失函数、对数损失函数和三元组损失函数中至少一种损失函数,基于目标图像的分割结果和标注掩码计算损失,当然不限于此。例如,利用交叉熵损失函数和focal loss函数,基于特征向量计算损失。
因为对于目标图像而言,通常目标区域占了目标图像的大部分面积,且较多区域为易分样本,导致数据集中正样本过多,且包含大量易分样本,为了缓解训练目标分割网络训练时正负样本比例失调的问题,在计算损失时,应用了交叉熵损失函数和focal loss函数,focal loss函数可以抑制行人图像中较多的正易分样本。
focal loss函数的公式如下所示:
Loss1=-α(1-pt)γlog(pt)
其中pt表示目标分割网络最后输出的confidence,当一个样本被分错时,pt很小,反之,当一个样本被分对时,pt较大,对于易分样本而言,pt接近趋近于1。γ是一个超参数。当pt趋近于1(即易分样本),(1-pt)γ趋近于0,也就对总的损失贡献较小。α用于控制正负样本比例。
S206:基于损失训练目标分割网络。
可以利用任意优化器优化损失,直至目标分割网络收敛,以得到训练后的目标分割网络。
其中,优化器可以选自批量梯度下降(BGD,Batch Gradient Descent)优化器、随机梯度下降(SGD,Stochastic Gradient Descent)优化器、小批量梯度下降(MBGD,Mini-Batch Gradient Descent)优化器或自适应矩估计(Adam,Adaptive Moment Estimation)优化器等,当然不限于此。
请参阅图5,图5是本申请目标分割装置一实施方式的结构示意图。本目标分割装置10包括相互耦接的存储器11和处理器12,存储器11用于存储程序指令,处理器12用于执行程序指令以实现上述任一实施方式的方法。
上述目标分割方法的逻辑过程以程序文件呈现,在程序文件方面,若其作为独立的软件产品销售或使用时,其可存储在计算机可读存储介质中,因而本申请提出一种计算机可读存储介质。请参阅图6,图6是本申请计算机可读存储介质一实施方式的结构示意图,本实施方式计算机可读存储介质20中存储有能够实现上述的方法的程序文件21。
该计算机可读存储介质20具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory,)、磁碟或者光盘等可以存储程序文件的介质,或者也可以为存储有该程序文件的服务器,该服务器可将存储的程序文件发送给其他设备运行,或者也可以自运行该存储的程序文件。该计算机可读存储介质20从物理实体上来看,可以为多个实体的组合,例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种目标分割方法,其特征在于,所述方法包括:
获得目标图像的不同层次的特征图;
将所述不同层次的特征图中至少部分特征图进行融合,得到融合特征图;
利用空间注意力机制和通道注意力机制对所述融合特征图进行处理,得到注意力特征图;
对所述注意力特征图进行处理,得到所述目标图像的分割结果。
2.根据权利要求1所述的目标分割方法,其特征在于,所述不同层次的特征图包括n层特征图;
所述将所述不同层次的特征图中至少部分特征图进行融合,包括:将第n层特征图和第n-1层特征图进行融合,得到融合特征图;
将融合特征图和第y层特征图进行融合,得到新的融合特征图;
在y>1时,将第y-1层特征图作为第y层特征图,并返回所述将融合特征图和第y层特征图进行融合,得到新的融合特征图的步骤;
其中,y初始为n-2。
3.根据权利要求2所述的目标分割方法,其特征在于,
所述将第n层特征图和第n-1层特征图进行融合,得到融合特征图,包括:对所述第n层特征图和/或第n-1层特征图进行处理,以让所述第n层特征图的宽和高分别与所述第n-1层特征图的宽和高相等;将所述第n层特征图和第n-1层特征图进行融合,得到融合特征图;
所述将所述融合特征图和第y层特征图进行融合,得到新的融合特征图,包括:利用空间注意力机制和通道注意力机制对所述融合特征图进行处理,得到第一注意力特征图;对所述第一注意特征图和/或所述第y层特征图进行处理,以让所述第一注意力特征图的宽和高分别与所述第y层特征图的宽和高相等;将所述第一注意力特征图和第y层特征图进行融合,得到新的融合特征图。
4.根据权利要求1所述的目标分割方法,其特征在于,所述利用空间注意力机制和通道注意力机制对所述融合特征图进行处理,得到注意力特征图,包括:
确定所述融合特征图的空间注意力权重,将所述空间注意力权重和所述融合特征图相乘,得到第一特征图;
确定所述融合特征图的通道注意力权重,将所述通道注意力权重和所述融合特征图相乘,得到第二特征图;
将所述第一特征图和所述第二特征图进行融合,得到注意力特征图。
5.根据权利要求4所述的目标分割方法,其特征在于,所述确定所述融合特征图的空间注意力权重,包括:对所述融合特征图进行卷积和第一激活函数处理,得到通道为1的空间注意力权重;和/或,
所述确定所述融合特征图的通道注意力权重,包括:对所述融合特征图进行全局平均池化处理,得到宽为1且高为1的第一特征向量,所述第一特征向量的通道数与所述融合特征图的通道数相等;对所述第一特征向量进行1*1卷积和第二激活函数处理,得到通道数为所述融合特征图通道数一半的第二特征向量;对所述第二特征向量进行1*1卷积和第三激活函数处理,得到通道数与所述融合特征图通道数相等的通道注意力权重。
6.根据权利要求1所述的目标分割方法,其特征在于,所述方法基于目标分割网络实现目标分割,所述目标分割网络包括特征提取层、融合注意力层和目标分割层;
所述获得目标图像的不同层次的特征图,包括:通过所述特征提取层获得目标图像的不同层次的特征图;
所述将所述不同层次的特征图中至少部分特征图进行融合,得到融合特征图,包括:通过所述融合注意力层将所述不同层次的特征图中至少部分特征图进行融合,得到融合特征图;
所述对所述注意力特征图进行处理,包括:通过所述目标分割层对所述注意力特征图进行处理;
所述得到所述目标图像的分割结果,之后包括:利用交叉熵损失函数和focal loss损失函数,基于所述目标图像的分割结果和标注掩码计算损失;
基于所述损失训练所述目标分割网络。
7.根据权利要求6所述的目标分割方法,其特征在于,所述基于所述损失训练所述目标分割网络,包括:利用Adam优化器优化所述损失,直至所述目标分割网络收敛,以得到训练后的目标分割网络。
8.根据权利要求1所述的目标分割方法,其特征在于,所述对所述注意力特征图进行处理,得到所述目标图像的分割结果,包括:
对所述注意力特征图进行卷积和上采样处理,得到通道数为2的第三特征图,所述第三特征图的宽和高分别与所述目标图像的宽和高相等;
基于所述第三特征图中每个位置的两个通道的像素值,确认目标图像每个位置是否为目标所在区域;
基于目标图像每个位置是否为目标所在区域的判断结果得到所述目标图像的分割结果。
9.一种目标分割装置,其特征在于,所述目标分割装置包括存储器和处理器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中存储有能够实现权利要求1-8中任一项方法的程序文件。
CN202010634962.8A 2020-07-03 2020-07-03 目标分割方法及其相关装置 Pending CN111815639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010634962.8A CN111815639A (zh) 2020-07-03 2020-07-03 目标分割方法及其相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634962.8A CN111815639A (zh) 2020-07-03 2020-07-03 目标分割方法及其相关装置

Publications (1)

Publication Number Publication Date
CN111815639A true CN111815639A (zh) 2020-10-23

Family

ID=72856318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634962.8A Pending CN111815639A (zh) 2020-07-03 2020-07-03 目标分割方法及其相关装置

Country Status (1)

Country Link
CN (1) CN111815639A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597825A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 驾驶场景分割方法、装置、电子设备和存储介质
CN113156420A (zh) * 2021-03-12 2021-07-23 中国石油大学(华东) 溢油检测系统以及方法
CN114095728A (zh) * 2022-01-21 2022-02-25 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
CN114358198A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 实例分割方法、装置及电子设备
CN116524206A (zh) * 2023-06-30 2023-08-01 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN111091576A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN111126258A (zh) * 2019-12-23 2020-05-08 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN110532955A (zh) * 2019-08-30 2019-12-03 中国科学院宁波材料技术与工程研究所 基于特征注意力和子上采样的实例分割方法和装置
CN111126258A (zh) * 2019-12-23 2020-05-08 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111091576A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597825A (zh) * 2020-12-07 2021-04-02 深延科技(北京)有限公司 驾驶场景分割方法、装置、电子设备和存储介质
CN113156420A (zh) * 2021-03-12 2021-07-23 中国石油大学(华东) 溢油检测系统以及方法
CN114358198A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 实例分割方法、装置及电子设备
CN114095728A (zh) * 2022-01-21 2022-02-25 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
CN114095728B (zh) * 2022-01-21 2022-07-15 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
CN116524206A (zh) * 2023-06-30 2023-08-01 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置
CN116524206B (zh) * 2023-06-30 2023-10-03 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置

Similar Documents

Publication Publication Date Title
CN111815639A (zh) 目标分割方法及其相关装置
US11200424B2 (en) Space-time memory network for locating target object in video content
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN110969627B (zh) 图像分割模型训练方法、图像处理方法及装置
JP2019533866A (ja) 制御フィードバックを用いる画像セグメンテーションの方法及びシステム
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
CN111476719A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112330684B (zh) 对象分割方法、装置、计算机设备及存储介质
CN111783779B (zh) 图像处理方法、装置和计算机可读存储介质
CN113284155B (zh) 视频目标分割方法、装置、存储介质及电子设备
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
CN110489507B (zh) 确定兴趣点相似度的方法、装置、计算机设备和存储介质
CN110675407A (zh) 一种图像实例分割方法、装置、电子设备及存储介质
CN114998595B (zh) 弱监督语义分割方法、语义分割方法及可读存储介质
CN113111716B (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
GB2579262A (en) Space-time memory network for locating target object in video content
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN117237648A (zh) 基于上下文感知的语义分割模型的训练方法、装置和设备
CN114299304A (zh) 一种图像处理方法及相关设备
CN111985616B (zh) 一种图像特征提取方法、图像检索方法、装置及设备
CN117253071B (zh) 基于多级伪标签增强的半监督目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination