CN113469181B - 图像语义分割处理方法、装置及存储介质 - Google Patents

图像语义分割处理方法、装置及存储介质 Download PDF

Info

Publication number
CN113469181B
CN113469181B CN202010246033.XA CN202010246033A CN113469181B CN 113469181 B CN113469181 B CN 113469181B CN 202010246033 A CN202010246033 A CN 202010246033A CN 113469181 B CN113469181 B CN 113469181B
Authority
CN
China
Prior art keywords
image
images
scale
semantic segmentation
segmentation processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010246033.XA
Other languages
English (en)
Other versions
CN113469181A (zh
Inventor
余雪兵
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN202010246033.XA priority Critical patent/CN113469181B/zh
Publication of CN113469181A publication Critical patent/CN113469181A/zh
Application granted granted Critical
Publication of CN113469181B publication Critical patent/CN113469181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种图像语义分割处理方法、装置及存储介质,其中,该方法包括:首先对第一图像进行N次下采样卷积处理,获得N个不同尺度的第二图像;接着,对第N个尺度的第二图像进行M次上采样卷积处理,获得M个不同尺度的第三图像;然后,根据上述N个不同尺度的第二图像和/或M个不同尺度的第三图像,获得H个不同尺度的第四图像的图像语义分割处理结果。本方案中处于中间层的第二图像以及中间层的第三图像除了用于链接上下级图像之外,还用于获取不同尺度的第四图像,有效提高了中间层的第二图像以及中间层的第三图像的利用率;另外,有效缩短了同时获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高了计算效率。

Description

图像语义分割处理方法、装置及存储介质
技术领域
本发明涉及图像语义分割技术领域,尤其涉及一种图像语义分割处理方法、装置及存储介质。
背景技术
图像语义分割是指对图像中的像素根据其所属的感兴趣对象分配该像素的类别的过程。图像语义分割是图像理解技术的基础,被广泛应用在自动驾驶、目标识别、目标追踪、场景理解等方面。
现有技术中,为了提高图像语义分割处理结果,通常先将原始图像放大或缩小得到不同尺度的图像,接着将上述不同尺度的图像分别输入至预先训练好的模型,得到不同尺度的图像分别对应的图像语义分割处理结果,接着,该模型再根据不同尺度的图像分别对应的图像语义分割处理结果进行统计分析,得到原始图像对应的图像语义分割处理结果。
采用上述方式进行图像语义分割时,若需要同时得到多尺度下的图像语义分割处理结果,则需要模型进行多次前向传播的计算,计算时间较长,效率较低。
发明内容
本发明实施例提供一种图像语义分割处理方法、装置及存储介质,以缩短获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高计算效率。
第一方面,本发明实施例提供一种图像语义分割处理方法,包括:
对第一图像进行N次下采样卷积处理,获得N个第二图像,其中,所述N个第二图像的尺度不同,且第n个第二图像是根据第n-1个第二图像获得的,N为正整数,n为大于等于1且小于等于N的正整数;
对第N个第二图像进行M次上采样卷积处理,获得M个第三图像,其中,M为正整数,所述M个第三图像的尺度不同;
根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,H为正整数,所述H个第四图像的尺度不同。
在一些可能的设计中,所述第四图像是根据第n个第二图像和/或第m个第三图像获得的,其中,所述n与所述m是根据所述第四图像的尺度确定的。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度,则所述第四图像是通过对所述第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
所述第n个第二图像的尺度为所述第一图像的尺度的二分之一,所述第m个第三图像的尺度为所述第一图像的尺度的二分之一。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度的二分之一,则所述第四图像是通过第n个第二图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的八分之一。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度的四分之三,则所述第四图像是通过对第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的四分之一,所述第m个第三图像的尺度为所述第一图像的尺度的四分之一。
在一些可能的设计中,所述根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,包括:
根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像;
分别采用逻辑回归模型对所述H个第四图像进行分析,获取所述H个第四图像分别对应的图像语义分割处理结果。
在一些可能的设计中,所述方法还包括:
根据所述H个不同尺度的第四图像分别对应的图像语义分割处理结果以及注意力机制,获得所述第一图像的图像语义分割处理结果。
第二方面,本发明实施例还提供一种图像语义分割处理装置,包括:
下采样卷积处理模块,用于对第一图像进行N次下采样卷积处理,获得N个第二图像,其中,所述N个第二图像的尺度不同,且第n个第二图像是根据第n-1个第二图像获得的,N为正整数,n为大于等于1且小于等于N的正整数;
上采样卷积处理模块,用于对第N个第二图像进行M次上采样卷积处理,获得M个第三图像,其中,M为正整数,所述M个第三图像的尺度不同;
图像语义分割处理模块,用于根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,H为正整数,所述H个第四图像的尺度不同。
第三方面,本发明实施例提供一种图像语义分割处理装置,该装置包括:存储器、处理器以及计算机程序指令;
所述存储器存储所述计算机程序指令;
所述处理器执行所述计算机程序指令,以执行如第一方面任一项所述的图像语义分割处理方法。
第四方面,本发明实施例提供一种存储介质,包括:程序;
处理器执行所述程序,以执行如第一方面任一项所述的图像语义分割处理方法。
第五方面,本发明实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,所述图像语义分割处理装置的至少一个处理器可以从所述存储介质中读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得所述图像语义分割处理装置执行如第一方面任一项所述的图像语义分割处理方法。
本发明实施例提供一种图像语义分割处理方法、装置及存储介质,其中,该方法包括:首先对第一图像进行N次下采样卷积处理,获得N个不同尺度的第二图像;接着,对第N个尺度的第二图像进行M次上采样卷积处理,获得M个不同尺度的第三图像;然后,根据上述N个不同尺度的第二图像和/或M个不同尺度的第三图像,获得H个不同尺度的第四图像的图像语义分割处理结果。
本申请通过对N个第二图像以及M个第三图像进行充分利用,能够同时获得多个不同尺度的第四图像分别对应的图像语义分割处理结果,有效缩短了同时获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高了计算效率。另外,本实施例的方法使中间层的第二图像以及中间层的第三图像除了用于链接上下级图像之外,还用于获取不同尺度的第四图像,提高了中间层的第二图像和第三图像的利用率。
另外,本申请通过对原始图像进行下采样卷积以及上采样卷积来改变图像的尺度的方式,与现有技术中将原始图像直接缩小的方式获得多个不同尺度的图像的方式相比,本实施例提供的方法能够保留原始图像中更多的特征信息,从而提高了图像语义分割处理结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的图像语义分割处理方法的流程示意图;
图2为本发明提供的图像语义分割处理方法实施例一的流程图;
图3为本发明提供的图像语义分割处理方法实施例二的流程图;
图4为本发明提供的图像语义分割处理方法实施例三的流程图;
图5为本发明提供的图像语义分割处理方法实施例四的流程图;
图6为本发明提供的图像语义分割处理装置实施例一的结构示意图;
图7为本发明提供的图像语义分割处理装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图像语义分割在自动驾驶、目标识别、目标追踪、场景理解等方面已得到大量应用,目前,为了提高图像语义分割处理结果的精确度,通常先将原始图像放大或缩小得到不同尺度的图像,然后,将不同尺度的图像分别输入到预先训练好的图像语义分割处理模型中,得到不同尺度的图像分别对应的图像语义分割处理结果,接着将不同尺度的图像分别对应的图像语义分割处理结果还原至原始图像大小并进行统计分析,从而得到原始图像对应的图像语义分割处理结果。
例如,如图1所示,首先对原始图像A进行放大或缩小,得到3个不同尺度的输入图像,分别为第1输入图像a1、第2输入图像a2以及第3输入图像a3,将上述第1输入图像a1、第2输入图像a2以及第3输入图像a3分别输入到图像语义分割处理模型100中,例如,输入第1输入图像a1,则图像语义分割处理模型100对输入的图像进行3次步长为2的下采样处理,得到尺度为第1输入图像a1的尺度的八分之一的图像;然后,对该尺度为第1输入图像的尺度的八分之一的图像进行上采样以及卷积处理,获得尺度为第1输入图像的尺度的二分之一的图像;接着,再将卷积获得的尺度为第1输入图像的尺度的二分之一的图像以及第1次下采样输出的尺度为第1个输入图像的尺度的二分之一的图像进行融合,获得尺度为第1输入图像的尺度的图像,这里所指的融合即为反卷积处理;并采用分类预测模型对融合得到的尺度为第1输入图像的尺度的图像进行分析,获得第1输入图像a1的图像语义分割处理结果。类似地,针对第2输入图像a2以及第3输入图像a3分别执行上述处理,获得第2输入图像a2以及第3输入图像a3分别对应的图像语义分割处理结果。其中,分类预测模型是预先训练好的用于图像语义分割的网络模型。
在现有技术所示的图像语义分割处理方法一次仅能够获取一个尺度的图像语义分割处理结果,若要获得多个尺度的图像语义分割处理结果,需要图像语义分割模型100重复执行图1中所示的图像语义分割处理方法。
且在实际应用中,将上述3个不同尺度的图像输入图像语义分割处理模型,重复上述过程3次所花费的时间远远大于以原始图像A作为输入,图像语义分割处理模型重复执行3次所花费的时间,因此,现有技术中的图像语义分割处理方法,获得多尺度图像的图像语义分割处理结果时,计算效率较低。
另外,在图1所示的图像语义分割处理方法中,处于中间层的下采样处理输出的图像的作用仅是链接前一级的下采样处理以及后一级的下采样处理,类似地,上采样处理过程中,处于中间层的上采样处理输出的图像的作用仅是链接前一级的上采样处理以及后一级的上采样处理,这些中间层的下采样处理以及上采样处理输出的图像的利用率较低。
因此,本申请实施例提供一种图像语义分割处理方法,以解决现有技术中同时获得多个不同尺度的图像的图像语义分割处理结果时计算效率较低的问题,以及提高中间层的下采样处理以及上采样处理输出的图像的利用率。
下面通过几个具体的实施例对本发明实施例提供的图像语义分割处理方法进行详细介绍:
图2为本发明提供的图像语义分割处理方法实施例一的流程图。如图2所示,本实施例的方法包括:
S201、对第一图像进行N次下采样卷积处理,获得N个第二图像。
在该方案中,对第一图像进行N次下采样卷积处理时,第一图像为第1次下采样卷积处理的输入图像,第1次下采样卷积处理输出的图像为第2次下采样卷积处理的输入图像,以此类推。第1次下采样卷积处理输出的图像为第1个第二图像,第2次下采样卷积处理输出的图像为第2个第二图像,第3次下采样卷积处理输出的图像为第3个第二图像,以此类推,经过N次下采样卷积处理能够获得N个第二图像,且该N个第二图像的尺度不同。
且本步骤获得的N个第二图像的尺度均小于第一图像的尺度。
需要说明的是,下采样卷积处理的步长可根据实际需求设定,本实施例对此不作限制。
S202、对第N个第二图像进行M次上采样卷积处理,获得M个第三图像。
本步骤中,第N个第二图像为上述步骤S201获得的N个第二图像中最小尺度的第二图像,该最小尺度的第二图像为第1次上采样卷积处理的输入图像。第1次上采样卷积处理输出的图像为第2次上采样卷积处理的输入图像,第2次上采样卷积处理输出的图像为第3次上采样卷积处理的输入图像,以此类推,第1次上采样卷积处理输出的图像为第1个第三图像,第2次上采样卷积处理输出的图像为第2个第三图像,第3次上采样卷积处理输出的图像为第3个第三图像,以此类推,获得M个第三图像,且该M个第三图像的尺度不同。
在本方案中,上采样卷积处理包括卷积处理和上采样处理。也就是说该方案中,在第m-1次上采样处理与第m次上采样处理中之间,对第m-1次上采样处理输出的第m-1个第三图像进行了卷积处理,并将卷积处理输出的图像作为第m次上采样处理的输入图像。通过在相邻的两次上采样处理之间对前一级上采样处理输出的图像进行卷积处理,能够保留更多的原始图像(即第一图像)的特征信息,从而提高图像语义分割处理的精确度。
S203、根据N个第二图像和/或M个第三图像,获得H个第四图像分别对应的图像语义分割结果。
本步骤的目的在于:充分利用多个下采样卷积处理分别输出的N个第二图像以及多个上采样卷积处理分别输出的M个第三图像,获得多个不同尺度的第四图像,再将多个不同尺度的第四图像分别输入至分类预测模型中,从而获得多个不同尺度的第四图像的图像语义分割结果,从而实现快速获得多个不同尺度的第四图像的图像语义分割结果,且提高中间层的下采样卷积处理输出的第二图像以及中间层的上采样卷积处理输出的第三图像的利用率。
一种可能的实现方式,如图3所示,S203可以包括以下步骤:
S2031、根据N个第二图像和/或M个第三图像,获得H个第四图像。
在实际应用中,第四图像是根据哪个尺度第二图像获得,或者是根据哪个尺度第三图像获得,或者是根据哪个尺度的第二图像以及哪个尺度的第三图像共同获得,这是根据第四图像的尺度确定的。
为使本方案更加清楚,这里通过一具体示例来说明如何获得3个不同尺度的第四图像,该3个不同尺度例如包括:第一图像的尺度的二分之一、第一图像的尺度的四分之一以及第一图像的尺度。
一、第四图像的尺度为第一图像的尺度
通过对尺度为第一图像的尺度的二分之一的第二图像以及尺度为第一图像的二分之一的第三图像进行融合,获得融合后的图像,该融合后的图像的尺度为第一图像的尺度的二分之一;进一步,对融合后的图像进行反卷积处理,获得第四图像,该第四图像的尺度为第一图像的尺度。
其中,通过少量的下采样卷积处理获得的尺度为第一图像的尺度的二分之一的第二图像中能够保留更多的原始图像信息,例如小目标物体信息、边缘细节等等;经过多次下采样卷积处理以及多次上采样卷积处理获得的尺度为第一图像的二分之一的第三图像中保留了更多目标物的深层像素特征,这些小目标物体信息、边缘细节等原始图像信息以及目标物的深层像素特征对图像语义分割处理结果有着至关重要的影响。因此,通过对上述第二图像以及第三图像进行融合以及反卷积处理,获得的第四图像保留的特征信息更多,从而获得的图像语义分割处理结果更加准确。
二、第四图像的尺度为第一图像的尺度的二分之一
通过对尺度为第一图像的尺度的八分之一的第二图像进行反卷积处理,获得第四图像,该第四图像的尺度为第一图像的尺度的二分之一。
三、第四图像的尺度为第一图像的尺度的四分之三
通过将尺度为第一图像的四分之一的第二图像以及尺度为第一图像的四分之一的第三图像进行融合,获得融合后的图像,该融合后的图像的尺度为第一图像的尺度的四分之一;进一步,对融合后的图像进行上采样处理,获得第四图像,该第四图像的尺度为第一图像的尺度的四分之三。
在实际应用中,若需要获取其他尺度的第四图像,则可根据需要获取的第四图像的尺度确定第二图像和/或第三图像的尺度,本发明实施例对于如何根据第四图像的尺度确定第二图像和/或第三图像的尺度的具体实现方式不作限制。
需要说明的是,由于连续的多次下采样卷积处理会丢失第一图像中的边缘细节,若通过对第N次下采样卷积处理后的第二图像进行上采样卷积处理,获得第三图像,并根据第三图像的获得第四图像,则可能导致第四图像包括的边缘细节较少,进而会导致图像语义分割处理结果不够准确,因此,该方案中通过第二图像和第三图像共同获得第四图像来解决这个问题。具体地,由于第二图像中能够保留更多的第一图像中的边缘细节,因此,通过第二图像和第三图像共同获得的第四图像中也相应保留了更多的第一图像中的边缘细节,从而保证图像语义分割处理结果的准确度。
S2032、采用逻辑回归模型对H个第四图像进行分析,获得H个第四图像分别对应的图像语义分割结果。
其中,逻辑回归模型(softmax)为预先进行了深度学习的逻辑回归模型,其能够对图像中的像素点进行准确的分类,并输出图像中的每个像素点对应的概率值,逻辑回归模型输出的概率值能够表示像素点归属于某个类别的可能性的大小,概率值越大,则该像素点归属于该类别的可能性越高,概率值越小,则该像素点归属于该类别的可能性越低。
一种可能的实现方式,依次将H个不同尺度的第四图像均输入至同一逻辑回归模型中,该逻辑回归模型依次对输入的第四图像进行分析,从而获得H个不同尺度的第四图像分别对应的图像语义分割结果。
另一种可能的实现方式,将H个不同尺度的第四图像分别输入至H个逻辑回归模型中,每个逻辑回归模型对其中一个尺度的第四图像进行分析,多个逻辑回归模型通过并行执行,从而获得H个不同尺度的第四图像分别对应的图像语义分割结果。
在实际应用中,也可以采用其他类型的分类预测模型对H个不同尺度的第四图像进行分析,并不限于上述描述的逻辑回归模型,其中,分类预测模型也可称为分类模型、预测模型等其他名称,本发明实施例对此不作限制,其只要满足能够对对图像中各个像素点进行归类,即属于本发明的保护范畴。
本实施例通过对N个第二图像以及M个第三图像进行充分利用,能够同时获得多个不同尺度的第四图像分别对应的图像语义分割处理结果,有效缩短了同时获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高了计算效率。另外,本实施例的方法使中间层的第二图像以及中间层的第三图像除了用于链接上下级图像之外,还用于获取不同尺度的第四图像,提高了中间层的第二图像和第三图像的利用率。
另外,本实施例通过对原始图像进行下采样卷积以及上采样卷积来改变图像的尺度的方式,与现有技术中将原始图像直接缩小的方式获得多个不同尺度的图像的方式相比,本实施例提供的方法能够保留原始图像中更多的特征信息,从而提高了图像语义分割处理结果的准确性。
图4为本发明提供的图像语义分割处理方法实施例三的流程图。本实施例的方法在图2所示实施例的基础上,S203、根据上述N个第二图像和/或M个第三图像,获得H个第四图像的图像语义分割结果之后,还可以包括:
S204、根据H个第四图像分别对应的图像语义分割结果以及注意力机制,获得第一图像的图像语义分割处理结果。
注意力机制(attention mechanism)来源于人类观察环境的习惯规律总结,人类在观察环境时,大脑往往会先关注环境中一个或多个重要的局部,从而获取重要信息,构建出关于环境的某种描述。
该方案中:将H个不同尺度的第四图像分别对应的图像语义分割处理结果分别还原至第一图像的尺度大小,之后,将注意力机制引入图像语义分割处理结果融合中,根据同一尺度下的多个图像语义分割处理结果以及各个图像语义分割处理结果所占的权重进行融合,获得第一图像的图像语义分割处理结果。
本实施例中,根据多个不同尺度的第四图像分别对应的图像语义分割处理结果,获取第一图像的图像语义分割处理结果,提高了第一图像的图像语义分割处理结果的精确度;若图像语义处理装置被配置为输出第一图像的图像语义分割处理结果,而实际应用中,若需要获取多个不同尺度的第四图像分别对应的图像语义分割处理结果时,仅需执行一次前向传播即可,从而有效缩短了同时获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高了计算效率。
在一个具体的实施例中,如图5所示,将第一图像作为输入图像输入至图像语义分割处理模型中,对第一图像进行3次步长为2的下采样卷积处理,其中,第一图像经过第1次步长为2的下采样卷积处理,输出第1个第二图像,该第二图像的尺度为第一图像的尺度的二分之一;接着,对第1个第二图像进行第2次下采样卷积处理,输出第2个第二图像,该第二图像的尺度为第一图像的尺度的四分之一;接着,对第2个第二图像进行第3次下采样卷积处理,输出第3个第二图像,该第二图像的尺度为第一图像的尺度的八分之一。
接着,对第3个尺度的第二图像第1次上采样卷积处理,第1个尺度的第三图像,且该第三图像为尺度为第一图像的四分之一;对第1个尺度的第三图像,进行第2次上采样卷积处理,获得第2个尺度的第三图像,该第三图像的尺度为第一图像的尺度的二分之一。
然后,分别执行如下过程,获取3个不同尺度的第四图像分别对应的图像语义分割处理结果:
1、获取第1个第四图像的图像语义分割处理结果(该第四图像的尺度为第一图像的尺度的二分之一)
通常该第1个尺度的第四图像是根据尺度为第一图像的八分之一的第二图像获得的,因此,本申请实施例中是先对尺度为第一图像的尺度的八分之一的第二图像进行反卷积处理,获得该第1个尺度的第四图像,该第四图像的尺度为第一图像的尺度的二分至一,接着,采用softmax逻辑回归模型对该第1个尺度的第四图像进行分析,获取该第1个尺度的第四图像对应的图像语义分割处理结果。
2、获取第2个尺度的第四图像的图像语义分割处理结果(该第四图像的尺度为第一图像的尺度的四分之三)
通常该第2个尺度的第四图像是根据尺度为第一图像的四分之一的第二图像(即上述第2个尺度的第二图像)以及尺度为第一图像的四分之一的第三图像(即上述第1个尺度的第三图像)共同获得的,因此,本申请实施例中是先对第2个尺度的第二图像以及第1个尺度的第三图像进行融合,获得融合后的图像;接着,通过对融合后的图像进行上采样处理,获得该第2个尺度的第四图像,接着,采用softmax逻辑回归模型对该第2个尺度的第四图像进行分析,获取该第2个尺度的第四图像对应的图像语义分割处理结果。
3、获取第3个尺度的第四图像的图像语义分割处理结果(该第四图像的尺度为第一图像的尺度)
通常该第3个尺度的第四图像是根据尺度为第一图像的二分之一的第二图像(即上述第1个尺度的第二图像)以及尺度为第一图像的二分之一的第三图像(即上述第2个尺度的第三图像)共同获得的,因此,本申请实施例中是先对第1个尺度的第二图像以及第2个尺度的第三图像进行融合,获得融合后的图像;接着,通过对融合后的图像进行反卷积处理,获得该第3个尺度的第四图像,接着,采用softmax逻辑回归模型对该第3个尺度的第四图像进行分析,获取该第3个尺度的第四图像对应的图像语义分割处理结果。
之后,采用注意力机制,并根据上述3个不同尺度的第四图像分别对应的图像语义分割处理结果,获取第一图像的图像语义分割处理结果。具体地,将第1个尺度的第四图像以及第2个尺度的第四图像分别对应图像语义分割处理结果分别还原至第3个尺度的第四图像大小,然后,根据3个第一图像的尺度下的图像语义分割处理结果进行加权融合,获得第一图像的图像语义分割处理结果。
本实施例中,上述3个不同尺度的第二图像以及2个不同尺度的第三图像除了用于链接上下级图像之外,还用于获取不同尺度的第四图像,例如,对第2个尺度的第二图像除了用于链接第1个尺度的第二图像以及第3个尺度的第二图像之外,还用于获取第2个尺度的第四图像,有效提高了第二图像以及第三图像的利用率;若图像语义处理装置被配置为输出第一图像的图像语义分割处理结果,在实际应用中,若需要获取多个不同尺度的第四图像分别对应的图像语义分割处理结果时,仅需执行一次前向传播即可,从而有效缩短了同时获得多个尺度的第四图像的图像语义分割处理结果所耗费的时间,提高了计算效率。
图6为本发明提供的图像语义分割处理装置实施例一的结构示意图。如图6所示,本实施例提供的图像语义分割处理装置600包括:下采样卷积处理模块601、上采样卷积处理模块602以及图像语义分割模块603。
其中,下采样卷积处理模块601,用于对第一图像进行N次下采样卷积处理,获得N个第二图像,其中,所述N个第二图像的尺度不同,且第n个第二图像是根据第n-1个第二图像获得的,N为正整数,n为大于等于1且小于等于N的正整数;
上采样卷积处理模块602,用于对第N个第二图像进行M次上采样卷积处理,获得M个第三图像,其中,M为正整数,所述M个第三图像的尺度不同;
图像语义分割模块603,用于根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,H为正整数,所述H个第四图像的尺度不同。
在一些可能的设计中,所述第四图像是根据第n个第二图像和/或第m个第三图像获得的,其中,所述n与所述m是根据所述第四图像的尺度确定的。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度,则所述第四图像是通过对所述第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
所述第n个第二图像的尺度为所述第一图像的尺度的二分之一,所述第m个第三图像的尺度为所述第一图像的尺度的二分之一。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度的二分之一,则所述第四图像是通过第n个第二图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的八分之一。
在一些可能的设计中,若所述第四图像的尺度为所述第一图像的尺度的四分之三,则所述第四图像是通过对第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的四分之一,所述第m个第三图像的尺度为所述第一图像的尺度的四分之一。
图像语义分割处理模块603,具体用于根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像;以及分别采用逻辑回归模型对所述H个第四图像进行分析,获取所述H个第四图像分别对应的图像语义分割处理结果。
图像语义分割处理模块603,还用于根据所述H个不同尺度的第四图像分别对应的图像语义分割处理结果以及注意力机制,获得所述第一图像的图像语义分割处理结果。
本实施例的装置,可以用于执行图2至图4任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明提供的图像语义分割处理装置实施例二的结构示意图。如图7所示,本实施例的图像语义分割处理装置700包括:存储器701、处理器702以及计算机程序指令;
存储器701可以是独立的物理单元,与处理器702可以通过总线703连接。存储器701、处理器702也可以集成在一起,通过硬件实现等。
存储器701用于存储程序指令,处理器702调用该程序指令,执行以上图2至图4任一方法实施例的操作。
可选地,当上述实施例的方法中的部分或全部通过软件实现时,上述图像语义分割处理装置700也可以只包括处理器702。用于存储程序的存储器701位于图像语义分割处理装置700之外,处理器702通过电路/电线与存储器连接,用于读取并执行存储器中存储的程序。
处理器702可以是中央处理器(Central Processing Unit,CPU),网络处理器(Network Processor,NP)或者CPU和NP的组合。
处理器702还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。
存储器701可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random-Access Memory,RAM);存储器也可以包括非易失性存储器(Non-volatileMemory),例如快闪存储器(Flash Memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-state Drive,SSD);存储器还可以包括上述种类的存储器的组合。
本发明实施例还提供一种存储介质,该存储介质中包括程序,程序在被处理器执行时,以执行以上任一方法实施例所示的技术方案。
本发明实施例还提供一种程序产品,该程序产品包括计算机程序,所述计算机程序存储在存储介质中,所述图像语义分割处理装置的至少一个处理器可以从所述存储介质中读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得所述图像语义分割处理装置执行以上任一方法实施例所示的技术方案。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种图像语义分割处理方法,其特征在于,包括:
对第一图像进行N次下采样卷积处理,获得N个第二图像,其中,所述N个第二图像的尺度不同,且第n个第二图像是根据第n-1个第二图像获得的,N为正整数,n为大于等于1且小于等于N的正整数;
对第N个第二图像进行M次上采样卷积处理,获得M个第三图像,其中,M为正整数,所述M个第三图像的尺度不同;
根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,H为大于等于2的正整数,所述H个第四图像的尺度不同;所述第四图像是根据第n个第二图像和/或第m个第三图像获得的,其中,所述n与所述m是根据所述第四图像的尺度确定的。
2.根据权利要求1所述的方法,其特征在于,若所述第四图像的尺度为所述第一图像的尺度,则所述第四图像是通过对所述第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
所述第n个第二图像的尺度为所述第一图像的尺度的二分之一,所述第m个第三图像的尺度为所述第一图像的尺度的二分之一。
3.根据权利要求1或2所述的方法,其特征在于,若所述第四图像的尺度为所述第一图像的尺度的二分之一,则所述第四图像是通过第n个第二图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的八分之一。
4.根据权利要求1或2所述的方法,其特征在于,若所述第四图像的尺度为所述第一图像的尺度的四分之三,则所述第四图像是通过对第n个第二图像和所述第m个第三图像进行融合,并对融合后的图像进行反卷积处理获得的;
其中,所述第n个第二图像的尺度为所述第一图像的尺度的四分之一,所述第m个第三图像的尺度为所述第一图像的尺度的四分之一。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,包括:
根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像;
分别采用逻辑回归模型对所述H个第四图像进行分析,获取所述H个第四图像分别对应的图像语义分割处理结果。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述H个不同尺度的第四图像分别对应的图像语义分割处理结果以及注意力机制,获得所述第一图像的图像语义分割处理结果。
7.一种图像语义分割处理装置,其特征在于,包括:
下采样卷积处理模块,用于对第一图像进行N次下采样卷积处理,获得N个第二图像,其中,所述N个第二图像的尺度不同,且第n个第二图像是根据第n-1个第二图像获得的,N为正整数,n为大于等于1且小于等于N的正整数;
上采样卷积处理模块,用于对第N个第二图像进行M次上采样卷积处理,获得M个第三图像,其中,M为正整数,所述M个第三图像的尺度不同;
图像语义分割处理模块,用于根据所述N个第二图像和/或所述M个第三图像,获得H个第四图像分别对应的图像语义分割处理结果,H为大于等于2的正整数,所述H个第四图像的尺度不同;所述第四图像是根据第n个第二图像和/或第m个第三图像获得的,其中,所述n与所述m是根据所述第四图像的尺度确定的。
8.一种图像语义分割处理装置,其特征在于,包括:存储器、处理器以及计算机程序指令;
所述存储器存储所述计算机程序指令;
所述处理器执行所述计算机程序指令,以执行如权利要求1至6任一项所述的图像语义分割处理方法。
9.一种存储介质,其特征在于,包括:程序;
处理器执行所述程序,以执行如权利要求1至6任一项所述的图像语义分割处理方法。
CN202010246033.XA 2020-03-31 2020-03-31 图像语义分割处理方法、装置及存储介质 Active CN113469181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010246033.XA CN113469181B (zh) 2020-03-31 2020-03-31 图像语义分割处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010246033.XA CN113469181B (zh) 2020-03-31 2020-03-31 图像语义分割处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113469181A CN113469181A (zh) 2021-10-01
CN113469181B true CN113469181B (zh) 2024-04-05

Family

ID=77866066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010246033.XA Active CN113469181B (zh) 2020-03-31 2020-03-31 图像语义分割处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113469181B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
CN109086768A (zh) * 2018-07-13 2018-12-25 南京邮电大学 卷积神经网络的语义图像分割方法
CN109086770A (zh) * 2018-07-25 2018-12-25 成都快眼科技有限公司 一种基于精准尺度预测的图像语义分割方法及模型
CN109271992A (zh) * 2018-09-26 2019-01-25 上海联影智能医疗科技有限公司 一种医学图像处理方法、系统、装置和计算机可读存储介质
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN110163878A (zh) * 2019-05-28 2019-08-23 四川智盈科技有限公司 一种基于双重多尺度注意力机制的图像语义分割方法
KR20190119261A (ko) * 2018-04-12 2019-10-22 가천대학교 산학협력단 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
CN110619334A (zh) * 2019-09-16 2019-12-27 Oppo广东移动通信有限公司 基于深度学习的人像分割方法、架构及相关装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
KR20190119261A (ko) * 2018-04-12 2019-10-22 가천대학교 산학협력단 멀티 스케일 이미지와 멀티 스케일 확장된 컨볼루션 기반의 완전 컨볼루션 뉴럴 네트워크를 이용한 시맨틱 이미지 세그먼테이션 장치 및 그 방법
CN109086768A (zh) * 2018-07-13 2018-12-25 南京邮电大学 卷积神经网络的语义图像分割方法
CN109086770A (zh) * 2018-07-25 2018-12-25 成都快眼科技有限公司 一种基于精准尺度预测的图像语义分割方法及模型
CN109271992A (zh) * 2018-09-26 2019-01-25 上海联影智能医疗科技有限公司 一种医学图像处理方法、系统、装置和计算机可读存储介质
CN110163878A (zh) * 2019-05-28 2019-08-23 四川智盈科技有限公司 一种基于双重多尺度注意力机制的图像语义分割方法
CN110619334A (zh) * 2019-09-16 2019-12-27 Oppo广东移动通信有限公司 基于深度学习的人像分割方法、架构及相关装置

Also Published As

Publication number Publication date
CN113469181A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN110689036B (zh) 用于自动染色体分类的方法和系统
US11836610B2 (en) Concurrent training of functional subnetworks of a neural network
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN111104962A (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
EP3816873A1 (en) Neural network circuit device, neural network processing method, and neural network execution program
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN110826596A (zh) 一种基于多尺度可变形卷积的语义分割方法
CN116686017A (zh) 一种用于视频动作识别的时间瓶颈注意力体系结构
CN114758137B (zh) 超声图像分割方法、装置及计算机可读存储介质
CN115187820A (zh) 轻量化的目标检测方法、装置、设备、存储介质
CN111344720A (zh) 融合稀疏内核以近似卷积神经网络的完整内核
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN112801097A (zh) 文本检测模型的训练方法、装置及可读存储介质
Kim et al. Efficient semantic segmentation using spatio-channel dilated convolutions
CN112633260B (zh) 视频动作分类方法、装置、可读存储介质及设备
CN110659724A (zh) 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN114491289A (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
CN111914949B (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN113469181B (zh) 图像语义分割处理方法、装置及存储介质
US20240135679A1 (en) Method for classifying images and electronic device
CN110598028B (zh) 图像分类方法、装置及存储介质、电子设备
Fang et al. Developing a feature decoder network with low-to-high hierarchies to improve edge detection
Qu et al. Underwater small target detection under YOLOv8-LA model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant