CN113792738A - 实例分割方法、装置、电子设备和计算机可读存储介质 - Google Patents

实例分割方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113792738A
CN113792738A CN202110898273.2A CN202110898273A CN113792738A CN 113792738 A CN113792738 A CN 113792738A CN 202110898273 A CN202110898273 A CN 202110898273A CN 113792738 A CN113792738 A CN 113792738A
Authority
CN
China
Prior art keywords
segmentation
features
instance
feature
example segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110898273.2A
Other languages
English (en)
Inventor
马宇宸
黎泽明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202110898273.2A priority Critical patent/CN113792738A/zh
Publication of CN113792738A publication Critical patent/CN113792738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种实例分割方法、装置、电子设备和计算机可读存储介质。包括:对目标图像进行特征提取,得到至少两个不同层级的基础特征;针对各个所述基础特征,基于所述基础特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据所述基础特征所对应的层级数所确定,N大于或等于1;基于各个所述基础特征所对应的实例分割数据,确定所述目标图像的实例分割结果。以此可以进行多阶段的实例分割预测,每个阶段根据前一阶段的输入和浅层特征的融合,不断增强实例分割预测的能力,进而提升实例分割的准确度。

Description

实例分割方法、装置、电子设备和计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种实例分割方法、装置、电子设备和计算机可读存储介质。
背景技术
实例分割(Object Detection)的任务是找出给定图像中所有的物体,确定物体的类别,大小和位置,同时给该物体准确的像素级别的分割,是计算机视觉相关业务的基础技术之一。机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记。
目前的追求主要是兼顾精度和速度,但是,精度和速度通常是相互违背的,如果在二者之间取得更恰当的平衡成为了本领域技术人员迫切需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种实例分割方法、装置、电子设备和计算机可读存储介质,用以更恰当的兼顾精度和速度。
第一方面,本申请提供一种图像处理方法。包括:对目标图像进行特征提取,得到至少两个不同层级的基础特征;针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据基础特征所对应的层级数所确定,N大于或等于1;基于各个基础特征所对应的实例分割数据,确定目标图像的实例分割结果。
在一些可选的实现中,针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据之前,方法还包括:基于各个基础特征,确定目标图像所对应的语义分割特征;相应的,针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据,包括:针对各个基础特征,基于基础特征和语义分割特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据。
在一些可选的实现中,针对各个基础特征,基于基础特征和语义分割特征对目标图像进行N个阶段的实例分割,包括:针对第i个层级的基础特征,基于基础特征和语义分割特征,使用N个级联的实例分割模块对目标图像进行实例分割;其中,第一个实例分割模块的输入数据为基础特征和语义分割特征,第一个实例分割模块的输出数据为针对基础特征的第一实例分割结果和实例分割特征;第k个实例分割模块的输入数据基于第k-1个实例分割模块输出的实例分割特征和基础特征所对应的第i-(k-1)个层级的基础特征所确定;k大于等于2,小于等于N,N的取值为i-1。
在一些可选的实现中,第一个实例分割模块输出的实例分割特征通过如下步骤确定:利用第一个实例分割模块,基于基础特征以及语义分割特征进行实例分割,得到对应的实例分割分数,实例分割分数用于指示该分割分数对应的像素点为边界的概率;对实例分割分数进行掩膜处理,得到第一个实例分割模块输出的实例分割特征。
在一些可选的实现中,第k个实例分割模块输出的实例分割特征通过如下步骤确定:获取第k-1个实例分割模块输出的实例分割特征;基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数;对实例分割分数进行掩膜处理,得到第k个实例分割模块输出的实例分割特征。
在一些可选的实现中,基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数,包括:将第k-1阶段对应的实例分割特征和第i-(k-1)个层级的基础特征进行相加融合,得到第k-1阶段的第一融合特征;将第k-1阶段的第一融合特征与第k-1阶段对应的实例分割特征进行相乘融合,得到第k-1阶段的第二融合特征;基于第k-1阶段的第二融合特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数。
在一些可选的实现中,基于各个所述基础特征所对应的实例分割数据,确定所述目标图像的实例分割结果,包括:针对各个基础特征,对基础特征所对应的各个实例分割分数进行融合处理,得到基础特征所对应的实例分割综合分数;根据实例分割综合分数确定目标图像的实例分割结果。
第二方面,提供了一种图像处理装置。包括:提取模块,用于对目标图像进行特征提取,得到至少两个不同层级的基础特征;分割模块,用于针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据基础特征所对应的层级数所确定,N大于或等于1;确定模块,用于基于各个基础特征所对应的实例分割数据,确定目标图像的实例分割结果。
在一些可选的实现中,还包括,语义分割模块,用于基于各个基础特征,确定目标图像所对应的语义分割特征;相应的,分割模块具体用于:针对各个基础特征,基于基础特征和语义分割特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据。
在一些可选的实现中,分割模块具体用于:针对第i个层级的基础特征,基于基础特征和语义分割特征,使用N个级联的实例分割模块对目标图像进行实例分割;其中,第一个实例分割模块的输入数据为基础特征和语义分割特征,第一个实例分割模块的输出数据为针对基础特征的第一实例分割结果和实例分割特征;第k个实例分割模块的输入数据基于第k-1个实例分割模块输出的实例分割特征和基础特征所对应的第i-(k-1)个层级的基础特征所确定;k大于等于2,小于等于N,N的取值为i-1。
在一些可选的实现中,分割模块具体用于:利用第一个实例分割模块,基于基础特征以及语义分割特征进行实例分割,得到对应的实例分割分数,实例分割分数用于指示该分割分数对应的像素点为边界的概率;对实例分割分数进行掩膜处理,得到第一个实例分割模块输出的实例分割特征。
在一些可选的实现中,分割模块具体用于:第k个实例分割模块输出的实例分割特征通过如下步骤确定:获取第k-1个实例分割模块输出的实例分割特征;基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数;对所述实例分割分数进行掩膜处理,得到所述第k个实例分割模块输出的实例分割特征。
在一些可选的实现中,分割模块具体用于:将第k-1阶段对应的实例分割特征和第i-(k-1)个层级的基础特征进行相加融合,得到第k-1阶段的第一融合特征;将第k-1阶段的第一融合特征与第k-1阶段对应的实例分割特征进行相乘融合,得到第k-1阶段的第二融合特征;基于第k-1阶段的第二融合特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数。
在一些可选的实现中,确定模块具体用于:针对各个基础特征,对基础特征所对应的各个实例分割分数进行融合处理,得到基础特征所对应的实例分割综合分数;根据实例分割综合分数确定目标图像的实例分割结果。
第三方面,本申请提供一种电子设备,包括:处理装置以及存储装置;
存储装置上存储有计算机程序,计算机程序在被处理装置运行时执行如前述实施方式任一项的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述前述实施方式任一项的方法。
本申请实施例提供了一种实例分割方法、装置、电子设备和计算机可读存储介质。通过对目标图像进行特征提取,得到至少两个不同层级的基础特征;针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据基础特征所对应的层级数所确定,N大于或等于1;基于各个基础特征所对应的实例分割数据,确定目标图像的实例分割结果。以此可以进行多阶段的实例分割预测,每个阶段根据前一阶段的输入和浅层特征的融合,不断增强实例分割预测的能力,最终的实例分割结果是基于各个阶段的实例分割结果融合得到,通过更有效的融合来控制预测阶段的数量,以此兼顾速度的同时,提升实例分割的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是一种用于实现本申请实施例的图像处理方法的示例电子设备;
图2是根据本申请实施例的一种图像处理方法的流程图;
图3是根据本申请实施例的一种图像处理方法的原理示意图;
图4是根据本申请实施例的一种图像处理方法的原理示意图;
图5是根据本申请实施例的一种图像处理装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
首先,参照图1来描述用于实现本申请实施例的图像处理方法的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备也可以具有其他组件和结构。
处理设备102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备100中的其它组件以执行期望的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本申请实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
示例性地,用于实现根据本申请实施例的图像处理方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。
本申请实施例通过使用级联实例分割提取器,根据前一阶段的输入和浅层特征的融合,不断增强实例特征提取器的能力,进而提升实例分割的准确度。下面将结合具体的实施例对图像处理方法进行详细的介绍。
根据本申请实施例,提供了一种图像处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的一种图像处理方法的流程图,如图2所示,该方法包括如下步骤:
S210,对目标图像进行特征提取,得到至少两个不同层级的基础特征。
对目标图像进行特征提取的提取方式可以包括多种。例如,可以通过由残差网络(ResNet)和特征金字塔网络(Feature Pyramid Net,FPN)结构组成特征金字塔提取模块进行提取,该至少两个不同层级的基础特征可以为特征金字塔,还可以通过多个用于提取不通层级的特征提取网络提取得到不同层级的基础特征。
特征金字塔为例,该特征金字塔为例包括的不同大小的特征图将被用于检测不同大小的物体。例如,特征金字塔共分为5层,即P3、P4、P5、P6、P7。其中,P3是FPN浅层的特征图,P7是FPN高层特征图。
其中,关于特征金字塔的层数此处只是示例性的说明,并不构成对本申请实施例的限定。
S220,针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据。
其中,N的取值根据基础特征所对应的层级数所确定,N大于或等于1;
在一些实施例中,可以将各个基础特征依次确定为当前基础特征,并针对当前基础特征进行N阶段实例分割。
例如,在一种具体实施方式中,S210中提取的至少两个不同层级的基础特征为五个不同层级的基础特征,分别记为P3、P4、P5、P6和P7;该基础特征可以按照层级从小到大进行排序,通过排序的序号指示基础特征所在的层级。此时,P3为第1层级基础特征、P4为第2层级基础特征、P5为第3层级的基础特征、P6为第4层级的基础特征和P7为第5层级的基础特征。可以将P3、P4、P5、P6和P7依次作为当前基础特征。当将P7作为当前基础特征时N为5,当将P6作为当前基础特征时N为4,当将P5作为当前基础特征时N为3,当将P4作为当前基础特征时N为2,当将P3作为当前基础特征时N为1。
对于每个当前基础特征,均可以执行如下步骤以便实现多阶段的实例分割。对于第1阶段实例分割,基于当前基础特征进行第1阶段实例分割,得到第1阶段对应的实例分割数据;对于第k阶段实例分割,基于第k-1阶段对应的实例分割数据和第i-(k-1)个层级基础特征进行第k阶段实例分割,得到第k阶段对应的实例分割数据。
在一些实施例中,基于当前基础特征进行第1阶段实例分割,得到第1阶段对应的实例分割分数;基于第1阶段对应的实例分割分数确定第1阶段对应的实例分割特征;基于第k-1阶段对应的实例分割分数确定第k-1阶段对应的实例分割特征;基于第k-1阶段对应的实例分割特征和第i-(k-1)个层级基础特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数;基于第k阶段对应的实例分割分数确定第k阶段对应的实例分割特征。
其中,当前基础特征为第i个层级的基础特征,第i-(k-1)个层级的基础特征为第k阶段实例分割所对应的第i层级基础特征的低层级基础特征,k大于等于2,小于等于N,N的取值为i-1。
例如,可以利用第一个实例分割模块,基于基础特征特征进行实例分割,得到对应的实例分割分数,该实例分割分数用于指示该分割分数对应的像素点为边界的概率;对实例分割分数进行掩膜处理,得到第一个实例分割模块输出的实例分割特征。
对于第k个实例分割模块输出的实例分割特征可以通过如下步骤确定:获取第k-1个实例分割模块输出的实例分割特征;基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数;对实例分割分数进行掩膜处理,得到第k个实例分割模块输出的实例分割特征。
可以通过掩膜处理得到掩膜图像。该掩膜图像可以用于覆盖的特定图像或物体。该掩模图像可以为二维矩阵数组,还可以为多值图像。例如,该掩模图像可以为由“0、1”构成的二维矩阵数组,其中,0用于指示对应的像素点不是边界,1用于指示对应的像素点是边界。
具体的,可以将第k-1阶段对应的实例分割特征和第i-(k-1)个层级基础特征进行相加融合,得到第k-1阶段的第一融合特征;将第k-1阶段的第一融合特征与第k-1阶段对应的实例分割特征进行相乘融合,得到第k-1阶段的第二融合特征;基于第k-1阶段的第二融合特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数。
其中,每个阶段的输出为实例分割分数(maskscore),可以记作p_mask。将p_mask通过阈值过滤器可以得到实例分割特征,可以记作f_mask,该阈值过滤器中的阈值可以为0.5,实例分割分数大于该阈值则可以指示对应的像素点是边界,实例分割分数小于该阈值则可以指示对应的像素点是边界,该f_mask可以为一个[0,1]蒙板,该[0,1]蒙板还可以称为掩膜图像,将实例分割特征f_mask与浅层的特征直接相加,可以得到第一融合特征f_fusion。将该f_mask与该f_fusion像素乘,得到第二融合特征。
S230,基于各个基础特征所对应的实例分割数据,确定目标图像的实例分割结果。
可以针对各个基础特征,对基础特征所对应的各个实例分割分数进行融合处理,得到基础特征所对应的实例分割综合分数;根据实例分割综合分数确定目标图像的实例分割结果。
该融合处理可以指,基于各个层级的基础特征所对应的实例分割分数,逐元素加权平均后获得实例分割综合分数;根据实例分割综合分数确定目标图像的实例分割结果。其中,该实例分割分数中与目标图像中每个像素对应有一个实例分割分数值,相应的,由于各个层级的基础特征均对应有实例分割分数,所以,每个像素对应多个实例分割分数值,该逐元素加权平均是指对每个像素对应多个实例分割分数值进行加权平均。
该步骤可以由后处理模块实现,在后处理模块中可以将多阶段实例分割的分类分数p_mask逐元素加权平均后获得综合分数p_final,输出大小为(H×W×C*),C*为检测器预测物体的类别,H×W用于指示大小和位置。
通过本申请实施例,可以进行多阶段的实例分割预测,每个阶段根据前一阶段的输入和浅层特征的融合,不断增强实例分割预测的能力,最终的实例分割结果是基于各个阶段的实例分割结果融合得到,在通过与浅层特征的融合,通过更有效的融合来控制预测阶段的数量,以此兼顾了速度,同时通过多阶段的实例分割预测提升实例分割的准确度。
在一些实施例中,还可以结合语义特征以进一步提升实例分割结果的准确性。基于此,该方法还包括:基于各个基础特征,确定目标图像所对应的语义分割特征;相应的,还可以针对各个基础特征,基于基础特征和语义分割特征对目标图像进行N个阶段的实例分割。
其中,可以将至少两个不同层级的基础特征进行融合,得到第三融合特征;基于第三融合特征以及语义分割模型,确定目标图像所对应的语义分割特征。
对于语义分割模型可以包括依次连接的两个3*3的第一卷积层和一个1*1的第二卷积层。该语义分割模型还包括与第二卷积层并联的一个1*1的第三卷积层,其中,该两个3x3的第一卷积层可以用于提取初始语义分割特征。第二卷积层的输入为初始语义分割特征,输出为语义分割结果,第三卷积层的输入为初始语义分割特征,输出为通道数,语义分割特征可以包括语义分割结果和通道数。
例如,在用FPN做语义分割时,每个特征图可以进行卷积+两倍上采样操作,提升到原图的1/4分辨率,再加在一起,最后再通过4倍上采样,提升到与原图相等的分辨率。最后返回一个与原图大小相等的,通道数为类别数的特征图,该特征图即为语义分割的结果。
作为一个示例,上述步骤S220具体可以通过如下步骤实现:针对第i个层级的基础特征,基于基础特征和语义分割特征,使用N个级联的实例分割模块对目标图像进行实例分割。
其中,第一个实例分割模块的输入数据为基础特征和语义分割特征,第一个实例分割模块的输出数据为针对基础特征的第一实例分割结果和实例分割特征;第k个实例分割模块的输入数据基于第k-1个实例分割模块输出的实例分割特征和基础特征所对应的第i-(k-1)个层级的基础特征所确定;k大于等于2,小于等于N,N的取值为i-1。
具体的,可以根据各个特征依次确定为当前基础特征,并针对当前基础特征进行N阶段实例分割;对于第1阶段实例分割,基于当前基础特征以及语义分割特征进行第1阶段实例分割,得到第1阶段对应的实例分割数据;对于第k阶段实例分割,基于第k-1阶段对应的实例分割数据和第i-(k-1)个层级的基础特征进行第k阶段实例分割,得到第k阶段对应的实例分割数据。
具体的,可以基于当前基础特征以及语义分割特征进行第1阶段实例分割,得到第1阶段对应的实例分割分数;基于第1阶段对应的实例分割分数确定第1阶段对应的实例分割特征;基于第k-1阶段对应的实例分割分数确定第k-1阶段对应的实例分割特征;基于第k-1阶段对应的实例分割特征和第i-(k-1)个层级基础特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数;基于第k阶段对应的实例分割分数确定第k阶段对应的实例分割特征。
其中,关于N、k以及层级可以参见前述实施例中的相关描述。
作为一个示例,可以利用第一个实例分割模块,基于基础特征以及语义分割特征进行实例分割,得到对应的实例分割分数;对实例分割分数进行掩膜处理,得到第一个实例分割模块输出的实例分割特征。
在一些实施例中,可以通过目标语义分割模型确定目标图像所对应的语义分割特征,通过目标多阶段实例分割模型进行N阶段实例分割。基于此,可以通过联合训练的方式对初始的语义分割模型和初始的多阶段实例分割模型进行训练得到目标语义分割模型和目标多阶段实例分割模型。
作为一个示例,如图3所示,该多阶段实例分割模型可以堆叠多个阶段。该多阶段实例分割模型可以由4层Conv 3×3(3×3卷积)组成,输出为实例分割分数,对实例分割分数进行过滤可以的得到实例分割特征。将实例分割特征与浅层的特征直接相加,得到第一融合特征。将实例分割特征与第一融合特征像素乘,得到第二融合特征,作为下一阶段输入。
如图4所示,本申请实施例可以通过4个模块:特征提取模块、语义分割模块、实例分割模块、后处理模块。特征提取模块用于提取特征金字塔,该特征金字塔用于作为语义分割模块的第一卷积层和实例分割模块的区域生成网络(RegionProposal Network,RPN)层的输入。其中该第一卷积层为两个3x3的卷积层,在语义分割模块中使用1个1x1的conv来预测语义分割的结果,同时使用一个1x1conv来结合RPN层输出的感兴趣区域来调整通道数,作为实例分割模块中多阶段实例分割模块的输入,该多阶段实例分割模块的输入还包括RPN层输出的感兴趣区域。多阶段实例分割模块的输出,由后处理模块进行处理得到最终的结果。通过增加语义分割任务来增加进行多任务训练。
在一些实施例中,还可以语义特征以进一步提升实例分割结果的准确性。基于此,可以基于至少两个不同层级的基础特征,确定目标图像所对应的语义分割特征;针对至少两个不同层级的基础特征中的各个基础特征,基于基础特征和语义分割特征进行N阶段实例分割。
其中,可以将至少两个不同层级的基础特征进行融合,得到第三融合特征;基于第三融合特征以及语义分割模型,确定目标图像所对应的语义分割特征。
图5为本申请实施例提供的一种实例分割装置结构示意图。如图5所示,该装置包括:
提取模块501,用于对目标图像进行特征提取,得到至少两个不同层级的基础特征;
分割模块502,用于针对各个基础特征,基于基础特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据基础特征所对应的层级数所确定,N大于或等于1;
确定模块503,用于基于各个基础特征所对应的实例分割数据,确定目标图像的实例分割结果。
在一些实施例中,还包括,语义分割模块,用于基于各个基础特征,确定目标图像所对应的语义分割特征;
相应的,分割模块具体用于:
针对各个基础特征,基于基础特征和语义分割特征对目标图像进行N个阶段的实例分割,得到N个实例分割数据。
在一些实施例中,分割模块具体用于:
针对第i个层级的基础特征,基于基础特征和语义分割特征,使用N个级联的实例分割模块对目标图像进行实例分割;
其中,第一个实例分割模块的输入数据为基础特征和语义分割特征,第一个实例分割模块的输出数据为针对基础特征的第一实例分割结果和实例分割特征;第k个实例分割模块的输入数据基于第k-1个实例分割模块输出的实例分割特征和基础特征所对应的第i-(k-1)个层级的基础特征所确定;k大于等于2,小于等于N,N的取值为i-1。
在一些实施例中,分割模块具体用于:利用第一个实例分割模块,基于基础特征以及语义分割特征进行实例分割,得到对应的实例分割分数,实例分割分数用于指示该分割分数对应的像素点为边界的概率;对实例分割分数进行掩膜处理,得到第一个实例分割模块输出的实例分割特征。
在一些实施例中,分割模块具体用于:第k个实例分割模块输出的实例分割特征通过如下步骤确定:获取第k-1个实例分割模块输出的实例分割特征;基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数;对所述实例分割分数进行掩膜处理,得到所述第k个实例分割模块输出的实例分割特征。
在一些实施例中,分割模块具体用于:
将第k-1阶段对应的实例分割特征和第i-(k-1)个层级的基础特征进行相加融合,得到第k-1阶段的第一融合特征;
将第k-1阶段的第一融合特征与第k-1阶段对应的实例分割特征进行相乘融合,得到第k-1阶段的第二融合特征;
基于第k-1阶段的第二融合特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数。
在一些实施例中,确定模块具体用于:
针对各个基础特征,对基础特征所对应的各个实例分割分数进行融合处理,得到基础特征所对应的实例分割综合分数;
根据实例分割综合分数确定目标图像的实例分割结果。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
进一步的,本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤。
本申请实施例所提供的图像处理方法、装置及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种图像处理方法,其特征在于,包括:
对目标图像进行特征提取,得到至少两个不同层级的基础特征;
针对各个所述基础特征,基于所述基础特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据所述基础特征所对应的层级数所确定,N大于或等于1;
基于各个所述基础特征所对应的实例分割数据,确定所述目标图像的实例分割结果。
2.根据权利要求1所述的方法,其特征在于,所述针对各个所述基础特征,基于所述基础特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据之前,所述方法还包括:
基于各个所述基础特征,确定所述目标图像所对应的语义分割特征;
相应的,所述针对各个所述基础特征,基于所述基础特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据,包括:
针对各个所述基础特征,基于所述基础特征和所述语义分割特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据。
3.根据权利要求2所述的方法,其特征在于,所述针对各个所述基础特征,基于所述基础特征和所述语义分割特征对所述目标图像进行N个阶段的实例分割,包括:
针对第i个层级的基础特征,基于所述基础特征和所述语义分割特征,使用N个级联的实例分割模块对所述目标图像进行实例分割;
其中,第一个实例分割模块的输入数据为所述基础特征和所述语义分割特征,所述第一个实例分割模块的输出数据为针对所述基础特征的第一实例分割结果和实例分割特征;第k个实例分割模块的输入数据基于第k-1个实例分割模块输出的实例分割特征和所述基础特征所对应的第i-(k-1)个层级的基础特征所确定;k大于等于2,小于等于N,N的取值为i-1。
4.根据权利要求3所述的方法,其特征在于,所述第一个实例分割模块输出的实例分割特征通过如下步骤确定:
利用所述第一个实例分割模块,基于所述基础特征以及所述语义分割特征进行实例分割,得到对应的实例分割分数,所述实例分割分数用于指示该分割分数对应的像素点为边界的概率;
对所述实例分割分数进行掩膜处理,得到所述第一个实例分割模块输出的实例分割特征。
5.如权利要求3所述的方法,其特征在于,所述第k个实例分割模块输出的实例分割特征通过如下步骤确定:
获取第k-1个实例分割模块输出的实例分割特征;
基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数;
对所述实例分割分数进行掩膜处理,得到所述第k个实例分割模块输出的实例分割特征。
6.根据权利要求5所述的方法,其特征在于,所述基于第k-1个实例分割模块输出的实例分割特征、第i-(k-1)个层级的基础特征以及第k个实例分割模块,确定第k个实例分割模块的实例分割分数,包括:
将第k-1阶段对应的实例分割特征和第i-(k-1)个层级的基础特征进行相加融合,得到第k-1阶段的第一融合特征;
将所述第k-1阶段的第一融合特征与第k-1阶段对应的实例分割特征进行相乘融合,得到第k-1阶段的第二融合特征;
基于所述第k-1阶段的第二融合特征进行第k阶段实例分割,得到第k阶段对应的实例分割分数。
7.根据权利要求1-5任意一项所述的方法,其特征在于,所述基于各个所述基础特征所对应的实例分割数据,确定所述目标图像的实例分割结果,包括:
针对各个基础特征,对所述基础特征所对应的各个实例分割分数进行融合处理,得到所述基础特征所对应的实例分割综合分数;
根据所述实例分割综合分数确定所述目标图像的实例分割结果。
8.一种图像处理装置,其特征在于,包括:
提取模块,用于对目标图像进行特征提取,得到至少两个不同层级的基础特征;
分割模块,用于针对各个所述基础特征,基于所述基础特征对所述目标图像进行N个阶段的实例分割,得到N个实例分割数据;其中,N的取值根据所述基础特征所对应的层级数所确定,N大于或等于1;
确定模块,用于基于各个所述基础特征所对应的实例分割数据,确定所述目标图像的实例分割结果。
9.一种电子设备,其特征在于,包括:处理装置以及存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理装置运行时执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法。
CN202110898273.2A 2021-08-05 2021-08-05 实例分割方法、装置、电子设备和计算机可读存储介质 Pending CN113792738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110898273.2A CN113792738A (zh) 2021-08-05 2021-08-05 实例分割方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110898273.2A CN113792738A (zh) 2021-08-05 2021-08-05 实例分割方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113792738A true CN113792738A (zh) 2021-12-14

Family

ID=78877167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110898273.2A Pending CN113792738A (zh) 2021-08-05 2021-08-05 实例分割方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113792738A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN108460411A (zh) * 2018-02-09 2018-08-28 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
US20180253622A1 (en) * 2017-03-06 2018-09-06 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN109242869A (zh) * 2018-09-21 2019-01-18 科大讯飞股份有限公司 一种图像实例分割方法、装置、设备及存储介质
CN109345540A (zh) * 2018-09-15 2019-02-15 北京市商汤科技开发有限公司 一种图像处理方法、电子设备及存储介质
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN110349167A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种图像实例分割方法及装置
US20200134365A1 (en) * 2018-02-09 2020-04-30 Beijing Sensetime Technology Development Co., Ltd. Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN111192277A (zh) * 2019-12-31 2020-05-22 华为技术有限公司 一种实例分割的方法及装置
CN112419342A (zh) * 2020-10-22 2021-02-26 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN112990356A (zh) * 2021-04-16 2021-06-18 广东众聚人工智能科技有限公司 一种视频实例分割系统和方法
CN113096140A (zh) * 2021-04-15 2021-07-09 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253622A1 (en) * 2017-03-06 2018-09-06 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN108460411A (zh) * 2018-02-09 2018-08-28 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
US20200134365A1 (en) * 2018-02-09 2020-04-30 Beijing Sensetime Technology Development Co., Ltd. Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN109345540A (zh) * 2018-09-15 2019-02-15 北京市商汤科技开发有限公司 一种图像处理方法、电子设备及存储介质
CN109242869A (zh) * 2018-09-21 2019-01-18 科大讯飞股份有限公司 一种图像实例分割方法、装置、设备及存储介质
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN110349167A (zh) * 2019-07-10 2019-10-18 北京悉见科技有限公司 一种图像实例分割方法及装置
CN111192277A (zh) * 2019-12-31 2020-05-22 华为技术有限公司 一种实例分割的方法及装置
CN112419342A (zh) * 2020-10-22 2021-02-26 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN113096140A (zh) * 2021-04-15 2021-07-09 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质
CN112990356A (zh) * 2021-04-16 2021-06-18 广东众聚人工智能科技有限公司 一种视频实例分割系统和方法

Similar Documents

Publication Publication Date Title
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN108876804B (zh) 抠像模型训练和图像抠像方法、装置和系统及存储介质
CN110163188B (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
CN109118504B (zh) 一种基于神经网络的图像边缘检测方法、装置及其设备
CN111783749A (zh) 一种人脸检测方法、装置、电子设备及存储介质
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN113869282B (zh) 人脸识别方法、超分模型训练方法及相关设备
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112149694A (zh) 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN114677330A (zh) 一种图像处理方法、电子设备及存储介质
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN116977804A (zh) 图像融合方法、电子设备、存储介质及计算机程序产品
CN116012244A (zh) 基于图像多尺度信息的图像降噪方法和电子设备
Truong et al. Single object tracking using particle filter framework and saliency-based weighted color histogram
CN113792738A (zh) 实例分割方法、装置、电子设备和计算机可读存储介质
CN114648604A (zh) 一种图像渲染方法、电子设备、存储介质及程序产品
CN114387496A (zh) 一种目标检测方法和电子设备
CN114372931A (zh) 一种目标对象虚化方法、装置、存储介质及电子设备
CN114373071A (zh) 目标检测方法、装置及电子设备
CN114005017A (zh) 目标检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination