CN108305267A - 物体分割方法、装置、设备、存储介质及程序 - Google Patents

物体分割方法、装置、设备、存储介质及程序 Download PDF

Info

Publication number
CN108305267A
CN108305267A CN201810151947.0A CN201810151947A CN108305267A CN 108305267 A CN108305267 A CN 108305267A CN 201810151947 A CN201810151947 A CN 201810151947A CN 108305267 A CN108305267 A CN 108305267A
Authority
CN
China
Prior art keywords
frame
target object
mask
extended
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810151947.0A
Other languages
English (en)
Other versions
CN108305267B (zh
Inventor
李晓潇
吕健勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201810151947.0A priority Critical patent/CN108305267B/zh
Publication of CN108305267A publication Critical patent/CN108305267A/zh
Application granted granted Critical
Publication of CN108305267B publication Critical patent/CN108305267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本申请实施方式公开了一种物体分割方法、装置、电子设备、计算机可读存储介质以及计算机程序,其中的物体分割方法主要包括:确定视频序列中的包含有目标物体的扩展起点帧;获取所述扩展起点帧中的第一特征块以及所述扩展起点帧的光流指导变形信息,其中,所述第一特征块为扩展起点帧中的目标物体特征块;根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块;根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜,所述目标物体掩膜用于得到所述视频序列的分割结果。

Description

物体分割方法、装置、设备、存储介质及程序
技术领域
本申请涉及计算机视觉技术,尤其是涉及一种物体分割方法、物体分割装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
物体分割也被称为图像分割。利用物体分割技术,可以从图像中提取出感兴趣的目标。物体分割技术可以被应用于智能视频分析、安防监控以及自动驾驶等领域中。
在物体分割过程中,物体的姿态往往会发生变化,而且还会发生物体被遮挡等现象。由于这些现象往往会导致匹配失败或者物体混淆或者丢失目标等问题,因此,在容易导致物体分割失败。
如何尽可能的避免物体分割失败的现象,以提高物体分割的准确性,是计算机视觉领域中一个值得关注的技术问题。
发明内容
本申请实施方式提供一种物体分割的技术方案。
根据本申请实施方式其中一个方面,提供一种物体分割方法,所述方法包括:确定视频序列中的包含有目标物体的扩展起点帧;获取所述扩展起点帧中的第一特征块以及所述扩展起点帧的光流指导变形信息,其中,所述第一特征块为扩展起点帧中的目标物体特征块;根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块;根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜,所述目标物体掩膜用于得到所述视频序列的分割结果。
在本申请一实施方式中,所述确定视频序列中的包含有目标物体的扩展起点帧包括:将包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧作为扩展起点帧。
在本申请又一实施方式中,所述目标物体模板包括:目标物体初始模板;或者,所述目标物体模板包括:目标物体扩展模板;其中,所述目标物体扩展模板包括:所述获得的相邻帧的目标物体掩膜中的置信度满足预定置信度要求的相邻帧的目标物体掩膜。
在本申请再一实施方式中,所述方法在获得相邻帧的目标物体掩膜之后,还包括下述步骤:计算当前获得的各相邻帧的目标物体掩膜的置信度;选取出置信度满足预定置信度要求的相邻帧的目标物体掩膜;根据所述选取出的相邻帧的目标物体掩膜所对应的第二特征块获得掩膜特征;其中,所述获得的掩膜特征被作为所述目标物体扩展模板的掩膜特征。
在本申请再一实施方式中,所述确定视频序列中的包含有目标物体的扩展起点帧包括:获取所述视频序列的各视频帧的各候选框的掩膜特征;计算各掩膜特征分别与目标物体初始模板的掩膜特征之间的距离;将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
在本申请再一实施方式中,所述确定视频序列中的包含有目标物体的扩展起点帧包括:计算视频序列的未被作为扩展起点帧的各视频帧中的各候选框的掩膜特征,分别与目标物体扩展模板的掩膜特征之间的距离;将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
在本申请再一实施方式中,所述根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块包括:根据所述光流指导变形信息将扩展起点帧中的目标物体掩膜映射在所述相邻帧特征图中;根据映射后的目标物体掩膜的覆盖区域获取目标物体在所述相邻帧中的第二特征块。
在本申请再一实施方式中,所述目标物体在所述相邻帧中的注意力信息通过下述步骤包括:根据所述第一特征块以及所述光流指导变形信息确定所述目标物体在所述相邻帧中的注意力信息。
在本申请再一实施方式中,所述根据所述第一特征块以及所述光流指导变形信息确定所述目标物体在所述相邻帧中的注意力信息包括:将所述第一特征块,基于所述光流指导变形信息,而映射在所述相邻帧特征图中所形成的特征块,提供给用于提取注意力信息的卷积神经网络,以利用该卷积神经网络获得所述目标物体在所述相邻帧中的注意力信息。
在本申请再一实施方式中,所述根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜包括:将所述第一特征块,基于所述光流指导变形信息,而映射在所述相邻帧特征图中所形成的特征块,与所述第二特征块,相加,获得第三特征块;将所述第三特征块提供给用于获得目标物体特征的卷积神经网络,以获得第四特征块;将所述目标物体在所述相邻帧中的注意力信息,与所述第四特征块相乘,以获得第五特征块;将所述第五特征块提供给用于提取掩膜的卷积神经网络,以利用该卷积神经网络获得所述相邻帧的目标物体掩膜。
在本申请再一实施方式中,所述相邻帧包括:在视频序列中,与所述扩展起点帧相邻,且未曾被作为扩展起点帧的视频帧。
在本申请再一实施方式中,在成功获得相邻帧的目标物体掩膜的情况下,所述确定视频序列中的包含有目标物体的扩展起点帧包括:将所述相邻帧作为扩展起点帧。
在本申请再一实施方式中,所述相邻帧的目标物体掩膜用于与所述扩展起点帧的目标物体掩膜相串接,形成分割片段;所述方法还包括:将多个分割片段串接为所述视频序列的分割结果。
在本申请再一实施方式中,所述将多个分割片段串接为所述视频序列的分割结果包括:利用条件随机场或者贪心算法,将多个分割片段串接为所述视频序列的分割结果。
根据本申请实施方式其中另一个方面,提供一种物体分割装置,所述装置包括:确定扩展起点帧模块,用于确定视频序列中的包含有目标物体的扩展起点帧;第一获取模块,用于获取所述扩展起点帧中的第一特征块以及所述扩展起点帧的光流指导变形信息,其中,所述第一特征块为扩展起点帧中的目标物体特征块;第二获取模块,用于根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块;第三获取模块,用于根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜,所述目标物体掩膜用于得到所述视频序列的分割结果。
在本申请一实施方式中,所述确定扩展起点帧模块具体用于:将包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧作为扩展起点帧。
在本申请又一实施方式中,所述目标物体模板包括:目标物体初始模板;或者,所述目标物体模板包括:目标物体扩展模板;其中,所述目标物体扩展模板包括:所述获得的相邻帧的目标物体掩膜中的置信度满足预定置信度要求的相邻帧的目标物体掩膜。
在本申请再一实施方式中,所述装置还包括:第四获取模块,用于计算当前获得的各相邻帧的目标物体掩膜的置信度,选取出置信度满足预定置信度要求的相邻帧的目标物体掩膜,根据所述选取出的相邻帧的目标物体掩膜所对应的第二特征块获得掩膜特征;其中,所述获得的掩膜特征被作为所述目标物体扩展模板的掩膜特征。
在本申请再一实施方式中,所述确定扩展起点帧模块具体用于:获取所述视频序列的各视频帧的各候选框的掩膜特征;计算各掩膜特征分别与目标物体初始模板的掩膜特征之间的距离;将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
在本申请再一实施方式中,所述确定扩展起点帧模块具体用于:计算视频序列的未被作为扩展起点帧的各视频帧中的各候选框的掩膜特征,分别与目标物体扩展模板的掩膜特征之间的距离;将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
在本申请再一实施方式中,所述第二获取模块具体用于:根据所述光流指导变形信息将扩展起点帧中的目标物体掩膜映射在所述相邻帧特征图中;根据映射后的目标物体掩膜的覆盖区域获取目标物体在所述相邻帧中的第二特征块。
在本申请再一实施方式中,所述装置还包括:获取注意力模块,用于根据所述第一特征块以及所述光流指导变形信息确定所述目标物体在所述相邻帧中的注意力信息。
在本申请再一实施方式中,所述获取注意力模块具体用于:将所述第一特征块,基于所述光流指导变形信息,而映射在所述相邻帧特征图中所形成的特征块,提供给用于提取注意力信息的卷积神经网络,以利用该卷积神经网络获得所述目标物体在所述相邻帧中的注意力信息。
在本申请再一实施方式中,所述第三获取模块具体用于:将所述第一特征块,基于所述光流指导变形信息,而映射在所述相邻帧特征图中所形成的特征块,与所述第二特征块,相加,获得第三特征块;将所述第三特征块提供给用于获得目标物体特征的卷积神经网络,以获得第四特征块;将所述目标物体在所述相邻帧中的注意力信息,与所述第四特征块相乘,以获得第五特征块;将所述第五特征块提供给用于提取掩膜的卷积神经网络,以利用该卷积神经网络获得所述相邻帧的目标物体掩膜。
在本申请再一实施方式中,所述相邻帧包括:在视频序列中,与所述扩展起点帧相邻,且未曾被作为扩展起点帧的视频帧。
在本申请再一实施方式中,在成功获得相邻帧的目标物体掩膜的情况下,所述确定扩展起点帧模块具体用于:将所述相邻帧作为扩展起点帧。
在本申请再一实施方式中,所述相邻帧的目标物体掩膜用于与所述扩展起点帧的目标物体掩膜相串接,形成分割片段;所述装置还包括:串接模块,用于将多个分割片段串接为所述视频序列的分割结果。
在本申请再一实施方式中,所述串接模块具体用于:利用条件随机场或者贪心算法,将多个分割片段串接为所述视频序列的分割结果。
根据本申请实施方式再一个方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本申请任一方法实施方式。
根据本申请实施方式再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本申请任一方法实施方式。
根据本申请实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本申请任一方法实施方式。
基于本申请提供的物体分割方法、物体分割装置、电子设备、计算机可读存储介质及计算机程序,本申请通过利用光流指导变形信息,可以从目标物体的扩展起点帧,扩展出目标物体在相邻帧中的特征块,从而可以根据该特征块获得相邻帧的目标物体掩膜;通过在扩展目标物体在相邻帧中的特征块的过程中,增加目标物体注意力信息,可以避免目标物体与视频帧中的其他物体相混淆的现象,从而可以避免扩展出的相邻帧的目标物体掩膜与相邻帧中的目标物体不相符的现象。由此可知,本申请提供的技术方案有利于提高物体分割的准确性。
下面通过附图和实施方式,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施方式,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请的物体分割方法一个实施方式的流程图;
图2为本申请的物体再识别模型的一个实施方式的示意图;
图3为本申请的基于注意力引导的反复式掩膜传播模型的一个实施方式的示意图;
图4为本申请的目标物体掩膜扩展过程的一个实施方式的示意图;
图5为本申请的物体分割方法另一个实施方式的流程图;
图6为本申请的物体分割装置一个实施方式的结构示意图;
图7为实现本申请实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本申请的物体分割方法的一个实施例的流程图。如图1所示,该实施例方法主要包括:步骤S100、步骤S110、步骤S120以及步骤S130。下面对图1中的各步骤进行详细说明。
S100、确定视频序列中的包含有目标物体的扩展起点帧。
在一个可选示例中,本申请中的视频序列通常为可以形成一定播放时长的视频,例如,视频序列可以为监控视频或者直播视频或者自动驾驶过程中的一段视频等。本申请中的目标物体可以为人或者动物等需要关注的目标对象。本申请不限制目标物体的具体表现形式。
在一个可选示例中,本申请中的扩展起点帧通常包括:包含有与目标物体模板的相似度满足预定相似度要求的候选框(例如,ROI,感兴趣区域)的一个或者多个或者所有视频帧。例如,本申请可以将视频序列中的第一个包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧,作为扩展起点帧。再例如,本申请可以将视频序列中的任意一个包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧,作为扩展起点帧。再例如,本申请可以将视频序列中的包含有与目标物体模板的相似度满足预定相似度要求的候选框的所有视频帧,均作为扩展起点帧。本申请中的候选框与目标物体模板之间的相似度可以利用两者之间的距离(例如,欧式距离等)来体现,例如,本申请可以计算扩展起点帧中的各候选框的掩膜特征分别与目标物体模板的掩膜特征之间的欧式距离,并将计算出的各欧式距离分别作为相应的候选框与目标物体模板之间的相似度。本申请不限制相似度的计算方式以及预定相似度要求的具体表现形式。
在一个可选示例中,本申请中的目标物体模板通常包括:目标物体初始模板。本申请中的目标物体初始模板可以是,该视频序列中的某一帧中的相应区域(如某一帧中的候选框或者人工设定的区域等),例如,在希望获得某一个人在一视频序列中的物体分割结果的情况下,可以从视频序列中选取该人清晰度高的一视频帧,并标定该人的外接框,从而形成目标物体初始模板。本申请中的目标物体初始模板也可以是,其他视频序列中的某一帧中的相应区域(如某一帧中的候选框或者人工设定的区域等),例如,在希望获得第一视频序列中的一个人,在第二视频序列中的分割结果的情况下,可以从第一视频序列中选取该人清晰度高的一视频帧,并标定该人的外接框,从而形成第二视频序列的目标物体初始模板。本申请中的目标物体初始模板还可以是,其他图片或者照片等静态图像中的相应区域(如静态图像中的候选框或者人工设定的区域等),例如,在希望获得照片中的一个人,在一视频序列中的分割结果的情况下,可以将照片中的人的外接框,作为视频序列的目标物体初始模板。本申请不限制目标物体初始模板的具体获得方式。
在一个可选示例中,本申请中的目标物体模板也可以包括:目标物体扩展模板,且该目标物体扩展模板可以包括:置信度满足预定置信度要求的相邻帧的目标物体掩膜。一个具体的例子,本申请在执行了步骤S130之后,如果当前能够成功获得相邻帧的目标物体掩膜,则本申请可以计算该相邻帧的目标物体掩膜的置信度,例如,计算该相邻帧的目标物体掩膜中的所有点的置信度平均值,并将该置信度平均值作为该相邻帧的目标物体掩膜的置信度;如果计算出的该相邻帧的目标物体掩膜的置信度,满足预定置信度要求(如超过置信度阈值),则本申请可以将该相邻帧的目标物体掩膜作为目标物体扩展模板的掩膜。
在一个可选示例中,本申请利用目标物体初始模板,确定视频序列中的包含有目标物体的扩展起点帧的一个具体方式,包括下述步骤1至步骤3:
步骤1、获取视频序列的各视频帧的各候选框的掩膜特征。
具体的,本申请可以将视频序列中的各视频帧分别提供给一深度神经网络,该深度神经网络可以具体为101层的残差网络等,从而可以获得各视频帧的特征图。同时,本申请可以将视频序列中的各视频帧分别提供给另一神经网络,从而通过该神经网络可以检测出各视频帧中的候选框,例如,通过该神经网络针对通用物体,而检测出的候选框。之后,本申请可以根据检测出的各候选框从相应的视频帧特征图中切分出特征块,并根据切分出的特征块获得候选框的掩膜以及掩膜特征。
在一个可选示例中,本申请可以利用物体再识别模型获得各视频帧的各候选框的掩膜以及掩膜特征。本申请的物体再识别模型的一个具体例子如图2所示。
图2中,物体再识别模型包括:辅助单元、用于形成掩膜的掩膜神经网络以及用于形成掩膜特征的掩膜特征神经网络。辅助单元主要用于根据候选框从视频帧特征图中切分出特征块,例如,根据第i个视频帧中的第j个候选框,从第i个视频帧的特征图fi中切分出特征块辅助单元将切分出的特征块分别提供给掩膜神经网络以及掩膜特征神经网络,从而通过掩膜神经网络,获得特征块的掩膜(如binary mask,二进制掩膜),并通过掩膜特征神经网络,获得特征块的掩膜特征(mask feature)。在视频帧被作为扩展起点帧的情况下,掩膜神经网络针对该视频帧掩膜所输出的相应候选框的掩膜可以作为该扩展起点帧中的目标物体区域的掩膜(如目标物体ROI的掩膜)。本申请中的掩膜神经网络可以具体为一卷积神经网络(例如,包括两层或者三层或者四层等卷积层的卷积神经网络),掩膜特征神经网络也可以具体为卷积神经网络(例如,包括两层或者三层或者四层等卷积层的卷积神经网络)。本申请不限制掩膜神经网络以及掩膜特征神经网络的具体结构。
步骤2、计算各掩膜特征分别与目标物体初始模板的掩膜特征之间的距离。
具体的,本申请可以针对物体再识别模型所输出的每一个掩膜特征,均进行该掩膜特征与目标物体初始模板的掩膜特征之间的距离(如欧式距离)的计算。计算出的距离可以体现出两者之间的相似度。
步骤3、将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
具体的,本申请在对距离与预定距离进行比较后,如果能够选取出距离小于预定距离的候选框的掩膜特征,则本申请可以将选取出的候选框所在的视频帧作为扩展起点帧,且选取出的候选框会被作为扩展起点帧中的目标物体。本申请选取出的候选框可以是一个,也有可能是多个,当然,还有可能无法选取出候选框。在选取出的候选框是多个的情况下,本申请可以将多个候选框所在的视频帧,同时或者先后,作为扩展起点帧。在将多个候选框先后作为扩展起点帧的情况下,本申请的步骤S100至步骤S140会被多次执行。
需要特别说明的是,如果利用目标物体初始模板,无法确定出视频序列中的包含有目标物体的扩展起点帧,则本次扩展相邻帧的目标物体掩膜的过程结束。
在一个可选示例中,本申请利用目标物体扩展模板,确定视频序列中的包含有目标物体的扩展起点帧的一个具体方式,包括下述步骤11至步骤22:
步骤11、计算视频序列中的未被作为扩展起点帧的各视频帧中的各候选框的掩膜特征,分别与目标物体扩展模板的掩膜特征之间的距离。
在一个可选示例中,本申请在基于目标物体初始模板,而使步骤S100至步骤S130,被执行一次或者多次之后,视频序列中有可能会存在从未被作为扩展起点帧的视频帧,本申请可以针对这些视频帧中的每一个候选框,分别执行候选框的掩膜特征与目标物体扩展模板的掩膜特征之间的距离(如欧式距离)的计算。计算出的距离可以体现出两者之间的相似度。本步骤中的掩膜特征可以是上述物体再识别模型在前述步骤中所获得的掩膜特征。
步骤22、将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
具体的,本申请在对计算出来的距离与预定距离进行比较后,如果能够选取出距离小于预定距离的候选框的掩膜特征,则本申请可以将选取出的候选框所在的视频帧作为扩展起点帧,且选取出的候选框会被作为扩展起点帧中的目标物体。本申请选取出的候选框可以是一个,也有可能是多个,当然,还有可能无法选取出候选框。在选取出的候选框是多个的情况下,本申请可以将多个候选框所在的视频帧,同时或者先后,作为扩展起点帧。在将多个候选框先后作为扩展起点帧的情况下,本申请的步骤S100至步骤S140会被多次执行。
需要特别说明的是,如果利用目标物体扩展模板,无法确定出视频序列中的包含有目标物体的扩展起点帧,则本次扩展相邻帧的目标物体掩膜的过程结束。另外,如果本申请预先针对形成目标物体扩展模板的次数设置有相应的次数要求,则在形成目标物体扩展模板的次数达到该次数要求时,本方法的扩展相邻帧的目标物体掩膜的过程结束。
S110、获取扩展起点帧中的第一特征块以及扩展起点帧的光流指导变形信息。
在一个可选示例中,本申请中的第一特征块为扩展起点帧中的目标物体特征块。本申请可以根据扩展起点帧中的目标物体的候选框从扩展起点帧中切分出相应的特征块,该特征块就是第一特征块。
在一个可选示例中,本申请可以通过现有的神经网络获得扩展起点帧的光流指导变形信息(flow guided warping,有时也称为光流场信息)。该扩展起点帧的光流指导变形信息可以具体为:针对扩展起点帧的下一视频帧的光流指导变形信息(下述简称为第一光流指导变形信息),也可以具体为:针对扩展起点帧的上一视频帧的光流指导变形信息(下述简称为第二光流指导变形信息)。
一个具体的例子,在扩展起点帧不是视频序列中的第一个视频帧,也不是视频序列中的最后一个视频帧,且扩展起点帧的上一视频帧和下一视频帧均未曾被作为扩展起点帧的情况下,本申请中的扩展起点帧的光流指导变形信息可以具体为:第一光流指导变形信息和第二光流指导变形信息。由此,本申请可以实现目标物体掩膜的双向传播扩展。
另一个具体的例子,在扩展起点帧是视频序列中的第一个视频帧,且扩展起点帧的下一视频帧未曾被作为扩展起点帧的情况下,本申请中的扩展起点帧的光流指导变形信息可以具体为:第一光流指导变形信息。
再一个具体的例子,在扩展起点帧是视频序列中的最后一个视频帧,且扩展起点帧的上一视频帧未曾被作为扩展起点帧的情况下,本申请中的扩展起点帧的光流指导变形信息可以具体为:第二光流指导变形信息。
再一个具体的例子,在扩展起点帧不是视频序列中的第一个视频帧,也不是视频序列中的最后一个视频帧,且扩展起点帧的上一视频帧曾被作为扩展起点帧,而扩展起点帧的下一视频帧未曾被作为扩展起点帧的情况下,本申请中的扩展起点帧的光流指导变形信息可以具体为:第一光流指导变形信息。
再一个具体的例子,在扩展起点帧不是视频序列中的第一个视频帧,也不是视频序列中的最后一个视频帧,且扩展起点帧的上一视频帧未曾被作为扩展起点帧,而扩展起点帧的下一视频帧曾被作为扩展起点帧的情况下,本申请中的扩展起点帧的光流指导变形信息可以具体为:第二光流指导变形信息。
需要特别说明的是,由于目标物体的运动幅度过大等因素,本申请可能无法成功获得扩展起点帧的光流指导变形信息,在该情况下,本次扩展相邻帧的目标物体掩膜的过程结束,例如,在不能成功获取到第一光流指导变形信息和第二光流指导变形信息的情况下,本次扩展相邻帧的目标物体掩膜的过程结束。也就是说,本次无法成功获得相邻帧的目标物体掩膜。
S120、根据上述光流指导变形信息获得目标物体在扩展起点帧的相邻帧中的第二特征块。
在一个可选示例中,本申请可以利用光流指导变形信息,将扩展起点帧的目标物体掩膜映射在相邻帧特征图中,即本申请可以基于光流指导变形,针对扩展起点帧的目标物体掩膜,执行warp(变形)操作。该相邻帧特征图可以是利用上述步骤1获得的视频帧特征图。本申请可以确定出映射后的目标物体掩膜的覆盖区域,通过从相邻帧特征图中切分出该覆盖区域,从而获得第二特征块。本申请不限制利用光流指导变形信息执行映射操作的具体实现方式。
在另一个可选示例中,本申请可以利用光流指导变形信息,对扩展起点帧的目标物体的位置信息进行warp计算,从而根据计算结果,可以获得目标物体在扩展起点帧的相邻帧中的位置信息,进而本申请可以根据该位置信息,从相邻帧特征图中切分出该特征块,该特征块即为第二特征块。
上述仅例举了两个利用光流指导变形信息,获得第二特征块的具体实现方式,本申请并不限制利用光流指导变形信息获得第二特征块的具体实现方式。
在一个可选示例中,在本申请的光流指导变形信息包括:第一光流指导变形信息和第二光流指导变形信息的情况下,本申请可以根据第一光流指导变形信息获得目标物体在扩展起点帧的下一帧特征图中的第二特征块,并可以根据第二光流指导变形信息获得目标物体在扩展起点帧的上一帧特征图中的第二特征块,从而使双向扩展相邻帧的目标物体掩膜,成为可能。
需要特别说明的是,本申请中获得第二特征块可能会越来越小,而且,存在不能成功获取到第二特征块的情况,例如,在发生了目标物体被遮挡的场景中,可能会无法获取到第二特征块。如果无法获取到第二特征块,则本次扩展相邻帧的目标物体掩膜的过程结束。也就是说,本次无法成功获得相邻帧的目标物体掩膜。
S130、根据目标物体在相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜。
在一个可选示例中,本申请可以根据第一特征块以及光流指导变形信息确定目标物体在相邻帧中的注意力信息。例如,本申请可以根据光流指导变形信息对第一特征块进行warp(变形)处理,从而获得第一特征块的变形特征块,即本申请可以根据光流指导变形信息,将第一特征块中的特征与相邻帧特征图中的特征进行映射处理,从而获得映射处理后的第一特征块(即上述变形特征块)。本申请可以将映射处理后的第一特征块提供给用于提取注意力信息的卷积神经网络,从而可以利用该卷积神经网络获得目标物体在相邻帧中的注意力信息。用于提取注意力信息的卷积神经网络可以是:包括两层或者三层或者四层等卷积层的卷积神经网络。本申请所获得的注意力信息可以为能够更进一步的表示出目标物体的信息,例如,能够表现出目标物体的轮廓的信息等。本申请不限制用于提取注意力信息的卷积神经网络的具体结构,也不限制注意力信息的具体表现形式。
在一个可选示例中,本申请可以首先将上述映射处理后的第一特征块与第二特征块,进行相加操作,从而获得第三特征块;然后,将第三特征块提供给用于获得目标物体特征的卷积神经网络,从而根据该卷积神经网络的输出,可以获得第四特征块;之后,将上述获得的目标物体在相邻帧中的注意力信息,与第四特征块,进行相乘操作,从而获得第五特征块;最后,将上述获得的第五特征块提供给用于提取掩膜的卷积神经网络,从而根据该卷积神经网络的输出,可以获得相邻帧的目标物体掩膜。
在一个可选示例中,本申请利用上述方法可以从一个扩展起点帧开始,获得其相邻帧的目标物体掩膜,本申请通过将该相邻帧被作为扩展起点帧,可以继续获得该相邻帧的相邻帧的目标物体掩膜,以此类推,本申请可以获得多个相互邻接的目标物体掩膜,多个相互邻接的目标物体掩膜可以串接为一个分割片段。在本申请通过不断的将相邻帧作为扩展起点帧,通过不止一次的基于相邻帧的目标物体掩膜选取出目标物体扩展模板,并利用选取出的目标物体扩展模板再次执行相应的步骤,由于相邻的两视频帧中的目标物体,在形态、动作等多方面,往往更相近一些,因此,在视频序列中的目标物体存在被遮挡现象以及动作幅度较大现象的情况下,本申请可以为目标物体形成多个分割片段。
在一个可选示例中,本申请通过对获得的所有分割片段进行串接处理,从而可以形成视频序列的分割结果。一个具体例子,本申请可以采用条件随机场或者贪心算法等多种串接方式,对获得的所有分割片段进行串接处理,从而将多个分割片段串接为视频序列的分割结果。本申请不限制将多个分割片段串接为视频序列的分割结果的具体实现方式。
本申请的物体分割方法可以通过物体再识别模型以及基于注意力引导的反复式掩膜传播模型实现。本申请中的物体再识别模型如上述针对图2的描述。本申请中的基于注意力引导的反复式掩膜传播模型通常包括:至少一个辅助单元以及多个卷积神经网络。基于注意力引导的反复式掩膜传播模型的一个具体例子,如图3所示。
图3中,基于注意力引导的反复式掩膜传播模型包括:第一辅助单元、第二辅助单元、第三辅助单元、第四辅助单元、第一卷积神经网络(图3中未示出,第一卷积神经网络位于图3中的hj-1与aj之间)、第二卷积神经网络NR以及第三卷积神经网络NO
第一辅助单元主要用于,根据光流指导变形信息,获得目标物体在扩展起点帧(如图3中的第j-1视频帧)的相邻帧(如图3中的第j视频帧)特征图中的第二特征块xj。另外,光流指导变形信息有可能无法成功获得,本申请在无法获得光流指导变形信息的情况下,本次向第j视频帧扩展目标物体掩膜的过程结束。
在一个可选示例中,设定图3中的yj-1表示第j-1视频帧中的目标物体掩膜,且第j-1视频帧为当前的扩展起点帧。设定fj表示与第j-1视频帧下一视频帧特征图,即第j视频帧特征图。本申请可以将第j-1视频帧中的目标物体掩膜yj-1、第j-1视频帧针对下一视频帧的光流指导变形信息、以及第j视频帧特征图fj,提供给第一辅助单元,由第一辅助单元输出第二特征块xj
上述第j-1视频帧中的目标物体掩膜yj-1可以是通过图2所示的物体再识别模型而获得的,也可以是利用基于注意力引导的反复式掩膜传播模型而获得的。具体过程可以参见上述针对图1的相关描述以及下述针对图4的描述。
第二辅助单元主要用于根据光流指导变形信息,对第j-1视频帧中的目标物体特征块hj-1进行变形处理,从而获得目标物体特征块hj-1的变形特征块。
第二辅助单元所获得的目标物体特征块hj-1的变形特征块被提供给第一卷积神经网络,从而本申请可以经由该第一卷积神经网络,获得目标物体在第j视频帧中的注意力信息aj。第一卷积神经网络可以是多层卷积层的卷积神经网络。另外,注意力信息aj所表示出的区域有可能越来越小,在第二辅助单元无法获得注意力信息aj的情况下,本次向第j视频帧扩展目标物体掩膜的过程结束。
第三辅助单元主要用于将第二辅助单元所获得的目标物体特征块hj-1的变形特征块与第一辅助单元输出的第二特征块xj,进行相加运算,并将相加运算后获得的特征块提供给第二卷积神经网络NR
第二卷积神经网络NR主要用于针对输入的特征块进行进一步的特征提取,并输出特征提取后的特征块。第二卷积神经网络NR可以是多层卷积层的卷积神经网络。
第四辅助单元主要用于利用第二辅助单元获得的注意力信息aj,对第二卷积神经网络NR输出的特征块进行修正,从而获得第j视频帧中的目标物体特征块hj。第四辅助单元可以将其获得的目标物体特征块hj提供给第三卷积神经网络NO,从而本申请可以经由第三卷积神经网络NO,获得主要用于根据所述注意力信息、第一特征块以及第二特征块,获得第j视频帧中的目标物体掩膜。
需要特别说明的是,本申请可以在成功扩展出第j视频帧中的目标物体掩膜之后,可以继续将第j视频帧作为扩展起点帧,从而继续进行目标物体掩膜的扩展过程,进而可以获得多个连续的视频帧的目标物体掩膜。另外,虽然图3仅示出了由第j-1视频帧向第j视频帧方向的目标物体掩膜扩展过程,然而,本申请的目标物体掩膜扩展技术,同样可以适用于由第j-1视频帧向第j-2视频帧方向的目标物体掩膜扩展,如图4所示,在以中间视频帧为初始的扩展视频帧的情况下,本申请通过向该视频帧的两个方法分别进行目标物体掩膜扩展操作,可以获得多个目标物体掩膜,而且,这多个目标物体掩膜可以串接为一个分割片段。本申请同时向两个方向进行目标物体掩膜扩展的过程在此不再详细说明。再有,本申请中的第一卷积神经网络、第二卷积神经网络NR以及第三卷积神经网络NO的网络参数并不共享。
本申请利用物体再识别模型和基于注意力引导的反复式掩膜传播模型,实现物体分割的一个具体实施方式的流程,如图5所示。下面对图5中的各步骤进行详细说明。
S500、开始本申请的物体分割方法。到步骤S510。
S510、获取视频序列中各视频帧的特征图以及各视频帧中的候选框。
S520、根据获取到的各候选框分别从相应的特征图中获得特征块,并将各特征块分别提供给物体再识别模型,以利用物体再识别模型,获得各特征块的掩膜以及掩膜特征,即各候选框的掩膜以及掩膜特征。
S530、计算各候选框的掩膜特征与目标物体初始模板的掩膜特征之间的相似度,并将相似度最高的一个候选框所在的视频帧作为扩展起点帧。如果目标物体初始模板是该视频序列中的某一帧中的候选框,则本申请可以将目标物体初始模板所在的视频帧作为扩展起点帧,因为该候选框与目标物体初始模板之间的相似度通常是最高的。
S540、将相似度最高的候选框的特征块作为当前扩展起点帧的目标物体特征块,将相似度最高的候选框的掩膜作为当前扩展起点帧的目标物体掩膜。
S550、当前扩展起点帧是否存在未曾被作为扩展起点帧的相邻帧,如果存在,则到步骤S560,如果不存在,则到步骤S551。
S560、将扩展起点帧的光流指导变形信息、目标物体特征块以及目标物体掩膜提供给基于注意力引导的反复式掩膜传播模型,以利用基于注意力引导的反复式掩膜传播模型,获得扩展起点帧的相邻帧的目标物体特征块以及目标物体掩膜。
S570、判断是否成功获得相邻帧的目标物体掩膜,如果成获得了一个或者两个相邻帧的目标物体掩膜,则到步骤S580;而如果未成功获得相邻帧的目标物体掩膜,则可以将当前获得的相邻的目标物体掩膜认为是一分割片段,到步骤S551。
S580、将上述相邻帧作为当前扩展起点帧,将上述获得的相邻帧的目标物体特征块作为当前扩展起点帧的目标物体特征块,并将上述相邻帧的目标物体掩膜作为当前扩展起点帧的目标物体掩膜。返回到步骤S560。
S551、判断当前的视频序列中,是否已经不存在未被作为扩展起点帧的视频帧,以及选取目标物体扩展模块的次数是否已经达到预定次数,如果这两者中的任一条件被满足,则到步骤S590;而如果这两者都不满足,到步骤S552。
S552、从当前获得的未被作为目标物体模板的目标物体掩膜中选取出置信度最高的目标物体掩膜,将该选取出的目标物体掩膜作为目标物体扩展模板的掩膜,将该目标物体扩展模板的特征块提供给物体再识别模型,由物体再识别模型输出该目标物体扩展模块的掩膜以及掩膜特征。
S553、计算未曾被作为扩展起点帧的各视频帧中的各候选框的掩膜特征与当前目标物体扩展模板的掩膜特征之间的相似度,并将相似度最高的一个候选框所在的视频帧作为扩展起点帧。返回步骤S540。
S590、采用条件随机场或者贪心算法等多种串接方式,对获得的所有分割片段进行串接处理,从而将多个分割片段串接为视频序列的分割结果,本申请的物体分割过程结束。
需要特别说明的是,本申请中的视频序列中的目标物体可以是一个人,也可以是多个不同的人,也可以是多个不同的动物等。在目标物体的数量为多个的情况下,本申请可以针对每一个目标物体,均形成一个分割结果。
本申请可以利用带有目标物体掩膜标注的视频序列样本,对物体再识别模型和基于注意力引导的反复式掩膜传播模型进行训练。具体的,通过利用待训练的物体再识别模型以及待训练的基于注意力引导的反复式掩膜传播模型,获得视频序列样本中的各视频帧的目标物体掩膜,并利用损失函数,计算目标物体掩膜与目标物体掩膜标注之间的差异,从而形成一个反向传播过程,在该反向传播过程中,对待训练的物体再识别模型和待训练的基于注意力引导的反复式掩膜传播模型中的各卷积神经网络的网络参数进行调整。
在一个可选示例中,在针对待训练的两个模型的训练达到预定迭代条件时,本次训练过程结束。本申请中的预定迭代条件可以包括:待训练的模型输出的目标物体掩膜与视频序列样本的目标物体掩膜标注之间的差异满足预定差异要求。在差异满足该预定差异要求的情况下,本次对待训练的两个模型成功训练完成。本申请中的预定迭代条件也可以包括:对该待训练的两个模型进行训练,所使用的视频帧的数量达到预定数量要求等。在使用的视频帧的数量达到预定数量要求,然而,差异并未满足预定差异要求的情况下,本次对待训练的两个模型并未训练成功。成功训练完成的模型可以用于对视频序列进行物体分割处理。
图6为本申请的物体分割装置一个实施例的结构示意图。如图6所示,该实施例的装置主要包括:确定扩展起点帧模块600、第一获取模块610、第二获取模块620以及第三获取模块630。在一个可选示例中,该实施例的装置还可以包括:第四获取模块640、获取注意力模块650以及串接模块660中的一个或者多个。
确定扩展起点帧模块600主要用于确定视频序列中的包含有目标物体的扩展起点帧。在一个可选示例中,确定扩展起点帧模块600可以具体用于:获取所述视频序列的各视频帧的各候选框的掩膜特征,计算各掩膜特征分别与目标物体初始模板的掩膜特征之间的距离,并将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。在一个可选示例中,确定扩展起点帧模块600可以具体用于:计算视频序列的未被作为扩展起点帧的各视频帧中的各候选框的掩膜特征,分别与目标物体扩展模板的掩膜特征之间的距离;将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。在一个可选示例中,在上一次循环过程中成功获得相邻帧的目标物体掩膜的情况下,确定扩展起点帧模块600可以具体用于:将相邻帧作为扩展起点帧。另外,本申请中的相邻帧通常包括:在视频序列中,与扩展起点帧相邻,且未曾被作为扩展起点帧的视频帧。
确定扩展起点帧模块600具体执行的操作可以参见上述方法实施方式中针对图1中的S100以及图5中的相关步骤的描述,在此不再详细说明。
第一获取模块610主要用于获取扩展起点帧中的第一特征块以及扩展起点帧的光流指导变形信息。其中,第一特征块为扩展起点帧中的目标物体特征块。可选的,确定扩展起点帧模块610可以具体用于,将包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧作为扩展起点帧。本申请中的目标物体模板可以包括:目标物体初始模板;本申请中的目标物体模板也可以包括:目标物体扩展模板。本申请中的目标物体扩展模板可以包括:获得的相邻帧的目标物体掩膜中的置信度满足预定置信度要求的相邻帧的目标物体掩膜。第一获取模块610具体执行的操作可以参见上述方法实施方式中针对图1中的S110以及图5中的相关步骤的描述,在此不再详细说明。
第二获取模块620主要用于根据光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块。在一个可选示例中,第二获取模块620可以具体用于根据光流指导变形信息将扩展起点帧中的目标物体掩膜映射在所述相邻帧特征图中;并根据映射后的目标物体掩膜的覆盖区域获取目标物体在相邻帧中的第二特征块。第二获取模块620具体执行的操作可以参见上述方法实施方式中针对图1中的S120以及图5中的相关步骤的描述,在此不再详细说明。
第三获取模块630主要用于根据目标物体在相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜。其中,目标物体掩膜主要用于得到视频序列的分割结果。其中,相邻帧的目标物体掩膜用于与扩展起点帧的目标物体掩膜相串接,形成分割片段。在一个可选示例中,第三获取模块630具体用于将第一特征块,基于光流指导变形信息,而映射在相邻帧特征图中所形成的特征块,与第二特征块,相加,获得第三特征块;将第三特征块提供给用于获得目标物体特征的卷积神经网络,以获得第四特征块;将目标物体在相邻帧中的注意力信息,与第四特征块相乘,以获得第五特征块;将第五特征块提供给用于提取掩膜的卷积神经网络,以利用该卷积神经网络获得相邻帧的目标物体掩膜。第三获取模块630具体执行的操作可以参见上述方法实施方式中针对图1中的S130以及图5中的相关步骤的描述,在此不再详细说明。
第四获取模块640主要用于计算当前获得的各相邻帧的目标物体掩膜的置信度,选取出置信度满足预定置信度要求的相邻帧的目标物体掩膜,根据选取出的相邻帧的目标物体掩膜所对应的第二特征块获得掩膜特征。其中,上述获得的掩膜特征被作为目标物体扩展模板的掩膜特征。第四获取模块640具体执行的操作可以参见上述方法实施方式中针对图1中的S110以及图5中的相关步骤的描述,在此不再详细说明。
获取注意力模块650主要用于根据第一特征块以及所述光流指导变形信息确定目标物体在相邻帧中的注意力信息。获取注意力模块650可以具体用于将第一特征块,基于光流指导变形信息,而映射在相邻帧特征图中所形成的特征块,提供给用于提取注意力信息的卷积神经网络,以利用该卷积神经网络获得目标物体在相邻帧中的注意力信息。获取注意力模块650具体执行的操作可以参见上述方法实施方式中针对图1中的S130以及图5中的相关步骤的描述,在此不再详细说明。
串接模块660主要用于将多个分割片段串接为所述视频序列的分割结果。在一个可选示例中,串接模块660可以具体用于:利用条件随机场或者贪心算法,将多个分割片段串接为所述视频序列的分割结果。串接模块660具体执行的操作可以参见上述方法实施方式中针对图1中的S130以及图5中的相关步骤的描述,在此不再详细说明。
示例性设备
图7示出了适于实现本申请的示例性设备700,设备700可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图7中,设备700包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)701,和/或,一个或者多个利用神经网络进行物体分割的图像处理器(GPU)713等,处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器702和/或随机访问存储器730中通信以执行可执行指令,通过总线704与通信部712相连、并经通信部712与其他目标设备通信,从而完成本申请中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。
此外,在RAM 703中,还可以存储有装置操作所需的各种程序以及数据。CPU701、ROM702以及RAM703通过总线704彼此相连。在有RAM703的情况下,ROM702为可选模块。RAM703存储可执行指令,或在运行时向ROM702中写入可执行指令,可执行指令使中央处理单元701执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装在存储部分708中。
需要特别说明的是,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再如理,可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。
特别地,根据本申请的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本申请实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载及安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的物体分割方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种物体分割方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中,该方法包括:第一装置向第二装置发送物体分割指示,该指示使得第二装置执行上述任一可能的实施例中的物体分割方法;第一装置接收第二装置发送的物体分割结果。
在一些实施例中,该物体分割指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行物体分割操作,相应地,响应于接收到调用指令,第二装置可以执行上述物体分割方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。
还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用,并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims (10)

1.一种物体分割方法,其特征在于,包括:
确定视频序列中的包含有目标物体的扩展起点帧;
获取所述扩展起点帧中的第一特征块以及所述扩展起点帧的光流指导变形信息,其中,所述第一特征块为扩展起点帧中的目标物体特征块;
根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块;
根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜,所述目标物体掩膜用于得到所述视频序列的分割结果。
2.根据权利要求1所述的方法,其特征在于,所述确定视频序列中的包含有目标物体的扩展起点帧包括:
将包含有与目标物体模板的相似度满足预定相似度要求的候选框的视频帧作为扩展起点帧。
3.根据权利要求2所述的方法,其特征在于:
所述目标物体模板包括:目标物体初始模板;或者
所述目标物体模板包括:目标物体扩展模板;
其中,所述目标物体扩展模板包括:所述获得的相邻帧的目标物体掩膜中的置信度满足预定置信度要求的相邻帧的目标物体掩膜。
4.根据权利要求3所述的方法,其特征在于,所述方法在获得相邻帧的目标物体掩膜之后,还包括下述步骤:
计算当前获得的各相邻帧的目标物体掩膜的置信度;
选取出置信度满足预定置信度要求的相邻帧的目标物体掩膜;
根据所述选取出的相邻帧的目标物体掩膜所对应的第二特征块获得掩膜特征;
其中,所述获得的掩膜特征被作为所述目标物体扩展模板的掩膜特征。
5.根据权利要求3至4中任一项所述的方法,其特征在于,所述确定视频序列中的包含有目标物体的扩展起点帧包括:
获取所述视频序列的各视频帧的各候选框的掩膜特征;
计算各掩膜特征分别与目标物体初始模板的掩膜特征之间的距离;
将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述确定视频序列中的包含有目标物体的扩展起点帧包括:
计算视频序列的未被作为扩展起点帧的各视频帧中的各候选框的掩膜特征,分别与目标物体扩展模板的掩膜特征之间的距离;
将距离小于预定距离的掩膜特征所在的视频帧作为扩展起点帧。
7.一种物体分割装置,其特征在于,包括:
确定扩展起点帧模块,用于确定视频序列中的包含有目标物体的扩展起点帧;
第一获取模块,用于获取所述扩展起点帧中的第一特征块以及所述扩展起点帧的光流指导变形信息,其中,所述第一特征块为扩展起点帧中的目标物体特征块;
第二获取模块,用于根据所述光流指导变形信息获得所述目标物体在所述扩展起点帧的相邻帧中的第二特征块;
第三获取模块,用于根据所述目标物体在所述相邻帧中的注意力信息、第一特征块以及第二特征块,获得相邻帧的目标物体掩膜,所述目标物体掩膜用于得到所述视频序列的分割结果。
8.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-6中任一项所述的方法。
10.一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现上述权利要求1-6中任一项所述的方法。
CN201810151947.0A 2018-02-14 2018-02-14 物体分割方法、装置、设备、存储介质及程序 Active CN108305267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810151947.0A CN108305267B (zh) 2018-02-14 2018-02-14 物体分割方法、装置、设备、存储介质及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810151947.0A CN108305267B (zh) 2018-02-14 2018-02-14 物体分割方法、装置、设备、存储介质及程序

Publications (2)

Publication Number Publication Date
CN108305267A true CN108305267A (zh) 2018-07-20
CN108305267B CN108305267B (zh) 2020-08-11

Family

ID=62865219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810151947.0A Active CN108305267B (zh) 2018-02-14 2018-02-14 物体分割方法、装置、设备、存储介质及程序

Country Status (1)

Country Link
CN (1) CN108305267B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271878A (zh) * 2018-08-24 2019-01-25 北京地平线机器人技术研发有限公司 图像识别方法、图像识别装置和电子设备
CN109272457A (zh) * 2018-08-09 2019-01-25 腾讯科技(深圳)有限公司 一种图像掩膜生成方法、装置及服务器
CN113269700A (zh) * 2021-04-29 2021-08-17 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质
CN113424223A (zh) * 2019-02-21 2021-09-21 索尼集团公司 彩色图像帧序列中的基于多个神经网络的对象分割

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101489147A (zh) * 2009-01-16 2009-07-22 西安电子科技大学 基于感兴趣区域的幅型比变换方法
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN102609686A (zh) * 2012-01-19 2012-07-25 宁波大学 一种行人检测方法
CN102833464A (zh) * 2012-07-24 2012-12-19 常州泰宇信息科技有限公司 智能视频监控用结构化背景重建方法
US20130121577A1 (en) * 2009-10-30 2013-05-16 Jue Wang Methods and Apparatus for Chatter Reduction in Video Object Segmentation Using Optical Flow Assisted Gaussholding
CN203086632U (zh) * 2013-01-16 2013-07-24 浙江理工大学 一种基于压缩域的视频检索系统
CN103325112A (zh) * 2013-06-07 2013-09-25 中国民航大学 动态场景中运动目标快速检测方法
CN103793922A (zh) * 2013-09-12 2014-05-14 电子科技大学 一种特定姿态实时检测方法
CN103942794A (zh) * 2014-04-16 2014-07-23 南京大学 一种基于置信度的图像协同抠图方法
CN104103050A (zh) * 2014-08-07 2014-10-15 重庆大学 一种基于局部策略的真实视频复原方法
CN104637031A (zh) * 2013-11-12 2015-05-20 华为终端有限公司 眼部图像处理方法和装置
CN106664417A (zh) * 2014-05-15 2017-05-10 英特尔公司 用于视频编码的内容自适应背景前景分割
US20170372479A1 (en) * 2016-06-23 2017-12-28 Intel Corporation Segmentation of objects in videos using color and depth information

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101489147A (zh) * 2009-01-16 2009-07-22 西安电子科技大学 基于感兴趣区域的幅型比变换方法
US20130121577A1 (en) * 2009-10-30 2013-05-16 Jue Wang Methods and Apparatus for Chatter Reduction in Video Object Segmentation Using Optical Flow Assisted Gaussholding
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN102609686A (zh) * 2012-01-19 2012-07-25 宁波大学 一种行人检测方法
CN102833464A (zh) * 2012-07-24 2012-12-19 常州泰宇信息科技有限公司 智能视频监控用结构化背景重建方法
CN203086632U (zh) * 2013-01-16 2013-07-24 浙江理工大学 一种基于压缩域的视频检索系统
CN103325112A (zh) * 2013-06-07 2013-09-25 中国民航大学 动态场景中运动目标快速检测方法
CN103793922A (zh) * 2013-09-12 2014-05-14 电子科技大学 一种特定姿态实时检测方法
CN104637031A (zh) * 2013-11-12 2015-05-20 华为终端有限公司 眼部图像处理方法和装置
CN103942794A (zh) * 2014-04-16 2014-07-23 南京大学 一种基于置信度的图像协同抠图方法
CN106664417A (zh) * 2014-05-15 2017-05-10 英特尔公司 用于视频编码的内容自适应背景前景分割
CN104103050A (zh) * 2014-08-07 2014-10-15 重庆大学 一种基于局部策略的真实视频复原方法
US20170372479A1 (en) * 2016-06-23 2017-12-28 Intel Corporation Segmentation of objects in videos using color and depth information

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272457A (zh) * 2018-08-09 2019-01-25 腾讯科技(深圳)有限公司 一种图像掩膜生成方法、装置及服务器
CN109271878A (zh) * 2018-08-24 2019-01-25 北京地平线机器人技术研发有限公司 图像识别方法、图像识别装置和电子设备
CN113424223A (zh) * 2019-02-21 2021-09-21 索尼集团公司 彩色图像帧序列中的基于多个神经网络的对象分割
CN113424223B (zh) * 2019-02-21 2023-08-08 索尼集团公司 彩色图像帧序列中的基于多个神经网络的对象分割
CN113269700A (zh) * 2021-04-29 2021-08-17 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质
CN113269700B (zh) * 2021-04-29 2023-12-12 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108305267B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN108305267A (zh) 物体分割方法、装置、设备、存储介质及程序
EP3475791B1 (en) Eye gaze tracking using neural networks
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN108197618B (zh) 用于生成人脸检测模型的方法和装置
CN107066583A (zh) 一种基于紧凑双线性融合的图文跨模态情感分类方法
US20190147224A1 (en) Neural network based face detection and landmark localization
CN108961369A (zh) 生成3d动画的方法和装置
CN109426805A (zh) 用于对象检测的方法、设备和计算机程序产品
CN108463821A (zh) 用于直接从图像识别实体的系统和方法
CN109284729A (zh) 基于视频获取人脸识别模型训练数据的方法、装置和介质
CN110832583A (zh) 用于从多个图像帧生成概要故事板的系统和方法
CN110222686B (zh) 物体检测方法、装置、计算机设备和存储介质
CN108288051A (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN109063587A (zh) 数据处理方法、存储介质和电子设备
JP2020071875A (ja) 画像認識に用いる深層学習モデル及び該モデルの訓練装置と方法
JP2020013563A (ja) 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法
Mahapatra et al. Controllable animation of fluid elements in still images
CN110008961A (zh) 文字实时识别方法、装置、计算机设备及存储介质
CN112101359A (zh) 文本公式的定位方法、模型训练方法及相关装置
CN112733802A (zh) 图像的遮挡检测方法、装置、电子设备及存储介质
CN111931628B (zh) 人脸识别模型的训练方法、装置及相关设备
CN107563299A (zh) 一种利用ReCNN融合上下文信息的行人检测方法
JPWO2018198233A1 (ja) 学習装置、画像認識装置、学習方法及びプログラム
CN111368768A (zh) 一种基于人体关键点的员工手势指引检测方法
Rao et al. Audio-to-visual conversion for multimedia communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant