CN112784750B

CN112784750B - 基于像素和区域特征匹配的快速视频物体分割方法和装置

Info

Publication number: CN112784750B
Application number: CN202110090764.4A
Authority: CN
Inventors: 鲁继文; 周杰; 朱文成; 李家昊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-08-09
Anticipated expiration: 2041-01-22
Also published as: CN112784750A

Abstract

本发明提出一种基于像素和区域特征匹配的快速视频物体分割方法和装置，其中，方法包括：提取搜索帧和查询帧的特征；根据搜索帧和查询帧的特征，计算搜索帧和查询帧之间的像素相似性特征；提取搜索帧和查询帧之间的区域相关性特征；融合像素相似性特征和区域相关性特征，得到融合特征；根据融合特征确定查询帧的掩码类型。由此，所提出方法在保证准确度的同时提高算法的推理速度。

Description

基于像素和区域特征匹配的快速视频物体分割方法和装置

技术领域

本发明涉及半监督视频物体分割技术领域，尤其涉及一种基于像素和区域特征匹配的快速视频物体分割方法和装置。

背景技术

视频物体分割是一个重要而且具有挑战性的计算机视觉任务。在过去的几年里，这个视觉任务在现实应用中比如物体的再识别、增强现实以及场景理解中引起了广泛的关注。一般来说视频物体分割可以分成两个子任务：1)无监督的视频物体分割；2)半监督的视频物体分割。无监督视频分割的目的是在没有使用任何监督信号的情况下，分割出视频中具有显著性的物体。然而，半监督物体分割的目的是在给定第一帧标注物体和掩膜的情况下，得到视频其他帧中指定物体的掩膜。半监督物体分割是难以处理的，因为它不仅需要正确地定位指定物体，而且需要精确地分割出物体。因此一个成功的半监督物体分割方法一般需要结合物体的定位以及物体的分割。物体的定位指的是得到物体在视频帧中的大致区域，物体的分割指的是预测目标像素的类别。

相关技术中，通过像素之间的相似度信息来分类每一个目标像素。代表性的方法包括PLM RANet，VideoMatc等等。这类方法由于只利用像素的相似度信息，忽略了物体的结构信息，因此容易受到噪声以及异常点的影响。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于像素和区域特征匹配的快速视频物体分割方法，以实现基于像素和区域特征匹配的快速视频分割物体的方法。

本发明的第二个目的在于提出一种基于像素和区域特征匹配的快速视频物体分割装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于像素和区域特征匹配的快速视频物体分割方法，包括：提取搜索帧和查询帧的特征；

根据所述搜索帧和查询帧的特征，计算所述搜索帧和查询帧之间的像素相似性特征；

提取所述搜索帧和查询帧之间的区域相关性特征；

融合所述像素相似性特征和所述区域相关性特征，得到融合特征；

根据所述融合特征确定所述查询帧的掩码类型。

为达上述目的，本发明第二方面实施例提出了一种基于像素和区域特征匹配的快速视频物体分割装置，包括：第一提取模块，用于提取搜索帧和查询帧的特征；

计算模块，用于根据所述搜索帧和查询帧的特征，计算所述搜索帧和查询帧之间的像素相似性特征；

第二提取模块，用于提取所述搜索帧和查询帧之间的区域相关性特征；

融合模块，用于融合所述像素相似性特征和所述区域相关性特征，得到融合特征；

确定模块，用于根据所述融合特征确定所述查询帧的掩码类型。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的基于像素和区域特征匹配的快速视频物体分割方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于像素和区域特征匹配的快速视频物体分割方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述第一方面实施例所述的基于像素和区域特征匹配的快速视频物体分割方法。

本发明的实施例，至少具有如下的技术效果：

解决目前视频物体分割技术中存在的低精度和高时间复杂度的问题。首先利用像素和区域之间的相关性来大致定位物体的位置，然后利用像素和像素之间的相似性来分割物体。同时，我们提出了自上而下的特征融合方法来融合像素和区域特征，从而得到物体结构化信息以及物体细粒度相似性信息，实现高效地定位以及精确地分割。该方法的优点是在不需要在线学习和任何后处理的设置条件下，实现快速准确的视频物体分割方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于像素和区域特征匹配的快速视频物体分割方法的流程示意图；

图2为本发明实施例所提供的一种基于像素和区域特征匹配的快速视频物体分割方法的网络架构图；

图3为本发明实施例所提供的一种基于像素和区域特征匹配的快速视频物体分割的场景示意图；

图4为本发明实施例所提供的另一种基于像素和区域特征匹配的快速视频物体分割的场景示意图；

图5为本发明实施例的自上而下的注意力融合方法和自下而上的自注意力融合方法的网络结构图；

图6为本发明实施例的算法在DAVIS-16数据集上的实验结果图；

图7为本发明实施例所提供的又一种基于像素和区域特征匹配的快速视频物体分割的场景示意图；以及

图8为本发明实施例所提供的又一种基于像素和区域特征匹配的快速视频物体分割装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

传统的基于在线学习的方法精度高，但是速度相较于其他两类方法速度慢，很难满足现实应用的实时性要求。基于物体追踪的方法速度虽然比较快，但是精度比较低，很容易受到物体追踪结果的影响。基于特征匹配的方法容忽略了物体本身的结构化信息，易受到噪声和异常点的影响。基于上面的问题，本发明提出了基于像素和区域特征匹配的快速视频分割方法。

下面参考附图描述本发明实施例的基于像素和区域特征匹配的快速视频物体分割方法和装置。

图1为本发明实施例所提供的一种基于像素和区域特征匹配的快速视频物体分割方法的流程示意图。

具体地，对于搜索分支，本发明将搜索帧和它的掩膜在特征维度堆叠作为网络的输入，将查询帧以及前一帧地预测mask堆叠作为网络的另一个输入。提取完搜索帧和查询帧的特征后，分别将他们输入到区域相关模块和像素相似性模块得到区域和像素的匹配特征，然后将这两个特征通过像素和区域模块进行融合得到最终的特征，输入到解码网络中。

如图1所示，该基于像素和区域特征匹配的快速视频物体分割方法包括以下步骤：

步骤101，提取搜索帧和查询帧的特征。

本实施例中，参照图2，本发明的网络架构分成搜索和查询两个分支。其中，搜索分支的输入是搜索帧以及标注的搜索帧的掩膜，具体地，搜索分支的输入包含两部分，第一部分是搜索帧对应的3维图片，第二部分是搜索帧的对应的1维标注掩膜，通过堆叠这两部分，得到4维的数据作为搜索分支的输入。然后经过网络得到搜索帧的特征。查询分支的输入包括了查询帧以及前一帧的掩膜。本发明并没有直接将查询帧和该掩膜直接堆叠，而是将前一帧的掩膜用二维高斯核处理，这种操作增强了模型的鲁棒性能，具体地，查询分支地输入也包含两部分，第一部分是查询帧对应地3维图片，第二部是根据查询帧前一帧预测得到地1维掩膜，这个掩膜经过高斯核进行模糊，通过堆叠这两部分，得到4维的数据作为查询分支的输入。然后经过网络得到查询帧的特征。此外，搜索分支和查询分支的编码网络共享网络参数。

步骤102，根据搜索帧和查询帧的特征，计算搜索帧和查询帧之间的像素相似性特征。

在本实施例中，根据搜索帧和查询帧的特征，计算搜索帧和查询帧之间的像素相似性特征。

在本发明的一个实施例中，根据预设的第一公式计算所述搜索帧的像素与所述查询帧的前景像素之间的第一相似性矩阵，以及所述搜索帧的像素与所述查询帧的背景像素之间的第一相似性矩阵；根据预设的二公式和所述第一相似性矩阵中提取所述查询帧的前景像素的前k个前景像素，和所述查询帧的背景像素中的前k个背景像素，堆叠所述k个前景像素和所述k个背景像素的像素特征，获取所述像素相似性特征。

在本实施例中，在提取完搜索帧和查询帧的特征以后，可以直接计搜索像素与查询帧像素之间的相似性矩阵

其中，相似性矩阵参照下述公式(1)：

其中

和

分别表示第i个和第j个查询

和搜索

的像素特征，其中，hw是图片像素个数。。

对于搜索帧来说，它的掩膜是预先给定的，那么就能够得到查询帧的像素和搜索帧的前景和背景的像素相似性矩阵

和

其中，相似性矩阵的计算的第一公式参照下述公式(2)：

其中，

为所述第一相似性矩阵，

为所述第二相似性矩阵，m_f表示的是前景的掩膜，i表示的是第i个搜索帧的像素，j表示第j个所述查询帧的像素，n_f是前景像素的个数，n_b是背景像素的个数，hw是图片像素的个数。为了减轻噪声和异常点对前景和背景的影响，本发明仅选择前k个前景像素和k个背景像素，提取像素的第二公式参照下述公式(3)：

P_f＝Top-k(S_f),P_b＝Top-k(S_b) 公式(3)

然后将这两个特征堆叠得到最终的像素级别特征

需要强调的是，在本实施例中，在识别物体的时候，可以通过前景信息的匹配，也可以通过去掉物体周围相关的背景信息，具体参见图3。

步骤103，提取搜索帧和查询帧之间的区域相关性特征。

在本实施例中，继续参照图2，虽然像素之间相似性能够反映细粒度的分割信息，但是本发明发现随机的像素排列并不会影响最终的像素级别的特征。这说明像素特征并不能体现物体的结构化信息，因为物体结构信息是对像素随机排列非常敏感的。同时，参照图4，区域的匹配信息能够用来帮助物体的定位，缓解噪声和异常点对像素匹配的影响。

首先，先根据搜索帧物体的掩膜，把物体的裁剪出来，然后对裁剪出去的物体的前景区域使用最大值池化操作P生成7×7的特征图，再利用7×7卷积核

得到1×1物体原型，本发明将原型看作1×1卷积核和查询帧特征做卷积，其中，查询帧特征是查询帧以及查询帧的前一帧预测得到的掩膜经过高斯模糊后的掩膜堆叠在一起输入网络后得到的特征，得到最终的区域特征

参照公式(4)，该区域特征为：

步骤104，融合像素相似性特征和区域相关性特征，得到融合特征。

步骤105，根据融合特征确定查询帧的掩码类型。

在本实施例中，传统的特征融合方法是把不同特征根据特征维度进行堆叠，本发明提出了自上而下的注意力融合方法和自下而上的自注意力融合方法，见附图5。本关键点的出发点在于区域特征能够体现物体的位置信息，像素特征可以利用物体的细粒度信息来做精细分割。因此本发明利用自上而下的注意力，仅关注物体高响应区域进行精细分割。作为对比，自下而上的注意力用细粒度特征做区域的定位，用区域特征来做精细分割，这种操作是不合理的。简单的堆叠虽然包含了区域和像素的信息，但是网路很难直接学到这些自上而下的信息。同时实验也证明了本发明使用的自上而下注意力提高算法的性能。

具体来说，首先使用1×1卷积将区域特征降维到像素特征维度，这样做是为了平衡不同特征的维度，然后，将区域特征转化成注意力图和像素特征做点乘得到融合特征

获得了融合特征以后，本发明将从编码网络得到高阶的特征，跳转连接特征以及融合特征堆叠一起输入到解码网络，来预测最终的查询帧的掩码。附图6展示了本发明的算法在DAVIS-16数据集上的实验结果，可以看到在保证精度的同时，本发明算法能够取得非常快的推理速度。

由此，参照图7，本发明实施例中，首先通过编码网络分别提取查询视频帧和搜索视频帧的特征，并计算查询像素和搜索帧中前景和背景像素相似度信息得到细粒度的物体分割特征，其次通过提取参考物体的外观特征来获取物体的原型信息，并利用物体原型计算和查询像素的相似度，得到物体区域特征。最后，通过将物体区域特征转化成自上而下的注意力图和物体的细粒度分割信息融合得到最终的物体特征输入到解码网络中。

本方法提出了区域相关性匹配模块，该模块通过提取目标物体的特征来得到物体原型。该原型反映了参考物体的结构化信息，同时能够避免目标物体由于尺寸，视角等形变带来的特征匹配不准确的问题。然后，计算出其与目标像素的相关性。另外，本方法提出了像素相似性模块，该模块利用了查询像素和搜索物体前景和背景之间的相似度来得到细粒度的分割信息，并且，本方法提出了像素和区域融合模块，该模块提出了自上而下的注意力融合模块，将区域特征转化成注意力图和像素特征融合。该机制比传统的直接堆叠特征和自下而上的融合更加有效。本方法能够在保证视频物体分割准确度的前提下，实现快速的推理。

综上，本发明实施例的基于像素和区域特征匹配的快速视频物体分割方法，提取搜索帧和查询帧的特征，根据所述搜索帧和查询帧的特征，计算所述搜索帧和查询帧之间的像素相似性特征，进而，提取所述搜索帧和查询帧之间的区域相关性特征，融合所述像素相似性特征和所述区域相关性特征，得到融合特征，根据所述融合特征确定所述查询帧的掩码类型。能够在保证视频物体分割准确度的前提下，实现快速的推理。

为了实现上述实施例，本发明还提出一种基于像素和区域特征匹配的快速视频物体分割装置。

图8为本发明实施例提供的一种基于像素和区域特征匹配的快速视频物体分割装置的结构示意图。

如图8所示，该基于像素和区域特征匹配的快速视频物体分割装置包括：第一提取模块810、计算模块820、第二提取模块830、融合模块840、确定模块850。

其中，第一提取模块810，用于提取搜索帧和查询帧的特征；

计算模块820，用于根据所述搜索帧和查询帧的特征，计算所述搜索帧和查询帧之间的像素相似性特征；

第二提取模块830，用于提取所述搜索帧和查询帧之间的区域相关性特征；

融合模块840，用于融合所述像素相似性特征和所述区域相关性特征，得到融合特征；

确定模块850，用于根据所述融合特征确定所述查询帧的掩码类型。

需要说明的是，前述对基于像素和区域特征匹配的快速视频物体分割方法实施例的解释说明也适用于该实施例的基于像素和区域特征匹配的快速视频物体分割装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所描述的基于像素和区域特征匹配的快速视频物体分割方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所描述的基于像素和区域特征匹配的快速视频物体分割方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述实施例所描述的基于像素和区域特征匹配的快速视频物体分割方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于像素和区域特征匹配的快速视频物体分割方法,其特征在于，包括以下步骤：

通过网络架构提取搜索帧和查询帧的特征，所述网络架构包括搜索分支和查询分支，所述搜索分支的输入是搜索帧以及标注的搜索帧的掩膜，所述查询分支的输入包括查询帧以及前一帧的掩膜，所述搜索分支和所述查询分支的编码网络共享网络参数；

提取所述搜索帧和查询帧之间的区域相关性特征；

根据所述融合特征确定所述查询帧的掩码类型；

其中，所述提取所述搜索帧和查询帧之间的区域相关性特征，包括：

根据所述搜索帧的掩膜，裁剪物体区域；

根据预设尺寸的池化层对所述物体区域执行池化操作，得到物体特征图；

根据预设的与所述预设尺寸对应的卷积核对所述物体特征图处理，得到物体原型的特征图；

将所述物体原型的特征图与所述查询帧的特征卷积计算，得到所述区域相关性特征。

2.如权利要求1所述的方法，其特征在于，所述计算所述搜索帧和查询帧之间的像素相似性特征，包括：

根据预设的第一公式计算所述搜索帧的像素与所述查询帧的前景像素之间的第一相似性矩阵，以及所述搜索帧的像素与所述查询帧的背景像素之间的第二相似性矩阵；

根据预设的第二公式提取所述查询帧的前景像素中的前k个前景像素，和所述查询帧的背景像素中的前k个背景像素；

堆叠所述k个前景像素和所述k个背景像素的像素特征，获取所述像素相似性特征。

3.如权利要求2所述的方法，其特征在于，

所述第一公式为：

S_f＝{s_ij|j∈m_f},

其中，

为所述第一相似性矩阵，

为所述第二相似性矩阵，m_f表示的是前景的掩膜，i表示的是第i个搜索帧的像素，j表示第j个所述查询帧的像素，n_f是前景像素的个数，n_b是背景像素的个数，hw是图片像素的个数；

所述第二公式为：

P_f＝Top-k(S_f),P_b＝Top-k(S_b)。

4.如权利要求1所述的方法，其特征在于，所述融合所述像素相似性特征和所述区域相关性特征，得到融合特征，包括：

使用1×1卷积将所述区域相关性特征降维到像素特征维度；

将降维后的所述区域相关性特征转化成注意力图；

将所述注意力图与所述像素相似性特征点乘，得到所述融合特征。

5.如权利要求1所述的方法，其特征在于，所述根据所述融合特征确定所述查询帧的掩码类型，包括：

将所述融合特征输入预先训练的解码网络，以得到所述掩码类型。

6.一种基于像素和区域特征匹配的快速视频物体分割装置，其特征在于，包括：

第一提取模块，用于通过网络架构提取搜索帧和查询帧的特征，所述网络架构包括搜索分支和查询分支，所述搜索分支的输入是搜索帧以及标注的搜索帧的掩膜，所述查询分支的输入包括查询帧以及前一帧的掩膜，所述搜索分支和所述查询分支的编码网络共享网络参数；

确定模块，用于根据所述融合特征确定所述查询帧的掩码类型；

其中，所述第二提取模块，还用于：

根据所述搜索帧的掩膜，裁剪物体区域；

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。