CN109711338A

CN109711338A - 利用光流指导特征融合的物体实例分割方法

Info

Publication number: CN109711338A
Application number: CN201811603866.6A
Authority: CN
Inventors: 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-03

Abstract

本发明提供了一种利用光流指导特征融合的物体实例分割方法，对视频帧使用深度神经网络进行光流动作信息提取和特征提取，利用光流携带的动作信息对特征进行融合，对速度精度进行权衡应用。在融合之后，通过后续网络生成类别信息、定位框、分割掩膜信息，进行比对定位框实现追踪。在实际应用中无需先验信息和人工标注，能够对追踪目标进行特定分割淹没标注追踪，分割级别提供了追踪目标更多的信息，最终通过视频中的实例分割技术能够有效解决视频中的物品追踪和定位问题。

Description

利用光流指导特征融合的物体实例分割方法

技术领域

本发明涉及计算机视觉领域，具体地，涉及一种利用光流指导特征融合的物体实例分割方法，尤其是涉及一种无需人工标注等先验信息对视频进行分析，利用携带动作信息的光流指导特征融合的，利用特定分割掩膜标记从而实现物体追踪识别的物体实例分割方法。

背景技术

随着深度学习技术的不断突破，深度学习广泛的在生活中得到了应用。处理视频早先都是人工监视，耗时耗力，还常常因为人为疏忽导致频繁出错。而且在互联网发达的如今，视频数量过于繁多，人们无法高效率的获取视频当中的信息。深度学习可以很好的解决视频当中的图像任务。因为视频可以分解为单帧图片，所有视频处理的方法是基于图片级别的技术突破的。自从2012年提出的Alexnet神经网络赢得了当年图像识别大赛ImageNet的冠军，开启了神经网络的应用热潮，使深度神经网络成为在图像分类的核心算法模型，计算机识别在图片级别的任务上取得了不断的突破，并且最终把识别率提高到了超过人类的程度。借助人工智能的方法，计算机视觉得到了很大的进步，图像分类、图像识别、图像分割都借助深度学习得到了很高的准确率。从分类一整张图的层面上给出一个类别概率到分割每个像素都给出一个概率，计算机对于图片的理解更深更智能，挑战也更大。图像分割又分为语义分割和实例分割，语义分割即为识别一类物体，而实例分割则是每类物体的个体又会被分开。

初期的视频处理方法把视频分割为图片处理，会损失掉大量视频本身携带的上下帧之间的联系信息，并且视频会出现虚焦，模糊，遮挡等问题，在进行单帧处理时会造成很大的误差。视频级别的任务得到了越来越多的关注，从越来越多的相关赛事就可见一斑。视频中的实例分割任务就是其中之一，DAVIS挑战赛进入第三年，各种视频实例分割方法层出不穷，百花齐放。视频中的实例分割任务可以对类与类之间，以及同类之间进行分割，这样就有效的解决了视频中的追踪和定位。在商品视频中，可以用实例分割方法，追踪定位到商品，从而促进商品的销售。在安保场景下，实例分割可以有效的追踪和定位不同的人，获取行为信息。目前视频实例分割中存在半监督测试方法，以及无监督测试方法。视频实例分割中半监督方法有着准确率高的优点，但是泛化能力差，操作繁琐都是在工程应用中无法避免的弊端。无监督方法虽然泛化能力高，但是准确率却不及半监督方法，两种方法各有利弊。但是在实际应用场景中，需要泛化更灵活的无监督测试方法高效快捷的运用到较多场景。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种利用光流指导特征融合的物体实例分割方法。

根据本发明提供的一种利用光流指导特征融合的物体实例分割方法，包括：

特征图提取步骤：对输入的待检索视频帧，使用深度神经网络提取固定大小的浮点数，由所述浮点数组成特征图；

光流图提取步骤：对输入的待检索视频帧，使用深度神经网络提取光流动作信息；

光流指导变换步骤：通过光流动作信息的指导，对特征图进行双线性变换，得到融合特征图；

特征解码步骤：对融合特征图进行解码，得到类别信息、定位框、掩膜信息；

跟踪步骤：对邻近的待检索视频帧的定位框进行重合度比对，得到重合度数值，若重合度数值大于设定阈值，则将物体归为一个追踪对象，对同一个追踪对象的掩膜信息用同一种颜色进行标记，得到一个追踪对象的轨迹掩膜，否则，则将物体归为两个追踪对象。

优选地，所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组，以修复或预测邻近帧的丢失信息。

优选地，采用无监督测试方法，在进行视频处理之前，不需要有任何先验的视频信息，不需要任何前期的人工干预标注。

优选地，生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到，并且通过连续指定标记的掩膜显示。

优选地，所述的利用光流指导特征融合的物体实例分割方法，由下列步骤构成：

跟踪步骤：对邻近的待检索视频帧的定位框进行重合度比对，得到重合度数值，若重合度数值大于设定阈值，则将物体归为一个追踪对象，对同一个追踪对象的掩膜信息用同一种颜色进行标记，得到一个追踪对象的轨迹掩膜，否则，则将物体归为两个追踪对象；

所述特征图提取步骤、光流图提取步骤、光流指导变换步骤、特征解码步骤、跟踪步骤依次执行。

与现有技术相比，本发明具有如下的有益效果：

相比于无监督测试方法，本发明能够利用光流的传递动作信息达到优秀的追踪结果，并通过分割掩膜提供了更为细节的识别信息，并且能够调整结构达到速度和精度的权衡。相比于监督测试方法，能够在不具先验信息的情况下直接使用，泛化性强，使用方便。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的深度学习网络部分的框架流程图；

图2为本发明的回归框比对追踪部分的框架流程图；

图3为本发明的加速模块示意图；

图4为本发明的融合模块示意图；

图5为本发明的结果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

特征解码步骤：对融合特征图进行解码，得到类别信息、定位框、掩膜信息；所述掩膜信息采用淹膜二值信息。

具体地，所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组，以修复或预测邻近帧的丢失信息。

在特征提取之后，通过光流信息指导特征层进行融合，从而实现动作信息的传递。在特征层进行变换，这种处理方式能够针对指定问题进行运行速度和计算精度的灵活权衡。

具体地，采用无监督测试方法，在进行视频处理之前，不需要有任何先验的视频信息，不需要任何前期的人工干预标注，能够直接使用，能够灵活运用到任何场景。

不同于把视频拆分为单帧图片，而是通过光流信息来获取视频帧之间的联系信息，预测或修正丢失的模糊的信息。

具体地，生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到，并且通过连续指定标记的掩膜显示。

如图1所示，整个框架包含三部分网络：特征提取部分，光流提取并指导融合部分和特征解码部分。特征提取是基于深度神经网络的结构用于提取全局特征，光流提取并指导融合部分是将前后帧光流进行提取并指导关键帧提取的特征融合，特征解码部分将融合后的新特征解码得到类别，定位和掩膜信息。

如图2所示，进行之后的比对追踪，图2中的预测结果即为图1最后生成的类别、定位和掩膜信息，其中的定位框是在重叠度中比对的信息。首次识别到的预测结果先放入缓存之中，之后每次生成的定位框都会和上一帧进行比对，重叠度大于阈值的物体掩膜信息被标注同一颜色，并且替换缓存的物体的相应信息。若比对失败，则单独放入缓存等待对比。在一定帧数范围内无法对比替换的定位信息，将会被删除。

在如图1所示的框架下，光流指导下特征变换的方法为根据光流产生网格，并利用光流产生的网格对特征层进行双线性采样得到输出特征。

x_src＝grid[batch,0,y_dst,x_dst]

y_src＝grid[batch,1,y_dst,x_dst]

output[batch,channel,y_dst,x_dst]＝G(data[batch,channel,y_src,x_src])

起初双线性采样出现是为了解决自适应地将数据进行空间变换和对齐(包括平移、缩放、旋转以及其它几何变换等问题)。在本发明中，这个网络可以加在卷积网络中，在分割算法中加入动作信息，在更抽象的级别上对视频模糊丢失的信息进行修复。

根据对算法速度和精确度的不同要求，产生图3，图4两种应用方法。如图3所示框图为本算法的加速模型，在不抽帧的情况下，物体变换、移动上下帧之间差别不是特别大，在这种场景下符合我们使用光流的假设，所以我们可以运行光流指导下的特征层预测来预测下一帧的特征层。该算法在关键帧的时候提取特征进行分割，在非关键帧的情况下预测当前帧与关键帧的光流信息，在光流信息的指导下变换当前帧的特征层，由此得到当前帧的预测特征层，并送回本算法网络进行解码分割。数据由图片和图片信息以及图片关键帧作为输入，在关键帧时特征层以及此帧图片见会被标记，之后临近的非关键帧与被标记关键帧图片一起送入光流网络提取光流并且指导标记的特征层进行变换预测。

图3模型省略临近帧的特征层提取的步骤，节省大量计算时间，能够有效提升算法速度。适用于场景固定，运动平缓的场景。

如图4所示框图为本算法的融合模型，光流提供的动作信息能够补充分割信息，这样对无法分割或者分割效果差的视频帧有效果。具体做法为关键帧的图片与前后数帧的图片一起送入网络之中，分别得出关键帧与临近帧的光流图，之后对临近帧的特征层进行光流指导的变化，和关键帧的特征层进行加权计算，得出最后的融合特征送回解码部分完成分割

图4模型利用上下帧信息对关键帧的信息进行修正并且融合，尤其场景快速变换，运动剧烈的某些场景，如快速场景下因为物体的光影或是角度的问题导致直接分割无法识别，物体由于遮挡或者模糊容易丢失部分或全部的分割对象等。光流融合能够借鉴临近帧的信息正确识别目标。

图5展示了部分视频处理效果，在处理之后，相同的人被标记成同一个颜色的掩膜，能够看到加入了动作信息，利用光流指导，实力分割方法的追踪效果不俗，而且分割掩膜提供了被识别物体更多的细节。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种利用光流指导特征融合的物体实例分割方法，其特征在于，包括：

2.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法，其特征在于，所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组，以修复或预测邻近帧的丢失信息。

3.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法，其特征在于，采用无监督测试方法，在进行视频处理之前，不需要有任何先验的视频信息，不需要任何前期的人工干预标注。

4.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法，其特征在于，生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到，并且通过连续指定标记的掩膜显示。

5.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法，其特征在于，由下列步骤构成：