CN109711338A - 利用光流指导特征融合的物体实例分割方法 - Google Patents

利用光流指导特征融合的物体实例分割方法 Download PDF

Info

Publication number
CN109711338A
CN109711338A CN201811603866.6A CN201811603866A CN109711338A CN 109711338 A CN109711338 A CN 109711338A CN 201811603866 A CN201811603866 A CN 201811603866A CN 109711338 A CN109711338 A CN 109711338A
Authority
CN
China
Prior art keywords
light stream
tracking
information
action message
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811603866.6A
Other languages
English (en)
Inventor
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201811603866.6A priority Critical patent/CN109711338A/zh
Publication of CN109711338A publication Critical patent/CN109711338A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种利用光流指导特征融合的物体实例分割方法,对视频帧使用深度神经网络进行光流动作信息提取和特征提取,利用光流携带的动作信息对特征进行融合,对速度精度进行权衡应用。在融合之后,通过后续网络生成类别信息、定位框、分割掩膜信息,进行比对定位框实现追踪。在实际应用中无需先验信息和人工标注,能够对追踪目标进行特定分割淹没标注追踪,分割级别提供了追踪目标更多的信息,最终通过视频中的实例分割技术能够有效解决视频中的物品追踪和定位问题。

Description

利用光流指导特征融合的物体实例分割方法
技术领域
本发明涉及计算机视觉领域,具体地,涉及一种利用光流指导特征融合的物体实例分割方法,尤其是涉及一种无需人工标注等先验信息对视频进行分析,利用携带动作信息的光流指导特征融合的,利用特定分割掩膜标记从而实现物体追踪识别的物体实例分割方法。
背景技术
随着深度学习技术的不断突破,深度学习广泛的在生活中得到了应用。处理视频早先都是人工监视,耗时耗力,还常常因为人为疏忽导致频繁出错。而且在互联网发达的如今,视频数量过于繁多,人们无法高效率的获取视频当中的信息。深度学习可以很好的解决视频当中的图像任务。因为视频可以分解为单帧图片,所有视频处理的方法是基于图片级别的技术突破的。自从2012年提出的Alexnet神经网络赢得了当年图像识别大赛ImageNet的冠军,开启了神经网络的应用热潮,使深度神经网络成为在图像分类的核心算法模型,计算机识别在图片级别的任务上取得了不断的突破,并且最终把识别率提高到了超过人类的程度。借助人工智能的方法,计算机视觉得到了很大的进步,图像分类、图像识别、图像分割都借助深度学习得到了很高的准确率。从分类一整张图的层面上给出一个类别概率到分割每个像素都给出一个概率,计算机对于图片的理解更深更智能,挑战也更大。图像分割又分为语义分割和实例分割,语义分割即为识别一类物体,而实例分割则是每类物体的个体又会被分开。
初期的视频处理方法把视频分割为图片处理,会损失掉大量视频本身携带的上下帧之间的联系信息,并且视频会出现虚焦,模糊,遮挡等问题,在进行单帧处理时会造成很大的误差。视频级别的任务得到了越来越多的关注,从越来越多的相关赛事就可见一斑。视频中的实例分割任务就是其中之一,DAVIS挑战赛进入第三年,各种视频实例分割方法层出不穷,百花齐放。视频中的实例分割任务可以对类与类之间,以及同类之间进行分割,这样就有效的解决了视频中的追踪和定位。在商品视频中,可以用实例分割方法,追踪定位到商品,从而促进商品的销售。在安保场景下,实例分割可以有效的追踪和定位不同的人,获取行为信息。目前视频实例分割中存在半监督测试方法,以及无监督测试方法。视频实例分割中半监督方法有着准确率高的优点,但是泛化能力差,操作繁琐都是在工程应用中无法避免的弊端。无监督方法虽然泛化能力高,但是准确率却不及半监督方法,两种方法各有利弊。但是在实际应用场景中,需要泛化更灵活的无监督测试方法高效快捷的运用到较多场景。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种利用光流指导特征融合的物体实例分割方法。
根据本发明提供的一种利用光流指导特征融合的物体实例分割方法,包括:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象。
优选地,所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组,以修复或预测邻近帧的丢失信息。
优选地,采用无监督测试方法,在进行视频处理之前,不需要有任何先验的视频信息,不需要任何前期的人工干预标注。
优选地,生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到,并且通过连续指定标记的掩膜显示。
优选地,所述的利用光流指导特征融合的物体实例分割方法,由下列步骤构成:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象;
所述特征图提取步骤、光流图提取步骤、光流指导变换步骤、特征解码步骤、跟踪步骤依次执行。
与现有技术相比,本发明具有如下的有益效果:
相比于无监督测试方法,本发明能够利用光流的传递动作信息达到优秀的追踪结果,并通过分割掩膜提供了更为细节的识别信息,并且能够调整结构达到速度和精度的权衡。相比于监督测试方法,能够在不具先验信息的情况下直接使用,泛化性强,使用方便。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的深度学习网络部分的框架流程图;
图2为本发明的回归框比对追踪部分的框架流程图;
图3为本发明的加速模块示意图;
图4为本发明的融合模块示意图;
图5为本发明的结果示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种利用光流指导特征融合的物体实例分割方法,包括:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;所述掩膜信息采用淹膜二值信息。
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象。
具体地,所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组,以修复或预测邻近帧的丢失信息。
在特征提取之后,通过光流信息指导特征层进行融合,从而实现动作信息的传递。在特征层进行变换,这种处理方式能够针对指定问题进行运行速度和计算精度的灵活权衡。
具体地,采用无监督测试方法,在进行视频处理之前,不需要有任何先验的视频信息,不需要任何前期的人工干预标注,能够直接使用,能够灵活运用到任何场景。
不同于把视频拆分为单帧图片,而是通过光流信息来获取视频帧之间的联系信息,预测或修正丢失的模糊的信息。
具体地,生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到,并且通过连续指定标记的掩膜显示。
优选地,所述的利用光流指导特征融合的物体实例分割方法,由下列步骤构成:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象;
所述特征图提取步骤、光流图提取步骤、光流指导变换步骤、特征解码步骤、跟踪步骤依次执行。
如图1所示,整个框架包含三部分网络:特征提取部分,光流提取并指导融合部分和特征解码部分。特征提取是基于深度神经网络的结构用于提取全局特征,光流提取并指导融合部分是将前后帧光流进行提取并指导关键帧提取的特征融合,特征解码部分将融合后的新特征解码得到类别,定位和掩膜信息。
如图2所示,进行之后的比对追踪,图2中的预测结果即为图1最后生成的类别、定位和掩膜信息,其中的定位框是在重叠度中比对的信息。首次识别到的预测结果先放入缓存之中,之后每次生成的定位框都会和上一帧进行比对,重叠度大于阈值的物体掩膜信息被标注同一颜色,并且替换缓存的物体的相应信息。若比对失败,则单独放入缓存等待对比。在一定帧数范围内无法对比替换的定位信息,将会被删除。
在如图1所示的框架下,光流指导下特征变换的方法为根据光流产生网格,并利用光流产生的网格对特征层进行双线性采样得到输出特征。
xsrc=grid[batch,0,ydst,xdst]
ysrc=grid[batch,1,ydst,xdst]
output[batch,channel,ydst,xdst]=G(data[batch,channel,ysrc,xsrc])
起初双线性采样出现是为了解决自适应地将数据进行空间变换和对齐(包括平移、缩放、旋转以及其它几何变换等问题)。在本发明中,这个网络可以加在卷积网络中,在分割算法中加入动作信息,在更抽象的级别上对视频模糊丢失的信息进行修复。
根据对算法速度和精确度的不同要求,产生图3,图4两种应用方法。如图3所示框图为本算法的加速模型,在不抽帧的情况下,物体变换、移动上下帧之间差别不是特别大,在这种场景下符合我们使用光流的假设,所以我们可以运行光流指导下的特征层预测来预测下一帧的特征层。该算法在关键帧的时候提取特征进行分割,在非关键帧的情况下预测当前帧与关键帧的光流信息,在光流信息的指导下变换当前帧的特征层,由此得到当前帧的预测特征层,并送回本算法网络进行解码分割。数据由图片和图片信息以及图片关键帧作为输入,在关键帧时特征层以及此帧图片见会被标记,之后临近的非关键帧与被标记关键帧图片一起送入光流网络提取光流并且指导标记的特征层进行变换预测。
图3模型省略临近帧的特征层提取的步骤,节省大量计算时间,能够有效提升算法速度。适用于场景固定,运动平缓的场景。
如图4所示框图为本算法的融合模型,光流提供的动作信息能够补充分割信息,这样对无法分割或者分割效果差的视频帧有效果。具体做法为关键帧的图片与前后数帧的图片一起送入网络之中,分别得出关键帧与临近帧的光流图,之后对临近帧的特征层进行光流指导的变化,和关键帧的特征层进行加权计算,得出最后的融合特征送回解码部分完成分割
图4模型利用上下帧信息对关键帧的信息进行修正并且融合,尤其场景快速变换,运动剧烈的某些场景,如快速场景下因为物体的光影或是角度的问题导致直接分割无法识别,物体由于遮挡或者模糊容易丢失部分或全部的分割对象等。光流融合能够借鉴临近帧的信息正确识别目标。
图5展示了部分视频处理效果,在处理之后,相同的人被标记成同一个颜色的掩膜,能够看到加入了动作信息,利用光流指导,实力分割方法的追踪效果不俗,而且分割掩膜提供了被识别物体更多的细节。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (5)

1.一种利用光流指导特征融合的物体实例分割方法,其特征在于,包括:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象。
2.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法,其特征在于,所述提取光流动作信息能够将带有动作信息的光流提取并用来指导特征图空间变换重组,以修复或预测邻近帧的丢失信息。
3.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法,其特征在于,采用无监督测试方法,在进行视频处理之前,不需要有任何先验的视频信息,不需要任何前期的人工干预标注。
4.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法,其特征在于,生成的追踪结果是通过变换后的特征图解码得到的回归框比对得到,并且通过连续指定标记的掩膜显示。
5.根据权利要求1所述的利用光流指导特征融合的物体实例分割方法,其特征在于,由下列步骤构成:
特征图提取步骤:对输入的待检索视频帧,使用深度神经网络提取固定大小的浮点数,由所述浮点数组成特征图;
光流图提取步骤:对输入的待检索视频帧,使用深度神经网络提取光流动作信息;
光流指导变换步骤:通过光流动作信息的指导,对特征图进行双线性变换,得到融合特征图;
特征解码步骤:对融合特征图进行解码,得到类别信息、定位框、掩膜信息;
跟踪步骤:对邻近的待检索视频帧的定位框进行重合度比对,得到重合度数值,若重合度数值大于设定阈值,则将物体归为一个追踪对象,对同一个追踪对象的掩膜信息用同一种颜色进行标记,得到一个追踪对象的轨迹掩膜,否则,则将物体归为两个追踪对象;
所述特征图提取步骤、光流图提取步骤、光流指导变换步骤、特征解码步骤、跟踪步骤依次执行。
CN201811603866.6A 2018-12-26 2018-12-26 利用光流指导特征融合的物体实例分割方法 Pending CN109711338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811603866.6A CN109711338A (zh) 2018-12-26 2018-12-26 利用光流指导特征融合的物体实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811603866.6A CN109711338A (zh) 2018-12-26 2018-12-26 利用光流指导特征融合的物体实例分割方法

Publications (1)

Publication Number Publication Date
CN109711338A true CN109711338A (zh) 2019-05-03

Family

ID=66258435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811603866.6A Pending CN109711338A (zh) 2018-12-26 2018-12-26 利用光流指导特征融合的物体实例分割方法

Country Status (1)

Country Link
CN (1) CN109711338A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN112347852A (zh) * 2020-10-10 2021-02-09 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
WO2021180030A1 (zh) * 2020-03-09 2021-09-16 北京灵汐科技有限公司 行为识别方法及系统、电子设备和计算机可读存储介质
CN113421231A (zh) * 2021-06-08 2021-09-21 杭州海康威视数字技术股份有限公司 一种出血点检测方法、装置及系统
CN114549867A (zh) * 2022-02-16 2022-05-27 深圳市赛为智能股份有限公司 闸机逃票检测方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705324A (zh) * 2017-10-20 2018-02-16 中山大学 一种基于机器学习的视频目标检测方法
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN108320020A (zh) * 2018-02-07 2018-07-24 深圳市唯特视科技有限公司 一种基于双向光流的端到端无监督学习方法
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705324A (zh) * 2017-10-20 2018-02-16 中山大学 一种基于机器学习的视频目标检测方法
CN108242062A (zh) * 2017-12-27 2018-07-03 北京纵目安驰智能科技有限公司 基于深度特征流的目标跟踪方法、系统、终端及介质
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN108320020A (zh) * 2018-02-07 2018-07-24 深圳市唯特视科技有限公司 一种基于双向光流的端到端无监督学习方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN110378348B (zh) * 2019-07-11 2021-07-09 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
WO2021180030A1 (zh) * 2020-03-09 2021-09-16 北京灵汐科技有限公司 行为识别方法及系统、电子设备和计算机可读存储介质
CN112347852A (zh) * 2020-10-10 2021-02-09 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件
CN112347852B (zh) * 2020-10-10 2022-07-29 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件
CN112529934A (zh) * 2020-12-02 2021-03-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN112529934B (zh) * 2020-12-02 2023-12-19 北京航空航天大学杭州创新研究院 多目标追踪方法、装置、电子设备和存储介质
CN113421231A (zh) * 2021-06-08 2021-09-21 杭州海康威视数字技术股份有限公司 一种出血点检测方法、装置及系统
CN113421231B (zh) * 2021-06-08 2023-02-28 杭州海康威视数字技术股份有限公司 一种出血点检测方法、装置及系统
CN114549867A (zh) * 2022-02-16 2022-05-27 深圳市赛为智能股份有限公司 闸机逃票检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109711338A (zh) 利用光流指导特征融合的物体实例分割方法
Aberdam et al. Sequence-to-sequence contrastive learning for text recognition
Liu et al. Survey of video based small target detection
CN110097131B (zh) 一种基于对抗协同训练的半监督医疗图像分割方法
CN109829443A (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110363252A (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN106960206A (zh) 字符识别方法和字符识别系统
CN107704862A (zh) 一种基于语义实例分割算法的视频对象分割方法
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
CN106570464A (zh) 一种快速处理人脸遮挡的人脸识别方法及装置
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
CN103336954A (zh) 一种视频中的台标识别方法和装置
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
Li et al. Gated auxiliary edge detection task for road extraction with weight-balanced loss
Tao et al. CENet: A channel-enhanced spatiotemporal network with sufficient supervision information for recognizing industrial smoke emissions
CN115661932A (zh) 一种垂钓行为检测方法
Katircioglu et al. Self-supervised human detection and segmentation via background inpainting
Yang et al. Deep learning network model based on fusion of spatiotemporal features for action recognition
CN114266952A (zh) 基于深监督的实时语义分割方法
Zhou et al. A deep learning algorithm for fast motion video sequences based on improved codebook model
Xiong et al. Distortion map-guided feature rectification for efficient video semantic segmentation
Xia et al. Application of yolov7 and transformer structures to small object (license plate) detection in complex traffic scenes
Nguyen et al. GAN-Based Data Augmentation and Pseudo-label Refinement for Unsupervised Domain Adaptation Person Re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503

RJ01 Rejection of invention patent application after publication