CN111462132A - 一种基于深度学习的视频物体分割方法及系统 - Google Patents
一种基于深度学习的视频物体分割方法及系统 Download PDFInfo
- Publication number
- CN111462132A CN111462132A CN202010200661.4A CN202010200661A CN111462132A CN 111462132 A CN111462132 A CN 111462132A CN 202010200661 A CN202010200661 A CN 202010200661A CN 111462132 A CN111462132 A CN 111462132A
- Authority
- CN
- China
- Prior art keywords
- video
- deep learning
- segmentation
- frame
- video object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 137
- 238000013135 deep learning Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 7
- 230000003993 interaction Effects 0.000 description 11
- 238000011160 research Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度学习的交互式视频目标分割方法和系统,一种基于深度学习的视频物体分割方法,包括:S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域;S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。在Davis视频数据集上取得了不错的分割结果。
Description
方法领域
本发明属于视频物体分割方法领域,具体涉及一种基于深度学习的视频物体分割方法及系统。
背景方法
视觉感知是人类获取信息的主要途径,人们通过快速分析从视觉系统获取到的大量图像,从中抽取主要信息并指导人们进行分析判断。近年来,随着计算机方法的发展和应用的多样化,人们对图像尤其是连续的视频图像序列的需求越来越大,这也激发了人们对视频图像处理方法不断研究的兴趣。
视频分割是视频处理研究的基础和重点,它将视频序列图像按一定的标准分割成不同的区域,并从中提取出人们感兴趣的或有一定意义的实体,这些实体通常被称为视频对象(Video Object)。视频序列中运动物体的分割主要是提取出场景中的运动实体。这一过程借助模式识别、计算机视觉、图像处理等相关领域的知识使底层的视频处理过渡到更高层次的视频分析和理解,它在军事方法、机器人视觉导航、模式识别、智能监控、医疗诊断等领域得到广泛应用。特别是在新一代视频编码标准提出和多媒体应用多样化后,序列图像中运动物体的分割在视频应用中更普遍,由此也引起了人们对这一研究领域的更多关注。
目前,传统的视频分割算法有高斯背景模型,贝叶斯统计模型,时空域的马尔可夫随机场模型等。对视频序列建立合适的数学模型,可以为运动物体的分割提供良好的理论基础,从而得到符合要求的语义物体。但由于应用环境的复杂多样和应用要求的变化,在视频序列中分割运动对象仍是一项极具挑战性的任务,也还存在一些亟待解决的难点。视频场景中,光照、亮度等变化对现有的运动物体分割算法影响较大,在背景复杂、摄像机旋转、物体运动形态变换等情况下,分割效果也不尽理想。同时,场景中物体的投射阴影也极大地影响了运动物体分割的精度。
深度学习在多个领域里都取得了不错的成绩。卷积神经网络在物体分类上的应用取得了巨大的成功。目前,CV学术界在视频物体分割方面的研究主要分为两个方向:(1)半监督视频物体分割(2)无监督视频物体分割。
其中,学术界更倾向于研究半监督视频物体分割,因为这是视频物体分割的最基础算法,也是比较纯粹的一个研究点。在半监督视频物体分割中,给定用户感兴趣物体在视频第一帧图片上的分割区域,算法来获取在后续帧上的物体分割区域。半监督视频物体分割由于其需要第一帧物体区域的ground-truth。无监督视频物体分割(亦称作视频显著性检测)寻找并分割视频中的主要目标。这意味着算法需要自行决定哪个物体才是主要的。
发明内容
针对现有方法存在的不足,本发明的目的在于,提供一种基于深度学习的视频物体分割方法及系统,解决现有方法中存在的如下问题:对于半监督视频物体分割,需要第一帧物体区域的ground-truth,通常是由人工进行第一帧的标注,然而人工标注费时费力,且无法得到统一。在无监督视频物体分割中,物体显著性是主观概念,不同人之间存在一定的歧义。
为解决上述问题,本发明给出的技术方案为:
一种基于深度学习的视频物体分割方法,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
可选的,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
可选的,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
可选的,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
一种基于深度学习的视频物体分割系统,该系统写入基于深度学习的视频物体分割算法,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
可选的,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
可选的,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
可选的,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
本发明与现有方法相比,具有如下方法效果:
本发明首先由用户对初始帧中感兴趣的物体进行画框标注;通过交互式的图像算法,分割得到感兴趣的物体在该帧图像上的物提区域。采用半监督视频物体分割的思想,将其放入网络中进行训练。本发明采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
本发明是结合了人机交互的分割算法,首先避免人工手动标注第一帧的ground-truth,节省人力时间;后续的分割网络中将视频对象分割作为每帧分割问题进行投射,与主流方法相比不需要考虑视频的时间一致性
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。
图1为本发明基于深度学习的视频物体分割方法的流程图;
图2为本发明基于深度学习的视频物体分割方法分割实例流程图;
图3为分割网络结构图;
图4为本发明基于深度学习的视频物体分割方法分步训练过程;
图5为CRFs示意图;
图6为本发明一次交互与两次交互的对比实验结果。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
本发明的目的在于,提供一种基于深度学习的交互式视频物体分割方法。在交互式视频物体分割中,输入不是第一帧物体的ground-truth,而是视频任意一帧中物体的用户交互信息。用户交互信息可以是物体bounding box、物体区域的划线、外边缘的极值点等。通过利用用户少量交互,逐步提高视频物体分割正确率,提升用户观感体验。
本发明给出了基于深度学习的视频物体分割方法,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
在本公开中,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
在本公开中,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
在本公开中,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
本发明还给出了基于深度学习的视频物体分割系统,该系统写入本发明的基于深度学习的视频物体分割算法。
实施例一:
本发明公开了一种基于网络标签与显著区域的图像检索方法,如图1所示,包括以下步骤:
步骤1,首先由用户对初始帧中感兴趣的物体进行画框标注;
步骤2,根据用户输入的标注信息,利用交互式图像物体分割算法—grubcut分割出物体在该帧图像上的物体区域;
Grubcut算法实现:采用该论文中的方法进行,论文信息为:Tang M,Gorelick L,Veksler O,et al.GrabCut inOne Cut[C]//IEEE International Conference onComputer Vision.IEEE ComputerSociety,2013:1769-1776.
分割网络具体实现:
网络模型采用深度学习方法做分割结合传统机器学习算法对分割结果进行后处理,分割网络的具体结构如表1所示。
表1
Name | Parameter | Output Size |
Conv3-64 | 64,3×3 | n×n×64 |
Conv3-64 | 64,3×3 | n×n×64 |
maxpooling | 2×2,2×2 | n/2×n/2×64 |
Conv3-128 | 128,3×3 | n/2×n/2×128 |
Conv3-128 | 128,3×3 | n/2×n/2×128 |
maxpooling | 2×2,2×2 | n/4×n/4×128 |
Conv3-256 | 256,3×3 | n/4×n/4×256 |
Conv3-256 | 256,3×3 | n/4×n/2×256 |
Conv3-256 | 256,3×3 | n/4×n/4×256 |
maxpooling | 2×2,2×2 | n/8×n/8×256 |
Conv3-512 | 512,3×3 | n/8×n/8×512 |
Conv3-512 | 512,3×3 | n/8×n/8×512 |
Conv3-512 | 512,3×3 | n/8×n/8×512 |
maxpooling | 2×2,2×2 | n/16×n/16×512 |
Conv3-512 | 512,3×3 | n/16×n/16×512 |
Conv3-512 | 512,3×3 | n/16×n/16×512 |
Conv3-512 | 512,3×3 | n/16×n/16×612 |
maxpooling | 2×2,2×2 | n/32×n/32×512 |
(1)网络结构,如图3所示;
基于VGG网络,对其进行了精确修改局部密集预测。全连接分类所需的图层被删除,并且进行有效的图像到图像推断。VGG体系结构由卷积组组成加上整流线性单位(ReLU)层,分为5个stage。第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512。每个stage之间通过池化操作对特征图进行下采样操作。连接池化层前的卷积层来形成跳跃路径。将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数:
损失函数是用来评价模型的预测值与数据集的真值(ground truth)之间的差异的。方差损失函数是常用的损失函数L,该损失函数常用于线性回归,如下式所示:
其中,y为真值,a为神经元实际输出,a=σ(z),z=∑Wj×Xj+b。在神经网络的训练过程中,w和b数值的迭代是通过梯度下降算法来进行的,在z的大部分取值范围内Sigmoid函数的一阶导数接近于0,所以σ′(z)的值会很小,导致w和b值的改变非常的慢。这就造成了方差损失函数一个明显的缺点:参数更新缓慢,导致训练速度过慢,训练结果差。
所以针对端到端的图像分割,选用了交叉熵代价函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量,a=σ(z),z=∑ωj×Xj+b。
交叉熵代价函数具有以下两个性质:(1)非负性,优化的目标就是将代价函数最小;(2)当a和y相差不大时,代价函数约等于0。分别对ωj和b求导:
参数更新的速度只与σ(z)-y有关,即更新速度随误差的增大而增大。从而克服了方差代价函数参数更新缓慢的问题。
解码阶段使用转置卷积,通过上采样将图像恢复到来本大小。使用skip结构融合多层输出,底层网络可以预测更多的位置信息,提高分割精度。
(2)网络训练过程
如图4中a所示,架构的基础CNN在ImageNet上进行了预训练以进行图像标记,被证明是对其他任务的很好初始化。未经过进一步训练,网络无法进行视频序列分割。因此,进一步使用训练集DAVIS中的二值mask训练成新的全卷积网络,使网络学习如何从背景中分割出前景物体的形状等,如图4中b所示。现在,每一个像素都可以被分类成前景或背景。在网络可用的情况下,可以继续执行的主要任务:分割视频中的特定实体。结合给定的视频序列和通过步骤2得到的分割结果。通过进一步训练网络来进行针对特定的图像的分割,然后使用新的权重在整个序列上进行测试,如图4中c所示。因此,方法受到微调时间的影响。通过实验可以发现,迭代次数越多,效果更好,但所需时间更长,从而用户将不得不等待结果。
(3)分割结果后处理(使用crfs对分割网络结果进行后处理,提高分割精度)
全连接CRFs是在目前深度学习图像分割应用中常用的一种图像后处理方式,它是CRFs的改进模式,能够结合原始影像中所有像素之间的关系对深度学习得到的分类结果进行处理,优化分类图像中粗糙和不确定性的标记,修正细碎的错分区域,同时得到更细致的分割边界。条件随机场如图5所示。
物体通常由较大的空间相邻区域表示,每个区域都有一个类别标签xi和一个对应的观测值yi,因此无向图中的每个点都成为某个节点。使用与变量的最终关系作为边缘连接,形成条件随机场。最终目标是使用观测值yi推断此像素xi最初拥有的类别标签。
全连接条件随机场符合吉布斯分布,如下公式所示:
其中x是观测值,E(X|I)是能量函数,该能量函数由一元势函数和二元势函数构成,如下公式所示:
其中的一元势函数用于衡量当像素点i的观测值yi为时,该像素点属于类别xi标签的概率,来自卷积神经网络网络的后端输出。二元势函数用于衡量两事件同时发生的概率p(xi,yi),简单来说就是,希望两个相邻的像素点,如果颜色值yi、yj非常接近,那么这两个像素点xi、xj属于同一个类别的概率应该比较大才对;反之如果颜色差异比较大,那么分割的结果从这两个像素点裂开的概率应该比较大才对。这一个能量项正是为了让的分割结果尽量从图像边缘的地方裂开,也就是为了弥补前面所说的卷积神经网络分割的分类目标边界模糊的问题。
步骤4,然后,用户检查分割结果,在分割较差帧上,给出新的交互信息;算法根据新的交互信息,修改该帧图像上的分割结果;具体为,通过人眼观察,如图2,网络错误将新出现的车辆当作目标进行分割,对这一帧图像重新进行标注,用户对分割目标重新画框标注;根据用户新的交互信息,grubcut算法修改该帧图像上的分割结果,重新通过半监督视频物体分割算法修正其他帧的结果;
步骤5,重复步骤3和4,直到视频物体分割结果让用户满意。
图6(a)为Davis数据集上一个视频序列一次交互的分割结果,当视频进行到第36帧时,出现一个新的车辆,网络错误的将其当做目标分割。于是增加一次交互,修正第36帧的结果,重新利用分割网络向视频其他帧图像逐帧传递,修正其他帧结果。由图6(b)所示为两次人工交互的分割结果。
本实施例实验结果如下:
1、数据集选择
DAVIS是一个像素完美匹配标注的数据集。它的目标是重建真实的视频场景,如摄像机抖动、背景混杂、遮挡以及其它复杂状况。共包含了50个视频序列,选择其中30个视频序列作为训练集,剩下20个作为测试数据集。
2、评估方法
IoU值是目标检测的评价体系中的一个重要指标,即模型产生的目标窗口和原始标记窗口的交叠率。对于视频分割,IoU值表示分割结果与Ground Truth的交集比上这两者的并集,即为分割的准确率IoU,计算方法如式:
上式中,S表示分割结果,SGT表示ground-truth。
由于本发明是最终在Davis上20个测试集以平均每秒1.5帧的分割速度得到74.8%的mIoU。选择牺牲一定精度的方式来提高分割速度,以平均每秒11帧的速度获得了68.8%的mIoU。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (8)
1.一种基于深度学习的视频物体分割方法,其特征在于,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
2.根据权利要求1所述的基于深度学习的视频物体分割方法,其特征在于,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
3.根据权利要求1或2所述的基于深度学习的视频物体分割方法,其特征在于,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
4.根据权利要求3所述的基于深度学习的视频物体分割方法,其特征在于,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
5.一种基于深度学习的视频物体分割系统,其特征在于,该系统写入基于深度学习的视频物体分割算法,包括:
S1:待处理视频以帧为分析单位,用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息;
S2:根据初始标注信息,利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割,再利用基于深度学习的半监督视频物体分割算法逐帧传递,得到所有帧图像的目标物体区域为视频物体分割结果。
6.根据权利要求5所述的基于深度学习的视频物体分割系统,其特征在于,用户对视频物体分割结果中的所有帧图像进行检查,当出现帧图像的错误分割结果时,循环运行S1和S2的步骤,直至视频中所有帧图像的分割结果均正确。
7.根据权利要求5或6所述的基于深度学习的视频物体分割系统,其特征在于,基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想,通过传统图割算法得到用户所标注的目标物体区域,然后将目标物体区域与视频序列放入神经网络中训练;
所述的神经网络为全卷机神经网络,全卷机神经网络结构分为编码和解码阶段:编码阶段通过对VGG网络结构进行改进,删除全连接层,改为卷积层保留特征信息,添加新的损失交叉熵函数,采用深度学习结合概率图模型,在后端使用CRFs优化前端输出,得到最终分割结果图。
8.根据权利要求7所述的基于深度学习的视频物体分割系统,其特征在于,全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层,分为5个stage;第一个stage包含两个Conv3-64,第二个stage包含2个Conv3-128,第三个stage包含3个Conv3-256,第四个stage包含3个Conv3-512,第四个stage包含3个Conv3-512;每个stage之间通过池化操作对特征图进行下采样操作;连接池化层前的卷积层来形成跳跃路径;将来自不同跳跃路径的特征图连接起来,形成一个具有不同详细层信息的立方体,将特征图线性融合到一个图像维度大小相同的单个输出上,并为它分配一个新的损失函数L:
其中y为真值,a为神经元实际输出,n为训练集样本容量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200661.4A CN111462132A (zh) | 2020-03-20 | 2020-03-20 | 一种基于深度学习的视频物体分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200661.4A CN111462132A (zh) | 2020-03-20 | 2020-03-20 | 一种基于深度学习的视频物体分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111462132A true CN111462132A (zh) | 2020-07-28 |
Family
ID=71685676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010200661.4A Pending CN111462132A (zh) | 2020-03-20 | 2020-03-20 | 一种基于深度学习的视频物体分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462132A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288755A (zh) * | 2020-11-26 | 2021-01-29 | 深源恒际科技有限公司 | 基于视频的车辆外观部件深度学习分割方法和系统 |
CN112784750A (zh) * | 2021-01-22 | 2021-05-11 | 清华大学 | 基于像素和区域特征匹配的快速视频物体分割方法和装置 |
CN112861830A (zh) * | 2021-04-13 | 2021-05-28 | 北京百度网讯科技有限公司 | 特征提取方法、装置、设备、存储介质以及程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014026152A2 (en) * | 2012-08-10 | 2014-02-13 | Assurerx Health, Inc. | Systems and methods for pharmacogenomic decision support in psychiatry |
CN108109160A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于深度学习的免交互式GrabCut舌体分割方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
-
2020
- 2020-03-20 CN CN202010200661.4A patent/CN111462132A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014026152A2 (en) * | 2012-08-10 | 2014-02-13 | Assurerx Health, Inc. | Systems and methods for pharmacogenomic decision support in psychiatry |
CN108109160A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于深度学习的免交互式GrabCut舌体分割方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
Non-Patent Citations (2)
Title |
---|
郑宝玉;王雨;吴锦雯;周全;: "基于深度卷积神经网络的弱监督图像语义分割" * |
霍达;马诗源;: "结合全卷积网络的无监督视频目标分割" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288755A (zh) * | 2020-11-26 | 2021-01-29 | 深源恒际科技有限公司 | 基于视频的车辆外观部件深度学习分割方法和系统 |
CN112784750A (zh) * | 2021-01-22 | 2021-05-11 | 清华大学 | 基于像素和区域特征匹配的快速视频物体分割方法和装置 |
CN112784750B (zh) * | 2021-01-22 | 2022-08-09 | 清华大学 | 基于像素和区域特征匹配的快速视频物体分割方法和装置 |
CN112861830A (zh) * | 2021-04-13 | 2021-05-28 | 北京百度网讯科技有限公司 | 特征提取方法、装置、设备、存储介质以及程序产品 |
CN112861830B (zh) * | 2021-04-13 | 2023-08-25 | 北京百度网讯科技有限公司 | 特征提取方法、装置、设备、存储介质以及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
Li et al. | Unsupervised video object segmentation with motion-based bilateral networks | |
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
Von Stumberg et al. | Gn-net: The gauss-newton loss for multi-weather relocalization | |
Han et al. | Dynamic scene semantics SLAM based on semantic segmentation | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN111462132A (zh) | 一种基于深度学习的视频物体分割方法及系统 | |
CN112836597B (zh) | 基于级联并行卷积神经网络的多手姿态关键点估计方法 | |
CN113449594A (zh) | 一种多层网络组合的遥感影像地类语义分割与面积计算方法 | |
CN113657387B (zh) | 基于神经网络的半监督三维点云语义分割方法 | |
CN112395957A (zh) | 一种针对视频目标检测的在线学习方法 | |
CN109974743A (zh) | 一种基于gms特征匹配及滑动窗口位姿图优化的rgb-d视觉里程计 | |
Xue et al. | Boundary-induced and scene-aggregated network for monocular depth prediction | |
CN112465021B (zh) | 基于图像插帧法的位姿轨迹估计方法 | |
CN113052755A (zh) | 一种基于深度学习的高分辨率图像智能化抠图方法 | |
CN116363374B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN116310128A (zh) | 基于实例分割与三维重建的动态环境单目多物体slam方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
Xu et al. | Crosspatch-based rolling label expansion for dense stereo matching | |
CN111968155A (zh) | 一种基于分割目标掩模更新模板的目标跟踪方法 | |
CN109215047A (zh) | 基于深海视频的运动目标检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20231027 |
|
AD01 | Patent right deemed abandoned |