CN110097568B - 一种基于时空双分支网络的视频对象检测与分割方法 - Google Patents

一种基于时空双分支网络的视频对象检测与分割方法 Download PDF

Info

Publication number
CN110097568B
CN110097568B CN201910391883.6A CN201910391883A CN110097568B CN 110097568 B CN110097568 B CN 110097568B CN 201910391883 A CN201910391883 A CN 201910391883A CN 110097568 B CN110097568 B CN 110097568B
Authority
CN
China
Prior art keywords
target
network
video
frame
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910391883.6A
Other languages
English (en)
Other versions
CN110097568A (zh
Inventor
宫法明
嵇晓峰
马玉辉
唐昱润
袁向兵
李昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910391883.6A priority Critical patent/CN110097568B/zh
Publication of CN110097568A publication Critical patent/CN110097568A/zh
Application granted granted Critical
Publication of CN110097568B publication Critical patent/CN110097568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空双分支网络的视频对象检测与分割方法,该方法包含:以视频作为数据输入,通过视频序列预处理将其分成多张连续的RGB图像,输入到空间分支网络对相对较少的像素标记前景掩码进行微调以生成对象分割图像信息;然后进入时空联合网络训练的目标检测器进行边界重叠度评分,将所有重叠度大于阈值的候选边界框都输入到目标分类器中以检测目标的类别,输出目标类别的评分;通过目标过滤器精细修正对象的边界以进行分割,最后输出对象在图像中的坐标信息和相应的目标类别,实现了复杂场景下的视频对象检测与分割。本发明的方法能够应用于干扰目标繁多和极其复杂的实际场景中,提高了复杂场景下目标对象检测和分割的准确性。

Description

一种基于时空双分支网络的视频对象检测与分割方法
技术领域
本发明属于计算机图形与图像处理领域,涉及一种基于时空双分支网络的视频对象检测与分割方法。
背景技术
视频对象分割是近年来比较活跃的研究领域,在视频压缩、视频监控和基于视频的目标检测中有重要的应用。视频对象分割可以被定义为将前景对象与背景区域进行分离的二值标记问题,一般是分割整个视频序列中最显著的、最关键的物体。虽然视频对象分割技术各异,但从监督的程度被划分了三类,即无监督式、半监督式以及监督式分割。无监督式分割不需要被分割样本的先验知识,半监督式视频对象分割需要给出要分割对象的一帧或多帧以进行人工标注,监督式的方法主要继承自图像分割,该方法较为不常用。
已有的算法形如变化检测方法、边缘检测和视频显著性检测等算法,与静态图像分割类似,通过从物体的外观,如颜色、纹理、形状等静态信息中学习特征以建立视频对象分割模型,根据这些信息对物体进行分割。考虑到视频与静态图像的本质区别在于视频包含了丰富的运动信息,所以部分方法将运动信息与表观特征信息进行互补,建立了结合运动信息的模型。但是运动信息目前几乎是采用光流的方法进行获取,不能充分地利用视频的时序结构信息,在背景复杂及干扰物存在较多的实际工程场景中,现有方法的检测结果仍有待提高。因此,如何在干扰目标繁多和极其复杂的场景中,充分地利用时间和空间信息进行准确高效的视频对象检测与分割成为一个亟待解决的难题。
发明内容
本发明为了克服上述缺陷,提出了一种基于时空双分支网络的视频对象检测与分割方法,本发明具体步骤如下:
S1,对于一个输入未修剪的视频V,进行视频序列预处理,将其分成K帧,得到视频帧序列的RGB图像,记为V={I1,I2,…,IK};
S2,将连续的RGB视频帧图像输入到空间分支VGG网络对目标检测与分类进行预处理,提取空间维度上的高层特征以生成初始像素级的标记;
S3,通过对相对较少的像素标记前景掩码进行微调,重新利用空间分支VGG网络生成二进制对象分割图像信息;
S4,将连续的视频序列输入时间分支网络以利用时序结构信息,将空间外观图映射到视频帧前景图上以计算每一帧的二进制对象分割;
S5,进入时空联合网络训练的目标检测器,判断是否存在目标对象以及检测出目标对象可能存在的区域,对区域候选边界框和对象真实边界框之间的重叠度进行评分;
S6,将所有重叠度大于阈值的候选边界框都输入到目标分类器中以检测目标的类别,输出目标类别的评分;
S7,再将S6中的目标类别评分和相应的候选边界框输入到目标过滤器中通过精细修正对象的边界以进行分割;
S8,输出对象在图像中的坐标信息和相应的目标类别。
本发明的技术方案特征和改进为:
对于步骤S2,本发明使用的空间分支网络使用原始的VGG网络架构,并将其完全连接层换为卷积层,由此可以提取到多个维度上的特征,该网络允许每一帧中出现多个假设可能的前景区域以供后期过滤阶段进行边界框的筛选,通过生成初始像素级的标记,为下一级检测提供数据。
对于步骤S4,本发明采用的时间分支网络独立地对视频的每一帧进行处理,利用视频包含的时间信息对每一帧都将前一帧的标记前景掩码作为附加信息输入到网络中,为每个带有标记对象的边框给定一个掩码标签,并将它们单独映射到相应的每一视频帧的前景图上以计算每一帧的二进制对象分割。
对于步骤S5,本发明采用由时空联合网络训练的目标检测器,粗略地判断是否存在目标对象以及检测出目标对象可能存在的区域,输出对区域候选边界框和对象真实边界框之间的重叠度评分,不考虑目标类别但仅测量视频片段中是否存在目标对象;此目标是基于此重叠度评分的阈值来确定该区域候选边界框是否有资格显示,通过将边界框之外的所有像素设置为背景来细化二进制分割以及判断是否包含所有前景像素的最小矩形与对象真实边界框重叠度阈值至少为75%,否则就视为无效的边界框,其中,在空间分支网络中目标检测器的损失函数Ls(Xt)如下:
Figure GDA0004171378550000021
式(1)中,j表示前景fg和背景bg的像素位置,yij表示帧t中输入图像X的每个像素的二进制预测,w被计算为前底背景像素比,θ为一个超参数阈值;在优化过程中,算法使用了一个与softmax函数E有关的像素化的交叉熵损失,目的是克服前景和背景区域之间不平衡的像素个数,在时间分支网络中采用的是加权版本的损失函数,即端点误差损失,其损失函数Lf(Xt,Xt+1)表示为:
Figure GDA0004171378550000031
式(2)中,uij和vij分别表示运动输入图像的像素(i,j)从Xt到Xt+1与标准值
Figure GDA0004171378550000032
和/>
Figure GDA0004171378550000033
的网络预测值,通过使用在坐标系t和t+1处的图像,使得计算帧t+1处与帧t处的对象边界分割输出对齐,这样时间和空间的信息就可以自然地结合起来;为了实现上述两个分支网络之间的数据交互以共同预测对象分割和输出,因此,总体损失函数成为新的优化目标,即为式(1)和式(2)损失函数的加权和,L(X)表示为:
L(X)=Ls(Xt)+λLf(Xt,Xt+1) (3)
式(3)中,λ为权重参数,在反向传播过程中,误差损失将在两个分支网络之间的不同规模特征映射上计算以用于最终的预测,例如空间分割网络分支中每个卷积模块的特征首先是向上缩放以匹配外观特征的大小,然后连接到时间网络分支,在融合了网络预测的特性之后,当通道数等于输出通道数时,利用卷积层进一步从空间分割网络和时间网络分支中对误差进行正则化以进行反向传播;对于区域候选边界框和对象真实边界框之间的重叠度的比较有两个度量的主要标准,即区域相似度和轮廓精确度;区域相似度是掩码M和真值G之间的联合交叉点,可以通过区域重合判断标准J来表示:
Figure GDA0004171378550000034
式(4)中,区域相似度是掩码M与真值G之间的交集,即预估分割与ground-truth掩模的交并比,而轮廓精确度是将掩码看成一系列闭合轮廓的集合,并计算基于轮廓的F度量,即准确率和召回率的函数,该值以查全率和查准率为基础,轮廓精确度如下:
Figure GDA0004171378550000035
式(5)中,轮廓精确度F度量分割边界的准确率,而区域相似度度量标注错误像素的数量。
对于步骤S6,本发明利用目标分类器根据相应的特征进行预测分类,预测候选边界框是哪种目标类型的概率以及为背景的概率,输出为K+1类,即带有标签1,2,…,K的目标类别和带有标记0的附加背景类,将IoU大于0.75的作为正样本,小于0.3的作为负样本(背景),对负样本进行采样使得正负样本比例均衡,分类器将通过Softmax层生成归一化的响应向量pi,条件分布表示为P(ci|pi),其中,ci表示类别,对于每个类别n对应的置信度Cn,分类器会计算出一个概率值,其分布为P(bi|ci,pi),bi表示能否完成的指示参数,通过优化分类器的损失函数,定义多类别的统一分类损失L(bi,ci,pi),表示为:
L(bi,ci,pi)=-(logP(ci|pi)+λlogP(bi|ci,pi)) (6)
式(6)中,λ是一个参数,当ci≥1时,λ=1,此外bi,ci的值影响IoU的值,对应关系如下:
Figure GDA0004171378550000041
式(7)中,当ci≥0,bi=1时,表示此时的候选边界框与最接近的ground-truth的IoU至少为0.75,是一个有效的候选框,需要保留;当ci=0时,此时的候选边界框不与任何的ground-truth有所重叠,属于背景,需要移除此候选提案;当ci≥0,bi=0时,表示此时的候选边界框可能超过80%包含在ground-truth中,但是IoU却小于0.3,由于重叠的区域只有一小部分,因此具有较低的IoU值,说明这是一个不完整的候选边界框,需要继续进行拓展与合并以寻找对象目标的边缘区域,最后将所有重叠度大于阈值的候选边界框都输入到目标分类器中以检测目标的类别,输出目标类别的相应评分。
对于步骤S7,本发明在去除背景片段后对剩余的候选边界提议框进行分类,使用特定的目标过滤器来过滤出这些提议框以保证目标边界的完整性和精确性,通过位置回归来优化提议框本身的边界区域;具体而言,通过采用图像分类模型resnet-101将最后两组卷积层替换为扩张的卷积层来增加特征分辨率,这使得只有一个8×R,R表示减少输出的分辨率,而不是32×Rnet,Rnet表示在原始ResNet模型的减少输出分辨率;通过将resnet-101的分类层替换为4个具有不同采样率的平行扩张卷积层,以显式地扩大对象尺度;然后将四个平行层的预测输出相加,损失计算是在输出层中每个像素位置上的交叉熵值的总和,其中真值掩码仅由两个标签即对象前景或背景组成;分类网络采用任意大小的视频帧,并生成相同大小的目标特征图,相应的候选边界框输入到目标过滤器中以精细修正对象的边界以进行分割,通过使用Caffe框架实现训练模型的过程,每个边界提议框最终分类评分的置信度Ssort表示为:
Ssort=Pk×Sc (8)
式(8)中,Pk表示位置回归器对边界提议框K优化后目标在该区域内出现的概率,Sc表示来自图像分类模型评分的输出。
本发明的基于时空双分支网络的视频对象检测与分割方法,解决了现有技术对复杂场景下视频对象检测与分割误差大且实时性差的问题,具有以下优点:
(1)本发明的方法在干扰目标繁多和极其复杂的场景中,充分地利用时间和空间信息进行准确高效的视频对象检测与分割,提高了复杂场景下目标对象检测和分割的准确性;
(2)本发明的方法能够应用于海洋平台这个复杂场景中,实现了视频对象检测与分割的效果,并在特定的实际应用场景中设置了时间序列对象检测和分割任务的通用框架
(3)本发明的方法能够充分利用视频的时序结构和上下文信息,改进了候选边界提议框的生成方法,并简化了后续的分类网络,能够适应任意长度的视频输入。
附图说明
图1为本发明中基于时空双分支网络的视频对象检测与分割方法的流程图。
图2为本发明中时空双分支网络的结构示意图。
图3为本发明中目标过滤器的流程示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
一种基于时空双分支网络的视频对象检测与分割方法,如图1所示,为本发明的基于时空双分支网络的视频对象检测与分割方法的流程图,该方法包含:
S1,视频预处理,以视频信息作为输入,对于一个输入未修剪的视频V,进行视频序列预处理,将其分成K帧,得到视频帧序列的RGB图像,记为V={I1,I2,…,IK},通过数据预处理和样本标签化将视频数据转化为可输入深度网络的图像数据。在数据预处理时进行了数据增强,对每一张训练图片取了9张图像,大小均为原图的1/4用于训练。原始数据来自海上石油生产平台的流媒体服务器,以工作平台作为监控场景,实时监控视频通过微波传输并存储在流媒体服务器中。
S2,初始标记生成,通过使用空间分支网络模型在空间的维度上进行特征提取,空间流从静止的视频帧中进行对象目标的检测。基于外观的通用对象划分为单个帧,然后使用外观模型在训练视频中生成初始像素级的注解,并引导强大的注解来训练一个模型。
S3,对象分割生成,通过对相对较少的像素标记前景掩码进行微调,重新利用空间分支网络生成二进制对象分割图像信息,对视频序列中的帧进行空间域的图像分割,用于分割帧间运动信息,选择对应帧的时间场伪彩色图来表征运动信息,目的是通过学习的方式对多次分割得到的结果进行融合提升。
S4,空间外观映射,将连续的视频序列输入时间分支网络以利用时序结构信息,将空间外观图映射到视频帧前景图上以计算每一帧的二进制对象分割,输出为多组部分对象分割图,经过图像处理后具有空间不变性,当目标发生某种转化后,模型依然能给出同样的正确的结果。网络输入设为U,输出设置为V,通过本地化网络处理后输出一个变化参数
Figure GDA0004171378550000062
表示为/>
Figure GDA0004171378550000063
变化参数可记为6个参数变量,用来映射输入数据和输出数据之间的坐标点的关系,且与图像的平移、旋转和缩放等操作有关,那么仿射变换的过程可表示为:
Figure GDA0004171378550000061
式(9)中,(x,y)为原坐标值,(x′,y′)为经过变换的坐标值,以输出V中的所有坐标点为自变量,以变化参数
Figure GDA0004171378550000064
为参数,做一个矩阵运算来逆推该公式,得到输入U中的坐标点信息。
在网络初始化时,使用小批量随机梯度下降算法来学习网络参数,批量大小设置为256,动量设置为0.9,在测试中设置了较小的学习率。对于空间分支网络,学习速率初始化为0.01,并且每2000次迭代减少到110。
S5,目标检测器判断,使用时空联合网络训练的目标检测器,判断是否存在目标对象以及检测出目标对象可能存在的区域,对区域候选边界框和对象真实边界框之间的重叠度进行评分,时空双分支网络的结构示意图如图2所示,对于标准卷积的检测器在输入图像中进行滑动,每次和输入图像局部区域点乘得到一个输出,而反卷积的检测器在输出图像中进行滑动,每个由一个输入神经元乘以滤波器得到一个输出局部区域。从网络结构中可以看出,网络先从输入的图像对中分别提取前一帧和当前帧的卷积特征,再送入全连接层,最后得到目标重叠度评分后的结果。其中,通常全卷积网络是对称的结构,在最大汇合时需要记下最大值所处局部区域位置,在对应反最大汇合时将对应位置输出置为输入,其余位置补零,反最大汇合可以弥补最大汇合时丢失的空间信息。三列对应于不同大小的感受野(大,中,小),使每个列卷积神经网络的功能对由于透视或不同的图像分辨率造成的目标大小变化是自适应的,整体网络是强大的。用一个1*1检测器的卷积层代替了完全连接的层,因此模型的输入图像可以是任意大小的,避免了失真,网络的直接输出是候选边界框和对象真实边界框之间的重叠度评分。
在重叠度评分的计算过程中,需要定义预测边界框和实际边界框的相交程度,以此作为重叠度评分的计算依据,如果预测边界框单元中不存在目标,则重叠度分数应为零;否则重叠度评分等于预测框和真实目标边界框之间的交集PIA与真实目标框groundtruth的乘积,由此重叠度的定义表示为:表示为:
Figure GDA0004171378550000071
式(10)中,Cr表示置信度,Gr(Object)表示真实目标框,
Figure GDA0004171378550000072
表示预测框和真实目标边界框之间的交集。
S6,目标分类器评分,利用目标分类器根据相应的特征进行预测分类,预测提议段是哪种目标类型的概率以及为背景的概率,输出K+1个类别的评分。当训练分类器时,设置与地面实例重叠的区域提议段,并将IOU高于0.75作为正样本,但是对于负样本选择,当其5%的时间跨度与任何带注释的实例重叠时,会将该提议段视为负样本。此外,将所有带注释的对象实例作为正区域样本,并将视频中没有任何运动的所有随机样本实例作为负区域样本,使用从视频中提取的一系列片段,通过训练的分类器来评估每个片段的类别得分,分数范围是[0,1],那么分数可以理解为片段包含该目标类别的概率。由于本发明的目标是解决海上石油平台情景的具体要求,所以另外的要求是噪声的稳健性和处理长期变化的能力,这可以通过优化分类器的统一分类损失L(bi,ci,pi)=-(logP(ci|pi)+λlogP(bi|ci,pi))得到。
S7,目标过滤器修正,将目标类别评分和相应的候选边界框输入到目标过滤器中通过精细修正对象的边界以进行分割,目标过滤器的流程示意图如图3所示,将视频数据以图像的方式处理,制作数据集,然后通过数据预处理和SVM分类器的方式将干扰因素尽可能多地去除,然后再通过目标检测模型得到结果。其中,SVM分类器起得作用是将先验知识加入判别,经过前期运行测试,发现在这样特殊的场景下柱形管道的误报率极高,所以就选择事先将人员目标和柱形管道通过SVM进行分类,然后将干扰目标剔除,增加目标检测的准确率,解决海上石油平台场景下人员目标检测的问题。
S8,输出对象在图像中的坐标信息和相应的目标类别,即实现了视频序列中对象目标的检测与分割。
综上所述,本发明的基于时空双分支网络的视频对象检测与分割方法在复杂场景下对目标对象进行快速准确的检测与分割,能够应用于目标遮挡严重、目标大小多变不一以及干扰物存在较多的实际场景中,可以很好地处理具有不同时间结构的视频对象,对目标进行准确的判别与分析,可适用于多个领域。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (1)

1.一种基于时空双分支网络的视频对象检测与分割方法,其特征及具体步骤如下:
S1,对于一个输入未修剪的视频V,进行视频序列预处理,将其分成K帧,得到视频帧序列的RGB图像,记为V={I1,I2,…,IK};
S2,将连续的RGB视频帧图像输入到空间分支VGG网络对目标检测与分类进行预处理,提取空间维度上的高层特征以生成初始像素级的标记;
S3,通过对相对较少的像素标记前景掩码进行微调,重新利用空间分支VGG网络生成二进制对象分割图像信息;
S4,将连续的视频序列输入时间分支网络以利用时序结构信息,将空间外观图映射到视频帧前景图上以计算每一帧的二进制对象分割;
S5,进入时空联合网络训练的目标检测器,判断是否存在目标对象以及检测出目标对象可能存在的区域,对区域候选边界框和对象真实边界框之间的重叠度进行评分;
S6,将所有重叠度大于阈值的候选边界框都输入到目标分类器中以检测目标的类别,输出目标类别的评分;
S7,再将S6中的目标类别评分和相应的候选边界框输入到目标过滤器中通过精细修正对象的边界以进行分割;
S8,输出对象在图像中的坐标信息和相应的目标类别;
对于步骤S2,本发明使用的空间分支网络使用原始的VGG网络架构,并将其完全连接层换为卷积层,由此可以提取到多个维度上的特征,该网络允许每一帧中出现多个假设可能的前景区域以供后期过滤阶段进行边界框的筛选,通过生成初始像素级的标记,为下一级检测提供数据;
对于步骤S4,本发明采用的时间分支网络独立地对视频的每一帧进行处理,利用视频包含的时间信息对每一帧都将前一帧的标记前景掩码作为附加信息输入到网络中,为每个带有标记对象的边框给定一个掩码标签,并将它们单独映射到相应的每一视频帧的前景图上以计算每一帧的二进制对象分割;
对于步骤S5,本发明采用由时空联合网络训练的目标检测器,粗略地判断是否存在目标对象以及检测出目标对象可能存在的区域,输出对区域候选边界框和对象真实边界框之间的重叠度评分,不考虑目标类别但仅测量视频片段中是否存在目标对象;此目标是基于此重叠度评分的阈值来确定该区域候选边界框是否有资格显示,通过将边界框之外的所有像素设置为背景来细化二进制分割以及判断是否包含所有前景像素的最小矩形与对象真实边界框重叠度阈值至少为75%,否则就视为无效的边界框,其中,在空间分支网络中目标检测器的损失函数Ls(Xt)如下:
Figure QLYQS_1
式(1)中,j表示前景fg和背景bg的像素位置,yij表示帧t中输入图像X的每个像素的二进制预测,w被计算为前底背景像素比,θ为一个超参数阈值;在优化过程中,算法使用了一个与softmax函数E有关的像素化的交叉熵损失,目的是克服前景和背景区域之间不平衡的像素个数,在时间分支网络中采用的是加权版本的损失函数,即端点误差损失,其损失函数Lf(Xt,Xt+1)表示为:
Figure QLYQS_2
式(2)中,uij和vij分别表示运动输入图像的像素(i,j)从Xt到Xt+1与标准值
Figure QLYQS_3
和/>
Figure QLYQS_4
的网络预测值,通过使用在坐标系t和t+1处的图像,使得计算帧t+1处与帧t处的对象边界分割输出对齐,这样时间和空间的信息就可以自然地结合起来;为了实现上述两个分支网络之间的数据交互以共同预测对象分割和输出,因此,总体损失函数成为新的优化目标,即为式(1)和式(2)损失函数的加权和,L(X)表示为:
L(X)=Ls(Xt)+λLf(Xt,Xt+1) (3)
式(3)中,λ为权重参数,在反向传播过程中,误差损失将在两个分支网络之间的不同规模特征映射上计算以用于最终的预测,例如空间分割网络分支中每个卷积模块的特征首先是向上缩放以匹配外观特征的大小,然后连接到时间网络分支,在融合了网络预测的特性之后,当通道数等于输出通道数时,利用卷积层进一步从空间分割网络和时间网络分支中对误差进行正则化以进行反向传播;对于区域候选边界框和对象真实边界框之间的重叠度的比较有两个度量的主要标准,即区域相似度和轮廓精确度;区域相似度是掩码M和真值G之间的联合交叉点,可以通过区域重合判断标准J来表示:
Figure QLYQS_5
式(4)中,区域相似度是掩码M与真值G之间的交集,即预估分割与ground-truth掩模的交并比,而轮廓精确度是将掩码看成一系列闭合轮廓的集合,并计算基于轮廓的F度量,即准确率和召回率的函数,该值以查全率和查准率为基础,轮廓精确度如下:
Figure QLYQS_6
式(5)中,轮廓精确度F度量分割边界的准确率,而区域相似度度量标注错误像素的数量;
对于步骤S7,本发明在去除背景片段后对剩余的候选边界提议框进行分类,使用特定的目标过滤器来过滤出这些提议框以保证目标边界的完整性和精确性,通过位置回归来优化提议框本身的边界区域;具体而言,通过采用图像分类模型resnet-101将最后两组卷积层替换为扩张的卷积层来增加特征分辨率,这使得只有一个8×R,R表示减少输出的分辨率,而不是32×Rnet,Rnet表示在原始ResNet模型的减少输出分辨率;通过将resnet-101的分类层替换为4个具有不同采样率的平行扩张卷积层,以显式地扩大对象尺度;然后将四个平行层的预测输出相加,损失计算是在输出层中每个像素位置上的交叉熵值的总和,其中真值掩码仅由两个标签即对象前景或背景组成;分类网络采用任意大小的视频帧,并生成相同大小的目标特征图,相应的候选边界框输入到目标过滤器中以精细修正对象的边界以进行分割,通过使用Caffe框架实现训练模型的过程,每个边界提议框最终分类评分的置信度Ssort表示为:
Ssort=Pk×Sc (8)
式(8)中,Pk表示位置回归器对边界提议框K优化后目标在该区域内出现的概率,Sc表示来自图像分类模型评分的输出。
CN201910391883.6A 2019-05-13 2019-05-13 一种基于时空双分支网络的视频对象检测与分割方法 Active CN110097568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910391883.6A CN110097568B (zh) 2019-05-13 2019-05-13 一种基于时空双分支网络的视频对象检测与分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910391883.6A CN110097568B (zh) 2019-05-13 2019-05-13 一种基于时空双分支网络的视频对象检测与分割方法

Publications (2)

Publication Number Publication Date
CN110097568A CN110097568A (zh) 2019-08-06
CN110097568B true CN110097568B (zh) 2023-06-09

Family

ID=67447716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910391883.6A Active CN110097568B (zh) 2019-05-13 2019-05-13 一种基于时空双分支网络的视频对象检测与分割方法

Country Status (1)

Country Link
CN (1) CN110097568B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473185B (zh) * 2019-08-07 2022-03-15 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN115601374B (zh) * 2019-08-22 2023-12-08 杭州德适生物科技有限公司 一种染色体图像分割方法
CN110991485B (zh) * 2019-11-07 2023-04-14 成都傅立叶电子科技有限公司 一种目标检测算法的性能评估方法及系统
CN111209829B (zh) * 2019-12-31 2023-05-02 浙江大学 基于视觉的移动视体静态中小尺度目标识别方法
CN111489372B (zh) * 2020-03-11 2022-10-18 天津大学 基于级联卷积神经网络的视频前背景分离方法
CN111462009B (zh) * 2020-03-31 2023-04-07 上海大学 基于分割矩形区域相似度的出血点预测方法
CN111583288B (zh) * 2020-04-21 2022-12-09 西安交通大学 一种视频多目标关联与分割方法及系统
CN111507286B (zh) * 2020-04-22 2023-05-02 北京爱笔科技有限公司 一种假人检测方法及装置
CN111368848B (zh) * 2020-05-28 2020-08-21 北京同方软件有限公司 一种复杂场景下的文字检测方法
CN111915628B (zh) * 2020-06-24 2023-11-24 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111797778B (zh) * 2020-07-08 2023-06-02 龙岩学院 一种用于breaking街舞主播连麦斗舞的自动评分方法
CN111932545A (zh) * 2020-07-14 2020-11-13 浙江大华技术股份有限公司 图像处理方法、目标计数方法及其相关装置
CN111881840B (zh) * 2020-07-30 2023-09-22 北京交通大学 一种基于图网络的多目标跟踪方法
CN112183618B (zh) * 2020-09-25 2024-03-26 杭州三坛医疗科技有限公司 相似度确定方法和相似度确定装置
CN112380970B (zh) * 2020-11-12 2022-02-11 常熟理工学院 基于局部区域搜索的视频目标检测方法
CN112613568B (zh) * 2020-12-29 2022-08-05 清华大学 基于可见光及红外多光谱图像序列的目标识别方法和装置
CN112927109B (zh) * 2021-01-22 2023-09-26 华南理工大学 一种智能辅助实践实训课程类别的教学系统
CN112836745B (zh) * 2021-02-02 2022-12-09 歌尔股份有限公司 一种目标检测方法和装置
CN113284155B (zh) * 2021-06-08 2023-11-07 京东科技信息技术有限公司 视频目标分割方法、装置、存储介质及电子设备
CN113450320B (zh) * 2021-06-17 2022-11-29 浙江德尚韵兴医疗科技有限公司 一种基于较深网络结构的超声结节分级与良恶性预测方法
CN114998799B (zh) * 2022-06-07 2023-01-13 山东省人工智能研究院 基于全局知识挖掘和前景注意力的交互视频动作检测方法
CN115239657B (zh) * 2022-07-18 2023-11-21 无锡雪浪数制科技有限公司 一种基于深度学习目标分割的工业零件增量识别方法
CN115082461B (zh) * 2022-08-19 2022-11-04 成都中医药大学 一种基于边缘计算的预判过滤方法及装置
CN115953239B (zh) * 2023-03-15 2023-05-26 无锡锡商银行股份有限公司 一种基于多频流网络模型的面审视频场景评估方法
CN116894842B (zh) * 2023-09-08 2023-12-22 南方医科大学南方医院 肿瘤腹腔种植转移病灶图像处理方法及相关装置
CN117354525B (zh) * 2023-12-05 2024-03-15 深圳市旭景数字技术有限公司 一种数字媒体实现高效存储和传输的视频编码方法及系统
CN117857808A (zh) * 2024-03-06 2024-04-09 深圳市旭景数字技术有限公司 一种基于数据分类压缩的高效视频传输方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI348659B (en) * 2007-10-29 2011-09-11 Ind Tech Res Inst Method and system for object detection and tracking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107564032A (zh) * 2017-09-01 2018-01-09 深圳市唯特视科技有限公司 一种基于外观网络的视频跟踪对象分割方法
CN109241829A (zh) * 2018-07-25 2019-01-18 中国科学院自动化研究所 基于时空注意卷积神经网络的行为识别方法及装置

Also Published As

Publication number Publication date
CN110097568A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Mahaur et al. Small-object detection based on YOLOv5 in autonomous driving systems
Xiong et al. Spatiotemporal modeling for crowd counting in videos
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
Long et al. Object detection in aerial images using feature fusion deep networks
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN111931603B (zh) 基于竞合网络的双流卷积网络的人体动作识别系统及方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN113657387B (zh) 基于神经网络的半监督三维点云语义分割方法
Jiang et al. A self-attention network for smoke detection
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN113139896A (zh) 基于超分辨重建的目标检测系统及方法
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
Zhou et al. Large-scale road extraction from high-resolution remote sensing images based on a weakly-supervised structural and orientational consistency constraint network
Yuan et al. Weakly supervised road network extraction for remote sensing image based scribble annotation and adversarial learning
Jiang et al. Mirror complementary transformer network for RGB‐thermal salient object detection
Wang et al. Video background/foreground separation model based on non-convex rank approximation RPCA and superpixel motion detection
Chen et al. Exchange means change: An unsupervised single-temporal change detection framework based on intra-and inter-image patch exchange
Li et al. Boost infrared moving aircraft detection performance by using fast homography estimation and dual input object detection network
Koh et al. CDTS: Collaborative detection, tracking, and segmentation for online multiple object segmentation in videos
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
Zhang et al. Small target detection based on squared cross entropy and dense feature pyramid networks
Deng et al. Text enhancement network for cross-domain scene text detection
Nguyen et al. Smart solution to detect images in limited visibility conditions based convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Gong Faming

Inventor after: Ji Xiaofeng

Inventor after: Ma Yuhui

Inventor after: Tang Yurun

Inventor after: Yuan Xiangbing

Inventor after: Li Xin

Inventor before: Gong Faming

Inventor before: Ma Yuhui

Inventor before: Tang Yurun

Inventor before: Yuan Xiangbing

Inventor before: Li Xin

Inventor before: Li Chuantao

GR01 Patent grant
GR01 Patent grant