CN111291663B

CN111291663B - 一种利用时空信息的快速视频目标物体分割方法

Info

Publication number: CN111291663B
Application number: CN202010073352.5A
Authority: CN
Inventors: 陶宇; 郑伟诗; 胡建芳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-06-20
Anticipated expiration: 2040-01-22
Also published as: CN111291663A

Abstract

本发明公开了一种利用时空信息的快速视频目标物体分割方法，包括下述步骤：建立一个神经网络系统，在最前部为深度卷积神经网络CNN，对图像进行基本的特征提取，得到每一帧对应的特征图；连接一个循环神经网络RNN，该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息，以及视频在每一帧时间相关性上所包含的信息，并将这些隐含信息提取到特征中，从而得到视频对应每一帧包含时空信息的新的特征图；连接一个用以进行二分类的神经网络层，对特征图进行二分类，得到前景部分和背景部分，从而实现对视频每一帧的目标物体分割。

Description

一种利用时空信息的快速视频目标物体分割方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种利用时空信息的快速视频目标物体分割方法。

背景技术

视频目标物体分割是当今计算机视觉领域一个常见的任务，在我们日常生活中，也起着十分重要的作用。对于一个场景，如何将我们需要的目标物体和背景分割开来，是很多计算机视觉任务的第一步。

而在视频中，由于物体存在位移，变形，遮挡等等情况的存在，分割任务并不是十分简单，近年来的许多工作都使用光流来模拟整个时间内的像素一致性以获得平滑度。然而，光流标注是一项艰巨的任务，需要大量人力，此外光流估计非常难，因此光流估计的结果往往准确较差。少有的利用时空信息的方法提取隐含信息的能力还十分落后，提取出的信息还十分贫瘠。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种利用时空信息的快速视频目标物体分割方法，使得视频目标物体分割得以快速且准确。

为了达到上述目的，本发明采用以下技术方案：

一种利用时空信息的快速视频目标物体分割方法，包括下述步骤：

建立一个神经网络系统，在最前部为深度卷积神经网络CNN，对图像进行基本的特征提取，得到每一帧对应的特征图；

连接一个循环神经网络RNN，该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息，以及视频在每一帧时间相关性上所包含的信息，并将这些隐含信息提取到特征中，从而得到视频对应每一帧包含时空信息的新的特征图；

连接一个用以进行二分类的神经网络层，对特征图进行二分类，得到前景部分和背景部分，从而实现对视频每一帧的目标物体分割。

作为优选的技术方案，在连接一个循环神经网络RNN的步骤前，还包括下述步骤：

建立无向的循环信息传播图，所述无向的循环信息传播图可近似为4个方向信息传播图的合集G^u＝{G_se,G_sw,G_ne,G_nw}。

作为优选的技术方案，在无向的循环信息传播图的基础上，循环神经网络RNN的公式化表示如下：

其中，

分别代表第t帧的特征图中某像素v_i,t在RNN中对应的连接顶点的输入和输出特征，

代表在第t帧的特征图中某像素v_i,t在RNN中对应的隐含层状态，K代表RNN中时间方向的传播参数，K_d代表RNN中空间方向的传播参数，U_d,V_d是转换输入特征和隐含层特征的参数，b_d,c是偏置参数，

表示组成该局部传播图的顶点的合集，f是激活函数。

作为优选的技术方案，还包括下述步骤：

在所述的无向的循环信息传播图中，将原来空间上各方向相邻节点之间连接，改为各方向每隔N-1个节点相互连接，即将空间上的传播距离由原始的一个单位扩展到N个单位。

作为优选的技术方案，还包括下述步骤：

对CNN网络和RNN网络模型参数进行训练，选取部分关键帧中的前景点为关键点集合A，部分寻常帧中的前景点为正样本点集合P，部分寻常帧中的背景点为负样本点集合N，利用如下的损失函数对网络模型中的参数进行训练优化：

其中，F()为对应点通过该网络中CNN以及RNN部分后提取输出的特征，α为避免分母为0的参数。

作为优选的技术方案，在对特征图进行二分类时，还包括下述步骤：

根据新的目标物体分割任务和视频，利用新问题的第一帧给出的标注，对框架的最后一层二分类层进行连接参数适应调整，形式化为对以下优化问题进行求解，得到参数调整结果：

L(W₁)＝L₊(W₁)+λ₀L_-(W₁)

其中W₁为需要适应参数调整的二分类层参数，

和

为两个还原损失分别对应第一帧中还原正样本点和负样本点。X⁺和X^-分别表示第一帧中正样本和负样本抽取出的特征，Y⁺和Y^-分别表示对应的一位有效编码形式，λ₀用来控制两个还原损失的贡献比例，λ₁为正则化参数。

作为优选的技术方案，还包括下述步骤：

在每一帧的分割结果得出之后，根据前一帧的结果，经过对如下优化问题的求解，对框架的最后一层二分类层进行连接参数适应调整，从而在线提高分割正确率：

L(W_t)＝L₊(W_t)+λ₀L_{_}(W_t)

W_t＝W_t-1+ΔW

其中W_t为经过第t帧调整适应后，当前需要继续适应参数调整的二分类层参数，L₊(W_t)和L_{_}(W_t)为两个还原损失，分别对应第t帧最优分割结果中还原正样本点和负样本点，

用来控制在线学习的参数差范围，α₂是正则项参数。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在训练模型和对新目标进行分类的过程中，都只需要使用原始的标注以及图片原有信息，无需进行其他标注，节省人力时间，且扩展性强。

2、本发明充分利用视频中每一帧所包含的空间信息，不仅通过常规的卷积神经网络CNN对局部空间特征进行提取，同时建立了循环神经网络中的空间传播信息流，能够对空间上包含的深层次信息进行提取，并整合到特征向量中。

3、本发明充分利用视频每一帧之间在时间层次上的信息，通过在循环神经网络的空间传播信息流基础上增加时间信息传播连接，能够对时间上包含的深层次信息进行提取，并整合到特征向量中。

4、本发明通过根据新的分割任务的第一帧标注，对网络参数进行适应性的更新，从而使得对不同新任务的分割效果都能有所提升。

5、本发明通过在对目标任务进行分割的过程中，实时根据当前已进行分割的帧的结果，对网络参数进行实时在线更新，从而使得分割效果进一步提升。

6、本发明在针对新的任务进行参数调整的过程中，只针对最后一层二分类层的参数进行调整，参数量低，速度快；同时实验显示所提出的时空循环网络在分割过程中所占用的时间也很短。即，本方法不仅目标分割效果好，速度也快，可以在二者之间取得很好的平衡。

7、本发明经实验验证，对于视频中有遮挡、变形、快速移动等情形的较难分割的目标，分割效果相对其他算法效果更好。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明的利用时空信息的快速视频目标物体分割方法流程图；

图2是本发明的神经网络系统的架构示意图；

图3是本发明的无向的循环信息传播图；

图4是本发明的时空传播RNN连接示意图；

图5是本发明的将空间上的传播距离由原始的一个单位扩展到N个单位的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1、图2所示，本实施例利用时空信息的快速视频目标物体分割方法，包括下述步骤：

S1、建立一个神经网络系统，在最前部为深度卷积神经网络CNN，对图像进行基本的特征提取，得到每一帧对应的特征图；

S2、连接一个循环神经网络RNN，该循环神经网络RNN用以充分利用视频每一帧空间上的相关性包含的信息，以及视频在每一帧时间相关性上所包含的信息，并将这些隐含信息提取到特征中，从而得到视频对应每一帧包含时空信息的新的特征图；

S3、连接一个用以进行二分类的神经网络层，对特征图进行二分类，得到前景部分和背景部分，从而实现对视频每一帧的目标物体分割。

进一步的，根据图3所示，建立无向的循环信息传播图，这样的传播图可以近似为4个方向信息传播图的合集G^u＝{G_se,G_sw,G_ne,G_nw}。

取其中一个传播方向为例，加上时间的连接，可以得到如图4所示的时空传播RNN连接示意图。

在此基础上，RNN模型的公式化表示如下

其中，

表示组成该局部传播图的顶点的合集，f是激活函数。

可选的，由于长距离的传播会导致传播内容的减弱消逝，在本实施例的方案的基础上可以将空间上的传播距离由原始的一个单位扩展到N个单位，如图5所示。该优化方案并不影响之前的网络框架。

进一步的，在模型参数的训练过程中，选取部分关键帧中的前景点为关键点集合A，部分寻常帧中的前景点为正样本点集合P，部分寻常帧中的背景点为负样本点集合N。利用如下的损失函数对上述提出的网络模型中的参数进行训练优化：

进一步的，根据新的目标物体分割任务和视频，利用新问题的第一帧给出的标注，对框架的最后一层二分类层进行连接参数适应调整。形式化为对以下优化问题进行求解，得到参数调整结果：

L(W₁)＝L₊(W₁)+λ₀L_-(W₁)

其中W₁为需要适应参数调整的二分类层参数，

和

为两个还原损失分别对应第一帧中还原正样本点和负样本点。X⁺和X^-分别表示第一帧中正样本(前景)和负样本(背景)抽取出的特征，Y⁺和Y^-分别表示对应的一位有效(one-hot)编码形式，λ₀用来控制两个还原损失的贡献比例，λ₁为正则化参数。

进一步的，在每一帧的分割结果得出之后，根据前一帧的结果，经过对如下优化问题的求解，对框架的最后一层二分类层进行连接参数适应调整，从而在线提高分割正确率：

L(W_t)＝L₊(W_t)+λ₀L_-(W_t)

W_t＝W_t-1+ΔW

用来控制在线学习的参数差范围，α₂是正则项参数。

通过本实施例的以上步骤，需要分割的视频的结果就得以快速的输出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种利用时空信息的快速视频目标物体分割方法，其特征在于，包括下述步骤：

连接一个用以进行二分类的神经网络层，对特征图进行二分类，得到前景部分和背景部分，从而实现对视频每一帧的目标物体分割；

在连接一个循环神经网络RNN的步骤前，还包括下述步骤：

建立无向的循环信息传播图，所述无向的循环信息传播图可近似为4个方向信息传播图的合集G^u＝{G_se,G_sw,G_ne,G_nw}；

在无向的循环信息传播图的基础上，循环神经网络RNN的公式化表示如下：

其中，

表示组成局部传播图的顶点的合集，f是激活函数；

2.根据权利要求1所述利用时空信息的快速视频目标物体分割方法，其特征在于，还包括下述步骤：

3.根据权利要求1所述利用时空信息的快速视频目标物体分割方法，其特征在于，在对特征图进行二分类时，还包括下述步骤：

L(W₁)＝L₊(W₁)+λ₀L_-(W₁)

其中W₁为需要适应参数调整的二分类层参数，

和

为两个还原损失分别对应第一帧中还原正样本点和负样本点，X⁺和X^-分别表示第一帧中正样本和负样本抽取出的特征，Y⁺和Y^-分别表示对应的一位有效编码形式，λ₀用来控制两个还原损失的贡献比例，λ₁为正则化参数。

4.根据权利要求1所述利用时空信息的快速视频目标物体分割方法，其特征在于，还包括下述步骤：

L(W_t)＝L₊(W_t)+λ₀L_-(W_t)

W_t＝W_t-1+ΔW

其中W_t为经过第t帧调整适应后，当前需要继续适应参数调整的二分类层参数，L₊(W_t)和L_-(W_t)为两个还原损失，分别对应第t帧最优分割结果中还原正样本点和负样本点，

用来控制在线学习的参数差范围，α₂是正则项参数。