CN111583288B

CN111583288B - 一种视频多目标关联与分割方法及系统

Info

Publication number: CN111583288B
Application number: CN202010318375.8A
Authority: CN
Inventors: 王乐; 刘信伶
Original assignee: Xian Jiaotong University
Current assignee: Zhuhai Youjie Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2022-12-09
Anticipated expiration: 2040-04-21
Also published as: CN111583288A

Abstract

本发明公开了一种视频多目标关联与分割方法及系统，所述方法首先采用目标检测方法对视频的每一帧生成多个目标候选，结合注意力机制生成的视频感兴趣区域，筛选出视频主要目标；然后利用孪生网络计算不同目标之间的相似性，得到视频主要目标在时间上的一致性关系；最后利用目标分割网络得到视频主要目标的分割预测。本发明能够提升视频多目标分割的准确率。

Description

一种视频多目标关联与分割方法及系统

技术领域

本发明属于计算机视觉技术领域，特别涉及一种视频多目标关联与分割方法及系统。

背景技术

视频分割技术作为视频处理的关键步骤，对视频分析有很大的影响，在理论和实际应用中有重要的研究价值。

目前，传统的视频分割方法普遍存在以下问题：

(1)多数无监督式视频分割方法是针对视频中只有一个主要目标，而在许多现实视频中往往需要分析多个视频目标，现有方法不太适用；

(2)现有的无监督式视频多目标分割方法少之又少，并且都假设视频每一帧都包含目标，而这一假设在现实视频中是不成立的，目标往往会交替出入视野，而且常常有不包含目标的视频帧(噪声帧)，现有方法在处理含有噪声帧的视频时分割准确度会降低。

综上，从实际应用情况出发，针对未剪辑长视频，亟需一种多目标数据关联与分割方法。

发明内容

本发明的目的在于提供一种视频多目标关联与分割方法及系统，以解决上述存在的一个或多个技术问题。本发明的方法，可在没有额外输入的条件下确定视频的主要目标，可在有噪声帧的情况下完成数据关联，能够更有效地对视频主要目标进行分割，提高分割结果的准确性。

为达到上述目的，本发明采用以下技术方案：

本发明的一种视频多目标关联与分割方法，包括以下步骤：

步骤1，用可变形的R-FCN网络对视频的每一帧进行目标检测，得到所述每一帧的N个目标提议以及每个目标提议的置信度分数；基于注意力机制，定位出视频主要目标所在区域R；基于门控机制，计算每个目标提议是视频主要目标的置信度分数，设定阈值筛选出目标，将筛选出的目标作为视频主要目标；

步骤2，利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络，获得训练好的孪生网络；将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标，两两成对地输入训练好的孪生网络，进行特征提取；计算两个视频主要目标之间的相似度A_b，设定阈值，判断当前帧待匹配视频主要目标属于的实例，获得当前帧待匹配视频主要目标的关联信息；匹配失败，则将当前帧待匹配视频主要目标与已有目标特征集进行匹配，计算相似度A_v，设定阈值，判断当前帧待匹配视频主要目标属于的实例，获得待匹配视频主要目标的关联信息；

步骤3，二值分割网络模型的生成，包括：

步骤3.1)采集原始图片，用可变形的R-FCN网络对采集的原始图片进行目标检测，获得目标的边界框；对原始图片进行1:1、1:2和2:1三种尺寸的缩放，得到三张不同分辨率的图像；

步骤3.2)对于每种分辨率的图像，利用分水岭算法得到边缘概率映射的轮廓图，根据轮廓图生成图像的超度量轮廓图；利用超度量轮廓图获取图像的M个超像素，将每个超像素记为一个叶子结点，两两合并成M-1个非叶子结点，构造出一颗完全二叉树，所述分辨率的图像为根节点，共有2M-1个分割提议；从二叉树中分离P组分割提议；

步骤3.3)将三张超度量轮廓图融合在一起，获得第四张超度量轮廓图；基于四张超度量轮廓图，得到4P组分割提议；将获得的4P组分割提议进行重叠率筛选，将重叠率大于等于 0.95的筛选出来剔除，然后进行孔填充，获得筛选填充后的分割提议；

步骤3.4)提取每个筛选填充后的分割提议的2D特征，训练随机森林回归器，对筛选填充后的分割提议进行排名，获得排名后的分割提议；

步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率；其中，将重叠率最大值对应的分割提议作为伪标注信息；

步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪；裁剪后，边界框内的信息作为检测结果；将伪标注信息以及与其对应的检测结果作为训练数据集，训练二值分割网络，获得训练好的二值分割网络模型；

步骤4，将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型，获得分割结果；将获得的分割结果与步骤2获得的关联信息相结合，获得视频主要目标的最终输出，完成视频多目标关联与分割。

本发明的进一步改进在于，步骤1中，视频主要目标选择的表达式为，

式中，α、β是调节系数，

为视频帧中检测到的目标，

为视频帧中检测到的目标的置信度，

为视频帧中检测到的目标与视频主要目标所在区域R的距离，

是门控得分。

本发明的进一步改进在于，步骤1中，α、β的取值分别为0.8、0.2。

本发明的进一步改进在于，步骤2中，任意两个目标之间的相似性关系A_b的计算表达式为，

式中，F(·,·)表示两者之间的相似距离，

表示第t帧的第i个目标，

表示第t-1 帧的第j个目标。

本发明的进一步改进在于，步骤2中，匹配失败后，相似性A_v计算表达式为，

式中，Z_q表示第q个目标的检测框集合。

本发明的进一步改进在于，步骤3中，根据超度量轮廓图获得分割提议的计算表达式为，

式中，UCM是超度量轮廓图，S是目标分割块；

其中，对每个层次进行迭代，将超度量轮廓图映射到一组目标分割块{S^*,S¹,S²,...S^N}。

本发明的一种视频多目标关联与分割系统，包括：

视频主要目标获取模块，用于通过可变形的R-FCN网络对视频的每一帧进行目标检测，得到所述每一帧的N个目标提议以及每个目标提议的置信度分数；基于注意力机制，定位出视频主要目标所在区域R；基于门控机制，计算每个目标提议是视频主要目标的置信度分数，设定阈值筛选出目标，将筛选出的目标作为视频主要目标；

关联信息获取模块，用于利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络，获得训练好的孪生网络；将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标，两两成对地输入训练好的孪生网络，进行特征提取；计算两个视频主要目标之间的相似度A_b，设定阈值，判断当前帧待匹配视频主要目标属于的实例，获得当前帧待匹配视频主要目标的关联信息；匹配失败，则将当前帧待匹配视频主要目标与已有目标特征集进行匹配，计算相似度A_v，设定阈值，判断当前帧待匹配视频主要目标属于的实例，获得待匹配视频主要目标的关联信息；

二值分割网络模型获取模块，包括：

图像获取模块，用于采集原始图片，用可变形的R-FCN网络对采集的原始图片进行目标检测，获得目标的边界框；对原始图片进行1:1、1:2和2:1三种尺寸的缩放，得到三张不同分辨率的图像；

分割提议获取模块，用于对每种分辨率的图像，利用分水岭算法得到边缘概率映射的轮廓图，根据轮廓图生成图像的超度量轮廓图；利用超度量轮廓图获取图像的M个超像素，将每个超像素记为一个叶子结点，两两合并成M-1个非叶子结点，构造出一颗完全二叉树，所述分辨率的图像为根节点，共有2M-1个分割提议；从二叉树中分离P组分割提议；

分割提议筛选填充模块，用于将三张超度量轮廓图融合在一起，获得第四张超度量轮廓图；基于四张超度量轮廓图，得到4P组分割提议；将获得的4P组分割提议进行重叠率筛选，将重叠率大于等于0.95的筛选出来剔除，然后进行孔填充，获得筛选填充后的分割提议；

分割提议排名模块，用于提取每个筛选填充后的分割提议的2D特征，训练随机森林回归器，对筛选填充后的分割提议进行排名，获得排名后的分割提议；

伪标注信息获取模块，用于计算获得的排名后的分割提议与目标的边界框的重叠率；其中，将重叠率最大值对应的分割提议作为伪标注信息；

二值分割网络模型训练模块，用于通过伪标注信息对应的边界框对原始图片进行裁剪；裁剪后，边界框内的信息作为检测结果；将伪标注信息以及与其对应的检测结果作为训练数据集，训练二值分割网络，获得训练好的二值分割网络模型；

多目标关联与分割模块，用于将视频主要目标获取模块获得的视频主要目标输入二值分割网络模型获取模块训练好的二值分割网络模型，获得分割结果；将获得的分割结果与关联信息获取模块获得的关联信息相结合，获得视频主要目标的最终输出，完成视频多目标关联与分割。

本发明的进一步改进在于，视频主要目标获取模块中，视频主要目标选择的表达式为，

式中，α、β是调节系数，

为视频帧中检测到的目标，

为视频帧中检测到的目标的置信度，

为视频帧中检测到的目标与视频主要目标所在区域R的距离，

是门控得分。

本发明的进一步改进在于，关联信息获取模块中，任意两个目标之间的相似性关系A_b的计算表达式为，

式中，F(·,·)表示两者之间的相似距离，

表示第t帧的第i个目标，

表示第t-1 帧的第j个目标；

匹配失败后，相似性A_v计算表达式为，

式中，Z_q表示第q个目标的检测框集合。

本发明的进一步改进在于，二值分割网络模型获取模块中，根据超度量轮廓图获得分割提议的计算表达式为，

式中，UCM是超度量轮廓图，S是目标分割块；

与现有技术相比，本发明具有以下有益效果：

本发明的方法是一种未剪辑长视频中的多目标数据关联与分割方法，针对当前视频分割方法中存在的视频多目标分割算法少、大多数无监督式视频分割方法适用于视频单目标分割、数据集中噪声帧少等问题；本发明方法首先采用目标检测方法对视频的每一帧生成多个目标候选，结合注意力机制生成的视频感兴趣区域，筛选出多个视频主要目标，进一步解决视频多目标分割问题；然后利用孪生网络计算不同目标之间的相似性，得到视频主要目标在时间上的一致性关系，这种相似计算方法可以解决未剪辑长视频帧中出现的噪声帧等问题，视频主要目标在重现时便可以重新得到关联关系；最后利用目标分割网络得到视频主要目标的分割预测，提升了视频多目标分割的准确率。本发明使用检测与注意力机制相结合的方法自动确认视频主要目标，并计算不同目标之间的相似性来进行数据关联，再用全卷积网络对已确认目标进行分割，提升了分割性能。本发明的方法可以在没有人工额外输入的条件下自动确定视频的主要目标，并且在有噪声真的情况下完成数据关联，从而更有效的对视频主要目标进行分割，提高分割结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种多目标数据关联与分割方法的流程示意图；

图2是本发明实施例中的验证数据集示意图；其中，图2中的(a)为DAVIS2016数据集示意图，图2中的(b)为UNVOSeg数据集示意图；

图3是本发明实施例中，生成分割结果的示意图；

图4是本发明实施例中，多尺度超度量轮廓示意图；

图5是本发明实施例中，在UNVOSeg数据集上的验证结果示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明实施例的一种多目标数据关联与分割方法，是一种未剪辑长视频中的多目标关联与分割方法，包括如下步骤：

步骤1，视频主要目标生成，包括：

1.1)对未剪辑视频的每一帧用可变形的R-FCN网络进行目标检测，得到所述每一帧中所有的N个目标提议以及每个目标提议置信度分数；

1.2)利用注意力机制定位出视频主要目标所在区域R；其中，视频主要目标可以有多个；

1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数，选取得分大于一定阈值的目标作为视频主要目标，进行后续数据关联与分割。

步骤2，多目标的数据关联，包括：

2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络，获得训练好的孪生网络；

2.2)将某一当前帧待匹配的视频主要目标和前一帧中所有视频主要目标，两两成对地输入训练好的孪生网络，进行特征提取；通过计算两个视频主要目标之间的相似度A_b，判断当前帧待匹配的视频主要目标属于哪个实例，获得待匹配视频主要目标的关联信息；

2.3)若上一步中数据匹配失败，将当前帧待匹配的视频主要目标与已有的目标特征集进行匹配，计算相似度A_v，判断当前帧待匹配的视频主要目标属于哪个实例，获得待匹配视频主要目标的关联信息。

步骤3，弱监督分割网络伪标注信息的生成，包括：

3.1)采集原始图片，用可变形的R-FCN网络进行目标检测，获得目标的边界框；对原始图片进行1:1、1:2和2:1三种尺寸的缩放，得到三张不同分辨率的图像；

3.2)对于每种分辨率的图像，利用分水岭算法得到边缘概率映射的轮廓图，根据轮廓图生成图像的超度量轮廓图；

3.3)利用超度量轮廓图获取图像的M个超像素，将每个超像素看成一个叶子结点，两两合并成M-1个非叶子结点，构造出一颗完全二叉树，所述分辨率的图像为根节点，共有2M-1 个分割提议；

3.4)从二叉树中分离P组分割提议；

3.5)将三张超度量轮廓图融合在一起，加上三张超度量轮廓图就可以得到4P组分割提议；将获得的4P组分割提议进行重叠率筛选，将重叠率大于等于0.95的筛选出来剔除，然后进行孔填充，获得筛选填充后的分割提议；

3.6)提取每个筛选填充后的分割提议的2D特征，训练随机森林回归器，对筛选填充后的分割提议进行排名，获得排名后的分割提议；

3.7)计算步骤3.6)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率；将重叠率最大值对应的分割提议作为伪标注信息。

步骤4，视频目标的分割，包括：

4.1)通过伪标注信息对应的边界框对原始图片进行裁剪；裁剪后，边界框内的信息作为检测结果；将伪标注信息以及与其对应的检测结果作为训练数据集，训练二值分割网络，获得训练好的二值分割网络模型；所述分割网络模型只区分前景背景；

4.2)将步骤1获得的视频主要目标，输入训练好的二值分割网络模型，获得分割结果，如图3所示；将分割结果与步骤2获得的关联信息相结合，获得视频主要目标的最终输出。

本发明实施例中，步骤4.2)中的将分割结果与步骤2获得的关联信息相结合，具体可以是：将视频主要目标的关联信息映射为三维的RGB值，相同的实例具有相同的RGB值，用RGB 值代替二值分割结果的前景值，得到最终视频主要目标的分割结果。

本发明实施例中，步骤1中，对视频帧中检测到的目标

及其置信度

需要计算出该目标与视频目标所在区域R的距离

本发明实施例中，步骤1.3)中，对视频主要目标的选择如下：

其中，α、β是调节系数，

为视频帧中检测到的目标，

为视频帧中检测到的目标的置信度，

为视频帧中检测到的目标与视频主要目标所在区域R的距离，

是门控得分。

本发明实施例中，步骤2.2)中，任意两个目标之间的相似性关系A_b如下：

其中，F(·,·)表示两者之间的相似距离，

表示第t帧的第i个目标，

表示第t-1 帧的第j个目标。

本发明实施例中，所述步骤2.3)中，当目标重现时，其相似性A_v计算如下：

其中，Z_q表示第q个目标的检测框集合。

本发明实施例中，步骤3.3)中，由超度量轮廓图转化为分割候选的计算如下：

其中，UCM是超度量轮廓图，S是目标分割块，对每个层次进行迭代，就可以将超度量轮廓图映射到一组目标分割块{S^*,S¹,S²,...S^N}。

综上，本发明实施例公开了一种未剪辑长视频中的多目标数据关联与分割方法，该方法针对包含较多噪声帧的视频，首先利用目标检测方法检测出视频帧中的所有目标，然后利用注意力机制找出视频目标主要出现的位置，二者结合过滤掉无关目标，确定视频主要目标，再利用孪生网络对视频序列中的目标进行数据关联，之后利用全卷积网络对检测的目标进行分割。该方法与现有方法进行对比，在DAVIS2016和UNVOSeg两个数据集上验证了视频多目标关联与分割算法的有效性和准确性。

本发明的具体实施例，图2中的(a)、(b)分别是验证本发明方法可行性的数据集：图2 中的(a)是DAVIS2016数据集中的部分视频帧示例，该数据集包含50个视频，每个视频都包含有目标，不含有噪声帧。图2中的(b)是UNVOSeg数据集中的部分视频帧示例，该数据集包含63个视频，视频的时长比较长而且视频中不包含目标的帧数较多。这两个示例中上面一行是视频中的部分视频帧，下面一行是其对应的真值。

参见图1，为本发明所述的未剪辑长视频中的多目标数据关联与分割方法流程图，本发明实施例的方法，具体包括步骤如下：

步骤1，视频目标生成，包括：

1.1)对未剪辑视频的每一帧用可变形的R-FCN网络进行目标检测，得到视频帧中检测到的目标及其置信度

1.2)利用注意力机制定位出视频目标所在区域R，计算出该目标与视频目标所在区域R 的距离

1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数，计算方法如下：

其中，α、β是调节系数，取值分别为0.8、0.2，

为视频帧中检测到的目标，

为视频帧中检测到的目标的置信度，

为视频帧中检测到的目标与视频主要目标所在区域R 的距离，

是门控得分。。

选取得分大于一定阈值的目标作为视频主要目标，进行后续数据关联与分割。

步骤2，多目标的数据关联：

2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络；

2.2)取步骤1中生成的相邻帧的视频目标，两两成对地输入孪生网络提取特征，通过计算两个目标之间的相似度来判断这两个视频目标是否属于同一实例，任意两个目标之间的相似性关系A_b如下：

其中，F(·,·)表示两者之间的相似距离，

表示第t帧的第i个目标，

表示第t-1 帧的第j个目标；

2.3)若上一步中数据匹配失败，将计算该目标与已有的目标特征集进行匹配，其相似性A_v计算如下：

其中，Z_q表示第q个目标的检测框集合；

步骤3，弱监督分割网络伪标注信息的生成，包括：

3.1)对原始图片进行1:1、1:2和2:1三种尺寸的缩放，得到三张不同分辨率的图像；

3.2)对于每种分辨的图像，利用分水岭算法得到边缘概率映射的轮廓图，进一步生成这张图片的超度量轮廓图；

3.3)利用超度量轮廓图获取图像的M个超像素，由超度量轮廓图转化为分割候选的计算如下：

其中，UCM是超度量轮廓图，S是目标分割块，对每个层次进行迭代，就可以将超度量轮廓图映射到一组目标分割块{S^*,S¹,S²,...S^N}，如图4所示。

将每个超像素看成一个叶子结点，两两合并成M-1个非叶子结点，构造出一颗完全二叉树，整个图片即为根节点，一共有2M-1个分割提议；

3.4)从二叉树中分离P组分割提议；

3.5)将三张超度量轮廓图融合在一起，加上三张超度量轮廓图就可以得到4P组分割提议，将这些分割候选重叠率大于0.95的筛选出来，进行孔填充,；

3.6)提取每个分割提议的2D特征，训练随机森林回归器对这些分割候选排名；

3.7)计算出步骤3.6)中分割候选与步骤3.1)中检测结果的重叠率，将最大值对应的分割候选作为伪标注信息。

步骤4，视频目标的分割，包括：

4.1)利用图像中的检测结果和伪标注信息训练一个只区分前景背景的二值分割网络；

4.2)对视频目标进行分割，结合关联信息确定视频目标的最终输出。

表1a、1b分别是视频多目标关联与分割方法的实验结果，表1a为在DAVIS2016数据集上的实验结果，表1b为在UNVOSeg数据集上的部分实验结果。

请参阅图5，图5为UNVOSeg数据集上部分视频帧的分割结果，从表1a、1b和图5中可以看出，本发明能够有效地提高视频目标分割的准确率

表1a.在DAVIS2016数据集上的实验结果

表1b.在UNVOSeg数据集上的部分实验结果

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。