CN109447082A

CN109447082A - 一种场景运动目标分割方法、系统、存储介质及设备

Info

Publication number: CN109447082A
Application number: CN201811548682.4A
Authority: CN
Inventors: 姚剑; 董颖青; 涂静敏; 常娟
Original assignee: Wuhan Rulzi Technology Co Ltd
Current assignee: Wuhan Rulzi Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-12-18
Publication date: 2019-03-08
Anticipated expiration: 2038-12-18
Also published as: CN109447082B

Abstract

本发明涉及场景运动目标分割方法、系统、存储介质及设备，其方法包括将由两幅具有时间差的待拼接影像组成的影像对中每个前景目标进行分割，根据分割得到的前景目标的实例分割坐标位置切割其对应的待拼接影像,得到前景目标的原影像区域信息；确定影像对的光流场信息；确定前景目标的运动状态类型；将每个前景目标的实例分割结果、实例分割坐标位置和运动状态类型进行一一映射和标注，得到运动目标分割结果。本发明对影像对进行实例分割后结合光流场作为运动特征信息来判断前景目标的运动状态类型，得到运动目标分割结果，在完成目标级的带语义信息分割的同时，实现对各目标运动状态的分类，对运动目标实现逐像素目标级的分割，抗噪声能力更强。

Description

一种场景运动目标分割方法、系统、存储介质及设备

技术领域

本发明涉及图像处理与计算机视觉技术领域，尤其涉及一种场景运动目标分割方法、系统、存储介质及设备。

背景技术

随着国民经济的发展和国力的增强，中国人民对社会和个人安全的重视程度越来越高，对监控系统的需求也随之变大。据统计，在过去十年的时间里，中国是监控摄像头增长最快的国家。根据咨询公司IHS Markit 2016年的数据，中国共装有1.76亿个监控摄像头，其中公安系统掌握了2000万的监控摄像头。因此，视频监控系统又被称为“天网工程”，对人口密度大的中国来说十分重要。

传统的视频监控主要依靠人眼观察和监控，但人的精力毕竟是有限的，在进行人为监控时，对有效信息难免存在遗漏现象，甚至有误报的情况出现，严重影响了监控系统应该具备的实用性和安全性。因此，随着智能化的不断发展，智能化的监控系统逐渐走进了人们的生活。运动目标的准确分割作为智能监控系统的关键部分，是目标追踪以及目标行为分析等后期处理的基础，它的研究价值和市场潜力是无可估量的。此外，在影像拼接过程的鬼影去除以及当前热门的无人驾驶等应用中，运动目标分割也起着至关重要的作用。

在过去的几十年里，随着不同领域科学技术的迅速发展，运动目标的检测与分割技术也紧跟其后，深入到了计算机视觉、模式识别、视频影像处理和人工智能等各个领域。传统的运动目标检测和分割的方法对影像的灰度信息具有较强的依赖性，经典的运动目标分割算法有帧差法，背景差分法以及光流法等，及其他各类基于这些算法为基础的改进算法。

随着深度学习、神经网络的普及，广大研究学者开始了基于深度学习的运动目标分割方法的探索，利用深度学习进行运动目标分割的方法开始出现，运动目标的分割过程中，类别也有原来的未知变为已知，利用深度神经网络学习运动标签来进行运动目标分割的方法越来越普遍，大部分基于深度学习进行运动目标分割的方法都以视频序列信息为对象，通过运动特征来提取运动的区域。如针对视频影像序列，通过将从稀疏运动信息中学习的颜色和局部线索得到关键帧后，利用马尔可夫随机场框架基于这些运动线索估计移动子目标，最后通过将这些学习的颜色和局部提示信息相结合，得到最终的运动目标分割结果的方法。该方法的优势在于对目标只有部分位置移动的目标，仍可利用多张关键帧的信息，检测并分割出整个运动的物体，鲁棒性强。然而，该运动物体的任何一个部分都需在关键帧中出现至少一次，才能保证分割精度，受限大。基于这一问题，一种根据“移动物体的可能性”来判断影像中包含移动物体可能性的方法，该方法同样基于视频序列，通过对每帧影像使用前景-背景分割，计算每帧的运动边界，并根据基于影像和运动场训练出运动目标探测器来提取运动目标，最后利用超像体投影来改进分割精度，减少了对运动物体出现次数的限制，对遮挡等问题也能妥善解决。然而，由于步骤复杂，该方法的计算速度慢，处理速度难以达到实时。为改善计算速度，一种需要结合目标的形态和运动线索来探测无人机和飞机等飞行物体的方法被提出，利用卷积神经网络进行飞行器的运动补偿和运动检测，并基于回归的方法在图像块中计算以运动目标为中心的运动稳定性，保持影像局部区域的运动稳定化，对快速运动的飞行器分割效果佳，且由于算法复杂度较低，计算速度较快。

以上方法在运动运动分割方面整体上取得了不错的效果，但对大数据集不适用，且分割结果的类别信息仍旧未知。

为将运动目标分割上升到含语义层面，得到信息更丰富的分割结果，一种同时进行语义分类和运动标签的方法被提出，该算法将基于语义、几何和光流的约束集成到密集的CRF模型中，从而为每个像素预测所属种类类别和运动类别。在此研究基础上，一种针对动态场景的结合语义和运动分割的深度学习方法被提出，该算法结合了空洞卷积模型，将光流量化为灰度图作为辅助信息，并基于多尺度上下文回归方法，实现基于影像序列语义分割与运动目标分割。

总体看来，当前运动目标分割多以视频或影像序列为目标进行运动信息提取、从而完成运动目标分割。传统的运动目标分割方法基本停留在提取出运动区域的层面，最终结果得到的是影像中的运动范围，对运动目标的类别等信息缺乏认知；基于深度学习的运动分割方法大多针对视频序列影像和立体影像对，最新的运动目标分割方法基于动态场景，对运动目标的分割停留在语义分割层面——在完成运动目标分割的同时，得到运动区域的语义信息，无法以个体为单位分离。此外，复杂背景下的小范围运动、光照和对比度变化等情况下的运动目标分割效果依旧欠佳。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种场景运动目标分割方法、系统、存储介质及设备。

本发明解决上述技术问题的技术方案如下：一种场景运动目标分割方法，包括如下步骤:

步骤1:将两幅具有时间差的待拼接影像组成影像对,并对所述影像对中每个前景目标进行分割,得到每个所述前景目标的实例分割结果和实例分割坐标位置；

步骤2:根据每个所述前景目标的实例分割坐标位置切割其对应的所述待拼接影像,得到每个所述前景目标的原影像区域信息；

步骤3:确定所述影像对中每个所述前景目标的光流场信息；

步骤4：根据每个所述前景目标的原影像区域信息、实例分割结果和所述光流场信息确定对应所述前景目标的运动状态类型；

步骤5：将待拼接影像中每个所述前景目标的实例分割结果、实例分割坐标位置和运动状态类型进行一一映射和标注，得到运动目标分割结果。

本发明的有益效果是：本发明的场景运动目标分割方法，针对具有时间差的影像对进行实例分割后，创造性地结合光流场作为运动特征信息来判断前景目标的运动状态类型，进而得到集运全影像的运动目标分割结果，在完成目标级的带语义信息分割的同时，实现对各目标运动状态的分类，对运动目标实现逐像素目标级的分割，抗噪声能力更强、分割得到的信息更丰富，应用性更加广泛。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步：所述步骤1中，所述对所述影像对中每个前景目标进行分割具体包括：

步骤11：将具有时间差的所述影像对输入基于深度学习的实例分割网络模型，得到每幅所述待拼接影像中的每个前景目标对应的初次分割结果及初次坐标位置；

步骤12：对每个所述前景目标的初次坐标位置向四周扩展，得到每个所述前景目标的再次搜索备选区域，并输入所述基于深度学习的实例分割网络模型，得到每个前景目标的优化分割结果和优化坐标位置；

步骤13：将每个所述前景目标的初次分割结果与优化分割结果合并,得到每个所述前景目标的实例分割结果,将每个所述前景目标的初次坐标位置和优化坐标位置合并，得到每个所述前景目标的实例分割坐标位置。

上述进一步方案的有益效果是：通过对所述拼接影像对进行初次分割，然后将目标区域扩大后再进行二次分割，提升目标区域边缘的精细化效果，提高了对所述前景目标的分割精度。

进一步：所述步骤3具体包括：

步骤31：将所述影像对输入基于深度学习光流生成网络模型，分别得到所述影像对的前向光流场和后向光流场；

步骤32：根据每个所述前景目标的实例分割坐标位置对所述影像对的前向光流场和后向光流场分别进行切割，得到每个所述前景目标的光流场。

上述进一步方案的有益效果是：通过采用基于深度学习光流生成网络模型可以生成与所述影像对对应的前向光流场和后向光流场，再根据所述前景目标的实例分割坐标位置对所述影像对的前向光流场和后向光流场分别进行切割，即可准确得到每个所述前景目标的光流场。

进一步：所述步骤4具体包括：

步骤41：将每个所述前景目标的原影像区域信息、光流场以及实例分割结果进行合并，得到所述前景目标对应的运动状态提取信息；

步骤42：将每个所述前景目标的运动状态提取信息输入至运动状态分类网络模型，得到每个所述前景目标的运动状态类型。

上述进一步方案的有益效果是：通过将每个所述前景目标的原影像区域信息结合光流场以及实例分割结果作为所述前景目标对应的运动状态提取信息，借助运动状态分类网络模型即可得到所述前景目标的运动状态类型，便于后续对所述全影像中的运动目标进行分割，得到精确的分割结果。

进一步：所述步骤5具体包括：

步骤51：获取每个所述前景目标的名称，并根据每个所述前景目标的名称将所述前景目标的运动状态类型与对应的实例分割坐标位置进行一一匹配；

步骤52：根据所述前景目标的名称搜寻与所述原影像区域信息相匹配的每个所述前景目标；

步骤53：建立与所述原影像区域信息尺寸大小相同的空影像，并根据所述前景目标的实例分割坐标位置将与所述前景目标的原影像区域信息相匹配的所述前景目标对应的掩模影像返回至对应的空影像上；

步骤54：将每个所述前景目标的原影像和对应的掩模影像以预设透明度进行合成，并将合成后的影像中的每个所述前景目标的分类种类和运动种类进行标注，利用矩形框标记每个所述前景目标所在位置并形成包围盒，得到运动目标分割结果。

上述进一步方案的有益效果是：通过将运动状态类型与实例分割坐标位置进行匹配，再将所述前景目标与原影像区域信息匹配，然后将前景目标对应的掩模影像返回至对应的空影像上，再将前景目标的原影像和对应的掩模影像合并，即可精确得到运动目标的分割结果。

进一步：所述步骤53中，将与所述前景目标的原影像区域信息相匹配的实例分割结果返回至对应的空影像上，还将不同所述前景目标赋予不用的颜色。

上述进一步方案的有益效果是：通过将不同所述前景目标采用赋予不用的颜色，可以方便将不同的前景目标进行有效区分。

进一步：所述步骤54中，采用不同颜色的矩形框标记每个所述前景目标所在位置并形成包围盒。

上述进一步方案的有益效果是：采用不同颜色的矩形框标记每个所述前景目标所在位置并形成包围盒，可以进一步清晰地区分各种不同运动状态类型的所述前景目标，便于进行精确地分割。

本发明还提供了一种场景运动目标分割系统，包括：

分割模块，用于将两幅具有时间差的待拼接影像组成影像对,并对所述影像对中每个前景目标进行分割,得到每个所述前景目标的实例分割结果和实例分割坐标位置；

切割模块，用于根据所述前景目标的实例分割坐标位置切割其对应的所述待拼接影像,得到所述前景目标的原影像区域信息；

光流场信息模块，用于根据所述待拼接影像确定所述影像对的光流场信息；

运动状态类型模块，用于根据所述前景目标的原影像区域信息、实例分割结果和所述光流场信息确定所述前景目标的运动状态类型；

映射标注模块，用于将待拼接影像中每个所述前景目标的实例分割结果、实例分割坐标位置和运动状态类型进行一一映射和标注，得到运动目标分割结果。

本发明的场景运动目标分割系统，针对具有时间差的影像对进行实例分割后，创造性地结合光流场作为运动特征信息来判断前景目标的运动状态类型，进而得到集运全影像的运动目标分割结果，在完成目标级的带语义信息分割的同时，实现对各目标运动状态的分类，对运动目标实现逐像素目标级的分割，抗噪声能力更强、分割得到的信息更丰富，应用性更加广泛。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现所述的场景运动目标分割方法。

本发明还提供了一种场景运动目标分割设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的场景运动目标分割方法的步骤。

附图说明

图1为本发明的场景运动目标分割方法的流程示意图；

图2为本发明的场景运动目标分割系统的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种场景运动目标分割方法，包括如下步骤:

步骤3:确定所述影像对中每个所述前景目标的光流场信息；

本发明的场景运动目标分割方法，针对具有时间差的影像对进行实例分割后，创造性地结合光流场作为运动特征信息来判断前景目标的运动状态类型，进而得到集运全影像的运动目标分割结果，在完成目标级的带语义信息分割的同时，实现对各目标运动状态的分类，对运动目标实现逐像素目标级的分割，抗噪声能力更强、分割得到的信息更丰富，应用性更加广泛。

在本发明提供的实施例中，所述步骤1中，所述对所述影像对中每个前景目标进行分割具体包括：

实际中，将具有时间差的影像对输入训练好的MNC(Multi-task NetworkCascades)深度学习实例分割网络模型，该网络模型依次经过实例区分、掩膜估计、目标分类处理，得到影像中的每个前景目标独立初次的分割结果及初次坐标位置；

比如，将对步骤11中得到的初次坐标位置向四周扩展约50个像素的范围，得到每个目标的再次搜索备选区域，即“热点”区域，将其再次投入MNC网络模型，得到优化割结果和优化坐标位置；

通过对所述拼接影像对进行初次分割，然后将目标区域扩大后再进行二次分割，提升目标区域边缘的精细化效果，提高了对所述前景目标的分割精度。

本发明提供的实施例中，所述步骤3具体包括：

通过采用基于深度学习光流生成网络模型可以生成与所述影像对对应的前向光流场和后向光流场，再根据所述前景目标的实例分割坐标位置对所述影像对的前向光流场和后向光流场分别进行切割，即可准确得到每个所述前景目标的光流场。

本发明提供的实施例中，所述步骤4具体包括：

通过将每个所述前景目标的原影像区域信息结合光流场以及实例分割结果作为所述前景目标对应的运动状态提取信息，借助运动状态分类网络模型即可得到所述前景目标的运动状态类型，便于后续对所述全影像中的运动目标进行分割，得到精确的分割结果。

在步骤42中，所述运动状态分类网络模型基于ResNet(Heetal.,2016)的影像编码网络进行影像特征提取、池化，在特征提取阶段选用了34层的ResNet，再通过全连接层(fully connected layer，简称fc层)结合softmax进行分类，将目标分类为运动或静止两种状态，实现目标的运动状态分类过程。

其中，在影像特征提取部分，共分为五小部，每一部分的卷积核尺寸相同。第一部分的卷积核尺寸为7×7，共1个卷积层；其余部分的卷积核尺寸均为3×3，每部分由两个相同的卷积组成，但输出的通道数和重复数量有所改变。如第二部分的输出通道数为64，共进行3次叠加；第三部分的输出通道为128，共进行4次叠加；第四、五部分的输出通道分别为256和512，分别进行6次和3次叠加。其中，每一个部分在重复时通过shortcut connection进行连接。在ResNet-34的全连接层部分，本发明的运动状态分类网络分为二分类问题，因此T设置为2，最终得到输出为2×1的向量。在ResNet-34的分类层部分，采用了softmax函数，利用全连接输出的特征向量，计算出目标运动状态二分类概率值。

此外，在损失函数定义方面，本发明的二分类问题中，交叉熵的公式定义如下式所示：

H(p,q)＝-∑p(x)log q(x) (1)

式中，p(x)代表在运动状态分类网络中给定的样本GT标注0或1，q(x)为模型在前向传播得到的预估分数值，大小在0-1之间。通过交叉熵约束，将训练输出的分数和GT的差异进行评估，使模型的输出的分布尽量与训练样本分布一致。

本发明提供的实施例中，所述步骤5具体包括：

通过将运动状态类型与实例分割坐标位置进行匹配，再将所述前景目标与原影像区域信息匹配，然后将前景目标对应的掩模影像返回至对应的空影像上，再将前景目标的原影像和对应的掩模影像合并，即可精确得到运动目标的分割结果。

优选地，在上述实施例的基础上，所述步骤53中，将与所述前景目标的原影像区域信息相匹配的实例分割结果返回至对应的空影像上，还将不同所述前景目标采用赋予不用的颜色。通过将不同所述前景目标赋予不用的颜色，可以方便将不同的前景目标进行有效区分。

优选地，在上述实施例的基础上，所述步骤54中，采用不同颜色的矩形框标记每个所述前景目标所在位置并形成包围盒。采用不同颜色的矩形框标记每个所述前景目标所在位置并形成包围盒，可以进一步清晰地区分各种不同运动状态类型的所述前景目标，便于进行精确地分割。

本发明成功地将影像对中的运动目标(包括人和自行车等)分割出来；对运动目标对应来源于哪幅影像已知，方便区分；对运动目标所属的类别已知，在影像中完成了对应的标注；做到了能将运动目标以个体的形式一一分开。

如图2所示，本发明还提供了一种场景运动目标分割系统，包括：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种场景运动目标分割方法，其特征在于,包括如下步骤:

步骤3:确定所述影像对中每个所述前景目标的光流场信息；

2.根据权利要求1所述的场景运动目标分割方法，其特征在于,所述步骤1中，所述对所述影像对中每个前景目标进行分割具体包括：

步骤12：对每个所述前景目标的初次坐标位置向四周扩展，得到每个所述前景目标的再次搜索备选区域，并输入所述基于深度学习的实例分割网络模型，得到每个所述前景目标的优化分割结果和优化坐标位置；

3.根据权利要求2所述的场景运动目标分割方法，其特征在于,所述步骤3具体包括：

4.根据权利要求1所述的场景运动目标分割方法，其特征在于,所述步骤4具体包括：

5.根据权利要求1所述的场景运动目标分割方法，其特征在于,所述步骤5具体包括：

6.根据权利要求5所述的场景运动目标分割方法，其特征在于,所述步骤53中，将与所述前景目标的原影像区域信息相匹配的实例分割结果返回至对应的空影像上，还将不同所述前景目标赋予不用的颜色。

7.根据权利要求5所述的场景运动目标分割方法，其特征在于,所述步骤54中，采用不同颜色的矩形框标记每个所述前景目标所在位置并形成包围盒。

8.一种场景运动目标分割系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8任一项所述的场景运动目标分割方法。

10.一种场景运动目标分割设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的场景运动目标分割方法的步骤。