CN112989942A

CN112989942A - 一种基于交通监控视频的目标实例分割方法

Info

Publication number: CN112989942A
Application number: CN202110177936.1A
Authority: CN
Inventors: 石臣鹏; 欧居尚; 章超
Original assignee: Sichuan Police College
Current assignee: Sichuan Police College
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-18

Abstract

本发明提供一种基于交通监控视频的目标实例分割方法，包括：构建交通监控视频目标实例分割数据集；构建交通监控视频目标实例分割模型；针对所述交通监控视频目标实例分割模型进行模型训练，获得交通监控视频目标实例分割优化模型；通过所述交通监控视频目标实例分割优化模型进行视频监测。本发明提供一种基于交通监控视频的目标实例分割方法，利用深度学习自动提取特征，减少人工干预，提高效率；提高检测精度，实现交通监控的智能化、实时化，同时具有模型轻便，检测精度高的优点。

Description

一种基于交通监控视频的目标实例分割方法

技术领域

本发明涉及数据分割技术领域，特别涉及一种基于交通监控视频的目标实例分割方法。

背景技术

随着城市化和机动化水平的提高，城市交通问题日趋严重,社会各界对于智能交通系统的需求也日益强烈。人工智能的发展也使得智能交通系统成为未来交通的发展方向，而道路监控作为智能交通系统中的关键，在其中起着非常重要的作用，实现对交通监控视频中车辆、行人等目标的分割具有较大的研究和应用价值。

传统的分割方法主要有阈值分割方法、边缘检测方法、区域提取方法和结合特定理论工具的分割方法。阈值分割方法是基于图像的灰度特征来计算一个或多个灰度阈值，并将图像中每个像素的灰度值与阈值相比较，最后将像素根据比较结果分到合适的类别中。边缘检测方法指的是基于灰度值的边缘检测，它是建立在边缘灰度值会呈现出阶跃型或屋顶型变化这一观测基础上的方法。区域提取方法是将图像按照相似性准则分成不同的区域，主要包括种子区域生长法、区域分裂合并法和分水岭法等几种类型。但是，传统的分割方法往往需要手工设计特征，效率低；受噪声影响大，且分割的精度不高，需要辅助人工识别；另外其分割目标具有针对性和单一性，无法将其应用到多目标分割当中。

基于深度学习的分割方法主要有基于全卷积神经网络的语义分割方法和基于区域框的实例分割方法。基于全卷积神经网络的语义分割方法能够在普通分割的基础上，分类出每一块区域的语义，将全连接网络替换成了卷积网络(如U-net)，使得网络可以接受任意大小的图像，并输出和原图一样大小的分割图。基于区域框的实例分割方法是在目标检测的基础上增加了分割分支(如Mask-RCNN)其通过生成大量候选框进行目标检测，之后再对检测的结果进行分割。但是，语义分割方法只能做到不同类别之间的区分而无法做到不同实例之间的区分；基于区域框的实例分割方法采用分两步走策略，即先检测后分割，这使得模型推理时间变长，无法满足实际工程应用的实时性要求，且模型庞大，不利于部署到边缘终端设备。

因此，本发明提供一种基于交通监控视频的目标实例分割方法，利用深度学习自动提取特征，减少人工干预，提高效率；提高检测精度，实现交通监控的智能化、实时化，同时具有模型轻便，检测精度高的优点。

发明内容

本发明提供一种基于交通监控视频的目标实例分割方法，利用深度学习自动提取特征，减少人工干预，提高效率；提高检测精度，实现交通监控的智能化、实时化，同时具有模型轻便，检测精度高的优点。

本发明提供一种基于交通监控视频的目标实例分割方法，包括：

构建交通监控视频目标实例分割数据集；

构建交通监控视频目标实例分割模型；

针对所述交通监控视频目标实例分割模型进行模型训练，获得交通监控视频目标实例分割优化模型；

通过所述交通监控视频目标实例分割优化模型进行视频监测。

优选的，所述构建交通监控视频目标实例分割数据集，包括如下步骤：

获取交通监控视频流，每隔二十帧提取一帧图像的图片，进行命名后以jpg格式保存到image文件夹中；

对所述图片中包含的不同车辆以及行人进行实例标注，获得标注图片，并将所述标注图片的信息以json格式按照对应的命名保存到label文件夹中；

建立一个labels.txt文件，内容首行为ignore,后续为数据的分类标签；

将所述image文件夹中的图片分为训练集和测试集；在所述image文件夹中随机抽取百分之八十的图片作为训练集，并存入train文件，剩下的百分之二十的图片作为测试集，并存入test文件；

将所述train文件中的图片的命名写入train.txt文件中，从而获得训练集图片标注文件；将所述test文件中的图片命名写入test.txt文件中，从而获得测试集标注文件；

将所述训练集标注文件和所述测试集标注文件转化成coco格式分别存储于train\instances_train.json和test\instances_test.json文件，完成交通监控视频目标实例分割数据集构建。

优选的，所述构建交通监控视频目标实例分割模型，包括如下步骤：

将图片划分成S*S的网格；

使用resnet18作为主干网络，并提取图片特征；

将resnet18中各层提取的图像特征构成特征金字塔；

将所述特征金字塔输入到分类分支和掩码分支；

通过所述分类分支预测所述图片中物体的语义类别；所述分类分支对每个网格(i，j)预测输出的为S*S*C，其中，C为预测类别数；当网格(i，j)与物体的中心区域存在大于阈值的重叠时，则认为正样本；

将所述正样本通过所述掩码分支输出对应类别的实例掩码；在所述掩码分支中，输出通道和网格的对应关系为：第k个通道负责预测和输出第(i，j)个网格的实例掩码，且k＝i*S+j，输出维度是H*W*S*S；

输出与分类分支对应类别的实例掩码。

优选的，通过所述分类分支预测所述图片中物体的语义类别时，输入特征F；输入的特征F为H*W*E，采用直接插值法进行Align对齐操作，将H*W的输入对齐为S*S的网格输入；然后将FPN最高层的特征从H*W*256对齐至S*S*256；接着经过7个3*3卷积进行提取特征；最后再经过一个3*3卷积将输出对齐到S*S*C，进行输出。

优选的，所述掩码分支在将所述正样本输出对应类别的实例掩码过程中，被解耦为掩码核分支和掩码特征分支，分别用来预测卷积核和卷积特征；所述掩码核分支在输入的特征F学习动态卷积核G为S*S*D时，输入通道数为E，输出通道为S²，S²表示共有S²个位置，每个位置对应一个卷积核；所述掩码特征分支将每层FPN合并为一个统一的掩码，将FPN的P2到P5层依次经过3*3卷积、归一化、ReLU、2个双线性插值，将尺寸统一成原图的四分之一大小，再做元素级的加和操作，经过1*1的卷积、归一化、ReLU得到掩码的特征图；最后将掩码特征图与动态卷积核进行卷积运算即可得到与分类分支对应类别的实例掩码。

优选的，在进行模型训练时，将损失函数定义为如下形式：

L＝L_cate+λL_mask

其中，L_cate表示针对类别分类的Focal Loss；λ表示损失系数，在这里取值为3，L_mask表示掩码预测的损失函数，其具体表示为：

其中，N_pos表示正样本数量，Г表示指示函数，当

时，则为1,否则为0，i表示输出的分类网格第i行，其取值为[k/S]，j表示输出的分类网格第j列，其取值为k mod S，k表示对应输出第(i,j)个网格实例掩码的掩码分支，S表示动态卷积核的大小，

表示第(i，j)个网格的类别真值，

表示掩码真值，m_k表示对应输出分类网格的掩码，d_mask表示掩码的损失函数，这里使用Dice Loss，其具体定义如下：

d_mask＝L_Dice＝1-D(p,q)

其中，L_Dice表示Dice Loss的求解公式，D(p,q)表示dice系数，其具体表述如下：

其中，p_x,y表示预测掩码在(x,y)位置的像素值,q_x,y表示真实掩码在(x,y)位置的像素值。

优选的，所述模型训练是在ubuntu18.04条件下进行，采用了pytorch深度学习模型和mmdetect框架并在Tesla V100 GPU上进行训练和微调网络的参数：使用在COCO数据集上训练的模型权重作为预训练权重；在所述预训练权重的基础上，用所述数据集进行迁移学习，微调网络参数，使损失函数达到收敛，获得优化参数。

优选的，进行视频监测过程中，包括如下步骤：

给定输入视频流；

采用opencv方法将所述视频流切分成每帧图像，获得图像图片；

通过所述交通监控视频目标实例分割优化模型所述图像图片进行实施例分割处理，获得处理结果；

将所述处理结果进行可视化输出。

优选的，通过所述交通监控视频目标实例分割优化模型所述图像图片进行实施例分割处理，获得处理结果的过程中，通过主干网和FPN得到网格(i,j)位置的类别得分和相对应的掩码m_k，先得到类别置信度，通过阈值0.1过滤掉低置信度预测结果，而后使用学习到的卷积核对mask特征进行卷积操作，经过sigmoid函数后，使用阈值0.5将预测的softmask转变为二值图，之后进行Matrix NMS矩阵非极大值抑制，选择排在前k名的masks作为最终的预测。

优选的，所述进行Matrix NMS矩阵非极大值抑制，包括：

选取按照置信度排列的前N个结果，生成N*N的IOU矩阵；

在所述IOU矩阵列上，找到最大的IOU；

计算衰减因子：

上述公式中，decay_j表示衰减因子，s_i表示i点的得分，s_j表示当前预测得分，σ表示整个mask被抑制的概率，f(iou_i,j)表示m_i对m_j的惩罚；

其中，f(iou_i,j)计算公式如下：

上述公式中，iou_i,j表示i点和j点的IOU；

σ的计算公式如下：

上述公式中，s_k表示k点的得分，f(iou_k,i)表示m_k对m_i的惩罚；

根据下述公式通过decay更新预测得分s_j′；

s_j′＝s_j·decay_j；

将更新后的预测得分按照降幂排列。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的一种基于交通监控视频的目标实例分割方法的流程图；

图2为本发明所述的一种基于交通监控视频的目标实例分割方法中步骤一的流程图；

图3为本发明所述的一种基于交通监控视频的目标实例分割方法中步骤二的流程图；

图4为本发明所述的一种基于交通监控视频的目标实例分割方法中分类分支的示意图；

图5为本发明所述的一种基于交通监控视频的目标实例分割方法中掩码分支示意图；

图6为本发明所述的一种基于交通监控视频的目标实例分割方法中掩码分支的掩码特征分支示意图；

图7为本发明所述的一种基于交通监控视频的目标实例分割方法中步骤三的流程图；

图8为本发明所述的一种基于交通监控视频的目标实例分割方法中步骤三的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于交通监控视频的目标实例分割方法，包括：

步骤一、构建交通监控视频目标实例分割数据集；

步骤二、构建交通监控视频目标实例分割模型；

步骤三、针对所述交通监控视频目标实例分割模型进行模型训练，获得交通监控视频目标实例分割优化模型；

步骤四、通过所述交通监控视频目标实例分割优化模型进行视频监测。

上述技术方案中，首先依次构建交通监控视频目标实例分割数据集和构建交通监控视频目标实例分割模型；然后针对交通监控视频目标实例分割模型进行模型训练，获得交通监控视频目标实例分割优化模型；最后通过交通监控视频目标实例分割优化模型进行视频监测。通过上述技术方案实现交通监控的智能化，而且利用深度学习自动提取特征，减少人工干预，提高效率；并且通过交通监控视频目标实例分割优化模型进行视频监测不仅能够实现实时化，而且具有模型轻便的有点，此外，构建交通监控视频目标实例分割模型通过训练优化后才进行使用，有效提高了检测的精度。本发明检测精度高达0.96，在TeslaV100 GPU上处理一张图片只需0.04秒，模型体积只有137M。

如图2所示，本发明提供的一个实施例中，所述构建交通监控视频目标实例分割数据集的过程包括如下步骤：

S11、获取交通监控视频流，每隔二十帧提取一帧图像的图片，进行命名后以jpg格式保存到image文件夹中；

S12、对所述图片中包含的不同车辆以及行人进行实例标注，获得标注图片，并将所述标注图片的信息以json格式按照对应的命名保存到label文件夹中；

S13、建立一个labels.txt文件，内容首行为ignore,后续为数据的分类标签；

S14、将所述image文件夹中的图片分为训练集和测试集；在所述image文件夹中随机抽取百分之八十的图片作为训练集，并存入train文件，剩下的百分之二十的图片作为测试集，并存入test文件；

S15、将所述train文件中的图片的命名写入train.txt文件中，从而获得训练集图片标注文件；将所述test文件中的图片命名写入test.txt文件中，从而获得测试集标注文件；

S16、将所述训练集标注文件和所述测试集标注文件转化成coco格式分别存储于train\instances_train.json和test\instances_test.json文件，完成交通监控视频目标实例分割数据集构建。

上述技术方案中，构建交通监控视频目标实例分割数据集时，首先，获取交通监控视频流，每隔二十帧提取一帧图像的图片，进行命名后以jpg格式保存到image文件夹中，其中每帧图像的分辨率为1280*720。然后，对图片中包含的不同车辆以及行人进行实例标注，获得标注图片，并将标注图片的信息以json格式按照对应的命名保存到label文件夹中，在将标注图片的信息以json格式按照对应的命名保存到label文件夹中时，例如：图片命名为image.jpg，则标注文件保存为image.json，而且标注文件中包括一个shape属性，shape属性值内嵌套了多个对象，其中每个对象代表一个实例，其包含了label,points,shape_type三个属性。属性label代表了该实例的类别，由字符串表示，这里为car或person。属性points代表的是该实例在图像当中的轮廓坐标，由数组表示为[[x1,y1],[x2,y2]…[x3,y3]]，每个[x,y]对应一个标注的轮廓点。属性shape_type代表的是该实例的形状类型如矩形框，线条等，这里都为polygon。接着，建立一个labels.txt文件，内容首行为ignore,后续为数据的分类标签，也就是car和person。然后，将image文件夹中的图片分为训练集和测试集；在image文件夹中随机抽取百分之八十的图片作为训练集，并存入train文件，剩下的百分之二十的图片作为测试集，并存入test文件；接着，将train文件中的图片的命名写入train.txt文件中，从而获得训练集图片标注文件；将test文件中的图片命名写入test.txt文件中，从而获得测试集标注文件；最后，将训练集标注文件和测试集标注文件转化成coco格式分别存储于train\instances_train.json和test\instances_test.json文件，完成交通监控视频目标实例分割数据集构建。通过上述技术方案能够将交通监控视频目标实例分割数据集，而且数据集中随机分成训练集和测试集，从而使得在进行模型训练时能够全面优化构建交通监控视频目标实例分割模型，进而达到提高检测精度的目的，而且数据集还对测试集和训练集进行文件区分，而且统一进行了格式上的设置，进行了统一整理，有利于调取和使用，有效提高了效率，此外采用随机抽取的方式进行划分训练集和测试集能够在训练模型时更好的优化模型，避免偶然事件的发生。

如图3所示，本发明提供的一个实施例中，所述构建交通监控视频目标实例分割模型的过程包括如下步骤：

S21、将图片划分成S*S的网格；

S22、使用resnet18作为主干网络，并提取图片特征；

S23、将resnet18中各层提取的图像特征构成特征金字塔；

S24、将所述特征金字塔输入到分类分支和掩码分支；

S25、通过所述分类分支预测所述图片中物体的语义类别；所述分类分支对每个网格(i，j)预测输出的为S*S*C，其中，C为预测类别数；当网格(i，j)与物体的中心区域存在大于阈值的重叠时，则认为正样本；

S26、将所述正样本通过所述掩码分支输出对应类别的实例掩码；在所述掩码分支中，输出通道和网格的对应关系为：第k个通道负责预测和输出第(i，j)个网格的实例掩码，且k＝i*S+j，输出维度是H*W*S*S；

输出与分类分支对应类别的实例掩码。

上述技术方案中，在构建交通监控视频目标实例分割模型时，依次按照如下步骤进行构建：将图片划分成S*S的网格；使用resnet18作为主干网络，并提取图片特征，其中resnet18是ResNet系列网络中的一种，18代表其网络深度，指定的是带有权重的18层，包括17个卷积层和一个全连接层，不包括池化层和BN层。其网络结构如下表所示。

将resnet18中各层提取的图像特征构成特征金字塔；将resnet18中Conv1，conv2_x,conv3_x,conv4_x,conv5_x各层不同尺度的特征信息提取出来构成特征金字塔，并将其输入到分类分支和掩码分支；通过分类分支预测图片中物体的语义类别；分类分支对每个网格(i，j)预测输出的为S*S*C，其中，C为预测类别数；当网格(i，j)与物体的中心区域存在大于阈值的重叠时，则认为正样本，这里的中心区域定义在中心点(这里定义的中心点是物体的质心)周围的0.2倍区域；将正样本通过掩码分支输出对应类别的实例掩码；在掩码分支中，输出通道和网格的对应关系为：第k个通道负责预测和输出第(i，j)个网格的实例掩码，且k＝i*S+j，输出维度是H*W*S*S；输出与分类分支对应类别的实例掩码。上述技术方案采用了SOLOv2实例分割框架，该框架预测每个像素所在的物体的实例类别，通过位置和形状进行区分实例，同一中心位置，同一尺寸物体为同一实例，否则为不同类别。

如图4所示，本发明提供的一个实施例中，通过所述分类分支预测所述图片中物体的语义类别时，输入特征F；输入的特征F为H*W*E，采用直接插值法进行Align对齐操作，将H*W的输入对齐为S*S的网格输入；然后将FPN最高层的特征从H*W*256对齐至S*S*256；接着经过7个3*3卷积进行提取特征；最后再经过一个3*3卷积将输出对齐到S*S*C，进行输出。

上述技术方案中，分类分支预测图片中物体的语义类别过程中，输入特征F为H*W*E，在输入之前需要将H*W的输入对齐为S*S的网格输入，这里采用直接插值法进行Align对齐操作；然后将FPN最高层的特征从H*W*256对齐至S*S*256(256为特征通道数)，接着经过一系列卷积(7个3*3卷积)提取特征，最后再经过一个3*3卷积将输出对齐到S*S*C，C即为为预测类别数。

本发明提供的一个实施例中，所述掩码分支在将所述正样本输出对应类别的实例掩码过程中，被解耦为掩码核分支和掩码特征分支，分别用来预测卷积核和卷积特征；所述掩码核分支在输入的特征F学习动态卷积核G为S*S*D时，输入通道数为E，输出通道为S²，S²表示共有S²个位置，每个位置对应一个卷积核；所述掩码特征分支将每层FPN合并为一个统一的掩码，将FPN的P2到P5层依次经过3*3卷积、归一化、ReLU、2个双线性插值，将尺寸统一成原图的四分之一大小，再做元素级的加和操作，经过1*1的卷积、归一化、ReLU得到掩码的特征图；最后将掩码特征图与动态卷积核进行卷积运算即可得到与分类分支对应类别的实例掩码。

上述技术方案中，对于掩码分支，每个正样本(有类别输出的网格)都会输出对应类别的实例掩码，这里的通道和网格的对应关系是：第k个通道负责预测出第(i，j)个网格的实例掩码，且k＝i*S+j，输出维度是H*W*S*S。在具体过程中，如图5所示，掩码分支被解耦为掩码核分支和掩码特征分支，分别预测卷积核和卷积特征。对于掩码核分支，输入特征F学习动态卷积核G为S*S*D，比如G为1*1*E*S²或3*3*E*S²，即为D＝E或者D＝9E，F为主干网络resnet18提取的图像特征，E为输入通道数，S²为输出通道，S²表示共有S²个位置，每个位置对应一个卷积核，因此最多生成S²个掩码，此时意味着，每个位置都出现了目标。如图6所示，对于掩码特征分支，将FPN的P2到P5层依次经过3*3卷积、归一化、ReLU、2个双线性插值，统一到原图的1/4尺寸，再做元素级的加和操作，经过1*1的卷积、归一化、ReLU得到掩码的特征图F。最后将掩码特征图F与与动态卷积核进行卷积运算即可得到与分类分支对应类别的实例掩码。通过上述技术方案能够获得一一对应的语义类别和该类别的实例掩码，而且还将每层FPN合并为一个统一的掩码，有利于进行筛选，并且上述过程能够减少人工干预，提高效率。

本发明提供的一个实施例中，在进行模型训练时，将损失函数定义为如下形式：

L＝L_cate+λL_mask

其中，N_pos表示正样本数量，Γ表示指示函数，当

表示第(i，j)个网格的类别真值，

d_mask＝L_Dice＝1-D(p,q)

上述技术方案中，在进行模型训练过程中，将损失函数定义为L＝L_cate+λL_mask，通过大量模型训练确定损失最小时的各项优化参数，使得在各项优化参数下，模型使用时损失最小，从而提高精度，减小误差。

本发明提供的一个实施例中，所述模型训练是在ubuntu18.04条件下进行，采用了pytorch深度学习模型和mmdetect框架并在Tesla V100 GPU上进行训练和微调网络的参数：使用在COCO数据集上训练的模型权重作为预训练权重；在所述预训练权重的基础上，用所述数据集进行迁移学习，微调网络参数，使损失函数达到收敛，获得优化参数。

上述技术方案中，模型训练是在ubuntu18.04条件下进行，采用了pytorch深度学习模型和mmdetect框架并在Tesla V100 GPU上进行训练和微调网络的参数：使用在COCO数据集上训练的模型权重作为预训练权重；在所述预训练权重的基础上，用所述数据集进行迁移学习，微调网络参数，使损失函数达到收敛，获得优化参数。在模型训练时，各项参数具体设置如下：batch size设为16，共训练200个epoch，前20个epoch学习率为0.1，中间30个epoch学习率为，后150个epoch学习率为0.00001，网络使用SGD优化器，momentum系数设为0.9，为了防止过拟合，权值衰减系数设置为0.0001。通过上述技术方案能够有效提高交通监控视频目标实例分割模型的精度，减小损失导致的误差。

如图7和图8所示，本发明提供的一个实施例中，所述进行视频监测过程中，包括如下步骤：

S31、给定输入视频流；

S32、采用opencv方法将所述视频流切分成每帧图像，获得图像图片；

S33、通过所述交通监控视频目标实例分割优化模型所述图像图片进行实施例分割处理，获得处理结果；

S34、将所述处理结果进行可视化输出。

上述技术方案中，在进行视频监测时，首先给定输入视频流；然后采用opencv方法将视频流切分成每帧图像，获得图像图片；接着通过交通监控视频目标实例分割优化模型图像图片进行实施例分割处理，获得处理结果；最后将处理结果进行可视化输出。通过上述技术方案在交通监控视频目标实例分割优化模型中采用SOLOv2(Segmenting Objects byLocations)实例分割。为了区分不同尺度的实例，使用了FPN特征金字塔网络，以便将物体的不同尺度映射到不同层次的特征图上。FPN的每一层后都接上述两个并行的分支，进行类别和位置的预测，每个分支的网格数目也相应不同，小的实例对应更多的的网格。因此，所有对象实例都分离，从而可以通过“实例类别”对对象进行分类。输出共有两个分支，类别分支与掩码分支。其中类别分支预测类别信息，输出尺寸为S*S*C，对于每个网格SOLO都会预测C维的输出，用来表示语义类的概率。其中，S为原图预设的分割矩形框数目，C为类别个数。掩码分支预测实例掩码，输出为H*W*S²，与语义类别预测并行，每个正样本网格单元还将生成相应的实例掩码。给定输入图像I，如果将其划分为S*S的网格，则总共最多会有S²个预测掩码。通道数S²对应原图所分的每个块，预测为该块对应的完整实例mask。而且SOLOv2是一个端到端的实例分割框架，是在SOLO上对掩码分支进行改进，引入动态机制，动态学习目标分割器的掩码分支头部。将掩码分支解耦为动态卷积核分支以及掩码特征分支，学习卷积核权重。另外，SOLOv2还提出了Matrix NMS(non-maximum-suppression)，能够减少前向推理时间。

本发明提供的一个实施例中，所述通过所述交通监控视频目标实例分割优化模型所述图像图片进行实施例分割处理，获得处理结果的过程中，通过主干网和FPN得到网格(i,j)位置的类别得分和相对应的掩码m_k，先得到类别置信度，通过阈值0.1过滤掉低置信度预测结果，而后使用学习到的卷积核对mask特征进行卷积操作，经过sigmoid函数后，使用阈值0.5将预测的soft mask转变为二值图，之后进行Matrix NMS矩阵非极大值抑制，选择排在前k名的masks作为最终的预测。

上述技术方案中，给定输入视频流，通过opencv对视频提取图像帧，将每帧图片划分为S*S的网格，通过主干网和FPN得到网格(i,j)位置的类别得分和相对应的掩码m_k(其中，k＝i*S+j)，先得到类别置信度，通过阈值0.1过滤掉低置信度预测结果，而后使用学习到的卷积核对mask特征进行卷积操作，经过sigmoid函数后，使用阈值0.5将预测的softmask转变为二值图。之后进行Matrix NMS矩阵非极大值抑制，选择前k名得分的masks作为最终的预测。通过上述技术方案能够快速在给定输入视频流之后得到最终的预测结果。

本发明提供的一个实施例中，所述进行Matrix NMS矩阵非极大值抑制的过程包括：

选取按照置信度排列的前N个结果，生成N*N的IOU矩阵；

在所述IOU矩阵列上，找到最大的IOU；

计算衰减因子：

其中，f(iou_i,j)计算公式如下：

上述公式中，iou_i,j表示i点和j点的IOU；

σ的计算公式如下：

根据下述公式通过decay更新预测得分s_j′；

s_j′＝s_j·decay_j；

将更新后的预测得分按照降幂排列。

上述技术方案中，进行Matrix NMS矩阵非极大值抑制时，选取按照置信度排列的前N个结果，生成N*N的IOU矩阵；在IOU矩阵列上，找到最大的IOU；计算衰减因子；通过decay更新预测得分；将更新后的预测得分按照降幂排列。上述技术方案中，对于二值图，通过矩阵运算，高效形成IOU矩阵，使得计算IOU时可直接相乘，Matrix NMS思考的是一个预测出来的掩码m_k是如何被抑制的。m_k的decay factor衰减因子主要受两部分影响：一是预测得分大于j点的所有i点对j点的惩罚；二是整个mask被抑制的概率，它通常与IOU有着正相关的关系，因此，Matrix NMS通过直接将最大重复的预测结果(对应最大的IOU值)的结果来近似这个抑制概率，进而能够将更新后的预测得分进行排列，有利于进行获取前k名的masks作为最终的预测。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于交通监控视频的目标实例分割方法，其特征在于，包括：

构建交通监控视频目标实例分割数据集；

构建交通监控视频目标实例分割模型；

2.根据权利要求1所述的基于交通监控视频的目标实例分割方法，其特征在于，所述构建交通监控视频目标实例分割数据集，包括如下步骤：

3.根据权利要求1所述的基于交通监控视频的目标实例分割方法，其特征在于，所述构建交通监控视频目标实例分割模型，包括如下步骤：

将图片划分成S*S的网格；

使用resnet18作为主干网络，并提取图片特征；

将resnet18中各层提取的图像特征构成特征金字塔；

将所述特征金字塔输入到分类分支和掩码分支；

输出与分类分支对应类别的实例掩码。

4.根据权利要求3所述的基于交通监控视频的目标实例分割方法，其特征在于，通过所述分类分支预测所述图片中物体的语义类别时，输入特征F；输入的特征F为H*W*E，采用直接插值法进行Align对齐操作，将H*W的输入对齐为S*S的网格输入；然后将FPN最高层的特征从H*W*256对齐至S*S*256；接着经过7个3*3卷积进行提取特征；最后再经过一个3*3卷积将输出对齐到S*S*C，进行输出。

5.根据权利要求4所述的基于交通监控视频的目标实例分割方法，其特征在于，所述掩码分支在将所述正样本输出对应类别的实例掩码过程中，被解耦为掩码核分支和掩码特征分支，分别用来预测卷积核和卷积特征；所述掩码核分支在输入的特征F学习动态卷积核G为S*S*D时，输入通道数为E，输出通道为S²，S²表示共有S²个位置，每个位置对应一个卷积核；所述掩码特征分支将每层FPN合并为一个统一的掩码，将FPN的P2到P5层依次经过3*3卷积、归一化、ReLU、2个双线性插值，将尺寸统一成原图的四分之一大小，再做元素级的加和操作，经过1*1的卷积、归一化、ReLU得到掩码的特征图；最后将掩码特征图与动态卷积核进行卷积运算即可得到与分类分支对应类别的实例掩码。

6.根据权利要求1所述的基于交通监控视频的目标实例分割方法，其特征在于，在进行模型训练时，将损失函数定义为如下形式：

L＝L_cate+λL_mask

其中，N_pos表示正样本数量，Γ表示指示函数，当

表示第(i，j)个网格的类别真值，

d_mask＝L_Dice＝1-D(p,q)

7.根据权利要求6所述的基于交通监控视频的目标实例分割方法，其特征在于，所述模型训练是在ubuntu18.04条件下进行，采用了pytorch深度学习模型和mmdetect框架并在Tesla V100 GPU上进行训练和微调网络的参数：使用在COCO数据集上训练的模型权重作为预训练权重；在所述预训练权重的基础上，用所述数据集进行迁移学习，微调网络参数，使损失函数达到收敛，获得优化参数。

8.根据权利要求1所述的基于交通监控视频的目标实例分割方法，其特征在于，进行视频监测过程中，包括如下步骤：

给定输入视频流；

将所述处理结果进行可视化输出。

9.根据权利要求8所述的基于交通监控视频的目标实例分割方法，其特征在于，通过所述交通监控视频目标实例分割优化模型所述图像图片进行实施例分割处理，获得处理结果的过程中，通过主干网和FPN得到网格(i,j)位置的类别得分和相对应的掩码m_k，先得到类别置信度，通过阈值0.1过滤掉低置信度预测结果，而后使用学习到的卷积核对mask特征进行卷积操作，经过sigmoid函数后，使用阈值0.5将预测的soft mask转变为二值图，之后进行Matrix NMS矩阵非极大值抑制，选择排在前k名的masks作为最终的预测。

10.根据权利要求9所述的基于交通监控视频的目标实例分割方法，其特征在于，所述进行Matrix NMS矩阵非极大值抑制，包括：

选取按照置信度排列的前N个结果，生成N*N的IOU矩阵；

在所述IOU矩阵列上，找到最大的IOU；

计算衰减因子：

其中，f(iou_i,j)计算公式如下：

上述公式中，iou_i,j表示i点和j点的IOU；

σ的计算公式如下：

根据下述公式通过decay更新预测得分s_j′；

s_j′＝s_j·decay_j；

将更新后的预测得分按照降幂排列。