CN110472628B

CN110472628B - 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法

Info

Publication number: CN110472628B
Application number: CN201910738475.3A
Authority: CN
Inventors: 单森华; 戴诗琪; 陈佳佳
Original assignee: Istrong Technology Co ltd
Current assignee: Istrong Technology Co ltd
Priority date: 2019-08-10
Filing date: 2019-08-10
Publication date: 2022-11-15
Anticipated expiration: 2039-08-10
Also published as: CN110472628A

Abstract

本发明涉及一种基于视频特征的改进Faster R‑CNN网络检测漂浮物方法，将Faster R‑CNN网络中的二维特征提取网络替换为三维特征提取网络得到改进后的Faster R‑CNN网络；输入连续的16帧视频序列图像到三维特征提取网络中提取特征图，将特征图送入RPN网络生成区域候选框并进行分类属于前景或者背景；对分类为前景的初始候选框进行包围盒回归修正初始矩形框的位置；对所有的侯选矩形框进行排序，选出是前景概率较大的前N个候选框；将特征图通过ROI池化层将N个候选框的特征图映射到固定尺寸；将得到的特征图通过全连接层和softmax层进行漂浮物和非漂浮物的分类，对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。本发明能提高漂浮物搜索过程的效率，节省人力物力成本。

Description

一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法

技术领域

本发明涉及水利、环保领域，计算机视觉、深度学习领域，特别是一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法。

背景技术

随着城镇建设和工业化的加快，城市内河的漂浮物日益增多，不仅破坏自然景观、污染水质，还将对水利工程、水电枢纽的正常运转产生影响，危害人们的生产生活安全，有效治理漂浮物是水环境治理的重要组成部分。但目前对漂浮物的打捞工作主要依靠人工搜索，效率低下，费时费力。基于视频图像自动检测漂浮物的方法可以大大提高漂浮物搜索过程的效率，节省人力物力成本。

因此，既能保证精准度又具有较好实时性的漂浮物识别方法具有重要的研究意义和实用价值。

现有的基于机器学习或深度学习的河道漂浮物检测方法主要分为基于背景模型的方法和基于网络的方法两类：

基于背景模型的方法使用混合高斯模型或视觉背景提取算子建立河面背景模型，并对背景模型进行实时更新，当新图像进入时使用帧差法提取运动目标，这种方法无法完全过滤掉水波、河岸边的树叶晃动以及光照的影响。或者采用定点分析的方法，事先标注水面范围，通过图像配准提取背景，然后通过颜色纹理检测异常区域，这种方法同样因为光照条件影响或水面涨跌图像配准会出现偏差，且定点分析的方法本身灵活性差，实用性不高。

基于网络的方法主要采用当下比较流行的目标检测网络，如Faster R-CNN、YOLOv2等，但这些目标检测网络都是基于图像的，当场景中出现强倒影、光斑、以及飞过河面的飞鸟蚊虫等情况时，仅仅依靠单张图像难以区分，容易产生误报。而如果采用三维卷积网络如C3D同时提取空间和时间轴上的特征，计算量较大，无法做到实时检测，且河岸边的行人车辆等运动目标会产生干扰。

发明内容

有鉴于此，本发明的目的是提供一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，可以大大提高漂浮物搜索过程的效率，节省人力物力成本。

本发明采用以下方案实现：一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，包括以下步骤：

包括以下步骤：

步骤S1：将Faster R-CNN网络中的VGG或ResNet二维特征提取网络替换为三维特征提取网络得到改进后的Faster R-CNN网络；

步骤S2：提供连续的16帧视频序列图像，输入所述连续的16帧视频序列图像到所述改进的Faster R-CNN网络的三维特征提取网络中提取特征图；

步骤S3：将步骤S2中得到的特征图送入到改进的Faster R-CNN网络的RPN网络中生成区域候选框；

步骤S4：对步骤S3中分类为前景的区域候选框进行包围盒回归，修正区域候选框的位置，区域候选框为A＝(A_x,A_y,A_w,A_h)，真实包围盒为GT＝(G_x,G_y,G_w,G_h),回归目标为寻找一种变换F,使得：

F(A_x,A_y,A_w,A_h)＝(G′_x,G′_y,G′_w,G′_h)，

(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)；

步骤S5：对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序，对前K个候选框通过两次非极大值抑制法(NMS)剔除与真实目标重叠度低的候选框以及超出图像边界的候选框，再选出是前景的概率较大的前N个候选框送入步骤S6；

步骤S6：结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上，所述固定尺寸为7×7×depth；

步骤S7：将步骤S6映射后得到的N个候选框的特征图通过改进的Faster R-CNN网络的全连接层和softmax层进行漂浮物和非漂浮物的分类，同时对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。

进一步地，步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为：原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数，对应的基础层中卷积核也从二维卷积核修改成三维卷积核，池化从二维池化修改成三维池化。

进一步地，步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层，所有的卷积都是在3×3×3的三维卷积核上进行操作，用以同时提取空间和时间上的特征，每两个卷积层之后接一个2×2×2的最大池化层，经过4次池化之后，时间轴上将被压缩为1。

进一步地，所述步骤S2的具体内容为：首先，所述RPN网络层对所述特征图每个点生成初始候选框，以每个点为中心在其领域生成三种尺度即4、8、16，三种比例即1：1、1：2、2：1的9个初始候选框，然后对所述特征图进行1×1的卷积，通过softmax函数将每个所述初始候选框分类为前景或者背景，并请分类为前景的作为区域候选框。

与现有技术相比，本发明具有以下有益效果：

(1)本发明不依赖于背景模型的建立准确性，灵活易用，无需定点分析，可以有效地过滤水波、树叶晃动以及光照影响产生的误判，准确度更高。

(2)本发明可以有效地解决强倒影、光斑、飞鸟蚊虫的影响，同时结合Faster R-CNN的RPN网络结构，基于视频特征生成区域推荐，大大降低了计算量，有效提升了方法的实时性，并进一步提高了定位的精确度。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的三维特征提取网络图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，包括以下步骤：

F(A_x,A_y,A_w,A_h)＝(G′_x,G′_y,G′_w,G′_h)，

(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)；

步骤S5：对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序，对前K个候选框通过两次非极大值抑制法(NMS)剔除与真实目标重叠度低的候选框以及超出图像边界的候选框，再选出是是前景的概率较大的前N个候选框送入步骤S6；

步骤S6：结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上，所述固定尺寸为7×7×depth；用以进行后续的分类是否为漂浮物，防止采用剪切和缩放方法产生的失真；

在本实施例中，步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为：原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数，对应的基础层中卷积核也从二维卷积核修改成三维卷积核，池化从二维池化修改成三维池化。

在本实施例中，步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层，所有的卷积都是在3×3×3的三维卷积核上进行操作，用以同时提取空间和时间上的特征，每两个卷积层之后接一个2×2×2的最大池化层，经过4次池化之后，时间轴上将被压缩为1，如图2所示。

在本实施例中，所述步骤S2的具体内容为：首先，所述RPN网络层对所述特征图每个点生成初始候选框，以每个点为中心在其领域生成三种尺度即4、8、16，三种比例即1：1、1：2、2：1的9个初始候选框，然后对所述特征图进行1×1的卷积，通过softmax函数将每个所述初始候选框分类为前景或者背景，并请分类为前景的作为区域候选框。

整个网络的训练过程仍然采用Faster R-CNN的交替训练策略：

1.标注样本：对一段16帧的视频序列，标记起始帧和终止帧的漂浮物位置为对角线顶点位置，形成的矩形框作为矩形框真实值标签。

2.利用标记好的样本单独训练RPN网络，

3.利用步骤1训练好的三维特征提取网络结合RPN得到的候选框单独训练Fast R-CNN网络；

4.利用步骤2得到的三维特征提取网络微调RPN网络

5.利用步骤3得到的三维特征提取网络结合RPN得到的候选框再次微调Fast R-CNN网络。

较佳的，本实施例将Faster R-CNN原有的VGG或ResNet等提取二维特征的网络结构替换成三维特征提取网络，增加了时间维度上的信息，区分漂浮物运动和水波晃动以及树叶晃动的不同，同时保留原有的区域建议网络(RPN)结构，快速地生成侯选区域，定位更精准、实时性更高。

特别的，本实施例相较于基于背景的模型，不依赖于背景模型的建立准确性，灵活易用，无需定点分析，可以有效地过滤水波、树叶晃动以及光照影响产生的误判，准确度更高。

本实施例相较于基于网络的模型，增加了提取时间维度上的特征，比基于单张图像的方法特征表达更准确，可以有效地解决强倒影、光斑、飞鸟蚊虫的影响，同时结合Faster R-CNN的RPN网络结构，基于视频特征生成区域推荐，大大降低了计算量，有效提升了方法的实时性，并进一步提高了定位的精确度。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，其特征在于：

包括以下步骤：

F(A_x,A_y,A_w,A_h)＝(G′_x,G′_y,G′_w,G′_h)，

(G′_x,G′_y,G′_w,G′_h)≈(G_x,G_y,G_w,G_h)；

步骤S5：对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序，对前K个候选框通过两次非极大值抑制法剔除与真实目标重叠度低的候选框以及超出图像边界的候选框，再选出是前景的概率较大的前N个候选框送入步骤S6；

步骤S6：结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上；所述固定尺寸为7×7×depth；

2.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，其特征在于：步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为：原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数，对应的基础层中卷积核也从二维卷积核修改成三维卷积核，池化从二维池化修改成三维池化。

3.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，其特征在于：步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层，所有的卷积都是在3×3×3的三维卷积核上进行操作，用以同时提取空间和时间上的特征，每两个卷积层之后接一个2×2×2的最大池化层，经过4次池化之后，时间轴上将被压缩为1。

4.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法，其特征在于：所述步骤S3的具体内容为：首先，所述RPN网络对所述特征图每个点生成初始候选框，以每个点为中心在其领域生成三种尺度即4、8、16，三种比例即1：1、1：2、2：1的9个初始候选框，然后对所述特征图进行1×1的卷积，通过softmax函数将每个所述初始候选框分类为前景或者背景，并请分类为前景的作为区域候选框。