CN110472628B - 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 - Google Patents
一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 Download PDFInfo
- Publication number
- CN110472628B CN110472628B CN201910738475.3A CN201910738475A CN110472628B CN 110472628 B CN110472628 B CN 110472628B CN 201910738475 A CN201910738475 A CN 201910738475A CN 110472628 B CN110472628 B CN 110472628B
- Authority
- CN
- China
- Prior art keywords
- network
- dimensional
- cnn network
- frames
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于视频特征的改进Faster R‑CNN网络检测漂浮物方法,将Faster R‑CNN网络中的二维特征提取网络替换为三维特征提取网络得到改进后的Faster R‑CNN网络;输入连续的16帧视频序列图像到三维特征提取网络中提取特征图,将特征图送入RPN网络生成区域候选框并进行分类属于前景或者背景;对分类为前景的初始候选框进行包围盒回归修正初始矩形框的位置;对所有的侯选矩形框进行排序,选出是前景概率较大的前N个候选框;将特征图通过ROI池化层将N个候选框的特征图映射到固定尺寸;将得到的特征图通过全连接层和softmax层进行漂浮物和非漂浮物的分类,对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。本发明能提高漂浮物搜索过程的效率,节省人力物力成本。
Description
技术领域
本发明涉及水利、环保领域,计算机视觉、深度学习领域,特别是一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法。
背景技术
随着城镇建设和工业化的加快,城市内河的漂浮物日益增多,不仅破坏自然景观、污染水质,还将对水利工程、水电枢纽的正常运转产生影响,危害人们的生产生活安全,有效治理漂浮物是水环境治理的重要组成部分。但目前对漂浮物的打捞工作主要依靠人工搜索,效率低下,费时费力。基于视频图像自动检测漂浮物的方法可以大大提高漂浮物搜索过程的效率,节省人力物力成本。
因此,既能保证精准度又具有较好实时性的漂浮物识别方法具有重要的研究意义和实用价值。
现有的基于机器学习或深度学习的河道漂浮物检测方法主要分为基于背景模型的方法和基于网络的方法两类:
基于背景模型的方法使用混合高斯模型或视觉背景提取算子建立河面背景模型,并对背景模型进行实时更新,当新图像进入时使用帧差法提取运动目标,这种方法无法完全过滤掉水波、河岸边的树叶晃动以及光照的影响。或者采用定点分析的方法,事先标注水面范围,通过图像配准提取背景,然后通过颜色纹理检测异常区域,这种方法同样因为光照条件影响或水面涨跌图像配准会出现偏差,且定点分析的方法本身灵活性差,实用性不高。
基于网络的方法主要采用当下比较流行的目标检测网络,如Faster R-CNN、YOLOv2等,但这些目标检测网络都是基于图像的,当场景中出现强倒影、光斑、以及飞过河面的飞鸟蚊虫等情况时,仅仅依靠单张图像难以区分,容易产生误报。而如果采用三维卷积网络如C3D同时提取空间和时间轴上的特征,计算量较大,无法做到实时检测,且河岸边的行人车辆等运动目标会产生干扰。
发明内容
有鉴于此,本发明的目的是提供一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,可以大大提高漂浮物搜索过程的效率,节省人力物力成本。
本发明采用以下方案实现:一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,包括以下步骤:
包括以下步骤:
步骤S1:将Faster R-CNN网络中的VGG或ResNet二维特征提取网络替换为三维特征提取网络得到改进后的Faster R-CNN网络;
步骤S2:提供连续的16帧视频序列图像,输入所述连续的16帧视频序列图像到所述改进的Faster R-CNN网络的三维特征提取网络中提取特征图;
步骤S3:将步骤S2中得到的特征图送入到改进的Faster R-CNN网络的RPN网络中生成区域候选框;
步骤S4:对步骤S3中分类为前景的区域候选框进行包围盒回归,修正区域候选框的位置,区域候选框为A=(Ax,Ay,Aw,Ah),真实包围盒为GT=(Gx,Gy,Gw,Gh),回归目标为寻找一种变换F,使得:
F(Ax,Ay,Aw,Ah)=(G′x,G′y,G′w,G′h),
(G′x,G′y,G′w,G′h)≈(Gx,Gy,Gw,Gh);
步骤S5:对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序,对前K个候选框通过两次非极大值抑制法(NMS)剔除与真实目标重叠度低的候选框以及超出图像边界的候选框,再选出是前景的概率较大的前N个候选框送入步骤S6;
步骤S6:结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上,所述固定尺寸为7×7×depth;
步骤S7:将步骤S6映射后得到的N个候选框的特征图通过改进的Faster R-CNN网络的全连接层和softmax层进行漂浮物和非漂浮物的分类,同时对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。
进一步地,步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为:原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数,对应的基础层中卷积核也从二维卷积核修改成三维卷积核,池化从二维池化修改成三维池化。
进一步地,步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层,所有的卷积都是在3×3×3的三维卷积核上进行操作,用以同时提取空间和时间上的特征,每两个卷积层之后接一个2×2×2的最大池化层,经过4次池化之后,时间轴上将被压缩为1。
进一步地,所述步骤S2的具体内容为:首先,所述RPN网络层对所述特征图每个点生成初始候选框,以每个点为中心在其领域生成三种尺度即4、8、16,三种比例即1:1、1:2、2:1的9个初始候选框,然后对所述特征图进行1×1的卷积,通过softmax函数将每个所述初始候选框分类为前景或者背景,并请分类为前景的作为区域候选框。
与现有技术相比,本发明具有以下有益效果:
(1)本发明不依赖于背景模型的建立准确性,灵活易用,无需定点分析,可以有效地过滤水波、树叶晃动以及光照影响产生的误判,准确度更高。
(2)本发明可以有效地解决强倒影、光斑、飞鸟蚊虫的影响,同时结合Faster R-CNN的RPN网络结构,基于视频特征生成区域推荐,大大降低了计算量,有效提升了方法的实时性,并进一步提高了定位的精确度。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的三维特征提取网络图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,包括以下步骤:
步骤S1:将Faster R-CNN网络中的VGG或ResNet二维特征提取网络替换为三维特征提取网络得到改进后的Faster R-CNN网络;
步骤S2:提供连续的16帧视频序列图像,输入所述连续的16帧视频序列图像到所述改进的Faster R-CNN网络的三维特征提取网络中提取特征图;
步骤S3:将步骤S2中得到的特征图送入到改进的Faster R-CNN网络的RPN网络中生成区域候选框;
步骤S4:对步骤S3中分类为前景的区域候选框进行包围盒回归,修正区域候选框的位置,区域候选框为A=(Ax,Ay,Aw,Ah),真实包围盒为GT=(Gx,Gy,Gw,Gh),回归目标为寻找一种变换F,使得:
F(Ax,Ay,Aw,Ah)=(G′x,G′y,G′w,G′h),
(G′x,G′y,G′w,G′h)≈(Gx,Gy,Gw,Gh);
步骤S5:对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序,对前K个候选框通过两次非极大值抑制法(NMS)剔除与真实目标重叠度低的候选框以及超出图像边界的候选框,再选出是是前景的概率较大的前N个候选框送入步骤S6;
步骤S6:结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上,所述固定尺寸为7×7×depth;用以进行后续的分类是否为漂浮物,防止采用剪切和缩放方法产生的失真;
步骤S7:将步骤S6映射后得到的N个候选框的特征图通过改进的Faster R-CNN网络的全连接层和softmax层进行漂浮物和非漂浮物的分类,同时对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。
在本实施例中,步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为:原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数,对应的基础层中卷积核也从二维卷积核修改成三维卷积核,池化从二维池化修改成三维池化。
在本实施例中,步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层,所有的卷积都是在3×3×3的三维卷积核上进行操作,用以同时提取空间和时间上的特征,每两个卷积层之后接一个2×2×2的最大池化层,经过4次池化之后,时间轴上将被压缩为1,如图2所示。
在本实施例中,所述步骤S2的具体内容为:首先,所述RPN网络层对所述特征图每个点生成初始候选框,以每个点为中心在其领域生成三种尺度即4、8、16,三种比例即1:1、1:2、2:1的9个初始候选框,然后对所述特征图进行1×1的卷积,通过softmax函数将每个所述初始候选框分类为前景或者背景,并请分类为前景的作为区域候选框。
整个网络的训练过程仍然采用Faster R-CNN的交替训练策略:
1.标注样本:对一段16帧的视频序列,标记起始帧和终止帧的漂浮物位置为对角线顶点位置,形成的矩形框作为矩形框真实值标签。
2.利用标记好的样本单独训练RPN网络,
3.利用步骤1训练好的三维特征提取网络结合RPN得到的候选框单独训练Fast R-CNN网络;
4.利用步骤2得到的三维特征提取网络微调RPN网络
5.利用步骤3得到的三维特征提取网络结合RPN得到的候选框再次微调Fast R-CNN网络。
较佳的,本实施例将Faster R-CNN原有的VGG或ResNet等提取二维特征的网络结构替换成三维特征提取网络,增加了时间维度上的信息,区分漂浮物运动和水波晃动以及树叶晃动的不同,同时保留原有的区域建议网络(RPN)结构,快速地生成侯选区域,定位更精准、实时性更高。
特别的,本实施例相较于基于背景的模型,不依赖于背景模型的建立准确性,灵活易用,无需定点分析,可以有效地过滤水波、树叶晃动以及光照影响产生的误判,准确度更高。
本实施例相较于基于网络的模型,增加了提取时间维度上的特征,比基于单张图像的方法特征表达更准确,可以有效地解决强倒影、光斑、飞鸟蚊虫的影响,同时结合Faster R-CNN的RPN网络结构,基于视频特征生成区域推荐,大大降低了计算量,有效提升了方法的实时性,并进一步提高了定位的精确度。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (4)
1.一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,其特征在于:
包括以下步骤:
步骤S1:将Faster R-CNN网络中的VGG或ResNet二维特征提取网络替换为三维特征提取网络得到改进后的Faster R-CNN网络;
步骤S2:提供连续的16帧视频序列图像,输入所述连续的16帧视频序列图像到所述改进的Faster R-CNN网络的三维特征提取网络中提取特征图;
步骤S3:将步骤S2中得到的特征图送入到改进的Faster R-CNN网络的RPN网络中生成区域候选框;
步骤S4:对步骤S3中分类为前景的区域候选框进行包围盒回归,修正区域候选框的位置,区域候选框为A=(Ax,Ay,Aw,Ah),真实包围盒为GT=(Gx,Gy,Gw,Gh),回归目标为寻找一种变换F,使得:
F(Ax,Ay,Aw,Ah)=(G′x,G′y,G′w,G′h),
(G′x,G′y,G′w,G′h)≈(Gx,Gy,Gw,Gh);
步骤S5:对步骤S4中所有修正坐标后的区域侯选框进行是前景的概率的排序,对前K个候选框通过两次非极大值抑制法剔除与真实目标重叠度低的候选框以及超出图像边界的候选框,再选出是前景的概率较大的前N个候选框送入步骤S6;
步骤S6:结合步骤S2所得的特征图通过改进的Faster R-CNN网络的ROI池化层将是前景的概率较大的前N个候选框特征图映射到固定尺寸的特征图上;所述固定尺寸为7×7×depth;
步骤S7:将步骤S6映射后得到的N个候选框的特征图通过改进的Faster R-CNN网络的全连接层和softmax层进行漂浮物和非漂浮物的分类,同时对该特征图再次进行包围盒回归进一步修正检测出的漂浮物坐标位置。
2.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,其特征在于:步骤S1中所述将二维特征提取网络替换为三维特征提取网络的具体过程为:原始的二维特征提取网络输入为图像即Width×Height×Channel,修改后输入为一段视频序列即Length×Width×Height×Channel,其中Length指输入的视频序列帧数,对应的基础层中卷积核也从二维卷积核修改成三维卷积核,池化从二维池化修改成三维池化。
3.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,其特征在于:步骤S1中所述的改进的Faster R-CNN网络的三维特征提取网络共包含8个卷积层,所有的卷积都是在3×3×3的三维卷积核上进行操作,用以同时提取空间和时间上的特征,每两个卷积层之后接一个2×2×2的最大池化层,经过4次池化之后,时间轴上将被压缩为1。
4.根据权利要求1所述的一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法,其特征在于:所述步骤S3的具体内容为:首先,所述RPN网络对所述特征图每个点生成初始候选框,以每个点为中心在其领域生成三种尺度即4、8、16,三种比例即1:1、1:2、2:1的9个初始候选框,然后对所述特征图进行1×1的卷积,通过softmax函数将每个所述初始候选框分类为前景或者背景,并请分类为前景的作为区域候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738475.3A CN110472628B (zh) | 2019-08-10 | 2019-08-10 | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738475.3A CN110472628B (zh) | 2019-08-10 | 2019-08-10 | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472628A CN110472628A (zh) | 2019-11-19 |
CN110472628B true CN110472628B (zh) | 2022-11-15 |
Family
ID=68511380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910738475.3A Active CN110472628B (zh) | 2019-08-10 | 2019-08-10 | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472628B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992415B (zh) * | 2019-12-03 | 2020-10-30 | 乐清市泰博恒电子科技有限公司 | 一种基于大数据的水面漂浮物污染评价系统及其方法 |
CN111611925A (zh) * | 2020-05-21 | 2020-09-01 | 重庆现代建筑产业发展研究院 | 一种建筑物检测与识别方法及装置 |
CN112183534B (zh) * | 2020-10-07 | 2023-05-23 | 西安电子科技大学 | 基于视频合成孔径雷达的动目标智能联合检测方法 |
CN112488073A (zh) * | 2020-12-21 | 2021-03-12 | 苏州科达特种视讯有限公司 | 目标检测方法、系统、设备及存储介质 |
CN113158965B (zh) * | 2021-05-08 | 2024-03-19 | 福建万福信息技术有限公司 | 一种实现海漂垃圾识别的仿视觉识别方法、设备和介质 |
CN113627295A (zh) * | 2021-07-28 | 2021-11-09 | 中汽创智科技有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368845B (zh) * | 2017-06-15 | 2020-09-22 | 华南理工大学 | 一种基于优化候选区域的Faster R-CNN目标检测方法 |
CN108304808B (zh) * | 2018-02-06 | 2021-08-17 | 广东顺德西安交通大学研究院 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
CN110111328A (zh) * | 2019-05-16 | 2019-08-09 | 上海中认尚科新能源技术有限公司 | 一种基于卷积神经网络的风力发电机叶片裂纹检测方法 |
-
2019
- 2019-08-10 CN CN201910738475.3A patent/CN110472628B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110472628A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472628B (zh) | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 | |
CN108491854B (zh) | 基于sf-rcnn的光学遥感图像目标检测方法 | |
CN110378308B (zh) | 改进的基于Faster R-CNN的港口SAR图像近岸舰船检测方法 | |
CN109145872B (zh) | 一种基于CFAR与Fast-RCNN融合的SAR图像舰船目标检测方法 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN111640125B (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN105608456B (zh) | 一种基于全卷积网络的多方向文本检测方法 | |
CN102096821B (zh) | 基于复杂网络理论的强干扰环境下的车牌识别方法 | |
CN106845408A (zh) | 一种复杂环境下的街道垃圾识别方法 | |
CN109448001B (zh) | 一种图片自动裁剪方法 | |
CN111797712B (zh) | 基于多尺度特征融合网络的遥感影像云与云阴影检测方法 | |
CN110298227B (zh) | 一种基于深度学习的无人机航拍图像中的车辆检测方法 | |
CN109117802A (zh) | 面向大场景高分遥感影像的舰船检测方法 | |
CN104715474B (zh) | 基于标记分水岭算法的高分辨率合成孔径雷达图像线性建筑物检测方法 | |
CN111027511B (zh) | 基于感兴趣区块提取的遥感图像舰船检测方法 | |
CN110008900B (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN105718912B (zh) | 一种基于深度学习的车辆特征物检测方法 | |
CN110378239A (zh) | 一种基于深度学习的实时交通标志检测方法 | |
CN107545571A (zh) | 一种图像检测方法及装置 | |
CN105931241A (zh) | 一种自然场景图像的自动标注方法 | |
CN109741340A (zh) | 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法 | |
Zhou et al. | Building segmentation from airborne VHR images using Mask R-CNN | |
CN117437201A (zh) | 一种基于改进YOLOv7的道路裂缝检测方法 | |
CN115661777A (zh) | 一种联合语义的雾天道路目标检测算法 | |
CN110097524A (zh) | 基于融合卷积神经网络的sar图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |