CN108427920A

CN108427920A - 一种基于深度学习的边海防目标检测方法

Info

Publication number: CN108427920A
Application number: CN201810159198.6A
Authority: CN
Inventors: 刘俊; 汪志强; 李亚辉; 王立林
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-21
Anticipated expiration: 2038-02-26
Also published as: CN108427920B

Abstract

本发明公开了一种基于深度学习的边海防目标检测方法，提出了一种改进的基于FRCNN的目标检测网络模型，属于目标检测技术以及计算机视觉领域。该方法针对原有的FRCNN算法检测耗时过长的问题，重新设计了检测网络中的特征提取结构，并利用筛选后的图像分类数据集重新训练，得到一个参数量更少、计算量更小的图像分类模型。使用可变形卷积替换原有的特有卷积层，提高检测网络对物体形变的适应能力，从而提高网络结构的平均检出率。

Description

一种基于深度学习的边海防目标检测方法

技术领域

本发明属于目标检测领域，尤其涉及一种基于深度学习的边海防目标检测方法。

背景技术

边海防工作是国家领土主权和人民人身财产安全的重要保障，其职责是维护边境沿海地区的稳定，拦截不法人员和非法目标进入我国领地。随着我国对外开放的进一步深入，出入境的人流量不断上升，边境上走私、偷渡等犯罪活动日益猖獗。传统的依靠人力的边防执勤方式已经无法满足当前形式下的边海防安全要求。因此，构建智能化的边海防平台系统，使其满足复杂背景下边海防任务要求便显得尤为迫切。

近年来，视频监控技术已在我国边海防系统中大量应用，为边海防智能化建设提供了数据支持和实现基础。我国边防区域环境复杂，边境线极长，边防监测站，出入境口岸等重点监控地区分布比较零散，造成大量的监控数据无法及时得到处理，使得视频信息资源存在极大浪费。目前，大部分监控的视频需要依靠边防战士人工处理，其存在效率太低、前端和后端都不支持对目标的自动检测的缺点，其中应用的前沿技术也仅仅是视频的关键帧的提取，无法满足及时有效处理大量数据的需求。

在计算机视觉领域，图像分类和检测任务一直是科研工作者研究的重点。近年来，深度学习基于自身强大的学习特征表达的能力，在模式识别和计算机视觉领域快速发展，迅速替代了以往基于先验知识的人工构造特征的方式。其中，卷积神经网络(Convolutional Neural Network，CNN)在目标分类上的成功应用极大地提高了图像分类任务的精确率。该方法在不同场景、不同分辨率等复杂情况下较传统方法仍具有较高的准确率和鲁棒性。

故，针对现有技术存在的技术问题，实有必要提出一种技术方案以克服现有技术的缺陷。

发明内容

有鉴于此，确有必要提供一种基于深度学习的边海防目标检测方法，实现对边界上大量视频数据进行更加高效的处理，对附近行人和车辆进行准确识别和检测，为边防决策人员提供更加直观的数据，保障我国的边境安全。

为了解决现有技术存在的技术问题，本发明的技术方案为：

一种基于深度学习的边海防目标检测方法，包括以下步骤：

步骤(1)：重新设计分类网络模型，并用公开的图像分类数据集重新训练；

步骤(2)：重新构建目标检测网络模型，并利用步骤(1)中得到的分类网络模型作为检测网络特征提取结构的初始化参数进行训练，使用自建的行人车辆数据集进行训练，从而得到目标检测网络模型；

步骤(3)：选择待检测的图像或者视频，用训练好的目标检测模型进行处理；

步骤(4)：利用步骤(3)得到的目标检测模型，构建深度学习目标检测平台，其中包括对检测结果的可视化和存储；

其中，步骤(1)重新设计分类网络结构，并用公开数据集进行重新训练的步骤为：

步骤(1-1)，重新设计分类网络模型，具体包括以下步骤：

步骤(1-1-1)，使用Inception结构扩展标准卷积模块，从输入特征图中提取不同的特征，然后将这些得到的特征进行重新组合生成一个新的特征表示；标准卷积的输出特征图计算公式如下：

1≤i,j≤D_k

1≤m≤M

1≤N

其中，F表示一个维度为D_F×D_F×M的特征图，特征图一般有多个通道，每个通道用一个二维的特征向量表示，D_F表示输入特征图的宽度，M表示输入特征图的通道数，D_G表示输出特征图的宽度，N是输出特征图的深度，同时也表示卷积核的种类；K表示卷积核参数矩阵，它的维度大小为 D_K×D_K×M×N；

对每个输入特征图通道使用深度卷积的操作为：

其中，这里的深度卷积核K′的大小变为D_k×D_k×1×M，M表示卷积核的种类；输出特征图G′的第m个通道是由卷积核K′中的第m个滤波器和F'的第m个通道进行卷积操作得到的；

步骤(1-1-2)，通过SE模块对输出的特征图通道进行重新校准；其主要操作如下：

(1)：压缩操作F_sq，具体为对一个输出通道数为C的特征图U_c，对其中每个二维的特征图通道进行全局池化的操作，得到一组用实数表示的通道描述符向量z_c,公式如下：

其中，W×H表示U的空间分辨率；

(2)：增强操作F_ex，采用sigmoid来将第一步中获得的一维向量的权值归一化到0～1之间，计算过程如下：s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，z表示由F_sq操作生成的一维向量，g表示sigmoid函数，δ代表ReLU 激活函数，W₁和W₂表示两个全连接层的矩阵权重；

(3)：缩放操作F_scale，具体计算过程为：

X_c＝F_scale((U_c,S_c))＝U_c×S_c

其中，U_c代表第c个通道的特征图，S_c表示第c个通道对应的SE模块输出值；X_c＝[x₁,x₂,...x_c]表示缩放之后的相应的通道特征图的联合；

步骤(1-2)，对Imagenet数据集进行基于先验知识的筛选，并进行编码处理，具体的方式如下：

步骤(1-2-1)，根据背景和应用需求指定类别编号；

步骤(1-2-2)，根据每个类别对应的文件夹编号将不需要的类别图像从训练集和验证集中移除，留下需要的图像数据，每个文件夹编号代表一类物体；

步骤(1-2-3)，读取原有的训练集标签文件train.txt和验证集标签文件val.txt，将其中无关类别的标签信息从中删除，留下指定的类别并对每一类的文件间进行编号，从而生成新的train.txt和val.txt文件；

步骤(1-2-4)，利用mxnet(深度学习框架)提供的转换工具对图像文件读取并重新编码，从而转换为指定格式的数据库文件；

步骤(1-3)，利用设计好的训练网络和筛选后的imagenet图像分类数据集，训练出改进之后的分类网络模型Inception-Bn-Dw-Se网络模型，具体步骤为：

步骤(1-3-1)，参数初始化，对网络中的权重使用均值为0，方差为1的高斯分布进行初始化；

步骤(1-3-2)，图像预处理：从训练样本库中选择无重复的一个批次的图像样本，随机裁剪并进行减均值的操作，将最终得到的矩阵数据送入到深度网络中进行训练；

步骤(1-3-3)，前向传播：将预处理之后的图像样本数据送入分类网络中进行并行的前向传播，即将上面得到的矩阵数据输入到深度卷积神经网络中进行深度可分离卷积、压缩增强操作、池化、全局池化等操作传播到最终的 SoftMax层，计算得到最终的分类结果，并与样本对应的真实标签值进行比较，利用网络代价函数得到误差值；

步骤(1-3-4)，反向传播：得到这个批次训练结果的误差之后，将误差值通过梯度的形式反向传播到分类网络中所有含有训练参数的层中，并利用这个梯度来更新网络中可训练的参数；

步骤(1-3-5)，前向传播和反向传播交替迭代作用，直到网络完全收敛或者达到预设的迭代次数，得到最终的训练模型。

优选地，所述步骤(2)进一步包括如下步骤：

步骤(2-1)：重新设计目标检测网络模型：

步骤(2-1-1)，用可变形卷积来替换特征提取结构中的特有卷积层，对于可变形卷积的输出特征图y上的每一个点p₀，可通过如下公式计算出该点的输出值y(p₀)：

其中，R＝{(-1,-1),(-1,0),…,(0，1),(1，1)}表示卷积操作中输入特征图上规则的感受野网格，{Δp_n|n＝1,…,N}表示p₀点处对应的偏移量，其中N＝|R|；相应的偏移后的位置为p_n+Δp_n，采用双线性插值的方式来求出相应点的像素值：

其中，p表示特征图上一个任意的点，大小等于(p₀+p_n+Δp_n)，q的值涵盖了在特征图x上所以需要积分的空间位置，其中G(·,·)是双线性插值算法的核函数；G是二维的，可被分为如下的两个二维的核：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

g(a,b)＝max(0,1-|a-b|)

步骤(2-1-2)，利用共享卷积层的输出特征图通过候选区域生成网络生成一定数量的候选区域。同时对特有卷积层进行卷积操作来生成一个k²(C+1)通道的特征图和一个同级的具有4k²个通道的特征图，这里的k是可设定的参数， C表示需要检测的物体总的类别数；

步骤(2-1-3)，对于每个感兴趣区域，将其映射到k²(C+1)通道的特征图上，然后通过全局池化的方式生成一个C+1维度的向量r_c来表示这个感兴趣区域属于类别C的得分值，然后用Softmax响应：计算交叉熵，并用求得的结果来表示这个区域属于对应类别的置信度；

步骤(2-1-4)，为了得到更准确的检测框坐标，使用一个同级的具有4k²个通道的卷积层来进行边框回归，对k×k大小的矩阵求和，最终可以计算出一个 1×4的向量t＝(x_s,y_s,x_e,y_e)，其中(x_s,y_s)表示检测框起点坐标，(x_e,y_e)表示检测框终点坐标；

步骤(2-2)：使用网络摄像头采集视频，并用开源软件ffmpeg进行编解码处理，得到一系列的图像帧文件并进行人工筛选，然后使用lableImg工具进行打标签的操作，并将标签信息保存为xml文件，建立行人车辆的检测数据集；

步骤(2-3)：利用最终设计的检测网络和自建的行人车辆检测数据集，进行检测网络模型的训练，训练时加载步骤(1)中得到的分类网络进行参数初始化，检测网络其他部分的参数进行高斯初始化，然后对检测网络端到端的训练。

优选地，步骤(3)中根据需求选择待测试的视频或者图像，利用深度学习框架加载训练好的检测模型并对输入文件进行处理。

优选地，步骤(4)中对于每幅图像的每一个待检测的类别，检测网络会根据设定的阈值IOU，将计算出来的所有大于此阈值的置信度的坐标和得分作为最终的检测结果，并将检测结果的坐标通过矩形框的形式画出，同时标注出该类别和对应的置信度信息。最后将检测结果根据输入文件类型按照不同的表的形式保存到数据库中。

与现有技术相比较，本发明的有益效果：实时检测视频中的目标，并将结果进行可视化的呈现，替代以往边海防部门中低效地人工处理视频数据的方式；对比典型的基于ResNet或者Vgg的FRCNN检测模型，本发明使用Inception 结构、深度可分离卷积和位置敏感得分图可以极大的减少检测模型的大小和计算量，同时利用SE模块和可变形卷积模块弥补前几种措施带来的检测率下降的影响，从而得到一个可以进行实时检测的目标检测模型，提高了视频数据的处理效率，便于边防指挥人员在第一时间内得到各个区域的目标信息，然后根据这些检测结果进行更加合理的防卫调度。

附图说明

图1基于FRCNN的目标检测算法流程图。

图2从普通卷积到Inception结构。

图3从Inception结构到Inception-Bn结构。

图4标准卷积滤波器和深度可分离滤波器。

图5Inception-BN(-Dw)-SE结构。

图6制作67类imagenet分类数据集。

图7基于深度学习的视频目标检测的业务流程活动图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的基于深度学习的边海防目标检测方法作进一步说明。

针对现有技术存在的相关技术问题，本发明从当前我国边海防智能化的理念出发，结合深度学习在目标检测方面最前沿的技术手段，提出一种基于改进已有网络的目标检测方法，该方法能够准确检测出行人、车辆载具、舰船或其他预先设定的典型目标的位置信息和类别，同时将检测结果输出为更容易被人类理解的语义信息，为边境防卫指挥决策智能化建设提供技术支撑。

为了解决现有技术存在的技术问题，本发明提出一种基于深度学习的边海防目标检测方法，包括以下步骤：

步骤(2)：重新构建目标检测网络模型，并利用步骤(1)中得到的分类网络模型作为检测网络特征提取结构的初始化参数进行训练，训练时利用自建的行人车辆数据集进行训练，从而得到目标检测网络模型；

如图1所示，原有的FRCNN(基于候选区域的卷积神经网络快速检测模型) 框架下的检测模型耗时主要在于特征提取结构的前向传播和最后对候选区域进行分类的全连接层结构，因此需要针对实时性需求重新设计分类结构(即特征提取部分)并用公开数据集重新训练，为后续的检测网络的训练提供基础模型。

步骤(1)进一步包括以下步骤：

步骤(1-1)，重新设计分类网络结构，得到一个参数更少、计算量更小的图像分类模型。

步骤(1-1-1)使用Inception-BN结构扩展标准卷积结构，具体如图2和图3所示，在普通卷积结构基础上，通过堆叠多个3×3卷积和5×5卷积等变换来增加网络的“宽度”，同时通过添加1×1卷积核减少通道数来达到降低计算量，从而得到Inception卷积结构。Inception-Bn相对于Inception结构大量的使用了批归一化(Batch Normalization，BN)层，这个结构能够使每一个层的输出都归一化到服从均值为0方差为1的正态分布上，加速网络的训练。为了降低参数数量同时加速计算，参考VGG网络结构用2个3×3卷积取代原有的 5×5卷积。

步骤(1-1-2)参见图4，使用深度可分离卷积替代原有3×3卷积。标准卷积的作用就是使用不同的滤波器从输入特征图中提取不同的特征然后将这些得到的特征进行重新组合生成一个高层的特征表示，逐渐地将低层特征向高层语义特征转化，得到便于人类理解的信息。标准卷积的输出特征图计算如下：

1≤i,j≤D_k

1≤m≤M

1≤N

其中，F表示一个维度为D_F×D_F×M的特征图，D_F表示输入特征图的宽度和高度，M是输入特征图的深度，D_G是输出特征图的宽度，N是输出特征图的深度；K表示卷积核参数，它的维度为D_K×D_K×M×N，N表示卷积核的种类。

步骤(1-1-3)使用深度可分离卷积将原有的标准卷积方式分解成深度卷积和1×1卷积两步计算的方式,在减少计算量的前提下等效的替代原有的标准卷积操作。对每个输入特征图通道使用深度卷积的操作为：

其中，这里的深度卷积核K′的大小变为D_k×D_k×1×M，M表示卷积核的种类。输出特征图G′的第m个通道是由卷积核K′中的第m个滤波器和F'的第m 个通道进行卷积操作得到的。

步骤(1-1-4)如图5所示，结合Inception模块添加SE(卷积压缩增强) 模块，通过SE模块对输出的特征图通道进行重新校准。SE结构的主要操作有三个：

(1)，压缩操作F_sq，具体为对一个输出通道数为C的特征图U_c，对其中每个二维的特征图通道进行全局池化的操作，得到一组用实数表示的通道描述符向量z_c,这个向量用来表征特征通道对特征响应的全局分布，同时增强卷积层捕获感受野的能力，具体计算公式如下：

其中，W×H表示U的空间分辨率。

(2)，增强操作F_ex，采用sigmoid函数来将第一步中获得的一维向量的权值归一化到0～1之间，具体的计算过程如下：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

δ(x)＝max(0,x)

其中，z表示由F_sq操作生成的一维向量，g表示sigmoid函数，δ代表 ReLU激活函数，W₁和W₂表示两个全连接层的矩阵权重。经过这一层处理之后得到的一维向量S_c经过网络训练之后可以表征对应通道对当前任务的重要程度，间接地利用了通道之间的相关性信息。

(3)，缩放操作F_scale，整合上一个操作中得到的通道权重信息S_c的信息与 SE模块钱的输入特征图U_c的信息，操作方式为特征通道矩阵与相应的通道重要性权重进行乘法操作，完成在通道维度上的对原始特征的重新标定，具体的计算公式为：

X_c＝F_scale((U_c,S_c))＝U_c×S_c

其中，U_c代表第c个通道的特征图，S_c表示第c个通道对应的SE模块输出值。X_c＝[x₁,x₂,...,x_c]表示缩放之后的特征图通道的联合。

增加了SE结构之后，可以通过此结构重新整合特征图通道，具体实施方式为给每个通道添加一个表示重要程度的参数，然后通过网络的训练来自动学习这个参数的值，并依此对特征通道进行重要程度的划分，从而对分类任务有用的特征通道进行增强，而对任务相关性不大的通道进行一定程度的抑制，可以有效的提高分类网络的特征提取能力，从而获得更高的准确率。

步骤(1-1-5),整合Inception结构，深度可分离卷积和SE模块，重新设计网络结构，得到一个网络参数更少、计算量更小的深度学习分类网络模型结构，将其命名为Inception-BN-DW-SE网络。

步骤(1-2)，从1000类ImageNet分类图像数据集中筛选出与背景有关的车辆、舰船、飞机等67类，筛选出的数据集总共包含86408张训练集图像，验证集3350张图像，相对于原有的数据集的128万图像大约减少了15倍，从而可以极大地减少训练时间。具体的筛选方式如图6：

(1)根据背景需求指定67个类别的编号，如n02687172表示航空母舰， n02690373表示飞机等。

(2)在ImageNet训练集文件夹ILSVRC2012_img_train和验证集文件夹ILSVRC2012_img_val下，根据每个类别对应的文件夹编号将1000类中不需要的类别数据文件夹从训练集中移除，留下需要的图像数据，每个文件夹编号代表一类物体。

(3)读取原有的训练集标签文件train.txt和验证集标签文件val.txt，将其中无关类别的标签信息从中删除，留下指定的67类，并为每一类的文件夹从 0～66依次编号，从而生成新的train.txt和val.txt文件。

(4)为了提高IO读取效率，需要使用mxnet训练框架提供的转换工具 im2rec对原始的jpg图像进行读取、缩放为256×256的尺度、编码后存储为rec 数据库文件，该数据库文件将图像数据和对应标签重新编码，能够提高数据读取的效率，加快训练速度。

步骤(1-3)，以步骤(1-1)中设计好的Inception-BN-DW-SE分类网络模型和筛选好的ImageNet 67类数据集为基础，利用mxnet深度学习框架进行训练，具体步骤为：

(1)参数初始化，对网络中的权重使用均值为0，方差为1的正态分布进行初始化。

(2)图像预处理：从训练样本库中选择无重复的一个批次的样本，将训练图像样本水平翻转和随机裁剪成224×224的尺度进行训练，然后对处理后的图像进行减均值的操作，最终每个图像都会转化为一个3×224×224的矩阵数据送入到深度网络中进行训练。

(3)前向传播：将预处理之后的样本进行并行的前向传播操作，即将上面得到的矩阵数据送入深度卷积神经网络中，进行深度可分离卷积、压缩增强操作、池化、全局池化等操作后传播到最终的SoftMax层，得到最终的分类结果，并与样本对应的真实标签值进行比较，利用网络代价函数得到每个训练样本的误差值。

(4)反向传播：得到这个批次训练结果的误差之后，将误差值通过梯度方向传播到分类网络中所有含有训练参数，并同时用这个梯度来更新可训练的参数，计算过程如下所示：

其中，表示传播到该层时梯度对参数的偏导数，α表示学习率，N 表示这个批次样本的总数量。

(5)前向传播和反向传播交替迭代作用，直到网络完全收敛或者达到预设的迭代次数，从而得到最终的训练模型。在训练过程中使用验证集进行测试，同时观察loss的变化情况，如果loss没有下降，证明网络没有进行正常的收敛，此时需要降低学习率或者更改学习率改变策略，重新进行网络的训练。

步骤(2)利用步骤1中的分类网络作为基础，重新构建目标检测网络模型，并利用自建的行人车辆数据集进行仿真训练，得到最终的目标检测网络模型，具体的实现步骤如下：

步骤(2-1)，重新设计目标检测网络模型，具体改进措施如下：

(1)将特征提取结构中的特有卷积层替换为可变形卷积，增强网络对物体形变的适应能力。对于可变形卷积的输出特征图y上的每一个点p₀，可通过如下公式计算出该点的输出值y(p₀)：

其中，R＝{(-1,-1),(-1,0),…,(0，1),(1，1)}表示卷积操作中输入特征图上规则的感受野网格，{Δp_n|n＝1,…,N}表示p₀点处对应的偏移量，其中N＝|R|；相应的偏移后的位置为p_n+Δp_n。(2)可变形卷积中对特征图的采样位置是不固定的，偏移后的位置为p_n+Δp_n，偏移量为小数，无法直接获得偏移后采样点的坐标值，需要采用双线性插值的方式来求出相应点的像素值：

其中，p表示特征图上任意一点，大小等于(p₀+p_n+Δp_n)，q的位置涵盖了在特征图x上所以需要积分的空间位置，其中G(·,·)是双线性插值算法的核函数。G是二维的，可被分为如下的两个二维的核：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

g(a,b)＝max(0,1-|a-b|)

(3)在本实例中，设置变量k＝3，C包括行人车辆有两类。通过候选区域生成网络，利用共享卷积层的输出特征图生成200个高质量的的候选区域。同时通过对特有卷积层进行卷积操作来生成一个3²×(2+1)维度的特征图和一个同级的具有4×3²维度的特征图。

(4)由于这些候选区域具有不同的长宽比和分辨率，无法直接进行送入到后续的分类网络中，所以对于每个感兴趣区域，将其映射到(3)中的维度为3²×(2+1)的特征图上，然后通过全局池化的方式生成一个3维度的向量r_c来表示这个感兴趣区域属于类别C的得分值，然后用Softmax响应：计算交叉熵，并用求得的结果来表示这个区域属于对应类别的置信度。

(5)为了得到更准确的检测框坐标，对(3)中的同级的维度为4×3²的卷积层进行边框回归，对3×3大小的矩阵求和，最终可以计算出一个1×4的向量t＝(x_s,y_s,x_e,y_e)，其中(x_s,y_s)表示检测框起点坐标，(x_e,y_e)表示检测框终点坐标。

步骤(2-2)，使用用网络摄像头采集视频，并用开源软件ffmpeg进行编解码处理，得到一系列的图像帧文件并进行人工筛选，去除重复的损坏的图像，然后使用lableImg工具进行打标签的操作，并将标签信息保存为xml文件，建立行人车辆的检测数据集。编解码具体转换方式如表1所示，原始视频的图像编码格式为HEVC，通过解码器H264转换为RGB图像。

表1视频编解码

步骤(2-3)，利用最终设计的检测网络和自建的行人车辆检测数据集，进行检测网络的训练，训练时加载步骤(1)中的分类模型的参数进行初始化，检测网络其他部分进行高斯初始化，然后通过mxnet框架对检测网络端到端的训练。初始学习率设为0.005，优化方式选择随机梯度下降法(SGD)，在epoch 分别为lr_step＝[4,10,17,22]将学习率将为原来的0.5倍。训练过程中屏幕会输出日志信息，根据误差loss和准确率acc的变化调整学学习率和lr_step，最终训练完成后得到检测模型的参数文件。

步骤(3)利用深度学习框架mxnet加载步骤(2)最后生成的检测网络模型，本实例以视频文件为输入，进行测试的步骤如图7所示，具体为：

步骤(3-1)，mxnet加载网络模型和网络定义文件

步骤(3-2)，开源库opencv读入视频文件，然后从视频文件对象中取出一帧图像，将其进行预处理操作之后送入训练好的检测网络中。

步骤(3-3)，图像在检测网络中进行前向传播，对于每个待检测的类别，最终会产生多个5维向量数据，表示坐标和相应类别的置信度，设置置信度的阈值IOU＝0.8，表示只输出置信度大于0.8以上的检测结果。

步骤(3-4)，通过Python中的matplotlib库将检测结果的坐标通过矩形框的形式画出，并标注类别和对应的置信度信息。读取下一帧图像数据后重复步骤(3-3)的操作。

步骤(4)为了后期可以随时调用检测结果的信息，需要将检测结果保存为xml文件，并且与输入文件进行关联，下面针对不同的输入文件进行相应的的数据库关联处理。

(1)对于图像检测结果，利用mysql数据库建立检测结果xml文件与输入文件名之间的表结构，具体如下表所示：

表2图像检测结果信息数据表字段说明

字段	字段说明	字段类型	字段属性
				Id	条目编号	int	Primary key,not null
Pic_Path	图像所在路径	Varchar(1024)	Not null
				Det_Result	检测结果的路径	Varchar(1024)	Not null
Det_time	目标经过时间	Datatime	Not null
				Location	目标所在地点	Varchar(1024)	Not null

其中，目标经过时间Det_time和所在地点Location是通过摄像头或者图像采集设备记录的信息。

(2)对于视频检测的结果，由于视频可以视为多幅连续图像的集合体，只用一张表进行关联的形式非常复杂，因此本实例中设定两个表结构，第一个表用来存储不同的视频文件的路径信息，第二个表用来存储每个视频文件中的每一帧Frame_Num的检测结果信息，具体包括检测结果xml文件的路径 Det_Result，目标经过时间Det_Time，目标所在位置Location，最后用外键 Video_Id来与视频文件中的帧号进行关联，两张表结构具体如下。表3视频文

件路径信息表说明

字段	字段说明	字段类型	字段属性
				Id	条目编号	int	Primary key,not null
Video_Name	视频文件的存储路径	int	Not null

表4视频检测对应帧检测结果信息数据表字段说明

与现有技术相比，本发明具有如下技术效果：(1)在FRCNN基础上整合 Inception结构、深度可分离卷积和SE模块和位置敏感得分图重新设计了一个改进的目标检测模型，在保持检测准确率没有下降的同时提高了检测的实时性。 (2)结合背景筛选Imagenet数据集，提高了训练速度。(3)将图像和视频检测结果用不同的表结构来保存,使得检测结果具有可复用性。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习的边海防目标检测方法，其特征在于，包括以下步骤：

步骤(1-1)，重新设计分类网络模型，具体包括以下步骤：

1≤i,j≤D_k

1≤m≤M

1≤N

其中，F表示一个维度为D_F×D_F×M的特征图，特征图一般有多个通道，每个通道用一个二维的特征向量表示，D_F表示输入特征图的宽度，M表示输入特征图的通道数，D_G表示输出特征图的宽度，N是输出特征图的深度，同时也表示卷积核的种类；K表示卷积核参数矩阵，它的维度大小为D_K×D_K×M×N；

对每个输入特征图通道使用深度卷积的操作为：

其中，W×H表示U的空间分辨率；

其中，z表示由F_sq操作生成的一维向量，g表示sigmoid函数，δ代表ReLU激活函数，W₁和W₂表示两个全连接层的矩阵权重；

(3)：缩放操作F_scale，具体计算过程为：

X_c＝F_scale((U_c,S_c))＝U_c×S_c

步骤(1-2-1)，根据背景和应用需求指定类别编号；

步骤(1-3-3)，前向传播：将预处理之后的图像样本数据送入分类网络中进行并行的前向传播，即将上面得到的矩阵数据输入到深度卷积神经网络中进行深度可分离卷积、压缩增强操作、池化、全局池化等操作传播到最终的SoftMax层，计算得到最终的分类结果，并与样本对应的真实标签值进行比较，利用网络代价函数得到误差值；

2.根据权利要求1所述的基于深度学习的边海防目标检测方法，其特征在于，所述步骤(2)进一步包括如下步骤：

步骤(2-1)：重新设计目标检测网络模型：

G(q,p)＝g(q_x,p_x)·g(q_y,p_y)

g(a,b)＝max(0,1-|a-b|)

步骤(2-1-2)，利用共享卷积层的输出特征图通过候选区域生成网络生成一定数量的候选区域。同时对特有卷积层进行卷积操作来生成一个k²(C+1)通道的特征图和一个同级的具有4k²个通道的特征图，这里的k是可设定的参数，C表示需要检测的物体总的类别数；

步骤(2-1-4)，为了得到更准确的检测框坐标，使用一个同级的具有4k²个通道的卷积层来进行边框回归，对k×k大小的矩阵求和，最终可以计算出一个1×4的向量t＝(x_s,y_s,x_e,y_e)，其中(x_s,y_s)表示检测框起点坐标，(x_e,y_e)表示检测框终点坐标；

3.根据权利要求1所述的基于深度学习的边海防目标检测方法，其特征在于，步骤(3)中根据需求选择待测试的视频或者图像，利用深度学习框架加载训练好的检测模型并对输入文件进行处理。

4.根据权利要求1所述的基于深度学习的边海防目标检测方法，其特征在于，步骤(4)中对于每幅图像的每一个待检测的类别，检测网络会根据设定的阈值IOU，将计算出来的所有大于此阈值的置信度的坐标和得分作为最终的检测结果，并将检测结果的坐标通过矩形框的形式画出，同时标注出该类别和对应的置信度信息。最后将检测结果根据输入文件类型按照不同的表的形式保存到数据库中。