CN110188811A - 基于赋范梯度特征与卷积神经网络的水下目标检测方法 - Google Patents

基于赋范梯度特征与卷积神经网络的水下目标检测方法 Download PDF

Info

Publication number
CN110188811A
CN110188811A CN201910434561.5A CN201910434561A CN110188811A CN 110188811 A CN110188811 A CN 110188811A CN 201910434561 A CN201910434561 A CN 201910434561A CN 110188811 A CN110188811 A CN 110188811A
Authority
CN
China
Prior art keywords
window
target
image
pixel
suggests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910434561.5A
Other languages
English (en)
Inventor
冯晓毅
蒋晓悦
吴俊�
谢红梅
李会方
夏召强
何贵青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910434561.5A priority Critical patent/CN110188811A/zh
Publication of CN110188811A publication Critical patent/CN110188811A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,该方法首先利用二值化的赋范梯度特征对水下目标特征进行描述,并通过二值化编码简化特征描述,降低后续分类器计算复杂度;再利用两级级联的排序SVM(Ranking SVM)算法对目标候选窗口进行逐级筛选,提供含有目标可能性较大的候选区域位置,实现对目标的粗略定位。其次,为了能够对目标区域的种类进行判断以及获得目标区域更加准确的位置描述,采用卷积神经网络和SVM分类器对水下目标进行分类并表示出目标属于某个物体类别的得分,最后使用线性回归模型得到每个类别的位置修正后的目标建议窗口。本发明的方法加速了水下目标候选区域的提取速度,提高了算法的准确性。

Description

基于赋范梯度特征与卷积神经网络的水下目标检测方法
技术领域
本发明涉及图像处理领域,尤其是一种水下图像目标区域检测方法。
背景技术
海洋中蕴藏着丰富的生物、矿产、可再生能源及空间资源,目前我国在海洋开发、海上石油开采以及军事领域中对水下机器人的需要日益迫切。水下机器人可以代替人类完成各种恶劣的水下任务,同时水下机器人也将成为未来水下战争中的重要设备之一,受到了人们广泛的关注。水下机器人完成水下任务的第一步必须先检测到水下场景中目标的存在,但是由于水下环境的复杂性,水下目标检测系统面临着一系列挑战。目前在水下目标检测的方法中,主要是基于水下目标的颜色或纹理等特征,但是由于水及水中颗粒等介质对光的散射、吸收以及光照不均匀等因素影响,使得光线存在着严重的衰减和散射效应,水下图像通常呈现颜色衰减、模糊、低对比度等现象,图像也总是突出绿色或蓝色,这个问题使得传统的基于颜色或纹理特征的水下目标检测有效性不高。
传统的水下目标检测算法中,通常采用滑动窗口策略搜索候选目标区域,通过设置不同尺度与长宽比的固定窗口,对一整幅图像进行遍历,这种方法搜索效率较低。同时,这种穷举法虽然包含了图像中目标可能出现的位置,但是相对应的其时间复杂度也很高,同时也可能出现冗余窗口太多的问题,这些问题都会影响到后续特征提取和分类的性能。
发明内容
为了克服现有技术的不足,本发明提供一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,研究如何建立一个用于水下机器人的实时性目标检测系统。对于水下图像中颜色、纹理等特征无法作为目标的鲁棒性特征,以及水下现有的水下目标检测算法实时性差的问题,给出了一种快速、准确、通用性强的水下目标检测方法。首先,对于水下目标的颜色及纹理特征鲁棒性差的问题,利用二值化的赋范梯度特征对水下目标特征进行描述,并通过二值化编码简化特征描述,降低后续分类器计算复杂度;再利用两级级联的排序SVM(Ranking SVM)算法对目标采样窗口进行逐级筛选,提供含有目标可能性较大的候选区域位置,实现对目标的粗略定位。其次,为了能够对目标区域的种类进行判断以及获得目标区域更加准确的位置描述,采用卷积神经网络和SVM分类器对水下目标进行分类并表示出目标属于某个物体类别的得分,最后使用线性回归模型得到每个类别的位置修正后的目标建议窗口。
为达到上述目的,本发明提供的一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,包括以下步骤:
步骤1:实现基于赋范梯度特征的水下目标候选区域提取:
步骤1-1:用矩形将水下目标图像训练数据集中每幅图像包含的目标框定,矩形的上边框与图像的上边缘平行,并与目标在图像中所处区域的最高像素点相交,矩形的下边框与目标在图像中所处区域的最低像素点相交,矩形的左边框与目标在图像中所处区域的最左像素点相交,矩形的右边框与目标在图像中所处区域的最右像素点相交;将该矩形框定的图像区域定义为目标采样窗口;
步骤1-2:将步骤1-1中得到的目标采样窗口中的目标按照物品种类分类,总类别数记为P;
步骤1-3:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,得到36种尺度的矩形,矩形长度和宽度的单位为像素;采用这36种矩形尺度中的每一种在水下目标图像训练数据集的每幅图像中随机框定N个图像区域,N为预设值,框定的图像区域不能与步骤1-1中得到的目标采样窗口重叠,将此步骤中得到的图像区域定义为背景采样窗口;
步骤1-4:将步骤1-1中得到的全部目标采样窗口和步骤1-3中得到的全部背景采样窗口都按比例缩放成8*8像素的图像;在得到的8*8像素图像四周增加一圈像素,新增的像素灰度值均为0,则8*8像素图像大小变为10*10像素;用一维离散微分模板[-1,0,1]和[-1,0,1]T对所有10*10像素的图像进行卷积操作,卷积操作后的图像大小为8*8像素,并得到卷积操作后图像中每个像素点在水平方向与竖直方向的图像梯度幅值Gx和Gy,x表示像素点横坐标,y表示像素点纵坐标;
步骤1-5:用下式对步骤1-4中得到的图像梯度幅值Gx和Gy进行归一化,
Gxy=min(|Gx|+|Gy|,255)
Gxy为归一化之后每个像素点的图像梯度幅值,Gxy的取值范围为[0,255]之间的整数,再用8位的二进制数表示Gxy;将Gxy用8位二进制数的前Ng位近似表示,表达公式如下所示:
式中,Ng为设定的8位二进制数高位的位数,bk,l为8位二进制数表示的图像梯度幅值的第k位数,k为序号,l=(h,x,y)是一个三元组,由目标采样窗口和背景采样窗口的长宽比值h以及窗口的位置(x,y)组成;计算得到的Gxy用二进制数表示;
步骤1-6:将步骤1-4中进行卷积操作后的图像的二值化赋范梯度特征定义为gl,gl表示为维度是8*8*8的数字矩阵,维度8*8*8中前面的8*8表示图像中像素点的横坐标和纵坐标,最后的8表示前面8*8所指定的像素点的图像梯度幅值Gxy,该数字矩阵中每个元素的值为0或者1;
步骤1-7:采用Ranking SVM模型,将步骤1-1中得到的所有目标采样窗口的二值化赋范梯度特征作为正样本,将步骤1-3中得到的所有背景采样窗口的二值化赋范梯度特征作为负样本,对Ranking SVM模型进行一级训练,得到经过一级训练的Ranking SVM模型w,w∈R64
步骤1-8:采用如下公式将步骤1-7中得到的w二值化:
式中αj∈{-1,1}64为基向量,其中是二值向量,的补向量,βj∈R为相关系数,j为基向量的序号;
步骤1-9:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,矩形长度和宽度的单位为像素,得到36种尺度的矩形;采用这36种矩形在水下目标图像验证数据集的每幅图像中随机框定图像区域,每一种尺度的矩形随机框定S个图像区域,S为预设值;将此步骤中得到的图像区域定义为候选窗口;
步骤1-10:计算候选窗口的二值化赋范梯度特征,采用如下公式对候选窗口的二值化赋范梯度特征进行打分:
式中,sl为w输出排序得分,即该候选窗口含有目标的概率;
步骤1-11:采用步骤1-10中的方法计算每一幅图像中每个候选窗口的排序得分,然后用非极大值抑制方法将冗余的候选窗口去除,剩余的候选窗口作为目标建议窗口;再根据得分的分值由大到小选取36种矩形尺度下每种尺度前d1个得分的目标建议窗口,d1为预设值,每幅图像的目标建议窗口总数设为M,M=36d1;再计算所有目标建议窗口与目标采样窗口的重叠度IOU值,将所有目标建议窗口的重叠度IOU值和排序得分作为参数,训练得到二级Ranking SVM模型;
步骤1-12:采用二级Ranking SVM模型对目标建议窗口重新进行打分,计算公式如下:
Ol=Zr·Sl+tr
其中,Ol为重新打分结果,Zr为二级Ranking SVM模型中的权重,tr为二级RankingSVM模型中的偏差项,r为序号;对目标建议窗口按照新的打分结果由大到小重新排序,得分越靠前的目标建议窗口包含目标的概率越大,即完成水下目标候选区域提取;
步骤2:实现基于深度特征的水下目标候选区域位置优化:
步骤2-1:对于水下目标图像测试数据集的一幅图像,经过步骤1得到M个目标建议窗口,如果目标建议窗口的水平方向长度大于竖直方向宽度,则在目标建议窗口的上下边框外分别增加像素点,顺序为先在上边框外增加一行,再在下边框外增加一行,循环执行该顺序直到将目标建议窗口的宽度补到等于长度为止;如果目标建议窗口的竖直方向宽度大于水平方向长度,则在目标建议窗口的左右边框外增加像素点,顺序为先在左边框外增加一行,再在右边框外增加一行,循环执行该顺序直到将目标建议窗口的长度补到等于宽度为止;目标建议窗口的长度或宽度方向增加的像素点的R、G、B值分别等于该目标建议窗口中所有像素点的R、G、B三个值分别进行平均的计算值,则目标建议窗口全部变为正方形,再将目标建议窗口的大小按比例缩放为227*227像素;
步骤2-2:将步骤2-1中得到的大小为227*227像素的目标建议窗口的像素点的值输入AlexNet卷积神经网络中,经过训练后得到4096维的特征;M个目标建议窗口经过AlexNet卷积神经网络训练后,组合成M*4096维矩阵;
步骤2-3:对于步骤1-2中得到的目标类别数P,采用SVM分类器分类,得到4096*P维的权值矩阵;将步骤2-2中得到M*4096维矩阵与4096*P维的权值矩阵相乘,得到M*P维矩阵;该矩阵中的数值表示每个目标建议窗口对应目标类别的得分;
步骤2-4:根据步骤2-3得到的M*P维矩阵中目标建议窗口对应目标类别的得分,采用非极大值抑制方法将冗余的目标建议窗口去除,剩余的目标建议窗口作为二次目标建议窗口,数量记为Q;
步骤2-5:用X表示任意一个二次目标建议窗口,窗口的位置使用四维向量(x,y,w,h)定义,其中(x,y)表示窗口的中心位置,(w,h)表示窗口的长度和宽度;将窗口X表示为(Xx,Xy,Xw,Xh),其中(Xx,Xy)表示窗口X的中心位置,(Xw,Xh)表示窗口X的长度和宽度;
将窗口X经过下述方法平移和缩放操作后转化为窗口Z:
将窗口Z表示为(Zx,Zy,Zw,Zh),窗口X到窗口Z水平和垂直方向的平移量定义为(Δx,Δy),长度和宽度的缩放量定义为(Sw,Sh),其中:
Δx=Xwdx(X)
Δy=Xhdy(X)
Sw=Xwdw(X)
Sh=Xhdh(X)
dx(X),dy(X),dw(X),dh(X)为窗口X到窗口Z水平方向平移、垂直方向平移、长度缩放、宽度缩放的线性回归变换函数;则:
Zx=Xx+Δx=Xx+Xwdx(X)
Zy=Xy+Δy=Xy+Xhdy(X)
窗口Z即为对窗口A进行线性回归变换后位置优化的结果;
步骤2-6:用Y表示目标采样窗口,将窗口Y表示为(Yx,Yy,Yw,Yh),其中(Yx,Yy)表示Y的中心位置,(Yw,Yh)表示Y的长度和宽度;
定义从X到Y水平和垂直方向的平移量为(Δx′,Δy′),从X到Y长度和宽度缩放量为(Sw′,Sh′),计算公式如下:
其中tx,ty,tw,th为中间变量;
定义线性回归的损失函数为:
其中,i为第i个二次目标建议窗口,表示第i个二次目标建议窗口的tx,ty,tw,th值,d*(Xi)表示对第i个二次目标建议窗口进行平移和缩放的线性回归变换,*表示x,y,w,h中的一个;
步骤2-7:计算所有二次目标建议窗口经过线性回归变换的损失函数值,并对损失函数值由小到大进行排序,损失函数值越小则经过线性回归变换的二次目标建议窗口越接近目标采样窗口,即完成了水下目标候选区域位置优化。
本发明的有益效果是:由于采用了本发明的一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,加速了水下目标候选区域的提取速度,同时对于变化多样的水下目标具有很好的特征描述能力,从而提高了算法的准确性。
附图说明
图1是本发明水下目标检测方法流程框图。
图2是四类水下目标候选区域提取检测率图示。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明提供的一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,包括以下步骤:
步骤1:实现基于赋范梯度特征的水下目标候选区域提取:
步骤1-1:用矩形将水下目标图像训练数据集中每幅图像包含的目标框定,矩形的上边框与图像的上边缘平行,并与目标在图像中所处区域的最高像素点相交,矩形的下边框与目标在图像中所处区域的最低像素点相交,矩形的左边框与目标在图像中所处区域的最左像素点相交,矩形的右边框与目标在图像中所处区域的最右像素点相交;将该矩形框定的图像区域定义为目标采样窗口;
步骤1-2:将步骤1-1中得到的目标采样窗口中的目标按照物品种类分类,总类别数记为P;
步骤1-3:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,得到36种尺度的矩形,矩形长度和宽度的单位为像素;采用这36种矩形尺度中的每一种在水下目标图像训练数据集的每幅图像中随机框定N个图像区域,N为预设值,框定的图像区域不能与步骤1-1中得到的目标采样窗口重叠,将此步骤中得到的图像区域定义为背景采样窗口;
步骤1-4:将步骤1-1中得到的全部目标采样窗口和步骤1-3中得到的全部背景采样窗口都按比例缩放成8*8像素的图像;在得到的8*8像素图像四周增加一圈像素,新增的像素灰度值均为0,则8*8像素图像大小变为10*10像素;用一维离散微分模板[-1,0,1]和[-1,0,1]T对所有10*10像素的图像进行卷积操作,卷积操作后的图像大小为8*8像素,并得到卷积操作后图像中每个像素点在水平方向与竖直方向的图像梯度幅值Gx和Gy,x表示像素点横坐标,y表示像素点纵坐标;
步骤1-5:用下式对步骤1-4中得到的图像梯度幅值Gx和Gy进行归一化,
Gxy=min(|Gx|+|Gy|,255)
Gxy为归一化之后每个像素点的图像梯度幅值,Gxy的取值范围为[0,255]之间的整数,再用8位的二进制数表示Gxy;将Gxy用8位二进制数的前Ng位近似表示,表达公式如下所示:
式中,Ng为设定的8位二进制数高位的位数,bk,l为8位二进制数表示的图像梯度幅值的第k位数,k为序号,l=(h,x,y)是一个三元组,由目标采样窗口和背景采样窗口的长宽比值h以及窗口的位置(x,y)组成;计算得到的Gxy用二进制数表示;
步骤1-6:将步骤1-4中进行卷积操作后的图像的二值化赋范梯度特征定义为gl,gl表示为维度是8*8*8的数字矩阵,维度8*8*8中前面的8*8表示图像中像素点的横坐标和纵坐标,最后的8表示前面8*8所指定的像素点的图像梯度幅值Gxy,该数字矩阵中每个元素的值为0或者1;
步骤1-7:采用Ranking SVM模型,将步骤1-1中得到的所有目标采样窗口的二值化赋范梯度特征作为正样本,将步骤1-3中得到的所有背景采样窗口的二值化赋范梯度特征作为负样本,对Ranking SVM模型进行一级训练,得到经过一级训练的Ranking SVM模型w,w∈R64
步骤1-8:采用如下公式将步骤1-7中得到的w二值化:
式中αj∈{-1,1}64为基向量,其中是二值向量,的补向量,βj∈R为相关系数,j为基向量的序号;
步骤1-9:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,矩形长度和宽度的单位为像素,得到36种尺度的矩形;采用这36种矩形在水下目标图像验证数据集的每幅图像中随机框定图像区域,每一种尺度的矩形随机框定S个图像区域,S为预设值;将此步骤中得到的图像区域定义为候选窗口;
步骤1-10:计算候选窗口的二值化赋范梯度特征,采用如下公式对候选窗口的二值化赋范梯度特征进行打分:
式中,sl为w输出排序得分,即该候选窗口含有目标的概率;
步骤1-11:采用步骤1-10中的方法计算每一幅图像中每个候选窗口的排序得分,然后用非极大值抑制方法将冗余的候选窗口去除,剩余的候选窗口作为目标建议窗口;再根据得分的分值由大到小选取36种矩形尺度下每种尺度前d1个得分的目标建议窗口,d1为预设值,每幅图像的目标建议窗口总数设为M,M=36d1;再计算所有目标建议窗口与目标采样窗口的重叠度IOU值,将所有目标建议窗口的重叠度IOU值和排序得分作为参数,训练得到二级Ranking SVM模型;
步骤1-12:采用二级Ranking SVM模型对目标建议窗口重新进行打分,计算公式如下:
Ol=Zr·Sl+tr
其中,Ol为重新打分结果,Zr为二级Ranking SVM模型中的权重,tr为二级RankingSVM模型中的偏差项,r为序号;对目标建议窗口按照新的打分结果由大到小重新排序,得分越靠前的目标建议窗口包含目标的概率越大,即完成水下目标候选区域提取;
步骤2:实现基于深度特征的水下目标候选区域位置优化:
步骤2-1:对于水下目标图像测试数据集的一幅图像,经过步骤1得到M个目标建议窗口,如果目标建议窗口的水平方向长度大于竖直方向宽度,则在目标建议窗口的上下边框外分别增加像素点,顺序为先在上边框外增加一行,再在下边框外增加一行,循环该顺序直到将目标建议窗口的宽度补到等于长度为止;如果目标建议窗口的竖直方向宽度大于水平方向长度,则在目标建议窗口的左右边框外增加像素点,顺序为先在左边框外增加一行,再在右边框外增加一行,循环执行该顺序直到将目标建议窗口的长度补到等于宽度为止;目标建议窗口的长度或宽度方向增加的像素点的R、G、B值分别等于该目标建议窗口中所有像素点的R、G、B三个值分别进行平均的计算值,则目标建议窗口全部变为正方形,再将目标建议窗口的大小按比例缩放为227*227像素;
步骤2-2:将步骤2-1中得到的大小为227*227像素的目标建议窗口的像素点的值输入AlexNet卷积神经网络中,经过训练后得到4096维的特征;M个目标建议窗口经过AlexNet卷积神经网络训练后,组合成M*4096维矩阵;
步骤2-3:对于步骤1-2中得到的目标类别数P,采用SVM分类器分类,得到4096*P维的权值矩阵;将步骤2-2中得到M*4096维矩阵与4096*P维的权值矩阵相乘,得到M*P维矩阵;该矩阵中的数值表示每个目标建议窗口对应目标类别的得分;
步骤2-4:根据步骤2-3得到的M*P维矩阵中目标建议窗口对应目标类别的得分,采用非极大值抑制方法将冗余的目标建议窗口去除,剩余的目标建议窗口作为二次目标建议窗口,数量记为Q;
步骤2-5:用X表示任意一个二次目标建议窗口,窗口的位置使用四维向量(x,y,w,h)定义,其中(x,y)表示窗口的中心位置,(w,h)表示窗口的长度和宽度;将窗口X表示为(Xx,Xy,Xw,Xh),其中(Xx,Xy)表示窗口X的中心位置,(Xw,Xh)表示窗口X的长度和宽度;
将窗口X经过下述方法平移和缩放操作后转化为窗口Z:
将窗口Z表示为(Zx,Zy,Zw,Zh),窗口X到窗口Z水平和垂直方向的平移量定义为(Δx,Δy),长度和宽度的缩放量定义为(Sw,Sh),其中:
Δx=Xwdx(X)
Δy=Xhdy(X)
Sw=Xwdw(X)
Sh=Xhdh(X)
dx(X),dy(X),dw(X),dh(X)为窗口X到窗口Z水平方向平移、垂直方向平移、长度缩放、宽度缩放的线性回归变换函数;则:
Zx=Xx+Δx=Xx+Xwdx(X)
Zy=Xy+Δy=Xy+Xhdy(X)
窗口Z即为对窗口A进行线性回归变换后位置优化的结果;
步骤2-6:用Y表示目标采样窗口,将窗口Y表示为(Yx,Yy,Yw,Yh),其中(Yx,Yy)表
示Y的中心位置,(Yw,Yh)表示Y的长度和宽度;
定义从X到Y水平和垂直方向的平移量为(Δx′,Δy′),从X到Y长度和宽度缩放量为(Sw′,Sh′),计算公式如下:
其中tx,ty,tw,th为中间变量;
定义线性回归的损失函数为:
其中,i为第i个二次目标建议窗口,表示第i个二次目标建议窗口的tx,ty,tw,th值,d*(Xi)表示对第i个二次目标建议窗口进行平移和缩放的线性回归变换,*表示x,y,w,h中的一个;
步骤2-7:计算所有二次目标建议窗口经过线性回归变换的损失函数值,并对损失函数值由小到大进行排序,损失函数值越小则经过线性回归变换的二次目标建议窗口越接近目标采样窗口,即完成了水下目标候选区域位置优化。
实施例:
为了验证所提出方法的有效性,创建了水下目标数据集。数据集的图像主要分为两部分:一部分是英国广播公司(BBC)拍摄的海底世界纪录片视频,从视频中获取一些关键帧作为真实的海底图像,其中包含几十种海洋生物;另一部分是航行器团队参加国际水下机器人比赛中捕获的人造水下目标图像。
从水下目标数据集中取出2500幅样本图像进行手工标记,手工将图像中的主要目标用矩形框框定,并对该目标的类别进行标记。标记的目标共有10个不同的类别,包括海底中的生物以及浅水中的人造目标,得到目标采样窗口。
将取出的2500幅样本图像分为两组,一组是训练集,数量为2000幅,含有10种目标类别;另一组是验证集,数量为500幅,含有4种目标类别。用训练集的2000幅图像训练模型,之后再用验证集的500幅图像作为验证图像,对本发明提出的水下目标检测方法的性能进行了验证。
基于赋范梯度特征的水下目标候选区域提取的步骤如下:
(1)在训练集的2000幅样本图像中手工用矩形将目标选定,得到目标采样窗口;从集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,能够得到36种尺度的矩形。将训练集的2000幅样本图像采用这36种尺度的矩形随机进行多次采样,得到背景采样窗口。然后将所有目标采样窗口和背景采样窗口都重置到8*8大小,并用一维离散微分模板[-1,0,1]和[-1,0,1]T对图像进行卷积操作,得到竖直方向与垂直方向的图像梯度幅值Gx和Gy,然后采用min(|Gx|+|Gy|,255)对梯度幅值进行归一化,赋范梯度特征的幅值范围是0~255,数值由8位二进制数表示;
(2)将所有目标采样窗口的二值化赋范梯度特征作为正样本,将所有背景采样窗口的二值化赋范梯度特征作为负样本,对Ranking SVM模型进行一级训练,并将RankingSVM模型进行二值化;
(3)再用上面36种尺度的矩形对验证集的500幅样本图像随机进行多次采样,得到候选窗口。采用一级Ranking SVM模型对候选窗口进行打分,然后用非极大值抑制方法将冗余的候选窗口去除,得到目标建议窗口;
(4)再采用二级Ranking SVM模型对每个目标建议窗口的分数进行重新排序。
采用Alexe等人提出的“候选窗口数量-#检测率(DR-#WIN)”性能评价方法,用验证集的500幅水下图像对本发明的基于赋范梯度特征的水下目标候选区域提取方法的性能进行了评价。如图2所示,显示了4种不同类别目标的检测率。可以看出,当选取前100个目标建议窗口时,检测率可达96.8%,选取前10个目标建议窗口,检测率在75.1%左右。一般来说,每张水下目标图像大约有1000个候选窗口,其中得分最高的前100个目标建议窗口包含目标的概率在97%左右,这可以大量的减少后续处理的计算量。
通过赋范梯度特征对于水下目标的描述以及级联SVM分类器对候选窗口的多级选择,第一级Ranking SVM可对采样窗口进行排序打分,从海量的采样窗口中提取包含目标概率较大的候选窗口。第二级Ranking SVM对每张图片中第一级提取的所有候选窗口进行重新排序修正,排序越靠前的窗口,含有目标的可能性较大,从而实现了对目标的粗略定位,可以在图像中获取到较为可信的目标位置候选区域大量的减少了目标的滑动窗口数量。
将目前较为流行的几种目标候选区域提取方法与本发明采用的方法在水下数据集上做了计算时间的比较,结果见表1。本发明的方法首先将采样窗口重置为8*8的大小,这样虽然会损失一些图像的信息,但是并不影响水下目标的结构轮廓,故不影响检测结果且每幅图的计算速度得到了提高。其次利用二值化的赋范梯度特征对水下目标进行描述,并对窗口打分模型也进行二值化,通过二值化编码可有效降低算法的计算复杂度。最后由于采用两级级联的Ranking SVM模型,使得算法能够逐级提取包含目标可能性最大的候选窗口,并进行重新排序修正,保证了候选区域的准确性。从表中可以明显的观察到,用二值化赋范梯度特征方法获得水下目标的候选窗口只需要0.2秒,与其他方法相比是一种快速的方法。
表1目标候选区域提取算法处理速度对比
为了能够对目标区域的种类进行判断以及获得目标区域更加准确的位置描述,接下来,再基于深度特征对水下目标候选区域位置优化,步骤如下:
(1)输入一张水下目标图像,采用目标候选区域提取算法在每张图片中提取1000个目标建议窗口;
(2)在每个目标建议窗口周围加上像素值为其窗口平均值的边框,将窗口扩展成正方形,然后将目标建议窗口缩放为227*227的大小;
(3)将每个227*227的目标建议窗口输入卷积神经网络中,经过5个卷积层和2个全连接层,提取4096维的特征,1000个目标建议窗口的卷积神经网络特征组合成1000*4096维矩阵;
(4)将1000*4096维特征与10个SVM组成的权值矩阵4096*10相乘(目标有10种类别,SVM是二分类器,则有10个SVM),获得1000*10维矩阵,其中行表示每个目标建议窗口,列表示目标类别,矩阵中的数据是目标建议窗口属于某个目标类别的得分;
(5)对矩阵采用非极大值抑制的方法剔除重叠目标建议窗口,得到该类别中得分靠前的一些目标建议窗口;
(6)采用步骤2-6、2-7的方法分别用10个线性回归函数对上述10个类别中类别得分较高的目标建议窗口进行线性回归操作,最终得到每个类别的位置修正后的目标建议窗口。
最后对Girshick等人提出的目标检测经典方法R-CNN方法与本发明提出的方法在水下数据集上进行了检测性能的比较。从表2和表3可以看出,本发明的方法与R-CNN方法相比,水下种类检测的平均检测精确度在每个种类上有提高也有下降。但是与R-CNN相比,本发明方法在提取目标候选区域时,每张图片的处理速度要比传统的R-CNN中SelectiveSearch算法快很多,且R-CNN提取每张水下目标候选区域的数量为2k左右,本发明方法提取的候选区域个数为1k左右。两种方法提取的候选区域窗口均要送入CNN中提取特征,由于R-CNN方法的候选区域较多,所以每幅图提取特征的速度慢很多。以上说明本发明提出的算法在不影响检测精度的情况下,实时性提高了很多。
表2自然场景水下目标种类检测精确度(%)
表3人造水下目标种类检测精确度(%)

Claims (1)

1.一种基于赋范梯度特征与卷积神经网络的水下目标检测方法,其特征在于,包括以下步骤:
步骤1:实现基于赋范梯度特征的水下目标候选区域提取:
步骤1-1:用矩形将水下目标图像训练数据集中每幅图像包含的目标框定,矩形的上边框与图像的上边缘平行,并与目标在图像中所处区域的最高像素点相交,矩形的下边框与目标在图像中所处区域的最低像素点相交,矩形的左边框与目标在图像中所处区域的最左像素点相交,矩形的右边框与目标在图像中所处区域的最右像素点相交;将该矩形框定的图像区域定义为目标采样窗口;
步骤1-2:将步骤1-1中得到的目标采样窗口中的目标按照物品种类分类,总类别数记为P;
步骤1-3:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,得到36种尺度的矩形,矩形长度和宽度的单位为像素;采用这36种矩形尺度中的每一种在水下目标图像训练数据集的每幅图像中随机框定N个图像区域,N为预设值,框定的图像区域不能与步骤1-1中得到的目标采样窗口重叠,将此步骤中得到的图像区域定义为背景采样窗口;
步骤1-4:将步骤1-1中得到的全部目标采样窗口和步骤1-3中得到的全部背景采样窗口都按比例缩放成8*8像素的图像;在得到的8*8像素图像四周增加一圈像素,新增的像素灰度值均为0,则8*8像素图像大小变为10*10像素;用一维离散微分模板[-1,0,1]和[-1,0,1]T对所有10*10像素的图像进行卷积操作,卷积操作后的图像大小为8*8像素,并得到卷积操作后图像中每个像素点在水平方向与竖直方向的图像梯度幅值Gx和Gy,x表示像素点横坐标,y表示像素点纵坐标;
步骤1-5:用下式对步骤1-4中得到的图像梯度幅值Gx和Gy进行归一化,
Gxy=min(|Gx|+|Gy|,255)
Gxy为归一化之后每个像素点的图像梯度幅值,Gxy的取值范围为[0,255]之间的整数,再用8位的二进制数表示Gxy;将Gxy用8位二进制数的前Ng位近似表示,表达公式如下所示:
式中,Ng为设定的8位二进制数高位的位数,bk,l为8位二进制数表示的图像梯度幅值的第k位数,k为序号,l=(h,x,y)是一个三元组,由目标采样窗口和背景采样窗口的长宽比值h以及窗口的位置(x,y)组成;计算得到的Gxy用二进制数表示;
步骤1-6:将步骤1-4中进行卷积操作后的图像的二值化赋范梯度特征定义为gl,gl表示为维度是8*8*8的数字矩阵,维度8*8*8中前面的8*8表示图像中像素点的横坐标和纵坐标,最后的8表示前面8*8所指定的像素点的图像梯度幅值Gxy,该数字矩阵中每个元素的值为0或者1;
步骤1-7:采用Ranking SVM模型,将步骤1-1中得到的所有目标采样窗口的二值化赋范梯度特征作为正样本,将步骤1-3中得到的所有背景采样窗口的二值化赋范梯度特征作为负样本,对Ranking SVM模型进行一级训练,得到经过一级训练的Ranking SVM模型w,w∈R64
步骤1-8:采用如下公式将步骤1-7中得到的w二值化:
式中αj∈{-1,1}64为基向量,其中是二值向量,的补向量,βj∈R为相关系数,j为基向量的序号;
步骤1-9:在集合{10,20,40,80,160,320}中选取一个数字作为矩形长度,再选取一个数字作为矩形宽度,矩形长度和宽度的单位为像素,得到36种尺度的矩形;采用这36种矩形在水下目标图像验证数据集的每幅图像中随机框定图像区域,每一种尺度的矩形随机框定S个图像区域,S为预设值;将此步骤中得到的图像区域定义为候选窗口;
步骤1-10:计算候选窗口的二值化赋范梯度特征,采用如下公式对候选窗口的二值化赋范梯度特征进行打分:
式中,sl为w输出排序得分,即该候选窗口含有目标的概率;
步骤1-11:采用步骤1-10中的方法计算每一幅图像中每个候选窗口的排序得分,然后用非极大值抑制方法将冗余的候选窗口去除,剩余的候选窗口作为目标建议窗口;再根据得分的分值由大到小选取36种矩形尺度下每种尺度前d1个得分的目标建议窗口,d1为预设值,每幅图像的目标建议窗口总数设为M,M=36d1;再计算所有目标建议窗口与目标采样窗口的重叠度IOU值,将所有目标建议窗口的重叠度IOU值和排序得分作为参数,训练得到二级Ranking SVM模型;
步骤1-12:采用二级Ranking SVM模型对目标建议窗口重新进行打分,计算公式如下:
Ol=Zr·Sl+tr
其中,Ol为重新打分结果,Zr为二级Ranking SVM模型中的权重,tr为二级Ranking SVM模型中的偏差项,r为序号;对目标建议窗口按照新的打分结果由大到小重新排序,得分越靠前的目标建议窗口包含目标的概率越大,即完成水下目标候选区域提取;
步骤2:实现基于深度特征的水下目标候选区域位置优化:
步骤2-1:对于水下目标图像测试数据集的一幅图像,经过步骤1得到M个目标建议窗口,如果目标建议窗口的水平方向长度大于竖直方向宽度,则在目标建议窗口的上下边框外分别增加像素点,顺序为先在上边框外增加一行,再在下边框外增加一行,循环执行该顺序直到将目标建议窗口的宽度补到等于长度为止;如果目标建议窗口的竖直方向宽度大于水平方向长度,则在目标建议窗口的左右边框外增加像素点,顺序为先在左边框外增加一行,再在右边框外增加一行,循环执行该顺序直到将目标建议窗口的长度补到等于宽度为止;目标建议窗口的长度或宽度方向增加的像素点的R、G、B值分别等于该目标建议窗口中所有像素点的R、G、B三个值分别进行平均的计算值,则目标建议窗口全部变为正方形,再将目标建议窗口的大小按比例缩放为227*227像素;
步骤2-2:将步骤2-1中得到的大小为227*227像素的目标建议窗口的像素点的值输入AlexNet卷积神经网络中,经过训练后得到4096维的特征;M个目标建议窗口经过AlexNet卷积神经网络训练后,组合成M*4096维矩阵;
步骤2-3:对于步骤1-2中得到的目标类别数P,采用SVM分类器分类,得到4096*P维的权值矩阵;将步骤2-2中得到M*4096维矩阵与4096*P维的权值矩阵相乘,得到M*P维矩阵;该矩阵中的数值表示每个目标建议窗口对应目标类别的得分;
步骤2-4:根据步骤2-3得到的M*P维矩阵中目标建议窗口对应目标类别的得分,采用非极大值抑制方法将冗余的目标建议窗口去除,剩余的目标建议窗口作为二次目标建议窗口,数量记为Q;
步骤2-5:用X表示任意一个二次目标建议窗口,窗口的位置使用四维向量(x,y,w,h)定义,其中(x,y)表示窗口的中心位置,(w,h)表示窗口的长度和宽度;将窗口X表示为(Xx,Xy,Xw,Xh),其中(Xx,Xy)表示窗口X的中心位置,(Xw,Xh)表示窗口X的长度和宽度;
将窗口X经过下述方法平移和缩放操作后转化为窗口Z:
将窗口Z表示为(Zx,Zy,Zw,Zh),窗口X到窗口Z水平和垂直方向的平移量定义为(Δx,Δy),长度和宽度的缩放量定义为(Sw,Sh),其中:
Δx=Xwdx(X)
Δy=Xhdy(X)
Sw=Xwdw(X)
Sh=Xhdh(X)
dx(X),dy(X),dw(X),dh(X)为窗口X到窗口Z水平方向平移、垂直方向平移、长度缩放、宽度缩放的线性回归变换函数;则:
Zx=Xx+Δx=Xx+Xwdx(X)
Zy=Xy+Δy=Xy+Xhdy(X)
窗口Z即为对窗口A进行线性回归变换后位置优化的结果;
步骤2-6:用Y表示目标采样窗口,将窗口Y表示为(Yx,Yy,Yw,Yh),其中(Yx,Yy)表示Y的中心位置,(Yw,Yh)表示Y的长度和宽度;
定义从X到Y水平和垂直方向的平移量为(Δx′,Δy′),从X到Y长度和宽度缩放量为(Sw′,Sh′),计算公式如下:
其中tx,ty,tw,th为中间变量;
定义线性回归的损失函数为:
其中,i为第i个二次目标建议窗口,表示第i个二次目标建议窗口的tx,ty,tw,th值,d*(Xi)表示对第i个二次目标建议窗口进行平移和缩放的线性回归变换,*表示x,y,w,h中的一个;
步骤2-7:计算所有二次目标建议窗口经过线性回归变换的损失函数值,并对损失函数值由小到大进行排序,损失函数值越小则经过线性回归变换的二次目标建议窗口越接近目标采样窗口,即完成了水下目标候选区域位置优化。
CN201910434561.5A 2019-05-23 2019-05-23 基于赋范梯度特征与卷积神经网络的水下目标检测方法 Pending CN110188811A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910434561.5A CN110188811A (zh) 2019-05-23 2019-05-23 基于赋范梯度特征与卷积神经网络的水下目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910434561.5A CN110188811A (zh) 2019-05-23 2019-05-23 基于赋范梯度特征与卷积神经网络的水下目标检测方法

Publications (1)

Publication Number Publication Date
CN110188811A true CN110188811A (zh) 2019-08-30

Family

ID=67717538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910434561.5A Pending CN110188811A (zh) 2019-05-23 2019-05-23 基于赋范梯度特征与卷积神经网络的水下目标检测方法

Country Status (1)

Country Link
CN (1) CN110188811A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN112232215A (zh) * 2020-10-16 2021-01-15 哈尔滨市科佳通用机电股份有限公司 一种铁路货车钩尾销托梁脱落故障检测方法
CN112505049A (zh) * 2020-10-14 2021-03-16 上海互觉科技有限公司 基于蒙版抑制的精密零组件表面缺陷检测方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140376819A1 (en) * 2013-06-21 2014-12-25 Microsoft Corporation Image recognition by image search
CN104408711A (zh) * 2014-10-30 2015-03-11 西北工业大学 一种基于多尺度区域融合的显著区域检测方法
CN105512683A (zh) * 2015-12-08 2016-04-20 浙江宇视科技有限公司 基于卷积神经网络的目标定位方法及装置
CN106326916A (zh) * 2016-08-11 2017-01-11 电子科技大学 基于多尺度特征估计和高阶bing特征的目标检测方法
CN106446890A (zh) * 2016-10-28 2017-02-22 中国人民解放军信息工程大学 一种基于窗口打分和超像素分割的候选区域提取方法
CN106960210A (zh) * 2017-03-23 2017-07-18 上海视可电子科技有限公司 目标检测的方法和装置
CN108073940A (zh) * 2016-11-18 2018-05-25 北京航空航天大学 一种非结构化环境中的3d目标实例物体检测的方法
CN108734200A (zh) * 2018-04-24 2018-11-02 北京师范大学珠海分校 基于bing特征的人体目标视觉检测方法和装置
CN109522938A (zh) * 2018-10-26 2019-03-26 华南理工大学 一种基于深度学习的图像中目标的识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140376819A1 (en) * 2013-06-21 2014-12-25 Microsoft Corporation Image recognition by image search
CN104408711A (zh) * 2014-10-30 2015-03-11 西北工业大学 一种基于多尺度区域融合的显著区域检测方法
CN105512683A (zh) * 2015-12-08 2016-04-20 浙江宇视科技有限公司 基于卷积神经网络的目标定位方法及装置
CN106326916A (zh) * 2016-08-11 2017-01-11 电子科技大学 基于多尺度特征估计和高阶bing特征的目标检测方法
CN106446890A (zh) * 2016-10-28 2017-02-22 中国人民解放军信息工程大学 一种基于窗口打分和超像素分割的候选区域提取方法
CN108073940A (zh) * 2016-11-18 2018-05-25 北京航空航天大学 一种非结构化环境中的3d目标实例物体检测的方法
CN106960210A (zh) * 2017-03-23 2017-07-18 上海视可电子科技有限公司 目标检测的方法和装置
CN108734200A (zh) * 2018-04-24 2018-11-02 北京师范大学珠海分校 基于bing特征的人体目标视觉检测方法和装置
CN109522938A (zh) * 2018-10-26 2019-03-26 华南理工大学 一种基于深度学习的图像中目标的识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYUE JIANG 等: "Extracting underwater object region proposal using BING method", 《2017 INTERNATIONAL CONFERENCE ON THE FRONTIERS AND ADVANCES IN DATA SCIENCE (FADS)》 *
徐君妍: "基于视频的小型无人机目标检测与跟踪方法研究", 《中国硕士学位论文全文数据库 信息科技专辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN112505049A (zh) * 2020-10-14 2021-03-16 上海互觉科技有限公司 基于蒙版抑制的精密零组件表面缺陷检测方法和系统
CN112505049B (zh) * 2020-10-14 2021-08-03 上海互觉科技有限公司 基于蒙版抑制的精密零组件表面缺陷检测方法和系统
CN112232215A (zh) * 2020-10-16 2021-01-15 哈尔滨市科佳通用机电股份有限公司 一种铁路货车钩尾销托梁脱落故障检测方法
CN112232215B (zh) * 2020-10-16 2021-04-06 哈尔滨市科佳通用机电股份有限公司 一种铁路货车钩尾销托梁脱落故障检测方法

Similar Documents

Publication Publication Date Title
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
CN110263705A (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测方法
CN110533084A (zh) 一种基于自注意力机制的多尺度目标检测方法
CN109284669A (zh) 基于Mask RCNN的行人检测方法
CN107463892A (zh) 一种结合上下文信息和多级特征的图像中行人检测方法
CN108038846A (zh) 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统
CN108304873A (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN107679078A (zh) 一种基于深度学习的卡口图像车辆快速检索方法及系统
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN112633382B (zh) 一种基于互近邻的少样本图像分类方法及系统
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN109101981B (zh) 一种街景场景下基于全局图像条纹码的回环检测方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN110188811A (zh) 基于赋范梯度特征与卷积神经网络的水下目标检测方法
CN108154158B (zh) 一种面向增强现实应用的建筑物图像分割方法
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN104077605A (zh) 一种基于颜色拓扑结构的行人搜索识别方法
CN109886267A (zh) 一种基于最优特征选择的低对比度图像显著性检测方法
CN106611421A (zh) 基于特征学习和素描线段约束的sar图像分割方法
CN114863263B (zh) 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法
CN107085731A (zh) 一种基于rgb‑d融合特征与稀疏编码的图像分类方法
CN111027377A (zh) 一种双流神经网络时序动作定位方法
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190830

WD01 Invention patent application deemed withdrawn after publication