CN113449738A - 基于样本特性的先验框参数自适应改进frc检测方法 - Google Patents
基于样本特性的先验框参数自适应改进frc检测方法 Download PDFInfo
- Publication number
- CN113449738A CN113449738A CN202110781567.7A CN202110781567A CN113449738A CN 113449738 A CN113449738 A CN 113449738A CN 202110781567 A CN202110781567 A CN 202110781567A CN 113449738 A CN113449738 A CN 113449738A
- Authority
- CN
- China
- Prior art keywords
- sample
- frame
- window
- prior frame
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于样本特性的先验框参数自适应改进FRC检测方法。该方法在Faster RCNN算法的基础上,基于数据集样本的宽高比以及尺度,调节先验框的比例及尺度,使得先验框的大小接近原样本,进而提高Faster RCNN算法的准确率。本发明克服了现有的Faster RCNN算法不能充分利用数据集本身尺寸大小等先验知识的问题,在Faster RCNN算法的基础上,选择可变参数的先验框,根据数据集样本的宽高比和尺度,利用k‑means聚类算法选择合适的参数,调节先验框的比例及尺度,获得改进的FRC算法,解决数据集样本出现极大或极小以及宽高比悬殊的问题,提高Faster RCNN算法的目标检测精度。
Description
技术领域
本申请涉及目标检测算法领域,具体地涉及一种基于样本特性的先验框参数自适应改进FRC(Faster RCNN,FRC)检测方法。
背景技术
Faster RCNN算法作为目前常用的目标检测算法,由于其检测的精确度高,在各个领域都有广泛的应用。与传统RCNN算法和Fast RCNN算法相比,Faster RCNN算法采用区域生成网络RPN代替了Selective Search方法生成建议窗口,大大缩短了生成建议窗口的时间,提高了建议窗口的质量,进而提高了算法的检测精度和速度。同时,Faster RCNN算法利用多任务损失函数实现边框回归,将边框回归直接加入到CNN网络中训练,真正意义上实现端到端的目标检测框架,使得训练过程更加便捷。
先验框是目标检测算法中分类和边框回归的基准框,它的宽高比和尺度需要预先定义,它的选择对目标检测算法的性能的影响很大。目前Faster RCNN算法中,先验框的比例与尺度是固定的,并未考虑数据集样本的宽高比和尺度等先验知识,这会导致在检测宽高比悬殊较大或尺度过大或过小的样本时,出现先验框不能完全框住对象或大部分先验框分布在背景区域等情况,导致目标检测算法的精确度过低。
因此,需要提供一种基于样本特性的先验框参数自适应改进FRC检测方法。
发明内容
为了克服现有技术的不足,本发明的目的是提出一种基于样本特性的先验框参数自适应改进FRC检测方法,在Faster RCNN算法的基础上,采用了可变大小的先验框,根据数据集样本的宽高比和尺度,利用k-means聚类算法选择合适的参数,调节先验框的比例和尺度,基于改进FRC算法,能够充分考虑数据集样本大小等先验知识,解决数据集样本出现极大或极小、以及宽高比悬殊的问题,提高目标检测算法的准确率。
为实现上述目的,本发明所采用的解决方案为:
一种基于样本特性的先验框参数自适应改进FRC检测方法,其包括以下步骤:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图;
步骤2:根据所述步骤1数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体步骤为:
步骤21:获取所述步骤1数据集样本的标签文件,提取所述标签文件中图像的原始信息,将所述图像的原始信息存入列表中;
步骤22:将所述步骤21中列表拉平并去掉所述列表中的空字符,获得处理后的列表,计算所述处理后的列表中元素的总数num,定义一个维度为[num/7,2]的新数组,所述新数组的行为样本边框,所述新数组的第一列为所述样本边框的宽高比r0,所述新数组的第二列为所述样本边框大小占原始图像大小的比例r1;
步骤23:计算所述步骤22获得的样本边框的宽高比r0的平均值和标准差,基于3σ准则筛选出所述样本边框的宽高比r0中的异常数据,利用所述样本边框的宽高比r0的平均值替换所述样本边框的宽高比r0中的异常数据;计算所述步骤22获得的样本边框大小占原始图像大小的比例r1的平均值和标准差,基于3σ准则筛选出所述样本边框大小占原始图像大小的比例r1中的异常数据,利用所述样本边框大小占原始图像大小的比例r1的平均值替换所述样本边框大小占原始图像大小的比例r1中的异常数据;获得更新后的新数组;
步骤24:利用k-means聚类算法将所述步骤23获得的更新后的新数组聚类成k个簇;具体为在所述更新后的新数组中随机选择k个质心点,获得初始k个质心点,按照最邻近原则把所述更新后的新数组的数据点分配给所述初始k个质心点中与所述数据点最近的质心点,获得聚类后的新数组,计算所述聚类后的新数组中的数据点的分配情况,根据所述聚类后的新数组中的数据点的分配情况,重新计算所述k个簇的质心点,获得更新的k个簇的质心点;
步骤25:将所述步骤24获得的初始k个质心点的坐标替换为所述更新的k个簇的质心点的坐标,重复步骤24,直至所述聚类后的新数组中的数据点的分配情况不再改变,获得更新的k个簇的质心点的坐标,利用k-means聚类算法将所述更新的k个簇的质心点的坐标聚类成k1类,输出k1个质心点坐标;所述k1个质心点坐标的横坐标四舍五入到十分位,获得调整后的先验框的比例ratio;所述k1个质心点坐标的纵坐标四舍五入到百分位再乘以M×N,获得调整后的先验框的尺度scale,M为所述步骤1中数据集样本中图像的水平像素值;N为所述步骤1中数据集样本中图像的竖直像素值;
步骤3:将所述步骤1中获得的特征图输入区域生成网络RPN,根据所述步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale获得先验框,对所述先验框进行分类和位置修正,获得最终建议窗口;
步骤4:将所述步骤3中获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口,对所述映射后的建议窗口对应的特征图划分区域,获得网格,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图;
步骤5:对所述步骤4中获得的固定尺寸的建议窗口特征图进行分类,获得建议窗口的类别概率向量;对所述步骤4中获得的固定尺寸的建议窗口特征图进行位置回归,获得建议窗口的位置偏移向量;根据所述建议窗口的类别概率向量和建议窗口的位置偏移向量,利用交叉熵损失函数和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti}),pi为第i个建议框的softmax分类概率;ti为第i个建议框的边框的参数化坐标;基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,完成目标检测。
进一步,所述步骤21中的图像的原始信息包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和样本边框的右下角坐标xmax、ymax。
更进一步的是,所述步骤步骤22中获得的样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1分别为:
可优选的是,所述步骤24中获得的聚类后的新数组中的数据点的分配情况为:
所述重新计算k个簇的质心点,获得更新的k个簇的质心点为:
可优选的是,所述步骤3的具体步骤为:
步骤31:根据所述步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在所述步骤1中获得的特征图上的每一个像素点上生成k1 2个先验框,计算所述先验框的面积s、宽w、高h为:
s=(M/16)·(N/16)·scale
步骤32:将所述步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;所述两个卷积层分支包括并行的第一个卷积层和第二个卷积层,所述第一个卷积层为两个1×1卷积层,所述第一个卷积层的维度为2k1;所述步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据所述步骤32获得的降维后的特征图,计算所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对所述步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对所述步骤31中获得的先验框进行二分类的具体方法为:
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>先验框与样本的边框的重合程度上阈值rpn_max_overlap时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<先验框与样本的边框的重合程度下阈值rpn_min_overlap,标记所述先验框为负样本,输出所述先验框的标签label=0;
当所述步骤31中获得的先验框既不是正样本也不是负样本时,则所述先验框不用于训练,输出所述先验框的标签label=-1;
步骤35:所述步骤32中的第二个卷积层的维度为4k1,所述步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得所述先验框与样本的标定框ground truth之间的变换参数,所述变换参数包括平移参数dx、dy和伸缩参数dw、dh:
dx=(Gx-Px)/Pw
dy=(Gy-Py)/Ph
dw=log(Gw/Pw)
dh=log(Gh/Ph)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据所述步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:当所述步骤35中获得的初始建议窗口的水平或竖直方向尺寸中任意一个超出所述数据集样本中的图像的尺寸M×N时,剔除所述初始建议窗口,获得更新后的初始建议窗口;对所述更新后的初始建议窗口中的元素按照所述步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取所述更新后的初始建议窗口中的前n个元素,获得预建议窗口;利用非极大值抑制NMS方法对所述预建议窗口再次排序,获得排序后的预建议窗口,输出所述排序后的预建议窗口中的前n1个元素,获得最终建议窗口。
可优选的是,所述步骤4的具体步骤为:
步骤41:将所述步骤3获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将所述步骤41获得的映射后的建议窗口对应的特征图划分区域,获得网格,所述网格的尺寸为pool_w×pool_h,pool_w为网格的水平像素值;pool_h为网格的竖直像素值,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图,所述建议窗口特征图的尺寸为pool_w×pool_h。
可优选的是,所述步骤5的具体步骤为:
步骤51:将所述步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层、两个分支;所述两个分支包括并行的第一分支和第二分支,所述第一分支包括串行的全连接层和softmax分类器,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第一分支中的全连接层后,通过所述第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:所述步骤51中的第二分支包括串行的全连接层和边框回归层,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第二分支的全连接层后,通过所述边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
式中:pi *为第i个建议框对应的样本标定框ground truth的分类概率;ti *为第i个建议框对应的样本标定框ground truth的边框的参数化坐标;Ncls为批大小;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数;
基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,根据所述整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
可优选的是,所述步骤1的具体步骤为:
步骤11:将数据集样本中的图像尺寸调整为M×N,获得调整后的图像,M为数据集样本中图像的水平像素值,N为数据集样本中图像的竖直像素值;
步骤12:将所述步骤11中获得的调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得特征图,所述特征图尺寸为(M/16)×(N/16)。
与现有技术相比,本发明的有益效果在于:
在Faster RCNN算法的基础上,基于数据集样本的宽高比以及尺度,调节先验框的比例及尺度,使得先验框的大小尽量接近于原样本,克服了现有的Faster RCNN算法不能充分利用数据集本身尺寸大小等先验知识的问题,在Faster RCNN算法的基础上,选择可变大小的先验框,通过采用k-means算法实现先验框参数自适应,充分考虑数据集样本大小等先验知识,获得改进的FRC算法,解决数据集样本出现极大或极小、以及宽高比悬殊的问题,提高了目标检测算法的检测精度。
附图说明
图1为本发明实施例的基于样本特性的先验框参数自适应改进FRC检测方法的实现框图;
图2为本发明实施例中根据样本宽高比和尺度调整先验框大小的流程图;
图3为本发明实施例中实现边框回归的框图;
图4为发明本实施例中样本宽高比和尺度的聚类图;
图5为本发明实施例中Faster RCNN算法的mAP对比图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例提供了一种基于样本特性的先验框参数自适应改进FRC检测方法,具体步骤包括:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图,具体包括以下步骤:
步骤11:将数据集样本中的图像放缩到M×N固定尺寸,M为数据集样本中的图像的水平像素值;N为数据集样本中的图像的竖直像素值;获得调整后的图像;
步骤12:将调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得尺寸为(M/16)×(N/16)的特征图。
步骤2:根据数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体包括以下步骤:
步骤21:获取数据集样本的标签文件,提取标签文件中图像的原始信息,包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和右下角坐标xmax、ymax,将上述图像的原始信息存入列表中;
步骤22:将存储图像的原始信息的列表拉平并去掉列表中的空字符,计算列表中元素的总数num,将列表转换成维度为[num/7,7]的数组,该数组的列的元素依次为步骤21中的样本边框的左上角坐标xmin、ymin、样本边框的右下角坐标xmax、ymax、图像的初始宽度width、图像的初始高度height、样本对象的类别class_id;数组的行的元素为与数组的列的7个元素对应的样本边框,即该数组的每一行对应每一个边框,每一列依次对应于各边框的参数(xmin,ymin,xmax,ymax,width,height,class_id);
步骤23:定义一个维度为[num/7,2]的新数组,该新数组的行的元素为与步骤22中的数组的行的元素相对应,即为样本边框,新数组的第一列定义为样本边框的宽高比r0,新数组的第二列定义为样本边框大小占原始图像大小的比例r1:
步骤24:分别计算步骤23获得的样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1各自的平均值、标准差,基于3σ准则分别筛选出样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1中各自的异常数据,利用r0和r1各自的平均值替换各自的异常数据,获得更新后的新数组;
步骤25:利用k-means聚类算法将步骤24获得的更新后的新数组聚类成k个簇,在更新后的新数组中随机选择k个质心点,这k个质心点作为初始k个质心点按照最邻近原则把更新后的新数组的数据点分配给这k个质心点中与该数据点最近的质心点,获得聚类后的新数组,在聚类后的新数组中的数据点的分配情况为:
重新计算各簇的质心,获得更新的k个簇质心点:
步骤26:将重新计算后得到的更新的k个簇的质心点的坐标替换初始k个质心点的坐标,重复步骤25,直至数据点的分配情况不再改变,输出k个质心的坐标,再利用k-means将k个质心坐标聚类成k1类,输出k1个质心坐标。横坐标四舍五入到十分位;纵坐标四舍五入到百分位后,乘以M×N;输出的结果分别作为调整后的先验框的比例ratio和调整后的先验框的尺度scale。
步骤3:根据步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,将步骤1中获得的特征图输入区域生成网络RPN获得先验框,对该先验框进行分类和位置修正,获得建议窗口,具体步骤为:
步骤31:根据步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在步骤1中获得的特征图上的每一个像素点生成k1 2个先验框,共生成k1 2·(M/16)·(N/16)个先验框,计算上述先验框的面积s、宽w、高h分别为:
s=(M/16)·(N/16)·scale (5)
步骤32:将步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;两个卷积层分支包括并行的第一个卷积层和第二个卷积层,第一个卷积层为两个1×1卷积层,第一个卷积层的维度为2k1;即每个特征图上的点都有2k1个通道,每个通道代表一个概率值;将步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据步骤32获得的降维后的特征图,计算步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对步骤31中获得的先验框进行二分类的具体方法为:
1)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大,标记先验框为正样本,输出先验框的标签label=1;
2)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>rpn_max_overlap,rpn_max_overlap为先验框与样本的标定框的重合程度上阈值,标记先验框为正样本,输出先验框的标签label=1;
3)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<rpn_min_overlap,标记先验框为负样本,输出先验框的标签label=0;
4)如果步骤31中获得的先验框既不是正样本,也不是负样本,则不用于训练,输出先验框的标签label=-1;
步骤35:步骤32中的第二个卷积层的维度为4k1,步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得先验框与样本的标定框groundtruth之间的变换参数,该变换参数包括平移参数dx和dy、伸缩参数dw和dh:
dx=(Gx-Px)/Pw (9)
dy=(Gy-Py)/Ph (10)
dw=log(Gw/Pw) (11)
dh=log(Gh/Ph) (12)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:剔除步骤35中获得的初始建议窗口中超出图像边界的部分,即初始建议窗口的部分超出图像尺寸M×N时,剔除该初始建议窗口按照步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取前n个元素获得预建议窗口;利用非极大值抑制NMS方法对预建议窗口再次排序,输出前n1个元素获得最终建议窗口。
步骤4:将步骤3中获得的最终建议窗口映射到步骤1获得的特征图上,通过对特征图进行最大池化处理,获得固定尺寸的建议窗口特征图,具体步骤为:
步骤41:将步骤3获得的最终建议窗口映射到步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将步骤41获得的映射后的建议窗口对应的特征图区域水平分为尺寸为pool_w×pool_h的网格,对该网格进行最大池化处理,pool_w为网格的水平像素值;pool_h为网格的竖直像素值;获得尺寸为pool_w×pool_h的固定尺寸的建议窗口特征图。
步骤5:对步骤4中获得的固定尺寸的建议窗口特征图进行分类和位置回归,完成目标检测,具体步骤为:
步骤51:将步骤4获得的固定尺寸的建议窗口特征图,依次输入两个全连接层、两个分支;上述两个分支包括并行的第一分支和第二分支,其中第一分支包括串行的全连接层和softmax分类器,步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层和第一分支中的全连接层,再通过第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:步骤51中的第二分支包括串行的全连接层和边框回归层,步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层和第二分支的全连接层,再通过边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
式中:pi为第i个建议窗口的softmax分类概率;pi *为第i个建议窗口对应的样本标定框ground truth的分类概率;ti为第i个建议窗口的边框;ti *为第i个建议窗口对应的样本标定框ground truth的边框;Ncls为批大小mini-batch size;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数。
根据整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
提供一具体实施例,如图1所述,说明采用本发明的方法提高了Faster RCNN算法的准确率。
步骤1:本实施例采用VOC2007格式的电力围栏数据集,共531个样本。输入图像放缩到600×600,送入vgg16网络初步提取图像特征,得到尺寸为37×37的特征图。
步骤2:获取数据集样本的标签文件,共767个边框,得到一个[767,2]的数组,包含样本的宽高比、面积占比这两类信息,剔除异常数据并采用均值替换。利用k-means算法将处理后的数组聚成9类,得到如图4所示的聚类图和9个质心点坐标。再次利用k-means算法将9个坐标聚成3类,得到3个质心点坐标。分别对横纵坐标进行四舍五入后得到先验框的比例ratio和尺度scale。
步骤3:根据步骤2中先验框的比例ratio和尺度scale,在步骤1得到的特征图上的每一个像素点生成9个先验框,共生成12321个先验框。特征图经过一个3×3卷积层后进入两个分支。第一个分支利用一个维度为18的1×1卷积层和softmax分类器提取前景先验框作为建议窗口;第二个分支利用一个维度为36的1×1卷积层和边框回归层对先验框进行平移和伸缩,初步确定建议窗口。如图3所述边框回归层实现框图,图中P代表原始的建议窗口,G代表目标的标定框,G’代表原始建议窗口经过某种映射关系得到的与真实窗口更接近的回归窗口。当初始建议窗口的部分超出图像尺寸M×N时,剔除该建议窗口;按照IoU值进行从大到小排序,提取前2000个预建议窗口;利用非极大值抑制NMS方法再次排序,提取前300个建议窗口作为输出。
步骤4:将步骤3输出的最终建议窗口映射到步骤1输出的特征图上;每个建议窗口对应的特征图区域水平分为7×7的网格,对每个网格进行最大池化处理,生成7×7固定大小的建议窗口特征图输出。
步骤5:利用交叉熵损失函数Cross Entropy Loss和损失函数Smooth L1对softmax分类和边框回归层联合训练,迭代100轮后,得到本实施例可变先验框的FasterRCNN的mAP为91.90%,可变先验框和固定先验框的mAP对比图如图5所示。
结合图5所述的具体实施例中Faster RCNN算法和本发明的改进FRC算法的mAP对比图可知,基于改进FRC算法,当采用基于样本特性的参数自适应的先验框时,目标检测的mAP值高于Faster RCNN算法中采用固定参数先验框时的mAP值,采用改进FRC算法目标检测的效果比采用现有的Faster RCNN算法更好。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,其包括以下步骤:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图;
步骤2:根据所述步骤1数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体步骤为:
步骤21:获取所述步骤1数据集样本的标签文件,提取所述标签文件中图像的原始信息,将所述图像的原始信息存入列表中;
步骤22:将所述步骤21中列表拉平并去掉所述列表中的空字符,获得处理后的列表,计算所述处理后的列表中元素的总数num,定义一个维度为[num/7,2]的新数组,所述新数组的行为样本边框,所述新数组的第一列为所述样本边框的宽高比r0,所述新数组的第二列为所述样本边框大小占原始图像大小的比例r1;
步骤23:计算所述步骤22获得的样本边框的宽高比r0的平均值和标准差,基于3σ准则筛选出所述样本边框的宽高比r0中的异常数据,利用所述样本边框的宽高比r0的平均值替换所述样本边框的宽高比r0中的异常数据;计算所述步骤22获得的样本边框大小占原始图像大小的比例r1的平均值和标准差,基于3σ准则筛选出所述样本边框大小占原始图像大小的比例r1中的异常数据,利用所述样本边框大小占原始图像大小的比例r1的平均值替换所述样本边框大小占原始图像大小的比例r1中的异常数据;获得更新后的新数组;
步骤24:利用k-means聚类算法将所述步骤23获得的更新后的新数组聚类成k个簇;具体为在所述更新后的新数组中随机选择k个质心点,获得初始k个质心点,按照最邻近原则把所述更新后的新数组的数据点分配给所述初始k个质心点中与所述数据点最近的质心点,获得聚类后的新数组,计算所述聚类后的新数组中的数据点的分配情况,根据所述聚类后的新数组中的数据点的分配情况,重新计算所述k个簇的质心点,获得更新的k个簇的质心点;
步骤25:将所述步骤24获得的初始k个质心点的坐标替换为所述更新的k个簇的质心点的坐标,重复步骤24,直至所述聚类后的新数组中的数据点的分配情况不再改变,获得更新的k个簇的质心点的坐标,利用k-means聚类算法将所述更新的k个簇的质心点的坐标聚类成k1类,输出k1个质心点坐标;所述k1个质心点坐标的横坐标四舍五入到十分位,获得调整后的先验框的比例ratio;所述k1个质心点坐标的纵坐标四舍五入到百分位再乘以M×N,获得调整后的先验框的尺度scale,M为所述步骤1中数据集样本中图像的水平像素值;N为所述步骤1中数据集样本中图像的竖直像素值;
步骤3:将所述步骤1中获得的特征图输入区域生成网络RPN,根据所述步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale获得先验框,对所述先验框进行分类和位置修正,获得最终建议窗口;
步骤4:将所述步骤3中获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口,对所述映射后的建议窗口对应的特征图划分区域,获得网格,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图;
步骤5:对所述步骤4中获得的固定尺寸的建议窗口特征图进行分类,获得建议窗口的类别概率向量;对所述步骤4中获得的固定尺寸的建议窗口特征图进行位置回归,获得建议窗口的位置偏移向量;根据所述建议窗口的类别概率向量和建议窗口的位置偏移向量,利用交叉熵损失函数和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti}),pi为第i个建议框的softmax分类概率;ti为第i个建议框的边框的参数化坐标;基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,完成目标检测。
2.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤21中的图像的原始信息包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和样本边框的右下角坐标xmax和ymax。
5.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤3的具体步骤为:
步骤31:根据所述步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在所述步骤1中获得的特征图上的每一个像素点上生成k1 2个先验框,计算所述先验框的面积s、宽w、高h为:
s=(M/16)·(N/16)·scale
步骤32:将所述步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;所述两个卷积层分支包括并行的第一个卷积层和第二个卷积层,所述第一个卷积层为两个1×1卷积层,所述第一个卷积层的维度为2k1;所述步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据所述步骤32获得的降维后的特征图,计算所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对所述步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对所述步骤31中获得的先验框进行二分类的具体方法为:
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>先验框与样本的边框的重合程度上阈值rpn_max_overlap时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<先验框与样本的边框的重合程度下阈值rpn_min_overlap,标记所述先验框为负样本,输出所述先验框的标签label=0;
当所述步骤31中获得的先验框既不是正样本也不是负样本时,则所述先验框不用于训练,输出所述先验框的标签label=-1;
步骤35:所述步骤32中的第二个卷积层的维度为4k1,所述步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得所述先验框与样本的标定框ground truth之间的变换参数,所述变换参数包括平移参数dx、dy和伸缩参数dw、dh:
dx=(Gx-Px)/Pw
dy=(Gy-Py)/Ph
dw=log(Gw/Pw)
dh=log(Gh/Ph)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据所述步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:当所述步骤35中获得的初始建议窗口的水平或竖直方向尺寸中任意一个超出所述数据集样本中的图像的尺寸M×N时,剔除所述初始建议窗口,获得更新后的初始建议窗口;对所述更新后的初始建议窗口中的元素按照所述步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取所述更新后的初始建议窗口中的前n个元素,获得预建议窗口;利用非极大值抑制NMS方法对所述预建议窗口再次排序,获得排序后的预建议窗口,输出所述排序后的预建议窗口中的前n1个元素,获得最终建议窗口。
6.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤4的具体步骤为:
步骤41:将所述步骤3获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将所述步骤41获得的映射后的建议窗口对应的特征图划分区域,获得网格,所述网格的尺寸为pool_w×pool_h,pool_w为网格的水平像素值;pool_h为网格的竖直像素值,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图,所述建议窗口特征图的尺寸为pool_w×pool_h。
7.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤5的具体步骤为:
步骤51:将所述步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层、两个分支;所述两个分支包括并行的第一分支和第二分支,所述第一分支包括串行的全连接层和softmax分类器,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第一分支中的全连接层后,通过所述第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:所述步骤51中的第二分支包括串行的全连接层和边框回归层,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第二分支的全连接层后,通过所述边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对FasterRCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
式中:pi *为第i个建议框对应的样本标定框ground truth的分类概率;ti *为第i个建议框对应的样本标定框ground truth的边框的参数化坐标;Ncls为批大小;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数;
基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,根据所述整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
8.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤1的具体步骤为:
步骤11:将数据集样本中的图像尺寸调整为M×N,获得调整后的图像,M为数据集样本中图像的水平像素值,N为数据集样本中图像的竖直像素值;
步骤12:将所述步骤11中获得的调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得特征图,所述特征图尺寸为(M/16)×(N/16)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781567.7A CN113449738B (zh) | 2021-07-06 | 2021-07-06 | 基于样本特性的先验框参数自适应改进frc检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781567.7A CN113449738B (zh) | 2021-07-06 | 2021-07-06 | 基于样本特性的先验框参数自适应改进frc检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449738A true CN113449738A (zh) | 2021-09-28 |
CN113449738B CN113449738B (zh) | 2023-06-23 |
Family
ID=77815741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110781567.7A Active CN113449738B (zh) | 2021-07-06 | 2021-07-06 | 基于样本特性的先验框参数自适应改进frc检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449738B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909800A (zh) * | 2019-11-26 | 2020-03-24 | 浙江理工大学 | 一种基于Faster R-CNN改进算法的车辆检测方法 |
CN111275044A (zh) * | 2020-02-21 | 2020-06-12 | 西北工业大学 | 基于样本选择和自适应难例挖掘的弱监督目标检测方法 |
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN112686310A (zh) * | 2020-12-30 | 2021-04-20 | 武汉大学 | 一种基于锚框的目标检测算法中先验框设计方法 |
-
2021
- 2021-07-06 CN CN202110781567.7A patent/CN113449738B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020181685A1 (zh) * | 2019-03-12 | 2020-09-17 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110909800A (zh) * | 2019-11-26 | 2020-03-24 | 浙江理工大学 | 一种基于Faster R-CNN改进算法的车辆检测方法 |
CN111275044A (zh) * | 2020-02-21 | 2020-06-12 | 西北工业大学 | 基于样本选择和自适应难例挖掘的弱监督目标检测方法 |
CN112686310A (zh) * | 2020-12-30 | 2021-04-20 | 武汉大学 | 一种基于锚框的目标检测算法中先验框设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113449738B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414377B (zh) | 一种基于尺度注意力网络的遥感图像场景分类方法 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
CN106446896B (zh) | 一种字符分割方法、装置及电子设备 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN111723860A (zh) | 一种目标检测方法及装置 | |
CN106846316A (zh) | 一种gis内部典型缺陷图像自动识别方法 | |
CN103914705B (zh) | 一种基于多目标免疫克隆的高光谱图像分类和波段选择的方法 | |
CN110533022B (zh) | 一种目标检测方法、系统、装置及存储介质 | |
CN106340016A (zh) | 一种基于细胞显微镜图像的dna定量分析方法 | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN111160407A (zh) | 一种深度学习目标检测方法及系统 | |
CN111860679B (zh) | 一种基于YOLO v3改进算法的车辆检测方法 | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN115239946B (zh) | 小样本迁移学习训练、目标检测方法、装置、设备和介质 | |
CN115661777A (zh) | 一种联合语义的雾天道路目标检测算法 | |
CN114139631B (zh) | 一种面向多目标训练对象可选择的灰盒的对抗样本生成方法 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
CN104933410A (zh) | 一种高光谱图像光谱域与空间域联合分类方法 | |
CN110348311B (zh) | 一种基于深度学习的道路交叉口识别系统及方法 | |
CN113449738A (zh) | 基于样本特性的先验框参数自适应改进frc检测方法 | |
CN107392921B (zh) | 一种基于切比雪夫距离的半监督多目标聚类图像分割方法 | |
CN112232102A (zh) | 一种基于深度神经网络和多任务学习的建筑物目标识别方法和系统 | |
CN115272778A (zh) | 基于rpa和计算机视觉的可回收垃圾分类方法及系统 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |