CN113449738B - 基于样本特性的先验框参数自适应改进frc检测方法 - Google Patents

基于样本特性的先验框参数自适应改进frc检测方法 Download PDF

Info

Publication number
CN113449738B
CN113449738B CN202110781567.7A CN202110781567A CN113449738B CN 113449738 B CN113449738 B CN 113449738B CN 202110781567 A CN202110781567 A CN 202110781567A CN 113449738 B CN113449738 B CN 113449738B
Authority
CN
China
Prior art keywords
frame
sample
window
prior
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110781567.7A
Other languages
English (en)
Other versions
CN113449738A (zh
Inventor
吴文炤
赵峰
许中平
秦旭弘
李可欣
秦亮
刘开培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sgitg Accenture Information Technology Co ltd
Wuhan University WHU
State Grid Information and Telecommunication Co Ltd
Original Assignee
Beijing Sgitg Accenture Information Technology Co ltd
Wuhan University WHU
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sgitg Accenture Information Technology Co ltd, Wuhan University WHU, State Grid Information and Telecommunication Co Ltd filed Critical Beijing Sgitg Accenture Information Technology Co ltd
Priority to CN202110781567.7A priority Critical patent/CN113449738B/zh
Publication of CN113449738A publication Critical patent/CN113449738A/zh
Application granted granted Critical
Publication of CN113449738B publication Critical patent/CN113449738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种基于样本特性的先验框参数自适应改进FRC检测方法。该方法在Faster RCNN算法的基础上,基于数据集样本的宽高比以及尺度,调节先验框的比例及尺度,使得先验框的大小接近原样本,进而提高Faster RCNN算法的准确率。本发明克服了现有的Faster RCNN算法不能充分利用数据集本身尺寸大小等先验知识的问题,在Faster RCNN算法的基础上,选择可变参数的先验框,根据数据集样本的宽高比和尺度,利用k‑means聚类算法选择合适的参数,调节先验框的比例及尺度,获得改进的FRC算法,解决数据集样本出现极大或极小以及宽高比悬殊的问题,提高Faster RCNN算法的目标检测精度。

Description

基于样本特性的先验框参数自适应改进FRC检测方法
技术领域
本申请涉及目标检测算法领域,具体地涉及一种基于样本特性的先验框参数自适应改进FRC(Faster RCNN,FRC)检测方法。
背景技术
Faster RCNN算法作为目前常用的目标检测算法,由于其检测的精确度高,在各个领域都有广泛的应用。与传统RCNN算法和Fast RCNN算法相比,Faster RCNN算法采用区域生成网络RPN代替了Selective Search方法生成建议窗口,大大缩短了生成建议窗口的时间,提高了建议窗口的质量,进而提高了算法的检测精度和速度。同时,Faster RCNN算法利用多任务损失函数实现边框回归,将边框回归直接加入到CNN网络中训练,真正意义上实现端到端的目标检测框架,使得训练过程更加便捷。
先验框是目标检测算法中分类和边框回归的基准框,它的宽高比和尺度需要预先定义,它的选择对目标检测算法的性能的影响很大。目前Faster RCNN算法中,先验框的比例与尺度是固定的,并未考虑数据集样本的宽高比和尺度等先验知识,这会导致在检测宽高比悬殊较大或尺度过大或过小的样本时,出现先验框不能完全框住对象或大部分先验框分布在背景区域等情况,导致目标检测算法的精确度过低。
因此,需要提供一种基于样本特性的先验框参数自适应改进FRC检测方法。
发明内容
为了克服现有技术的不足,本发明的目的是提出一种基于样本特性的先验框参数自适应改进FRC检测方法,在Faster RCNN算法的基础上,采用了可变大小的先验框,根据数据集样本的宽高比和尺度,利用k-means聚类算法选择合适的参数,调节先验框的比例和尺度,基于改进FRC算法,能够充分考虑数据集样本大小等先验知识,解决数据集样本出现极大或极小、以及宽高比悬殊的问题,提高目标检测算法的准确率。
为实现上述目的,本发明所采用的解决方案为:
一种基于样本特性的先验框参数自适应改进FRC检测方法,其包括以下步骤:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图;
步骤2:根据所述步骤1数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体步骤为:
步骤21:获取所述步骤1数据集样本的标签文件,提取所述标签文件中图像的原始信息,将所述图像的原始信息存入列表中;
步骤22:将所述步骤21中列表拉平并去掉所述列表中的空字符,获得处理后的列表,计算所述处理后的列表中元素的总数num,定义一个维度为[num/7,2]的新数组,所述新数组的行为样本边框,所述新数组的第一列为所述样本边框的宽高比r0,所述新数组的第二列为所述样本边框大小占原始图像大小的比例r1
步骤23:计算所述步骤22获得的样本边框的宽高比r0的平均值和标准差,基于3σ准则筛选出所述样本边框的宽高比r0中的异常数据,利用所述样本边框的宽高比r0的平均值替换所述样本边框的宽高比r0中的异常数据;计算所述步骤22获得的样本边框大小占原始图像大小的比例r1的平均值和标准差,基于3σ准则筛选出所述样本边框大小占原始图像大小的比例r1中的异常数据,利用所述样本边框大小占原始图像大小的比例r1的平均值替换所述样本边框大小占原始图像大小的比例r1中的异常数据;获得更新后的新数组;
步骤24:利用k-means聚类算法将所述步骤23获得的更新后的新数组聚类成k个簇;具体为在所述更新后的新数组中随机选择k个质心点,获得初始k个质心点,按照最邻近原则把所述更新后的新数组的数据点分配给所述初始k个质心点中与所述数据点最近的质心点,获得聚类后的新数组,计算所述聚类后的新数组中的数据点的分配情况,根据所述聚类后的新数组中的数据点的分配情况,重新计算所述k个簇的质心点,获得更新的k个簇的质心点;
步骤25:将所述步骤24获得的初始k个质心点的坐标替换为所述更新的k个簇的质心点的坐标,重复步骤24,直至所述聚类后的新数组中的数据点的分配情况不再改变,获得更新的k个簇的质心点的坐标,利用k-means聚类算法将所述更新的k个簇的质心点的坐标聚类成k1类,输出k1个质心点坐标;所述k1个质心点坐标的横坐标四舍五入到十分位,获得调整后的先验框的比例ratio;所述k1个质心点坐标的纵坐标四舍五入到百分位再乘以M×N,获得调整后的先验框的尺度scale,M为所述步骤1中数据集样本中图像的水平像素值;N为所述步骤1中数据集样本中图像的竖直像素值;
步骤3:将所述步骤1中获得的特征图输入区域生成网络RPN,根据所述步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale获得先验框,对所述先验框进行分类和位置修正,获得最终建议窗口;
步骤4:将所述步骤3中获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口,对所述映射后的建议窗口对应的特征图划分区域,获得网格,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图;
步骤5:对所述步骤4中获得的固定尺寸的建议窗口特征图进行分类,获得建议窗口的类别概率向量;对所述步骤4中获得的固定尺寸的建议窗口特征图进行位置回归,获得建议窗口的位置偏移向量;根据所述建议窗口的类别概率向量和建议窗口的位置偏移向量,利用交叉熵损失函数和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti}),pi为第i个建议框的softmax分类概率;ti为第i个建议框的边框的参数化坐标;基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,完成目标检测。
进一步,所述步骤21中的图像的原始信息包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和样本边框的右下角坐标xmax、ymax。
更进一步的是,所述步骤步骤22中获得的样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1分别为:
Figure BDA0003150360010000031
Figure BDA0003150360010000032
可优选的是,所述步骤24中获得的聚类后的新数组中的数据点的分配情况为:
Figure BDA0003150360010000033
式中:
Figure BDA0003150360010000034
为第i个质心点分配的数据点情况;xp为第p个数据点;/>
Figure BDA0003150360010000035
为第i个质心点;/>
Figure BDA0003150360010000036
为第j个质心点;k为质心点的个数;||*||2为欧式距离度量;/>
Figure BDA0003150360010000037
为任意符号;
所述重新计算k个簇的质心点,获得更新的k个簇的质心点为:
Figure BDA0003150360010000038
式中:
Figure BDA0003150360010000041
为重新计算的第i个质心点;xj为第j个数据点。
可优选的是,所述步骤3的具体步骤为:
步骤31:根据所述步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在所述步骤1中获得的特征图上的每一个像素点上生成k1 2个先验框,计算所述先验框的面积s、宽w、高h为:
s=(M/16)·(N/16)·scale
Figure BDA0003150360010000042
Figure BDA0003150360010000043
步骤32:将所述步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;所述两个卷积层分支包括并行的第一个卷积层和第二个卷积层,所述第一个卷积层为两个1×1卷积层,所述第一个卷积层的维度为2k1;所述步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据所述步骤32获得的降维后的特征图,计算所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
Figure BDA0003150360010000044
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对所述步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对所述步骤31中获得的先验框进行二分类的具体方法为:
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>先验框与样本的边框的重合程度上阈值rpn_max_overlap时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<先验框与样本的边框的重合程度下阈值rpn_min_overlap,标记所述先验框为负样本,输出所述先验框的标签label=0;
当所述步骤31中获得的先验框既不是正样本也不是负样本时,则所述先验框不用于训练,输出所述先验框的标签label=-1;
步骤35:所述步骤32中的第二个卷积层的维度为4k1,所述步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得所述先验框与样本的标定框ground truth之间的变换参数,所述变换参数包括平移参数dx、dy和伸缩参数dw、dh:
dx=(Gx-Px)/Pw
dy=(Gy-Py)/Ph
dw=log(Gw/Pw)
dh=log(Gh/Ph)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据所述步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:当所述步骤35中获得的初始建议窗口的水平或竖直方向尺寸中任意一个超出所述数据集样本中的图像的尺寸M×N时,剔除所述初始建议窗口,获得更新后的初始建议窗口;对所述更新后的初始建议窗口中的元素按照所述步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取所述更新后的初始建议窗口中的前n个元素,获得预建议窗口;利用非极大值抑制NMS方法对所述预建议窗口再次排序,获得排序后的预建议窗口,输出所述排序后的预建议窗口中的前n1个元素,获得最终建议窗口。
可优选的是,所述步骤4的具体步骤为:
步骤41:将所述步骤3获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将所述步骤41获得的映射后的建议窗口对应的特征图划分区域,获得网格,所述网格的尺寸为pool_w×pool_h,pool_w为网格的水平像素值;pool_h为网格的竖直像素值,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图,所述建议窗口特征图的尺寸为pool_w×pool_h。
可优选的是,所述步骤5的具体步骤为:
步骤51:将所述步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层、两个分支;所述两个分支包括并行的第一分支和第二分支,所述第一分支包括串行的全连接层和softmax分类器,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第一分支中的全连接层后,通过所述第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:所述步骤51中的第二分支包括串行的全连接层和边框回归层,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第二分支的全连接层后,通过所述边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
Figure BDA0003150360010000061
式中:pi *为第i个建议框对应的样本标定框ground truth的分类概率;ti *为第i个建议框对应的样本标定框ground truth的边框的参数化坐标;Ncls为批大小;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数;
基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,根据所述整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
可优选的是,所述步骤1的具体步骤为:
步骤11:将数据集样本中的图像尺寸调整为M×N,获得调整后的图像,M为数据集样本中图像的水平像素值,N为数据集样本中图像的竖直像素值;
步骤12:将所述步骤11中获得的调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得特征图,所述特征图尺寸为(M/16)×(N/16)。
与现有技术相比,本发明的有益效果在于:
在Faster RCNN算法的基础上,基于数据集样本的宽高比以及尺度,调节先验框的比例及尺度,使得先验框的大小尽量接近于原样本,克服了现有的Faster RCNN算法不能充分利用数据集本身尺寸大小等先验知识的问题,在Faster RCNN算法的基础上,选择可变大小的先验框,通过采用k-means算法实现先验框参数自适应,充分考虑数据集样本大小等先验知识,获得改进的FRC算法,解决数据集样本出现极大或极小、以及宽高比悬殊的问题,提高了目标检测算法的检测精度。
附图说明
图1为本发明实施例的基于样本特性的先验框参数自适应改进FRC检测方法的实现框图;
图2为本发明实施例中根据样本宽高比和尺度调整先验框大小的流程图;
图3为本发明实施例中实现边框回归的框图;
图4为发明本实施例中样本宽高比和尺度的聚类图;
图5为本发明实施例中Faster RCNN算法的mAP对比图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例提供了一种基于样本特性的先验框参数自适应改进FRC检测方法,具体步骤包括:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图,具体包括以下步骤:
步骤11:将数据集样本中的图像放缩到M×N固定尺寸,M为数据集样本中的图像的水平像素值;N为数据集样本中的图像的竖直像素值;获得调整后的图像;
步骤12:将调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得尺寸为(M/16)×(N/16)的特征图。
步骤2:根据数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体包括以下步骤:
步骤21:获取数据集样本的标签文件,提取标签文件中图像的原始信息,包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和右下角坐标xmax、ymax,将上述图像的原始信息存入列表中;
步骤22:将存储图像的原始信息的列表拉平并去掉列表中的空字符,计算列表中元素的总数num,将列表转换成维度为[num/7,7]的数组,该数组的列的元素依次为步骤21中的样本边框的左上角坐标xmin、ymin、样本边框的右下角坐标xmax、ymax、图像的初始宽度width、图像的初始高度height、样本对象的类别class_id;数组的行的元素为与数组的列的7个元素对应的样本边框,即该数组的每一行对应每一个边框,每一列依次对应于各边框的参数(xmin,ymin,xmax,ymax,width,height,class_id);
步骤23:定义一个维度为[num/7,2]的新数组,该新数组的行的元素为与步骤22中的数组的行的元素相对应,即为样本边框,新数组的第一列定义为样本边框的宽高比r0,新数组的第二列定义为样本边框大小占原始图像大小的比例r1
Figure BDA0003150360010000081
Figure BDA0003150360010000082
步骤24:分别计算步骤23获得的样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1各自的平均值、标准差,基于3σ准则分别筛选出样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1中各自的异常数据,利用r0和r1各自的平均值替换各自的异常数据,获得更新后的新数组;
步骤25:利用k-means聚类算法将步骤24获得的更新后的新数组聚类成k个簇,在更新后的新数组中随机选择k个质心点,这k个质心点作为初始k个质心点按照最邻近原则把更新后的新数组的数据点分配给这k个质心点中与该数据点最近的质心点,获得聚类后的新数组,在聚类后的新数组中的数据点的分配情况为:
Figure BDA0003150360010000083
式中:
Figure BDA0003150360010000084
为第i个质心点分配的数据点情况;xp为第p个数据点;/>
Figure BDA0003150360010000085
为第i个质心点;/>
Figure BDA0003150360010000086
为第j个质心点;k为质心点的个数;||*||2为欧式距离度量;/>
Figure BDA0003150360010000087
为任意符号;
重新计算各簇的质心,获得更新的k个簇质心点:
Figure BDA0003150360010000091
式中:
Figure BDA0003150360010000092
为重新计算的第i个质心点;xj为第j个数据点。
步骤26:将重新计算后得到的更新的k个簇的质心点的坐标替换初始k个质心点的坐标,重复步骤25,直至数据点的分配情况不再改变,输出k个质心的坐标,再利用k-means将k个质心坐标聚类成k1类,输出k1个质心坐标。横坐标四舍五入到十分位;纵坐标四舍五入到百分位后,乘以M×N;输出的结果分别作为调整后的先验框的比例ratio和调整后的先验框的尺度scale。
步骤3:根据步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,将步骤1中获得的特征图输入区域生成网络RPN获得先验框,对该先验框进行分类和位置修正,获得建议窗口,具体步骤为:
步骤31:根据步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在步骤1中获得的特征图上的每一个像素点生成k1 2个先验框,共生成k1 2·(M/16)·(N/16)个先验框,计算上述先验框的面积s、宽w、高h分别为:
s=(M/16)·(N/16)·scale (5)
Figure BDA0003150360010000093
Figure BDA0003150360010000094
步骤32:将步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;两个卷积层分支包括并行的第一个卷积层和第二个卷积层,第一个卷积层为两个1×1卷积层,第一个卷积层的维度为2k1;即每个特征图上的点都有2k1个通道,每个通道代表一个概率值;将步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据步骤32获得的降维后的特征图,计算步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
Figure BDA0003150360010000095
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对步骤31中获得的先验框进行二分类的具体方法为:
1)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大,标记先验框为正样本,输出先验框的标签label=1;
2)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>rpn_max_overlap,rpn_max_overlap为先验框与样本的标定框的重合程度上阈值,标记先验框为正样本,输出先验框的标签label=1;
3)如果步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<rpn_min_overlap,标记先验框为负样本,输出先验框的标签label=0;
4)如果步骤31中获得的先验框既不是正样本,也不是负样本,则不用于训练,输出先验框的标签label=-1;
步骤35:步骤32中的第二个卷积层的维度为4k1,步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得先验框与样本的标定框groundtruth之间的变换参数,该变换参数包括平移参数dx和dy、伸缩参数dw和dh:
dx=(Gx-Px)/Pw (9)
dy=(Gy-Py)/Ph (10)
dw=log(Gw/Pw) (11)
dh=log(Gh/Ph) (12)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:剔除步骤35中获得的初始建议窗口中超出图像边界的部分,即初始建议窗口的部分超出图像尺寸M×N时,剔除该初始建议窗口按照步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取前n个元素获得预建议窗口;利用非极大值抑制NMS方法对预建议窗口再次排序,输出前n1个元素获得最终建议窗口。
步骤4:将步骤3中获得的最终建议窗口映射到步骤1获得的特征图上,通过对特征图进行最大池化处理,获得固定尺寸的建议窗口特征图,具体步骤为:
步骤41:将步骤3获得的最终建议窗口映射到步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将步骤41获得的映射后的建议窗口对应的特征图区域水平分为尺寸为pool_w×pool_h的网格,对该网格进行最大池化处理,pool_w为网格的水平像素值;pool_h为网格的竖直像素值;获得尺寸为pool_w×pool_h的固定尺寸的建议窗口特征图。
步骤5:对步骤4中获得的固定尺寸的建议窗口特征图进行分类和位置回归,完成目标检测,具体步骤为:
步骤51:将步骤4获得的固定尺寸的建议窗口特征图,依次输入两个全连接层、两个分支;上述两个分支包括并行的第一分支和第二分支,其中第一分支包括串行的全连接层和softmax分类器,步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层和第一分支中的全连接层,再通过第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:步骤51中的第二分支包括串行的全连接层和边框回归层,步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层和第二分支的全连接层,再通过边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
Figure BDA0003150360010000111
式中:pi为第i个建议窗口的softmax分类概率;pi *为第i个建议窗口对应的样本标定框ground truth的分类概率;ti为第i个建议窗口的边框;ti *为第i个建议窗口对应的样本标定框ground truth的边框;Ncls为批大小mini-batch size;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数。
根据整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
提供一具体实施例,如图1所述,说明采用本发明的方法提高了Faster RCNN算法的准确率。
步骤1:本实施例采用VOC2007格式的电力围栏数据集,共531个样本。输入图像放缩到600×600,送入vgg16网络初步提取图像特征,得到尺寸为37×37的特征图。
步骤2:获取数据集样本的标签文件,共767个边框,得到一个[767,2]的数组,包含样本的宽高比、面积占比这两类信息,剔除异常数据并采用均值替换。利用k-means算法将处理后的数组聚成9类,得到如图4所示的聚类图和9个质心点坐标。再次利用k-means算法将9个坐标聚成3类,得到3个质心点坐标。分别对横纵坐标进行四舍五入后得到先验框的比例ratio和尺度scale。
步骤3:根据步骤2中先验框的比例ratio和尺度scale,在步骤1得到的特征图上的每一个像素点生成9个先验框,共生成12321个先验框。特征图经过一个3×3卷积层后进入两个分支。第一个分支利用一个维度为18的1×1卷积层和softmax分类器提取前景先验框作为建议窗口;第二个分支利用一个维度为36的1×1卷积层和边框回归层对先验框进行平移和伸缩,初步确定建议窗口。如图3所述边框回归层实现框图,图中P代表原始的建议窗口,G代表目标的标定框,G’代表原始建议窗口经过某种映射关系得到的与真实窗口更接近的回归窗口。当初始建议窗口的部分超出图像尺寸M×N时,剔除该建议窗口;按照IoU值进行从大到小排序,提取前2000个预建议窗口;利用非极大值抑制NMS方法再次排序,提取前300个建议窗口作为输出。
步骤4:将步骤3输出的最终建议窗口映射到步骤1输出的特征图上;每个建议窗口对应的特征图区域水平分为7×7的网格,对每个网格进行最大池化处理,生成7×7固定大小的建议窗口特征图输出。
步骤5:利用交叉熵损失函数Cross Entropy Loss和损失函数Smooth L1对softmax分类和边框回归层联合训练,迭代100轮后,得到本实施例可变先验框的FasterRCNN的mAP为91.90%,可变先验框和固定先验框的mAP对比图如图5所示。
结合图5所述的具体实施例中Faster RCNN算法和本发明的改进FRC算法的mAP对比图可知,基于改进FRC算法,当采用基于样本特性的参数自适应的先验框时,目标检测的mAP值高于Faster RCNN算法中采用固定参数先验框时的mAP值,采用改进FRC算法目标检测的效果比采用现有的Faster RCNN算法更好。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,其包括以下步骤:
步骤1:利用卷积神经网络对数据集样本提取图像特征,获得特征图;
步骤2:根据所述步骤1数据集样本的宽高比和尺度调整先验框的比例和尺度,获得调整后的先验框的比例ratio和调整后的先验框的尺度scale,具体步骤为:
步骤21:获取所述步骤1数据集样本的标签文件,提取所述标签文件中图像的原始信息,将所述图像的原始信息存入列表中;
步骤22:将所述步骤21中列表拉平并去掉所述列表中的空字符,获得处理后的列表,计算所述处理后的列表中元素的总数num,定义一个维度为[num/7,2]的新数组,所述新数组的行为样本边框,所述新数组的第一列为所述样本边框的宽高比r0,所述新数组的第二列为所述样本边框大小占原始图像大小的比例r1
步骤23:计算所述步骤22获得的样本边框的宽高比r0的平均值和标准差,基于3σ准则筛选出所述样本边框的宽高比r0中的异常数据,利用所述样本边框的宽高比r0的平均值替换所述样本边框的宽高比r0中的异常数据;计算所述步骤22获得的样本边框大小占原始图像大小的比例r1的平均值和标准差,基于3σ准则筛选出所述样本边框大小占原始图像大小的比例r1中的异常数据,利用所述样本边框大小占原始图像大小的比例r1的平均值替换所述样本边框大小占原始图像大小的比例r1中的异常数据;获得更新后的新数组;
步骤24:利用k-means聚类算法将所述步骤23获得的更新后的新数组聚类成k个簇;具体为在所述更新后的新数组中随机选择k个质心点,获得初始k个质心点,按照最邻近原则把所述更新后的新数组的数据点分配给所述初始k个质心点中与所述数据点最近的质心点,获得聚类后的新数组,计算所述聚类后的新数组中的数据点的分配情况,根据所述聚类后的新数组中的数据点的分配情况,重新计算所述k个簇的质心点,获得更新的k个簇的质心点;
步骤25:将所述步骤24获得的初始k个质心点的坐标替换为所述更新的k个簇的质心点的坐标,重复步骤24,直至所述聚类后的新数组中的数据点的分配情况不再改变,获得更新的k个簇的质心点的坐标,利用k-means聚类算法将所述更新的k个簇的质心点的坐标聚类成k1类,输出k1个质心点坐标;所述k1个质心点坐标的横坐标四舍五入到十分位,获得调整后的先验框的比例ratio;所述k1个质心点坐标的纵坐标四舍五入到百分位再乘以M×N,获得调整后的先验框的尺度scale,M为所述步骤1中数据集样本中图像的水平像素值;N为所述步骤1中数据集样本中图像的竖直像素值;
步骤3:将所述步骤1中获得的特征图输入区域生成网络RPN,根据所述步骤2获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale获得先验框,对所述先验框进行分类和位置修正,获得最终建议窗口;
步骤4:将所述步骤3中获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口,对所述映射后的建议窗口对应的特征图划分区域,获得网格,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图;
步骤5:对所述步骤4中获得的固定尺寸的建议窗口特征图进行分类,获得建议窗口的类别概率向量;对所述步骤4中获得的固定尺寸的建议窗口特征图进行位置回归,获得建议窗口的位置偏移向量;根据所述建议窗口的类别概率向量和建议窗口的位置偏移向量,利用交叉熵损失函数和Smooth L1损失函数对Faster RCNN网络参数联合训练,获得整体损失函数L({pi},{ti}),pi为第i个建议框的softmax分类概率;ti为第i个建议框的边框的参数化坐标;基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,完成目标检测。
2.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤21中的图像的原始信息包括图像的初始宽度width、图像的初始高度height、样本对象的类别class_id、样本边框的左上角坐标xmin、ymin和样本边框的右下角坐标xmax和ymax。
3.根据权利要求2所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤步骤22中获得的样本边框的宽高比r0和样本边框大小占原始图像大小的比例r1分别为:
Figure FDA0003150360000000021
Figure FDA0003150360000000022
4.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤24中获得的聚类后的新数组中的数据点的分配情况为:
Figure FDA0003150360000000023
式中:
Figure FDA0003150360000000031
为第i个质心点分配的数据点情况;xp为第p个数据点;/>
Figure FDA0003150360000000032
为第i个质心点;/>
Figure FDA0003150360000000033
为第j个质心点;k为质心点的个数;||*||2为欧式距离度量;/>
Figure FDA0003150360000000034
为任意符号;
所述重新计算k个簇的质心点,获得更新的k个簇的质心点为:
Figure FDA0003150360000000035
式中:
Figure FDA0003150360000000036
为重新计算的第i个质心点;xj为第j个数据点。
5.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤3的具体步骤为:
步骤31:根据所述步骤2中获得的调整后的先验框的比例ratio和调整后的先验框的尺度scale,在所述步骤1中获得的特征图上的每一个像素点上生成k1 2个先验框,计算所述先验框的面积s、宽w、高h为:
s=(M/16)·(N/16)·scale
Figure FDA0003150360000000037
Figure FDA0003150360000000038
步骤32:将所述步骤1获得的特征图依次输入一个3×3卷积层、两个卷积层分支集中特征信息;所述两个卷积层分支包括并行的第一个卷积层和第二个卷积层,所述第一个卷积层为两个1×1卷积层,所述第一个卷积层的维度为2k1;所述步骤1获得的特征图依次输入所述3×3卷积层和第一个卷积层,获得降维后的特征图;
步骤33:根据所述步骤32获得的降维后的特征图,计算所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU:
Figure FDA0003150360000000039
式中:A为先验框的面积;B为样本的标定框ground truth的面积;∩为交集符号;∪为并集符号;
步骤34:利用softmax分类器对所述步骤31中获得的先验框进行二分类,提取前景先验框,获得建议窗口,对所述步骤31中获得的先验框进行二分类的具体方法为:
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU最大时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU>先验框与样本的边框的重合程度上阈值rpn_max_overlap时,标记所述先验框为正样本,输出所述先验框的标签label=1;
当所述步骤31中获得的先验框与样本的标定框ground truth之间的交互比IoU<先验框与样本的边框的重合程度下阈值rpn_min_overlap,标记所述先验框为负样本,输出所述先验框的标签label=0;
当所述步骤31中获得的先验框既不是正样本也不是负样本时,则所述先验框不用于训练,输出所述先验框的标签label=-1;
步骤35:所述步骤32中的第二个卷积层的维度为4k1,所述步骤1获得的特征图依次输入所述3×3卷积层和第二个卷积层进行样本标定框的回归,获得所述先验框与样本的标定框ground truth之间的变换参数,所述变换参数包括平移参数dx、dy和伸缩参数dw、dh:
dx=(Gx-Px)/Pw
dy=(Gy-Py)/Ph
dw=log(Gw/Pw)
dh=log(Gh/Ph)
式中:Px、Py为先验框的中心点坐标;Pw为先验框的宽;Ph为先验框的高;Gx、Gy为样本的标定框ground truth的中心点坐标;Gw为样本的标定框ground truth的宽;Gh为样本的标定框ground truth的高;
根据所述步骤35获得的变换参数对步骤31中获得的先验框进行平移和伸缩,获得初始建议窗口;
步骤36:当所述步骤35中获得的初始建议窗口的水平或竖直方向尺寸中任意一个超出所述数据集样本中的图像的尺寸M×N时,剔除所述初始建议窗口,获得更新后的初始建议窗口;对所述更新后的初始建议窗口中的元素按照所述步骤33获得的先验框与样本的标定框ground truth之间的交互比IoU值进行从大到小排序,提取所述更新后的初始建议窗口中的前n个元素,获得预建议窗口;利用非极大值抑制NMS方法对所述预建议窗口再次排序,获得排序后的预建议窗口,输出所述排序后的预建议窗口中的前n1个元素,获得最终建议窗口。
6.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤4的具体步骤为:
步骤41:将所述步骤3获得的最终建议窗口映射到所述步骤1获得的特征图上,获得映射后的建议窗口;
步骤42:将所述步骤41获得的映射后的建议窗口对应的特征图划分区域,获得网格,所述网格的尺寸为pool_w×pool_h,pool_w为网格的水平像素值;pool_h为网格的竖直像素值,对所述网格进行最大池化处理,获得固定尺寸的建议窗口特征图,所述建议窗口特征图的尺寸为pool_w×pool_h。
7.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤5的具体步骤为:
步骤51:将所述步骤4获得的固定尺寸的建议窗口特征图依次输入两个全连接层、两个分支;所述两个分支包括并行的第一分支和第二分支,所述第一分支包括串行的全连接层和softmax分类器,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第一分支中的全连接层后,通过所述第一分支的softmax分类器进行分类,获得建议窗口的类别概率向量;
步骤52:所述步骤51中的第二分支包括串行的全连接层和边框回归层,所述步骤4获得的固定尺寸的建议窗口特征图依次输入所述两个全连接层和第二分支的全连接层后,通过所述边框回归层进行位置回归,获得建议窗口的位置偏移向量;
步骤53:利用交叉熵损失函数Cross Entropy Loss和Smooth L1损失函数对FasterRCNN网络参数联合训练,获得整体损失函数L({pi},{ti})为:
Figure FDA0003150360000000051
式中:pi *为第i个建议框对应的样本标定框ground truth的分类概率;ti *为第i个建议框对应的样本标定框ground truth的边框的参数化坐标;Ncls为批大小;Nreg为建议框的数量;Lcls为softmax分类器的损失函数;Lreg为边框回归的损失函数;λ为权重平衡参数;
基于所述整体损失函数L({pi},{ti})获得改进的FRC算法,根据所述整体损失函数L({pi},{ti})反向传播更新网络参数,直至整体损失函数达到最小值或达到设定的迭代轮次,完成目标检测。
8.根据权利要求1所述的基于样本特性的先验框参数自适应改进FRC检测方法,其特征在于,所述步骤1的具体步骤为:
步骤11:将数据集样本中的图像尺寸调整为M×N,获得调整后的图像,M为数据集样本中图像的水平像素值,N为数据集样本中图像的竖直像素值;
步骤12:将所述步骤11中获得的调整后的图像输入vgg16网络,依次经过13个卷积层、13个激活层、4个池化层,获得特征图,所述特征图尺寸为(M/16)×(N/16)。
CN202110781567.7A 2021-07-06 2021-07-06 基于样本特性的先验框参数自适应改进frc检测方法 Active CN113449738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781567.7A CN113449738B (zh) 2021-07-06 2021-07-06 基于样本特性的先验框参数自适应改进frc检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781567.7A CN113449738B (zh) 2021-07-06 2021-07-06 基于样本特性的先验框参数自适应改进frc检测方法

Publications (2)

Publication Number Publication Date
CN113449738A CN113449738A (zh) 2021-09-28
CN113449738B true CN113449738B (zh) 2023-06-23

Family

ID=77815741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781567.7A Active CN113449738B (zh) 2021-07-06 2021-07-06 基于样本特性的先验框参数自适应改进frc检测方法

Country Status (1)

Country Link
CN (1) CN113449738B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909800A (zh) * 2019-11-26 2020-03-24 浙江理工大学 一种基于Faster R-CNN改进算法的车辆检测方法
CN111275044A (zh) * 2020-02-21 2020-06-12 西北工业大学 基于样本选择和自适应难例挖掘的弱监督目标检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN112686310A (zh) * 2020-12-30 2021-04-20 武汉大学 一种基于锚框的目标检测算法中先验框设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN110909800A (zh) * 2019-11-26 2020-03-24 浙江理工大学 一种基于Faster R-CNN改进算法的车辆检测方法
CN111275044A (zh) * 2020-02-21 2020-06-12 西北工业大学 基于样本选择和自适应难例挖掘的弱监督目标检测方法
CN112686310A (zh) * 2020-12-30 2021-04-20 武汉大学 一种基于锚框的目标检测算法中先验框设计方法

Also Published As

Publication number Publication date
CN113449738A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111461110B (zh) 一种基于多尺度图像和加权融合损失的小目标检测方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN108876797B (zh) 一种基于Spiking-SOM神经网络聚类的图像分割系统及方法
CN112733659B (zh) 一种基于自步学习双流多尺度密集连接网络的高光谱图像分类方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN104143186B (zh) 一种slic超像素分块优化方法
CN112508090A (zh) 一种外包装缺陷检测方法
CN109145964B (zh) 一种实现图像颜色聚类的方法和系统
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN111242063A (zh) 基于迁移学习的小样本分类模型构造方法及虹膜分类应用
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN113887410A (zh) 一种基于深度学习的多类别食材识别系统及方法
CN114067298A (zh) 一种基于Faster R-CNN的棉花顶尖识别方法
CN112907604A (zh) 一种用于眼底棉绒斑图像分割的自适应超像素fcm方法
CN111368900A (zh) 一种图像目标物识别方法
CN111798526B (zh) 基于聚类空间映射的彩色图像主色快速提取方法及系统
CN110956201B (zh) 一种基于卷积神经网络的图像失真类型分类方法
CN113449738B (zh) 基于样本特性的先验框参数自适应改进frc检测方法
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法
CN113191361A (zh) 一种形状识别方法
CN112149518A (zh) 基于began和yolov3模型的松果检测方法
CN116563862A (zh) 一种基于卷积神经网络的数字识别方法
CN115330759B (zh) 一种基于豪斯多夫距离计算距离损失的方法及装置
CN107392921B (zh) 一种基于切比雪夫距离的半监督多目标聚类图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant