CN113609913B - 一种基于采样阈值区间加权的松材线虫病树检测方法 - Google Patents

一种基于采样阈值区间加权的松材线虫病树检测方法 Download PDF

Info

Publication number
CN113609913B
CN113609913B CN202110775562.3A CN202110775562A CN113609913B CN 113609913 B CN113609913 B CN 113609913B CN 202110775562 A CN202110775562 A CN 202110775562A CN 113609913 B CN113609913 B CN 113609913B
Authority
CN
China
Prior art keywords
sample
samples
sampling
positioning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110775562.3A
Other languages
English (en)
Other versions
CN113609913A (zh
Inventor
任东
田晓燃
叶莎
彭宜生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Zhigan Space Information Technology Co ltd
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202110775562.3A priority Critical patent/CN113609913B/zh
Publication of CN113609913A publication Critical patent/CN113609913A/zh
Application granted granted Critical
Publication of CN113609913B publication Critical patent/CN113609913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种基于采样阈值区间加权的松材线虫病树检测方法,它包括步骤1:进行图像采集,对包含病树样本的图片进行标记作为训练集;步骤2:构建病树特征提取网络对训练集图片进行卷积,生成特征图;步骤3:构建采样筛选网络,对特征图进行样本采集,并根据采样阈值区间加权算法对样本进行筛选;步骤4:样本采集完成后送入解耦的网络检测头中,进行类型识别与定位,并生成训练模型;步骤5:获取验证集图片,并将处理后的图片投入训练模型中进行识别等步骤。本发明的目的是为了能准确、可靠的对松材线虫病树进行定位,而提供了一种鲁棒的、基于影像处理技术的对松材线虫病树进行检测的方法。

Description

一种基于采样阈值区间加权的松材线虫病树检测方法
技术领域
本发明涉及遥感影像中目标检测的技术领域,尤其涉及一种对松材线虫病树的检测方法。
背景技术
松材线虫病是一种由松材线虫引起的具有毁灭性的森林病虫害,松树一旦感染该病,最快40天左右即可死亡,如不进行人工干预,3-5年内便可摧毁成片的松树林。该病自1982年传入我国,已蔓延至全国18个省588个县级行政区域,发生面积达974万亩,造成的松树死亡数量累计达到数十亿株,造成直接经济损失和生态服务价值损失上千亿元。
传统的松材线虫病识别的工作通常采用人工定位的方法进行,然而人工定位的方法既耗费时间也耗费物力,并且有些地方难以进行人工踏勘。
在现有技术中文献编号为1000-1298(2020)07-0228-09的论文公开了一种基于Faster R-CNN深度学习网络对松材线虫病树进行检测的方法,论文主要创新点在于通过根据病树冠幅修改RPN网络中建议框尺寸,达到更好的网络训练精度。但该现有技术对正负样本的平衡没有进行调整,仅仅通过修改建议框的尺寸无法平衡网络训练中正负样本的比例,而且也没有考虑到样本的难易程度对网络训练带来的影响。
本发明通过构建采样检测网络,解决网络训练中存在的样本不平衡问题,通过对样本阈值区间进行加权,提高网络的困难采样率,降低大量简单样本的采样率,提升样本采集质量,从而获取更为鲁棒的网络模型。
发明内容
本发明的目的是为了能准确、可靠的对松材线虫病树进行定位,而提供了一种鲁棒的、基于影像处理技术的对松材线虫病树进行检测的方法。
一种基于采样阈值区间加权松材线虫病树进行检测的方法,包括以下步骤:
步骤1:采集训练集图片,对包含病树样本的图片进行标记作为训练集;
步骤2:构建病树特征提取网络对训练集图片的特征进行提取,生成特征图;
步骤3:构建采样筛选网络,对特征图进行样本采集,并根据采样阈值区间加权算法对样本进行筛选;
步骤4:样本采集完成后送入解耦的网络检测头中,进行病树的识别,并生成初始双检测头识别模型;
步骤5:将需要检测的病树图片投入初始双检测头模型中进行识别,对验证集中错误样本进行统计,并制作成为负样本集,与训练集混合后再次放入采样筛选网络中进行训练,通过反复迭代获取高鲁棒性的识别模型;
步骤6:将最优模型的识别模型的识别结果输出为矢量,并校正位置,得到病树中心点经纬度坐标文件。
步骤2中,在构建病树特征提取网络时,具体采用以下步骤:
1)构建病树特征提取网络,病树特征提取网络主要由下采样模块组成,下采样模块采用残差模块进行堆叠生成。
2)将训练集图片送入病树特征提取网络中进行下采样,得到特征图;
步骤3中,构建采样筛选网络对对特征图进行样本采集,采用以下步骤:
(1):训练集图片在经过病树特征提取网络后变为特征图,采样筛选网络在特征图上通过滑窗方式生成预选框,滑窗大小为3*3,生成K个预选框,K一般设为9,预选框可视为一个个按照固定比例(长宽,大小)预定义的框;
(2):计算预选框和标注真值的IOU交并比,IOU计算公式为:
Figure GDA0003733583520000021
步骤3中,采样阈值区间加权算法具体实现方法如下:
(1)通过对整体样本的IOU阈值区间进行划分,将IOU阈值区间按照正负样本分为两个区间,并在两个区间内划分难易样本区间,按照L的阈值区间将X以下及以上的区间各划分为K个阈值区间,一般将L设置为0.1,K设置为10,X设置为0.5,并对难例样本区间(靠近X的阈值区间)进行加权,加权公式如下:
Figure GDA0003733583520000022
Figure GDA0003733583520000023
Sk为不同Batch中的候选采样数,N为采样数,K为划分的区间数,将整个阈值区间均匀划分为K个区间,C为:若整体采样数不够N值,则从整体样本空间内进行随机采样的采样数。σ为加权系数,加权系数中nmax代表整个样本空间的样本数,nh表示当前阈值区间内样本数量,样本空间阈值的整体走向是呈U型的,整个样本空间内的样本数是恒定的,在难例样本区间内采样的数量相对于容易样本的采样数量是较为稀少的,实验将K个区间分为简单样本区间和困难样本区间,取样本空间两端的区间ψ为简单样本区间,其余区间为困难样本区间,在不同的样本区间内使用不同的加权系数σ,抑制简单样本提高困难样本的采样比例。
步骤4中,将网络检测头进行解耦的具体实现步骤如下:
(1)将网络检测头的类型识别定位支路进行解耦,分别建立定位支路和类型识别支路,并且两个支路的损失分别进行计算。
步骤(1)中,将经过采样筛选网络的特征图进行池化获得7*7*256大小的特征图,在经过池化后的特征图后面建立两条检测支路,一条支路上串联两个卷积模块,另一个支路上串联两个全连接层,分别让两个检测支路专注于不同的任务,其中卷积模块采用K个残差模块进行堆叠,K可以根据显卡配置进行取值,显存越大的显卡K值可以取越大。残差模块由三个模块组成,第一个模块主要用于将特征图的通道数从初始值A增加到目标值B,A和B一般设置为256和1024,第二个模块是瓶颈结构,通过在大卷积层前后堆叠1*1的小卷积层,降低训练使用的参数,第三个是Non-local模块,用于提升卷积核的感受野,Non-local模块表达公式如下:
Figure GDA0003733583520000031
其中x是输入信号,在目标检测中一般使用的是特征图,i和j分别代表输入某个空间位置,f函数式计算i和j的相似度,g函数计算特征图在j位置的表示,最终y通过响应因子C(x)进行标准化处理后得到,通过Non-local模块可以计算任意两个位置之间的交互,从而捕捉远程依赖,脱离相邻点的局限,相当于构建了一个特征图谱尺寸一样大的卷积核,从而可以维持更多信息;
(2)重新设置定位支路的损失函数,并得到最后类型识别结果和定位结果。在步骤(2)中,具体包括以下步骤:
①为解耦的定位支路重新设置损失函数。
②输出最后类型识别结果和定位结果
在步骤①中:
类型识别定位支路的损失定义如下:
Figure GDA0003733583520000041
Figure GDA0003733583520000042
Figure GDA0003733583520000043
表示全连接层中类型识别损失,这里类型识别的损失选用交叉熵损失,λfc表示全连接层中控制类型识别定位损失的权重值。定位的损失选用smooth-L1损失函数。因为解耦成为两个支路,所以定位支路的损失不能和类型识别支路的损失一起计算,所以要重新设置定位支路的损失函数。类型识别支路损失函数则沿用上面的函数设置。
定位支路的损失值定义如下:
Figure GDA0003733583520000044
Figure GDA0003733583520000045
Figure GDA0003733583520000046
表示卷积层中类型识别定位损失,其中L使用的是Smooth-L1损失函数。λconv表示定位支路中控制类型识别定位损失的权重值,λconv
Figure GDA0003733583520000047
相乘代表定位支路专注于定位任务,其中λconv和λfc设置分别为M和N。
样本框的定位结果表示如下:
d*(x,y,w,h)(A)=W* T*φ(A)
其中φ(A)是对应样本框和特征图组成的特征向量,W*是需要学习的参数,d*(A)是通过网络训练不断拟合数据得到的x,y,w,h,通过引入Soomth-L1损失函数计算样本框与真实标注值的差异值,Smooth-L1损失函数如下:
Figure GDA0003733583520000048
当差异值最小的时候就得到了物体的定位数据,通过反向传播计算梯度值,调节权重值来更新数据。经过不断反复更新计算,使得d*(A)拟合越来越靠近真实标注框;
在步骤②中:
经过1*1024全连接层得到一组特征向量,再用softmax对其进行类型识别,softmax函数公式如下:
Figure GDA0003733583520000049
经过Softmax计算后输出每个特征向量的相对概率,特征向量最大的类别即为最后输出的类别。定位结果则直接使用定位支路的结果。得到训练结果后,将网络参数固定,并生成初始双检测头识别模型。
在步骤5中,将需要检测病树的无人机图片进行裁剪,投入到初始双检测头识别模型中进行识别,对识别结果的错误样本进行筛选,要获取高鲁棒性的模型,错误样本的学习也是必须的,在数百平方公里的遥感影像内存在各种类型的地物,其中可能包含大量与病树相似的近似样本,模型容易对这些近似样本检测错误,对识别结果的错误样本进行整理,与训练集一起放入模型中再次训练,可以使模型获得区别错误样本的能力,经过反复迭代,最后可以得到高鲁棒性的双检测头检测模型。
在步骤6中,将最优模型识别的验证集图片拼接,通过检测框左上角横纵坐标(x1,y1),右下角的横纵坐标(x2,y2),计算检测框的中心点的坐标值,计算公式如下:
Figure GDA0003733583520000051
Figure GDA0003733583520000052
将结果矢量化,位置配准,得到病树的精确位置。
一种采样阈值区间加权方法,其特征在于,包括以下步骤:
步骤1:对整体样本的IOU阈值区间进行划分,将IOU阈值区间按照正负样本分为两个区间;
步骤2:在两个区间内划分难易样本区间,按照L的阈值区间将X以下及以上的区间各划分为K个阈值区间,并对难例样本区间进行加权。
所采用的加权公式如下:
Figure GDA0003733583520000053
Figure GDA0003733583520000054
Sk为不同Batch中的候选采样数,N为采样数,K为划分的区间数,将整个阈值区间均匀划分为K个区间,C为:若整体采样数不够N值,则从整体样本空间内进行随机采样的采样数。
如果整体采样数量没有达到候选采样数,则进行随机采样补齐,σ为加权系数,加权系数中nmax代表整个样本空间的样本数,nh表示当前阈值区间内样本数量,样本空间阈值的整体走向是呈U型的,整个样本空间内的样本数是恒定的,在难例样本区间内采样的数量相对于容易样本的采样数量是较为稀少的,实验将K个区间分为简单样本区间和困难样本区间,取样本空间两端的区间ψ为简单样本区间,其余为困难样本区间,在不同的样本区间内使用不同的加权系数σ,抑制简单样本提高困难样本的采样比例,经过采样网络对预选框进行筛选后,剩余的预选框被当做样本框送入网络检测头部分对样本框进行类型识别定位。
与现有技术相比,本发明具有如下技术效果:
1)本发明为了高效、准确的对松材线虫病树进行定位,而提供了一种较为鲁棒的,通过无人机影像识别松材线虫病树的方法;本发明提出了采样检测网络,通过采样阈值区间加权策略,提升样本采样质量,对松材线虫病树进行精确定位。相较于现有技术,本方法考虑到了网络训练中正负样本的比例调配和难易样本的比例问题,并且提出了一种解耦特征检测头,将卷积和全连接层进行分离,使其特征不共享,以提升网络识别精度。
2)本发明通过构建采样检测网络,解决网络训练中存在的样本不平衡问题,通过对样本阈值区间进行加权,提高网络的困难采样率,降低大量简单样本的采样率,提升样本采集质量,从而获取更为鲁棒的网络模型。
3)本发明是基于样本采样的一种病树检测模型,只需要采用少量的无人机标注样本,通过反复迭代训练就可以获得高鲁棒性的检测模型。将病树的位置转化为矢量输出,经过配准后可以在遥感影像里精确的定位病树的经纬度,避免了人工巡视,减少了大量的人力,物力耗费。
4)相比现有技术,本发明在识别模型的构建上,我们设计了解耦特征检测头,将检测头进行解耦合,让不同分支专注于单独任务,从而取得更好效果。并且,相比现有技术,本发明考虑到了网络训练中简单困难样本不平衡带来对网络训练带来的影响,并提出了一种基于采样阈值区间加权的方法,提升困难样本区间的采样率,降低简单样本的采样比例,缓解了样本采集中难易样本采样的不平衡问题。综合以上的改进方法可以很大提升检测框架的精度。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明的流程图;
图2为本发明中网络结构图;
图3为本发明中残差模块结构图;
图4为本发明中双分支检测头结构图;
具体实施方式
一种基于采样阈值区间加权的松材线虫病树检测方法,包括以下步骤:
步骤1:采集训练集图片,对包含病树样本的图片进行标记作为训练集;
步骤2:构建病树特征提取网络对训练集图片的特征进行提取,生成特征图;
步骤3:构建采样筛选网络,对特征图进行样本采集,并根据采样阈值区间加权算法对样本进行筛选;
步骤4:样本采集完成后送入解耦的网络检测头中,进行病树的识别,并生成初始双检测头识别模型;
步骤5:将需要检测的病树图片投入初始双检测头模型中进行识别,对验证集中错误样本进行统计,并制作成为负样本集,与训练集混合后再次放入采样筛选网络中进行训练,通过反复迭代获取高鲁棒性的双检测头识别模型;
步骤6:将最优模型的识别模型的识别结果输出为矢量,并校正位置,得到病树中心点经纬度坐标文件。
在步骤2中,构建采样筛选网络,具体采用以下步骤:
1):构建病树特征提取网络,训练集图片传入病树特征提取网络中进行特征提取;
2):由病树特征提取网络生成的特征图进入采样检测网络,通过滑窗在特征图上生成预选框,通过与标注真值计算IOU比,大于0.5计算为正样本,小于0.5计算为负样本。将样本阈值进行区间划分,通过采样阈值区间加权采样方法对预选框进行筛选,获得样本框。经过筛选的样本框中困难样本占比提升,抑制简单样本占比。经过采样筛选后的特征图送入网络检测头部分,进行类型识别定位。
3)将网络检测头部分解耦成类型识别支路和定位支路,类型识别支路上串联两个全连接层,定位支路上串联两个卷积模块,通过分离类型识别定位特征,使其特征不共享,让单个支路专注于单个任务,网络检测头部分类型识别结果和定位结果通过两个支路分别输出;
在步骤1)中,主干网络使用残差模块进行堆叠;
在步骤2)中,样本采样过程可以分为如下几步:
(1):采样检测网络在特征图上在通过滑窗生成预选框,滑窗大小为3*3,生成9个预选框,预选框可视为一个个按照固定比例(长宽,大小)预定义的框;
(2):计算预选框和标注真值的IOU交并比,IOU计算公式为:
Figure GDA0003733583520000081
IOU大于0.5的视为正样本,IOU小于0.5的视为负样本。因为病树样本在标注图像中占比较小,所以大量的预选框交并比都是远远小于0.5的,这些交并比远远小于0.5样本被称为易负样本,易负样本数量远远大于网络训练需要的难负样本和正样本,占据总损失的大部分,这样的训练使得模型的优化方向不会朝向我们希望的方向进行。我们通过对整体样本的IOU阈值区间进行划分,将IOU阈值区间按照正负样本分为两个区间,并在两个区间内划分难易样本区间。按照0.1的阈值区间将0.5以下及以上的区间各划分为5个阈值区间。并对难例样本区间(靠近0.5的阈值区间)进行加权,加权公式如下:
Figure GDA0003733583520000082
Figure GDA0003733583520000083
Sk为不同Batch中的候选采样数,N为采样数,K为划分的区间数,这里K=10,将整个阈值区间从0到1以0.1的阈值区间均匀划分,如果整体采样数量没有达到候选采样数,则进行随机采样补齐。σ为加权系数,加权系数中nmax代表整个样本空间的样本数,nh表示当前阈值区间内样本数量。样本空间阈值的整体走向是呈U型的,整个样本空间内的样本数是恒定的,在难例样本区间内采样的数量相对于容易样本的采样数量是较为稀少的,实验将10个区间分为简单样本区间和困难样本区间,取样本空间两端的区间[0,0.1),[0.1,0.2),[0.8,0.9),[0.9,1),为简单样本区间和困难样本区间,在不同的样本区间内使用不同的加权系数σ,以控制简单样本和困难样本的采样比例。
在步骤3)中,解耦网络检测头部分网络包含包括以下步骤:
(1)将网络检测头的类型识别定位支路进行解耦,分别建立定位支路和类型识别支路;
步骤(1)中,将经过采样筛选网络的特征图进行池化获得大小为7*7*256的特征图,池化为固定大小是为了统一特征图大小,使网络输入训练图片大小可以任意设置。在经过池化后的特征图后面建立两条检测支路,一条支路上串联两个卷积模块,另一个支路上串联两个全连接层。根据全连接层更适用于类型识别任务而卷积层在定位任务中有更好的效果,分别让两个检测支路专注于不同的任务。其中卷积模块采用5个残差模块进行堆叠,残差模块由3个模块组成,第一个模块主要用于将特征图的通道数从256增加到1024,第二个模块是瓶颈结构,通过在大卷积层前后堆叠1*1的小卷积层,降低训练使用的参数,第三个是Non-local模块,用于提升卷积核的感受野,Non-local模块表达公式如下:
Figure GDA0003733583520000091
其中x是输入信号,在目标检测中一般使用的是特征图,i和j分别代表输入某个空间位置。f函数式计算i和j的相似度,g函数计算特征图在j位置的表示,最终y通过响应因子C(x)进行标准化处理后得到。通过Non-local模块可以计算任意两个位置之间的交互,从而捕捉远程依赖,脱离相邻点的局限。相当于构建了一个特征图谱尺寸一样大的卷积核,从而可以维持更多信息;
(2)重新设置定位支路的损失函数,并得到最后类型识别结果和定位结果;
在步骤(2)中,具体包括以下步骤:
①为解耦的卷积层重新设置损失函数。
②输出最后类型识别结果和定位结果
在步骤①中:
网络检测头部分的类型识别定位支路损失函数定义如下:
Figure GDA0003733583520000092
Figure GDA0003733583520000093
Figure GDA0003733583520000094
表示类型识别定位支路中类型识别定位损失,这里类型识别的损失选用交叉熵损失,λfc表示全连接层中控制类型识别定位损失的权重值。定位的损失选用smooth-L1损失函数。因为解耦成为两个支路,所以定位支路的损失不能和类型识别支路的损失一起计算,所以要重新设置定位支路的损失函数。
定位支路的损失值定义如下:
Figure GDA0003733583520000101
Figure GDA0003733583520000102
Figure GDA0003733583520000103
表示定位支路中类型识别损失和定位损失,其中L使用的是Smooth-L1损失函数。λconv表示定位支路中控制类型识别定位损失的权重值,λconv
Figure GDA0003733583520000104
相乘代表定位支路专注于定位任务,其中λconv和λfc设置分别为0.8和0.7。
样本框的定位结果表示如下:
d*(x,y,w,h)(A)=W* T*φ(A);
其中φ(A)是对应样本框和特征图组成的特征向量,W*是需要学习的参数,d*(A)是通过网络训练不断拟合数据得到的x,y,w,h,通过引入Soomth-L1损失函数计算样本框与真实标注值的差异值,Smooth-L1损失函数如下:
Figure GDA0003733583520000105
当差异值最小的时候就得到了物体的定位数据,通过反向传播计算梯度值,调节权重值来更新数据。经过不断反复更新计算,使得d*(A)拟合越来越靠近真实标注框。
在步骤②中:
经过1*1024全连接层得到一组特征向量,再用softmax对其进行类型识别,softmax函数公式如下:
Figure GDA0003733583520000106
经过Softmax计算后输出每个特征向量的相对概率,特征向量最大的类别即为最后输出的类别。定位结果则直接使用定位支路的结果。
在步骤3中,将需要检测病树的无人机图片进行裁剪,投入深度学习模型中进行检测。
在步骤4中,将检测图像拼接,通过检测框左上角横纵坐标(x1,y1),右下角的横纵坐标(x2,y2),计算检测框的中心点的坐标值,计算公式如下:
Figure GDA0003733583520000111
将结果矢量化,位置配准,得到病树的精确位置。
在步骤5中,对识别结果的错误样本进行筛选,要获取高鲁棒性的模型,错误样本的学习也是必须的,在数百平方公里的遥感影像内存在各种类型的地物,其中可能包含大量与病树相似的近似样本,模型容易对这些近似样本检测错误。对识别结果的错误样本进行整理,与训练集一起放入模型中再次训练,可以使模型获得区别错误样本的能力。经过反复迭代,最后可以得到高鲁棒性的检测模型。
一种采样阈值区间加权方法,其特征在于,包括以下步骤:
步骤1:对整体样本的IOU阈值区间进行划分,将IOU阈值区间按照正负样本分为两个区间;
步骤2:在两个区间内划分难易样本区间,按照L的阈值区间将X以下及以上的区间各划分为K个阈值区间,并对难例样本区间进行加权。
所采用的加权公式如下:
Figure GDA0003733583520000112
Figure GDA0003733583520000113
Sk为不同Batch中的候选采样数,N为采样数,K为划分的区间数,将整个阈值区间均匀划分为K个区间,C为:若整体采样数不够N值,则从整体样本空间内进行随机采样的采样数。
如果整体采样数量没有达到候选采样数,则进行随机采样补齐,σ为加权系数,加权系数中nmax代表整个样本空间的样本数,nh表示当前阈值区间内样本数量,样本空间阈值的整体走向是呈U型的,整个样本空间内的样本数是恒定的,在难例样本区间内采样的数量相对于容易样本的采样数量是较为稀少的,实验将K个区间分为简单样本区间和困难样本区间,取样本空间两端的区间ψ为简单样本区间,其余为困难样本区间,在不同的样本区间内使用不同的加权系数σ,抑制简单样本提高困难样本的采样比例,经过采样网络对预选框进行筛选后,剩余的预选框被当做样本框送入网络检测头部分对样本框进行类型识别定位。
一种采样阈值区间加权方法,它考虑到了训练中存在的样本不均衡问题和样本难易程度问题,随机采样方法是在样本空间内对所有的样本进行随机采样,不判断样本的正负性以及难易程度,而由于正负样本的比例差距过大,使得随机采样法会偏向大量采集简单的负样本,大量的简单负样本对网络训练没有任何帮助,还会主导训练损失,使模型不能很好拟合带有正样本信息样本,影响模型精度。本方法对网络训练需要的困难样本提高其占比权重,减小网络不需要的简单的样本的占比权重,考虑到了网络的正负样本失衡和判断困难简单样本,通过对样本权重进行调整,提高了网络学习样本的质量,获得更好的训练效果。

Claims (6)

1.一种基于采样阈值区间加权的松材线虫病树检测方法,其特征在于,包括以下步骤:
步骤1:采集训练集图片,对包含病树样本的图片进行标记作为训练集;
步骤2:构建病树特征提取网络对训练集图片的特征进行提取,生成特征图;
步骤3:构建采样筛选网络,对特征图进行样本采集,并根据采样阈值区间加权算法对样本进行筛选;
步骤4:样本采集完成后送入解耦的网络检测头中,进行病树的识别,并生成初始双检测头识别模型;
步骤5:将需要检测的病树图片投入初始双检测头模型中进行识别,对验证集中错误样本进行统计,并制作成为负样本集,与训练集混合后再次放入采样筛选网络中进行训练,通过反复迭代获取高鲁棒性的双检测头识别模型;
步骤6:将最优模型的识别模型的识别结果输出为矢量,并校正位置,得到病树中心点经纬度坐标文件;
在步骤3中,构建采样筛选网络,对特征图进行采样并根据采样阈值区间加权方法筛选样本,具体采用以下步骤:
(1)训练集图片在经过病树特征提取网络后变为特征图,样本为采样筛选网络在特征图上通过滑窗方式生成预选框,预选框可视为一个个按照固定比例预定义的框;
(2)计算预选框和标注真值的IOU交并比,IOU计算公式为:
Figure FDA0003733583510000011
IOU大于阈值X的视为正样本,IOU小于X视为负样本;
(3)采样阈值区间加权方法具体步骤如下:
通过对整体样本的IOU阈值区间进行划分,将IOU阈值区间按照正负样本分为两个区间,并在两个区间内划分难易样本区间,按照L的阈值区间将X以下及以上的区间各划分为K个阈值区间,并对难例样本区间进行加权,加权公式如下:
Figure FDA0003733583510000012
Figure FDA0003733583510000021
Sk为不同Batch中的候选采样数,N为采样数,K为划分的区间数,C为:若整体采样数不够N值,则从整体样本空间内进行随机采样的采样数。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中,在构建病树特征提取网络时,具体采用以下步骤:
(1)构建病树特征提取网络;
(2)将训练集图片送入病树特征提取网络中进行特征提取,得到特征图。
3.根据权利要求1所述的方法,其特征在于,在步骤(3)中,如果整体采样数量没有达到候选采样数,则进行随机采样补齐,σ为加权系数,加权系数中nmax代表整个样本空间的样本数,nh表示当前阈值区间内样本数量,样本空间阈值的整体走向是呈U型的,整个样本空间内的样本数是恒定的,在难例样本区间内采样的数量相对于容易样本的采样数量是较为稀少的,实验将K个区间分为简单样本区间和困难样本区间,取样本空间两端的区间ψ为简单样本区间,其余为困难样本区间,在不同的样本区间内使用不同的加权系数σ,抑制简单样本提高困难样本的采样比例,经过采样网络对预选框进行筛选后,剩余的预选框被当做样本框送入网络检测头部分对样本框进行类型识别定位。
4.根据权利要求1所述的方法,其特征在于,在步骤4中,将网络检测头进行解耦的具体实现步骤如下:
(1)将网络检测头的类型识别定位支路进行解耦,分解为定位支路和类型识别支路;
在步骤(1)中,将经过采样筛选网络的特征图进行池化获得指定大小的特征图,在经过池化后的特征图后面建立两条检测支路,支路2上串联两个卷积模块,支路1上串联两个全连接层,分别让两个检测支路专注于不同的任务,其中卷积模块采用K个残差模块进行堆叠,残差模块由三个模块组成,第一个模块主要用于将特征图的通道数从初始值A增加到目标值B,第二个模块是瓶颈结构,通过在大卷积层前后堆叠1*1的小卷积层,降低训练使用的参数,第三个是Non-local模块,用于提升卷积核的感受野,Non-local模块表达公式如下:
Figure FDA0003733583510000031
其中x是输入信号,在目标检测中一般使用的是特征图,i和j分别代表输入某个空间位置,f函数式计算i和j的相似度,g函数计算特征图在j位置的表示,最终y通过响应因子C(x)进行标准化处理后得到,通过Non-local模块可以计算任意两个位置之间的交互,从而捕捉远程依赖,脱离相邻点的局限,相当于构建了一个特征图谱尺寸一样大的卷积核,从而可以维持更多信息;
(2)重新设置定位支路的损失函数,并得到最后病树识别结果。
5.根据权利要求4所述的方法,其特征在于,在步骤(2)中,具体包括以下步骤:
①为解耦的定位支路重新设置损失函数;
②输出最后类型识别结果和定位结果;
在步骤①中:
网络检测头部分的类型识别定位支路损失函数定义如下:
Figure FDA0003733583510000032
Figure FDA0003733583510000033
Figure FDA0003733583510000034
表示全连接层中类型识别定位损失,这里类型识别的损失选用交叉熵损失,λfc表示全连接层中控制类型识别定位损失的权重值,定位的损失选用smooth-L1损失函数,因为解耦成为两个支路,所以支路2的损失不能和类型识别支路的损失一起计算,所以要重新设置定位支路的损失函数,类型识别支路损失函数则沿用上面的函数设置;
定位支路的损失值定义如下:
Figure FDA0003733583510000035
Figure FDA0003733583510000036
Figure FDA0003733583510000037
表示定位支路中类型识别损失和定位损失,其中L使用的是Smooth-L1损失函数,λconv表示定位支路中控制定位损失的权重值,λconv
Figure FDA0003733583510000038
相乘代表定位支路专注于定位任务,其中λconv和λfc设置分别为M和N;
样本框的定位结果表示如下:
d*(x,y,w,h)(A)=W* T*φ(A);
其中φ(A)是对应样本框和特征图组成的特征向量,W*是需要学习的参数,d*(A)是通过网络训练不断拟合数据得到的x,y,w,h,通过引入Soomth-L1损失函数计算样本框与真实标注值的差异值,Smooth-L1损失函数如下:
Figure FDA0003733583510000041
当差异值最小的时候就得到了物体的定位数据,通过反向传播计算梯度值,调节权重值来更新数据,经过不断反复更新计算,使得d*(A)拟合越来越靠近真实标注框;
在步骤②中:
首先获得一组特征向量,再用softmax对其进行类型识别,softmax函数公式如下:
Figure FDA0003733583510000042
经过Softmax计算后输出每个特征向量的相对概率,特征向量最大的类别即为最后输出的类别,定位结果则直接使用定位支路的结果,得到训练结果后,将网络参数固定,并生成训练模型。
6.根据权利要求1所述的方法,其特征在于,在步骤6中,对识别结果的错误样本进行筛选,对识别结果的错误样本进行整理,与训练集一起放入模型中再次训练,可以使模型获得区别错误样本的能力,经过反复迭代,最后可以得到高鲁棒性的检测模型。
CN202110775562.3A 2021-07-08 2021-07-08 一种基于采样阈值区间加权的松材线虫病树检测方法 Active CN113609913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775562.3A CN113609913B (zh) 2021-07-08 2021-07-08 一种基于采样阈值区间加权的松材线虫病树检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775562.3A CN113609913B (zh) 2021-07-08 2021-07-08 一种基于采样阈值区间加权的松材线虫病树检测方法

Publications (2)

Publication Number Publication Date
CN113609913A CN113609913A (zh) 2021-11-05
CN113609913B true CN113609913B (zh) 2022-08-19

Family

ID=78304259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775562.3A Active CN113609913B (zh) 2021-07-08 2021-07-08 一种基于采样阈值区间加权的松材线虫病树检测方法

Country Status (1)

Country Link
CN (1) CN113609913B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035912B (zh) * 2022-06-08 2024-04-26 哈尔滨工程大学 基于moc模型的水声信号样本自动标注方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764284B (zh) * 2018-04-23 2022-11-22 湖北同诚通用航空有限公司 一种对松树病死木的高分辨率影像的分类去噪方法及系统
CN111626133A (zh) * 2020-04-27 2020-09-04 浙江同创空间技术有限公司 基于深度学习和无人机航拍的松材线虫病树识别方法
CN113011355B (zh) * 2021-03-25 2022-10-11 东北林业大学 一种松材线虫病图像识别检测方法及装置

Also Published As

Publication number Publication date
CN113609913A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
Cihlar et al. Classification by progressive generalization: A new automated methodology for remote sensing multichannel data
CN111310756B (zh) 一种基于深度学习的损伤玉米颗粒检测和分类方法
CN111986099A (zh) 基于融合残差修正的卷积神经网络的耕地监测方法及系统
CN108846835A (zh) 基于深度可分离卷积网络的图像变化检测方法
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN113936214B (zh) 一种基于融合空天遥感影像的岩溶湿地植被群落分类方法
CN111666855B (zh) 基于无人机的动物三维参数提取方法、系统及电子设备
CN106548169A (zh) 基于深度神经网络的模糊文字增强方法及装置
CN114092832A (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN111368766A (zh) 一种基于深度学习的牛脸检测与识别方法
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN113609913B (zh) 一种基于采样阈值区间加权的松材线虫病树检测方法
CN116363521A (zh) 一种遥感影像语义预测方法
CN111241905A (zh) 基于改进ssd算法的输电线路鸟窝检测方法
CN111046838A (zh) 一种湿地遥感信息的识别方法及装置
CN114119532A (zh) 一种基于遥感影像与孪生神经网络的建筑物变化检测方法
CN116503677B (zh) 一种湿地分类信息提取方法、系统、电子设备及存储介质
CN117576195A (zh) 一种植物叶片形态识别方法
CN116994295A (zh) 基于灰度样本自适应选择门的野生动物类别识别方法
CN117274702A (zh) 一种基于机器视觉的手机钢化玻璃膜裂纹自动分类方法和系统
CN111353412A (zh) 端到端的3D-CapsNet火焰检测方法及装置
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
CN115205704A (zh) 高分辨率遥感影像小样本高精度建筑分割提取方法及装置
CN112364844B (zh) 一种基于计算机视觉技术的数据采集方法及系统
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221201

Address after: No. 13, Lantai Road, High tech Zone, Yichang City, Hubei Province, 443008

Patentee after: Hubei Zhigan Space Information Technology Co.,Ltd.

Address before: 443002 No. 8, University Road, Xiling District, Yichang, Hubei

Patentee before: CHINA THREE GORGES University