CN117409339A - 一种用于空地协同的无人机作物状态视觉识别方法 - Google Patents
一种用于空地协同的无人机作物状态视觉识别方法 Download PDFInfo
- Publication number
- CN117409339A CN117409339A CN202311321928.5A CN202311321928A CN117409339A CN 117409339 A CN117409339 A CN 117409339A CN 202311321928 A CN202311321928 A CN 202311321928A CN 117409339 A CN117409339 A CN 117409339A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- features
- image
- crop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000007 visual effect Effects 0.000 title claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000007689 inspection Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000012544 monitoring process Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 241000209140 Triticum Species 0.000 description 4
- 235000021307 Triticum Nutrition 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000003306 harvesting Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012272 crop production Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于空地协同的无人机作物状态视觉识别方法,包括步骤:1、基于密集连接和多尺度卷积块并联结构实现航拍图像的语义特征提取;2、基于灰度共生矩阵、局部二值模式等算法提取航拍图像的浅层纹理特征作为语义特征的补充;3、基于通道自注意力机制和编码器‑解码器结构搭建语义分割结构,实现对航拍图像的网格化状态判断;4、根据无人机拍摄实时坐标和姿态角构造坐标转换模型,根据地空几何关系将神经网络输出的网格像素坐标转化为大地坐标下的位置坐标,得到作物倒伏区域的位置信息。该方法适用于基于无人机巡检的作物倒伏区域定位,可以实现作物倒伏状态的实时监测,为自动收割机的割台参数调整提供数据支持。
Description
技术领域
本发明属于智慧农业自动巡检领域,具体为一种用于空地协同的无人机作物状态视觉识别方法。
背景技术
倒伏会显著降低作物品质,是制约作物产量的主要因素,及时准确地提取作物倒伏区域,可为灾后确定受灾面积及评估损失提供技术支撑。此外,无论是机械或人工收割,作物倒伏都会显著增加收获难度,从而降低作物生产效益。因此,亟需研究一种快速高效的作物倒伏检测系统,快速获取精准的作物倒伏面积、位置等信息。
目前作物倒伏区域提取方法主要包括传统人工测量和遥感测量。人工测量存在主观性强、随机性强、缺乏统一标准等问题,效率低下且费时费力;而遥感技术的迅速发展为倒伏信息的大规模快速检测提供了有效方式,例如近地遥感、卫星遥感和无人机遥感。近地遥感的低效限制了它在农田尺度上的应用。卫星遥感数据时空分辨率较差,影像易受天气影响,难以满足精准农业的需求。相比之下,无人机近地遥感数据的精度高、受地形约束小、成本低、操作便捷等优势有效弥补了地面调查和卫星遥感之间的鸿沟,逐渐成为精准农业领域内农业信息获取的重要方式。
获取高精度的近地遥感数据后,建立合理的拟合模型至关重要。当前基于无人机近地遥感的作物倒伏检测方法又可分为基于传统机器学习和基于神经网络两大类。传统机器学习算法包括决策树、支持向量机、随机森林等模型,其性能高度依赖于所提取的特征的准确度,解释性较好,但鲁棒性较差,难以处理实际工作环境下复杂背景影响;而深度学习算法多采用语义分割算法,由网络直接提取深层特征信息并进行端到端倪的区域划分,模型规模较大、鲁棒性较强。考虑到实际应用场景中背景环境较为复杂,目标区域分布不均,如何对神经网络进行合理设计、构建高效的特征提取模块和像素分类方法成为构建倒伏区域监测网络的关键,也是决定网络准确性和推理效率的主要因素。
与现有技术相比区别如下:
与专利CN116437801A“作业车、作物状态检测系统、作物状态检测方法、作物状态检测程序以及记录有作物状态检测程序的记录介质”的技术对比
1、专利CN116437801A中作物图像由安装在收割机上的传感器获取,只检测收割机前进方向前方的区域,而我们采用无人机搭载传感器实现图像获取,更够获取整片田地的信息;
2、专利CN116437801A中通过颜色信息判断作物状态,我们采用了颜色特征和植被指数相结合的方式实现状态判断。
与专利CN116456821A“田地地图生成系统、田地作业车、田地地图生成方法,田地地图生成程序以及记录介质”的技术对比
1、专利CN116456821A中作物图像由安装在收割机上的传感器获取,只检测收割机前进方向前方的区域,我们采用无人机搭载传感器实现图像获取,更够获取整片田地的信息;
2、专利CN116456821A中通过作物高度来判断倒伏情况,我们直接采用图像中作物区域的纹理特征和可见光植被指数实现倒伏情况的判断。
与专利CN116367708A“用于对作物高度进行确定和绘制的方法和设备”的技术对比
1、专利CN116367708A中通过切割棒高度、卷筒高度和高度传感器获取的作物高度信息来判断倒伏状态,而我们采用图像传感器获取的颜色特征判断作物状态;
与专利CN116310864A“一种作物倒伏自动识别方法、系统、电子设备及介质”的技术对比
1、专利CN116310864A中通过单波段传感器和可见光传感器获取作物信息,我们只采用可见光传感器,从而达到减少检测系统成本的目的;
2、专利CN116310864A通过递归特征消除法筛选特征,我们使用方差系数和相对差异实现特征优选;
3、专利CN116310864A通过孤立森林算法和监督分类器实现作物倒伏区域的提取,我们使用特征提取网络和语义分割网络实现倒伏区域划分,深度学习模型具有更好的泛化性能。
与专利CN115953690B“用于无人收割机行进校准的倒伏作物识别方法”的技术对比
1、专利CN115953690B使用H通道特征进行像素级图像分割,我们使用RGB图像的纹理特征和植被指数实现网格化的图像分割,从而大幅减小了网络规模和计算代价;
2、专利CN115953690B根据H通道数据的K-means聚类结果和Harris角点检测结果判断倒伏区域,有计算角点连线夹角、判断作物区域角点对应隶属度等多个后续步骤,我们使用神经网络直接获得倒伏区域分布,是一个端到端的模型,并且考虑了更多的纹理特征,也具有较好的泛化性能;
与专利CN116109658A“基于5G技术的收割机控制数据处理方法”的技术对比
1、专利CN116109658A根据图像灰度值极小值点及其近邻像素点的灰度值构建人工势场模型实现作物倒伏区域分割,我们使用神经网络实现区域分割,模型泛化能力更强,计算代价更小;
2、专利包括根据参考点及邻域像素点对每个第二极小点的邻域进行插值等后处理步骤,我们使用神经网络和传统纹理特征提取算法实现端到端的倒伏区域分割。
与专利CN112287787A“一种基于梯度直方图特征的作物倒伏分级方法”的技术对比
1、专利CN112287787A使用拼接软件将所有图像拼接,对二维正交拼接图进行区域分割,我们使用端到端的深度学习模型直接实现区域分割,从而实现效率提升和流程简化;
2、专利CN112287787A使用梯度直方图HOG作为状态特征,我们使用深度学习网络提取的语义特征、传统纹理特征和植被指数作为状态特征;
3、专利CN112287787A使用支持向量机SVM作为分类器,只适用于线性问题,我们使用类语义分割网络作为分类器,适用于线性和非线性问题;
与专利CN111968074A“融合双目相机和IMU的收割机倒伏作物检测与收获方法”的技术对比
1、专利CN111968074A使用收割机机载双目相机和IMU作为数据采集工具,我们使用无人机机载单目相机作为数据采集工具;
2、专利CN111968074A使用双目数据构建作物表面三维点云,处理步骤复杂,计算量大,我们直接提取图像的颜色特征进行区域分割;
与专利CN113661827B“一种激光传感器的倒伏检测割台自适应装置及控制方法”的技术对比
1、专利CN113661827B使用收割机机载激光传感器获得前进方向前方的三维点云数据,我们使用无人机机载可见光传感器获取全部田地的航拍数据;
2、专利CN113661827B使用聚类算法处理点云数据以区分倒伏区域和正常区域,容易受到奇异值和作物间隙的影响,我们使用深度学习网络进行倒伏区域分割,处理流程高效,泛化性能强;
与专利CN115588015A“基于Improved-Unet网络的倒伏区域分割方法”的技术对比
1、专利CN115588015对航拍图像进行拼接处理得到一张RGB大图,我们直接对航拍图像进行处理;
2、专利CN115588015使用Convolution和Involution作为卷积网络主干,我们使用多个卷积块并联的Inception模块作为网络主干,能够提取到更多不同尺寸的特征信息,提高网络对不同面积倒伏区域的检测性能;
3、专利CN115588015对整张RGB大图进行像素级的语义分割,网络规模庞大,计算成本较高,我们将图像网格化,根据每个网格提取到的特征数据进行语义分割,在满足倒伏区域检测精度要求的前提下极大减小了分割计算成本;
4、专利CN115588015没有对多通道特征进行加权,我们使用了通道自注意力机制对多维特征进行自加权,提升了网络效率;
5、专利CN115588015使用Tversky损失函数,我们对每个网格分类结果使用交叉熵损失函数。
与专利CN115588016A“基于Lstm-PSPNet深度学习网络的小麦倒伏分割方法”的技术对比
1、专利CN115588016A对航拍图像进行校正、拼接处理得到一张RGB大图,在使用滑动窗口将大图裁剪成固定尺寸的图像,我们直接对航拍图像进行校正等处理;
2、专利CN115588016A使用Convolution和LSTM作为主干网络的基础模块,我们使用多尺寸卷积并联的Inception模块作为基础模块;
3、专利CN115588016A使用PSPNet实现像素级区域分割,我们将图像网格化,根据每个网格提取到的特征数据进行语义分割,在满足倒伏区域检测精度要求的前提下极大减小了分割计算成本;
4、专利CN115588016A使用卷积自注意力机制CBAM进行加权,我们使用通道自注意力机制CAM进行加权;
5、专利CN115588016A使用Tversky损失函数,我们对每个网格分类结果使用交叉熵损失函数。
与专利CN111461052A“基于迁移学习的多个生育期小麦倒伏区域识别方法”的技术对比
1、专利CN111461052A使用无人机搭载相机拍摄待识别麦田的RGB相机和多光谱传感器进行数据采集,我们只是用RGB相机,减小设备成本;
2、专利CN111461052A对航拍图像进行拼接和剪裁得到待识别麦田的完整图,并对完整大图进行像素级语义分割,我们直接对航拍小图像进行处理,并进行特征提取后对特征图尺寸进行像素级语义分割;
3、专利CN111461052A使用DeepLab3+语义分割模型处理拼接大图,我们使用特征提取网络、纹理特征提取模块和语义分割网络串联处理航拍图像,提取特征类型更丰富,计算代价更小;
与专利CN114581768A“一种作物倒伏无人机监测方法及装置”的技术对比
1、专利CN114581768A使用无人机机载可见光相机和多光谱相机进行数据获取,我们只是用无人机搭载可见光相机获取数据,降低设备成本;
2、专利CN114581768A使用极大似然分类器实现作物倒伏区域判断,我们使用分割网络和传统纹理特征相结合的方式实现倒伏区域提取,模型泛化性能更强;
2、专利CN114581768A使用纹理特征和植被指数作为分类依据,我们将语义特征、纹理特征和植被指数相结合实现倒伏区域提取,用深度学习网络强大的拟合性能作为传统特征和植被指数的补充,提升网络性能;
3、专利CN114581768A使用主成分分析法筛选有效特征,我们使用方差系数和相对差异实现特征优选。
发明内容
为解决上述技术问题,本发明提出了一种用于空地协同的无人机作物状态视觉识别方法,该方法缓解了语义分割网络规模大、计算负担大、推理速度慢的问题,适用于基于航拍图像的作物倒伏区域检测,并且可以实现倒伏区域的实时定位,计算量小,实时性好,进而提高作物生长状态监测的效率。
为实现上述目的,本发明采取的技术方案是:
一种用于空地协同的无人机作物状态视觉识别方法,包括如下步骤:
(1)获取巡检无人机航拍的目标田地可见光图片,读取无人机实时位置信息和姿态数据,其中无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θZD,航向角ψZD;
(2)基于密集连接和多尺度卷积块并联结构构造Dense-GoogleNet结构,实现航拍图像的语义特征提取,输出尺寸为S1×S2的128通道特征图;
该结构由五个Inception模块和四个下采样模块组成。每个Inception模块都包含4个并行的卷积分支,这些分支都通过1×1卷积层和通道的降维、扩展来减少模型的参数数量,并分别使用3种不同大小的卷积核和1个池化操作来提取多尺度特征,每个下采样模块由一个负责降低通道维数的1×1卷积、一个3×3卷积和一个步长为2的平均池化层组成,每个Inception模块的输出都与前面的所有Inception模块的输出进行密集连接;在每个inception模块后添加一个概率为0.5的dropout层,并在每次卷积后都添加了批量规范化层BN,在图像输入第一个inception模块前进行大尺度卷积和池化操作来降低图像尺寸;
(3)基于灰度共生矩阵、局部二值模式等算法建立纹理特征提取模块;该模块首先使用一组包括四个膨胀和四个旋转的Gabor滤波器对原始影像进行滤波,然后提取包括灰度共生矩阵GLCM、局部二值模式LBP、频域特征和基本颜色、强度特征192种纹理特征,对于GLCM,本模块选取灰度级数为8,取1,2,4,5四个距离值和0°,45°,90°和135°四个方向值,计算能量、对比度、逆方差、熵、相关性、同质性六类纹理特征统计量;对于LBP,选取8个邻域采样点,采样半径为1,分别统计基本LBP、旋转不变LBP、均匀LBP和方差LBP特征直方图的均值、方差、偏度、峰度、熵五类统计量作为参数;对于基本颜色特征和强度特征,本模块提取了包括r、g、b、h、s、v各通道的平均值、标准差、峰度、偏度、平均梯度和拉普拉斯平均值,以及经过傅里叶变换后的频域能量、频域均值、频域方差、频域熵、频域中心距、频域标准矩、频域Hu矩,除了冠层结构、纹理特征,本模块还从RGB图像中提取了10种可见光植被指数,最后将所有特征按网格像素位置拼接成192通道、尺寸同为S1×S2的特征图;
(4)基于通道自注意力机制和编码器-解码器结构构造特征图语义分割结构;该模块引入了通道自注意力机制对神经网络提取的深层次特征和纹理分析得到的浅层纹理特征的重要性进行自主学习,为每个通道赋予一个权重值,从而让输出结果有倾向地依赖于关键通道的特征。编码器-解码器结构是一个非对称的特征融合网络,其中,编码器包含四次下采样过程,通过一个3×3、步长为2的卷积层、BN层和一个Relu激活函数实现;解码器包含四次上采样过程,通过一个2×2步长为2的转置卷积层、一个串联操作和一个3×3卷积块实现,并通过跳跃连接将下采样前的特征图与上采样得到的特征图相融合,保留原始浅层特征图中的像素空间信息,每个下采样模块将特征图尺寸减半,通道数加倍;每个上采样模块扩充特征图尺寸并使通道数减半,输出结构包含一个卷积层、一个sigmoid函数和一个四舍五入操作,负责将解码器输出的单通道特征图数值转化为概率值并进行二值化处理,最终得到像素值仅为0或1的输出标签,实现输入图像的网格级分类;
(5)构建卷积神经网络,将Dense-GoogleNet结构和纹理特征提取模块的输出结果在通道维度相加,输入特征图语义分割结构实现倒伏区域分割,整个网络以航拍图像作为输入,田地作物状态掩码作为输出,训练所构建的神经网络,得到针对可见光图像的作物倒伏识别网络;
其中Dense-GoogleNet结构和纹理特征提取模块将原始图像划分为S1×S2个网格,对每个网格提取其深层语义特征和浅层纹理特征,对每个网格的所有特征加权后进行倒伏/正常状态的分类,最终输出单通道尺寸为S1×S2的作物状态掩码;
损失函数采用Focal loss算法,在每一代训练结束后对比输出掩码和真值掩码计算分类损失函数,公式如下,其中p为输出掩码的像素值,y为真值掩码的对应位像素值:
(6)采用基于无人机POS数据的目标定位方法,通过机载GPS/INS系统获取图像捕获时相机姿态角、视野角及无人机的飞行高度、GPS坐标等信息,根据空中三角几何关系计算出目标像素点的GPS坐标;
作物倒伏监测网络获得倒伏网格的横纵坐标(i,j),根据网格化尺度S1×S2得到区域的中心点像素坐标(x,y):
x=(i+0.5)×S1
y=(j+0.5)×S2
无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θZD,航向角ψZD,相机视野范围为(yf0,vf1),(xio,xf1),目标像素点的GPS坐标为(X,Y),航拍原始图像的尺寸为(W,H);
首先计算相机视野范围四个角点的GPS坐标,根据空中三角关系有:
yf0=h·tan(90°-θzD-0.5γ)
yf1=h·tan(θZD-0.5γ)
xf0=yf0·tan(ψZD-0.5γ)
xf1=yf1·tan(90°-ψZD-0.5γ)
根据可见光图像像素坐标与实地GPS坐标的相似关系,由下式计算得倒伏区域中心点的GPS坐标;
作为本发明识别方法进一步改进,步骤(4)对构建的分割网络进行训练的步骤如下:
(1)对数据集进行增加高斯噪声和对比度、亮度、锐度调整增强操作;从增强后的数据集中随机选取65%作为的训练数据集,15%图片构成验证数据集,余下20%组成测试数据集;
(2)特征图语义分割部分采用随机初始化;语义特征提取网络Dense-GoogleNet部分采用在COCO数据集上的预训练权重进行迁移学习,为了防止特征提取网络的权重在训练初期被破坏,对前25代训练中的主干网络参数进行冻结,不参与梯度更新;
(3)根据误差反向传播算法,采用Adam优化器和小批量随机梯度下降法,学习率下降曲线采用StepLR固定步长衰减策略,gamma取0.9,分别对语义特征提取网络和特征图语义分割结构的权值进行微调更新。
作为本发明识别方法进一步改进,步骤(6)中采用无人机航拍姿态的空中三角几何关系实现航拍图像中目标的定位。
有益效果:
本发明公开了一种用于空地协同的无人机作物状态视觉识别方法,该方法利用巡检无人机航拍获取目标田地RGB图片和无人机实时位置信息和姿态数据,构建基于密集连接和多尺度卷积块并联结构的Dense-GoogleNet语义特征提取结构、基于灰度共生矩阵和局部二值模式等特征的纹理特征提取模块和基于通道自注意力机制和编码器-解码器结构的特征图语义分割结构,将航拍图片作为输入,田地作物状态掩码作为输出,获得倒伏区域的像素坐标;根据无人机拍摄实时坐标和姿态角建立坐标转换模型,根据空中三角几何关系将神经网络输出的像素坐标转化为大地坐标下的位置坐标,得到倒伏区域的GPS定位信息。该方法缓解了基于深度学习的语义分割算法模型规模大、计算负荷高和分割精度冗余的问题,在保证实际应用需求的基础上大幅度减小了网络规模和计算量,可以实现倒伏区域的实时、准确监测。
附图说明
图1是本发明公开方法的流程图;
图2是本发明中语义特征网络结构图;
图3是本发明中特征融合网络结构图;
图4为无人机巡检时飞行参数与相机视野的示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明公开了一种用于空地协同的无人机作物状态视觉识别方法,公开方法的流程图如图1所示,包括如下步骤:
步骤1:获取巡检无人机航拍的目标田地可见光图片,读取无人机实时位置信息和姿态数据。其中无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θZD,航向角ψZD。
步骤2:基于密集连接和多尺度卷积块并联结构构造Dense-GoogleNet结构,实现航拍图像的语义特征提取,输出尺寸为S1×S2的128通道特征图,其结构示意图如图2所示。
该模块由五个Inception模块和四个下采样模块组成。每个Inception模块都包含4个并行的卷积分支,这些分支都通过1×1卷积层和通道的降维、扩展来减少模型的参数数量,并分别使用3种不同大小的卷积核和1个池化操作来提取多尺度特征。每个下采样模块由一个负责降低通道维数的1×1卷积、一个3×3卷积和一个步长为2的平均池化层组成。为了进一步提高模型的准确性和效率,每个Inception模块的输出都与前面的所有Inception模块的输出进行密集连接,以增加信息的流动和共享,从而在保持模型参数数量较少的情况下提高准确性和效率。
为了防止过拟合,在每个inception模块后添加一个概率为0.5的dropout层,并在每次卷积后都添加了批量规范化层(BN)。为了提高网络训练的速度,在图像输入第一个inception模块前进行大尺度卷积和池化操作来降低图像尺寸。
步骤3:基于灰度共生矩阵、局部二值模式等算法建立纹理特征提取模块;该模块首先使用一组包括四个膨胀和四个旋转的Gabor滤波器对原始影像进行滤波,然后提取包括灰度共生矩阵(GLCM)、局部二值模式(LBP)、频域特征和基本颜色、强度特征等192种纹理特征。对于GLCM,本模块选取灰度级数为8,取1,2,4,5四个距离值和0°,45°,90°和135°四个方向值,计算能量、对比度、逆方差、熵、相关性、同质性六类纹理特征统计量;对于LBP,选取8个邻域采样点,采样半径为1,分别统计基本LBP、旋转不变LBP、均匀LBP和方差LBP特征直方图的均值、方差、偏度、峰度、熵五类统计量作为参数;对于基本颜色特征和强度特征,本模块提取了包括r、g、b、h、s、v各通道的平均值、标准差、峰度、偏度、平均梯度和拉普拉斯平均值,以及经过傅里叶变换后的频域能量、频域均值、频域方差、频域熵、频域中心距、频域标准矩、频域Hu矩等。除了冠层结构、纹理特征,本模块还从RGB图像中提取了如表1所示的10种可见光植被指数。最后将所有特征按网格像素位置拼接成192通道、尺寸同为S1×S2的特征图。
表1
步骤4:基于通道自注意力机制和编码器-解码器结构构造特征图语义分割结构,其结构示意图如图3所示。该模块引入了通道自注意力机制对神经网络提取的深层次特征和纹理分析得到的浅层纹理特征的重要性进行自主学习,为每个通道赋予一个权重值,从而让输出结果有倾向地依赖于关键通道的特征。编码器-解码器结构是一个非对称的特征融合网络。其中,编码器包含四次下采样过程,通过一个3×3、步长为2的卷积层、BN层和一个Relu激活函数实现;解码器包含四次上采样过程,通过一个2×2步长为2的转置卷积层、一个串联操作和一个3×3卷积块实现,并通过跳跃连接将下采样前的特征图与上采样得到的特征图相融合,保留原始浅层特征图中的像素空间信息。每个下采样模块将特征图尺寸减半,通道数加倍;每个上采样模块扩充特征图尺寸并使通道数减半。输出结构包含一个卷积层、一个sigmoid函数和一个四舍五入操作,负责将解码器输出的单通道特征图数值转化为概率值并进行二值化处理,最终得到像素值仅为0或1的输出标签,实现输入图像的网格级分类。
步骤5:构建倒伏区域检测神经网络,采用步骤2中的Dense-GoogleNet提取深层语义特征,采用步骤3中的纹理特征模块获得浅层次纹理特征,采用步骤4中的特征图语义分割结构实现对航拍图像的倒伏区域提取,并采用掩码图对应位Focal loss的方式设计损失函数;将航拍RGB图像作为网络输入,网格级作物状态掩码图作为输出,训练所构建的神经网络,得到针对作物倒伏实时检测的神经网络。
其中Dense-GoogleNet结构和纹理特征提取模块将原始图像划分为S1×S2个网格,对每个网格提取其深层语义特征和浅层纹理特征,对每个网格的所有特征加权后进行倒伏/正常状态的分类,最终输出单通道尺寸为S1×S2的作物状态掩码。
损失函数采用Focal loss算法,在每一代训练结束后对比输出掩码和真值掩码计算分类损失函数,公式如下,其中p为输出掩码的像素值,y为真值掩码的对应位像素值:
对构建的神经网络进行训练的步骤如下:
(5-1)对数据集进行增加高斯噪声和对比度、亮度、锐度调整等增强操作;从增强后的数据集中随机选取65%作为的训练数据集,15%图片构成验证数据集,余下20%组成测试数据集;
(5-2)特征图语义分割部分采用随机初始化;语义特征提取网络Dense-GoogleNet部分采用在COCO数据集上的预训练权重进行迁移学习,为了防止特征提取网络的权重在训练初期被破坏,对前25代训练中的主干网络参数进行冻结,不参与梯度更新;
(3-3)根据误差反向传播算法,采用Adam优化器和小批量随机梯度下降法,学习率下降曲线采用StepLR固定步长衰减策略,gamma取0.9,分别对语义特征提取网络和特征图语义分割结构的权值进行微调更新。
步骤6:采用基于无人机POS数据的目标定位方法,通过机载GPS/1NS系统获取图像捕获时相机姿态角、视野角及无人机的飞行高度、GPS坐标等信息,根据空中三角几何关系计算出目标像素点的GPS坐标。
作物倒伏监测网络获得倒伏网格的横纵坐标(i,j),根据网格化尺度S1×S2得到区域的中心点像素坐标(x,y):
无人机巡检时飞行参数与相机视野的示意图如图4所示。其中无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θZD,航向角ψZD,相机视野范围为(yfo,yf1),(xf0,xf1),目标像素点的GPS坐标为(X,Y),航拍原始图像的尺寸为(W,H)。
首先计算相机视野范围的四个角点,即图片四个顶点的GPS坐标。根据空中三角关系有:
根据航拍图像像素坐标与实地GPS坐标的相似关系,由下式计算可得目标区域中心点的GPS坐标:
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (3)
1.一种用于空地协同的无人机作物状态视觉识别方法,其特征在于,包括如下步骤:
(1)获取巡检无人机航拍的目标田地可见光图片,读取无人机实时位置信息和姿态数据,其中无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θZD,航向角ψZD;
(2)基于密集连接和多尺度卷积块并联结构构造Dense-GoogleNet结构,实现航拍图像的语义特征提取,输出尺寸为S1×S2的128通道特征图;
该结构由五个Inception模块和四个下采样模块组成。每个Inception模块都包含4个并行的卷积分支,这些分支都通过1×1卷积层和通道的降维、扩展来减少模型的参数数量,并分别使用3种不同大小的卷积核和1个池化操作来提取多尺度特征,每个下采样模块由一个负责降低通道维数的1×1卷积、一个3×3卷积和一个步长为2的平均池化层组成,每个Inception模块的输出都与前面的所有Inception模块的输出进行密集连接;
在每个inception模块后添加一个概率为0.5的dropout层,并在每次卷积后都添加了批量规范化层BN,在图像输入第一个inception模块前进行大尺度卷积和池化操作来降低图像尺寸;
(3)基于灰度共生矩阵、局部二值模式等算法建立纹理特征提取模块;该模块首先使用一组包括四个膨胀和四个旋转的Gabor滤波器对原始影像进行滤波,然后提取包括灰度共生矩阵GLCM、局部二值模式LBP、频域特征和基本颜色、强度特征192种纹理特征,对于GLCM,本模块选取灰度级数为8,取1,2,4,5四个距离值和0°,45°,90°和135°四个方向值,计算能量、对比度、逆方差、熵、相关性、同质性六类纹理特征统计量;对于LBP,选取8个邻域采样点,采样半径为1,分别统计基本LBP、旋转不变LBP、均匀LBP和方差LBP特征直方图的均值、方差、偏度、峰度、熵五类统计量作为参数;对于基本颜色特征和强度特征,本模块提取了包括r、g、b、h、s、v各通道的平均值、标准差、峰度、偏度、平均梯度和拉普拉斯平均值,以及经过傅里叶变换后的频域能量、频域均值、频域方差、频域熵、频域中心距、频域标准矩、频域Hu矩,除了冠层结构、纹理特征,本模块还从RGB图像中提取了10种可见光植被指数,最后将所有特征按网格像素位置拼接成192通道、尺寸同为S1×S2的特征图;
(4)基于通道自注意力机制和编码器-解码器结构构造特征图语义分割结构;该模块引入了通道自注意力机制对神经网络提取的深层次特征和纹理分析得到的浅层纹理特征的重要性进行自主学习,为每个通道赋予一个权重值,从而让输出结果有倾向地依赖于关键通道的特征。编码器-解码器结构是一个非对称的特征融合网络,其中,编码器包含四次下采样过程,通过一个3×3、步长为2的卷积层、BN层和一个Relu激活函数实现;解码器包含四次上采样过程,通过一个2×2步长为2的转置卷积层、一个串联操作和一个3×3卷积块实现,并通过跳跃连接将下采样前的特征图与上采样得到的特征图相融合,保留原始浅层特征图中的像素空间信息,每个下采样模块将特征图尺寸减半,通道数加倍;每个上采样模块扩充特征图尺寸并使通道数减半,输出结构包含一个卷积层、一个sigmoid函数和一个四舍五入操作,负责将解码器输出的单通道特征图数值转化为概率值并进行二值化处理,最终得到像素值仅为0或1的输出标签,实现输入图像的网格级分类;
(5)构建卷积神经网络,将Dense-GoogleNet结构和纹理特征提取模块的输出结果在通道维度相加,输入特征图语义分割结构实现倒伏区域分割,整个网络以航拍图像作为输入,田地作物状态掩码作为输出,训练所构建的神经网络,得到针对可见光图像的作物倒伏识别网络;其中Dense-GoogleNet结构和纹理特征提取模块将原始图像划分为S1×S2个网格,对每个网格提取其深层语义特征和浅层纹理特征,对每个网格的所有特征加权后进行倒伏/正常状态的分类,最终输出单通道尺寸为S1×S2的作物状态掩码;
损失函数采用Focalloss算法,在每一代训练结束后对比输出掩码和真值掩码计算分类损失函数,公式如下,其中p为输出掩码的像素值,y为真值掩码的对应位像素值:
(6)采用基于无人机POS数据的目标定位方法,通过机载GPS/INS系统获取图像捕获时相机姿态角、视野角及无人机的飞行高度、GPS坐标等信息,根据空中三角几何关系计算出目标像素点的GPS坐标;
作物倒伏监测网络获得倒伏网格的横纵坐标(i,j),根据网格化尺度S1×S2得到区域的中心点像素坐标(x,yy):
x=(i+0.5)×S1
y=(j+0.5)×S2
无人机的飞行高度为h,GPS坐标为(xD,yD),相机视野角γ,俯仰角θzD,航向角ψZD,相机视野范围为(yf0,yf1),(xfo,xf1),目标像素点的GPS坐标为(X,Y),航拍原始图像的尺寸为(W,H);
首先计算相机视野范围四个角点的GPS坐标,根据空中三角关系有:
yf0=h·tan(90°-θZD-0.5γ)
yf1=h·tan(θZD-0.5γ)
xf0=yf0.tan(ψZD-0.5γ)
xf1=yf1.tan(90°-ψZD-0.5γ)
根据可见光图像像素坐标与实地GPS坐标的相似关系,由下式计算得倒伏区域中心点的GPS坐标;
2.根据权利要求1所述的一种用于空地协同的无人机作物状态视觉识别方法,其特征在于,步骤(4)对构建的分割网络进行训练的步骤如下:
(1)对数据集进行增加高斯噪声和对比度、亮度、锐度调整增强操作;从增强后的数据集中随机选取65%作为的训练数据集,15%图片构成验证数据集,余下20%组成测试数据集;
(2)特征图语义分割部分采用随机初始化;语义特征提取网络Dense-GoogleNet部分采用在COCO数据集上的预训练权重进行迁移学习,为了防止特征提取网络的权重在训练初期被破坏,对前25代训练中的主干网络参数进行冻结,不参与梯度更新;
(3)根据误差反向传播算法,采用Adam优化器和小批量随机梯度下降法,学习率下降曲线采用StepLR固定步长衰减策略,gamma取0.9,分别对语义特征提取网络和特征图语义分割结构的权值进行微调更新。
3.根据权利要求1所述的一种用于空地协同的无人机作物状态视觉识别方法,其特征在于,步骤(6)中采用无人机航拍姿态的空中三角几何关系实现航拍图像中目标的定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311321928.5A CN117409339A (zh) | 2023-10-13 | 2023-10-13 | 一种用于空地协同的无人机作物状态视觉识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311321928.5A CN117409339A (zh) | 2023-10-13 | 2023-10-13 | 一种用于空地协同的无人机作物状态视觉识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409339A true CN117409339A (zh) | 2024-01-16 |
Family
ID=89499255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311321928.5A Pending CN117409339A (zh) | 2023-10-13 | 2023-10-13 | 一种用于空地协同的无人机作物状态视觉识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409339A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689481A (zh) * | 2024-02-04 | 2024-03-12 | 国任财产保险股份有限公司 | 一种基于无人机视频数据自然灾害保险处理方法及系统 |
CN117853817A (zh) * | 2024-01-24 | 2024-04-09 | 江苏电子信息职业学院 | 一种基于图像识别的智慧社区垃圾分类报警管理方法 |
CN117882546A (zh) * | 2024-03-13 | 2024-04-16 | 山西诚鼎伟业科技有限责任公司 | 一种面向农业作业机器人的智能化种植方法 |
CN118552626A (zh) * | 2024-07-25 | 2024-08-27 | 中南大学 | 单视角图像相机标定方法及系统 |
-
2023
- 2023-10-13 CN CN202311321928.5A patent/CN117409339A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117853817A (zh) * | 2024-01-24 | 2024-04-09 | 江苏电子信息职业学院 | 一种基于图像识别的智慧社区垃圾分类报警管理方法 |
CN117853817B (zh) * | 2024-01-24 | 2024-06-04 | 江苏电子信息职业学院 | 一种基于图像识别的智慧社区垃圾分类报警管理方法 |
CN117689481A (zh) * | 2024-02-04 | 2024-03-12 | 国任财产保险股份有限公司 | 一种基于无人机视频数据自然灾害保险处理方法及系统 |
CN117689481B (zh) * | 2024-02-04 | 2024-04-19 | 国任财产保险股份有限公司 | 一种基于无人机视频数据自然灾害保险处理方法及系统 |
CN117882546A (zh) * | 2024-03-13 | 2024-04-16 | 山西诚鼎伟业科技有限责任公司 | 一种面向农业作业机器人的智能化种植方法 |
CN117882546B (zh) * | 2024-03-13 | 2024-05-24 | 山西诚鼎伟业科技有限责任公司 | 一种面向农业作业机器人的智能化种植方法 |
CN118552626A (zh) * | 2024-07-25 | 2024-08-27 | 中南大学 | 单视角图像相机标定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573276B (zh) | 一种基于高分辨率遥感影像的变化检测方法 | |
CN110287869B (zh) | 基于深度学习的高分辨率遥感影像农作物分类方法 | |
CN109146889B (zh) | 一种基于高分辨率遥感图像的农田边界提取方法 | |
CN111898688B (zh) | 一种基于三维深度学习的机载LiDAR数据树种分类方法 | |
CN117409339A (zh) | 一种用于空地协同的无人机作物状态视觉识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN109029363A (zh) | 一种基于深度学习的目标测距方法 | |
CN104933708A (zh) | 一种基于多谱三维特征融合的植被环境中障碍物检测方法 | |
CN109034184B (zh) | 一种基于深度学习的均压环检测识别方法 | |
CN112907520B (zh) | 基于端到端深度学习方法的单株树冠检测方法 | |
Shen et al. | Biomimetic vision for zoom object detection based on improved vertical grid number YOLO algorithm | |
CN112308152A (zh) | 基于光谱分割与同质区域检测的高光谱图像地物分类方法 | |
Liu et al. | Farmland aerial images fast-stitching method and application based on improved sift algorithm | |
CN112131946A (zh) | 光学遥感影像植被和水体信息自动提取方法 | |
CN116258817A (zh) | 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和系统 | |
CN110992378A (zh) | 基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统 | |
CN113379738A (zh) | 一种基于图像的疫木检测与定位方法及系统 | |
CN114494586B (zh) | 晶格投影的深度学习网络阔叶树枝叶分离与骨架重建方法 | |
CN118097463A (zh) | 一种基于农作物遥感图像的倒伏区域识别方法及系统 | |
CN115908924A (zh) | 一种基于多分类器的小样本高光谱图像语义分割方法及系统 | |
Nuradili et al. | UAV Remote-Sensing Image Semantic Segmentation Strategy Based on Thermal Infrared and Multispectral Image Features | |
CN117612031A (zh) | 一种基于语义分割的撂荒地遥感识别方法 | |
CN116630828B (zh) | 基于地形环境适配的无人机遥感信息采集系统及方法 | |
CN115294562B (zh) | 一种植保机器人作业环境智能感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |