CN111680751A - 一种谷物产量图异常数据检测算法 - Google Patents

一种谷物产量图异常数据检测算法 Download PDF

Info

Publication number
CN111680751A
CN111680751A CN202010519647.0A CN202010519647A CN111680751A CN 111680751 A CN111680751 A CN 111680751A CN 202010519647 A CN202010519647 A CN 202010519647A CN 111680751 A CN111680751 A CN 111680751A
Authority
CN
China
Prior art keywords
data set
data
neighborhood
yield
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010519647.0A
Other languages
English (en)
Other versions
CN111680751B (zh
Inventor
熊迎军
周俊
张保华
郭一帆
邵若芷
魏宇航
袁立存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN202010519647.0A priority Critical patent/CN111680751B/zh
Publication of CN111680751A publication Critical patent/CN111680751A/zh
Application granted granted Critical
Publication of CN111680751B publication Critical patent/CN111680751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种谷物产量图异常数据检测算法,包括以下步骤:获取谷物产量数据集,筛选出非极异常数据集合;分别采用四邻域法观测指标、八邻域法观测指标对非极异常数据集合进行区域的划分,分别获取较近邻域及产量值中位数、较远邻域及产量值中位数;将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点的新的非空间属性数据,依次迭代获取所有观测点的新的非空间属性数据,并形成新数据集合;对新数据集合中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。本发明对数据检测前不需要设置任何阈值和指标,降低对经验的依赖。

Description

一种谷物产量图异常数据检测算法
技术领域
本发明属于信息农业和精准农业技术领域,尤其是一种谷物产量图异常数据检测算法。
背景技术
随着农业科学技术的不断发展,农业生产数据的精度要求不断提到。在对谷物生产数据的分析方面,其产量数据的异常检测这部分基本空白,这对作物的系统分析造成了不可忽视的误差。谷物产量数据对后期谷物栽种有着非常重要的指导意义,但这些数据中包含了大量的异常数据,为了确保后期作物栽种的指导质量,数据的处理就显得尤为重要。谷物产量数据的获得是在移动车辆工作时采集,作为典型的空间数据,每个数据都具备其特定的空间属性与非空间属性,如何对每个观测点划分其空间邻域以及每个观测点基本属性的处理是本次发明的关键之处。
本发明采用DBSCAN聚类方法来检测整体数据中的缺陷,在DBSCAN算法的使用上也做了一定的改进,降低了对参数的依赖,使得数据检测效果更加合理科学。本发明基于“越近越相似”原理,在对每个观测点划定其空间邻域时,根据其邻域划分的不同赋予每个观测点在对应邻域内的参考值,其邻域的划分充分考虑到其空间属性,至于其非空间属性将根据领域参考值做相应的处理,然后再将处理的数据用于DBSCAN聚类用以发现这批数据中可能存在的异常值。
发明内容
本发明所解决的技术问题在于提供一种谷物产量图异常数据检测算法,针对农田工作时采集的数据的缺陷,对产量数据检测的基础上充分考虑到其空间属性,根据其空间属性划定其空间邻域,结合DBSCAN聚类算法进行异常值检测,对数据检测前不需要设置任何阈值和指标,降低对经验的依赖。
实现本发明目的的技术解决方案为:
一种谷物产量图异常数据检测算法,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
进一步的,本发明的谷物产量图异常数据检测算法,步骤1具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn}, x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure RE-GDA0002577193660000021
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若
Figure RE-GDA0002577193660000023
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn}。
进一步的,本发明的谷物产量图异常数据检测算法,步骤2具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
进一步的,本发明的谷物产量图异常数据检测算法,步骤3具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure RE-GDA0002577193660000022
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明的谷物产量图异常数据检测算法使用DBSCAN算法对谷物产量图数据整体进行检测,根据每个观测点的空间邻域获得检测数据,在检测异常数据时同时兼顾整体和局部,较好的照顾到每一个数据,使得检测结果质量更高。
2、本发明的谷物产量图异常数据检测算法在对数据检测时不仅仅是对该数据的产量值检测,同时还充分利用到每个观测点的地理位置属性,实现了整体检测同时兼顾局部。
3、本发明的谷物产量图异常数据检测算法对每个观测点邻域划分时充分考虑到“越近越相似”原则,根据每个观测点之间的欧式距离,将每个观测点的邻域空间划分为较近邻域和较远邻域,以此得到每个观测点的一组数据,进而便于聚类检测。
附图说明
图1是本发明的谷物产量图异常数据检测算法的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
一种谷物产量图异常数据检测算法,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1;具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn}, x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure RE-GDA0002577193660000031
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若
Figure RE-GDA0002577193660000032
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn};
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure RE-GDA0002577193660000041
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
本方法使用DBSCAN算法对数据整体进行检测,检测数据的获得是根据每个观测点的空间邻域获得,在异常检测时实现了整体和局部同时兼顾,较好的照顾到每一个数据,使得检测结果质量更高。在对数据检测时不仅仅是对该数据的产量值检测,同时还充分利用到每个观测点的地理位置属性,实现了整体检测同时兼顾局部。对每个观测点邻域划分时充分考虑到“越近越相似”原则,根据每个观测点之间的欧式距离,将每个观测点的邻域空间划分为较近邻域和较远邻域,以此得到每个观测点的一组数据,进而便于聚类检测。
实施例1
根据获得的谷物产量图,首先对每一个观测点划定其空间邻域,根据车辆的移动轨迹,可以确定其获得的数据的地理位置整体上在水平面是呈方形的,同样的,对于每一个观测点也可以找到与其地理位置在水平面上同样成方形的局部空间,将这一空间作为该观测点的邻域空间。
在该邻域空间中所包含的观测点与中心观测点的距离仍有所不同,根据“越近越相似”原理,可以取中心点的四邻域作为其邻域空间内的一个观测指标,称该邻域为观测点邻域空间内的较近邻域,另外该观测中心点的八邻域——实际上也就是该邻域空间,将空间中去掉原四邻域空间中的观测点可以形成另一新的观测指标,称这一邻域为该观测点邻域空间内的较远邻域。
将观测中心点与较近邻域、较远邻域中观测点非空间属性的中值比较,得到一组新的差值数据,这组差值数据将做为该观测点新的非空间属性。
按照此方法依次迭代可以得到每个数据的新的非空间属性值。
在处理完数据后,将每组数据的非空间属性值用于数据聚类,采用DBSCAN聚类法,在原始DBSCAN算法的基础上采用了改进的算法,减少了对参数的依赖,根据Eps 以及给出的数据特性,计算出最合理的min_pts,使得聚类效果得到最佳化。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (4)

1.一种谷物产量图异常数据检测算法,其特征在于,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
2.根据权利要求1所述的谷物产量图异常数据检测算法,其特征在于,步骤1具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn},x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure FDA0002531515900000011
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若
Figure FDA0002531515900000012
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn}。
3.根据权利要求1所述的谷物产量图异常数据检测算法,其特征在于,步骤2具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
4.根据权利要求1所述的谷物产量图异常数据检测算法,其特征在于,步骤3具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure FDA0002531515900000021
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1
CN202010519647.0A 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法 Active CN111680751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519647.0A CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519647.0A CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Publications (2)

Publication Number Publication Date
CN111680751A true CN111680751A (zh) 2020-09-18
CN111680751B CN111680751B (zh) 2023-05-30

Family

ID=72455018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519647.0A Active CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Country Status (1)

Country Link
CN (1) CN111680751B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017147648A1 (en) * 2016-03-03 2017-09-08 Straxcorp Pty Ltd Method and apparatus for identifying and quantifying abnormality
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108537274A (zh) * 2018-04-08 2018-09-14 武汉大学 一种基于网格的空间多尺度快速聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017147648A1 (en) * 2016-03-03 2017-09-08 Straxcorp Pty Ltd Method and apparatus for identifying and quantifying abnormality
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108537274A (zh) * 2018-04-08 2018-09-14 武汉大学 一种基于网格的空间多尺度快速聚类方法

Also Published As

Publication number Publication date
CN111680751B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Bao et al. Field-based architectural traits characterisation of maize plant using time-of-flight 3D imaging
Hui et al. Image-based dynamic quantification and high-accuracy 3D evaluation of canopy structure of plant populations
CN109146948B (zh) 基于视觉的作物长势表型参数量化与产量相关性分析方法
CN111724433B (zh) 一种基于多目视觉的作物表型参数提取方法及系统
Li et al. A leaf segmentation and phenotypic feature extraction framework for multiview stereo plant point clouds
CN111598780B (zh) 一种适用于机载LiDAR点云的地形自适应插值滤波方法
CN102867115B (zh) 一种基于模糊c均值聚类的农田划分方法
Zhu et al. A calculation method of phenotypic traits based on three-dimensional reconstruction of tomato canopy
CN109871875A (zh) 一种基于深度学习的建筑物变化检测方法
CN111738332B (zh) 基于特征级融合的水下多源声学图像底质分类方法及系统
CN106815842A (zh) 一种改进的基于超像素的图像显著性检测方法
CN106649339A (zh) 离群点的挖掘方法及挖掘装置
CN115049925A (zh) 田块田坎提取方法、电子设备及存储介质
CN117496359A (zh) 基于三维点云的植物种植布局监测方法及系统
Ge et al. Three-dimensional location methods for the vision system of strawberry-harvesting robots: development and comparison
CN115937226A (zh) 一种基于无人机Lidar点云数据的果树单木分割方法
Li et al. Multi-source data fusion improves time-series phenotype accuracy in maize under a field high-throughput phenotyping platform
Zhu et al. A method for detecting tomato canopies’ phenotypic traits based on improved skeleton extraction algorithm
CN114822823A (zh) 基于云计算和人工智能的融合多维度医疗数据的肿瘤精细分类系统
CN114398996A (zh) 目标处理方法以及控制系统
Li et al. Recognition of citrus fruit and planning the robotic picking sequence in orchards
CN111680751A (zh) 一种谷物产量图异常数据检测算法
CN113096048B (zh) 一种广义云驱动与几何协同遥感影像辐射校正方法及系统
CN116051645A (zh) 作物群体的表型获取方法及装置
Xu et al. Research on monocular vision distance measurement algorithm based on reference target

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant