CN111680751B - 一种谷物产量图异常数据检测算法 - Google Patents

一种谷物产量图异常数据检测算法 Download PDF

Info

Publication number
CN111680751B
CN111680751B CN202010519647.0A CN202010519647A CN111680751B CN 111680751 B CN111680751 B CN 111680751B CN 202010519647 A CN202010519647 A CN 202010519647A CN 111680751 B CN111680751 B CN 111680751B
Authority
CN
China
Prior art keywords
data set
data
neighborhood
yield
median
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010519647.0A
Other languages
English (en)
Other versions
CN111680751A (zh
Inventor
熊迎军
周俊
张保华
郭一帆
邵若芷
魏宇航
袁立存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN202010519647.0A priority Critical patent/CN111680751B/zh
Publication of CN111680751A publication Critical patent/CN111680751A/zh
Application granted granted Critical
Publication of CN111680751B publication Critical patent/CN111680751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种谷物产量图异常数据检测算法,包括以下步骤:获取谷物产量数据集,筛选出非极异常数据集合;分别采用四邻域法观测指标、八邻域法观测指标对非极异常数据集合进行区域的划分,分别获取较近邻域及产量值中位数、较远邻域及产量值中位数;将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点的新的非空间属性数据,依次迭代获取所有观测点的新的非空间属性数据,并形成新数据集合;对新数据集合中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。本发明对数据检测前不需要设置任何阈值和指标,降低对经验的依赖。

Description

一种谷物产量图异常数据检测算法
技术领域
本发明属于信息农业和精准农业技术领域,尤其是一种谷物产量图异常数据检测算法。
背景技术
随着农业科学技术的不断发展,农业生产数据的精度要求不断提到。在对谷物生产数据的分析方面,其产量数据的异常检测这部分基本空白,这对作物的系统分析造成了不可忽视的误差。谷物产量数据对后期谷物栽种有着非常重要的指导意义,但这些数据中包含了大量的异常数据,为了确保后期作物栽种的指导质量,数据的处理就显得尤为重要。谷物产量数据的获得是在移动车辆工作时采集,作为典型的空间数据,每个数据都具备其特定的空间属性与非空间属性,如何对每个观测点划分其空间邻域以及每个观测点基本属性的处理是本次发明的关键之处。
本发明采用DBSCAN聚类方法来检测整体数据中的缺陷,在DBSCAN算法的使用上也做了一定的改进,降低了对参数的依赖,使得数据检测效果更加合理科学。本发明基于“越近越相似”原理,在对每个观测点划定其空间邻域时,根据其邻域划分的不同赋予每个观测点在对应邻域内的参考值,其邻域的划分充分考虑到其空间属性,至于其非空间属性将根据领域参考值做相应的处理,然后再将处理的数据用于DBSCAN聚类用以发现这批数据中可能存在的异常值。
发明内容
本发明所解决的技术问题在于提供一种谷物产量图异常数据检测算法,针对农田工作时采集的数据的缺陷,对产量数据检测的基础上充分考虑到其空间属性,根据其空间属性划定其空间邻域,结合DBSCAN聚类算法进行异常值检测,对数据检测前不需要设置任何阈值和指标,降低对经验的依赖。
实现本发明目的的技术解决方案为:
一种谷物产量图异常数据检测算法,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
进一步的,本发明的谷物产量图异常数据检测算法,步骤1具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn}, x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure RE-GDA0002577193660000021
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若/>
Figure RE-GDA0002577193660000023
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn}。
进一步的,本发明的谷物产量图异常数据检测算法,步骤2具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
进一步的,本发明的谷物产量图异常数据检测算法,步骤3具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure RE-GDA0002577193660000022
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明的谷物产量图异常数据检测算法使用DBSCAN算法对谷物产量图数据整体进行检测,根据每个观测点的空间邻域获得检测数据,在检测异常数据时同时兼顾整体和局部,较好的照顾到每一个数据,使得检测结果质量更高。
2、本发明的谷物产量图异常数据检测算法在对数据检测时不仅仅是对该数据的产量值检测,同时还充分利用到每个观测点的地理位置属性,实现了整体检测同时兼顾局部。
3、本发明的谷物产量图异常数据检测算法对每个观测点邻域划分时充分考虑到“越近越相似”原则,根据每个观测点之间的欧式距离,将每个观测点的邻域空间划分为较近邻域和较远邻域,以此得到每个观测点的一组数据,进而便于聚类检测。
附图说明
图1是本发明的谷物产量图异常数据检测算法的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
一种谷物产量图异常数据检测算法,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1;具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn}, x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure RE-GDA0002577193660000031
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若/>
Figure RE-GDA0002577193660000032
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn};
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure RE-GDA0002577193660000041
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
本方法使用DBSCAN算法对数据整体进行检测,检测数据的获得是根据每个观测点的空间邻域获得,在异常检测时实现了整体和局部同时兼顾,较好的照顾到每一个数据,使得检测结果质量更高。在对数据检测时不仅仅是对该数据的产量值检测,同时还充分利用到每个观测点的地理位置属性,实现了整体检测同时兼顾局部。对每个观测点邻域划分时充分考虑到“越近越相似”原则,根据每个观测点之间的欧式距离,将每个观测点的邻域空间划分为较近邻域和较远邻域,以此得到每个观测点的一组数据,进而便于聚类检测。
实施例1
根据获得的谷物产量图,首先对每一个观测点划定其空间邻域,根据车辆的移动轨迹,可以确定其获得的数据的地理位置整体上在水平面是呈方形的,同样的,对于每一个观测点也可以找到与其地理位置在水平面上同样成方形的局部空间,将这一空间作为该观测点的邻域空间。
在该邻域空间中所包含的观测点与中心观测点的距离仍有所不同,根据“越近越相似”原理,可以取中心点的四邻域作为其邻域空间内的一个观测指标,称该邻域为观测点邻域空间内的较近邻域,另外该观测中心点的八邻域——实际上也就是该邻域空间,将空间中去掉原四邻域空间中的观测点可以形成另一新的观测指标,称这一邻域为该观测点邻域空间内的较远邻域。
将观测中心点与较近邻域、较远邻域中观测点非空间属性的中值比较,得到一组新的差值数据,这组差值数据将做为该观测点新的非空间属性。
按照此方法依次迭代可以得到每个数据的新的非空间属性值。
在处理完数据后,将每组数据的非空间属性值用于数据聚类,采用DBSCAN聚类法,在原始DBSCAN算法的基础上采用了改进的算法,减少了对参数的依赖,根据Eps 以及给出的数据特性,计算出最合理的min_pts,使得聚类效果得到最佳化。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (3)

1.一种谷物产量图异常数据检测算法,其特征在于,包括以下步骤:
步骤1:获取谷物产量图数据形成数据集,对数据集进行预处理,筛选出极异常值数据集合β2以及非极异常数据集合β1;具体包括:
步骤1-1:收割机在农田工作时采集获得谷物产量初始数据集α={x0,x1,x2,...,xn},x0,x1,x2,...,xn分别为不同观测点的产量数据集,计算谷物产量初始数据集α的标准值范围[xmin,xmax];
步骤1-2:以观测点地理位置的水平面上呈方形的局部空间来划定每一个观测点的空间邻域,设a=4·xmax
Figure FDA0004097292440000011
判断谷物产量初始数据集α={x0,x1,x2,...,xn}中的每一个元素是否包含在[b,a]区间内,若xi∈[b,a]则将该元素xi放入非极异常数据集合β1中,若
Figure FDA0004097292440000012
则将该元素放入极异常数据集合β2中,其中xi∈{x0,x1,x2,...,xn};
步骤2:采用四邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较近邻域及产量值中位数;
步骤3:采用八邻域法观测指标对非极异常数据集合β1进行区域的划分,分别获取其较远邻域及产量值中位数;
步骤4:将较近邻域的产量值中位数与较远邻域的产量值中位数作为观测点zi的新的非空间属性数据,依次迭代获取所有观测点zi的新的非空间属性数据,并形成数据集合γ;
步骤5:对数据集合γ中的数据进行DBSCAN密度聚类算法进行异常值检测并生成可视化三维图像。
2.根据权利要求1所述的谷物产量图异常数据检测算法,其特征在于,步骤2具体包括:
步骤2-1:设收割机每隔时间t输出某一观测点的产量数据,收割机的行驶速度为v,获取的空间上相邻两列产量数据的间距为d1,同一列产量数据上的相邻两数据点的空间距离d2=v×t;
步骤2-2:根据越近越相似原则,取非极异常数据集β1中的一观测点zi为中心点,以zi为圆心、d1为半径得到zi的较近邻域,获取该较近邻域的数据集合μ1,计算数据集合μ1中的产量值中位数z0,设c0=zi-z0
3.根据权利要求1所述的谷物产量图异常数据检测算法,其特征在于,步骤3具体包括:
步骤3-1:取非极异常数据集β1中的一观测点zi为中心点,以zi点为对角线交点得到长2d1、宽2d2的矩形区域,获取该矩形区域的数据集合μ;
步骤3-2:根据越近越相似原则,该矩形区域内距离zi点最远的距离为
Figure FDA0004097292440000021
将该矩形区域的数据集合μ减去较近邻域的数据集合μ1得到zi的较远邻域,获取该较远邻域的数据集合μ2,计算数据集合μ2中的产量值中位数z1,设c1=zi-z1。/>
CN202010519647.0A 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法 Active CN111680751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519647.0A CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519647.0A CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Publications (2)

Publication Number Publication Date
CN111680751A CN111680751A (zh) 2020-09-18
CN111680751B true CN111680751B (zh) 2023-05-30

Family

ID=72455018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519647.0A Active CN111680751B (zh) 2020-06-09 2020-06-09 一种谷物产量图异常数据检测算法

Country Status (1)

Country Link
CN (1) CN111680751B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051535A (zh) * 2016-03-03 2023-05-02 斯特拉克斯私人有限公司 用于识别和量化异常的方法与设备
CN107682319B (zh) * 2017-09-13 2020-07-03 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108537274B (zh) * 2018-04-08 2020-06-19 武汉大学 一种基于网格的企业poi位置点快速空间多尺度聚类方法

Also Published As

Publication number Publication date
CN111680751A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Bao et al. Field-based architectural traits characterisation of maize plant using time-of-flight 3D imaging
CN111724433B (zh) 一种基于多目视觉的作物表型参数提取方法及系统
Petit et al. Integration of multi-source remote sensing data for land cover change detection
CN109146948B (zh) 基于视觉的作物长势表型参数量化与产量相关性分析方法
CN111738332B (zh) 基于特征级融合的水下多源声学图像底质分类方法及系统
CN106815842A (zh) 一种改进的基于超像素的图像显著性检测方法
CN111598780B (zh) 一种适用于机载LiDAR点云的地形自适应插值滤波方法
CN102930509A (zh) 一种机载激光点云数据的智能化滤波方法
CN109002418B (zh) 基于体素生长和地面激光点云的树木胸径自动计算方法
CN102096818A (zh) 面向对象的遥感影像树冠轮廓及参数自动提取方法及系统
CN112462347B (zh) 基于密度聚类的激光雷达点云快速分类滤波算法
CN109272458B (zh) 一种基于先验信息的点云滤波方法
CN109887008B (zh) 基于前后向平滑和o(1)复杂度视差立体匹配方法、装置和设备
CN115049925A (zh) 田块田坎提取方法、电子设备及存储介质
CN112734822A (zh) 一种基于红外和可见光图像的立体匹配算法
CN116523898A (zh) 一种基于三维点云的烟草表型性状提取方法
WO2009058315A1 (en) Structure segmentation via mar-cut
CN115937226A (zh) 一种基于无人机Lidar点云数据的果树单木分割方法
CN117496359A (zh) 基于三维点云的植物种植布局监测方法及系统
CN110349176B (zh) 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统
Li et al. Multi-source data fusion improves time-series phenotype accuracy in maize under a field high-throughput phenotyping platform
Long et al. Image segmentation based on the minimum spanning tree with a novel weight
CN111680751B (zh) 一种谷物产量图异常数据检测算法
Zhu et al. A method for detecting tomato canopies’ phenotypic traits based on improved skeleton extraction algorithm
CN114581464A (zh) 边界检测方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant