CN108416047A - 一种面向农药残留数据的多维交叉分析方法与系统 - Google Patents
一种面向农药残留数据的多维交叉分析方法与系统 Download PDFInfo
- Publication number
- CN108416047A CN108416047A CN201810217590.1A CN201810217590A CN108416047A CN 108416047 A CN108416047 A CN 108416047A CN 201810217590 A CN201810217590 A CN 201810217590A CN 108416047 A CN108416047 A CN 108416047A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- multidimensional
- pesticide
- pesticide residue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公布了一种面向农药残留数据的多维交叉分析方法,建立基于双立方体的双重多维数据关联存储模型,针对农药残留数据进行双重多维度交叉数据分析处理,通过多个数据子集之间进行多维分析查询与分析,并进行异常值的检测识别;利用多维交叉分析方法实现的农药残留数据多维交叉分析系统,包括:信息采集模块、数据仓库模块、数据分析模块和报告自动生成模块。本发明通过异常检测识别数据异常值,更全面地分析数据,为农药残留风险评估、农药的科学管理与使用,提供在线分析服务。
Description
技术领域
本发明涉及多维、层次、关联数据的分析方法,尤其涉及一种面向农药残留数据的多维交叉分析方法与系统。
背景技术
农药残留是导致食品安全问题的主要因素之一,为此,国家及各省市食品安全检测部门每年都要对农产品中的农药残留进行检测,检测结果数据涉及农药品种、农药含量、农产品名称、采样时间、采样地点、限量标准等多个维度,数据量大、相互关联,有些维度还具有层次特征。如何对这类数据进行全方位的统计分析和预警,为政府决策提供数据支持是一个亟待解决的问题。当前的农药残留数据分析方法主要采用Excel、SPSS等数据分析软件对数据进行较为单一的数理统计,难以实现交叉和关联统计分析,统计结果也主要由一些独立的数据表格和统计图表来进行表达,难以满足上述统计分析需求。
针对食品安全领域数据的分析,经常使用一些数据分析工具或者模型,例如食品安全数据分析系统,OLAP(On-line Analytical Processing,联机分析处理)方法,数据立方体等。OLAP联机分析处理使分析人员、管理人员能够从多角度迅速、一致、交互地存取,以达到深入理解数据的目的,OLAP联机分析处理在很多数据分析系统上都有所应用。
对于农药残留数据来说,数据集主要包含检测结果数据子集和MRL(最大残留限量)标准数据子集。其中,检测结果数据子集中包括农药、农产品、检出量、地域、时间等多个维度;MRL标准数据子集中包括农药、农产品、最大残留限量值、标准的生效和实效时间、标准所属国家或地区等多个维度。这些维度数据之间既相互独立又相互关联,需要更好地分析得出数据之间的关系与特征,提高数据分析和利用的效率。
发明内容
本发明提供一种针对农药残留数据的多维度交叉分析方法,通过异常检测识别数据异常值,更全面地分析数据,为农药残留风险评估、农药的科学管理与使用,提供在线分析服务。
本发明的核心是:本发明基于OLAP联机分析处理技术,设计了一个双重数据立方体模型(双重多维数据模型),实现多个数据子集之间的多维度交叉对比分析,结合核密度估计方法,对离群点进行检测识别。多维数据模型是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维度的数据库模型,其基本的应用是实现OLAP。数据的存储形式是集成的、多角度、多层次、多维度的组织形式,而分析方法通过各种下钻、上卷等单一操作和双重立方体对比组合操作组成,以及使用一种用于估计概率密度函数的非参数方法——核密度估计方法,进行多种分析方法的交叉结合。通过构建的双重多维数据模型使得多个数据子集之间的数据分析更加直观,可以从多个角度、多个层面去探查事物的异同点,数据分析更加深层化,并且通过非参数方法进行离群点的检测与识别,探查数据中的异常值,从而使得数据的分析更加全面。
本发明提供的技术方案是:
一种面向农药残留数据的多维交叉分析方法,建立基于双立方体的双重多维数据关联存储模型,针对农药残留数据进行双重多维度交叉数据分析处理,通过多个数据子集之间进行多维分析查询与分析,并结合核密度估计方法,进行异常值的检测识别;包括如下步骤:
A.建立基于双重数据立方体的关联存储模型,针对农药残留数据构建为关联存储模型的数据结构;
所述关联存储模型包含两个组成部分,即事实表和维度表。事实表是用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情,反映了业务的主要指标,同时也包含各种与维度表连接的键;维表则是对事实表中事件的要素的描述信息。一般来说,一个维度下都会有很多不同的层次,可以方便的从不同的角度进行事物的描述,每个层都会包含一些自身特有的属性或者共有的属性,层次越深,则对数据分析得越仔细,根据不同情况,维的层次数也不一样。最后,根据上述事实表和维度表,构建双重数据立方体关联存储模型。本发明采用数据立方体对数据进行多维建模和观察分析。数据立方体是由事实和维构建出来的多维空间,每个立方体都包含了基础数据信息,对数据的操作都在数据立方体上进行。
针对农药残留数据建立基于双重数据立方体的关联存储模型,由于农药残留数据包含两个数据子集,即检出结果子集和MRL标准子集,检出结果数据子集主要包含农药残留数据检出量等信息,而MRL标准子集主要包含各个国家或地区农产品中农药的最大残留量标准信息;因此单一立方体,即只有一个数据立方体模型,无法满足农药残留数据的结构与分析,所以,本发明构建一个具有关联关系的农药残留数据双重立方体存储模型,即检出结果立方体+MRL标准立方体的双重立方体模型,检出结果立方体和MRL标准立方体之间既有联系又有区别。
农药残留数据立方体中,农药残留数据事实表主要包括检测结果事实表和MRL标准事实表。其中检测结果事实表包含五个部分,即农药ID,农产品ID,采样点ID,采样时间ID和检出量;MRL标准事实表包含五个部分,即农药ID,农产品ID,标准属地ID,标准有效时间ID和MRL值。
农药残留数据维度表和农药残留数据事实表紧密关联,主要包含事实表中事件的要素描述信息,如检测结果事实表对应的维度表包含农产品维表、农药维表、采样时间维表和采样点地域维表;MRL标准事实表对应的维度表包含农产品维表、农药维表、标准有效时间维表和标准属地维表。上述农药残留数据维度表一般由两部分组成,一个是维表的ID,一个是对应维表中其他属性信息,比如农药维表,包含农药ID,农药名称,农药毒性,农药成分,农药功效。
农药残留数据立方体可包括多个数据子立方体,数据子立方体是指计算的数据立方体的一个子集,只包含满足用户指定的某种条件,如每个立方体单元的count(计数)大于某个阈值的数据构成数据子立方体。
构建的农药残留数据双重立方体存储模型中,数据结构之间的关系主要是农药残留多维数据子集、农药残留数据事实表、农药残留数据维度表和数据立方体之间的关系,根据农药残留数据事实表和农药残留维度表构建数据立方体的结构,另外,如果数据集很大的情况下,将构建数据子立方体,减少存储空间和响应时间,同时根据两个多维数据子集,即检出结果数据子集和MRL标准子集,构建双重数据立方体关系存储模型,数据结构之间紧密关联。
B.针对农药残留数据进行多维交叉分析;
多维交叉分析方法主要分为两类:第一,通过单一立方体,即检出结果子集数据立方体或者MRL标准子集数据立方体,进行下钻、上卷、切片、切块和旋转等操作分析,其中,下钻是在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据。通过下钻分析方法,可以在建立的数据立方体模型中进行维度之间的层次变化,根据不同的采样点使得数据的维度层次降低,细节更多,数据量更大。第二,通过双重立方体,即构建的检出结果子集+MRL标准子集数据立方体,进行数据对比分析操作,根据用户需求对检测结果子集和MRL标准子集进行相应的农产品、农药和地域信息的单一交叉分析操作,如下钻等,然后进行两个立方体模型之间的对比分析操作,找出关联信息并得出结果。
C.针对农药残留数据进行异常点检测:通过核密度估计方法,对数据集进行异常值分析。
核密度估计方法是指一种用于估计概率密度函数的非参数检验方法,不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法。
所述建立基于双重数据立方体的关联存储模型,包括如下步骤:
A1.针对一个数据集datasets_a,首先根据数据集datasets_a分析数据结构,确定数据集层次等信息,得出数据子集datasets_a1、datasets_a2;
A2.根据数据子集datasets_a1、datasets_a2,确定数据子集属性信息,构建datasets_a1和datasets_a2数据子集的事实表和维度表;
A3.根据datasets_a1和datasets_a2数据子集事实表和维度表,构建datasets_a1和datasets_a2相对应的数据立方体,然后将datasets_a1数据子集+datasets_a2数据子集结合,构造双重数据立方体关联存储模型。
所述多维交叉分析方法,包括单一立方体操作和双重立方体操作,步骤分别如下:
单一立方体操作,假如要分析某数据中的含量:
B1.首先,进行数据的下钻操作,从较高层次维度降到下一级层次或者更低层次维度;
B2.然后,通过下钻到层次维度,获得某数据或信息中对应维度或属性的含量信息;
B3.通过聚合函数count(计数)或者sum(求和)方法等等,得出检出量等信息的度量值;
B4.最后,将得出的度量值等信息进行分析和处理,并通过可视化方式将信息展示出来。
双重立方体进行数据对比分析操作,假如要分析中国某市中农产品的农药含量:
B5.在检测结果子集对应的立方体中查询出采样点某市某区农产品黄瓜中对应的农药含量信息,并求出检出量的度量值,假设为0.0944mg/kg;
B6.然后,在MRL标准子集中查询出中国MRL标准中对应农药在农产品中的标准值的度量值,假设查询出农药甲拌磷的中国MRL标准是0.01mg/kg;
B7.进行双重立方体之间的关联对比分析,可以清楚的对比得出,检出量值0.0944mg/kg相对于MRL标准值0.01mg/kg要大,因此,可以得出此假设中,采样点某市某区的农产品黄瓜中农药甲拌磷的使用情况超出中国MRL标准;
B8.最后,相关人员可以进一步的调查分析,对食用农产品农药残留的安全性进行评估。
所述异常点检测方法步骤如下:
C1.首先,确定使用核密度估计来估计数据的概率密度分布;
C2.使用一个较为频繁的核函数,如标准高斯函数:
式1中,K()是核函数;h是带宽,充当光滑参数;xi是样本;e是自然常数;
C3.设xi,K,xn是随机变量f独立的、同分布的样本。其分布密度函数f(x)的核密度估计定义为:
式2中,K()是核函数,h是带宽或光滑参数,n是样本个数,xi是样本;
C4.根据式1和式2得出的核密度估计数据构建核密度图,得到核密度图中数据的分布模式;
所述异常点检测方法,根据农药残留数据样例中检出结果值与MRL标准值,计算检出结果数据与MRL标准数据之间的差,通过上述差值,构建核密度估计图,并且根据差值将分布模式分为三类:
(1)核密度图中全部是大于0的值,则说明这些点全部都是离群点;
(2)核密度图中大于0的值、小于0的值和等于0的值都有,则大于0部分的点即为离群点,小于0和等于0部分的点为正常点;
(3)核密度图中值的分布情况主要集中于小于0和等于0的部分,而没有值分布于大于0的情况,则此采样点中农产品检出农药情况全部正常,都符合MRL标准。
C5.最后,根据分布模式确定离群点数据分布;
通过核密度估计图进行可视化展示,使用者通过上述三种分布模式,对核密度估计图进行人工分析,分析是否存在离群点数据,如果存在离群点数据,使用者通过观察图中展示的数据分布情况,是大于0的数据较多,还是小于0的数据较多,从而可以判定离群点数据的分布情况,进而为用户做更进一步地分析提供帮助。
对于数据立方体而言,如果数据集很大的情况下,将所有的数据聚集并构建成数据立方体,在一定程度上会影响效率。因此,在这里采用部分聚集的计算方法,即只聚集构建某些可能产生或者用到的方体,也就是子立方体。子立方体只存放其聚集值(如count数量)大于某个最小支持度阈值的立方体单元。因此,在分析农药残留数据的时候,根据用户的不同需求,选择某个农产品或某些标准属性,提前计算农药残留检测结果子集立方体和MRL标准子集立方体。根据双重立方体得出的结果,进行单一或对比分析和离群点检测识别,从而实现多角度、多层次、多交叉的数据分析。
本发明利用上述农药残留数据多维交叉分析方法,提供一种农药残留数据多维交叉分析系统,具体如下:
所述农药残留数据多维交叉分析系统主要包含四个模块:信息采集、数据仓库、数据分析和报告自动生成。所述信息采集,主要包括两个组成部分:一个是检测单位上传的检测结果,一个是处理的各类标准信息。检测单位上传的检测结果通过采集系统模块,将处理、融合之后的数据存入检测结果数据库;而基础信息管理系统将标准信息处理后存入标准数据库。所述数据仓库模块,主要包括三个部分:检测结果数据库、标准数据库、双重多维数据模型。通过双重多维数据模型,构建检测结果数据子集和MRL标准数据子集。所述数据分析模块,主要包括数据统计与分析、离群点检测。通过数据统计与分析模块进行数据的分析,而通过离群点检测模块进行数据异常值的检测与分析。所述报告自动生成模块,包括前端展示和报告自动生成。前端展示通过可视化进行数据展示,而报告自动生成模块,将数据分析模块产生的数据进行报告的自动生成,提供给用户较完整的数据分析报告。
与现有技术相比,本发明的有益效果是:
本发明提出一种面向农药残留数据的多维交叉分析方法,构建农药残留数据立方体,从多角度、多层次进行数据分析,并进行异常值检测。具体地,本发明具有以下技术优势:
(一)构建农药残留双重立方体模型,更好地实现多维农药残留数据的单项和综合统计分析;
(二)通过核密度估计方法,可以快速发现农药残留数据中的异常值,从而帮助用户快速发现问题,并及时做出决策;
(三)通过多维交叉分析方法,结合双重数据立方体多维数据模型和核密度估计方法,得出的报告,不但准确性高、速度快、判定标准多,而且统计范围灵活、分析方法多样,大大提高了数据分析的深度、精准度和工作效率。
附图说明
图1为多维度交叉分析方法的流程框图。
图2为本发明实施例中农药残留多维数据的关联模型;
其中,(a)为检测结果数据关联模型;(b)为MRL标准数据关联模型。
图3为本发明实施例中农产品分类层次结构。
图4为本发明实施例中农药残留数据立方体存储模型;
其中,(a)为检测结果数据立方体;(b)为MRL数据立方体。
图5为本发明实施例中农残检测数据多维交叉分析系统的结构框图。
图6为本发明实施例中农药残留检出结果与MRL标准值之差的核密度估计图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明设计了一种数据的多维交叉分析方法及系统,并结合异常检测识别异常值,全面地分析数据,为农药残留风险评估、农药的科学管理与使用,提供在线分析服务。
本发明提出的多维交叉分析方法与异常检测方法结合农药残留检测数据分析系统,为我国各地区农药残留数据的分析与预警提供了高效精准的数据分析系统。农药残留双重数据立方体多维数据模型和核密度估计方法的结合,更好地实现了数据库的相互关联、互联互通,实现了多维农药残留数据的单项和综合统计分析,以及离群点检测分析,从而实现了农药残留数据的深层次分析。
图1为本发明多维交叉分析方法及异常值检测方法的流程图,首先,从检测结果数据库和MRL标准数据库获得数据信息,然后根据数据集构建双重立方体模型,根据用户的分析任务,选择单一数据子集或者双重子集交叉分析,从而通过上卷、下钻等操作进行进一步的数据分析操作,如果需要进行异常值分析,则通过异常值检测方法分析数据,得出数据集中的异常信息,为分析人员进一步分析提供数据支持。
以下实施例针对农药残留多维数据,采用本发明提出的多维交叉分析方法进行检测分析。图2为农药残留多维数据关联模型,其中包含两个组成部分,农药残留检测结果和MRL标准,其中,图2中的(a)为检测结果事实表和对应维表,图2中的(b)为MRL标准事实表和对应维表,两者之间既有联系又有差异。在拥有不同数据子集的情况下,图2中的(a)和图2中的(b)两部分的部分维表是相同的,比如农产品维、农药维等是两个部分共有的,因此属性相同,而对于时间维和地域维,由于两者包含的意义不同,所以产生了差异。图2中的(a)和图2中的(b)表达的意思不尽相同,为了更好的表示各自的含义,度量值也是不一样的。因为图2中的(a)想要表达的是农药残留数据的检出结果信息,所以度量值是检出量,而图2中的(b)代表的是MRL标准信息,因此度量值是MRL值。
本实施例中,图3为本发明农药残留数据中的农产品维度表结构和组成,可以细化为:一级分类蔬菜、二级分类叶菜类蔬菜、三级分类绿叶类等,层次越深,则对数据分析得越仔细,根据不同情况,维的层次数也不一样。
本发明具体实施时,设计了不同数据子集的双重多维立方体模型,如图4所示,从农药维度、农产品维度、地域维度三个不同维度进行数据模型建立,这里只列出部分模型维度属性。双重多维立方体模型分为图4中的(a)和(b)两个主要部分,其中X轴为农产品属性维,其取值可以是西红柿、黄瓜等农产品名称,Z轴为农药属性维,其取值可以为敌敌畏等农药名称,Y轴为地域属性维,对于图4中的(a)部分而言,其取值可以是中国等国家或地区名称,对于图4中的(b)部分而言,其取值可以是北京市等采样点信息。双重多维立方体模型一个对应检测结果数据子集,一个对应MRL标准子集,度量值根据双重立方体的不同事实表,即检测结果子集和MRL标准子集,包含检出量和MRL值等,其对应的两个维表设计如图2所示。
图5为本发明系统框架图,整个农残检测数据分析系统主要涉及四个组成部分,分别是信息采集系统、数据仓库、数据分析和报告自动生成系统,其核心是建立的农药残留双重多维数据模型和离群点检测模型。其中,农药检测数据集中,包含有200多种农产品和1000多种农药信息。首先,通过信息采集系统,将检测单位上传的数据进行预处理,然后存入检测结果数据库,同时基础信息库中的数据也进行处理,存入标准数据库。此时,数据仓库中的检测结果数据库和标准数据库中就已经存有需要进行分析的数据,然后通过双重多维数据模型,根据图2所示的存储结构进行数据存储,根据图4的双重立方体模型,建立检测结果子集和MRL标准子集数据立方体模型。从而通过数据分析模块中数据统计分析功能和离群点检测功能,对双重立方体模型中的数据进行处理与分析,产生的分析结果可以通过可视化方式展示给用户,也可以通过自动报告生成系统将分析得出的结果进行导出,方便用户保存与查看。
图6为本发明检出结果与MRL标准值之差的核密度估计图,横轴表示检出结果值与MRL标准值之差,纵轴表示横轴的差值数据得出的核密度估计值,横轴上面的黑色竖条显示数据的密集程度,颜色越黑或者竖条越密集,表示此处的数据越密集。通过核密度估计图进行可视化展示,可以看到一部分样品农药检出结果与MRL标准值之差大于0,说明部分农产品中检出农药情况超标较为严重。
以下为实施例的具体分析过程:
1)例如从某市30个采样点随机购买样品533例。对于所有样品,每个样品均侦测了多种农药化学污染物的残留现状。首先,根据多维交叉分析方法建立对应的双重立方体模型,即检出结果子集立方体和MRL标准子集立方体。
2)模型建立完成后对检出结果立方体进行下钻操作,使的地域维从中国下钻到某市采样点,例如图4(a)所示的北京市、天津市、河北省等,农产品维和农药维保持不变,从而得出各采样点样品检出情况。
3)通过聚合函数count(计数)或sum(求和)等,共获得检出农药化学污染物61中,检出频次670次。
4)通过对农药品种数和检出频次进行sort(排序)操作,得出农药多菌灵检出频次最多。
5)根据检测结果子集立方体统计检出结果中检出农药功效分类情况,此模拟数据中检出农药功效主要包括杀菌剂、杀虫剂、除草剂、植物生长剂4类,其中杀菌剂和杀虫剂占比较多,超过一半的占比。
6)另外,对农药维度进行下钻操作,得到剧毒、高毒、中毒和低毒四种分类,农产品维和地域维保持不变,其中MRL标准子集立方体包含农产品维、农药维和通过下钻操作得到的采样点地域维中国,检出结果子集立方体模型通过聚合函数count或sum,得出四种分类的数值,然后与MRL标准子集立方体模型的数据进行对比得出农药毒性分布结果,结果为低毒农药种类的占比最大。
7)通过检出结果子集和MRL标准子集的交叉结合分析,在本次模拟数据中检测的533例样品中,494例样品均检出不同水平、不同种类的农药残留。MRL标准子集数据立方体通过下钻操作,让图4(b)中Y轴上的地域维度变成中国,查询出中国MRL标准,然后结合检出结果子集立方体中农药含量的度量值,进行交叉对比分析,最终得出结果98.5%的样品没有检出超标农药,同时以直方图的形式展示超标样品,更加直观、方便的供相关人员分析。
8)本实施例在进行多维交叉数据分析时,肯定会有一些异常值出现,系统通过建立的基于核密度估计方法的离群点检测方法,进行异常值分析。
9)在本实施例中,对于533例样品的农药检出频次是670次,其中,对照中国MRL标准,一些农产品中检出的农药没有对应的MRL标准,还有一部分检出结果中农产品没有检出农药信息。通过数据筛选,将未检出农药的数据和检出的数据没有对应MRL值的数据进行过滤。最后,过滤之后的数据包含的检出频次为360次。根据上述公式(1)和(2),将每个数据点的数据加上带宽当作核函数的参数,得到N个核函数,再线性叠加就形成了核密度的估计函数,归一化后就是核概率密度函数了。
10)根据上一步操作得出的结果进行可视化展示,绘制核密度估计图,如图6所示;
11)本实施例通过上述步骤,对核密度估计图进行观察与分析,可以看到一部分样品中农药检出结果与MRL标准值之差大于0,说明部分农产品中检出农药情况超标较为严重,但是大多数的值还是小于0,农产品中农药的检出量多数处于正常范围,说明此次对于某市进行检测的结果处于受控阶段。
12)最后,本实施例由以上统计分析报告,可以初步得出模拟的某市中,部分市售水果蔬菜存在广泛使用农药的现象,但处于受控层面;检出农药以中低毒农药为主。但是也出现了一些异常值,有的农药检出含量较大,而且检出了禁用剧毒/高毒农药现象。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种面向农药残留数据的多维交叉分析方法,建立基于双立方体的双重多维数据关联存储模型,针对农药残留数据进行双重多维度交叉数据分析处理,通过多个数据子集之间进行多维分析查询与分析,并进行异常值的检测识别;包括如下步骤:
A.针对农药残留数据构建形成基于双重数据立方体的关联存储模型的数据结构;
所述关联存储模型包含事实表和维度表;事实表用于记录业务主要指标;维度表用于描述事实表中的事件要素;事实表包括各种与维度表连接的键;每个维度下包含不同的层次;农药残留数据包含两个数据子集,分别为检出结果子集和MRL标准子集;针对两个数据子集,构建一个具有关联关系的农药残留数据双重立方体存储模型,为检出结果立方体+MRL标准立方体的双重立方体模型;
B.针对农药残留数据进行多维交叉分析,包括通过单一立方体进行多维交叉分析操作和通过双重立方体进行多维交叉分析操作;所述分析操作包括下钻、上卷、切片、切块和旋转分析中的一种或多种;
单一立方体分析数据的操作包括:
B1.首先,进行数据的下钻操作,从较高层次维度降到下一级层次或更低层次维度;
B2.然后,通过下钻到该层次维度,获得数据中对应维度或属性的含量信息;
B3.通过聚合函数计算方法,得出检出量信息的度量值;
B4.最后,将得出的度量值进行分析和处理,并通过可视化方式将信息展示出来;
双重立方体进行数据对比分析操作包括:
B5.在检测结果子集对应的立方体中查询得到采样点农产品中对应的农药含量信息,并求出检出量的度量值;
B6.在MRL标准子集中查询得到MRL标准中对应农药在农产品中的标准值的度量值;
B7.进行双重立方体之间的关联对比分析;
B8.可进一步对农产品农药残留的安全性进行评估;
C.针对农药残留数据集,通过核密度估计方法,对数据集进行异常值检测分析;包括如下步骤:
C1.通过核密度估计方法估计数据的概率密度分布;
C2.使用核函数为标准高斯函数,表示为式1:
式1中,K()是核函数;h是带宽,充当光滑参数;xi是样本;e是自然常数;
C3.设xi,K,xn是随机变量f独立的、同分布的样本,分布密度函数f(x)的核密度估计定义为式2:
式2中,K()是核函数;h是带宽或光滑参数;n是样本个数,xi是样本;
C4.根据式1和式2得出的核密度估计数据构建核密度图,得到核密度图中数据的分布模式;
C5.根据分布模式确定离群点数据的分布。
2.如权利要求1所述的多维交叉分析方法,其特征是,建立基于双重数据立方体的关联存储模型,包括如下步骤:
A1.针对一个数据集datasets_a,首先根据数据集datasets_a分析数据结构,确定数据集层次信息,得出数据子集datasets_a1、datasets_a2;
A2.根据数据子集datasets_a1、datasets_a2,确定数据子集属性信息,构建datasets_a1和datasets_a2数据子集的事实表和维度表;
A3.根据datasets_a1和datasets_a2数据子集事实表和维度表,构建datasets_a1和datasets_a2相对应的数据立方体,然后将datasets_a1数据子集+datasets_a2数据子集结合,构造双重数据立方体关联存储模型。
3.如权利要求1所述的多维交叉分析方法,其特征是,农药残留数据立方体中的事实表包括检测结果事实表和MRL标准事实表;将农药残留数据维度表与农药残留数据事实表建立对应关联关系;检测结果事实表对应的维度表包含农产品维表、农药维表、采样时间维表和采样点地域维表;MRL标准事实表对应的维度表包含农产品维表、农药维表、标准有效时间维表和标准属地维表。
4.如权利要求1所述的多维交叉分析方法,其特征是,农药残留数据立方体可包括多个数据子立方体;数据子立方体为数据立方体的一个子集。
5.如权利要求1所述的多维交叉分析方法,其特征是,异常点检测方法中,根据农药残留数据样例中检出结果值与MRL标准值,计算检出结果数据与MRL标准数据之间的差,通过差值构建核密度估计图。
6.如权利要求5所述的多维交叉分析方法,其特征是,异常点检测方法中,根据核密度估计图将分布模式分为三类:
第一类分布模式:核密度图中只有大于0的值;则全部都是离群点;
第二类分布模式:核密度图中包括大于0的值、等于0的值和小于0的值;其中大于0的点即为离群点,等于0的值和小于0的点为正常点;
第三类分布模式:核密度图中等于0的值和小于0的值的密度较高,而大于0的值的密度为0;则全部为正常点。
7.一种利用权利要求1~6所述的多维交叉分析方法实现的农药残留数据多维交叉分析系统,包括:信息采集模块、数据仓库模块、数据分析模块和报告自动生成模块;
所述信息采集模块用于采集数据,主要包括检测单位上传的检测结果数据和处理的各类标准信息;信息采集模块将检测单位上传的检测结果经处理、融合后存入检测结果数据库;将标准信息处理后存入标准数据库;
所述数据仓库模块包括:检测结果数据库、标准数据库、双重多维数据模型;双重多维数据模型用于构建检测结果数据子集和MRL标准数据子集;
所述数据分析模块包括数据统计与分析、离群点检测;通过数据统计与分析模块进行数据分析,通过离群点检测模块进行数据异常值的检测与分析;
所述报告自动生成模块包括:前端展示和报告自动生成;前端展示通过可视化进行数据展示;报告自动生成模块用于将数据分析模块产生的数据自动生成数据分析报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810217590.1A CN108416047B (zh) | 2018-03-16 | 2018-03-16 | 一种面向农药残留数据的多维交叉分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810217590.1A CN108416047B (zh) | 2018-03-16 | 2018-03-16 | 一种面向农药残留数据的多维交叉分析方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416047A true CN108416047A (zh) | 2018-08-17 |
CN108416047B CN108416047B (zh) | 2020-04-17 |
Family
ID=63131765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810217590.1A Active CN108416047B (zh) | 2018-03-16 | 2018-03-16 | 一种面向农药残留数据的多维交叉分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416047B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222029A (zh) * | 2019-05-09 | 2019-09-10 | 国网上海市电力公司 | 一种大数据多维分析计算效率提升方法及系统 |
CN111667122A (zh) * | 2020-06-16 | 2020-09-15 | 国研软件股份有限公司 | 一种农产品品种农药残留的风险评估方法 |
CN113297333A (zh) * | 2021-03-17 | 2021-08-24 | 无锡极数宝大数据科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100262613A1 (en) * | 2009-04-13 | 2010-10-14 | Hewlett-Packard Development Company, L.P. | Data Stream Processing |
CN102521417A (zh) * | 2011-12-30 | 2012-06-27 | 南京柏梭信息科技有限公司 | 一种基于虚拟数据立方体的多维数据处理方法及其系统 |
CN104091169A (zh) * | 2013-12-12 | 2014-10-08 | 华南理工大学 | 基于多特征融合的行为识别方法 |
CN106021486A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种基于大数据的数据多维分析处理方法 |
-
2018
- 2018-03-16 CN CN201810217590.1A patent/CN108416047B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100262613A1 (en) * | 2009-04-13 | 2010-10-14 | Hewlett-Packard Development Company, L.P. | Data Stream Processing |
CN102521417A (zh) * | 2011-12-30 | 2012-06-27 | 南京柏梭信息科技有限公司 | 一种基于虚拟数据立方体的多维数据处理方法及其系统 |
CN104091169A (zh) * | 2013-12-12 | 2014-10-08 | 华南理工大学 | 基于多特征融合的行为识别方法 |
CN106021486A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种基于大数据的数据多维分析处理方法 |
Non-Patent Citations (1)
Title |
---|
江景勇等: "台州草莓农药残留风险评估", 《江苏农业学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222029A (zh) * | 2019-05-09 | 2019-09-10 | 国网上海市电力公司 | 一种大数据多维分析计算效率提升方法及系统 |
CN111667122A (zh) * | 2020-06-16 | 2020-09-15 | 国研软件股份有限公司 | 一种农产品品种农药残留的风险评估方法 |
CN111667122B (zh) * | 2020-06-16 | 2023-05-26 | 国研软件股份有限公司 | 一种农产品品种农药残留的风险评估方法 |
CN113297333A (zh) * | 2021-03-17 | 2021-08-24 | 无锡极数宝大数据科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108416047B (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107180076B (zh) | 基于高分辨质谱+互联网+地理信息的农药残留可视方法 | |
CN107103571B (zh) | 基于高分辨质谱、互联网和数据科学的农药残留侦测数据平台及侦测报告自动生成方法 | |
CN109345137A (zh) | 一种基于农业大数据的异常值检测方法 | |
CN108416047A (zh) | 一种面向农药残留数据的多维交叉分析方法与系统 | |
Kint et al. | Quantification of forest stand structure applied to Scots pine (Pinus sylvestris L.) forests | |
CN111126865B (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN106227828B (zh) | 一种同构层次数据对比可视分析方法和应用 | |
CN111444774B (zh) | 一种基于无人机航测技术的森林资源监测方法 | |
CN109299199A (zh) | 基于数据仓库的易制毒化学品多维分析系统及实现方法 | |
Zhang et al. | Research hotspots and frontiers in agricultural multispectral technology: Bibliometrics and scientometrics analysis of the Web of Science | |
CN108280191B (zh) | 多地区mrl标准的对比可视分析方法与系统 | |
CN108226395A (zh) | 工业园区大气环境突发性预警阈值确定方法及装置 | |
Rudstrom et al. | Data aggregation issues for crop yield risk analysis | |
Campetella et al. | Coenostate descriptors and spatial dependence in vegetation-derived variables in monitoring forest dynamics and assembly rules | |
CN109344171A (zh) | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 | |
US20090012919A1 (en) | Explaining changes in measures thru data mining | |
Ouazaa et al. | Towards site specific management zones delineation in rotational cropping system: Application of multivariate spatial clustering model based on soil properties | |
CN109255724A (zh) | 一种基于多因子和ahp-e模型的农药残留污染评价方法 | |
Bimonte et al. | From volunteered geographic information to volunteered geographic OLAP: A VGI data quality-based approach | |
Abdullah et al. | The Case for an Agri Data Warehouse: Enabling Analytical Exploration of Integrated Agricultural Data. | |
Hesse et al. | Modeling and presentation of interdependencies between key performance indicators for visual analysis support | |
Forsberg et al. | Distance-based methods for spatial and spatio-temporal surveillance | |
CN110175191A (zh) | 数据分析中的数据过滤规则建模方法 | |
Chandy et al. | Scale dependency of species composition and environmental variables in the strata of a deciduous forest | |
Broz et al. | Review of Data mining applications in forestry sector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |