CN109344194A - 基于子空间聚类的农药残留高维数据可视分析方法与系统 - Google Patents

基于子空间聚类的农药残留高维数据可视分析方法与系统 Download PDF

Info

Publication number
CN109344194A
CN109344194A CN201811099482.5A CN201811099482A CN109344194A CN 109344194 A CN109344194 A CN 109344194A CN 201811099482 A CN201811099482 A CN 201811099482A CN 109344194 A CN109344194 A CN 109344194A
Authority
CN
China
Prior art keywords
subspace
data
dimension
item
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811099482.5A
Other languages
English (en)
Other versions
CN109344194B (zh
Inventor
陈谊
田帅
张梦录
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201811099482.5A priority Critical patent/CN109344194B/zh
Publication of CN109344194A publication Critical patent/CN109344194A/zh
Application granted granted Critical
Publication of CN109344194B publication Critical patent/CN109344194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一种基于子空间聚类的农药残留高维数据可视分析方法与系统,通过预处理农药残留数据、构建农药残留检出矩阵、子空间聚类算法自动寻找候选子空间、通过双层过滤删除无效子空间和双欧式距离合并相似子空间、子空间重排等过程,对农药残留检出数据进行子空间聚类处理,获得农药残留检出高维数据全空间中相关性较强的子空间。另外,本发明对每个子空间数据进行可视化展示,并提供交互式手段进一步探索每个子空间的分布情况,同时通过多视图协同方法探索各个子空间之间的农药残留检出分布情况,从而帮助分析人员更好地分析高维数据中潜在的相关关系,提高分析效率,为决策提供技术手段。

Description

基于子空间聚类的农药残留高维数据可视分析方法与系统
技术领域
本发明涉及高维、关联数据的分析方法,尤其涉及一种基于子空间聚类的农药残留高维数据可视分析方法与系统。
背景技术
农药残留数据反映了农产品、农药、地域、MRL标准之间的关系,对其进行多层次、多角度的全面分析有助于分析人员进行决策,提供参考依据。由于农药残留数据具有多维性等特征,因此传统的统计分析方法和单一的图表方式无法充分的表达其中的含义,在探索农药残留数据之间的相关性、相似性、数据分布模式时,单独的折线图、柱状图等难以做出有效的解释。另一方面,检测结果中农产品涉及150余种,农药涉及500余种,数据量大、相互关联,构成的数据集维度较高,属于高维数据集。为全面、准确地反映信息的特征及其内在规律,往往需要对多个指标进行考虑,如何处理这些高维数据已经成为一个非常重要的问题。
可视分析方法是对高维数据进行分析的有效手段之一。多维数据可视分析方法主要包括图形映射、数据降维和多视图协同设计等。其中,图形映射是将多维数据映射到二维空间中,常用的方法包括散点图矩阵、平行坐标图等,但是这类方法不利于呈现维度过高的情况,随着维度的增加,所需的显示空间迅速增长,且会导致视觉混乱。数据降维是提取主要特征,将高维数据投影到低维空间中进行展示。虽然呈现出了数据的主要特征,但是降维过程中丢失了部分信息。多视图协同设计方法一般会结合图形映射和数据降维方法,通过多种可视化映射方案进行数据展示,然而该类方法在维度较高时会产生视觉混乱的情况,且布局较为复杂。另外,在全空间中直接对高维数据集的维度相关性和数据相关性进行分析是及其困难的,因为维度或数据紧密相关的部分往往分布在多个子空间中。
为此,研究人员提出了一种子空间聚类方法,能够很好的解决高维数据维度较高而导致在全空间中不易探索数据间相关关系等问题。子空间聚类是传统聚类方法的扩展,目的是将来自不同子空间的高维数据聚类到其本质上所属的低维子空间中,寻找在低维空间中拥有密集特征的聚类。通过分析低维空间中数据的密集特征,探索高维数据中隐藏的相关关系等。
通过可视分析方法与子空间聚类方法的相互结合,借助机器的高效率性,以及人的交互分析能力,能够有效地提升分析人员的工作效率,探索高维数据之间的潜在价值。
发明内容
本发明提供一种基于子空间聚类的农药残留高维数据可视分析方法,支持用户通过子空间聚类算法自动寻找子空间的方法进行数据探索,能够高效、便捷地探索数据之间的相关关系,从而为相关分析人员提供决策依据。
本发明的核心是:首先,通过对原始数据进行过滤、合并、统计等预处理操作,生成某省市的农药残留检测结果数据,并将处理后的数据构建农药残留检出矩阵Mpr,在该矩阵中,列属性为农产品名称,即数据集维度,行属性为农药名称,即数据集数据项,矩阵元素为农药残留检出量。然后对构造出来的高维数据矩阵进行子空间搜索,通过子空间聚类算法Carticlus生成原始子空间数据。其中,Carticlus算法是一种基于频繁项集挖掘的子空间聚类算法,主要包括两个参数设置:K近邻值和最小支持度Minsup,该算法通过K近邻值找出每个数据项之间最相似的K个数据项,并组成一个个数据项集合;然后查找出每个数据项在数据项集合中出现的次数,记录为每个数据项的频繁程度,如果该频繁程度大于Minsup,则以该数据项为中心点,在数据项集合中找出包含该数据项的集合,该集合即为找出的子空间;最后循环找出所有符合要求的子空间。该算法生成子空间结果的效率和准确度相对较高,且对于关联性数据集有良好的扩展性。根据生成的原子空间集,对其进行双层过滤,第一层过滤是将无效的子空间删除,第二层过滤是通过双重欧式距离方法合并相似子空间,从而生成一个新的子空间集。另外,为了方便分析人员观察数据分布,本发明计算每个子空间维度dim和数据项item的比例值Q(dim,item),Q(dim,item)表示某个子空间的关注度,如果Q(dim,item)越小,则该子空间具有较高的关注度,说明较少的维度表示更多的数据项或者较多的维度表示更少的数据项,反之则表明该子空间关注度较低。然后根据Q(dim,item)对子空间进行重新排布,Q(dim,item)值小的子空间数据将排在靠前的位置。最后,将处理后的子空间数据通过平行坐标的可视化布局形式进行展示,并能够进行交互式操作(刷取、筛选和缩放)以及相关辅助视图(双矩阵热力图)分析农药与农药、农产品与农产品、农药与农产品之间的相关关系,更进一步通过多视图协同方式对比分析子空间之间农产品和农药的分布情况,探索子空间之间的相似性。
本发明提供的技术方案是:
一种基于子空间聚类的农药残留高维数据可视分析方法,构建农药残留检出矩阵Mpr,针对农药残留数据进行子空间聚类方法处理,对农产品之间、农药之间和农产品-农药之间进行相关性分析,并使用多视图协同方法对子空间之间进行对比分析。具体包括如下步骤:
A.针对农药残留数据构建农药残留检出矩阵Mpr
根据实际需要,本发明主要选取农药残留模拟检测结果数据中农产品集合、农药集合及检测结果集合。因此本发明在对数据进行预处理时,将构建农药残留检出矩阵Mpr
其中,农产品集合作为维度,农药集合作为数据项,即农药残留检出矩阵Mpr中,每一行代表一种农药,每一列代表一种农产品。农药残留检出矩阵Mpr中每一个元素表示某个农产品在某个农药中检出含量的大小,即检出量,检出量的单位是mg/kg。另外,本发明构造的农产品-农药矩阵(即农药残留检出矩阵)是以省市为前提,因此构造的数据矩阵表示各个省市的农产品信息、农药信息和检测结果信息。
B.针对农药残留子空间集进行过滤处理;
本发明使用子空间聚类方法Carticlus生成原子空间集,但是生成的子空间集可能存在无效或者冗余数据。因此,需要对原子空间集进行双层过滤处理。
第一层过滤主要是将无效子空间数据去掉。根据Carticlus方法产生的子空间数据格式,如:(010101……011111)n,其中n表示维度数量,0表示不相关维度标识,1表示相关维度标识。本发明采用子空间维度极差P(l,k)和子空间维度之和Y(n,k)对子空间数据进行处理,其中P(l,k)表示子空间维度标识值之间最大值与最小值的差值,Y(n,k)表示子空间所有维度标识值之和。通过判断P(l,k)的值是否为0,可以判断子空间数据是否全为0或全为1,即(000000……000000)n和(111111……111111)n。如果P(l,k)=0,则该子空间删除,否则保留该子空间。通过判断Y(n,k)的值,可以得出子空间数据维度之和的值,本发明设定每个子空间最少应该包含两个维度的信息,因此设定Y(n,k)阈值为2,即Y(n,k)≥2。如果Y(n,k)≥2该子空间保留,否则删除该子空间数据。
第二层过滤主要是将相似子空间进行合并。本发明使用双欧式距离计算各个子空间之间的相似性,即对各个子空间的维度和数据项同时进行欧氏距离计算。然后根据子空间相似性过滤规则选择需要合并和保留的子空间。
C.对农药残留子空间集排列顺序进行重排;
本发明在B处理后的基础上,首先对每个子空间进行维度和数据项进行统计。然后将维度与数据项的个数做除法操作,得出一个比例值Q(dim,item),该比例值Q(dim,item)表示在该子空间维度中包含相关性较高数据的比例大小,如果值越小,说明该子空间具有较高的关注度,能够使用较少的维度表示更多的相关性强的数据项或者较多的维度表示更少的数据项,反之则该子空间具有较低的关注度。最后,比较每个子空间之间该比例值Q(dim,item)的大小,将比例值Q(dim,item)小的子空间排在前面,其他子空间以此类推,从而方便分析人员观察数据分布。
D.通过平行坐标进行每个子空间的结果可视化展示,并使用可视化交互方式(轴交换、刷取等)进一步探索每个子空间中数据的隐藏模式,以及使用多视图协同的方法进行子空间之间的对比分析,发现各个子空间之间的相似性,为农产品共同施药提供依据。
其中,步骤A所述操作包括的步骤具体为:
A1.根据用户选择的省市进行相应农产品dj和农药ri的查询;
A2.查询出相应省市的农产品中农药的检出结果情况,即检出值xij
A3.将农产品数据作为矩阵的列,即列为d1…dj…dn,农药数据作为矩阵的行,即行为r1…ri…rm
A4.行和列的对应关系为r1和d1对应x11,同理ri和dj对应xij,因此在构造的农药残留检出矩阵中添加检出值xij,最终形成农药残留检出矩阵Mpr
进一步地,步骤B所述操作包括的处理步骤具体为:
B1.首先,根据子空间聚类算法Carticlus生成原子空间集,定义原子空间集为S1,下标“1”表示第一个子空间集合,即原子空间集。以此类推,S2为第二个子空间集,S3为第三个子空间集,S4为第四个子空间集等等。;
B2.对生成的S1处理进行第一层的过滤处理,处理S1列表中的每个子空间。根据公式(1)求出第k个子空间的极差P(l,k),定义P(l,k)表示子空间维度标识值之间最大值与最小值的差值。如果P(l,k)的值等于0,则将第k个子空间从S1中删除;反之,P(l,k)不等于0,则保留第k个子空间。然后迭代计算所有子空间,直至没有需要处理的子空间,从而进行B3
其中,l表示某个子空间中第l个维度,取值范围是1~数据维度个数;k表示第k个子空间;表示第k个子空间中第l个维度的标识值。
B3.进行第二层过滤操作,根据公式2判断Y(n,k)的大小。定义Y(n,k)为子空间维度标识值之和:某个子空间中维度标识之和,值的大小表示该子空间包含多少个农产品维度。
其中,n表示总的农产品维度个数;k表示第k个子空间;l表示数据维度索引,即表示某个子空间中第l个维度;表示第k个子空间中第l个维度的标识值,其值为0或1。为了能够展示数据之间的相关性,本发明将阈值设为2,即Y(n,k)的值与2进行比较。如果Y(n,k)<2,则将该子空间从S1中删除,反之,Y(n,k)≥2,则该子空间保留在S1中。然后迭代计算所有子空间,直至没有需要处理的子空间,从而进行B4
B4.根据B2和B3更新S1,生成新的子空间集S2
B5.合并相似子空间,本发明通过双欧式距离D(x,y),分别对子空间数据项和子空间维度进行计算,根据公式3求解两个不同子空间之间的距离,如果计算得出两个子空间之间维度和数据项的距离值都小于阈值(本发明阈值设为2),则认为两个子空间之间相似性较高,反之则相似性较低。子空间相似性过滤方法包括:1)子空间维度和数据项都相似,则合并两个子空间;2)其他情况,即子空间维度相似,数据项不相似;子空间维度不相似,数据项相似;子空间维度和数据项都不相似,则两个子空间都保留。
其中,xdimension和ydimension分别表示两个不同子空间的第dimension个维度的值;xdata和ydata分别表示两个不同子空间的第data个数据项的值;dimension表示第dimension个维度;data表示第data个数据项;n表示总的农产品维度个数。然后迭代计算所有子空间,直至没有需要处理的子空间,从而进行B6
B6.生成新子空间集S3
B7.结束子空间数据过滤处理流程。
步骤C所述操作包括的步骤具体为:
C1.获取新子空间集S3结果数据;
C2.计算S3中每个子空间的维度个数dim和数据项个数item;
C3.计算S3中每个子空间的维度个数与数据项个数的比值,即Q(dim,item),如公式4所示:
其中,dim表示某个子空间包含的维度个数,item表示某个子空间包含的数据项个数。根据dim/item比值,如果dim/item值小于等于1,则Q(dim,item)=dim/item;反之,dim/item值大于1,则Q(dim,item)=item/dim。因此,Q(dim,item)的取值范围是0~1。Q(dim,item)值越小,表明该子空间具有较高的关注度,说明较少的维度表示更多的数据项或者较多的维度表示更少的数据项,反之则表明该子空间关注度较低;
C4.最后,比较每个子空间之间Q(dim,item)的大小,将Q(dim,item)小的子空间排在前面,其他子空间以此类推;
C5.结束子空间重排操作,生成新子空间集S4
本发明利用上述子空间聚类分析方法,提供一种基于子空间聚类的农药残留高维数据可视分析系统,具体如下:
所述基于子空间的农药残留高维数据可视分析系统PRHDVAS(Pesticide Residuehigh-dimensional Visual Analysis System),主要有一个参数控制面板和4个协同交互的可视化视图组成。4个可视化视图分别为:子空间聚类平行坐标图、子空间聚类散点图矩阵、柱状图、双矩阵热力图。参数面板主要包括数据集、地域、是否选择子空间聚类、K近邻的值、最小支持度、开始按钮和重置按钮。本发明数据集为农药残留数据;地域主要包含中国的各个省和直辖市;子空间聚类主要是两个选项,一个是选择子空间聚类方法,一个是不选择子空间聚类方法;K近邻值主要针对使用子空间聚类方法而言,表示子空间聚类时最相似数据(即特征空间中最邻近)的个数,对于K近邻值的设置,针对本发明数据集,一般情况下设置为小于数据维度的一个整数;最小支持度Minsup是用户设置的数据项频繁程度(即数据项出现的次数)阈值,如果子空间聚类方法生成的数据项频繁程度大于此阈值,则认为此数据项属于频繁项集,即可以作为子空间集中一个子空间的中心点,然后找出与此中心点有交集的其他数据项(即上述最相似的K个数据),从而构成一个子空间。对于最小支持度值的设置,针对本发明数据集一般设置为K近邻值的10倍。当参数选择完成后,点击开始按钮系统开始数据处理操作,然后生成结果。而重置按钮则可以将选择的参数重置为初始状态。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于子空间聚类的农药残留高维数据可视分析方法与系统,通过预处理农药残留数据、构建农药残留检出矩阵、子空间聚类算法自动寻找候选子空间、双层过滤(删除无效子空间和双欧式距离合并相似子空间)、子空间重排等过程,对农药残留检出数据进行子空间聚类处理,获得农药残留检出高维数据全空间中相关性较强的子空间。另外,本发明对每个子空间数据进行可视化展示,并提供交互式手段进一步探索每个子空间的分布情况,同时通过多视图协同方法探索各个子空间之间的农药残留检出分布情况,从而帮助分析人员更好地分析高维数据中潜在的相关关系。
上述基于子空间聚类的农药残留高维数据可视分析方法与系统,能够帮助用户自动查找出有意义的子空间集;并根据双欧式距离方法,分别处理维度和数据项,自动合并相似度较高的子空间,减少冗余情况;通过子空间重排方法,将需要重点关注的子空间优先展现给用户,方便用户快速查看数据整体分布情况及子空间数据分布情况,并将数据以可视化的方式展现给用户,提供交互式操作,方便分析人员进一步探索与分析,从而提高分析效率;通过多视图协同方法对比分析每个子空间,找出子空间之间包含农产品和农药的占比和分布情况,帮助分析人员探索农产品中农药施用情况,从而制定共同施药或农药替代等决策方案。
附图说明
图1为本发明实施例中农产品中农药残留检出矩阵Mpr
图2为本发明实施例中基于子空间聚类的高维数据分析方法的流程框图。
图3为本发明实施例中PRHDVAS系统的设计流程框图。
图4为本发明实施例中各个子空间集的演变过程示意图;
其中,原子空间集S1中包括子空间S11~S19;子空间S2中包括子空间S23、S24、S26、S27、S28、S29;子空间S3中包括子空间S33、S34、S36、S37、S39;子空间S4中包括子空间S43、S49、S44、S46、S47
图5为本发明实施例中某个子空间农产品中农药检出量分布情况的视图截图。
图6为本发明实施例中某两个子空间之间检出农产品和农药的相同个数示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明设计了一种基于子空间聚类的高维数据可视分析方法及系统,全面地分析数据,为农药残留的科学管理与使用,提供快速便捷的分析。
本发明提出的基于子空间聚类的高维数据可视分析方法结合农药残留数据分析系统,更好地实现了从高维数据中快速找出相关数据和维度并发现其分布模式,为相关人员提供相关关系分析决策提供了依据。农产品-农药数据矩阵和子空间聚类方法的结合,更好地解决了高维数据带来的维度问题,并通过子空间过滤、合并、重排处理方法,更好地展现相关维度和数据,帮助分析人员快速发现农产品和农药之间关系。
本发明具体实施时,设计如图1所示的农产品中农药检出量矩阵Mpr,其中列d1…dj…dn表示农产品名称,作为维度;行r1…ri…rm表示农药名称,作为数据项;矩阵中的xij是某种农产品中检出某种农药的含量,即检出量,单位是mg/kg。
图2为本发明高维数据处理流程。首先,输入高维数据,并使用子空间搜索算法找到有意义的候选子空间,其中子空间搜索算法本发明使用Carticlus算法来处理高维数据,从而生成原子空间集S1。然后对生成的S1进行第一层过滤处理,将无效的子空间过滤掉,生成子空间集S2。子空间集中可能存在相似子空间,因此使用双欧式距离对S2进行相似子空间合并处理,生成子空间集S3。另外,为了突出更具代表性的子空间,对S3进行子空间重排处理,重要的子空间排在前面,其他子空间以此类推,生成新子空间集S4。最后,通过可视化方式进行数据展示,并提供交互操作功能。
表1所示为子空间相似性过滤方法。过滤方法中主要考虑子空间维度和子空间数据项两个方面,因此包括四个判断标准:1)子空间维度和数据项都相似,则合并两个子空间;2)其他情况,即子空间维度相似,数据项不相似;子空间维度不相似,数据项相似;子空间维度和数据项都不相似,则两个子空间都保留。
表1子空间相似性过滤方法
子空间维度相似 子空间维度不相似
子空间数据项相似 合并子空间 保留子空间
子空间数据项不相似 保留子空间 保留子空间
本实施例中,图3所示为本发明PRHDVAS系统设计流程。首先,针对农药残留数据进行存储整合,存入农药残留数据库。农药残留数据包含农产品集、农药集、地域集、农药残留检出结果集等。然后,对数据进行清洗过滤,从而选择某个省市构建农药残留检出矩阵Mpr,对构建的Mpr进行数据分析。数据分析过程中,先通过子空间聚类生成候选子空间集,再根据子空间极差P(l,k)和子空间维度之和Y(n,k)进行第一层过滤,过滤掉无效子空间。第二层过滤通过双欧式距离方法,对子空间维度和数据项同时进行相似性计算,并合并相似子空间。子空间集过滤处理完成后,使用Q(dim,item)对子空间进行重排。最后,对子空间结果数据进行可视化编码,并在前端进行展示,进而帮助分析人员进行任务地决策。
图5为本发明子空间7农产品圣女果中农药检出量与其他农产品对比平行坐标,为了发现子空间7中相关维度之间农药的分布情况,通过刷取矩形框中的农药数据,即刷取圣女果维度。
图6为本发明子空间3和子空间4之间相同维度和相同数据柱状图,展示了子空间3和子空间4之间相同维度(农产品)和相同数据(农药)的数量,先从最直观的数据量上对比两个子空间之间的差异性。
以下为实施例的具体分析过程:
A.构建农药残留检出矩阵Mpr
A1.本发明地域选择甘肃省,查询出甘肃省检出的农产品信息和农药信息,其中,农药数据为56条,ri=56,农产品数据维度为25,dj=25;
A2.查询出甘肃省市中所有农产品中农药的检出量xij
A3.矩阵中将农产品作为列,农药作为行;
A4.将查出的检出量xij写入农药残留检出矩阵Mpr,构造出来一个56*25的数据矩阵,Mpr构造完毕。
B.对农药残留子空间数据进行过滤处理;
B1.使用子空间聚类算法Carticlus处理甘肃省的农药残留检出矩阵Mpr,其中K近邻值设置为20,最小支持度Minsup设置为200。生成数据原子空间集S1,其中S1包含9个子空间。另外,各个子空间集演变过程如图4所示,具体过程如下;
B2.将原子空间集S1中第一个子空间设为S11,其他子空间类推,同时将S11的数据和维度作为输入,然后根据公式(1)求出P(l,1)的值;
系统进行第一层过滤处理,即无效子空间判断,首先判断P(l,1)是否等于0,根据公式(1)得出S11对应的结果是P(l,1)=0(i=1,2,…,25),因此将子空间S11从S1列表中删除。同理判断子空间S12的结果,得出P(l,2)≠0,因此将子空间S12保留在S1列表中,其他子空间以此类推;对S1进行迭代循环操作,得出P(l,3)≠0,P(l,4)≠0,P(l,5)=0,P(l,6)≠0,P(l,7)≠0,P(l,8)≠0,P(l,9)≠0,最后得出S2=(S22,S23,S24,S26,S27,S28,S29);
B3.获取子空间集S2,并使用公式(2)所述Y(n,k)计算每个子空间。其中子空间S22的Y(25,2)=1<2,所以子空间S22从S2列表中删除。同理,计算子空间S23的Y(n,k),由于Y(25,3)=7>2,所以子空间S23保留在S2列表中,其他子空间以此类推;
B4.对S2进行迭代循环操作,Y(25,4)=8>2,Y(25,6)=9>2,Y(25,7)=10>2,Y(25,8)=6>2,Y(25,9)=7>2,最后更新S2得出S2=(S23,S24,S26,S27,S28,S29);
B5.获取子空间集S2,并对S2进行迭代循环操作,使用公式(3)所述的欧氏距离,进行双欧式距离求子空间之间的相似性,其中S23与S24的维度数据项S23与S26的维度数据项S23与S27的维度数据项 S23与S28的维度D(x,y)=1,数据项S23与S29的维度数据项 由于S23与S28的维度D(x,y)和数据项D(x,y)的值都比较小,说明S23和S28两个子空间比较相似,因此S23和S28两者合并为一个S23子空间;
B6.更新S2,最后得出S3=(S33,S34,S36,S37,S39);
B7.结束子空间数据过滤处理流程。
C.对农药残留子空间排列顺序进行重排;
C1.获取子空间集S3的结果数据;
C2.计算每个子空间的维度个数dim和数据项个数item;
C3.通过公式(4)所述Q(dim,item)对S3中每个子空间进行计算,其中S33的Q(12,7)=7/12,S34的Q(8,10)=8/10,S36的Q(11,9)=9/11,S37的Q(10,10)=10/10,S39的Q(7,10)=7/10;
C4.比较每个子空间之间Q(dim,item)的大小,将Q(dim,item)小的子空间排在前面,其他子空间以此类推;
C5.从而得出新的重排子空间集S4=(S43,S49,S44,S46,S47)。D.数据处理完后,得到如图5所示的结果图,在农产品圣女果维度中检出农药较多,在其他农产品维度中出现的情况比较分散,但是农产品黄瓜、梨和葡萄维度的分布情况与农产品圣女果比较相似。通过轴变换操作,将圣女果和其他三种农产品放在相邻位置,两者的维度值范围不一样,因此数据走势可能呈现出不同状态,但是相互之间的关系呈现相关性,即该子空间中这四个农产品维度之间存在共同施用农药或者乱施药的概率较大;
比较两个子空间之间的差异性,如图6所示,子空间3和子空间4之间相同维度共有2个,相同数据共有5个,可以看出两个子空间中相同维度较少;
整体上把握两个子空间之间的关系,通过双矩阵热力图进行分析得出,两个子空间农产品中农药检出情况都比较分散,检出值为0的数据较多,说明两个子空间农产品中农药检出情况处于良好状态。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于子空间聚类的农药残留高维数据可视分析方法,通过构建农药残留检出矩阵Mpr,针对农药残留数据进行子空间聚类,对农产品、农药进行相关性分析,并使用多视图协同方法对子空间之间进行对比分析;具体包括如下步骤:
A.针对农药残留数据构建农药残留检出矩阵,记作Mpr
农药残留数据包括农产品数据集合、农药数据集合及检测结果数据集合;
农产品数据集合作为维度,农药数据集合作为数据项;
矩阵中的每一行代表一种农药;每一列代表一种农产品;每一个元素表示某个农产品在某个农药中检出含量的大小,即农药检出量;
由此构造的农产品-农药矩阵即为Mpr;通过Mpr表示区域的农产品信息、农药信息和检测结果信息;
B.针对农药残留子空间集进行过滤处理;执行如下操作:
使用子空间聚类方法Carticlus生成原子空间集;对原子空间集进行双层过滤处理;其中,通过第一层过滤将无效子空间数据去掉;通过第二层过滤将相似子空间进行合并;
C.对农药残留子空间集排列顺序进行重排;执行如下操作:
首先对每个子空间进行维度和数据项进行统计;
然后将维度与数据项的个数进行除法操作,得出比例值Q(dim,item),该比例值Q(dim,item)表示在该子空间维度中包含相关性较高数据的比例大小;
最后,比较每个子空间的比例值Q(dim,item)的大小;将所有子空间按照比例值Q(dim,item)的大小顺序进行排列;
D.通过平行坐标对每个子空间的结果进行可视化展示,使得可通过可视化交互方式进一步获取每个子空间中数据的隐藏模式,通过多视图协同的方法进行子空间之间的对比分析。
2.如权利要求1所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,步骤A中,农药检出量的单位采用mg/kg;构建Mpr具体包括如下步骤:
A1.根据用户选择的区域,查询得到农产品dj和相应的农药ri
A2.查询得到区域农产品中农药检出值xij
A3.将农产品数据作为矩阵的列,即列为d1…dj…dn,农药数据作为矩阵的行,即行为r1…ri…rm
A4.行和列的对应关系为r1和d1对应x11,同理ri和dj对应xij;在构造矩阵中添加检出值xij,形成农药残留检出矩阵Mpr
3.如权利要求1所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,步骤B中,所述第一层过滤将无效子空间数据去掉,具体执行如下操作:
根据子空间聚类Carticlus方法产生的子空间数据格式,采用子空间维度极差P(l,k)和子空间维度之和Y(n,k)对子空间数据进行处理,其中P(l,k)表示子空间维度标识值之间最大值与最小值的差值,Y(n,k)表示子空间所有维度标识值之和;n表示维度数量;
通过判断P(l,k)的值是否为0,识别得到子空间数据是否全为0或全为1;0表示不相关维度标识,1表示相关维度标识;如果P(l,k)=0,则删除该子空间,否则保留该子空间;
通过判断Y(n,k)的值,得出子空间数据维度之和的值;设定Y(n,k)阈值;当Y(n,k)的值大于等于Y(n,k)阈值时保留该子空间,否则删除该子空间数据。
4.如权利要求3所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,具体通过式1表示子空间的极差P(l,k):
其中,k表示第k个子空间;表示第k个子空间中第l个维度的标识值;l表示子空间中第l个维度;
具体通过式2表示子空间中农产品维度之和Y(n,k):
其中,n表示总的农产品维度个数;k表示第k个子空间;l表示数据维度;表示第k个子空间中第l个维度的标识值,其值为0或1。
5.如权利要求3所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,设置Y(n,k)阈值为2。
6.如权利要求1所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,步骤B第二层过滤将相似子空间进行合并,具体执行如下操作:
通过双欧式距离D(x,y)分别对子空间数据项和子空间维度进行计算,根据式3求解n维空间中两个点之间的真实距离,从而判断子空间之间的相似性:
其中,xdimension和ydimension分别表示两个不同子空间的第dimension个维度的值;xdata和ydata分别表示两个不同子空间的第data个数据项的值;dimension表示第dimension个维度;data表示第data个数据项;n表示总的农产品维度个数;
当子空间维度和数据项都相似时,合并两个子空间,生成新子空间集。
7.如权利要求1所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,步骤C具体包括如下步骤:
C1.获取新子空间集结果数据;
C2.计算每个子空间的维度个数dim和数据项个数item;
C3.通过式4计算得到每个子空间的维度个数与数据项个数的比值Q(dim,item):
Q(dim,item)的取值范围为0~1;Q(dim,item)值越小,表明该子空间具有的关注度越高;
C4.最后,比较每个子空间之间Q(dim,item)的大小,将Q(dim,item)小的子空间排在前面;
C5.将所有子空间按照比例值Q(dim,item)由小到大进行排列;更新子空间集,生成新子空间集。
8.如权利要求1所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,利用该方法实现基于子空间聚类的农药残留高维数据可视分析系统,包括一个参数控制面板和四个协同交互的可视化视图,可视化视图分别为:子空间聚类平行坐标图、子空间聚类散点图矩阵、柱状图、双矩阵热力图;参数控制面板用于选择或操作数据集、地域、是否选择子空间聚类、K近邻值、最小支持度、开始按钮和重置按钮。
9.如权利要求8所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,所述数据集为农药残留数据;地域包括多个省或市;
K近邻值操作针对使用子空间聚类方法,设置空间聚类时最相似数据的个数为K近邻值;
最小支持度操作用于设置数据项出现次数的阈值;当子空间聚类方法生成的数据项频繁程度大于设置的阈值时,此数据项属于频繁项集;将此数据项作为子空间集中一个子空间的中心点,找出与此中心点有交集的其他数据项为最相似的K个数据,从而构成一个子空间。
10.如权利要求9所述基于子空间聚类的农药残留高维数据可视分析方法,其特征是,将最小支持度值设置为K近邻值的10倍。
CN201811099482.5A 2018-09-20 2018-09-20 基于子空间聚类的农药残留高维数据可视分析方法与系统 Active CN109344194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811099482.5A CN109344194B (zh) 2018-09-20 2018-09-20 基于子空间聚类的农药残留高维数据可视分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811099482.5A CN109344194B (zh) 2018-09-20 2018-09-20 基于子空间聚类的农药残留高维数据可视分析方法与系统

Publications (2)

Publication Number Publication Date
CN109344194A true CN109344194A (zh) 2019-02-15
CN109344194B CN109344194B (zh) 2021-09-28

Family

ID=65306128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811099482.5A Active CN109344194B (zh) 2018-09-20 2018-09-20 基于子空间聚类的农药残留高维数据可视分析方法与系统

Country Status (1)

Country Link
CN (1) CN109344194B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008279A (zh) * 2019-03-27 2019-07-12 北京工商大学 一种基于“关系-权值”有序矩阵的可视分析方法与应用
CN111950651A (zh) * 2020-08-21 2020-11-17 中国科学院计算机网络信息中心 高维数据处理方法及装置
CN113159098A (zh) * 2021-02-08 2021-07-23 北京工商大学 基于密度一致性和相关性的营养食品聚类方法
CN117787510A (zh) * 2024-02-28 2024-03-29 青岛小蜂生物科技有限公司 基于时序预测分析的农药残留监测过程的优化方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system
WO2013020058A1 (en) * 2011-08-04 2013-02-07 Georgetown University Systems medicine platform for personalized oncology
CN105160352A (zh) * 2015-08-18 2015-12-16 中南大学 一种基于维度重构的高维数据子空间聚类投影效果优化方法
US20170051302A1 (en) * 2015-08-18 2017-02-23 Monsanto Technology Llc Methods for Producing Cotton Plants with Enhanced Drought Tolerance and Compositions Thereof
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN106920044A (zh) * 2017-03-07 2017-07-04 北京工商大学 基于模糊综合评价模型的农药残留风险评估方法
CN107562948A (zh) * 2017-09-26 2018-01-09 莫毓昌 一种基于距离的无参数多维数据聚类方法
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN108363797A (zh) * 2018-01-04 2018-08-03 北京工商大学 一种基于变换的关联图可视分析方法及其系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
US20020129038A1 (en) * 2000-12-18 2002-09-12 Cunningham Scott Woodroofe Gaussian mixture models in a data mining system
WO2013020058A1 (en) * 2011-08-04 2013-02-07 Georgetown University Systems medicine platform for personalized oncology
CN105160352A (zh) * 2015-08-18 2015-12-16 中南大学 一种基于维度重构的高维数据子空间聚类投影效果优化方法
US20170051302A1 (en) * 2015-08-18 2017-02-23 Monsanto Technology Llc Methods for Producing Cotton Plants with Enhanced Drought Tolerance and Compositions Thereof
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN106920044A (zh) * 2017-03-07 2017-07-04 北京工商大学 基于模糊综合评价模型的农药残留风险评估方法
CN107562948A (zh) * 2017-09-26 2018-01-09 莫毓昌 一种基于距离的无参数多维数据聚类方法
CN108021664A (zh) * 2017-12-04 2018-05-11 北京工商大学 一种基于维度投影的多维数据相关性可视分析方法及系统
CN108363797A (zh) * 2018-01-04 2018-08-03 北京工商大学 一种基于变换的关联图可视分析方法及其系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BRIAN QUANZ等: "Knowledge Transfer with Low-Quality Data: A Feature Extraction Issue", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
JIAZHIXIA等: "Visual subspace clustering based on dimension relevance", 《JOURNAL OF VISUAL LANGUAGES & COMPUTING》 *
田帅等: "基于子空间聚类的高维数据可视分析方法综述", 《计算机工程与应用》 *
陈谊等: "一种基于维度投影的多维数据相关性可视分析方法", 《计算机辅助设计与图形学学报》 *
陈谊等: "食品安全大数据可视分析方法研究", 《计算机辅助设计与图形学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008279A (zh) * 2019-03-27 2019-07-12 北京工商大学 一种基于“关系-权值”有序矩阵的可视分析方法与应用
CN110008279B (zh) * 2019-03-27 2021-03-23 北京工商大学 一种基于“关系-权值”有序矩阵的可视分析方法与应用
CN111950651A (zh) * 2020-08-21 2020-11-17 中国科学院计算机网络信息中心 高维数据处理方法及装置
CN111950651B (zh) * 2020-08-21 2024-02-09 中国科学院计算机网络信息中心 高维数据处理方法及装置
CN113159098A (zh) * 2021-02-08 2021-07-23 北京工商大学 基于密度一致性和相关性的营养食品聚类方法
CN113159098B (zh) * 2021-02-08 2024-03-29 北京工商大学 基于密度一致性和相关性的营养食品聚类方法
CN117787510A (zh) * 2024-02-28 2024-03-29 青岛小蜂生物科技有限公司 基于时序预测分析的农药残留监测过程的优化方法
CN117787510B (zh) * 2024-02-28 2024-05-03 青岛小蜂生物科技有限公司 基于时序预测分析的农药残留监测过程的优化方法

Also Published As

Publication number Publication date
CN109344194B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN109344194A (zh) 基于子空间聚类的农药残留高维数据可视分析方法与系统
Kriegel et al. Future trends in data mining
CN106372194B (zh) 一种呈现搜索结果的方法和系统
Forey et al. Taxonomy and fossils: a critical appraisal
CN108140025A (zh) 用于图形生成的结果分析
Nobre et al. Juniper: A tree+ table approach to multivariate graph visualization
Nobre et al. Lineage: Visualizing multivariate clinical data in genealogy graphs
US20040181519A1 (en) Method for generating multidimensional summary reports from multidimensional summary reports from multidimensional data
JP2006526840A5 (zh)
de Toledo et al. A scientometric review of global research on sustainability and project management dataset
JP2003216298A (ja) データ分析システムおよびデータ分析方法
Hossain et al. Scatter/gather clustering: Flexibly incorporating user feedback to steer clustering results
Leung et al. FIsViz: a frequent itemset visualizer
WO2017044958A1 (en) Network representation for evolution of clusters and groups
CA2360589A1 (en) Programs and methods for the display, analysis and manipulation of multi-dimension data implemented on a computer
Cvek et al. Multidimensional visualization tools for analysis of expression data
US20060287831A1 (en) Method for visualizing data on correlation between biological events, analysis method, and database
Liu et al. Visualization support to better comprehend and improve decision tree classification modelling process: a survey and appraisal
Alyobi et al. A Visualization Framework for Post-Processing of Association Rule Mining
Wang et al. A layout-based classification method for visualizing time-varying graphs
Almodaifer et al. Discovering medical association rules from medical datasets
Gallego et al. Rdf visualization using a three-dimensional adjacency matrix
New et al. Dynamic visualization of coexpression in systems genetics data
CN104239387B (zh) 查询处理系统以及查询处理方法
Lin et al. An effective approach on overlapping structures discovery for co-clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant