CN102495919B - 一种生态系统碳交换影响因素提取方法及系统 - Google Patents

一种生态系统碳交换影响因素提取方法及系统 Download PDF

Info

Publication number
CN102495919B
CN102495919B CN 201110367896 CN201110367896A CN102495919B CN 102495919 B CN102495919 B CN 102495919B CN 201110367896 CN201110367896 CN 201110367896 CN 201110367896 A CN201110367896 A CN 201110367896A CN 102495919 B CN102495919 B CN 102495919B
Authority
CN
China
Prior art keywords
attribute
data
carbon flux
yojan
carbon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110367896
Other languages
English (en)
Other versions
CN102495919A (zh
Inventor
薛月菊
陈汉鸣
王楷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN 201110367896 priority Critical patent/CN102495919B/zh
Publication of CN102495919A publication Critical patent/CN102495919A/zh
Application granted granted Critical
Publication of CN102495919B publication Critical patent/CN102495919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种生态系统碳交换影响因素提取方法及系统,本发明提取方法包括以下步骤:1)从碳通量数据观测站中获取碳通量样本的属性数据;2)输入由步骤1)获得的碳通量样本的属性数据,通过提出的混合蛙跳的模糊粗糙集约简算法或基于重要度的快速模糊粗糙集约简算法,选取最佳组合,找出与碳通量关系最密切的环境因子集;3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率。本发明提供的提取系统包括数据导入模块、因素提取模块、输入模块、评价模块。本发明能够有效缩小研究生态环境中与碳通量相关因子的范围,提高研究效率和发现环境因子间的内在规律。

Description

一种生态系统碳交换影响因素提取方法及系统
技术领域
本发明涉及数据挖掘及模糊粗糙集技术领域,尤其涉及一种生态系统碳交换影响因素提取方法及系统。
背景技术
对大气二氧化碳的研究关系到人类可持续发展和对生态系统间规律的认识,目前国内外通过在各生态系统设立观测站、建立碳塔来获取碳通量数据。然而,由于碳塔造价不菲、容易受到环境和仪器故障等影响不能够得广泛推广。并且,只有从碳通量观测站数据和遥感数据中,挖掘各环境和气象等因素与碳通量的关系,才有可能利用遥感图像和地面气象站等数据,研究区域的乃至全球的碳通量的时空模式。在数据分析上,国内外大多依靠统计学方法对生态学家认为重要的环境因子进行回归分析或统计分析,其缺陷是依靠经验对个别属性进行分析,缺乏全面性和容易忽视重要规律;虽然,近年来,已经有一些学者通过人工智能方法对碳通量的规律及模式进行研究,但侧重在对碳通量进行预测上,并未从影响碳通量环境因子的角度对其进行深入分析,其结果是导致预测模型复杂,且难以发现内在规律;另外,无法对不同生态系统的碳通量属性数据进行统一分析,发现各自的异同点也是现阶段存在的不足。
发明内容
本发明的目的在于提供一种能缩小研究与碳通量相关的生态因子范围,降低分析难度,降低预测模型复杂度的生态系统碳交换影响因素提取方法。
本发明的另一目的在于提供一种方便实用的生态系统碳交换影响因素提取方法所用的系统。
为解决上述问题,本发明提出了一种生态系统碳交换影响因素提取方法,其包括以下步骤:
1)从碳通量数据观测站中获取碳通量样本的属性数据;
2)输入由步骤1)获得的碳通量样本的属性数据,确定属性数据的隶属函数并计算各个属性隶属度,提取环境因子集重要度,获得与碳通量相关的环境因子集;
3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率。
所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据。
所述步骤2)具体包括以下步骤:
21)根据获取的碳通量数据样本的属性数据,对碳通量数据样本进行数据预处理;
22)设置相关系数阈值,相关系数阈值范围为[0.9,0.95];
23)分别计算各个属性间相关系数值;将计算后的各个属性间的相关系数值与步骤22)设置的相关系数阈值进行比较判定,如果属性间相关系数值大于相关系数阈值时,则将该环境因子剔除,小于相关系数阈值时则保留该环境因子,获得环境因子集;
24)将步骤23)保留获得的环境因子集通过隶属度函数进行映射,求出各属性数据的模糊上近似集、模糊下近似集和模糊粗糙集正域值,通过模糊粗糙集正域计算出条件属性子集对决策属性重要度;
25)通过一种提出的基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法,对属性进行组合,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出保留的环境因子。
所述步骤25)的基于混合蛙跳算法的模糊粗糙集约简优化算法,该方法是结合了基于模因进化的模因演算法和基于群体行为的粒子群算法两种种群智能优化算法的优点,仿照青蛙觅食跳跃过程,通过种群青蛙的跳跃找到食物较多的地方,该算法具有概念简单,调整的参数少,计算速度快,全局搜索寻优能力强,易于实现的特点。具体实现所属步骤如下:
2511)随机初始化种群,每个青蛙表示一个不同条件属性子集,并对个体按适应值由大到小排序;
2512)通过青蛙子群中最好个体和最差个体的运算获得新个体,计算新个体的属性个数                                                和模糊粗糙集重要度
Figure 386940DEST_PATH_IMAGE002
,从而获得目标函数的适应度
Figure 166677DEST_PATH_IMAGE003
Figure 125668DEST_PATH_IMAGE004
式中:
Figure 940040DEST_PATH_IMAGE005
Figure 762503DEST_PATH_IMAGE006
为取值(0,1)的系数,
Figure 91853DEST_PATH_IMAGE007
为条件属性个数,
Figure 290753DEST_PATH_IMAGE001
为约简后属性个数,
Figure 959632DEST_PATH_IMAGE008
为约简后条件属性子集对决策属性重要度;
2513)如果
Figure 15312DEST_PATH_IMAGE009
,则更新条件属性子集,直至遍历所有条件属性组合后,
Figure 769642DEST_PATH_IMAGE010
小于或等于时,则为步骤25)所述的最大属性适应度,是指更新的条件属性子集适应度;
Figure 763825DEST_PATH_IMAGE014
是指更新之前条件属性子集适应度。 
所述步骤25)的基于重要度的快速模糊粗糙集约简算法,该方法是一种逆向约简方式,通过属性递增方式进行属性约简,其优点是可以在保持信息量损失率的同时,大幅度提高约简效率。具体实现步骤如下:
2521)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集
Figure 38949DEST_PATH_IMAGE015
;计算约简集
Figure 234483DEST_PATH_IMAGE016
对决策属性的重要度,记录为
Figure 569649DEST_PATH_IMAGE017
2522)计算所有条件属性对决策属性的重要度
Figure 298571DEST_PATH_IMAGE018
,判断
Figure 439702DEST_PATH_IMAGE019
的关系,若
Figure 709327DEST_PATH_IMAGE020
等于
Figure 722282DEST_PATH_IMAGE018
,则剔除
Figure 604787DEST_PATH_IMAGE021
中重要度最小的条件属性,直至满足
Figure 957271DEST_PATH_IMAGE022
则停止剔除
Figure 962136DEST_PATH_IMAGE021
中的条件属性;
2523)如果
Figure 400071DEST_PATH_IMAGE020
不等于
Figure 820688DEST_PATH_IMAGE023
,则需要添加条件属性到
Figure 857039DEST_PATH_IMAGE024
中,重新计算添加了属性的重要度
Figure 970489DEST_PATH_IMAGE025
,直至满足
Figure 958036DEST_PATH_IMAGE026
,停止添加条件属性,输出结果。
所述步骤3)具体包括以下步骤:
31)输入约简后碳通量样本的属性数据;
32)输入约简前碳通量样本的属性数据;
33)分别计算约简前碳通量样本的属性数据样本预测值、约简后碳通量样本的属性数据样本预测值与碳通量属性数据实测值的相关性;
34)通过约简前所有条件属性相对于决策属性重要度
Figure 182344DEST_PATH_IMAGE027
和约简后条件属性集相对于决策属性的重要度
Figure 243841DEST_PATH_IMAGE028
的比值,求得信息保留率;
Figure 590509DEST_PATH_IMAGE008
函数为:
Figure 3036DEST_PATH_IMAGE029
 ;其中,P为条件属性,Q为决策属性,x为样本,U为总样本;
35)通过计算约简后属性个数和约简前环境因子个数,,约简后属性个数与约简前环境因子个数的比值为碳通量环境因子提取率。
所述步骤33)是利用神经网络来建立仿真模型,计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差。
本发明生态系统碳交换影响因素提取方法所用的系统,包括:
数据导入模块,用于从各碳通量观测网站中获取生态系统的碳通量样本的属性数据;
因素提取模块,用于对所述生态系统的碳通量样本的属性数据进行属性约简,获得与碳通量相关的环境因子集;
输入模块,用于输入约简前碳通量样本的属性数据与约简后碳通量样本的属性数据;
评价模块,用于计算与碳通量相关的环境因子提取前和提取后的信息保留率和碳通量环境因子提取率。
所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据。
其中所述因素提取模块包括:
数据预处理单元,用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化;
输入单元,用于设定相关系数阈值及模糊粗糙集属性约简算法参数;
数据挖掘单元,用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留;对初步去冗余后的属性数据,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。
所述评价模块包括:
模型仿真单元,用于对输入的数据进行建模仿真;
模型计算单元,用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;
效率评价单元,用于计算约简后属性和约简前属性的碳通量环境因子提取率。
本发明利用数据挖掘的方法从生态系统的碳通量属性数据中挖掘出主要因素,然后将挖掘出的碳通量属性数据与挖掘前的碳通量属性数据,通过评价模块仿真,得到约简的信息保留率和提取率,从而证明其有效性和正确性。本发明缩小研究与碳通量相关的生态因子范围,降低分析难度,降低预测模型复杂度,为研究各个生态因素与碳通量环境因子的关系提供理论基础和方向,所提出的基于混合蛙跳的模糊粗糙集约简算法和一种基于重要度快速模糊粗糙集约简算法是两种新的高效快速的模糊粗糙集约简算法。并且由于采用模糊理论,也避免了传统粗糙集约简算法在将连续属性离散化过程中引起的错分误差和信息损失。
附图说明
图1为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的流程图。
图2为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的框架图。
图3为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的详细结构框架图。
图4为本发明一种生态系统碳交换影响因素提取方法中基于混合蛙跳算法的模糊粗糙集约简算法实现具体流程图。
具体实施方式
下面结合附图详细说明本发明,通过实施例来说明本发明的原理。
本发明提供了一种在不同生态系统中寻找与碳通量关系密切的环境因子方法,其包括以下步骤:
S01、从碳通量数据观测站中获取碳通量样本的属性数据;其中数据分别来自美国北卡罗来纳州布莱克伍德区杜克森林和美国肯德尔草原的碳塔;碳通量样本的属性数据支持连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;本实施例根据美国北卡罗来纳州布莱克伍德区杜克森林和美国肯德尔草原的碳塔数据特点,数据类型基本都是连续的;其中碳通量属性为决策属性,其余属性皆为条件属性;本实施例将连续属性直接导入系统,不需要划分为不同的区段值或者离散化,这也避免了离散化会出现错分误差和信息损失等缺陷;属性简写如下表表1所示:
表1
属性 缩写 属性 缩写
绝对湿度 H 射入辐射 Rn
空气温度 TA 土壤温度 TS
土壤水分含量 SWC 风速 WS
潜热通量 LE 水气压差 VPD
通量梯度 FG 二氧化碳 CO2
累计降雨量 PREC_cum 碳通量 FC
S02、数据预处理:填补、归一化、相关性分析;本实施例通过对数据缺失进行填补、归一化和相关性分析,通过预先设定的相关系数阈值max relevance对数据样本属性逐次进行统计、剪枝。这里max relevance选取95%,如当A条件属性与B条件属性之间的相关性高于95%,则删除A属性或B属性,否则保留;通过相关性筛选可以有效地简化输入数据的结构;
S03、对所述碳通量样本的属性数据通过计算,得到各环境因子对决策属性重要度;通过对碳通量样本属性数据进行统计分析,选择合适的隶属度函数,对各个条件属性进行映射,运用模糊粗糙集理论求解各个条件属性的上下近似集和模糊粗糙集正域,从而得出各个环境因子对决策属性的重要度;
S04、根据约简规则提取属性;通过S03计算出的单属性重要度,运用本发明提出的两种新的约简算法,例如此处运用基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法对碳通量数据进行属性约简,寻找最优组合解;
S05、输入约简前后碳通量属性样本数据;此处选取美国肯德尔草原为例子,输入属性约简前碳通量数据共22个属性,各条件属性间相关系数都低于95%;输入属性约简后碳通量数据共8个属性分别是FG、CO2、SWC、TS、TS、Rn、PREC_cum、TA; 
S06、计算环境因子提取率,通过神经网络对碳通量属性数据进行模型仿真,计算出约简后的环境因子提取率,以及信息保留率。
具体的,所述步骤S03具体包括以下的步骤:
S031、根据获取的各个碳通量样本的属性数据,分别对各个碳通量样本计算各环境因子对决策属性隶属度;
S032、分别运用统计学方法统计各个属性分布规律,此处选用正态分布函数,作为各个属性隶属度函数,由自适应函数调整隶属度函数相关系数;
隶属度函数如下:
隶属区间一:
Figure 31035DEST_PATH_IMAGE030
Figure 274934DEST_PATH_IMAGE031
其中
Figure 464607DEST_PATH_IMAGE032
为第i个属性第j个样本对应的值,
Figure 364430DEST_PATH_IMAGE033
Figure 494322DEST_PATH_IMAGE032
映射值;a为方差、b为中心值;
隶属区间二:
Figure 795991DEST_PATH_IMAGE034
Figure 156565DEST_PATH_IMAGE031
此处以属性中TA的第一个样本作为例子说明,对于第一个隶属区间TA的第一个样本映射结果是:
Figure 606001DEST_PATH_IMAGE035
,对于第二个隶属区间TA的第一个样本映射结果是:
Figure 975802DEST_PATH_IMAGE036
S033、通过确定的隶属度函数计算每一个条件属性经正态分布函数映射到两个空间的隶属度;
S034、计算各个条件属性的对于模糊等价关系的模糊下近似集;
公式如下:
Figure 725769DEST_PATH_IMAGE038
其中,X为模糊等价类,
Figure 334605DEST_PATH_IMAGE039
为第i个属性对应的函数映射区间
Figure 570415DEST_PATH_IMAGE040
,而它表达的是第i个属性在隶属函数
Figure 581096DEST_PATH_IMAGE040
下隶属于模糊等价关系X的模糊下近似程度;
对于TA属性可表达为:
Figure 549052DEST_PATH_IMAGE041
其中
Figure 208966DEST_PATH_IMAGE043
Figure 920570DEST_PATH_IMAGE044
是取最小值;
S035、通过计算第i个属性的各个样本在不同隶属函数下,隶属于模糊等价关系X的模糊下近似程度,求解模糊等价类的正域;
公式如下:1、
Figure 785757DEST_PATH_IMAGE045
               2、
Figure 924615DEST_PATH_IMAGE046
其中Q为决策属性,A是条件属性,POS为正域表示符号,x为样本,
Figure 570360DEST_PATH_IMAGE047
第i个属性对应的函数映射区间
Figure 820076DEST_PATH_IMAGE040
S036、计算单属性对决策属性重要度;
公式如下:
其中,P为条件属性,Q为决策属性,x为样本,U为总样本;
计算出所有输入的条件属性对决策属性的重要度,下面列举美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林碳通量数据部分条件属性对决策的重要度,如表2、表3所示:
表2
Figure 177425DEST_PATH_IMAGE049
 表3
Figure 248149DEST_PATH_IMAGE050
通过选取美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林碳通量数据3000和5000个样本进行试验,说明该方法更具有普遍适用性和正确性;通过两个不同生态系统的试验,可以发现不同生态系统间影响碳通量因子的环境因子基本是相同的,但存在个别因素的不同,这也是符合生态规律的;其中国内外很多学者研究发现光合有效辐射、土壤温度、土壤含水量等因素对碳通量因子影响很大,通过本实施例的方法对两个不同生态系统作为例子的实验得到的结果也同样支持这一结论,证明该方法的正确性和有效性。
计算出个条件属性对决策属性的重要度后,需要通过属性约简提取条件属性集。本发明首次提出基于混合蛙跳的模糊粗糙集约简算法,或基于重要度的快速模糊粗糙集约简算法,与传统算法相比,该算法具有较高的效率,约简时间大大缩减;这些算法通过计算约简集对决策属性的重要度以及约简后属性个数,求解适应度;如果适应度不断变大,则证明该属性对决策属性有贡献,需要保留,否则删除;该算法的截止条件是适应度不再增加,则输出结果。
以美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林为例,假设计算出各个条件因子的单属性重要度,约简碳通量属性样本的实现步骤是S04具体包括:
S041、计算出待约简的碳通量样本相应的各条件属性对决策属性重要度;
S042、设置属性约简终止条件;
S043、通过约简算法约简条件属性,得到约简集。
在设置对适应度函数最低适应度为0.01的情况下,寻找最优化的条件属性子集,使得属性集适应度:,则终止迭代过程,输出最后结果,其中
Figure 203652DEST_PATH_IMAGE052
是指新的条件属性子集的适应度;是指旧的条件属性子集的适应度;通过设置的阈值,对美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林的碳通量属性样本数据进行约简,结果如表4所示;
表4
Figure 540535DEST_PATH_IMAGE053
由表4可以看出,不同的生态系统约简后留下的环境因子个数不同,并且存在一定的差异性,约简的效率也有所不同,这取决于数据本身存在一定的噪声和生态系统的复杂程度不同。但是,在不同的属性中还是存在很多相同的属性,这也是符合生态规律的。试验表明,本发明约简效率高达50%,约简后信息保留率高达95%-98%,并且本发明的一种在不同生态系统中寻找与碳通量关系密切的环境因子方法大大提高影响碳通量环境因子的可解释性和缩小了研究的环境因子范围,提出了分析碳交换影响因素的新途径,降低了评价人员对碳通量研究领域知识的要求,并且能获得理想的碳通量属性预测精度。计算出碳通量属性样本环境因子提取率和提取信息保留率的实现步骤是S06具体包括:
S061、运用神经网络对约简前后碳通量数据进行模型仿真,选取神经元个数;
S062、将约简前后碳通量数据随机以80%和20%的比例分为训练集和测试集;
S063、导入数据训练网络;
S064、计算预测和实测数据的相关性、均方误差、平均绝对误差;
S065、计算信息保留率和提取率;
结合实际情况,环境因子约简步骤可总结如下:
(1)数据预处理
数据预处理主要的目的是形成规范化的数据库,包括数据清理(填充缺值、平滑数据、寻找孤立点、纠正数据不一致性)、数据集成(元数据、相关分析、数据冲突检测、语义异种性解释)、数据变换(数据规范化、特征构造、数据泛化)和数据归约(数据立方体聚类、维归约、数据压缩、数值归约、离散化和产生概念分层)几个过程。
(2)选择模糊隶属度函数,该函数可为正态分布函数、柯西分布函数、分段线性函数等。
(3)根据隶属度函数,将各个条件属性进行映射,计算各条件属性对决策属性的重要度。
(4)通过评价函数,设置约简算法终止条件,最小适应度阈值;           
当新的条件属性子集不能使属性集重要度:
Figure 397633DEST_PATH_IMAGE051
,则终止迭代过程,输出最后结果,其中
Figure 154236DEST_PATH_IMAGE052
是指新条件属性子集的适应度;
Figure 805797DEST_PATH_IMAGE011
是指旧的条件属性子集的适应度;
(5)根据约简规则提取与碳通量因子关系密切的环境因子;
本发明的约简算法采用新提出的基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法。
1)基于混合蛙跳的模糊粗糙集约简算法
该算法每只青蛙下一个目标的选择和跳跃,借助群中最好个体与最差个体产生新个体(视为跳跃)。将一个子群中具有最优适应度的青蛙和所有子群中具有最优适应度的青蛙(全局最优青蛙)进行信息交互。如果各子群中新个体的适应度优于父代个体则进行替换,否则借助种群最好个体与该子群最差个体重新产生个体,如果优于父代则替换,否则随机产生一个新个体替换父代(第三次跳跃)。设置终止条件(最大跳跃数和目标函数),当种群中出现青蛙满足目标函数要求,则跳跃停止,输出结果。此处目标函数为:
Figure 913431DEST_PATH_IMAGE054
Figure 308640DEST_PATH_IMAGE005
Figure 857433DEST_PATH_IMAGE006
为取值(0,1)的系数,
Figure 7791DEST_PATH_IMAGE007
为条件属性个数,
Figure 274825DEST_PATH_IMAGE001
为约简后属性个数,
Figure 473725DEST_PATH_IMAGE002
为约简后属性集相对于决策属性的重要度;
Figure 440806DEST_PATH_IMAGE003
为约简后属性集对应的适应度;
具体实现步骤如下:
11)选择青蛙个数n,确定子群数目N; 
12)随机初始化种群P( 0),每个青蛙表示一个不同条件属性子集,并对个体按适应值由大到小排序;
13)对每个子群Pk( 0) ( 1≤k≤N,|Pk( 0) | = n/N) ,确定其G( k,0 ) 、W( k,0) 以及P( 0) 的B( 0) ,并令t = 1; G( k,0 ) 、W( k,0)为蛙群中最好个体和最差个体,B( 0)为整个种群中最好个体;
14)通过青蛙子群中最好个体和最差个体的运算获得新个体,计算新个体的属性个数
Figure 699749DEST_PATH_IMAGE001
和约简后属性集相对于决策属性的重要度,从而获得目标函数的适应度
Figure 253407DEST_PATH_IMAGE003
Figure 776792DEST_PATH_IMAGE054
;式中
Figure 268954DEST_PATH_IMAGE005
Figure 245000DEST_PATH_IMAGE006
为取值(0,1)的系数;
15)计算新个体的适应度
Figure 785703DEST_PATH_IMAGE010
,如
Figure 491491DEST_PATH_IMAGE010
>则更新子集,否则蛙群通过计算,重新获得新个体;直到满足
Figure 119360DEST_PATH_IMAGE051
16)输出最优青蛙的信息,即属性约简的最优条件属性子集;
2)基于重要度的模糊粗糙集快速约简算法
该方法其思维方式刚好与传统约简算法相反,传统约简算法是通过逐个删除属性的方式,排除到无法排除为止,而现实中由于属性过多,冗余属性也很多,常常使计算量变得很大。本发明提出一种逆向约简方式,通过属性递增方式进行属性约简,其优点是可以在保持信息量损失率的同时,大幅度提高约简效率。具体实现步骤如下:
21)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集
Figure 260492DEST_PATH_IMAGE055
;计算约简集对决策属性的重要度,记录为
Figure 326854DEST_PATH_IMAGE056
22)计算所有条件属性对决策属性的重要度
Figure 543071DEST_PATH_IMAGE018
,判断的关系,若等于
Figure 846959DEST_PATH_IMAGE018
,则剔除
Figure 267576DEST_PATH_IMAGE021
中重要度最小的条件属性,直至满足
Figure 740146DEST_PATH_IMAGE057
,则停止剔除
Figure 650333DEST_PATH_IMAGE021
中的条件属性;
23)如果
Figure 575563DEST_PATH_IMAGE020
不等于
Figure 862188DEST_PATH_IMAGE023
,则需要添加条件属性到
Figure 189264DEST_PATH_IMAGE024
中,重新计算添加了属性的重要度,直至满足,则停止添加条件属性,输出结果。
(6)输入约简前后碳通量数据样本;
将约简前和约简后的碳通量数据样各随机的取80%的训练集和20%的测试集,将80%的训练集再细分为4个20%的集合;准备通过五倍交叉验证的方式求证仿真模型的正确性和有效性;
(7)建立仿真模型,计算环境因子提取率和有效性;
1)交叉验证
交叉验证主要用于建模应用中,交叉验证目的是为了得到可靠稳定的模型;K折交叉验证将初始化数据划分为k个互不相交的“折”:S1,S2,……Sk,每个折的大小相等,训练与测试进行k次,即对i=1,2……k,进行k次迭代,第i次迭代中,Si用作测试集,其余的S1……,Si-1,Si+1,……Sk为训练集,准确率是k次迭代中所有正确预测数除以初始数据的样本总数。但在本实施例中准确率的计算是通过计算k次迭代预测数与实测的相关度的均值。
2)神经网络
神经网络包括:BP神经网络、RBF神经网络、支持向量机神经网络、自组织神经网络、小波神经网络等;本实施例举前两种作为说明。
1)BP神经网络
BP神经网络是属于有监督学习的方式,它是利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计,在外界输入样本的刺激下不断改变网络的权值,以使网络的输出不断地接近期望的输出。它通过正向传播和反向传播来修改权值,从而达到期望输出。
2)RBF神经网络
RBF神经网络具有网络结构简单、非线性逼近能力强、收敛速度快以及全局收敛等优点,该网络已被广泛应用于模式识别,序列识别,医疗诊断,金融应用,电子邮件过滤等领域。RBF网络是一种三层前馈网络,从输入层到隐层的变换是非线性的,隐层的作用是对输入向量进行非线性变换,而从隐层到输出层的变换是线性的,也就是网络的输出是隐节点输出的线性加权和。
本实施例通过运用神经网络对约简前后的属性数据进行建模仿真,比较实测值与预测值之间的相关性,通过交叉验证,求得训练集相关性(Tr_cor)、测试集相关性(Te_cor)、均方误差(MSE)、训练集平均绝对误差(Tr_MAE)、测试集平均绝对误差(Te_MAE),从而求得信息保留率(Inf_s)和提取率(P);
信息保留率公式如下:
;
提取率公式如下:
Figure 467962DEST_PATH_IMAGE060
;
对应地,此处还提供了一种碳通量相关环境因子提取系统,参考图2,其包括:
数据导入模块1,用于从各碳通量观测网站中获取不同生态系统的碳通量样本的属性数据;
因素提取模块2,用于对所述不同生态系统的碳通量样本的属性数据进行数据挖掘,找出与碳通量关系密切的环境因子;
输入模块3,用于输入约简前和约简后碳通量样本的属性数据;
评价模块4,用于计算与碳通量密切相关的环境因子提取前和提取后的信息保留率和提取率。
参考图3,所述因素提取模块2包括:
数据预处理单元21,用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化
输入单元22,用于设定相关系数阈值及两种新的模糊粗糙集属性约简算法参数;
数据挖掘单元23,用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留,对初步去冗余后的属性数据规律,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。
所述因素提取模块4包括:
模型仿真单元41,用于对输入的数据进行建模仿真;
模型计算单元42,用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;
效率评价单元43,用于计算约简后属性和约简前属性的碳通量环境因子提取率。
经实验验证,本发明已可以应用在草原生态系统、森林生态系统、红松林生态系统、灌木林生态系统、红树林生态系统等单生态和多生态系统的碳通量因子相关环境因子特征约简的相关领域上。
以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,依赖本发明所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种生态系统碳交换影响因素提取方法,其特征在于包括以下步骤:
1)从碳通量数据观测站中获取碳通量样本的属性数据;
2)输入由步骤1)获得的碳通量样本的属性数据,确定属性数据的隶属函数并计算各个属性隶属度,提取环境因子集重要度,获得与碳通量相关的环境因子集;
3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率;
所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;
所述步骤2)具体包括:
21)根据获取的碳通量数据样本的属性数据,对碳通量数据样本进行数据预处理;
22)设置相关系数阈值,相关系数阈值范围为[0.9,0.95];
23)分别计算各个属性间相关系数值;将计算后的各个属性间的相关系数值与步骤22)设置的相关系数阈值进行比较判定,如果属性间相关系数值大于相关系数阈值时,则将该环境因子剔除,小于相关系数阈值时则保留该环境因子,获得环境因子集;
24)将步骤23)保留获得的环境因子集通过隶属度函数进行映射,求出各属性数据的模糊上近似集、模糊下近似集和模糊粗糙集正域,通过模糊粗糙集正域计算出条件属性子集对决策属性重要度;
25)通过基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法,对属性进行组合,通过适应度函数,计算属性组合的适应度,当属性适应度达到最大时,满足停止搜索条件,输出保留的环境因子。
2.根据权利要求1所述生态系统碳交换影响因素提取方法,其特征在于所述步骤25)的基于混合蛙跳的模糊粗糙集约简算法具体实现如下,
如果frenew>fbefore,则更新条件属性子集;直至遍历所有条件属性组合后,frenew小于或等于fbefore时,则frenew为步骤25)所述的最大属性适应度;frenew是指更新的条件属性子集适应度;fbefore是指更新之前条件属性子集适应度;
其中
Figure FDA00003422219900011
式中a、b为取值(0,1)的系数,Nc为条件属性个数,Ns为约简后属性个数,γ为约简后条件属性子集对决策属性重要度;
所述步骤25)的基于重要度的快速模糊粗糙集约简算法的实现步骤包括:
251)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集Ctry;计算约简集Ctry对决策属性的重要度,记录为
Figure FDA00003422219900023
252)计算所有条件属性对决策属性的重要度γ'all,判断与γ'all的关系,如果
Figure FDA00003422219900025
等于γ'all,则剔除Ctry中重要度最小的条件属性,直至满足,则停止剔除Ctry中的条件属性;
253)如果
Figure FDA00003422219900027
不等于γ'all,则需要添加条件属性到Ctry中,重新计算添加了条件属性的重要度
Figure FDA00003422219900028
,直至满足
Figure FDA00003422219900029
,则停止添加条件属性,输出结果。
3.根据权利要求1所述生态系统碳交换影响因素提取方法,其特征在于所述步骤3)具体包括:
31)输入约简后碳通量样本的属性数据;
32)输入约简前碳通量样本的属性数据;
33)分别计算约简前碳通量样本的属性数据样本预测值、约简后碳通量样本的属性数据样本预测值与碳通量属性数据实测值的相关性;
34)通过约简前所有条件属性相对于决策属性重要度γall和约简后条件属性集相对于决策属性的重要度γreduce的比值,求得信息保留率γ,γ函数为: γ P ′ ( Q ) = | μ POS P ( Q ) ( x ) | | U | = Σ x ∈ U μ POS P ( Q ) ( x ) U , 其中,P为条件属性,Q为决策属性,x为样本, μ POS P ( Q ) ( x ) = sup F i ∈ U / p min ( μ F i ( x ) , μ POS P ( F i ) ) , μ POS P ( F i ) = sup X ∈ U / Q μ X ( F i ) , POS为正域表示符号,Fi为第i个属性对应的函数映射区间F,U为总样本,μ为隶属度函数;
35)计算约简后属性个数和约简前环境因子个数,约简后属性个数与约简前环境因子个数的比值为碳通量环境因子提取率。
4.根据权利要求3所述生态系统碳交换影响因素提取方法,其特征在于,所述步骤33)是利用神经网络来建立仿真模型,计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差。
5.一种生态系统碳交换影响因素提取方法所用的系统,其特征在于包括:
数据导入模块(1),用于从各碳通量观测网站中获取生态系统的碳通量样本的属性数据;
因素提取模块(2),用于对所述生态系统的碳通量样本的属性数据进行数据挖掘,获得与碳通量相关的环境因子集;
输入模块(3),用于输入约简前碳通量样本的属性数据与约简后碳通量样本的属性数据;
评价模块(4),用于计算与碳通量相关的环境因子提取前和提取后的信息保留率和碳通量环境因子提取率;
所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;
所述因素提取模块(2)包括:
数据预处理单元(21),用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化;
输入单元(22),用于设定相关系数阈值及模糊粗糙集属性约简算法参数,相关系数阈值范围为[0.9,0.95];
数据挖掘单元(23),用于挖掘对碳量有主要影响的最优条件属性子集,输出约简结果,得到与碳通量数据相关环境因子集;具体是用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留;对初步去冗余后的属性数据,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。
6.根据权利要求5所述的系统,其特征在于所述评价模块(4)包括:
模型仿真单元(41),用于对输入的数据进行建模仿真;
模型计算单元(42),用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;
效率评价单元(43),用于计算约简后属性和约简前属性的碳通量环境因子提取率。
CN 201110367896 2011-11-18 2011-11-18 一种生态系统碳交换影响因素提取方法及系统 Active CN102495919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110367896 CN102495919B (zh) 2011-11-18 2011-11-18 一种生态系统碳交换影响因素提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110367896 CN102495919B (zh) 2011-11-18 2011-11-18 一种生态系统碳交换影响因素提取方法及系统

Publications (2)

Publication Number Publication Date
CN102495919A CN102495919A (zh) 2012-06-13
CN102495919B true CN102495919B (zh) 2013-12-25

Family

ID=46187744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110367896 Active CN102495919B (zh) 2011-11-18 2011-11-18 一种生态系统碳交换影响因素提取方法及系统

Country Status (1)

Country Link
CN (1) CN102495919B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799106A (zh) * 2012-08-14 2012-11-28 北京航空航天大学 人工生态系统的模糊逻辑控制器
CN103177088B (zh) * 2013-03-08 2016-05-18 北京理工大学 一种生物医学空缺数据弥补方法
CN103442159A (zh) * 2013-09-02 2013-12-11 安徽理工大学 基于rs-svm集成的边缘自适应去马赛克方法
CN103809458B (zh) * 2014-03-04 2016-06-01 福州大学 一种基于改进蛙跳算法的磁流变阻尼控制方法
CN103837859A (zh) * 2014-03-05 2014-06-04 湖州师范学院 一种采用混合蛙跳的小波神经网络来计算声发射源位置的方法
CN106022476A (zh) * 2016-04-15 2016-10-12 河南理工大学 一种粗糙近似表示系统中de近似表示的加速模块计算方法
CN106203377B (zh) * 2016-07-20 2017-11-28 西安科技大学 一种煤粉尘图像识别方法
CN107515913A (zh) * 2017-08-16 2017-12-26 武汉智丽丰信息科技有限公司 一种多变量数据模型集成构建方法及其可视化交互系统
CN109816087B (zh) * 2018-12-28 2021-10-12 天津大学 基于人工鱼群与蛙群混合算法的粗糙集属性约简的强对流天气判别方法
CN110309609B (zh) * 2019-07-06 2022-06-28 桂林电子科技大学 一种基于粗糙集和wnn的建筑室内空气品质评价方法
CN111881407B (zh) * 2020-07-30 2021-06-11 中国科学院地理科学与资源研究所 一种基于遥感信息的地表水、热和碳通量耦合估算方法
RS20210504A1 (sr) 2021-04-22 2022-10-31 Culibrk Dubravko Sistem i metod za estimaciju dinamičkih parametara zemljišta na bazi multisprektralnih ili hiperspektralnih slika
CN115907178B (zh) * 2022-11-30 2023-12-15 中国地质大学(武汉) 一种净生态系统co2交换量的预测方法
CN116610931B (zh) * 2023-07-17 2023-11-10 成都飞机工业(集团)有限责任公司 一种飞机数控锪窝影响因素提取方法、装置、介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096672A (zh) * 2009-12-09 2011-06-15 西安邮电学院 一种基于模糊粗糙模型的分类规则提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于GA-NN的碳通量预测因素选择;薛月菊等;《计算机工程与应用》;20110621;第47卷(第18期);第237-239页 *
支持向量机回归的碳通量预测;陈强等;《计算机工程与应用》;20090730;第45卷(第21期);全文 *
薛月菊等.基于GA-NN的碳通量预测因素选择.《计算机工程与应用》.2011,第47卷(第18期),第237-239页.
陈强等.支持向量机回归的碳通量预测.《计算机工程与应用》.2009,第45卷(第21期),全文.

Also Published As

Publication number Publication date
CN102495919A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN102495919B (zh) 一种生态系统碳交换影响因素提取方法及系统
CN102929942B (zh) 一种基于集成学习的社会网络重叠社区发现方法
CN109242203A (zh) 一种河流水质预测及水质影响因素评估方法
CN111080032A (zh) 一种基于Transformer结构的负荷预测方法
CN103544392B (zh) 基于深度学习的医学气体识别方法
Zorita et al. A survey of statistical downscaling techniques
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN105843919A (zh) 一种基于多特征融合与聚类集成的移动对象轨迹聚类方法
CN102606557A (zh) 一种基于故障观测器与som的液压系统健康评估方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN106384092A (zh) 面向监控场景的在线低秩异常视频事件检测方法
CN109165743A (zh) 一种基于深度压缩自编码器的半监督网络表示学习算法
CN106920007A (zh) 基于二阶自组织模糊神经网络的pm2.5智能预测方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN107544904A (zh) 一种基于深度cg‑lstm神经网络的软件可靠性预测模型
CN103678703B (zh) 一种借助图随机游走的开放类别命名实体抽取方法及装置
CN105320809A (zh) 一种针对风电场空间相关性的风速预测方法
CN110009135B (zh) 一种基于宽度学习的风电功率预测方法
Hong et al. Mid-and long-term runoff predictions by an improved phase-space reconstruction model
CN108038517A (zh) 基于改进卷积神经网络模型Cifar10的玉米叶片病害识别方法
CN105760649A (zh) 一种面向大数据的可信度量方法
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
Su Analysis of optimisation method for online education data mining based on big data assessment technology
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及系统
CN105228185A (zh) 一种用于识别通信网络中模糊冗余节点身份的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant