CN114154428A - 目标物种潜在入侵风险评估方法及装置 - Google Patents
目标物种潜在入侵风险评估方法及装置 Download PDFInfo
- Publication number
- CN114154428A CN114154428A CN202210119592.3A CN202210119592A CN114154428A CN 114154428 A CN114154428 A CN 114154428A CN 202210119592 A CN202210119592 A CN 202210119592A CN 114154428 A CN114154428 A CN 114154428A
- Authority
- CN
- China
- Prior art keywords
- data
- distribution
- probability
- pseudo
- intrusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012502 risk assessment Methods 0.000 title description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 41
- 230000010354 integration Effects 0.000 claims abstract description 38
- 238000012216 screening Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 230000001932 seasonal effect Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 241000894007 species Species 0.000 description 49
- 241001250072 Oryctes rhinoceros Species 0.000 description 33
- 230000009545 invasion Effects 0.000 description 18
- 241001133760 Acoelorraphe Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 102100039148 Ankyrin repeat domain-containing protein 49 Human genes 0.000 description 1
- 241000254173 Coleoptera Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 101000889457 Homo sapiens Ankyrin repeat domain-containing protein 49 Proteins 0.000 description 1
- 206010061217 Infestation Diseases 0.000 description 1
- 241000282806 Rhinoceros Species 0.000 description 1
- 244000007853 Sarothamnus scoparius Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006353 environmental stress Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- -1 lighting Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是关于一种目标物种潜在入侵风险评估方法及装置,其中,方法包括:获取目标物种的分布记录数据和多维时空数据;根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
Description
技术领域
本发明涉及风险评估技术领域,尤其涉及一种目标物种潜在入侵风险评估方法及装置。
背景技术
棕榈树的经济效益在世界范围内得到充分证明,包括提供食物、饮料、衣物、燃料、照明、药品、扫帚、篮子、垫子、建筑用木材、渔网和屋顶小屋材料。犀牛甲虫作为一种食腐鞘翅目类的入侵物种,成虫能够钻入棕榈树的顶端,穿过叶片的基部,进入展开叶片的心脏,对受感染棕榈树的生长点造成物理伤害,这种伤害可能导致棕榈树生长迟缓、幼叶变小或变形,如果攻击严重,则会导致棕榈树死亡。成虫通常攻击幼嫩的棕榈树,但在严重侵扰或没有幼嫩的棕榈树的情况下,成熟的棕榈树便会受到攻击。近些年,犀牛甲虫已入侵多个国家和地区,对全球棕榈业产业产生了重要的威胁。据估计,犀牛甲虫在马来西亚对当地棕榈树产业造成的经济损失达到约28.537亿美元。犀牛甲虫正在全球范围内导致其原生范围之外前所未有的经济损失。如果管理不当,可能会对全球棕榈树产业造成毁灭性打击。精准评估犀牛甲虫在全球的潜在入侵风险区是制定一套长期生态友好的主动管理策略的先决条件。
以往有关犀牛甲虫的研究主要集中在管理策略、生物学特性和环境压力研究领域,主要侧重于被动纠正措施。与被动纠正措施相比,早期监测预警等主动管理技术在应对入侵物种挑战方面具有成本更低且更有效的优势。由于犀牛甲虫在全球的潜在入侵风险区缺乏科学的评估,导致针对犀牛甲虫的主动管理技术难以实施,无法为制定生态友好的主动管理策略提供支撑。目前,有关犀牛甲虫入侵风险区评估高度依赖于专家的先验知识构成的规则集,无法厘定犀牛甲虫入侵风险的关键影响因素,且无法绘制高空间分辨率的入侵概率以及量化评估不确定性。
发明内容
为克服相关技术中存在的问题,本发明提供一种目标物种潜在入侵风险评估方法及装置。
根据本发明实施例的第一方面,提供一种目标物种潜在入侵风险评估方法,所述方法包括:
获取目标物种的分布记录数据和多维时空数据;
根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
在一个实施例中,优选地,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
在一个实施例中,优选地,根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据,包括:
将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
在一个实施例中,优选地,根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型,包括:
将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
在一个实施例中,优选地,通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性,包括:
通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
根据本发明实施例的第二方面,提供一种目标物种潜在入侵风险评估装置,所述装置包括:
获取模块,用于获取目标物种的分布记录数据和多维时空数据;
筛选模块,用于根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
模型构建模块,用于根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
确定模块,用于通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
在一个实施例中,优选地,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
在一个实施例中,优选地,所述筛选模块用于:
将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
在一个实施例中,优选地,所述模型构建模块包括:
执行单元,用于将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
模型构建单元,用于利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
在一个实施例中,优选地,所述确定模块包括:
第一确定单元,用于通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
第二确定单元,用于利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
第三确定单元,用于将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
第四确定单元,用于基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,提出了一种基于多维时空数据和机器学习的目标物种潜在入侵风险评估方法,其基于目标物种的已知分布记录数据和多维时空数据,通过最大熵模型生成伪缺失概率分布数据;并随机筛选与已知分布记录数据等量的伪缺失样本数据,结合分布记录数据和多维时空数据,训练增强回归树模型,进而构建一个基于多个个增强回归树模型的机器学习集成模型;通过机器学习集成模型,厘定驱动犀牛甲虫入侵风险的关键影响因素,绘制高空间分辨率的目标物种入侵概率,评估潜在入侵风险区分布,量化评估的不确定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法的流程图。
图2是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S102的流程图。
图3是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S103的流程图。
图4是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S104的流程图。
图5是根据一示例性实施例示出的一种犀牛甲虫潜在入侵风险评估方法的具体流程图。
图6是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置的框图。
图7是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置中模型构建模块的框图。
图8是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置中模型构建模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法的流程图,如图1所示,该方法包括:
步骤S101,获取目标物种的分布记录数据和多维时空数据;
步骤S102,根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
步骤S103,根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
步骤S104,通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
在一个实施例中,优选地,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
图2是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S102的流程图。
如图2所示,在一个实施例中,优选地,上述步骤S102包括:
步骤S201,将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
步骤S202,将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
图3是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S103的流程图。
如图3所示,在一个实施例中,优选地,上述步骤S103包括:
步骤S301,将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
步骤S302,利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
图4是根据一示例性实施例示出的一种目标物种潜在入侵风险评估方法中步骤S104的流程图。
如图4所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S401,通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
步骤S402,利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
步骤S403,将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
步骤S404,基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
下面以目标物种为犀牛甲虫为例,详细说明本发明的上述技术方案。
如图5所示,犀牛甲虫的潜在入侵风险评估方法的具体流程包括:
(1)获取全球已知犀牛甲虫分布记录数据
从全球生物多样性信息机构(GBIF,http://www.gbif.org/),欧洲和地中海植物保护组织(EPPO,https://gd.eppo.int)以及国际农业和生物科学中心(CABI,http://www.cabi.org),获取了犀牛甲虫的已知分布记录,并整理在线搜索获得的有关犀牛甲虫的已发表文献,最终形成一套全球已知犀牛甲虫分布记录数据,分布记录数据量达到295条。
(2)多维时空数据获取及预处理
1) 多维时空数据获取:通过WorldClim获取了高质量高精度的气候因素;从航天飞机雷达地形测绘任务(https://eospso.gsfc.nasa.gov/missions/shuttle-radar-topography-mission)、全球库存建模和绘图研究组(https://iridl.ldeo.columbia.edu/)和联合国粮食及农业组织(https://www.fao.org/)获得了三种地理因素,包括海拔、植被覆盖度(归一化植被指数)以及土地利用数据;从欧洲委员会联合研究中心(https://forobs.jrc.ec.europa.eu/)、开放式街道地图(https://wordpress.org/),下载得到两种社会经济因素,即城市可达性和道路分布数据,并通过核密度方法将道路分布数据转化为道路密度数据。
2) 多维时空数据预处理:由于气候、地理和社会经济因素属于多源异构的时空数据,空间分辨率不一致。本发明选取WGS-84坐标系,以0.05度(约5公里)栅格单元为基准,将多维时空数据转化成统一的坐标系的基准栅格单元上,形成24个栅格图层,图层数据详见表1。
表1多维时空数据概要
(3)通过最大熵模型生成伪缺失样本
将犀牛甲虫分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以0.5作为阈值,将小于该阈值作为犀牛甲虫的伪缺失样本筛选依据。
(4)构建增强回归树集成模型
随机筛选与犀牛甲虫发生记录等量的伪缺失样本数据(295个),结合犀牛甲虫分布记录数据(295个)和多维时空数据(如表1所示),构建增强回归树模型。在构建模型过程中,使用10折交叉验证方法以避免模型的过拟合。为了提升稳健性,将随机筛选与犀牛甲虫发生记录等量的伪缺失样本数据的过程执行300次,进而获得了一个基于300个增强回归树模型的机器学习集成模型。本发明中,以R Version 3.3.3统计编程环境为基础,采用“dismo”扩展包搭建建模分析流程。使用曲线下面积(Area under the curve, AUC)作为集成模型的精度评价指标,10折交叉验证过程中的AUC数值达到0.980±0.008。
(5)使用机器学习集成模型输出结果
1)厘定关键因素:多维时空数据的相对贡献率详见表2。表2表明,城市可达性、最高温度与最低温度差、道路密度、气温季节性变动系数、最冷月份最低温度、海拔、土地利用、最暖季度降水量、等温性和归一化植被指数是驱动犀牛甲虫入侵的关键因素。
表2多维时空数据相对贡献率大小
其中,贡献率大于1%的要素是关键因素,贡献率等于或小于1%代表不显著,用“——”表示。
2)预测入侵概率:利用集成模型,在约5公里格网上生成犀牛甲虫在全球的入侵概率,预测得到300个入侵概率结果,逐栅格单元计算平均值,最终获得犀牛甲虫的全球入侵概率,概率值范围介于[0,1]。
3)评估入侵风险:以0.5作为阈值,判定犀牛甲虫在全球的入侵风险区,结果表明,犀牛甲虫的入侵风险区主要集中在南美洲北部、非洲的中西部及东部部分区域、亚洲的南部和东南部区域。
4)量化不确定性:基于预测的300个入侵概率结果,逐栅格单元计算标准差,分析评估的不确定性总体来看,评估不确定性较低。
图6是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置的框图。
如图6所示,根据本发明实施例的第二方面,提供一种目标物种潜在入侵风险评估装置,所述装置包括:
获取模块61,用于获取目标物种的分布记录数据和多维时空数据;
筛选模块62,用于根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
模型构建模块63,用于根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
确定模块64,用于通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
在一个实施例中,优选地,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
在一个实施例中,优选地,所述筛选模块62用于:
将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
图7是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置中模型构建模块的框图。
如图7所示,在一个实施例中,优选地,所述模型构建模块63包括:
执行单元71,用于将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
模型构建单元72,用于利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
图8是根据一示例性实施例示出的一种目标物种潜在入侵风险评估装置中模型构建模块的框图。
如图8所示,在一个实施例中,优选地,所述确定模块64包括:
第一确定单元81,用于通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
第二确定单元82,用于利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
第三确定单元83,用于将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
第四确定单元84,用于基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明由于采取以上技术方案,具有以下优点:
(1)以往有关犀牛甲虫入侵风险的评估高度依赖于专家的先验知识构成的规则集,不能识别影响犀牛甲虫入侵的关键因素,且无法在全球尺度上绘制犀牛甲虫入侵风险分布状况。本方案相较于基于先验知识的方法,厘定出城市可达性、最高温度与最低温度差、道路密度、气温季节性变动系数、海拔、土地利用和归一化植被指数等要素是驱动犀牛甲虫入侵的关键因素,与此同时,能够在高空间分辨率格网上绘制犀牛甲虫的全球入侵风险。
(2)以往基于先验知识的犀牛甲虫入侵风险评估方法,缺少准确性和不确定性的评估,本方案采用AUC指标和标准差计算方法评价入侵风险评估的准确性和不确定性,使得评估结果更加科学合理。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种目标物种潜在入侵风险评估方法,其特征在于,所述方法包括:
获取目标物种的分布记录数据和多维时空数据;
根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
2.根据权利要求1所述的方法,其特征在于,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
3.根据权利要求1所述的方法,其特征在于,根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据,包括:
将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
4.根据权利要求1所述的方法,其特征在于,根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型,包括:
将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
5.根据权利要求1所述的方法,其特征在于,通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性,包括:
通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
6.一种目标物种潜在入侵风险评估装置,其特征在于,所述装置包括:
获取模块,用于获取目标物种的分布记录数据和多维时空数据;
筛选模块,用于根据所述分布记录数据和多维时空数据,使用最大熵模型生成伪缺失概率分布数据,并从所述伪缺失概率分布数据中随机筛选出与所述分布记录数据等量的伪缺失样本数据;
模型构建模块,用于根据所述伪缺失样本数据、所述分布记录数据和多维时空数据,构建并训练得到一个基于多个增强回归树模型的机器学习集成模型;
确定模块,用于通过所述机器学习集成模型,确定驱动所述目标物种入侵风险的关键影响因素,确定所述目标物种的入侵概率,评估潜在入侵风险区分布和量化评估的不确定性。
7.根据权利要求6所述的装置,其特征在于,所述分布记录数据包括所述目标物种分布的经纬度信息,所述多维时空数据包括气候因素信息、地理因素信息和社会经济因素信息,其中,所述气候因素信息包括年平均气温、平均昼夜温度差、等温性、气温季节性变动系数、最热月份最高温度、最冷月份最低温度、最高温度与最低温度差、最湿季度平均温度、最干季度平均温度、最暖季度平均温度、最冷季度平均温度、年降雨量、最湿月份降水量、最干月份降水量、降水量季节性变化、最干季度降水量、最湿季度降水量、最暖季度降水量和最冷季度降水量,所述地理因素信息包括海拔、归一化植被指数和土地利用,所述社会经济因素信息包括城市可达性和道路密度。
8.根据权利要求6所述的装置,其特征在于,所述筛选模块用于:
将所述分布记录数据和多维时空数据作为输入数据,运行最大熵模型,以生成介于0-1之间的环境适宜性概率;
将所述环境适宜性概率小于0.5作为所述伪缺失样本数据的筛选依据。
9.根据权利要求6所述的装置,其特征在于,所述模型构建模块包括:
执行单元,用于将随机筛选出与所述分布记录数据等量的伪缺失样本数据的过程执行多次;
模型构建单元,用于利用每次获得的伪缺失样本数据、所述分布记录数据和多维时空数据构建增强回归树模型,进而得到一个基于多个增强回归树模型的机器学习集成模型。
10.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第一确定单元,用于通过所述机器学习集成模型确定所述多维时空数据中各类数据的相对贡献率;
第二确定单元,用于利用所述机器学习集成模型在预设面积的格网预测得到多个入侵概率结果,其中,一个增强回归树模型对应一个入侵概率结果,逐栅格单元计算平均值,最终获取所述目标物种的全球入侵概率;
第三确定单元,用于将入侵概率结果大于预设概率值的区域确定为潜在入侵风险区;
第四确定单元,用于基于预测得到的多个入侵概率结果,逐栅格计算标准差,以分析预测结果的不确定性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119592.3A CN114154428B (zh) | 2022-02-09 | 2022-02-09 | 目标物种潜在入侵风险评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119592.3A CN114154428B (zh) | 2022-02-09 | 2022-02-09 | 目标物种潜在入侵风险评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154428A true CN114154428A (zh) | 2022-03-08 |
CN114154428B CN114154428B (zh) | 2022-09-23 |
Family
ID=80450331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119592.3A Active CN114154428B (zh) | 2022-02-09 | 2022-02-09 | 目标物种潜在入侵风险评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154428B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228499A (zh) * | 2023-04-26 | 2023-06-06 | 四川省林业科学研究院 | 一种基于关联关系的物种入侵检测方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023416A1 (en) * | 2001-06-12 | 2003-01-30 | Peterson Andrew Townsend | Processes and systems for predicting biological species invasions |
CN105631526A (zh) * | 2014-10-31 | 2016-06-01 | 航天恒星科技有限公司 | 森林病虫害爆发风险预测的方法及装置 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
GB202101354D0 (en) * | 2020-07-06 | 2021-03-17 | Aerospace Information Research Institute Chinese Academy Of Sciences | Method and device for dynamic early-warning of wheat scab |
EP3816879A1 (en) * | 2019-11-04 | 2021-05-05 | Gaf AG | A method of yield estimation for arable crops and grasslands and a system for performing the method |
CN113569243A (zh) * | 2021-08-03 | 2021-10-29 | 上海海事大学 | 基于自监督变分lstm的深层半监督学习网络入侵检测方法 |
-
2022
- 2022-02-09 CN CN202210119592.3A patent/CN114154428B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030023416A1 (en) * | 2001-06-12 | 2003-01-30 | Peterson Andrew Townsend | Processes and systems for predicting biological species invasions |
CN105631526A (zh) * | 2014-10-31 | 2016-06-01 | 航天恒星科技有限公司 | 森林病虫害爆发风险预测的方法及装置 |
CN107392015A (zh) * | 2017-07-06 | 2017-11-24 | 长沙学院 | 一种基于半监督学习的入侵检测方法 |
EP3816879A1 (en) * | 2019-11-04 | 2021-05-05 | Gaf AG | A method of yield estimation for arable crops and grasslands and a system for performing the method |
GB202101354D0 (en) * | 2020-07-06 | 2021-03-17 | Aerospace Information Research Institute Chinese Academy Of Sciences | Method and device for dynamic early-warning of wheat scab |
CN113569243A (zh) * | 2021-08-03 | 2021-10-29 | 上海海事大学 | 基于自监督变分lstm的深层半监督学习网络入侵检测方法 |
Non-Patent Citations (7)
Title |
---|
BASIM MAHBOOBA等: "Explainable Artificial Intelligence(XAI)to Enhance Trust Management in Intrusion Detection Systems Using Decision Tree Model", 《DYNAMIC ANALYSIS,LEARNING,AND ROBUST CONTROL OF COMPLEX SYSTEMS》 * |
RAISA ABEDIN DISHA等: "Performance analysis of machine learning models for intrusion detection system using Gini Impurity-based weighted Random Forest(GIWRF)feature selection technique", 《SYBERSECURITY》 * |
吴文浩等: "基于生态位模型的松材线虫潜在生境预测方法研究", 《林业调查规划》 * |
张劳模等: "运用最大熵模型和随机森林模型对东北红松分布的模拟", 《东北林业大学学报》 * |
张珣等: "基于Cesium 框架的突发生物危害事件", 《科技导报》 * |
张飞等: "自然保护区建设项目生态环境影响评价", 《北京测绘》 * |
李明阳等: "美国大陆外来入侵物种斑马纹贻贝(Dreissena polymorpha)潜在生境预测模型", 《生态学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228499A (zh) * | 2023-04-26 | 2023-06-06 | 四川省林业科学研究院 | 一种基于关联关系的物种入侵检测方法和系统 |
CN116228499B (zh) * | 2023-04-26 | 2023-08-04 | 四川省林业科学研究院 | 一种基于关联关系的物种入侵检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114154428B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haeuser et al. | European ornamental garden flora as an invasion debt under climate change | |
Rebelo et al. | Ground validation of presence‐only modelling with rare species: a case study on barbastelles Barbastella barbastellus (Chiroptera: Vespertilionidae) | |
Gunton et al. | Functional traits relating arable weed communities to crop characteristics | |
Ferrier | Mapping spatial pattern in biodiversity for regional conservation planning: where to from here? | |
Ma et al. | Climate-associated changes in spring plant phenology in China | |
Schleicher et al. | Dispersal traits determine plant response to habitat connectivity in an urban landscape | |
Trisurat et al. | Assessing potential effects of land use and climate change on mammal distributions in northern Thailand | |
van Staden et al. | Modelling the spatial distribution of two important South African plantation forestry pathogens | |
Cipriotti et al. | Understanding the long‐term spatial dynamics of a semiarid grass‐shrub steppe through inverse parameterization for simulation models | |
Barker et al. | Pre‐fire vegetation drives post‐fire outcomes in sagebrush ecosystems: evidence from field and remote sensing data | |
CN114154428B (zh) | 目标物种潜在入侵风险评估方法及装置 | |
CN116050935B (zh) | 一种确定生物多样性优先保护地信息的方法及装置 | |
Giménez-Romero et al. | Global predictions for the risk of establishment of Pierce’s disease of grapevines | |
Mathieu et al. | Using neural network classifier approach for statistically forecasting extreme corn yield losses in Eastern United States | |
Forcey et al. | Spatially explicit modeling of blackbird abundance in the Prairie Pothole Region | |
Westwood | Conservation of three forest landbird species at risk: characterizing and modelling habitat at multiple scales to guide management planning | |
Song et al. | Spatial ensemble modeling for predicting the potential distribution of Lymantria dispar asiatica (Lepidoptera: Erebidae: Lymantriinae) in South Korea | |
Bradter et al. | Variable ranking and selection with random forest for unbalanced data | |
Alberto et al. | Hot spot area analysis of onion armyworm outbreak in Nueva Ecija using geographic information system | |
Githaiga‐Mwicigi et al. | Hierarchical processes define spatial pattern of avian assemblages restricted and endemic to the arid Karoo, South Africa | |
Jeger et al. | Spatial dynamics of phymatotrichum root rot in row crops | |
Ma et al. | Prediction of the global occurrence of maize diseases and estimation of yield loss under climate change | |
CN111579565A (zh) | 农业干旱监测方法、系统及存储介质 | |
Rauber et al. | Regional suitability assessment for the mouseear hawkweed (Hieracium pilosella) invasion in Patagonian rangelands | |
Attinello et al. | Substituting space for time: Bird responses to forest loss in space provide a general picture of responses over time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |