CN112926625A - 一种卫星辐射数据的偏差影响因子分析方法 - Google Patents

一种卫星辐射数据的偏差影响因子分析方法 Download PDF

Info

Publication number
CN112926625A
CN112926625A CN202110111106.9A CN202110111106A CN112926625A CN 112926625 A CN112926625 A CN 112926625A CN 202110111106 A CN202110111106 A CN 202110111106A CN 112926625 A CN112926625 A CN 112926625A
Authority
CN
China
Prior art keywords
data
deviation
satellite
influence factors
feature importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110111106.9A
Other languages
English (en)
Other versions
CN112926625B (zh
Inventor
曹丹阳
陈明珠
宋歆睿
马艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Publication of CN112926625A publication Critical patent/CN112926625A/zh
Application granted granted Critical
Publication of CN112926625B publication Critical patent/CN112926625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种卫星辐射数据的偏差影响因子分析方法,属于卫星辐射数据分析技术领域,包括数据集选取、数据预处理和偏差影响因子分析计算三个步骤,该方法在面对大量的、多维的数据时,对卫星辐射数据的偏差与输入特征的相关性进行分析,初步筛选出偏差的影响因子;然后采用机器学习方法对特征重要性进行计算并排序,最终筛选出偏差的关键影响因子。本发明使用特征融合机制进行特征重要性值计算,比类似算法要节省更多时间,能够提高速度和精度,为提升我国反射波段在轨辐射定标与检验的技术水平、进一步提高在轨定标精度和稳定度奠定了基础。

Description

一种卫星辐射数据的偏差影响因子分析方法
技术领域
本发明属于卫星辐射数据分析技术领域,具体是一种卫星辐射数据的偏差影响因子分析方法。
背景技术
查阅相关文献可知,特征选择的方法有很多,其中常见的特征选择方法可分为过滤式(Filter)和封装式(Wrapper)。Filter方法选择效率高,但对噪声数据敏感,一般用于特征的初步筛选。Wrapper方法具有很好的分类准确率,但时间复杂度高,不适用于高维数据。
关键影响因子的筛选对于快速辐射传输模拟至关重要,更是模型预测效果好坏的关键。XGBoost算法由CHEN等在前人关于梯度提升算法的大量研究工作基础上提出的一个基于提升树的机器学习系统。它是GBDT(Gradient Boosting Decision Tree)的高效实现,对代价函数进行了优化,对二阶泰勒进行展开,同时用到了一阶和二阶导数,使得XGBoost得到良好的结果。目前,在数据挖掘、机器学习竞赛等方面适用范围较广,常用来解决网格内容分类、顾客行为预测、竞价排名、特征选择等问题。其主要特点为:运行速度快、计算准确度高、计算复杂度低、具有良好的防过拟合特性等特点,且该算法不仅可以解决分类和回归问题,还能够通过统计属性的重要性度量并进行排序。针对传统特征选择方法存在的问题以及随机森林和XGBoost方法各自的优势,采用特征融合机制对特征的重要性进行计算及排序,从而对关键影响因子进行选择。
发明内容
本发明的目的在于提供一种卫星辐射数据的偏差影响因子分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种卫星辐射数据的偏差影响因子分析方法,针对传统特征选择方法存在的问题以及XGBoost方法的优势,计算XGBoost算法特征重要性并排序,进而筛选出卫星辐射数据偏差的关键影响因子。
一、数据集选取:选取了MODIS的8个可见光波段;
二、数据预处理:基于Aqua MODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
Figure BDA0002919382290000021
其中,平均值表示为
Figure BDA0002919382290000022
标准差表示为
Figure BDA0002919382290000023
根据公式(1)对数据进行标准化,使数据中的特征可以在同一维度下进行对比分析。
三、偏差影响因子分析计算:将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。
一种卫星辐射数据的偏差影响因子分析方法用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
Figure BDA0002919382290000024
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
Figure BDA0002919382290000025
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
作为本发明的再进一步方案:所述步骤一所选取的8个可见光波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
与现有技术相比,本发明使用特征融合机制进行特征重要性值计算,比类似算法要节省更多时间,能够提高速度和精度,为遥感数据的质量分析提供依据,并为提升我国反射波段在轨辐射定标与检验的技术水平、进一步提高在轨定标精度和稳定度奠定了基础。
附图说明
图1为气溶胶AOD数据标准化前结果柱状图。
图2为气溶胶AOD数据标准化后结果柱状图。
图3为卫星天顶角SenZ数据标准化前结果柱状图。
图4为卫星天顶角SenZ数据标准化后结果柱状图。
图5为一种卫星辐射数据的偏差影响因子分析方法基于随机森林方法的特征重要性计算结果的柱状图。
图6为一种卫星辐射数据的偏差影响因子分析方法基于XGBoost算法的特征重要性计算结果的柱状图。
图7为一种卫星辐射数据的偏差影响因子分析方法基于特征融合机制的特征重要性计算流程图。
图8为一种卫星辐射数据的偏差影响因子分析方法基于特征融合机制的特征重要性计算结果的柱状图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
一种卫星辐射数据的偏差影响因子分析方法,针对传统特征选择方法存在的问题以及XGBoost方法的优势,计算XGBoost算法特征重要性并排序,进而筛选出卫星辐射数据偏差的关键影响因子。
一、数据集选取
中分辨率成像光谱仪(The Moderate Resolution Imaging Spectroradiometer,MODIS)搭载在Terra和Aqua卫星上,是一个十分重要的传感器。MODIS目前是作为国内外公认的性能稳定及定标良好的对地观测仪,并且具有复杂的星上定标分析系统,随着我国卫星遥感技术的不断发展,遥感数据在许多领域得到了更加广泛的应用,从而对卫星数据的质量有了更高的要求。MODIS具有36个波段,覆盖了全光谱。本发明研究数据选用了基于版本6、L1b级数据(下载自NASA官网)的精确辐射传输模拟计算的MODIS结果文件作为数据源。选取了MODIS的8个可见光波段,波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
二、数据预处理
由于每个特征具有不同的变化范围,在计算特征之间的相关系数时不同特征所占的比重会有较大差异。为了消除特征量纲和自身变化范围的不同的影响,需要对数据进行标准化。由于本实施例采用的实验数据有局部异常点的存在,所以基于AquaMODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
Figure BDA0002919382290000041
其中,平均值表示为
Figure BDA0002919382290000042
标准差表示为
Figure BDA0002919382290000043
如图1-4所示,根据公式(1)对数据进行标准化,使数据中的特征可以在同一维度下进行对比分析,数据标准化效果以波段1气溶胶AOD、卫星天顶角SenZ为例,由图中直方图分布可得,标准化之前数据分布范围差距较大。标准化之后总体均匀分布在x=0左右两侧,分布范围也在同一维度下,且均值等于0,标准差等于1,符合标准正太分布。
三、偏差影响因子分析计算
如图5所示,利用随机森林进行关键影响因子筛选,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。以波段8为例,随机森林算法特征重要性计算结果,从图2可得,利用随机森林进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、气溶胶(AOT550)、列号(Col)、太阳天顶角(SolZ)、纬度(Lat)、卫星天顶角(SenZ)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,达到0.016,行号的值最小,几乎为0。
如图6所示,利用XGBoost进行关键影响因子筛选时,根据Scikit-learn库函数中的feature_impotance()方法计算特征重要性,并将输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。以波段8为例,XGBoost算法特征重要性计算结果,从图3中可得,利用XGBoost算法进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、卫星天顶角(SenZ)、列号(Col)、太阳天顶角(SolZ)、气溶胶(AOT550)、纬度(Lat)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,达到0.225,行号和风速的值最小,几乎为0,其他属性的排序与随机森林也有一定差别。
其中,关键影响因子筛选的算法,如表1所示:
表1关键影响因子筛选算法
Figure BDA0002919382290000051
Figure BDA0002919382290000061
如图7所示,利用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
Figure BDA0002919382290000062
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
Figure BDA0002919382290000063
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
如图8所示,通过将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,从图5中可得,利用随机森林和XGBoost算法结合计算特征重要性,进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、卫星天顶角(SenZ)、列号(Col)、气溶胶(AOT550)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,行号的值达最小。
经过计算,筛选出的关键影响因子分别为耀斑角GlintA,列号Col,卫星天顶角SenZ,太阳天顶角SolZ,经度Lon,纬度Lat,气溶胶AOD,行号Row,风速WS。进而为后续辐射传输模型的建立提供输入依据。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims (2)

1.一种卫星辐射数据的偏差影响因子分析方法,其特征在于,包括以下步骤:
步骤一、数据集选取:选取了MODIS的8个可见光波段;
步骤二、数据预处理:基于Aqua MODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
Figure FDA0002919382280000011
其中,平均值表示为
Figure FDA0002919382280000012
标准差表示为
Figure FDA0002919382280000013
根据公式(1)对数据进行标准化,使数据中的特征可以在同一维度下进行对比分析;
步骤三、偏差影响因子分析计算:将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示;利用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
Figure FDA0002919382280000014
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
Figure FDA0002919382280000015
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
2.根据权利要求1所述的一种卫星辐射数据的偏差影响因子分析方法,其特征在于,所述步骤一所选取的8个可见光波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
CN202110111106.9A 2020-11-25 2021-01-27 一种卫星辐射数据的偏差影响因子分析方法 Active CN112926625B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011338057 2020-11-25
CN2020113380574 2020-11-25

Publications (2)

Publication Number Publication Date
CN112926625A true CN112926625A (zh) 2021-06-08
CN112926625B CN112926625B (zh) 2023-12-22

Family

ID=76166951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111106.9A Active CN112926625B (zh) 2020-11-25 2021-01-27 一种卫星辐射数据的偏差影响因子分析方法

Country Status (1)

Country Link
CN (1) CN112926625B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114200549A (zh) * 2021-12-10 2022-03-18 北京华云星地通科技有限公司 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744069A (zh) * 2013-12-31 2014-04-23 中国科学院遥感与数字地球研究所 一种针对airs超光谱卫星数据的甲烷廓线正交反演方法
CN109213964A (zh) * 2018-07-13 2019-01-15 中南大学 一种融合多源特征地理参数的卫星aod产品校正方法
CN110197298A (zh) * 2019-05-10 2019-09-03 中国电建集团西北勘测设计研究院有限公司 基于聚类算法的多模型太阳法向辐射预测的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744069A (zh) * 2013-12-31 2014-04-23 中国科学院遥感与数字地球研究所 一种针对airs超光谱卫星数据的甲烷廓线正交反演方法
CN109213964A (zh) * 2018-07-13 2019-01-15 中南大学 一种融合多源特征地理参数的卫星aod产品校正方法
CN110197298A (zh) * 2019-05-10 2019-09-03 中国电建集团西北勘测设计研究院有限公司 基于聚类算法的多模型太阳法向辐射预测的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
霍然: "基于辐射传输模拟的卫星辐射数据分析与评估", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 11, pages 140 - 189 *
马艳红: "卫星辐射数据质量分析与研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 02, pages 028 - 260 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114200549A (zh) * 2021-12-10 2022-03-18 北京华云星地通科技有限公司 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统
CN114200549B (zh) * 2021-12-10 2022-07-01 北京华云星地通科技有限公司 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置

Also Published As

Publication number Publication date
CN112926625B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
US20220051074A1 (en) Quantitative spectral data analysis and processing method based on deep learning
CN107219188B (zh) 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法
CN111126471A (zh) 微地震事件检测方法及系统
CN101915744A (zh) 物质成分含量的近红外光谱无损检测方法及装置
CN102788752A (zh) 基于光谱技术的农作物内部信息无损检测装置及方法
CN112926625A (zh) 一种卫星辐射数据的偏差影响因子分析方法
CN108595414A (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
Cao et al. Hyperspectral inversion of nitrogen content in maize leaves based on different dimensionality reduction algorithms
CN111126511B (zh) 一种基于植被指数融合的lai定量模型建立的方法
CN112098358B (zh) 基于四元数卷积神经网络的近红外光谱并行融合定量检测方法
CN111652092A (zh) 基于Sentinel-2A数据监测森林覆盖变化的方法
CN108573105A (zh) 基于深度置信网络的土壤重金属含量检测模型的建立方法
CN110455726A (zh) 一种实时预测土壤水分和全氮含量的方法
CN105913448A (zh) 基于张量匹配子空间的高光谱图像目标检测方法
Yu et al. Prediction of soil properties based on characteristic wavelengths with optimal spectral resolution by using Vis-NIR spectroscopy
Zhang et al. Combining spectral and texture features of UAV hyperspectral images for leaf nitrogen content monitoring in winter wheat
CN110070004B (zh) 一种应用于深度学习的近地高光谱数据扩展方法
CN111783538A (zh) 小麦生物量的遥感估算方法、装置、电子设备及存储介质
Liu et al. Estimation of chlorophyll content in maize canopy using wavelet denoising and SVR method
CN105447513B (zh) 一种文件墨迹数据实现自动对比的方法和系统
CN111507514A (zh) 大气气溶胶数据预测方法
CN115728290A (zh) 一种土壤中铬元素的检测方法、系统、设备及存储介质
He et al. Local wavelet packet decomposition of soil hyperspectral for SOM estimation
Haiying et al. Hyperspectral characteristic analysis for leaf nitrogen content in different growth stages of winter wheat

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant