CN112926625A - 一种卫星辐射数据的偏差影响因子分析方法 - Google Patents
一种卫星辐射数据的偏差影响因子分析方法 Download PDFInfo
- Publication number
- CN112926625A CN112926625A CN202110111106.9A CN202110111106A CN112926625A CN 112926625 A CN112926625 A CN 112926625A CN 202110111106 A CN202110111106 A CN 202110111106A CN 112926625 A CN112926625 A CN 112926625A
- Authority
- CN
- China
- Prior art keywords
- data
- deviation
- satellite
- influence factors
- feature importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000005855 radiation Effects 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000000443 aerosol Substances 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 9
- 238000000556 factor analysis Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 abstract description 2
- 238000010187 selection method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种卫星辐射数据的偏差影响因子分析方法,属于卫星辐射数据分析技术领域,包括数据集选取、数据预处理和偏差影响因子分析计算三个步骤,该方法在面对大量的、多维的数据时,对卫星辐射数据的偏差与输入特征的相关性进行分析,初步筛选出偏差的影响因子;然后采用机器学习方法对特征重要性进行计算并排序,最终筛选出偏差的关键影响因子。本发明使用特征融合机制进行特征重要性值计算,比类似算法要节省更多时间,能够提高速度和精度,为提升我国反射波段在轨辐射定标与检验的技术水平、进一步提高在轨定标精度和稳定度奠定了基础。
Description
技术领域
本发明属于卫星辐射数据分析技术领域,具体是一种卫星辐射数据的偏差影响因子分析方法。
背景技术
查阅相关文献可知,特征选择的方法有很多,其中常见的特征选择方法可分为过滤式(Filter)和封装式(Wrapper)。Filter方法选择效率高,但对噪声数据敏感,一般用于特征的初步筛选。Wrapper方法具有很好的分类准确率,但时间复杂度高,不适用于高维数据。
关键影响因子的筛选对于快速辐射传输模拟至关重要,更是模型预测效果好坏的关键。XGBoost算法由CHEN等在前人关于梯度提升算法的大量研究工作基础上提出的一个基于提升树的机器学习系统。它是GBDT(Gradient Boosting Decision Tree)的高效实现,对代价函数进行了优化,对二阶泰勒进行展开,同时用到了一阶和二阶导数,使得XGBoost得到良好的结果。目前,在数据挖掘、机器学习竞赛等方面适用范围较广,常用来解决网格内容分类、顾客行为预测、竞价排名、特征选择等问题。其主要特点为:运行速度快、计算准确度高、计算复杂度低、具有良好的防过拟合特性等特点,且该算法不仅可以解决分类和回归问题,还能够通过统计属性的重要性度量并进行排序。针对传统特征选择方法存在的问题以及随机森林和XGBoost方法各自的优势,采用特征融合机制对特征的重要性进行计算及排序,从而对关键影响因子进行选择。
发明内容
本发明的目的在于提供一种卫星辐射数据的偏差影响因子分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种卫星辐射数据的偏差影响因子分析方法,针对传统特征选择方法存在的问题以及XGBoost方法的优势,计算XGBoost算法特征重要性并排序,进而筛选出卫星辐射数据偏差的关键影响因子。
一、数据集选取:选取了MODIS的8个可见光波段;
二、数据预处理:基于Aqua MODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
三、偏差影响因子分析计算:将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。
一种卫星辐射数据的偏差影响因子分析方法用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
作为本发明的再进一步方案:所述步骤一所选取的8个可见光波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
与现有技术相比,本发明使用特征融合机制进行特征重要性值计算,比类似算法要节省更多时间,能够提高速度和精度,为遥感数据的质量分析提供依据,并为提升我国反射波段在轨辐射定标与检验的技术水平、进一步提高在轨定标精度和稳定度奠定了基础。
附图说明
图1为气溶胶AOD数据标准化前结果柱状图。
图2为气溶胶AOD数据标准化后结果柱状图。
图3为卫星天顶角SenZ数据标准化前结果柱状图。
图4为卫星天顶角SenZ数据标准化后结果柱状图。
图5为一种卫星辐射数据的偏差影响因子分析方法基于随机森林方法的特征重要性计算结果的柱状图。
图6为一种卫星辐射数据的偏差影响因子分析方法基于XGBoost算法的特征重要性计算结果的柱状图。
图7为一种卫星辐射数据的偏差影响因子分析方法基于特征融合机制的特征重要性计算流程图。
图8为一种卫星辐射数据的偏差影响因子分析方法基于特征融合机制的特征重要性计算结果的柱状图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
一种卫星辐射数据的偏差影响因子分析方法,针对传统特征选择方法存在的问题以及XGBoost方法的优势,计算XGBoost算法特征重要性并排序,进而筛选出卫星辐射数据偏差的关键影响因子。
一、数据集选取
中分辨率成像光谱仪(The Moderate Resolution Imaging Spectroradiometer,MODIS)搭载在Terra和Aqua卫星上,是一个十分重要的传感器。MODIS目前是作为国内外公认的性能稳定及定标良好的对地观测仪,并且具有复杂的星上定标分析系统,随着我国卫星遥感技术的不断发展,遥感数据在许多领域得到了更加广泛的应用,从而对卫星数据的质量有了更高的要求。MODIS具有36个波段,覆盖了全光谱。本发明研究数据选用了基于版本6、L1b级数据(下载自NASA官网)的精确辐射传输模拟计算的MODIS结果文件作为数据源。选取了MODIS的8个可见光波段,波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
二、数据预处理
由于每个特征具有不同的变化范围,在计算特征之间的相关系数时不同特征所占的比重会有较大差异。为了消除特征量纲和自身变化范围的不同的影响,需要对数据进行标准化。由于本实施例采用的实验数据有局部异常点的存在,所以基于AquaMODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
如图1-4所示,根据公式(1)对数据进行标准化,使数据中的特征可以在同一维度下进行对比分析,数据标准化效果以波段1气溶胶AOD、卫星天顶角SenZ为例,由图中直方图分布可得,标准化之前数据分布范围差距较大。标准化之后总体均匀分布在x=0左右两侧,分布范围也在同一维度下,且均值等于0,标准差等于1,符合标准正太分布。
三、偏差影响因子分析计算
如图5所示,利用随机森林进行关键影响因子筛选,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。以波段8为例,随机森林算法特征重要性计算结果,从图2可得,利用随机森林进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、气溶胶(AOT550)、列号(Col)、太阳天顶角(SolZ)、纬度(Lat)、卫星天顶角(SenZ)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,达到0.016,行号的值最小,几乎为0。
如图6所示,利用XGBoost进行关键影响因子筛选时,根据Scikit-learn库函数中的feature_impotance()方法计算特征重要性,并将输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示。以波段8为例,XGBoost算法特征重要性计算结果,从图3中可得,利用XGBoost算法进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、卫星天顶角(SenZ)、列号(Col)、太阳天顶角(SolZ)、气溶胶(AOT550)、纬度(Lat)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,达到0.225,行号和风速的值最小,几乎为0,其他属性的排序与随机森林也有一定差别。
其中,关键影响因子筛选的算法,如表1所示:
表1关键影响因子筛选算法
如图7所示,利用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
如图8所示,通过将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,从图5中可得,利用随机森林和XGBoost算法结合计算特征重要性,进行关键影响因子筛选时,特征重要性计算结果从高到低排序结果分别为:耀斑角(GlintA)、卫星天顶角(SenZ)、列号(Col)、气溶胶(AOT550)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、风速(WS)、行号(Row),耀斑角属性的值最大,行号的值达最小。
经过计算,筛选出的关键影响因子分别为耀斑角GlintA,列号Col,卫星天顶角SenZ,太阳天顶角SolZ,经度Lon,纬度Lat,气溶胶AOD,行号Row,风速WS。进而为后续辐射传输模型的建立提供输入依据。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各种变化。
Claims (2)
1.一种卫星辐射数据的偏差影响因子分析方法,其特征在于,包括以下步骤:
步骤一、数据集选取:选取了MODIS的8个可见光波段;
步骤二、数据预处理:基于Aqua MODIS卫星辐射数据的均值和方差进行数据标准化,将原始卫星数据使用z-score方法进行标准化。具体标准化公式如(1)所示:
步骤三、偏差影响因子分析计算:将随机森林和XGBoost算法的模型融合机制进行特征重要性计算,作为最终特征重要性计算结果,输入属性耀斑角(GlintA)、列号(Col)、卫星天顶角(SenZ)、太阳天顶角(SolZ)、纬度(Lat)、经度(Lon)、气溶胶(AOT550)、风速(WS)等的计算结果以柱状图进行展示;利用特征融合机制进行特征重要性计算机的流程如下:
S1:基于观测模拟制图初步得到的偏差影响因子,进行数据标准化处理;
S2:偏差与特征相关性分析,并进行模拟观测制图,从而初步得到偏差的影响因子,
S3:构建样本训练集和测试集;
S4:基于模型融合机制构建训练模型,并对模型的参数进行初始化设置,
S5:不断迭代,直到满足预测精度要求,结束训练;
S6:输出特征重要性计算结果,以及最终确定的偏差关键影响因子和每个因子的贡献度。
2.根据权利要求1所述的一种卫星辐射数据的偏差影响因子分析方法,其特征在于,所述步骤一所选取的8个可见光波段号分别为1、3、4,8、9、10、11、12,对应的波长分别为645nm、469nm、555nm、412nm、443nm、488nm、531nm、547nm。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338057 | 2020-11-25 | ||
CN2020113380574 | 2020-11-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926625A true CN112926625A (zh) | 2021-06-08 |
CN112926625B CN112926625B (zh) | 2023-12-22 |
Family
ID=76166951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110111106.9A Active CN112926625B (zh) | 2020-11-25 | 2021-01-27 | 一种卫星辐射数据的偏差影响因子分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926625B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114200549A (zh) * | 2021-12-10 | 2022-03-18 | 北京华云星地通科技有限公司 | 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统 |
CN115994327A (zh) * | 2023-03-22 | 2023-04-21 | 山东能源数智云科技有限公司 | 基于边缘计算的设备故障诊断方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744069A (zh) * | 2013-12-31 | 2014-04-23 | 中国科学院遥感与数字地球研究所 | 一种针对airs超光谱卫星数据的甲烷廓线正交反演方法 |
CN109213964A (zh) * | 2018-07-13 | 2019-01-15 | 中南大学 | 一种融合多源特征地理参数的卫星aod产品校正方法 |
CN110197298A (zh) * | 2019-05-10 | 2019-09-03 | 中国电建集团西北勘测设计研究院有限公司 | 基于聚类算法的多模型太阳法向辐射预测的方法及装置 |
-
2021
- 2021-01-27 CN CN202110111106.9A patent/CN112926625B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744069A (zh) * | 2013-12-31 | 2014-04-23 | 中国科学院遥感与数字地球研究所 | 一种针对airs超光谱卫星数据的甲烷廓线正交反演方法 |
CN109213964A (zh) * | 2018-07-13 | 2019-01-15 | 中南大学 | 一种融合多源特征地理参数的卫星aod产品校正方法 |
CN110197298A (zh) * | 2019-05-10 | 2019-09-03 | 中国电建集团西北勘测设计研究院有限公司 | 基于聚类算法的多模型太阳法向辐射预测的方法及装置 |
Non-Patent Citations (2)
Title |
---|
霍然: "基于辐射传输模拟的卫星辐射数据分析与评估", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 11, pages 140 - 189 * |
马艳红: "卫星辐射数据质量分析与研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 02, pages 028 - 260 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114200549A (zh) * | 2021-12-10 | 2022-03-18 | 北京华云星地通科技有限公司 | 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统 |
CN114200549B (zh) * | 2021-12-10 | 2022-07-01 | 北京华云星地通科技有限公司 | 一种基于稳定目标的遥感仪器辐射稳定性检测方法及系统 |
CN115994327A (zh) * | 2023-03-22 | 2023-04-21 | 山东能源数智云科技有限公司 | 基于边缘计算的设备故障诊断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112926625B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533631B (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
US20220051074A1 (en) | Quantitative spectral data analysis and processing method based on deep learning | |
CN107219188B (zh) | 一种基于改进dbn的近红外光谱分析纺织品棉含量的方法 | |
CN111126471A (zh) | 微地震事件检测方法及系统 | |
CN101915744A (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
CN102788752A (zh) | 基于光谱技术的农作物内部信息无损检测装置及方法 | |
CN112926625A (zh) | 一种卫星辐射数据的偏差影响因子分析方法 | |
CN108595414A (zh) | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 | |
Cao et al. | Hyperspectral inversion of nitrogen content in maize leaves based on different dimensionality reduction algorithms | |
CN111126511B (zh) | 一种基于植被指数融合的lai定量模型建立的方法 | |
CN112098358B (zh) | 基于四元数卷积神经网络的近红外光谱并行融合定量检测方法 | |
CN111652092A (zh) | 基于Sentinel-2A数据监测森林覆盖变化的方法 | |
CN108573105A (zh) | 基于深度置信网络的土壤重金属含量检测模型的建立方法 | |
CN110455726A (zh) | 一种实时预测土壤水分和全氮含量的方法 | |
CN105913448A (zh) | 基于张量匹配子空间的高光谱图像目标检测方法 | |
Yu et al. | Prediction of soil properties based on characteristic wavelengths with optimal spectral resolution by using Vis-NIR spectroscopy | |
Zhang et al. | Combining spectral and texture features of UAV hyperspectral images for leaf nitrogen content monitoring in winter wheat | |
CN110070004B (zh) | 一种应用于深度学习的近地高光谱数据扩展方法 | |
CN111783538A (zh) | 小麦生物量的遥感估算方法、装置、电子设备及存储介质 | |
Liu et al. | Estimation of chlorophyll content in maize canopy using wavelet denoising and SVR method | |
CN105447513B (zh) | 一种文件墨迹数据实现自动对比的方法和系统 | |
CN111507514A (zh) | 大气气溶胶数据预测方法 | |
CN115728290A (zh) | 一种土壤中铬元素的检测方法、系统、设备及存储介质 | |
He et al. | Local wavelet packet decomposition of soil hyperspectral for SOM estimation | |
Haiying et al. | Hyperspectral characteristic analysis for leaf nitrogen content in different growth stages of winter wheat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |