CN117421354A - 一种卫星遥感大数据集统计方法、装置及设备 - Google Patents
一种卫星遥感大数据集统计方法、装置及设备 Download PDFInfo
- Publication number
- CN117421354A CN117421354A CN202311746145.1A CN202311746145A CN117421354A CN 117421354 A CN117421354 A CN 117421354A CN 202311746145 A CN202311746145 A CN 202311746145A CN 117421354 A CN117421354 A CN 117421354A
- Authority
- CN
- China
- Prior art keywords
- point pairs
- data
- data point
- deviation
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007619 statistical method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000005070 sampling Methods 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 48
- 230000000903 blocking effect Effects 0.000 claims abstract description 10
- 230000008030 elimination Effects 0.000 claims abstract description 10
- 238000003379 elimination reaction Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Complex Calculations (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开一种卫星遥感大数据集统计方法、装置及设备,涉及卫星遥感技术领域,用于解决现有技术中对大数据集操作困难,以及选取的小数据集无法正确反映原数据集的特性,稳定性差的问题。包括:分块读取待统计卫星遥感大数据集的数据点对;计算数据点对的平均偏差和标准差,并进行3‑σ数据剔除,得到有效数据点对;计算有效数据点对的偏差,并按照偏差大小进行排序;将有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的有效数据点对按比例随机取样;将每一段抽取得到的取样数据进行合并,形成目标数据集,基于目标数据集进行统计计算和绘图。本发明抽取的数据集统计计算结果更接近,多次计算的稳定性更好。
Description
技术领域
本发明涉及卫星遥感技术领域,尤其涉及一种卫星遥感大数据集统计方法、装置及设备。
背景技术
卫星遥感技术可以探测和监视全球大气、地面和海洋状况,具有全天候、大尺度的特点,随着技术的发展,卫星遥感数据具有越来越高的空间分辨率、时间分辨率以及光谱分辨率,这也导致了遥感数据体量的爆炸式增长,这对于遥感数据的处理、评估和应用是巨大的挑战。目前对遥感大数据集进行统计计算的需求越来越多,面对上亿级别的点数,普通计算机的CPU和内存往往都无法支持操作,在统计计算以及绘图时非常困难,耗时巨大且有程序崩溃的风险。目前,现有技术中常规的解决方法是:选取大数据集中的一小部分点进行统计计算和绘图,以此来代表原数据集的结果。
但是,现有技术方法中,选取的小数据集经常无法正确反映原数据集的特性,并且多次选取的小数据集可能无法得到一致的结果,这是是常规方法面对的两个主要问题。
因此,亟需提供一种更为可靠的卫星遥感大数据集统计方案。
发明内容
本发明的目的在于提供一种卫星遥感大数据集统计方法、装置及设备,用于解决现有技术中对大数据集操作困难,以及从中选取的小数据集无法正确反映原数据集的特性,并且稳定性差的问题。
为了实现上述目的,本发明提供如下技术方案:
第一方面,本发明提供一种卫星遥感大数据集统计方法,方法包括:
分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
与现有技术相比,本发明提供的一种卫星遥感大数据集统计方法,方法包括:分块读取待统计卫星遥感大数据集对应的千万级到百亿级的数据点对;计算数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;计算有效数据点对的偏差,并按照偏差大小对有效数据点对进行排序;将有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的有效数据点对按比例随机取样,得到取样数据;将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于目标数据集进行统计计算和绘图。本发明中的方案,基于偏差分段的大数据集抽样,相比常规的随机抽样方法,本方案分块读取数据点对,并基于偏差分段抽取,其抽取的小数据集能够正确反映原数据集的特性,统计计算结果更接近,多次计算的稳定性更好。
第二方面,本发明提供一种卫星遥感大数据集统计装置,装置包括:
分块读取模块,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
数据剔除模块,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
偏差计算模块,用于计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
分段取样模块,用于将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
目标数据集确定模块,用于将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
第三方面,本发明提供一种卫星遥感大数据集统计设备,设备包括:
通信单元/通信接口,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
处理单元/处理器,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
第四方面,本发明提供一种计算机存储介质,所述计算机存储介质中存储有指令,当所述指令被运行时,实现上述的卫星遥感大数据集统计方法。
第二方面提供的装置类方案、第三方面提供的设备类方案以及第四方面提供的计算机存储介质方案所实现的技术效果与第一方面提供的方法类方案相同,此处不再赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明提供的一种卫星遥感大数据集统计方法流程示意图;
图2为本发明提供的原始数据点对的对比散点图及其统计结果示意图;
图3为本发明提供的随机抽样10000点的对比散点图及其统计结果示意图;
图4为本发明提供的利用本发明的方法分段抽样10000点的对比散点图及其统计结果示意图;
图5为本发明提供的一种卫星遥感大数据集统计装置结构示意图;
图6为本发明提供的一种卫星遥感大数据集统计设备结构示意图。
具体实施方式
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一阈值和第二阈值仅仅是为了区分不同的阈值,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本发明中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本发明中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,a和b的结合,a和c的结合,b和c的结合,或a、b和c的结合,其中a,b,c可以是单个,也可以是多个。
选取的小数据集能否正确的反映原数据集的特性,以及多次选取的小数据集能否得到一致的结果,是常规方法面对的两个主要问题。本发明提出的方案,基于偏差分段的大数据集抽样方法,相比常规的随机抽样方法,该方法与原始数据的统计计算结果更接近,多次计算的稳定性更好。
接下来,结合附图对本说明书实施例提供的方案进行说明:
如图1所示,该流程可以包括以下步骤:
步骤110:分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级。
本发明处理的数据为卫星遥感大数据集,数据集中的数据点对数量为千万级到百亿级。卫星遥感领域对大数据集进行统计计算的需求越来越多,面对上亿级别的点数,普通计算机的CPU和内存往往都无法支持操作,在统计计算以及绘图时非常困难,耗时巨大且有程序崩溃的风险。所以需要针对大数据集的统计进行方案设计。
步骤120:计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对。
3-σ准则又称为拉依达准则,可以先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
步骤120的目的是为了剔除大数据集中不满足要求的数据,例如:错误的数据,不能代表大数据特性的数据等等。
步骤130:计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序。
数据集通常包含两列数,一列设为观测值(),一列设为真实值(/>),计算偏差是为了按照偏差值对有效数据点对进行排序,以便于后续进行取样。计算偏差,即两列数之差,按从小到大的顺序进行排列,同时数据点对根据偏差的顺序做对应调整,使之与偏差的原有对应关系不变。
步骤130具体可以包括:
计算所述有效数据点对中的观测值与真实值之间的差值,将所述差值确定为所述有效数据点对的偏差;
按照从小到大的顺序进行排序,并根据所述偏差的顺序对所述有效数据点对中的数据点对进行调整,以使调整后的数据点对与偏差之间的对应关系保持不变。
步骤140:将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据。
本发明中分段的方法与现有技术不同,每个分段的偏差差异会尽可能减小,使分段抽样后的统计计算结果更加接近于原始数据的统计结果,而并非采用常规的聚类法。
步骤150:将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
得到新的数据集之后,基于新的数据集进行统计计算以及绘图。
图1中的方法,方法包括:分块读取待统计卫星遥感大数据集对应的千万级到百亿级的数据点对;计算数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;计算有效数据点对的偏差,并按照偏差大小对有效数据点对进行排序;将有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的有效数据点对按比例随机取样,得到取样数据;将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于目标数据集进行统计计算和绘图。本发明中的方案,基于偏差分段的大数据集抽样,相比常规的随机抽样方法,本方案分块读取数据点对,并基于偏差分段抽取,其抽取的小数据集能够正确反映原数据集的特性,统计计算结果更接近,多次计算的稳定性更好。
基于图1的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
所述待统计卫星遥感大数据集包括两列数据,一列设为观测值(),一列设为真实值(/>)。
统计计算包括计算二者的平均偏差、标准差、均方根误差以及相关系数等统计量。本发明是针对大数据集的,数据点对数通常从千万级到百亿级。若无法一次性读取全部数据,则分块读取。
常规的分块处理是采取将块分成256*256或者512*512的块,对于大数据集来说,这会产生非常多次的磁盘I/O,而磁盘I/O是影响读取效率的重要因素。
与常规的分块处理方法相比,本发明提出的分块策略可以在分块读取的同时兼顾I/O的次数,将I/O次数降到最低。具体地,步骤110中,分块读取待统计卫星遥感大数据集对应的数据点对,具体策略为:
分块时不按固定大小进行读取,而是按照待统计卫星遥感大数据集的(1/2)^n进行分块读取;其中,n为分块的次数,n=1,2,3,…;
将所述待统计卫星遥感大数据集中数据点对全部读取并存进内存;对读取进内存的数据进行偏差以及标准差计算处理。若计算机内存无法容纳全部数据,则对每个分块执行本发明的各步操作(步骤110至步骤150),最后把每个分块抽取的数据点对合并,得到目标数据集。
进一步地,计算所述数据点对的平均偏差和标准差,具体可以包括:
采用公式(1):
(1)
计算存进内存的所述数据点对的平均偏差;其中,mBias表示数据点对的平均偏差,N为数据点对的个数,i为第i个数据点对,表示第i个观测值,/>表示第i个真实值;
采用公式(2):
(2)
计算存进内存的所述数据点对的标准差;其中,mStd表示数据点对的标准差,表示观测值,/>表示真实值。
进行3-σ数据剔除,得到有效数据点对,具体可以包括:
将存进内存的所述数据点对中满足预设剔除条件的数据点对进行剔除,得到有效数据点对;所述预设剔除条件为:Bias<mBias-3*mStd
或者,所述预设剔除条件为:Bias>mBias+3*mStd;其中,Bias表示任意一个数据点对的偏差。
可选的,数据分段的方法,首先设置抽取的子数据集的点数为M,则分段数为N/M,每段的随机取样数为M^2/N。对于有序数据的分段,实质上是找出一些分段点,将数据分为几个分段,每个分段的内部差异最小。本发明,基于偏差的分段,即使每个分段内的偏差差异最小,使分段抽样后的统计计算结果更加接近于原始数据的统计结果。对于本发明的应用目的,统计效率是需要考虑的重要因素,常规的聚类法,需要定义类的直径和损失函数,再求最优解,计算复杂。本发明提出一种更高效的最优分段策略,即段内极差最小法,分段数N/M记为k,计算段内极值,具体方法如下:
基于段内极差最小法进行分段,采用公式(3):
(3)
计算段内极值;其中,表示段内极值,/>为段内最大值,/>为段内最小值,/>=1,2,3,4…k;
利用公式(4):
(4)
根据求得的段内极值,确定每个分段的分割点,在每个分段内按比例随机取样,得到取样数据。
每段随机取样数为:N^2/M,其中,M为数据点对总数,N为设置抽取的子数据集的点数,分段数为M /N。将每一段抽取的M^2/N个点对进行合并,得到点数为M的新数据点对集。
接下来,本说明书结合图2-4以及具体的实验数据对本发明提供的技术方案与现有技术进行比对,以论证本发明的有益效果:
本发明方法与常规随机抽样方法的对比:
使用数据为包含55,390,921个点的数据集,图2为原始数据点对的对比散点图及其统计结果。该图绘制共耗时30s。
图2中没有绘制密度散点图,图2中,点对数量为55390921个,平均偏差为0.047m/s,标准差为1.023 m/s,均方根误差为1.024 m/s,相关系数为0.948。据统计,绘制1亿个点级别的对比密度散点图,耗时在12个小时以上。而密度散点图与普通散点图相比,具有更多误差分布的细节,因此密度散点图的绘制必不可少。
分别使用常规随机抽样的方法和本发明基于偏差分段抽样的方法进行数据的抽取,图3为常规随机抽取10000个点的对比散点图及其统计计算结果。图3中,点对数量为10000个,平均偏差为0.04m/s,标准差为1.016 m/s,均方根误差为1.017 m/s,相关系数为0.949。图4为本发明方法分段抽样10000点的对比散点图及其统计结果。图4中,点对数量为10000个,平均偏差为0.047m/s,标准差为1.02m/s,均方根误差为1.021 m/s,相关系数为0.948。可以发现本发明方法在同样抽取10000个点时的统计计算结果更接近于原数据的结果,其中平均偏差BIAS与原数据相同。
表1. 原始数据、常规随机抽样、本发明抽样多次统计计算结果对比表
表1为原始数据的统计计算结果,以及随机抽样1万、2万、3万和10万个点的统计计算结果,其中,本发明抽样为分段抽样。表1中还包括本发明分段抽样1万、2万、3万和10万个点的统计计算结果。
通过实验发现,随机抽样法统计计算的结果与原始结果的符合程度很大程度上取决于抽样的数量,并且结果不稳定。而本发明基于偏差分段的数据抽样方法的统计计算结果的BIAS与原始数据完全相同,STD和RMSE也比随机抽样更接近于原始数据,误差非常小(~0.001)。证明了分段抽样法对原始数据的代表程度好于随机抽样。
为了进一步评估基于偏差分段抽样方法的稳定性,分别做了2次对比实验,对于随机抽样法和本发明分段抽样法,分别测试100次,对于得出的100次统计结果,计算其STD,以评估方法的稳定性。数据如表2:
表2. 随机抽样和分段抽样法实验100次的各统计量的稳定性结果表
由表2可以得出,基于偏差分段抽样的统计计算结果远比随机抽样的结果稳定,证明了本发明数据抽样方法具有很好的稳定性。
通过上述论述、比对和实验数据,可以确定,本方案中提供的方案,设计的数据分块读取的策略,可以将I/O次数降到最低,根据偏差进行分段抽样的策略以及分段的方法可以具有更好的稳定性,基于本发明的方案,可以快速完成大数据集的统计计算以及绘图,结果可靠。
基于同样的思路,本发明还提供一种卫星遥感大数据集统计装置,如图5所示,所述装置可以包括:
分块读取模块510,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
数据剔除模块520,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
偏差计算模块530,用于计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
分段取样模块540,用于将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
目标数据集确定模块550,用于将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
基于图5中的装置,还可以包括一些具体的实施单元:
可选的,所述待统计卫星遥感大数据集包括两列数据,一列为观测值,另一列为真实值;
所述分块读取模块510具体可以包括:
分块抽取单元,用于按照待统计卫星遥感大数据集的(1/2)^n进行分块读取;其中,n为分块的次数,n=1,2,3,…;
存储单元,用于将所述待统计卫星遥感大数据集中数据点对全部读取并存进内存;对读取进内存的数据进行偏差以及标准差计算处理。
可选的,数据剔除模块520中计算所述数据点对的平均偏差和标准差,具体包括:
采用公式:
;
计算存进内存的所述数据点对的平均偏差;其中,mBias表示数据点对的平均偏差,N为数据点对的个数,i为第i个数据点对,表示第i个观测值,/>表示第i个真实值;
采用公式:
;
计算存进内存的所述数据点对的标准差;其中,mStd表示数据点对的标准差,表示观测值,/>表示真实值。
可选的,数据剔除模块520中,进行3-σ数据剔除,得到有效数据点对,具体包括:
将存进内存的所述数据点对中满足预设剔除条件的数据点对进行剔除,得到有效数据点对;所述预设剔除条件为:Bias<mBias-3*mStd
或者,所述预设剔除条件为:Bias>mBias+3*mStd;其中,Bias表示任意一个数据点对的偏差。
可选的,将分段取样模块540,具体可以包括:
段内极差计算单元,用于基于段内极差最小法进行分段,采用公式:
;
计算段内极值;其中,表示段内极值,/>为段内最大值,/>为段内最小值,/>=1,2,3,4…k;
分段取样单元,用于利用公式:
;
根据求得的段内极值,在每个分段内按比例随机取样,得到取样数据。
可选的,偏差计算模块530具体可以包括:
偏差计算单元,用于计算所述有效数据点对中的观测值与真实值之间的差值,将所述差值确定为所述有效数据点对的偏差;
排序单元,用于按照从小到大的顺序进行排序,并根据所述偏差的顺序对所述有效数据点对中的数据点对进行调整,以使调整后的数据点对与偏差之间的对应关系保持不变。
可选的,每段随机取样数为:N^2/M,其中,M为数据点对总数,N为设置抽取的子数据集的点数,分段数为M /N。
基于同样的思路,本说明书实施例还提供了一种卫星遥感大数据集统计设备。如图6所示,可以包括:
通信单元/通信接口,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
处理单元/处理器,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
如图6所示,上述终端设备还可以包括通信线路。通信线路可包括一通路,在上述组件之间传送信息。
可选的,如图6所示,该终端设备还可以包括存储器。存储器用于存储执行本发明方案的计算机执行指令,并由处理器来控制执行。处理器用于执行存储器中存储的计算机执行指令,从而实现本发明实施例提供的方法。
在具体实现中,作为一种实施例,如图6所示,处理器可以包括一个或多个CPU,如图6中的CPU0和CPU1。
在具体实现中,作为一种实施例,如图6所示,终端设备可以包括多个处理器,如图6中的处理器。这些处理器中的每一个可以是一个单核处理器,也可以是一个多核处理器。
基于同样的思路,本说明书实施例还提供了上述实施例对应的计算机存储介质,计算机存储介质中存储有指令,当所述指令被运行时,实现上述实施例中的方法。
上述主要从各个模块之间交互的角度对本发明实施例提供的方案进行了介绍。可以理解的是,各个模块为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件单元。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本说明书中的处理器还可以具有存储器的功能。存储器用于存储执行本发明方案的计算机执行指令,并由处理器来控制执行。处理器用于执行存储器中存储的计算机执行指令,从而实现本发明实施例提供的方法。
存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路与处理器相连接。存储器也可以和处理器集成在一起。
可选的,本发明实施例中的计算机执行指令也可以称之为应用程序代码,本发明实施例对此不作具体限定。
上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASIC、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
一种可能的实现方式中,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令被运行时,用于实现上述实施例中的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘(digital video disc,DVD);还可以是半导体介质,例如,固态硬盘(solid state drive,SSD)。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种卫星遥感大数据集统计方法,其特征在于,方法包括:
分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
2.根据权利要求1所述的卫星遥感大数据集统计方法,其特征在于,所述待统计卫星遥感大数据集包括两列数据,一列为观测值,另一列为真实值;
所述分块读取待统计卫星遥感大数据集对应的数据点对,具体包括:
按照待统计卫星遥感大数据集的(1/2)^n进行分块读取;其中,n为分块的次数,n=1,2,3,…;
将所述待统计卫星遥感大数据集中数据点对全部读取并存进内存;对读取进内存的数据进行偏差以及标准差计算处理。
3.根据权利要求2所述的卫星遥感大数据集统计方法,其特征在于,计算所述数据点对的平均偏差和标准差,具体包括:
采用公式:
;
计算存进内存的所述数据点对的平均偏差;其中,mBias表示数据点对的平均偏差,N为数据点对的个数,i为第i个数据点对,表示第i个观测值,/>表示第i个真实值;
采用公式:
;
计算存进内存的所述数据点对的标准差;其中,mStd表示数据点对的标准差,表示观测值,/>表示真实值。
4.根据权利要求3所述的卫星遥感大数据集统计方法,其特征在于,进行3-σ数据剔除,得到有效数据点对,具体包括:
将存进内存的所述数据点对中满足预设剔除条件的数据点对进行剔除,得到有效数据点对;所述预设剔除条件为:Bias<mBias-3*mStd
或者,所述预设剔除条件为:Bias>mBias+3*mStd;其中,Bias表示任意一个数据点对的偏差。
5.根据权利要求1所述的卫星遥感大数据集统计方法,其特征在于,将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据,具体包括:
基于段内极差最小法进行分段,采用公式:
;
计算段内极值;其中,表示段内极值,/>为段内最大值,/>为段内最小值,/> =1,2,3,4…k;
利用公式:
;
根据求得的段内极值,在每个分段内按比例随机取样,得到取样数据。
6.根据权利要求4所述的卫星遥感大数据集统计方法,其特征在于,计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序,具体包括:
计算所述有效数据点对中的观测值与真实值之间的差值,将所述差值确定为所述有效数据点对的偏差;
按照从小到大的顺序进行排序,并根据所述偏差的顺序对所述有效数据点对中的数据点对进行调整,以使调整后的数据点对与偏差之间的对应关系保持不变。
7.根据权利要求5所述的卫星遥感大数据集统计方法,其特征在于,每段随机取样数为:N^2/M,其中,M为数据点对总数,N为设置抽取的子数据集的点数,分段数为M /N。
8.一种卫星遥感大数据集统计装置,其特征在于,装置包括:
分块读取模块,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
数据剔除模块,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
偏差计算模块,用于计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
分段取样模块,用于将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
目标数据集确定模块,用于将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
9.一种卫星遥感大数据集统计设备,其特征在于,设备包括:
通信单元/通信接口,用于分块读取待统计卫星遥感大数据集对应的数据点对;所述数据点对的数量为千万级到百亿级;
处理单元/处理器,用于计算所述数据点对的平均偏差和标准差,并进行3-σ数据剔除,得到有效数据点对;
计算所述有效数据点对的偏差,并按照所述偏差大小对所述有效数据点对进行排序;
将所述有效数据点对根据段内极差最小法进行分段,并根据要抽取的数据总数,对分段后的所述有效数据点对按比例随机取样,得到取样数据;
将每一段抽取得到的取样数据进行合并,形成目标数据集,并基于所述目标数据集进行统计计算和绘图。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当所述指令被运行时,实现权利要求1~7任一项所述的卫星遥感大数据集统计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746145.1A CN117421354B (zh) | 2023-12-19 | 2023-12-19 | 一种卫星遥感大数据集统计方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746145.1A CN117421354B (zh) | 2023-12-19 | 2023-12-19 | 一种卫星遥感大数据集统计方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117421354A true CN117421354A (zh) | 2024-01-19 |
CN117421354B CN117421354B (zh) | 2024-03-19 |
Family
ID=89528870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311746145.1A Active CN117421354B (zh) | 2023-12-19 | 2023-12-19 | 一种卫星遥感大数据集统计方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421354B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881475A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 一种用于大数据随机抽样的方法和系统 |
CN107273493A (zh) * | 2017-06-15 | 2017-10-20 | 浙江大学宁波理工学院 | 一种大数据环境下的数据优化及快速抽样方法 |
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
WO2019169619A1 (zh) * | 2018-03-09 | 2019-09-12 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN110618986A (zh) * | 2019-09-04 | 2019-12-27 | 水晶球教育信息技术有限公司 | 一种大数据统计抽样方法、装置、服务器及存储介质 |
WO2022048196A1 (zh) * | 2020-09-03 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 一种监测工业生产指数的方法及装置 |
CN115168788A (zh) * | 2022-09-07 | 2022-10-11 | 中国科学院空天信息创新研究院 | 卫星遥感大数据的确定方法、装置、设备及介质 |
CN115358308A (zh) * | 2022-08-12 | 2022-11-18 | 天翼数字生活科技有限公司 | 一种大数据实例约简方法、装置、电子设备及存储介质 |
-
2023
- 2023-12-19 CN CN202311746145.1A patent/CN117421354B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881475A (zh) * | 2015-06-02 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 一种用于大数据随机抽样的方法和系统 |
CN107273493A (zh) * | 2017-06-15 | 2017-10-20 | 浙江大学宁波理工学院 | 一种大数据环境下的数据优化及快速抽样方法 |
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
WO2019169619A1 (zh) * | 2018-03-09 | 2019-09-12 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN110618986A (zh) * | 2019-09-04 | 2019-12-27 | 水晶球教育信息技术有限公司 | 一种大数据统计抽样方法、装置、服务器及存储介质 |
WO2022048196A1 (zh) * | 2020-09-03 | 2022-03-10 | 深圳前海微众银行股份有限公司 | 一种监测工业生产指数的方法及装置 |
CN115358308A (zh) * | 2022-08-12 | 2022-11-18 | 天翼数字生活科技有限公司 | 一种大数据实例约简方法、装置、电子设备及存储介质 |
CN115168788A (zh) * | 2022-09-07 | 2022-10-11 | 中国科学院空天信息创新研究院 | 卫星遥感大数据的确定方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
MUHAMMAD MAZHAR 等: "Real-time big data analytical arthitecture for remote sensing application", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING》, vol. 8, no. 10, 31 October 2015 (2015-10-31), pages 4610 - 4621, XP011591360, DOI: 10.1109/JSTARS.2015.2424683 * |
李德仁 等: "遥感大数据自动分析与数据挖掘", 《测绘学报》, vol. 43, no. 12, 31 December 2014 (2014-12-31), pages 1211 - 1216 * |
Also Published As
Publication number | Publication date |
---|---|
CN117421354B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991311B (zh) | 一种基于密集连接深度网络的目标检测方法 | |
US10216558B1 (en) | Predicting drive failures | |
KR101045429B1 (ko) | 프레임-기반 데이터의 가변 분해능 프로세싱 | |
US8990792B2 (en) | Method for constructing dynamic call graph of application | |
US20220075794A1 (en) | Similarity analyses in analytics workflows | |
US20160034201A1 (en) | Managing de-duplication using estimated benefits | |
CN108881947A (zh) | 一种直播流的侵权检测方法及装置 | |
CN106486167B (zh) | 改进闪速存储器清除的方法和系统 | |
WO2017020735A1 (zh) | 一种数据处理方法、备份服务器及存储系统 | |
CN106598997B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN114741544A (zh) | 图像检索方法、检索库构建方法、装置、电子设备及介质 | |
WO2022111178A1 (en) | Clustering and archiving method, apparatus, device and computer storage medium | |
CN117421354B (zh) | 一种卫星遥感大数据集统计方法、装置及设备 | |
CN109670153A (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
CN103824001A (zh) | 染色体的检测方法和装置 | |
WO2021027162A1 (zh) | 一种非满格表格内容提取方法、装置及终端设备 | |
CN110046632B (zh) | 模型训练方法和装置 | |
CN113255610A (zh) | 特征底库构建、特征检索方法以及相关装置 | |
CN114115719B (zh) | 基于io模式识别的io批量处理方法、装置及存储介质 | |
CN114138552B (zh) | 数据动态重删方法、系统、终端及存储介质 | |
CN115579054B (zh) | 单细胞拷贝数变异探测方法、装置、设备及介质 | |
CN115454983B (zh) | 一种基于布隆过滤器的海量Hbase数据去重方法 | |
CN117166996B (zh) | 地质参数门槛值的确定方法、装置、设备及存储介质 | |
CN113932703B (zh) | 一种形变监测雷达区域数据处理方法 | |
US20240096079A1 (en) | Method for detecting image sizes, computer device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |