CN110147367A - 一种温度缺失数据填补方法、系统及电子设备 - Google Patents

一种温度缺失数据填补方法、系统及电子设备 Download PDF

Info

Publication number
CN110147367A
CN110147367A CN201910396861.9A CN201910396861A CN110147367A CN 110147367 A CN110147367 A CN 110147367A CN 201910396861 A CN201910396861 A CN 201910396861A CN 110147367 A CN110147367 A CN 110147367A
Authority
CN
China
Prior art keywords
website
filled
temperature data
temperature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910396861.9A
Other languages
English (en)
Other versions
CN110147367B (zh
Inventor
卢晓雄
李晴岚
李磊
陈潜
孙立群
王霄雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Meteorological Bureau
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Meteorological Bureau
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Meteorological Bureau, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Meteorological Bureau
Priority to CN201910396861.9A priority Critical patent/CN110147367B/zh
Publication of CN110147367A publication Critical patent/CN110147367A/zh
Application granted granted Critical
Publication of CN110147367B publication Critical patent/CN110147367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种温度缺失数据填补方法、系统及电子设备。包括:步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据温度数据统计待填补站点与各个观测站的共有时间序列;步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。本申请改善了温度数据填补的精确度与可操作性。

Description

一种温度缺失数据填补方法、系统及电子设备
技术领域
本申请属于气象服务技术领域,特别涉及一种温度缺失数据填补方法、系统及电子设备。
背景技术
温度数据是气象观测站通过一些设备或者人工方法测得,然后通过计算机系统录入数据。一方面现阶段我国各地区气象观测站密度相对较大且设备随着时间增长易出现故障,这无疑增加了各观测站数据缺失的可能性。另一方面,在计算机系统的录入过程中也有可能出现数据的遗漏。温度数据的缺失会在一定程度上使气象研究人员统计分析的结果出现偏差,影响相关部门制定相应措施。
目前针对各类属性的气象缺失数据更多的是通过统计学方法进行统一填补,其中包括临近法、平均值等具有代表性的数值填补方法,以及通过设计统计优化算法进行数据填补。在申请公布号为CN104280791A的专利中,通过缺失值前后数据的平均值和预设时间段内的数据平均值的填补方法,针对不同的缺失情况完成数据填补。在申请公布号CN108897719A的专利中,利用线性插值法和相关性分类法计算缺失值,通过建立遗传算法目标函数计算出两种方法的最优权重系数,从而对缺失值填补。
在处理温度数据连续缺失时,虽然利用申请公布号为CN108897719A的填补方法相比于申请公布号为CN104280791A的方法更加准确、且不用预先设置值。但一方面该方法在相关性分类方法计算缺失值的过程中,是讨论缺失数据的属性与同一个站其他属性之间的相关性,这样就需要有其他属性的同时刻数据,当只有温度数据时无从填补。另一方面温度作为一种气象数据,在同一地区内各地的温度可能相差不大,这就使得高密度观测站下各个观测站的温度数据一定具有很强的相关性。并且当数据缺失时,大都不会出现一个地区内所有站点温度数据都有缺失,这样可以充分利用未缺失站点的信息进行数据填补,现有技术均未考虑该点。同时,现有专利更多的是针对各类气象数据整体缺失的通用填补,并没有针对一种单一温度数据缺失的填补方法可供参考。
发明内容
本申请提供了一种温度缺失数据填补方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种温度缺失数据填补方法,包括以下步骤:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
本申请实施例采取的技术方案还包括:所述步骤a还包括:根据所述待填补站点的温度数据确定待填补站点的温度数据缺失时刻信息。
本申请实施例采取的技术方案还包括:所述步骤b还包括:根据所述相关系数计算结果对至少一个填补参考站点进行相关性由强到弱的排序,将相关系数绝对值最大的填补参考站点作为第一填补参考站,并依次确定得到k个填补参考站点。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补具体为:根据填补参考站点的相关性排序结果,依次利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据依次进行k次填补,其中,k为填补参考站点的数量。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述线性函数拟合公式为:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3
上述公式中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
本申请实施例采取的另一技术方案为:种温度缺失数据填补系统,包括:
数据读取模块:用于分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据;
时间序列统计模块:用于根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
站点筛选模块:用于利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
第一数据填补模块:用于利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
本申请实施例采取的技术方案还包括:所述数据读取模块还用于根据所述待填补站点的温度数据确定待填补站点的温度数据缺失时刻信息。
本申请实施例采取的技术方案还包括:所述站点筛选模块还用于根据所述相关系数计算结果对至少一个填补参考站点进行相关性由强到弱的排序,将相关系数绝对值最大的填补参考站点作为第一填补参考站,并依次确定得到k个填补参考站点。
本申请实施例采取的技术方案还包括:所述第一数据填补模块利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补具体为:根据填补参考站点的相关性排序结果,依次利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据依次进行k次填补,其中,k为填补参考站点的数量。
本申请实施例采取的技术方案还包括:所述线性函数拟合公式为:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3
上述公式中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的温度缺失数据填补方法的以下操作:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的温度缺失数据填补方法、系统及电子设备在数据填补的过程中充分利用与其相关性最强的几个站点的温度数据进行填补,改善现阶段温度数据填补的精确度与可操作性,克服了部分观测站连续时间段缺失时利用前后时刻插值或者取均值等统计方法所带来的误差。且本申请操作简单、易于理解,对气象研究工作者获取完整的温度数据以及气象大数据应用具有重要意义。
附图说明
图1是本申请实施例的温度缺失数据填补方法的流程图;
图2是本申请实施例的温度缺失数据填补系统的结构示意图;
图3是本申请实施例提供的温度缺失数据填补方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的温度缺失数据填补方法的流程图。本申请实施例的温度缺失数据填补方法包括以下步骤:
步骤100:读取待填补站点的温度数据,并确定待填补站点的温度数据缺失时刻信息;
步骤100中,温度数据缺失时刻信息的统计方法具体为:由于气象数据集包括月、日、时、分等不同时间节点的数据集,因此需要根据原始温度数据的不同时间节点确定具体缺失时刻,例如,如果原始温度数据是小时温度数据,即温度数据是每一个小时记录一次,而待填补站点在该小时内无温度数据记录,则判定该时刻为温度数据缺失时刻。其他时间节点的温度数据缺失时刻统计方法类似。
步骤200:分别统计与待填补站点位于同一地区的各个观测站的温度数据,并根据温度数据统计待填补站点与各个观测站的共有时间序列;
步骤300:利用待填补站点与多个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,根据相关系数的绝对值大小筛选出与待填补站点相关性最强的k个观测站作为填补参考站点,并根据相关性强度对k个填补参考站点进行由强到弱的排序;
步骤400:根据k个填补参考站点的排序结果,利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过k个线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据进行k次填补;
步骤400中,线性函数拟合公式如下:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3 (1)
公式(1)中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
本申请实施例中,温度数据填补方法具体为:当待填补站点有温度数据缺失情况下,根据填补参考站点的排序结果,首先利用第一填补参考站点的温度数据,按拟合的线性函数f1对待填补站点缺失时刻的温度数据进行第一次填补;填补一次后,判断待填补站点是否仍有温度数据缺失,若仍有缺失,则根据填补参考站点排序结果找到第二填补参考站点,利用第二填补参考站点的温度数据,按拟合的线性函数f2对待填补站点缺失时刻的温度数据进行第二次填补;以此类推完成k次填补。
步骤500:判断待填补站点填补后的温度数据是否完整,如果仍不完整,利用地区内代表性站点的温度数据进行回归或者扩大k值再次对待填补站点进行温度数据填补,直到得到填补完整的温度数据;
步骤500中,各地区代表性站点的温度数据都是相对完整的,例如深圳地区,国家基准站59493的数据相对完整,可以通过国家基本站温度数据与待填补站点数据拟合的线性函数,对待填补站点的温度缺失数据进行再次填补;或者增大k值(即增加填补参考站点的数量),得到完整的温度数据。
为了更好的解释本申请的技术方案,以下结合具体实施例对本申请进行进一步说明。例:设B站为待填补站点,A站、C站、D站为填补参考站点,A站、B站、C站、D站的温度数据如下:
A观测站温度数据系列有:A1,A2,A3…An-1,An+1,…Am(m>n)
B观测站温度数据系列有:B1,B2,B3…Bn-1,Bn+2,…Bm(m>n)
C观测站温度数据系列有:C1,C2,C3…,Cn,Cn+2,…Cm(m>n)
D观测站温度数据系列有:D1,D2,D3…Dn-1,Dn+1,…Dm(m>n)
其中,1,2,3,…m代表时刻t1,t2,…tm,Ai代表站点A在ti时刻的温度,其他类似;
对B站的缺失数据进行前k(设k=3)次填补的过程如下:
步骤1:确定B站的温度数据缺失时刻信息:tn,tn+1
步骤2:确定A、B、C、D站的共有时间序列t1,t2,…tn-1,tn+2,…tm,利用各站t1,t2,…tn-1,tn+2,…tm时刻的温度数据,计算各站之间的相关系数;假设与B站相关系数最强的3个站按相关系数绝对值由强到弱排序结果是C、A、D;
步骤3:利用A、B、C、D站的共有时间序列对应的温度数据,逐一拟合B站与C、A、D站之间的线性函数;
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3
上述公式中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是B站与第i相关站共有的时间序列数据拟合的线性函数,C(tn)是C站在时刻tn的温度值,其他的类似。
步骤4:通过线性函数对B站进行温度数据填补;B站的缺失数据的第一次填补,利用C站的温度数据,通过函数f1(tn)=a1*C(tn)+b1对B站tn+1时刻的温度数据进行第一次填补;填补一次后,如果B站的温度数据已经填补完整,则结束数据填补;如果B站在tn+1时刻仍有数据缺失,则利用A站的温度数据,通过函数f2(tn)=a2*D(tn)+b2对B站tn+1时刻的温度数据进行第二次填补,并以此类推,直到3(k=3)次填补完成。
请参阅图2,是本申请实施例的温度缺失数据填补系统的结构示意图。本申请实施例的温度缺失数据填补系统包括数据读取模块、时间序列统计模块、站点筛选模块、第一数据填补模块和第二数据填补模块。
数据读取模块:用于读取待填补站点的温度数据,并确定待填补站点的温度数据缺失时刻信息;其中,温度数据缺失时刻信息的统计方法具体为:由于气象数据集包括月、日、时、分等不同时间节点的数据集,因此需要根据原始温度数据的不同时间节点确定具体缺失时刻,例如,如果原始温度数据是小时温度数据,即温度数据是每一个小时记录一次,而待填补站点在该小时内无温度数据记录,则判定该时刻为温度数据缺失时刻。其他时间节点的温度数据缺失时刻统计方法类似。
时间序列统计模块:用于分别统计与待填补站点位于同一地区的各个观测站的温度数据,并根据温度数据统计待填补站点与各个观测站的共有时间序列;
站点筛选模块:用于利用待填补站点与多个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,根据相关系数的绝对值大小筛选出与待填补站点相关性最强的k个观测站作为填补参考站点,并根据相关性强度对k个填补参考站点进行由强到弱的排序;
第一数据填补模块:用于根据k个填补参考站点的排序结果,利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过k个线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据进行k次填补;其中,线性函数拟合公式如下:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3 (1)
公式(1)中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
本申请实施例中,温度数据填补方法具体为:当待填补站点有温度数据缺失情况下,根据填补参考站点的排序结果,首先利用第一填补参考站点的温度数据,按拟合的线性函数f1对待填补站点缺失时刻的温度数据进行第一次填补;填补一次后,判断待填补站点是否仍有温度数据缺失,若仍有缺失,则根据填补参考站点排序结果找到第二填补参考站点,利用第二填补参考站点的温度数据,按拟合的线性函数f2对待填补站点缺失时刻的温度数据进行第二次填补;以此类推完成k次填补。
第二数据填补模块:用于判断待填补站点填补后的温度数据是否完整,如果仍不完整,利用地区内代表性站点的温度数据进行回归或者扩大k值再次对待填补站点进行温度数据填补,直到得到填补完整的温度数据;其中,各地区代表性站点的温度数据都是相对完整的,例如深圳地区,国家基准站59493的数据相对完整,可以通过国家基本站温度数据与待填补站点数据拟合的线性函数,对待填补站点的温度缺失数据进行再次填补;或者增大k值(即增加填补参考站点的数量),得到完整的温度数据。
本申请已通过深圳地区温度小时数据缺失的有效测试,经实际情况的对比发现,本申请可以精确地填补缺失的温度数据。可以理解,本申请同样适用于其他具有较强相关性的气象缺失数据的填补,例如同一地区月降雨量等缺失数据的填补。
图3是本申请实施例提供的温度缺失数据填补方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
本申请实施例的温度缺失数据填补方法、系统及电子设备在数据填补的过程中充分利用与其相关性最强的几个站点的温度数据进行填补,改善现阶段温度数据填补的精确度与可操作性,克服了部分观测站连续时间段缺失时利用前后时刻插值或者取均值等统计方法所带来的误差。且本申请操作简单、易于理解,对气象研究工作者获取完整的温度数据以及气象大数据应用具有重要意义。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种温度缺失数据填补方法,其特征在于,包括以下步骤:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
2.根据权利要求1所述的温度缺失数据填补方法,其特征在于,所述步骤a中,还包括:根据所述待填补站点的温度数据确定待填补站点的温度数据缺失时刻信息。
3.根据权利要求2所述的温度缺失数据填补方法,其特征在于,所述步骤b中,还包括:根据所述相关系数计算结果对至少一个填补参考站点进行相关性由强到弱的排序,将相关系数绝对值最大的填补参考站点作为第一填补参考站,并依次确定得到k个填补参考站点。
4.根据权利要求3所述的温度缺失数据填补方法,其特征在于,在所述步骤c中,所述利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补具体为:根据填补参考站点的相关性排序结果,依次利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据依次进行k次填补,其中,k为填补参考站点的数量。
5.根据权利要求4所述的温度缺失数据填补方法,其特征在于,在所述步骤c中,所述线性函数拟合公式为:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3
上述公式中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
6.一种温度缺失数据填补系统,其特征在于,包括:
数据读取模块:用于分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据;
时间序列统计模块:用于根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
站点筛选模块:用于利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
第一数据填补模块:用于利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
7.根据权利要求6所述的温度缺失数据填补系统,其特征在于,所述数据读取模块还用于根据所述待填补站点的温度数据确定待填补站点的温度数据缺失时刻信息。
8.根据权利要求7所述的温度缺失数据填补系统,其特征在于,所述站点筛选模块还用于根据所述相关系数计算结果对至少一个填补参考站点进行相关性由强到弱的排序,将相关系数绝对值最大的填补参考站点作为第一填补参考站,并依次确定得到k个填补参考站。
9.根据权利要求8所述的温度缺失数据填补系统,其特征在于,所述第一数据填补模块利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补具体为:根据填补参考站点的相关性排序结果,依次利用k个填补参考站点共有时间序列对应时刻的温度数据逐一拟合待填补站点与k个填补参考站点之间的线性函数f1,f2,…fk,通过线性函数f1,f2,…fk对待填补站点温度数据缺失时刻的温度数据依次进行k次填补,其中,k为填补参考站点的数量。
10.根据权利要求9所述的温度缺失数据填补方法,其特征在于,所述线性函数拟合公式为:
f1(tn)=a1*C(tn)+b1
f2(tn)=a2*A(tn)+b2
f3(tn)=a3*D(tn)+b3
上述公式中,ai,bi分别是拟合的一次项和常数项系数,fi(tn)是待填补站点与第i个填补参考站点的共有时间序列对应的温度数据拟合的线性函数,C(tn)、A(tn)、D(tn)分别是填补参考站点C、A、D在时刻tn的温度数据。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述1至5任一项所述的温度缺失数据填补方法的以下操作:
步骤a:分别读取待填补站点以及与待填补站点位于同一地区的各个观测站的温度数据,并根据所述温度数据统计待填补站点与各个观测站的共有时间序列;
步骤b:利用所述待填补站点与各个观测站的共有时间序列对应时刻的温度数据计算待填补站点与各个观测站之间的相关系数,并根据所述相关系数筛选出与待填补站点相关性最强的至少一个观测站作为填补参考站点;
步骤c:利用所述至少一个填补参考站点共有时间序列对应时刻的温度数据拟合待填补站点与所述至少一个填补参考站点之间的线性函数,通过所述线性函数对待填补站点的温度数据进行填补。
CN201910396861.9A 2019-05-14 2019-05-14 一种温度缺失数据填补方法、系统及电子设备 Active CN110147367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910396861.9A CN110147367B (zh) 2019-05-14 2019-05-14 一种温度缺失数据填补方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910396861.9A CN110147367B (zh) 2019-05-14 2019-05-14 一种温度缺失数据填补方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN110147367A true CN110147367A (zh) 2019-08-20
CN110147367B CN110147367B (zh) 2022-05-27

Family

ID=67594301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910396861.9A Active CN110147367B (zh) 2019-05-14 2019-05-14 一种温度缺失数据填补方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN110147367B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110657798A (zh) * 2019-09-11 2020-01-07 广州海洋地质调查局 一种地磁日变数据补缺方法及处理终端
CN111443163A (zh) * 2020-03-10 2020-07-24 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
WO2021103624A1 (zh) * 2019-11-27 2021-06-03 医惠科技有限公司 一种脓毒血症的预警装置、设备及存储介质
CN113313194A (zh) * 2021-06-17 2021-08-27 西北工业大学 一种基于线性插值偏差的推进剂制备数据缺失值填补方法
CN113377508A (zh) * 2021-05-28 2021-09-10 张燕 一种海量数据快速传输方法
CN113568343A (zh) * 2021-07-20 2021-10-29 苏州伟创电气科技股份有限公司 捕捉任意数据的方法、装置、设备及存储介质
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
US20120303410A1 (en) * 2011-05-25 2012-11-29 International Business Machines Corporation Demand modeling in retail categories using retail sales data sets with missing data elements
CN107340365A (zh) * 2017-06-19 2017-11-10 中国科学院南京地理与湖泊研究所 一种面向湖泊蓝藻灾害的立体监控及数据挖掘系统和方法
US20180068033A1 (en) * 2016-09-08 2018-03-08 Indian Institute Of Technology Bombay Method for imputing missed data in sensor data sequence with missing data
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109615011A (zh) * 2018-12-14 2019-04-12 河海大学 一种基于lstm的中小河流短期洪水预报方法
CN109710659A (zh) * 2018-12-16 2019-05-03 苏州城方信息技术有限公司 基于时空相关性的检测器缺失数据的填补方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
US20120303410A1 (en) * 2011-05-25 2012-11-29 International Business Machines Corporation Demand modeling in retail categories using retail sales data sets with missing data elements
US20180068033A1 (en) * 2016-09-08 2018-03-08 Indian Institute Of Technology Bombay Method for imputing missed data in sensor data sequence with missing data
CN107340365A (zh) * 2017-06-19 2017-11-10 中国科学院南京地理与湖泊研究所 一种面向湖泊蓝藻灾害的立体监控及数据挖掘系统和方法
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN109101638A (zh) * 2018-08-20 2018-12-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109063366A (zh) * 2018-08-22 2018-12-21 深圳市建筑科学研究院股份有限公司 一种基于时间和空间加权的建筑性能数据在线预处理方法
CN109615011A (zh) * 2018-12-14 2019-04-12 河海大学 一种基于lstm的中小河流短期洪水预报方法
CN109710659A (zh) * 2018-12-16 2019-05-03 苏州城方信息技术有限公司 基于时空相关性的检测器缺失数据的填补方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
V. LAYANUN 等: "Missing-data imputation for solar irradiance forecasting in Thailand", 《2017 56TH ANNUAL CONFERENCE OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS OF JAPAN (SICE)》 *
李彦 等: "基于时间序列的时空插值算法改进研究", 《计算机科学》 *
苏毅娟: "基于灰色关联分析的缺失值重复填补方法", 《计算机工程与应用》 *
蒋晨阳 等: "基于时空相关性的连续缺失值填补算法", 《计算机与现代化》 *
马茜 等: "顺序敏感的多源感知数据填补技术", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110657798A (zh) * 2019-09-11 2020-01-07 广州海洋地质调查局 一种地磁日变数据补缺方法及处理终端
CN110657798B (zh) * 2019-09-11 2021-05-11 广州海洋地质调查局 一种地磁日变数据补缺方法及处理终端
WO2021103624A1 (zh) * 2019-11-27 2021-06-03 医惠科技有限公司 一种脓毒血症的预警装置、设备及存储介质
CN111443163A (zh) * 2020-03-10 2020-07-24 中国科学院深圳先进技术研究院 一种臭氧缺失数据的插补方法、装置及插补设备
CN113377508A (zh) * 2021-05-28 2021-09-10 张燕 一种海量数据快速传输方法
CN113377508B (zh) * 2021-05-28 2023-08-22 张燕 一种海量数据快速传输方法
CN113313194A (zh) * 2021-06-17 2021-08-27 西北工业大学 一种基于线性插值偏差的推进剂制备数据缺失值填补方法
CN113568343A (zh) * 2021-07-20 2021-10-29 苏州伟创电气科技股份有限公司 捕捉任意数据的方法、装置、设备及存储介质
CN113568343B (zh) * 2021-07-20 2023-04-07 苏州伟创电气科技股份有限公司 捕捉任意数据的方法、装置、设备及存储介质
CN114490619A (zh) * 2022-02-15 2022-05-13 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质
CN114490619B (zh) * 2022-02-15 2022-09-09 北京大数据先进技术研究院 基于遗传算法的数据填补方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110147367B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN110147367A (zh) 一种温度缺失数据填补方法、系统及电子设备
US9436734B2 (en) Relative performance prediction of a replacement database management system (DBMS)
EP2290594A1 (en) Adaptative analytics multidimensional processing system
CN104834731A (zh) 一种自媒体信息的推荐方法及装置
CN109241669A (zh) 一种自动建模方法、装置及其存储介质
WO2008042784A2 (en) Comparing taxonomies
CN100465918C (zh) 基于事务处理的性能模型的自动化确认和校准系统和方法
CN111159157A (zh) 一种企业报表数据的指标化处理方法及装置
CN110647447B (zh) 用于分布式系统的异常实例检测方法、装置、设备和介质
CN106803799A (zh) 一种性能测试方法和装置
CN107908548A (zh) 一种生成测试用例的方法和装置
CN113268641B (zh) 基于大数据的用户数据处理方法及大数据服务器
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN109740129A (zh) 基于区块链的报表生成方法、装置、设备及可读存储介质
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN112836020A (zh) 房源信息的查询方法、装置、设备以及计算机存储介质
CN108108175A (zh) 一种用于灰度发布的方法和装置
CN111080364A (zh) 一种工程造价数据中心管理系统及装置
CN115759885A (zh) 一种基于分布式物资供应下的物资抽检方法和装置
CN113779391A (zh) 基于建模的智能锁开锁推荐方法、系统、装置及存储介质
CN113743791A (zh) 一种业务工单的业务考评方法、装置、电子设备和介质
CN111784071A (zh) 一种基于Stacking集成的许可占用与预测方法及系统
CN106559225A (zh) 数据校准的方法与装置
CN117236801B (zh) 数据处理方法、装置、电子设备和可读存储介质
CN108537654A (zh) 客户关系网络图的渲染方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant