CN113495913B - 一种空气质量数据缺失值插补方法及装置 - Google Patents
一种空气质量数据缺失值插补方法及装置 Download PDFInfo
- Publication number
- CN113495913B CN113495913B CN202111040777.7A CN202111040777A CN113495913B CN 113495913 B CN113495913 B CN 113495913B CN 202111040777 A CN202111040777 A CN 202111040777A CN 113495913 B CN113495913 B CN 113495913B
- Authority
- CN
- China
- Prior art keywords
- air quality
- quality data
- data sequence
- matrix
- time point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Separation By Low-Temperature Treatments (AREA)
Abstract
本发明公开一种空气质量数据缺失值插补方法及装置,其特征在于,包括:获取多个空气质量数据集;找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;对于每个第一时间点:从该第一时间点对应的空气质量数据集中得到第一空气质量数据序列,从所有其他空气质量数据集中得到多个第二空气质量数据序列;分别计算相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;计算多个第一协方差;计算对应的统计偏性;根据多个第一协方差和多个统计偏性计算权重;根据多个第三空气质量数据序列和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种空气质量数据缺失值插补方法及装置。
背景技术
为了实时监测空气质量,近年来一些空气质量监测站相继成立 ,然而特别是在早期,这些数据集中有许多缺失的记录,现有的空气质量数据缺失值的插补方法通常使用基于回归的方法、地统计方法和机器学习方法。基于回归的方法可能会导致过拟合问题,地统计方法的计算中没有对最小估计误差进行约束,而机器学习方法需要大量的空气质量数据来训练且缺乏明确定义统计参数的机制含义,现有的三种方法对于插补空气质量数据的缺失值的准确度都不够,所以本领域急需一种能够准确插补空气质量数据缺失值的方法。
发明内容
本发明提供一种空气质量数据缺失值插补方法及装置,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种空气质量数据缺失值插补方法,包括:
获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;
遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;
对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段的中包含该第一时间点;
分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;
计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;
根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性;
根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;
根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
其中,所述从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,包括:
将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
将第二时间点到第三时间点确定为第二预设时段;
从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
其中,所述计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,还包括:
分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
其中,所述根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的偏性,包括:
计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
其中,所述根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,包括:
将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;
根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
本发明另一方面提供一种空气质量数据缺失值插补装置,包括:
采集模块,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;
查找模块,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;
处理模块,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;
计算模块,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;
所述计算模块,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;
所述计算模块,还用于根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;
所述计算模块,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;
所述计算模块,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
其中,所述处理模块,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
所述处理模块,还用于将第二时间点到第三时间点确定为第二预设时段;
所述处理模块,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
其中,所述计算模块,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
其中,所述计算模块,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
所述计算模块,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的偏性。
其中,所述计算模块,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
所述计算模块,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
所述计算模块,还用于将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;
所述计算模块,还用于根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
在本发明上述方法中,通过找出与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个第三空气质量序列,再根据多个第三空气质量序列计算与缺失空气质量数据所在的第一空气质量序列的协方差和统计偏性,充分考虑了与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个数据,并通过协方差和统计偏性计算出该缺失空气质量数据,使得计算出的缺失空气质量数据的误差更小,提高了插补空气质量数据的缺失值的准确度。
附图说明
图1示出了本发明一实施例提供的空气质量数据缺失值插补方法流程示意图;
图2示出了本发明一实施例提供的计算第一空气质量数据序列中第一时间点对应的空气质量数据的示意图;
图3示出了本发明一实施例提供的空气质量数据缺失值插补装置结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了准确地插补空气质量数据中的缺失值,如图1所示,本发明一实施例提供了一种空气质量数据缺失值插补方法,该方法包括:
步骤101,获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量。
获取多个空气质量数据集,该多个空气质量数据集都是由不同地点的空气污染监测站在第一预设时段内采集的空气质量数据所组成的,每个空气质量数据集中包含第一预设时段内每个小时该地点的空气质量数据。
步骤102,遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点。
由于空气质量数据集中有许多缺失的空气质量数据,遍历这些空气质量数据集,找出这些空气质量数据集中所有缺失空气质量数据对应的多个第一时间点;
例如在对应奥林匹克公园站的空气质量数据集中的5月13号0时的空气质量数据是缺失的,那么将5月13号0时确定为第一时间点。
步骤103,对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点。
在找到第一时间点后,对于每一个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,第二预设时段要包含该第一时间点;
例如,某个第一时间点为5月13号0时,该第一时间点缺失的空气质量数据在对应奥林匹克公园站的空气质量数据集中,那么从对应奥林匹克公园站的空气质量数据集中提取出第二预设时段内的空气质量数据作为第一空气质量数据序列,从除了对应奥林匹克公园站的空气质量数据集外的每个空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
在步骤103中,从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,在一可实施方式中,将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
将第二时间点到第三时间点确定为第二预设时段;
从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
例如,某个第一时间点为5月13日0时,预设时长为10小时,那么将该第一时间点往前延伸10小时,得到第二时间点5月12日14时,将该第一时间点往后延伸10小时,得到第三时间点5月13日10时,将5月12日14时到5月13日10时确定为第二预设时段,从对应奥林匹克公园站的空气质量数据集中提取出5月12日14时到5月13日10时内的空气质量数据作为第一空气质量数据序列,从除了对应奥林匹克公园站的空气质量数据集外的每个空气质量数据集中提取5月12日14时到5月13日10时内的空气质量数据,得到多个第二空气质量数据序列。
步骤104,分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列。
分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,并将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列,由于第二空气质量数据序列和第一空气质量数据序列都是在第一时间点的前后预设时段内的数据,且选取相关性最高的多个第二空气质量数据序列确定为第三空气质量数据序列,充分考虑了空气质量数据在空间和时间上的相关性,提高了最后结果的准确度。
步骤105,计算多个第三空气质量数据序列中两两序列之间的多个第一协方差。
将上一步确定的多个第三空气质量数据序列两两序列之间进行计算协方差,得到多个第一协方差。
在步骤105中,计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,在一可实施方式中,分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
步骤106,根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
在步骤106中,根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,在一可实施方式中,计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
例如,有5个第三空气质量数据序列,分别计算这5个第三空气质量数据序列中空气质量数据的均值,分别为12、14、15、12、13,再计算第一空气质量数据序列中空气质量数据的均值为10,分别将这5个第三空气质量数据序列对应的均值除以第一空气质量数据序列对应的均值,得到这5个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,分别为1.2、1.4、1.5、1.2、1.3。
步骤107,根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重。
在步骤107中,根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,在一可实施方式中,将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;
根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
步骤108,根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
如图2所示,图中有三个第三空气质量数据序列,该三个第三空气质量数据序列中
第一时间点对应的空气质量数据分别为、和,权重分别为、和,那么第一
空气质量数据序列中第一时间点对应的空气质量数据则可以根据以下公式计算:
例如,有5个第三空气质量数据序列,这5个第三空气质量数据序列对于第一空气质量数据序列的权重分别为0.2、0.3、0.1、0.1、0.3,这5个第三空气质量数据序列对应第一时间点的空气质量数据分别为14、17、12、19、9,那么第一空气质量数据序列中第一时间点对应的空气质量数据的估计值为0.2*14+0.3*17+0.1*12+0.1*19+0.3*9,得到13.7,将13.7作为第一空气质量数据序列中第一时间点对应空气质量数据。
在本发明上述方法中,通过找出与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个第三空气质量序列,再根据多个第三空气质量序列计算与缺失空气质量数据所在的第一空气质量序列的协方差和统计偏性,充分考虑了与缺失空气质量数据所在的空气质量数据集有时间和空间相关性的多个数据,并通过协方差和统计偏性计算出该缺失空气质量数据,使得计算出的缺失空气质量数据的误差更小,提高了插补空气质量数据的缺失值的准确度。
本发明一实施例还提供了一种空气质量数据缺失值插补装置,如图3所示,该装置包括:
采集模块10,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;
查找模块20,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;
处理模块30,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;
计算模块40,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;
所述计算模块40,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;
所述计算模块40,还用于根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;
所述计算模块40,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;
所述计算模块40,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
其中,所述处理模块30,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
所述处理模块30,还用于将第二时间点到第三时间点确定为第二预设时段;
所述处理模块30,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
其中,所述计算模块40,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
其中,所述计算模块40,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
所述计算模块40,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
其中,所述计算模块40,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
所述计算模块40,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
所述计算模块40,还用于将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵并将所述第二协方差转置矩阵和1组成第二矩阵;
所述计算模块40,还用于根据第一矩阵、第二矩阵和拉格朗日系数计算每个第三空气质量数据序列的权重。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种空气质量数据缺失值插补方法,其特征在于,包括:
获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;
遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;
对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;
分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;
计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;
根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;
根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;
根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
2.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,包括:
将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
将第二时间点到第三时间点确定为第二预设时段;
从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
3.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述计算多个第三空气质量数据序列中两两序列之间的多个第一协方差之后,还包括:
分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
4.根据权利要求1所述的空气质量数据缺失值插补方法,其特征在于,所述根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性,包括:
计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
5.根据权利要求3所述的空气质量数据缺失值插补方法,其特征在于,所述根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重,包括:
将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
根据以下公式将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵:
根据以下公式将所述第二协方差转置矩阵和1组成第二矩阵:
根据以下公式计算每个第三空气质量数据序列的权重:
6.一种空气质量数据缺失值插补装置,其特征在于,包括:
采集模块,用于获取多个空气质量数据集,所述多个空气质量数据集表征第一预设时段内不同地点的空气质量;
查找模块,用于遍历所述多个空气质量数据集,找出所述多个空气质量数据集中缺失空气质量数据对应的多个第一时间点;
处理模块,用于对于每个第一时间点:从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列,所述第二预设时段中包含该第一时间点;
计算模块,用于分别计算每个第二空气质量数据序列和第一空气质量数据序列的相关系数,将相关系数最高的多个第二空气质量数据序列确定为第三空气质量数据序列;
所述计算模块,还用于计算多个第三空气质量数据序列中两两序列之间的多个第一协方差;
所述计算模块,还用于根据多个第三空气质量数据序列与第一空气质量数据序列计算每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性;
所述计算模块,还用于根据多个第一协方差和多个统计偏性计算每个第三空气质量数据序列的权重;
所述计算模块,还用于根据多个第三空气质量数据序列中第一时间点对应的空气质量数据和对应的权重计算第一空气质量数据序列中第一时间点对应的空气质量数据。
7.根据权利要求6所述的空气质量数据缺失值插补装置,其特征在于,
所述处理模块,还用于将该第一时间点往前延伸预设时长,得到第二时间点,将该第一时间点往后延伸预设时长,得到第三时间点;
所述处理模块,还用于将第二时间点到第三时间点确定为第二预设时段;
所述处理模块,还用于从该第一时间点对应的空气质量数据集中提取出第二预设时段内的空气质量数据,得到第一空气质量数据序列,从所有其他空气质量数据集中提取第二预设时段内的空气质量数据,得到多个第二空气质量数据序列。
8.根据权利要求6所述的空气质量数据缺失值插补装置,其特征在于,
所述计算模块,还用于分别计算每个第三空气质量数据序列与第一空气质量数据序列的多个第二协方差。
9.根据权利要求6所述的空气质量数据缺失值插补装置,其特征在于,
所述计算模块,还用于计算每个第三空气质量数据序列和第一空气质量数据序列中空气质量数据的均值;
所述计算模块,还用于分别将每个第三空气质量数据序列中空气质量数据的均值除以第一空气质量数据序列中空气质量数据的均值,得到每个第三空气质量数据序列与第一空气质量数据序列对应的统计偏性。
10.根据权利要求8所述的空气质量数据缺失值插补装置,其特征在于,
所述计算模块,还用于将多个第一协方差组成第一协方差矩阵,多个统计偏性组成偏性矩阵并将所述偏性矩阵进行转置,得到偏性转置矩阵;
所述计算模块,还用于将多个第二协方差组成第二协方差矩阵并将所述第二协方差矩阵进行转置,得到第二协方差转置矩阵;
所述计算模块,还用于根据以下公式将所述第一协方差矩阵、偏性矩阵、偏性转置矩阵和0组成第一矩阵:
根据以下公式将所述第二协方差转置矩阵和1组成第二矩阵:
所述计算模块,还用于根据以下公式计算每个第三空气质量数据序列的权重:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111040777.7A CN113495913B (zh) | 2021-09-07 | 2021-09-07 | 一种空气质量数据缺失值插补方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111040777.7A CN113495913B (zh) | 2021-09-07 | 2021-09-07 | 一种空气质量数据缺失值插补方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113495913A CN113495913A (zh) | 2021-10-12 |
CN113495913B true CN113495913B (zh) | 2021-12-21 |
Family
ID=77995983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111040777.7A Active CN113495913B (zh) | 2021-09-07 | 2021-09-07 | 一种空气质量数据缺失值插补方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113495913B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203625A (zh) * | 2022-07-29 | 2022-10-18 | 应急管理部国家减灾中心 | 一种旱涝指数数据缺失值插补方法及其插补装置 |
CN116701371B (zh) * | 2023-06-09 | 2024-03-22 | 中国科学院地理科学与资源研究所 | 协方差分析下大气温度数据缺失值插补方法及其插补装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044618A (ja) * | 2008-08-13 | 2010-02-25 | Hitachi Ltd | 欠落データの補間方法、その実行プログラム、及びデータ収集装置 |
CN103473408A (zh) * | 2013-08-28 | 2013-12-25 | 河南大学 | 一种融合时空信息的气温缺失记录重建方法 |
CN105678046A (zh) * | 2014-11-18 | 2016-06-15 | 日本电气株式会社 | 修补时空序列数据中的缺失数据的方法及装置 |
CN108228832A (zh) * | 2018-01-04 | 2018-06-29 | 南京大学 | 一种基于距离矩阵的时间序列数据补全方法 |
CN108897719A (zh) * | 2018-05-25 | 2018-11-27 | 西安电子科技大学 | 基于自适应遗传算法的气象数据缺失值填补方法 |
CN110580328A (zh) * | 2019-09-11 | 2019-12-17 | 江苏省地质工程勘察院 | 一种地下水位监测值缺失的修复方法 |
CN110705762A (zh) * | 2019-09-20 | 2020-01-17 | 天津大学 | 基于矩阵填充的泛在电力物联网感知数据缺失修复方法 |
CN111597080A (zh) * | 2020-05-22 | 2020-08-28 | 广东省生态环境技术研究所 | 基于地统计和神经网络的地下水位缺失数据的修复方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763321B (zh) * | 2018-05-02 | 2021-07-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN112328800A (zh) * | 2019-08-05 | 2021-02-05 | 上海交通大学 | 自动生成编程规范问题答案的系统及方法 |
-
2021
- 2021-09-07 CN CN202111040777.7A patent/CN113495913B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010044618A (ja) * | 2008-08-13 | 2010-02-25 | Hitachi Ltd | 欠落データの補間方法、その実行プログラム、及びデータ収集装置 |
CN103473408A (zh) * | 2013-08-28 | 2013-12-25 | 河南大学 | 一种融合时空信息的气温缺失记录重建方法 |
CN105678046A (zh) * | 2014-11-18 | 2016-06-15 | 日本电气株式会社 | 修补时空序列数据中的缺失数据的方法及装置 |
CN108228832A (zh) * | 2018-01-04 | 2018-06-29 | 南京大学 | 一种基于距离矩阵的时间序列数据补全方法 |
CN108897719A (zh) * | 2018-05-25 | 2018-11-27 | 西安电子科技大学 | 基于自适应遗传算法的气象数据缺失值填补方法 |
CN110580328A (zh) * | 2019-09-11 | 2019-12-17 | 江苏省地质工程勘察院 | 一种地下水位监测值缺失的修复方法 |
CN110705762A (zh) * | 2019-09-20 | 2020-01-17 | 天津大学 | 基于矩阵填充的泛在电力物联网感知数据缺失修复方法 |
CN111597080A (zh) * | 2020-05-22 | 2020-08-28 | 广东省生态环境技术研究所 | 基于地统计和神经网络的地下水位缺失数据的修复方法 |
Non-Patent Citations (2)
Title |
---|
"Interpolation of Missing Temperature Data at Meteorological Stations Using P-BHSADE*";CHENG-DONG XU et al.;《journal of climate》;20131001;第7452-7463页 * |
"不同空间插值方法在钠摄入量估算中的应用";方柯红 等;《卫生研究》;20210331;第50卷(第2期);第217-222页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113495913A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113495913B (zh) | 一种空气质量数据缺失值插补方法及装置 | |
US10757125B2 (en) | Anomaly detection method and recording medium | |
EP3270316B1 (en) | Method and system for user device identification | |
EP1580667A2 (en) | Representation of a deleted interpolation N-gram language model in ARPA standard format | |
CN112732785A (zh) | 时序数据异常检测方法、装置、设备及存储介质 | |
CN107679539B (zh) | 一种基于局部感知野的单卷积神经网络局部信息与全局信息整合方法 | |
CN112530407B (zh) | 一种语种识别方法及系统 | |
CN115186774B (zh) | 智能电缆剥线设备及其方法 | |
CN111160229A (zh) | 基于ssd网络的视频目标检测方法及装置 | |
US9317887B2 (en) | Similarity calculating method and apparatus | |
CN113420652A (zh) | 一种时序信号片段异常识别方法、系统、介质及终端 | |
CN115081969A (zh) | 异常数据确定方法及相关装置 | |
CN105590026A (zh) | 基于主成分分析的卫星遥测回归方法 | |
CN103279581B (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 | |
CN109740621B (zh) | 一种视频分类方法、装置及设备 | |
CN109410198B (zh) | 一种时序动作检测方法、装置及设备 | |
CN111861962B (zh) | 一种数据融合方法及电子设备 | |
CN115689061B (zh) | 风电超短期功率预测方法及相关设备 | |
CN117076941A (zh) | 一种光缆鸟害监测方法、系统、电子设备及可读存储介质 | |
CN107562695B (zh) | 一种配电变压器的负载数据处理方法及装置 | |
CN108959415B (zh) | 一种异常维度定位方法、装置及电子设备 | |
CN116977783A (zh) | 一种目标检测模型的训练方法、装置、设备及介质 | |
CN112882907B (zh) | 一种基于日志数据的用户状态确定方法及装置 | |
CN115452101A (zh) | 一种仪表检定方法、装置、设备及介质 | |
US11436397B2 (en) | Computer-implemented method and electronic device for detecting influential components in a netlist representing an electrical circuit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |