CN117786610A - 一种基于多元拟合的数据清洗方法、系统、设备及介质 - Google Patents
一种基于多元拟合的数据清洗方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117786610A CN117786610A CN202311674399.7A CN202311674399A CN117786610A CN 117786610 A CN117786610 A CN 117786610A CN 202311674399 A CN202311674399 A CN 202311674399A CN 117786610 A CN117786610 A CN 117786610A
- Authority
- CN
- China
- Prior art keywords
- influence factor
- independent variable
- significance
- linear regression
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004140 cleaning Methods 0.000 title claims abstract description 48
- 238000012417 linear regression Methods 0.000 claims abstract description 55
- 238000001556 precipitation Methods 0.000 claims abstract description 54
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 16
- 238000012544 monitoring process Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003673 groundwater Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多元拟合的数据清洗方法、系统、设备及介质,所述方法包括以下步骤:确定降水量的影响因素自变量;基于影响因素自变量建立多元线性回归模型;基于多元线性回归模型的显著性检验进行自变量筛选操作;基于筛选后的自变量构建新多元线性回归模型;本发明能够基于多种优化后的自变量构建多元线性回归模型,通过模型的拟合结果反映不同自变量对于降水量的影响程度,进而对显著性较低的自变量进行剔除,或基于模型进行其他因素的插值处理,模型支持更新和迭代,进而实现更加准确以及客观的数据清洗操作,提高了数据质量,具有较高的应用价值。
Description
技术领域
本发明涉及数据处理技术领域,具体的,本发明应用于环境监测领域,特别是涉及一种基于多元拟合的数据清洗方法、系统、设备及介质。
背景技术
目前,在实际的降水观测过程中,存在如下多方面干扰因素影响观测数据的准确性:
第一,由于降水量监测设备可能存在故障、校准不准确或者老化等问题,会影响到降水量的观测结果;
第二,由于强风、震动或其他外界的天气条件,也可能使观测结果产生一定的误差;
第三,由于降水量监测设备可能被建筑物、树木、山脉或其他物体遮挡,也可能影响数据的准确性;
第四,在数据记录、传输和存储过程中,可能存在错误或者干扰,这些因素也可能影响数据的准确性;
综上所述,进行准确的降水量测量是一个复杂的任务,且易受到多方面因素的影响,现有技术中为了提高观测数据的准确性,会采用高质量的监测设备进行降水量监测,在后期也会附加数据清洗过程进行对应处理;现有的数据清洗过程为根据经验进行人工处理,以去除观测数据中的噪声数据以及异常值,具体步骤如下:
首先对数据进行缺失值的处理,可以选择删除缺失值、填补缺失值或使用插值方法进行估算;同时,检查和处理异常值和噪声,可以采用统计方法或异常值检测算法来识别和处理;然后进行数据的校验,确保数据符合预定的范围和逻辑关系;之后进行数据的格式化和标准化,以便后续分析和应用;最终将清洗后的数据进行存储,并记录清洗的过程和方法,以备后续参考和审查;以上人工处理的步骤仍存在一定的局限性,由于降水量监测数据受多种因素的影响,那么只有数据清洗时对多种因素进行综合考虑,才能最大程度的提升观测数据的精准性。
发明内容
本发明的目的在于,提供一种基于多元拟合的数据清洗方法、系统、设备及介质,进而解决现有的降水量监测过程中,因受到物理环境、监测设备以及网络带宽等因素干扰,对监测数据的精准性产生影响的问题。
为解决上述技术问题,本发明的具体技术方案如下:
一方面,本发明提供一种基于多元拟合的数据清洗方法,包括以下步骤:
确定降水量的影响因素自变量;
基于所述影响因素自变量建立多元线性回归模型;
基于所述多元线性回归模型的显著性检验进行自变量筛选操作;
基于筛选后的自变量构建新多元线性回归模型。
作为一种改进的方案,所述确定降水量的影响因素自变量,包括:
采集所述降水量的若干第一影响自变量;
采用主成分分析策略对若干所述第一影响自变量进行筛选,得到所述影响因素自变量。
作为一种改进的方案,所述主成分分析策略,包括:
设定若干所述第一影响自变量为原始高维数据;
计算所述原始高维数据的协方差矩阵;
对所述协方差矩阵进行特征值分解,得到特征值以及对应特征向量;
对所述特征值进行排序筛选,得到主成分特征值;
采用所述主成分特征值对所述原始高维数据进行线性变换,得到降维数据;
将所述降维数据作为所述影响因素自变量。
作为一种改进的方案,所述基于所述影响因素自变量建立多元线性回归模型,包括:
设定所述降水量为因变量;
设定所述影响因素自变量为自变量;
设定回归系数;
基于所述回归系数建立所述自变量与所述因变量间的线性回归关系,得到所述多元线性回归模型。
作为一种改进的方案,所述基于所述多元线性回归模型的显著性检验进行自变量筛选操作,包括:
设定显著性水平要求值;
获取所述多元线性回归模型的拟合结果;
基于所述拟合结果计算所述影响因素自变量的显著性代表值;
基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选。
作为一种改进的方案,所述基于所述拟合结果计算所述影响因素自变量的显著性代表值,包括:
取所述拟合结果中所述影响因素自变量t值的最大概率值作为所述影响因素自变量的显著性代表值。
作为一种改进的方案,所述基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选,包括:
比对所述显著性代表值是否不大于所述显著性水平要求值;
响应于所述显著性代表值不大于所述显著性水平要求值,拒绝原假设,保留所述显著性代表值对应的影响因素自变量,将保留的影响因素自变量作为所述筛选后的自变量;
响应于所述显著性代表值大于所述显著性水平要求值,接受原假设,剔除所述显著性代表值对应的影响因素自变量。
另一方面,本发明还提供一种基于多元拟合的数据清洗系统,包括:
分析模块、模型构建模块、检验模块和迭代模块;
所述分析模块,用于确定降水量的影响因素自变量;
所述模型构建模块,用于基于所述影响因素自变量建立多元线性回归模型;
所述检验模块,用于基于所述多元线性回归模型的显著性检验进行自变量筛选操作;
所述迭代模块,用于基于筛选后的自变量构建新多元线性回归模型。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于多元拟合的数据清洗方法的步骤。
另一方面,本发明还提供一种计算机设备,所述计算机设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;其中:
所述存储器,用于存放计算机程序;
所述处理器,用于通过运行所述存储器上所存放的程序来执行所述基于多元拟合的数据清洗方法的步骤。
本发明技术方案的有益效果是:
1、本发明所述的基于多元拟合的数据清洗方法,可以实现基于多种优化后的自变量构建多元线性回归模型,通过模型的拟合结果反映不同自变量对于降水量的影响程度,进而对显著性较低的自变量进行剔除,或基于模型进行其他因素的插值处理,模型支持更新和迭代,进而实现更加准确以及客观的数据清洗操作,提高了数据质量,具有较高的应用价值。
2、本发明所述的基于多元拟合的数据清洗系统,可以通过分析模块、模型构建模块、检验模块和迭代模块的相互配合,进而实现基于多种优化后的自变量构建多元线性回归模型,通过模型的拟合结果反映不同自变量对于降水量的影响程度,进而对显著性较低的自变量进行剔除,或基于模型进行其他因素的插值处理,模型支持更新和迭代,进而实现更加准确以及客观的数据清洗操作,提高了数据质量,具有较高的应用价值。
3、本发明所述的计算机可读存储介质,可以实现引导分析模块、模型构建模块、检验模块和迭代模块进行配合,进而实现本发明所述的基于多元拟合的数据清洗方法,且本发明所述的计算机可读存储介质还有效提高所述基于多元拟合的数据清洗方法的可操作性。
4、本发明所述的计算机设备,可以实现存储并执行所述计算机可读存储介质,进而实现本发明所述的基于多元拟合的数据清洗方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述基于多元拟合的数据清洗方法的流程示意图;
图2是本发明实施例1所述基于多元拟合的数据清洗方法的逻辑流程示意图;
图3是本发明实施例1所述基于多元拟合的数据清洗方法中所述相关性矩阵的内容示意图;
图4是本发明实施例1所述基于多元拟合的数据清洗方法中所述主成分提取结果的内容示意图;
图5是本发明实施例1所述基于多元拟合的数据清洗方法中所述因子荷载矩阵的内容示意图;
图6是本发明实施例1所述基于多元拟合的数据清洗方法中所述线性回归分析结果的内容示意图;
图7是本发明实施例2所述基于多元拟合的数据清洗系统的架构示意图;
图8是本发明实施例4所述计算机设备的结构示意图;
附图中的标记说明如下:
1501、处理器;1502、通信接口;1503、存储器;1504、通信总线。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的描述中,需要说明的是,降水量,是气象预报和气候研究的重要参数之一。准确的降水量监测数据可以提供给气象学家和气象预报模型准确的输入,从而改善天气预报的准确性和精度。同时,准确的历史降雨过程数据可以帮助预测洪水、暴雨、干旱等自然灾害。实时的降水监测数据能够提供给相关部门和决策者及时警报,以便采取必要的预防和应对措施,保护人们的生命财产安全。并且,降水量监测数据对于水资源管理至关重要,它可以帮助决策者了解降水分布和趋势,从而对水资源的供应和需求做出合理的规划和调配。此外,降水量数据还可以用于评估地下水补给和水循环等关键过程,以推动可持续的水资源管理。
在本发明的描述中,需要说明的是,多元线性回归模型为一种用于建立多个自变量与一个因变量之间线性关系的统计模型。
在本发明的描述中,需要说明的是,多元线性回归模型会假设自变量与因变量之间的关系是线性的,并对各自变量之间的独立性提出要求;在实际应用中,还需要注意数据的正态性、线性相关性以及共线性等统计前提的满足程度,同时注意对异常值和外部因素的处理等;因此,在实际应用中使用本方法的多元线性回归模型拟合降水量数据时,需要综合考虑模型的适用性和局限性,并结合实际情况进行分析和解释结果。
在本发明的描述中,需要说明的是,多种因素对降水量监测数据的影响如下:
1、地理位置因素:不同地区的降水量会受到气候和地形的影响,如高山地区通常降水量更高。
2、季节和气候变化因素:季风气候的地区在特定季节会有明显的降水量变化。
3、大气环流和天气系统因素:冷暖气团的移动和相互作用会导致不同程度的降水。
4、海洋表面温度和海洋气候现象因素:厄尔尼诺-南方涛动(ENSO)可以对降水量产生重要的影响。
5、人类活动因素:城市化和土地利用变化可能改变地表蒸发和水循环过程,从而影响降水量分布。
实施例1
本实施例提供一种基于多元拟合的数据清洗方法,如图1~图6所示,包括以下步骤:
作为本发明的一种实施方式,本方法基于多元线性回归模型分析降水量与多个影响因素自变量(包括但不限于温度、湿度以及气压等)之间的关系,将此关系进行量化,反映出多种影响因素自变量对于降水量的贡献程度,进而能够更好的对降水量监测值中的缺失值和异常值进行处理,完成更加有效和高质量的数据清洗操作,具体步骤如下:
S100、确定降水量的影响因素自变量:
作为本发明的一种实施方式,通常降水量监测结果受到多种因素的共同影响,因此本步骤中采用主成分分析策略进行影响因素自变量的确定;在本步骤中,基于数据降维以及特征提取处理,分析与降水量监测数据相关的多种自变量指标;主要原理基于线性变换将原始的高维数据转化为低维特征,将这些新特征作为主成分,而新特征能够保留原始高维数据中最大的方差;
本步骤,包括:
第一步,采集影响降水量的多种自变量数据(即若干第一影响自变量)作为原始高维数据,计算原始高维数据的协方差矩阵;
第二步,对计算出的协方差矩阵进行特征值分解,得到特征值以及其对应的特征向量;
第三步,设置一个k值,根据得到特征值的大小进行特征值的排序,排序后选择前k个特征值作为主成分(基于此操作对方差较大的主成分进行保留);
第四步,采用前述确定的主成分对原始高维数据进行线性变换,得到降维后的数据集,降维数据集中的数据即为最终确定的影响因素自变量;基于上述操作,可以去除冗余特征,减少数据维度以及可视化数据,最终使用更少的变量进行分析和建模,提高整个步骤的时效性和便利性;
S200、建立多元线性回归模型:
作为本发明的一种实施方式,本步骤基于上述多种自变量筛选优化后的数据集建立多元线性回归模型,多元线性回归模型具体如下:
Y=β0+β1X1+β2X2+...+βpXp+ε;
具体的,多元线性回归模型中:
Y,为因变量;
X1,X2,...XP,分别为自变量;
β0,β1,β2,...βp,分别是每个自变量对应的回归系数;
ε,为误差项;其具体表示Y与X1,X2,...XP之间的线性关系,即模型无法完全解释观测数据的部分(在本实施方式中,设置其满足均值为0、独立同分布的假设条件);在本实施方式中,假设此线性关系用一条直线进行描述,其中β0是截距(表示当所有自变量为0时,因变量的值),β0,β1,β2,...βp,分别是自变量X1,X2,...XP的斜率(表示每个因变量对于每个自变量的变化量);
在本步骤中,通过最小二乘估计法,估计回归系数的取值,进而使观测数据的平方误差最小化;之后基于最小化观测数据的平方差,得到回归系数的估计值β;
S300、自变量的显著性检验:
在本步骤中,假设各个自变量与降水量之间无显著差异或关联,故将显著性水平要求值设置为0.05;
在本步骤中,基于前述的多元线性回归模型的模型拟合结果计算各个自变量P值(即显著性代表值,在本实施方式中,P值代表犯第一类错误的概率;P值越大,说明由随机因素引起降水量差异的可能性越大,自变量的贡献度/显著性越低,在拟合结果中即无法拒绝原假设;P值越小,说明由随机因素引起降水量差异的可能性越小,自变量的贡献度/显著性越高,在拟合结果中即接受原假设);基于此,将每个自变量的P值与显著性要求值间进行比对,进而识别出显著性较低的自变量,并进行剔除;
具体的,在计算P值时,取模型拟合结果中对应自变量t值的最大概率值Pmax作为该自变量的P值;
在本步骤中,基于上述原理进行循环建模迭代,直至最终剩余的所有自变量P值均满足显著性水平要求;使用满足显著性水平要求的新多元线性回归方程对降水量观测数据进行过滤筛选和插值处理;
在本步骤中,进行模型迭代时,设置决定系数期望值R1,根据决定系数期望值R1对多元线性回归模型进行迭代决策;
具体的,决定系数R用于衡量多元线性回归模型对观测数据的拟合程度,其表示模型解释的因变量的方差占总方差的比例(R的取值范围从0到1,R越接近1表示模型对观测数据的拟合程度越好);
具体的,R的计算公式为:
其中,SSE(Sum of Squares due to Error)表示回归模型的残差平方和,表示观测值与模型预测值之间的差异;
其中,SST(Sum of Squares Total)表示总平方和,表示观测值与因变量均值之间的差异;
其中,在实际应用中,当R达到R1时,说明回归方程的拟合程度较佳。
在本实施方式中,实现多元线性回归模型在降水量监测活动中的应用,其中多元线性回归模型支持变量选择以及模型优化,基于上述步骤的配合处理,将数据中不重要的自变量进行剔除,基于引入交互项或多项式项等方法进行插值处理,进而提升拟合效果和预测能力,提升数据清洗质量,提升观测数据的有效性和准确性。
在本实施方式中,为了检测上述步骤的实际效果,选用多组真实气象站采集数据进行测试;
在本次测试中,采集数据如下表1所示:
表1_采集数据表
/>
/>
在本次测试中,基于上表的数据,执行步骤S100,即主成分分析,得到对应的相关性矩阵以及对应的主成分提取结果,分别如图3和图4所示:
在本次测试中,分析图3内容可发现,目前自变量之间不存在较高的相关性,且表面其信息重叠度不高,各个自变量之间是相互独立的;
在本次测试中,根据图4的主成分提取结果可得到提取的三个主成分(特征值分别为2.939、1.794、1.004,方差百分比之和为71.710%),主成分分析结果较理想;
在本次测试中,得到相应的因子荷载矩阵,如图5所示;基于因子荷载矩阵可知天气现象、能见度以及相对湿度在第一主成分上有较高荷载,温度以及总云量在第二主成分上有较高荷载,其中荷载量表示主成分与对应变量的相关系数;
在本次测试中,建立以第一、第二、第三主成分为自变量,以降水量为因变量的多元线性回归模型进行线性回归分析,最终得到的多元线性回归分析结果如图6;例如前述的决定系数原理,模型中R为0.663,那么上述模型中的自变量和应变量的相关性达到0.663,说明回归方程的拟合效果比较好;另外,基于上述图6即可计算每个自变量的显著性,进而对自变量进行剔除或进行插值处理。
实施例2
本实施例基于与实施例1中所述的一种基于多元拟合的数据清洗方法相同的发明构思,提供一种基于多元拟合的数据清洗系统,如图7所示,包括:分析模块、模型构建模块、检验模块和迭代模块;
所述分析模块,用于确定降水量的影响因素自变量;
在本系统中,所述确定降水量的影响因素自变量,包括:所述分析模块采集所述降水量的若干第一影响自变量;所述分析模块采用主成分分析策略对若干所述第一影响自变量进行筛选,得到所述影响因素自变量。
在本系统中,所述主成分分析策略,包括:所述分析模块设定若干所述第一影响自变量为原始高维数据;所述分析模块计算所述原始高维数据的协方差矩阵;所述分析模块对所述协方差矩阵进行特征值分解,得到特征值以及对应特征向量;所述分析模块对所述特征值进行排序筛选,得到主成分特征值;所述分析模块采用所述主成分特征值对所述原始高维数据进行线性变换,得到降维数据;所述分析模块将所述降维数据作为所述影响因素自变量。
所述模型构建模块,用于基于所述影响因素自变量建立多元线性回归模型;
在本系统中,所述基于所述影响因素自变量建立多元线性回归模型,包括:所述模型构建模块设定所述降水量为因变量;所述模型构建模块设定所述影响因素自变量为自变量;所述模型构建模块设定回归系数;所述模型构建模块基于所述回归系数建立所述自变量与所述因变量间的线性回归关系,得到所述多元线性回归模型。
所述检验模块,用于基于所述多元线性回归模型的显著性检验进行自变量筛选操作;
在本系统中,所述基于所述多元线性回归模型的显著性检验进行自变量筛选操作,包括:所述检验模块设定显著性水平要求值;所述检验模块获取所述多元线性回归模型的拟合结果;所述检验模块基于所述拟合结果计算所述影响因素自变量的显著性代表值;所述检验模块基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选。
在本系统中,所述基于所述拟合结果计算所述影响因素自变量的显著性代表值,包括:所述检验模块取所述拟合结果中所述影响因素自变量t值的最大概率值作为所述影响因素自变量的显著性代表值。
在本系统中,所述基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选,包括:所述检验模块比对所述显著性代表值是否不大于所述显著性水平要求值;所述检验模块响应于所述显著性代表值不大于所述显著性水平要求值,拒绝原假设,保留所述显著性代表值对应的影响因素自变量,将保留的影响因素自变量作为所述筛选后的自变量;所述检验模块响应于所述显著性代表值大于所述显著性水平要求值,接受原假设,剔除所述显著性代表值对应的影响因素自变量。
所述迭代模块,用于基于筛选后的自变量构建新多元线性回归模型。
实施例3
本实施例提供一种计算机可读存储介质,包括:
所述存储介质用于储存将上述实施例1所述的基于多元拟合的数据清洗方法实现所用的计算机软件指令,其包含用于执行上述为所述基于多元拟合的数据清洗方法所设置的程序;具体的,该可执行程序可以内置在实施例2所述的基于多元拟合的数据清洗系统中,这样,基于多元拟合的数据清洗系统就可以通过执行内置的可执行程序实现所述实施例1所述的基于多元拟合的数据清洗方法。
此外,本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合,其中,可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件,或者以上任意组合。
实施例4
本实施例提供一种电子设备,如图8所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例1中所述基于多元拟合的数据清洗方法的步骤。
作为本发明的一种实施方式,上述终端提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
作为本发明的一种实施方式,通信接口用于上述终端与其他设备之间的通信。
作为本发明的一种实施方式,存储器可以包括随机存取存储器(Random Ac cessMemory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为本发明的一种实施方式,上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
区别于现有技术,采用本申请一种基于多元拟合的数据清洗方法、系统、设备及介质,可以基于多种优化后的自变量构建多元线性回归模型,通过模型的拟合结果反映不同自变量对于降水量的影响程度,进而对显著性较低的自变量进行剔除,或基于模型进行其他因素的插值处理,模型支持更新和迭代,进而实现更加准确以及客观的数据清洗操作,提高了数据质量,具有较高的应用价值。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多元拟合的数据清洗方法,其特征在于,包括以下步骤:
确定降水量的影响因素自变量;
基于所述影响因素自变量建立多元线性回归模型;
基于所述多元线性回归模型的显著性检验进行自变量筛选操作;
基于筛选后的自变量构建新多元线性回归模型。
2.根据权利要求1所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述确定降水量的影响因素自变量,包括:
采集所述降水量的若干第一影响自变量;
采用主成分分析策略对若干所述第一影响自变量进行筛选,得到所述影响因素自变量。
3.根据权利要求2所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述主成分分析策略,包括:
设定若干所述第一影响自变量为原始高维数据;
计算所述原始高维数据的协方差矩阵;
对所述协方差矩阵进行特征值分解,得到特征值以及对应特征向量;
对所述特征值进行排序筛选,得到主成分特征值;
采用所述主成分特征值对所述原始高维数据进行线性变换,得到降维数据;
将所述降维数据作为所述影响因素自变量。
4.根据权利要求1所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述基于所述影响因素自变量建立多元线性回归模型,包括:
设定所述降水量为因变量;
设定所述影响因素自变量为自变量;
设定回归系数;
基于所述回归系数建立所述自变量与所述因变量间的线性回归关系,得到所述多元线性回归模型。
5.根据权利要求1所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述基于所述多元线性回归模型的显著性检验进行自变量筛选操作,包括:
设定显著性水平要求值;
获取所述多元线性回归模型的拟合结果;
基于所述拟合结果计算所述影响因素自变量的显著性代表值;
基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选。
6.根据权利要求5所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述基于所述拟合结果计算所述影响因素自变量的显著性代表值,包括:
取所述拟合结果中所述影响因素自变量t值的最大概率值作为所述影响因素自变量的显著性代表值。
7.根据权利要求5所述的一种基于多元拟合的数据清洗方法,其特征在于:
所述基于所述显著性水平要求值和所述显著性代表值对所述影响因素自变量进行筛选,包括:
比对所述显著性代表值是否不大于所述显著性水平要求值;
响应于所述显著性代表值不大于所述显著性水平要求值,拒绝原假设,保留所述显著性代表值对应的影响因素自变量,将保留的影响因素自变量作为所述筛选后的自变量;
响应于所述显著性代表值大于所述显著性水平要求值,接受原假设,剔除所述显著性代表值对应的影响因素自变量。
8.一种基于多元拟合的数据清洗系统,其特征在于,包括:分析模块、模型构建模块、检验模块和迭代模块;
所述分析模块,用于确定降水量的影响因素自变量;
所述模型构建模块,用于基于所述影响因素自变量建立多元线性回归模型;
所述检验模块,用于基于所述多元线性回归模型的显著性检验进行自变量筛选操作;
所述迭代模块,用于基于筛选后的自变量构建新多元线性回归模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述基于多元拟合的数据清洗方法的步骤。
10.一种计算机设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;其中:
所述存储器,用于存放计算机程序;
所述处理器,用于通过运行所述存储器上所存放的程序来执行权利要求1~7中任一项所述基于多元拟合的数据清洗方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674399.7A CN117786610A (zh) | 2023-12-06 | 2023-12-06 | 一种基于多元拟合的数据清洗方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674399.7A CN117786610A (zh) | 2023-12-06 | 2023-12-06 | 一种基于多元拟合的数据清洗方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117786610A true CN117786610A (zh) | 2024-03-29 |
Family
ID=90393465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311674399.7A Pending CN117786610A (zh) | 2023-12-06 | 2023-12-06 | 一种基于多元拟合的数据清洗方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117786610A (zh) |
-
2023
- 2023-12-06 CN CN202311674399.7A patent/CN117786610A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
CN112414694B (zh) | 基于多元状态估计技术的设备多级异常状态识别方法及装置 | |
CN116559598B (zh) | 一种智慧配电网故障定位方法及系统 | |
CN112116198A (zh) | 数据驱动的流程工业状态感知网络关键节点筛选方法 | |
CN113627735A (zh) | 工程建设项目安全风险的预警方法及系统 | |
CN114692758A (zh) | 电力通信故障分析方法、装置、终端设备及介质 | |
CN111611294A (zh) | 星敏感器数据异常检测方法 | |
CN111861206A (zh) | 一种基于企业电力大数据的工业行业景气指数获取方法 | |
CN113935535A (zh) | 一种面向中长期预测模型的主成分分析方法 | |
CN110852906B (zh) | 一种基于高维随机矩阵进行窃电嫌疑识别的方法和系统 | |
CN111176872B (zh) | 面向it运维的监控数据处理方法、系统、装置及存储介质 | |
CN117371337B (zh) | 一种基于数字孪生的水利模型构建方法及系统 | |
Shittu et al. | Measuring forecast performance of ARMA and ARFIMA models: An application to US Dollar/UK pound foreign exchange rate | |
CN106779354B (zh) | 用于飞行器性能评估的Bayes数据融合评估方法 | |
CN116776209A (zh) | 一种关口计量装置运行状态辨识方法、系统、设备及介质 | |
CN112128950A (zh) | 一种基于多种模型对比的机房温湿度预测方法及系统 | |
CN117786610A (zh) | 一种基于多元拟合的数据清洗方法、系统、设备及介质 | |
CN114090959B (zh) | 一种河网结构约束下流域径流的随机时空插值方法 | |
CN114971345B (zh) | 一种建成环境品质测度方法、设备及存储介质 | |
Zhang et al. | Applying time series analysis builds stock price forecast model | |
CN114283344A (zh) | 一种森林生态水文过程自动实时监测方法及系统 | |
CN115689331A (zh) | 一种基于mlp的输变电工程量合理性分析方法 | |
CN113283157A (zh) | 智能冲压压力机部件生命周期预测系统、方法、终端、介质 | |
CN117010942B (zh) | 基于神经网络和线性模型的农产品销售预测方法和系统 | |
CN112348296B (zh) | 电信数据获取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |