CN117540346B - 大气污染数据高维回归建模的秩序类别变量冗余去除方法 - Google Patents
大气污染数据高维回归建模的秩序类别变量冗余去除方法 Download PDFInfo
- Publication number
- CN117540346B CN117540346B CN202410028682.0A CN202410028682A CN117540346B CN 117540346 B CN117540346 B CN 117540346B CN 202410028682 A CN202410028682 A CN 202410028682A CN 117540346 B CN117540346 B CN 117540346B
- Authority
- CN
- China
- Prior art keywords
- variable
- variables
- regression
- characteristic
- atmospheric pollution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000002893 slag Substances 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 6
- 230000004044 response Effects 0.000 claims description 13
- 238000003915 air pollution Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 4
- 230000003631 expected effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000611 regression analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,将类似于运渣车作业情况一样的OM特征变量转换为若干个哑变量;针对需要预测的大气污染指标是否连续建立一个最初的回归模型;根据提出的TD‑LASSO方案来探测并去除OM特征变量中的冗余类,同时达到筛选其余特征变量的目的;最后将筛选出的特征变量作为新的特征变量重新建立回归模型来预测大气污染指标。该方案简单易行,只需要对大气监控数据集中的秩序类别特征变量进行哑变量线性变换,则可将冗余类探测问题转换成回归模型的变量选择问题,可直接应用到有众多秩序类别特征变量的数据中,且能够大大降低过拟合的程度,进而能够很大程度的提高大气污染指标的预测准确性。
Description
技术领域
本发明涉及环境检测数据处理领域,具体涉及一种大气污染数据高维回归建模的秩序类别变量冗余去除方法。
背景技术
随着现代科技的进步,大气智能大数据的监控技术越来越成熟,大型城市几乎都可以做到对成百上千个监控点的实时信息进行监测、分析、检查、反馈,它们密切得关注着一个大型城市中大气的一举一动。通过对大气历史数据的收集和分析,再加以适当的统计学相关性分析、方差分析、回归分析等方法和模型,研究者可以挖掘出一些直接影响空气污染指标的因素,比如餐饮业排放情况、工厂排放情况、工地土石方覆盖情况、运渣车作业情况等等。当某个监测点位监测出可疑的污染数据,现场工作人员可以立刻展开研判。之后,系统根据检测数据分析出该城市某地出现可疑的大气污染情况,智能大气监测系统随即将空气质量预警信息推送至一线工作人员。工作人员迅速到达工地现场核查,并如实上报系统。
这套看似普通的工作流程,却能及时地将污染扼杀于摇篮之中,而当我们用回归分析处理大气污染数据时,建立一个合理且准确的回归模型是至关重要的。由于大气污染治理的特殊性,人们所收集到的数据往往存在一些秩序类别变量,比如统计运渣车作业情况,由于运渣车在时空上的复杂轨迹,将其纳入回归分析模型的时候,常常会把某一个固定区域和固定时间段内的运渣车作业情况记录为“无”、“较少”、“适量”、“较多”、“非常多”这样的秩序类别特征变量(Ordinal Multinomial特征变量, 简称为OM特征变量),针对其他监测指标,如工厂的排放、工地的土石方覆盖、居民区油烟排放量等,一样可以得到类似的秩序类别变量。如果不进行精心地处理和改进,直接将这样的秩序类别特征变量纳入回归分析模型,则可能会得到有偏的参数估计结果和出现过拟合的情况,进而导致推断出错误的结论,降低整个大气污染治理工作流程的有效性和准确性。
在建立大气污染防治的回归模型时,用现有的方法去处理其中的OM特征变量还存在局限性。第一,当采用岭估计的方法探测出并去除掉冗余类,会使得参数的估计仍然存在有偏性,容易出现模型的过拟合的情况,因此并不能真正地去除OM特征变量中的冗余类;第二,现有技术所提出的方法,仅能有效处理低维情形下的线性回归模型中的OM特征变量,对于大气污染治理大数据监测下收集到的含有高维特征变量的数据集,以及响应变量非连续的数据集,因其方法依赖于线性模型假设和低维变量假设也变得不再可行。
发明内容
针对现有技术中的上述不足,本发明提供了一种大气污染数据高维回归建模的秩序类别变量冗余去除方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,包括如下步骤:
S1、获取运渣车作业情况,将运渣车作业情况的OM特征变量转换为多个哑变量;
S2、根据待预测大气污染指标是否连续建立回归模型;
S3、利用TD-LASSO算法消除OM特征变量中的冗余类同时筛选得到新的OM特征变量,同时对其余特征变量进行筛选;
S4、根据筛选出的新的特征变量重新建立回归模型并利用重新建立的回归模型预测大气污染指标。
进一步的,所述S2中具体包括如下步骤:
判断响应变量是否连续,若响应变量连续则建立线性回归模型,表示为:
若响应变量不连续则建立逻辑回归模型,表示为:
其中,为样本量,/>为大气污染指标,/>为第/>个哑变量/>的第/>个分量,/>为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,/>为当其余特征变量固定时,特征变量的第k个类别相对于第一个类别对大气污染指标期望的影响之差,/>为第/>个自变量的第n个分量,/>为第/>个自变量的回归系数,iid表示残差项/>之间相互独立且分布相同,/>表示均值为0方差为/>的正态分布,/>为响应变量/>取值为1的概率,/>表示/>服从概率为/>的二项分布。
进一步的,所述S3中利用TD-LASSO算法筛选特征变量中的冗余类得到新的特征变量的具体方式为:
S31、定义第j个哑变量和第个哑变量的系数之差,/>为哑变量总数,根据系数差分的定义,当其余特征变量固定时,特征变量的第/>个类别相对于第一个类别对大气污染指标期望的影响之差,利用所定义的系数差分对步骤S2中含有特征变量的回归模型进行改写;
S32、定义线性变换,/>为第/>个哑变量/>的第/>个分量,对S31改写的模型中同系数差的哑变量进行合并,同时将S31中的模型改写得到新模型;
S33、令待估参数总体,其中,/>为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,/>为第/>个自变量的回归系数,利用LASSO惩罚回归在高维特征变量情形下对S32得到的模型进行特征变量选择;
S34、根据交叉验证选择最优惩罚系数并代入LASSO惩罚回归计算待估参数的所有估计值,利用LASSO惩罚回归对所有估计值进行压缩,消除冗余类。
进一步的,所述S31中改写后的回归模型表示为:
其中,N为样本量,为大气污染指标,/>为当其余特征变量固定时,特征变量的第/>个类别相对于第一个类别对大气污染指标期望的影响之差,/>为第q个自变量的第n个分量,/>表示残差项/>之间相互独立且分布相同,/>表示均值为0方差为/>的正态分布,/>为响应变量/>取值为1的概率,/>表示/>服从概率为/>的二项分布。
进一步的,所述S32中新的回归模型表示为:
其中,N为样本量,为大气污染指标,/>,/>为第/>个哑变量/>的第/>个分量,/>为第/>个自变量的第/>个分量,/>表示残差项/>之间相互独立且分布相同,/>表示均值为0方差为/>的正态分布,/>为响应变量/>取值为1的概率,/>表示/>服从概率为/>的二项分布。
进一步的,所述S33中LASSO惩罚回归表示为:
其中,为对数似然函数,/>为待估参数总体,/>为LASSO惩罚回归之后待估参数总体/>的估计值,/>为自变量总体,/>为样本量,为第/>个自变量的回归系数,/>为第/>个哑变量和第/>个哑变量的系数之差,/>为惩罚系数。
本发明具有以下有益效果:
发明为针对大气污染治理的高维统计回归模型,提供了一种基于哑变量线性变换和LASSO惩罚回归的秩序类别特征变量冗余类探测和去除的方案。首先该方案简单易行,只需要对大气监控数据集中的秩序类别特征变量进行哑变量线性变换,则可将冗余类探测问题转换成回归模型的变量选择问题;其次,由于本发明采用的变量选择方法LASSO具有超高的运算效率,可快速处理高维特征变量选择问题,因此本发明所提出的方案可直接应用到既有众多秩序类别特征变量,又有众多连续型特征变量的大气监控数据集中。最后,本发明所建立的回归模型的系数是无偏的,且能够大大降低过拟合的程度,进而能够很大程度的提高大气污染指标的预测准确性。
附图说明
图1为本发明大气污染数据高维回归建模的秩序类别变量冗余去除流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,如图1所示,包括如下步骤:
S1、获取运渣车作业情况,将运渣车作业情况的特征变量转换为多个哑变量;
假设运渣车作业情况具有/>个秩序类别(/>),以第一类类别为基准类,记为其/>个哑变量,哑变量即示性变量,取此类则为1,不取此类则为0。
S2、根据待预测大气污染指标是否连续建立回归模型;
考虑某大气污染指标服从Gauss-Markov假定(比如PM2.5指标)的线性回归模型(Linear model),以及大气污染情况服从二项分布(比如空气质量是否优良)的逻辑回归模型(Logistic model),分别采用有如下模型表达式:
(1)
其中,N为样本量,为大气污染指标,/>为第/>个哑变量/>的第/>个分量,/>为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,/>为当其余特征变量固定时,特征变量的第/>个类别相对于第一个类别对大气污染指标期望的影响之差,为第/>个自变量的第/>个分量,/>为第/>个自变量的回归系数,iid表示残差项/>之间相互独立且分布相同,/>表示均值为0方差为/>的正态分布,/>为/>取值为1的概率,/>为残差项,/>表示/>服从概率为/>的二项分布。在大气污染治理的实际问题中,研究人员还需要考虑一些连续取值的特征变量(温度、湿度、二氧化氮浓度、二氧化硫浓度等等)与OM特征变量共同存在的情形。所以为了使模型(1)更加符合实际需求,我们加入了连续取值特征变量/>, 其中/>的取值可以接近甚至于超过样本量/>, 这种称之为高维特征变量的问题也是本发明要着力解决的。/>的第/>个哑变量/>定义为:
(2)
根据哑变量的编码规则,对于有个秩序类别的OM特征变量/>,取第一类为基准类,剩余的/>类为对比类。因此,/>代表当其余特征变量取值为0时,在OM特征变量/>为第一类的影响下大气污染指标/>的期望,对Linear model而言就是其均值,对Logisticmodel而言就是污染天出现的概率;/>代表当其余特征变量固定时,/>的第二个类别相对于第一个类别对/>期望的影响之差,由此推导可得/>有类似的解释意义。本发明中,我们定义模型(1)里的相邻两个类别的系数之差为/>,基于此提出一种大气防治回归模型OM特征变量的冗余类去除方法,采用简单易行的哑变量线性变换与LASSO惩罚回归相结合的方法来探测出OM特征变量中是否有系数之差/>为0,此时称/>所对应的分类为冗余类,并将冗余类与它的相邻类合并,最终达到去除冗余类的效果。
S3、利用TD-LASSO算法计算特征变量中的冗余类得到新的特征变量,同时对其余特征变量进行筛选;
本实施例里,具体包括如下步骤:
Step1—— 根据系数差分的定义,,含有OM特征变量/>(运渣车作业情况)的回归模型(1)可改写为:
(3)
Step2—— 定义一个线性变换对模型(3)中具有相同系数差的哑变量进行合并,得到如下新的模型(4):
(4)
Step3—— 将模型(4)看成是线性回归模型和广义线性回归模型,令待估参数总体为,在高维特征变量情形之下,对OM特征变量冗余类的探测问题,就变成了对模型(4)进行变量选择问题,于是这一步将采取LASSO惩罚回归,
(5)
其中是对数似然函数,其具体表达式会根据所采用的是线性模型还是广义线性模型而变化,对线性模型而言这部分可以用残差平方和替代,对广义线性回归模型而言要根据其具体分布写出似然函数再取对数。表达式(5)中的λ又叫惩罚系数,其最优值的选取往往通过交叉验证法。
Step4——在Step 3中,根据交叉验证选择一个最优的惩罚系数,代入(5)式再进一步算出/>的所有估计值。根据LASSO惩罚回归的优良性质,中的一部分系数会被压缩为0,如果正好是某/>被压缩成0,则表示/>(运渣车作业情况)的第/>类和第/>类对某空气污染指标的影响无统计学差异,此时第/>类和第/>类就存在冗余类,可合并从而消除冗余类。
S4、根据筛选出的新的特征变量重新建立回归模型并利用重新建立的回归模型预测大气污染指标。
Step5、Step 4做完以后,对消除冗余类的数据重新建立模型(1),即可得到更精简的大气污染防治模型,更精确的参数估计。如果存在多个OM特征变量,只需要在Step 1和Step 2中定义更多的和/>即可。
为了更好的说明本专利的方法在实际中如何应用,接下来将使用本专利的方法处理一个含有3个OM特征变量的数据集。数据集中含有246组样本,响应变量是某地区空气质量是否良好,三个OM特征变量分别是运渣车作业情况/>、该地区居民区油烟排放量/>和该地区工厂的废气排放浓度是否达标/>,另外还有一个连续的自变量是空气中的湿度/>。响应变量和三个OM特征变量的类别如表1所示。
表1 响应变量和OM特征变量
首先,由于响应变量是不连续的,因此建立逻辑回归模型,记为模型Ⅰ,如下所示:
其中,为/>取值为1的概率,/>为样本量,/>为三个特征变量所对应的哑变量。紧接着,通过差分变换将模型转换为模型Ⅱ:
.
其中,为引入的连续取值的变量,/>和分别表示差分变换后的系数和对哑变量差分变换后的变量,上文已经对如何差分变换做了解释,这里不再赘述。而后,利用R软件计算模型Ⅱ的参数,结果如表2所示。
表2 模型Ⅱ参数估计结果
由表2可知和/>的P值都大于显著性水平/>,这说明运渣车的第2,3类可能是伪分类,接下来我们利用R软件实现TD-LASSO算法筛选并去除OM特征变量中的伪分类,得到模型Ⅲ,如下所示:
对模型Ⅲ重新拟合,得到的拟合结果如表3所示。
从表3结果可知,TD-LASSO算法筛选出和/>是伪分类,即可以认为运渣车作业情况少,适量和较多时对空气质量的影响没有明显差别,因此可将这三类并为一类,其余OM特征变量的分类可类似分析。
综上,我们最终得到的模型为:
而后,再根据哑变量线性变换,将上述模型还原为:
表3 模型Ⅲ参数估计结果
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (2)
1.一种大气污染数据高维回归建模的秩序类别变量冗余去除方法,其特征在于,包括如下步骤:
S1、获取运渣车作业情况,将运渣车作业情况的OM特征变量转换为多个哑变量;
S2、根据待预测大气污染指标是否连续建立回归模型, 若响应变量连续则建立线性回归模型,表示为:
若响应变量不连续则建立逻辑回归模型,表示为:
其中,N为样本量,为大气污染指标,/>为第/>个哑变量/>的第n个分量, />为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,/>为当其余特征变量固定时,特征变量的第k个类别相对于第一个类别对大气污染指标期望的影响之差,为第q个自变量的第n个分量,/>为第q个自变量的回归系数,iid表示残差项/>之间相互独立且分布相同,/>表示均值为0方差为/>的正态分布,/>为响应变量/>取值为1的概率,/>表示/>服从概率为/>的二项分布;
S3、利用TD-LASSO算法消除OM特征变量中的冗余类同时筛选得到新的OM特征变量,同时对其余特征变量进行筛选,具体方式为:
S31、定义第j个哑变量和第个哑变量的系数之差/>,/>为哑变量总数,根据系数差分的定义,当其余特征变量固定时,特征变量的第/>个类别相对于第一个类别对大气污染指标期望的影响之差/>,利用所定义的系数差分对步骤S2中含有特征变量的回归模型进行改写,改写后的回归模型表示为:
S32、定义线性变换,/>为第/>个哑变量/>的第/>个分量,对S31改写的模型中同系数差的哑变量进行合并,同时将S31中的模型改写得到新模型,表示为:
;;
S33、令待估参数总体,其中,/>为当其余特征变量为0时在特征变量为第一类别的影响下大气污染指标的期望,/>为第/>个自变量的回归系数,利用LASSO惩罚回归在高维特征变量情形下对S32得到的模型进行特征变量选择;
S34、根据交叉验证选择最优惩罚系数并代入LASSO惩罚回归计算待估参数的所有估计值,利用LASSO惩罚回归对所有估计值进行压缩,消除冗余类;
S4、根据筛选出的新的特征变量重新建立回归模型并利用重新建立的回归模型预测大气污染指标。
2.根据权利要求1所述的大气污染数据高维回归建模的秩序类别变量冗余去除方法,其特征在于,所述S33中LASSO惩罚回归表示为:
其中,为对数似然函数,/>为待估参数总体,/>为LASSO惩罚回归之后待估参数总体/>的估计值,/>为自变量总体,/>为样本量,/>为第/>个自变量的回归系数,/>为第/>个哑变量和第/>个哑变量的系数之差,/>为惩罚系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028682.0A CN117540346B (zh) | 2024-01-09 | 2024-01-09 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028682.0A CN117540346B (zh) | 2024-01-09 | 2024-01-09 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117540346A CN117540346A (zh) | 2024-02-09 |
CN117540346B true CN117540346B (zh) | 2024-03-19 |
Family
ID=89786538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410028682.0A Active CN117540346B (zh) | 2024-01-09 | 2024-01-09 | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540346B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016100560A4 (en) * | 2016-05-10 | 2016-06-16 | Macau University Of Science And Technology | Method and system for determining an association of biological features with a medical condition |
CN108763673A (zh) * | 2018-05-16 | 2018-11-06 | 广东省生态环境技术研究所 | 基于lasso回归的土地利用变化驱动力筛选方法和装置 |
CN110472197A (zh) * | 2019-08-22 | 2019-11-19 | 苏州卡泰里环保能源有限公司 | 基于Binary Logistic模型运用哑变量预测开窗行为的方法 |
CN111028223A (zh) * | 2019-12-11 | 2020-04-17 | 大连医科大学附属第一医院 | 一种微卫星不稳定肠癌能谱ct碘水图影像组学特征处理方法 |
CN111581792A (zh) * | 2020-04-23 | 2020-08-25 | 生态环境部环境规划院 | 一种基于两阶段非负Lasso模型的大气PM2.5浓度预测方法及系统 |
CN114511087A (zh) * | 2022-04-19 | 2022-05-17 | 四川国蓝中天环境科技集团有限公司 | 一种基于双模型的空气质量空间推断方法及系统 |
CN115064219A (zh) * | 2022-05-19 | 2022-09-16 | 复旦大学 | 基于机器学习的人呼气中VOCs生物标志物的识别方法 |
WO2023016725A1 (en) * | 2021-08-10 | 2023-02-16 | Rolls-Royce Plc | Computer-implemented methods, apparatus, computer programs and non-transitory computer-readable storage mediums |
CN116662935A (zh) * | 2023-06-01 | 2023-08-29 | 西安科技大学 | 基于空气质量监测网络的大气污染物空间分布预测方法 |
-
2024
- 2024-01-09 CN CN202410028682.0A patent/CN117540346B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016100560A4 (en) * | 2016-05-10 | 2016-06-16 | Macau University Of Science And Technology | Method and system for determining an association of biological features with a medical condition |
CN108763673A (zh) * | 2018-05-16 | 2018-11-06 | 广东省生态环境技术研究所 | 基于lasso回归的土地利用变化驱动力筛选方法和装置 |
CN110472197A (zh) * | 2019-08-22 | 2019-11-19 | 苏州卡泰里环保能源有限公司 | 基于Binary Logistic模型运用哑变量预测开窗行为的方法 |
CN111028223A (zh) * | 2019-12-11 | 2020-04-17 | 大连医科大学附属第一医院 | 一种微卫星不稳定肠癌能谱ct碘水图影像组学特征处理方法 |
CN111581792A (zh) * | 2020-04-23 | 2020-08-25 | 生态环境部环境规划院 | 一种基于两阶段非负Lasso模型的大气PM2.5浓度预测方法及系统 |
WO2023016725A1 (en) * | 2021-08-10 | 2023-02-16 | Rolls-Royce Plc | Computer-implemented methods, apparatus, computer programs and non-transitory computer-readable storage mediums |
CN114511087A (zh) * | 2022-04-19 | 2022-05-17 | 四川国蓝中天环境科技集团有限公司 | 一种基于双模型的空气质量空间推断方法及系统 |
CN115064219A (zh) * | 2022-05-19 | 2022-09-16 | 复旦大学 | 基于机器学习的人呼气中VOCs生物标志物的识别方法 |
CN116662935A (zh) * | 2023-06-01 | 2023-08-29 | 西安科技大学 | 基于空气质量监测网络的大气污染物空间分布预测方法 |
Non-Patent Citations (2)
Title |
---|
基于自适应Lasso-WOA-LSSVR的空气质量指数的预测――以杭州市为例;郑晓飞;;中南财经政法大学研究生学报;20190225(01);54-62 * |
针对秩序多项特征变量的二分类机器学习模型研究;周晓霞;信息科技辑;20220518;1-69 * |
Also Published As
Publication number | Publication date |
---|---|
CN117540346A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Janarthanan et al. | A deep learning approach for prediction of air quality index in a metropolitan city | |
US7292960B1 (en) | Method for characterization, detection and prediction for target events | |
CN110008301B (zh) | 基于机器学习的区域性地质灾害易发性预测方法及装置 | |
CN112181706B (zh) | 一种基于对数区间隔离的电力调度数据异常检测方法 | |
TWI584134B (zh) | 製程異因分析方法與製程異因分析系統 | |
CN110782067B (zh) | 一种基于模糊信息粒化的烧结终点波动范围预测方法 | |
CN111782460A (zh) | 大规模日志数据的异常检测方法、装置和存储介质 | |
Wang et al. | A deep learning approach to real-time CO concentration prediction at signalized intersection | |
CN114023399A (zh) | 一种基于人工智能的空气颗粒物分析预警方法和装置 | |
CN112363896A (zh) | 日志异常检测系统 | |
CN116862081B (zh) | 一种污染治理设备运维方法及系统 | |
KR102564191B1 (ko) | 실시간으로 재난 상황을 감지하고 대응하는 재난 대응 시스템 | |
CN115563880A (zh) | 一种基于Isolated forest-变点增强的企业用电异常检测方法 | |
CN113408659A (zh) | 一种基于数据挖掘的建筑能耗集成分析方法 | |
Ayus et al. | Comparison of machine learning and deep learning techniques for the prediction of air pollution: a case study from China | |
CN117540346B (zh) | 大气污染数据高维回归建模的秩序类别变量冗余去除方法 | |
Theumer et al. | Anomaly detection on industrial time series for retaining energy efficiency | |
Sharma et al. | Forecasting and prediction of air pollutants concentrates using machine learning techniques: the case of India | |
Bidyuk et al. | An Approach to Identifying and Filling Data Gaps in Machine Learning Procedures | |
Zhang et al. | ARIMA model-based fire rescue prediction | |
CN111984514A (zh) | 基于Prophet-bLSTM-DTW的日志异常检测方法 | |
Nguyen et al. | Deep learning for construction emission monitoring with low-cost sensor network | |
CN116434531A (zh) | 一种基于Conv1D-LSTM模型的短时交通流预测方法 | |
CN111724048A (zh) | 基于特征工程对成品库调度系统性能数据的特征抽取方法 | |
CN111625525A (zh) | 一种环境数据修复/填充方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |