CN110334767B

CN110334767B - 一种用于空气质量分类的改进随机森林方法

Info

Publication number: CN110334767B
Application number: CN201910612178.4A
Authority: CN
Inventors: 熊庆宇; 易华玲; 吴丹; 吉皇; 余洋; 高旻; 王楷
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2023-02-21
Anticipated expiration: 2039-07-08
Also published as: CN110334767A

Abstract

本发明公开了一种用于空气质量分类的改进随机森林方法，包括空气质量分类模型，该空气质量分类模型包括原始数据模块、数据预处理模块、分类生成模块、分类数据模块，其中，原始数据模块用于采集原始空气数据；数据预处理模块用于对原始空气数据进行数据清洗、数据集成、数据转换等操作；分类生成模块用于对数据预处理模块所处理后的数据进行随机采样，并同时基于CART算法分类出决策树；分类数据模块用于接收分类生成模块所输出的分类模型，以及输出空气数据分类结果，所述随机采样包括基于样本类别分组的自助采样方法和随机特征子空间法。本发明提升了少数类样本的分类精度，降低了样本集的整体错分代价。

Description

一种用于空气质量分类的改进随机森林方法

技术领域

本发明涉及空气质量的监测技术领域，尤其涉及一种用于空气质量分类的改进随机森林方法。

背景技术

空气污染是指人类在自然环境中进行生产生活，由于一些不恰当的行为而将某些污染物排入大气中，当物质浓度达到一定数值后对人体健康和自然环境造成危害的一种现象。大气环境复杂多变且具有动态的不确定特性，引发空气污染的相关因素有很多，比如PM(2.5)、SO₂和O₃等超过一定浓度的空气污染物，还有降水、风向、湿度等因素，这些因素都跟未来一段时间之内的空气质量存在着较强的非线性关系。较为准确的空气质量预报能够帮助人们采取有效措施，合理安排出行计划，有助于大气污染防控和城市环境规划建设，减少不必要的损失，对人们的生产生活有着重要的指导意义。

随着现代化信息体制的建设，以及大数据处理技术的崛起，人工智能不断有新的进展和突破，机器学习发挥了非常重要的作用。作为关键技术的数据挖掘及其智能分类在各种监测分类领域得到广泛运用，而其中运用技术包括基于随机森林进行数据分类的监测方法。随机森林采用了集成算法适用于各种类型的数据集，既能处理离散型数据，也能处理连续型数据，同时较好地避免了过拟合问题。

现有技术中的随机森林算法是一种有监督的机器学习方法，如图1所示，该方法通过集成多个相互独立的决策树(弱学习器)的学习结果，以形成一个树的组合模型(强学习器)。随机森林是一种非线性拟合模型，可以处理非线性的数据，具有实现简单，训练速度快等特点；其模型训练过程主要由两部分构成：随机采样和完全分裂，随机采样包括对原始训练数据集的随机行采样(自助采样法)和随机列采样(随机子空间法)，其中，随机行采样是对数据集中所有样本进行有放回地随机采样，即每次从原始训练数据集中抽取一个样本，而后放回，重复抽取N次得到一个与原始训练数据集大小相同的新数据集；随机列采样是对原始数据集的特征空间进行的一种无放回的随机采样，每次从原始特征空间中随机抽取一个特征，不放回该特征，再从剩下的特征空间中随机抽取下一个特征，重复该抽取过程直到抽取到的特征数量满足决策树模型训练所需的数量。完全分裂是指所训练所得到的每一棵决策树都是完全生长的，没有进行剪枝操作，即将随机行采样和随机列采样后得到的数据集作为随机森林中训练决策树的训练数据集，由于每一棵树的训练数据集都是互不相同的，所以森林中的每一棵树都是互不相同且相互独立的，因此可以并行生成决策树模型，完全分裂使决策树充分利用训练集中的特征，以使决策树获得较好的学习能力。总而言之，随机森林模型中的决策树群体具有“好而不同”的特点，可以取得较好的泛化能力和抗过拟合能力。

但是，现有随机森林运用当中的训练数据集具有不平衡特性，即某一类的样本数量要小于其他类的样本数量，且少数类具有更高错分代价。错分代价可示意举例为利用数据智能化对肺结核疾病进行诊断，患肺结核样本(少数类样本)的数量远小于未患肺结核样本(多数类样本)数量，但是将患病样本错误诊断(分类)为未患病样本的代价是远远大于将未患病样本错误诊断(分类)患病样本的代价。当其对不平衡数据进行分类时，由于多数类样本和少数类样本在数量上的不平衡，会使得分类模型偏向于多数类而忽略少数类，造成少数类的分类精度较低，进而造成训练数据集的误差发展，最终形成错误的数据分类；影响采用样本数据使用者的间接判断，进而对人们的生产生活造成误导，具有较高的错分代价。

发明内容

本发明的目的在于提供了一种用于空气质量分类的改进随机森林方法，提升了少数类样本的分类精度，降低了样本集的整体错分代价，进而便利了人们的日常生活，增强了空气质量数据监测的应用，提高了随机森林算法的实用性。

本发明解决其技术问题所采用的技术方案是：一种用于空气质量分类的改进随机森林方法，包括空气质量分类模型，该空气质量分类模型包括原始数据模块、数据预处理模块、分类生成模块、分类数据模块，其中，原始数据模块用于采集原始空气数据；数据预处理模块用于对原始空气数据进行数据清洗、数据集成和数据转换；分类生成模块用于对数据预处理模块所处理后的数据进行随机采样，并同时基于CART算法分类出决策树；分类数据模块用于接收分类生成模块所输出的分类模型，以及输出空气数据分类结果，所述随机采样包括基于样本类别分组的自助采样方法和随机特征子空间法，所述基于样本类别分组的自助采样方法包括以下步骤：

S100，在分类生成模块中建立针对空气污染物浓度数据的训练数据集；

S200，通过数据预处理模块对前一步骤中训练数据集中的数据进行预处理，包括对数据进行去噪；

S300，对前一步骤所处理后的训练数据集进行不平衡指数的计算；

S400，基于前一步骤所计算出的不平衡指数与训练数据集的匹配情况，产生新的训练样本集；

S500，基于前一步骤中的训练样本集，在分类数据模块中形成相应数量的决策树，并采用多数投票机制获取最终分类结果送达至分类数据模块中。

进一步地，所述步骤S100包括以下步骤：

S101，确定训练数据集中的空气污染物特征，所述特征包括空气污染物种类、空气污染物浓度单位；

S102，基于前一步骤中的空气污染物特征，建立训练数据集中样本与空气质量的对应关系；

S103，通过前一步骤所建立的训练数据集采集原始空气数据。

进一步地，所述步骤S101中的空气污染物种类包括PM2.5、PM10、SO₂、NO₂、O₃和CO；所述步骤S101中的空气污染物浓度单位分为与CO浓度值单位对应的mg/m³、与其余5种浓度值单位对应的μg/m³。

进一步地，述步骤S102中样本与空气质量的对应关系包括空气质量类别与空气质量等级的应，其中，空气质量类别分为6种，空气质量等级包括优、良、轻度污染、中度污染、重度污染、严重污染，其每一种空气质量类别分别对应一个空气质量等级。

进一步地，所述步骤S300对不平衡指数的计算包括以下步骤：

S301，以S代表为训练数据集，以m表示S中样本的类别数量，分别计算S属于各种样本类别的数量，并分别以X1、X2至Xm表示所述S属于各种样本类别的数量，其中，X为X1、X2至Xm的集合；

S302，不平衡指数值表示为Ic，判断集合X中有元素的值是否为0，若是，则；若不是，则对集合X中的所有元素，即两两之间做计算Xj/Xi，其计算结果构成一个包含个元素的新集合，其记为，其中Xj>Xi；

S303，对步骤b中得到的集合Ic中的所有元素求和，以此计算训练数据集S的不平衡指数值Ic(S)，计算公式为

进一步地，所述步骤S400包括以下步骤：

S401，将训练数据集按样本类别数量分为C组，每个小组内的样本的类别一样；

S402，在每个小组内进行有放回的随机抽样，构成一个大小相同的新的样本集；

S403，将自助采样得到的C个新的样本集组合，形成一个和原始训练数据集有相同大小和相同不平衡指数的新的训练数据集；

S403，基于t个互不相同的新的训练数据集，训练出t棵完全生长的分类决策树，组合成随机森林分类模型。

本发明的有益效果在于：

1、通过对数据集的类别不平衡程度的量化计算，提供了精确的不平衡指数，进而实现了训练数据集中各类别样本的准确比对，得出的不平衡数据准确可靠，从而降低了样本分类的过拟合问题；

2、通过基于样本类别分组的自助采样方法，有效保持采样后所生成新数据集的不平衡指数与原始数据集的一致性；解决了传统自助采样法中，其对整个数据集有放回地随机抽样过程中，所产生不平衡指数更大的新数据集，进而导致数据集的类别不平衡程度加深的问题，以此增强了分类决策树的分类能力，并同时提高了随机森林中分类模型的分类精度；

3、通过针对空气质量分类的改进随机森林方法，实现空气质量分类模型的完整建模，在降低训练数据集中各类别样本不平衡程度的基础上，提供了准确的样本分类数据，降低了错分代价，提高了随机森林算法的泛化能力及抗过拟合能力，增强了其实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图及实施例对本发明作进一步说明，下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图：

图1为本发明一种用于空气质量分类的改进随机森林方法中现有随机森林方法的框架示意图；

图2为本发明一种用于空气质量分类的改进随机森林方法中的改进随机森林方法框架示意图；

图3为本发明一种用于空气质量分类的改进随机森林方法中的空气质量分类模型示意图；

图4为本发明一种用于空气质量分类的改进随机森林方法中的基于原始随机森林算法的空气质量分类模型的预测结果示意图；

图5为本发明一种用于空气质量分类的改进随机森林方法中的基于改进随机森林算法的空气质量分类模型的预测结果示意图；

图6为本发明一种用于空气质量分类的改进随机森林方法中的空气质量类别与空气质量等级对应关系表。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

在实施例1中，如图2及3所示，一种用于空气质量分类的改进随机森林方法，一种用于空气质量分类的改进随机森林方法，包括空气质量分类模型，该空气质量分类模型包括原始数据模块、数据预处理模块、分类生成模块、分类数据模块，其中，原始数据模块用于采集原始空气数据；数据预处理模块用于对原始空气数据进行数据清洗、数据集成和数据转换；分类生成模块用于对数据预处理模块所处理后的数据进行随机采样，并同时基于CART算法分类出决策树；分类数据模块用于接收分类生成模块所输出的分类模型，以及输出空气数据分类结果，所述随机采样包括基于样本类别分组的自助采样方法和随机特征子空间法，所述基于样本类别分组的自助采样方法包括以下步骤：

具体地，首先采集空气质量数据，如图6所示，其空气质量数据按照《环境空气质量标准》(GB3095-1996)进行分类：空气质量类别分为6类，并以“1、2、3、4、5、6”序号分别对应一类空气质量类别；空气质量等级按照对健康影响情况进行分类，其中，在对健康影响情况中：“空气质量令人满意，基本无空气污染”对应的空气质量等级为“优”，对应的空气质量类别为“1”；“空气质量可接受，但某些污染物可能对极少数异常敏感人群健康有较弱影响”对应的空气质量等级为“良”，对应的空气质量类别为“2”；“易感人群症状有轻度加剧，健康人群出现刺激症状”对应的空气质量等级为“轻度污染”，对应的空气质量类别为“3”；“进一步加剧易感人群症状，可能对健康人群心脏、呼吸系统有影响”对应的空气质量等级为“中度污染”，对应的空气质量类别为“4”；“心脏病和肺病患者针状显著加剧，运动耐受力降低，健康人群普遍出现症状”对应的空气质量等级为“重度污染”，对应的空气质量类别为“5”；“健康人群运动耐受力降低，有明显强烈症状，提前出现某些疾病”对应的空气质量等级为“严重污染”，对应的空气质量类别为“6”。

在所述S200的步骤中，通过数据预处理模块对前一步骤中训练数据集中的数据进行预处理过程包括：

S201，输入原始数据集；

S202，统一原始数据集中的数据格式，并按照相同数据类型划分在同一列中，其中，不同列的数据不约束于数据类型的不同；

S203，判断数据集中是否有缺失值(空值)，丢弃含有缺失值的样本；

S204，判断数据集中是否有重复的样本数据，其属性值和类别均相同的样本为重复样本，若有，则将多个重复样本合并为一个唯一的样本；

S205，判断数据集中是否有无效样本，即属性值相同但类别不同的样本；若有，则清除无效样本；

S206，通过箱型图分析数据集是否还有异常值，若有，则丢弃含异常值样本；

S207，输出：不含有缺失值、异常值、重复样本、无效样本且具有统一数据格式的数据集。

基于空气质量特征进行数据采集，对传感器监测所获取的上述特征污染物数据进行采集，该空气质量特征包括6种，其中，空气污染源也可分为自然的和人为的两大类，自然污染源是由于自然原因(如火山爆发，森林火灾等)而形成，人为污染源是由于人们从事生产和生活活动而形成，按照空气污染物的主要标准，其6种污染物特征分别为PM2.5、PM10、SO₂、NO₂、O₃、CO，其特征的值是6种污染物的浓度值，CO浓度值的单位为mg/m³，其余5种污染物浓度值的单位为μg/m³。

在对空气污染物数据的预处理过程中，包括对首先数据进行清洗，接着对数据进行集成、最后对数据进行转换。在数据清洗过程中包括对数据进行去噪，因采集的空气污染物数据最初存放于原始样本集S中，为提高训练数据集中的数据精度，在此需对含有缺失值的样本进行丢弃。其中，缺失值是指数据集中的样本某一特征数据没有有效值，即该数据中的浓度值为0。上述含缺失值样本的处理过程是为防止含缺失值样本加深训练数据集的不平衡程度，进而增高了错分代价。将去噪后的数据进行集成，即形成数据包，并通过对数据包进行数据转换以形成新的训练数据集，新的训练数据集包括若干个新样本集(S1、S2...St)，其新样本集的数量根据不平衡指数与训练数据集的匹配情况进行分配。

具体地，在计算训练数据集中的不平衡指数过程中，包括以下步骤：S301，以S代表为训练数据集，以m表示S中样本的类别数量，分别计算S属于各种样本类别的数量，并分别以X1、X2至Xm表示所述S属于各种样本类别的数量，其中，X为X1、X2至Xm的集合；S302，不平衡指数值表示为Ic，判断集合X中有元素的值是否为0，若是，则Ic(S)＝∞，其属于极端不平衡数据集；若不是，则对集合X中的所有元素，即两两之间做计算Xj/Xi，其计算结果构成一个包含

个元素的新集合，其记为Ic，其中Xj>Xi；S303，对步骤b中得到的集合Ic中的所有元素求和，以此计算训练数据集S的不平衡指数值Ic(S)，计算公式为

若所计算出的不平衡指数值Ic(S)＝1，则数据集中各类别的样本的数量相等，数据集的类别绝对平衡，而此处为1的不平衡数值为本实施例的最小不平衡数值；相对的，不平衡指数越大，数据集的不平衡程度越深，即多数类样本和少数类样本的数量相差越大，由此即可根据不平衡指数对训练数据集样本进行量化数据的计算，进而对训练数据集进行精确分类。

在分类生成模块(3)产生新的训练样本集过程中，包括以下步骤：S401，将训练数据集按样本类别数量分为C组，每个小组内的样本的类别一样；S402，在每个小组内进行有放回的随机抽样，构成一个大小相同的新的样本集；S403，将自助采样得到的C个新的样本集组合，形成一个和原始训练数据集有相同大小和相同不平衡指数的新的训练数据集，该新的训练数据集中的所有样本类别不变；S403，基于t个互不相同的新的训练数据集，训练出t棵完全生长的分类决策树，组合成随机森林分类模型。

在本实施例中，随机特征子空间法用于配合基于样本类别分组的自助采样方法进行随机的原始数据采集，以增强空气质量分类模型的学习能力及随机森林算法的泛化能力。具体的自助采样过程包括对原始训练数据集S进行(自助采样的所有可能结果进行分析：对原始训练数据集S有放回随机抽样，产生一个新的数据集S1，若S1中不含有少数类样本，则S1属于极端不平衡数据集，S1相对S的不平衡程度加深；对原始训练数据集S进行有放回随机抽样，产生一个新的数据集S2，若S2中仅含有非常少量的少数类样本，导致Ic(S2)＞Ic(S)，则S2相对S的不平衡程度加深；对原始训练数据集S进行有放回随机抽样，产生一个新的数据集S3，若S3中含有充足的少数类样本，则有Ic(S3)＜Ic(S)，S3相对S的不平衡程度低。

由于自助采样法是对原始训练数据集S进行有放回地随机抽样，使得上述三种分析情况的数据集出现的概率相同，当把自助采样生成的新数据集用来训练分类决策树时，前两种数据集训练所得的分类决策树对少数类样本的分类能力非常弱，从而导致最终的随机森林分类模型对少数类样本的分类精度不高。

进一步地，对基于样本类别分组的自助采样方法的采样结果进行分析：该采样方法首先对原始数据集按照样本类别进行分组，然后在每个类别相同的小组内进行有放回地随机抽样生成新的数据集，最后再将各个类别的新数据集组合成一个包含所有类别样本的新数据集S，作为基于样本类别分组的自助采样方法对原始数据集的采样结果。由于这种改进后的自助采样方法生成的新数据集中每个类别的样本数量和原始数据集中的对应类别的样本数量相同，因此有Ic(S’)＝Ic(S)，即新数据集和原始数据集的不平衡程度相同。有基于此，其生成的新数据集训练随机森林中的分类决策树，每棵分类决策树对少数类样本的学习能力都近似，以此提升最终的随机森林分类模型对少数类样本的分类准确率。

具体地，如图3所示，在空气质量分类模型的构建过程中，空气数据集具有类别分布不平衡的特点，因此使用基于样本类别分组的自助采样方法的随机森林改进算法对空气数据进行建模，以此得到一个对少数类样本分类比较准确的空气质量分类模型。基于样本类别分组自助采样方法的随机森林分类模型预测结果(混淆矩阵)如图4所示，原始随机森林分类模型的预测结果(混淆矩阵)如图5所示。横轴表示模型预测的样本类别，纵轴表示样本的真实类别，矩阵中数字表示样本数量，其中按样本数量由多到少对不同类别样本排序为2(733)>3(412)>1(334)>4(251)>(133)5>6(46)；比较图3和图4发现，基于样本类别分组自助采样方法的随机森林分类模型在对少数类样本(类别为5和6的样本)的分类准确率上高于原始随机森林分类模型。前者对类别为6的总共46个样本，正确分类16个；对类别为5的总共133个样本，正确分类118个。后者对类别为6的总共46个样本，正确分类0个，正确分类个数比前者少16个；对类别为5的总共133个样本，正确分类107个，正确分类个数比前者少11个。由此不难看出，本实施例所采用的改进随机森林算法极大的提高了分类精度，进而降低了错分代价。

Claims

1.一种用于空气质量分类的改进随机森林方法，包括空气质量分类模型，该空气质量分类模型包括原始数据模块(1)、数据预处理模块(2)、分类生成模块(3)、分类数据模块(4)，其中，原始数据模块(1)用于采集原始空气数据；数据预处理模块(2)用于对原始空气数据进行数据清洗、数据集成和数据转换；分类生成模块(3)用于对数据预处理模块(2)所处理后的数据进行随机采样，并同时基于CART算法分类出决策树；分类数据模块(4)用于接收分类生成模块(3)所输出的分类模型，以及输出空气数据分类结果(5)，其特征在于，随机采样包括基于样本类别分组的自助采样方法和随机特征子空间法，基于样本类别分组的自助采样方法包括以下步骤：

S100，在分类生成模块(3)中建立针对空气污染物浓度数据的训练数据集；

S200，通过数据预处理模块(2)对前一步骤中训练数据集中的数据进行预处理，包括对数据进行去噪；

S300，对前一步骤所处理后的训练数据集进行不平衡指数的计算；不平衡指数的计算包括以下步骤：

S302，以Ic表示不平衡指数值，Ic的判断集合X中有元素的值是否为0，若是，则Ic(S)＝∞；若不是，则对集合X中的所有元素，即两两之间做计算Xj/Xi，其计算结果构成一个包含个元素的新集合，其记为Uc，其中Xj＞Xi；

S303，对步骤S302中得到的集合Uc中的所有元素求和，以此计算训练数据集S的不平衡指数值Ic(S)，计算公式为

S500，基于前一步骤中的训练样本集，在分类数据模块(4)中形成相应数量的决策树，并采用多数投票机制获取最终分类结果送达至分类数据模块(4)中。

2.根据权利要求1所述的用于空气质量分类的改进随机森林方法，其特征在于，所述步骤S100包括以下步骤：

S103，通过前一步骤所建立的训练数据集采集原始空气数据。

3.根据权利要求2所述的用于空气质量分类的改进随机森林方法，其特征在于，所述步骤S101中的空气污染物种类包括PM2.5、PM10、SO₂、NO₂、O₃和CO；所述步骤S101中的空气污染物浓度单位分为与CO浓度值单位对应的mg/m³、其余5种浓度值单位对应的μg/m³。

4.根据权利要求2所述的用于空气质量分类的改进随机森林方法，其特征在于，所述步骤S102中样本与空气质量的对应关系包括空气质量类别与空气质量等级的应，其中，空气质量类别分为6种，空气质量等级包括优、良、轻度污染、中度污染、重度污染、严重污染，其每一种空气质量类别分别对应一个空气质量等级。

5.根据权利要求1至4中任一所述的用于空气质量分类的改进随机森林方法，其特征在于，所述步骤S400包括以下步骤：

S404，基于t个互不相同的新的训练数据集，训练出t棵完全生长的分类决策树，组合成随机森林分类模型。

6.根据权利要求1至4中任一所述的用于空气质量分类的改进随机森林方法，其特征在于，所述步骤S200包括以下步骤：

S201，输入原始数据集；

S203，判断数据集中是否有缺失值，丢弃含有缺失值的样本；