CN113298148B

CN113298148B - 一种面向生态环境评价的不平衡数据重采样方法

Info

Publication number: CN113298148B
Application number: CN202110569636.8A
Authority: CN
Inventors: 季一木; 苗冬冬; 张澳生; 徐鹤; 李鹏; 王汝传
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-08-05
Anticipated expiration: 2041-05-25
Also published as: CN113298148A

Abstract

本发明所述的一种面向生态环境评价的不平衡数据重采样方法，包括以下步骤：步骤1、采集生态环境数据，对每个实例的生态环境数据进行标准化处理；步骤2、计算每个实例的数据密度以及多数类与少数类的数量差d；步骤3、计算少数类和多数类的分布不平衡程度DI与数量不平衡程度IR；步骤4、对少数类进行过采样；步骤5、对多数类进行欠采样。本发明所述的有益效果为：利用数据集中每个实例的数据密度衡量分布的均匀程度，根据数据分布的不平衡程度来进行过采样和欠采样，达到平衡数据的目的；进一步平衡了生态环境数据，提升了数据集的质量，在进行生态环境质量评价时，准确率会更高，真阳率上升。

Description

一种面向生态环境评价的不平衡数据重采样方法

技术领域

本发明涉及生态环境评价技术与数据处理技术领域，具体是涉及一种面向生态环境评价的不平衡数据重采样方法。

背景技术

生态环境评价就是根据特定的目的，选择具有代表性、可比性、可操作性的评价指标和方法,对生态环境质量的优劣程度进行定性或定量的分析和判别。生态环境质量评价类型主要包括：生态安全评价，生态风险评价，生态系统健康评价，生态系统稳定性评价，生态系统服务功能评价，生态环境承载力评价。生态环境评价技术一般采用综合评价技术来实现，一般有主成分分析法，模糊评价法，灰色关联度法等；综合评价是科学决策的前提，是科学决策中一项基础的工作,所以，所谓综合评价即对评价对象的全体，根据所给的条件，采用一定的方法，给每个评价对象赋予一个评价值，在根据此择优或者排序。综合评价的目的，通常是希望能对若干对象，按一定意义排序，从中挑选出最优或者最劣的对象。

生态环境评价的程序一般分为七步：确定评价对象，确定评价目标，组织评价小组，确定评价指标体系，选择或设计评价方法，选择和建立评价模型，评价结果分析。如何建立合理的、具有普遍实用性而且指标信息容易获取的指标体系，并用恰当的方法进行评价，是生态环境质量评价的重要环节。

在进行生态环境质量评价时，应该充分考虑到我国所具有的明显的区域差异性，根据评价区域本身的环境条件，通过专家咨询等方式将定性分析和定量计算结合起来求出各评价指标的权重，再通过所获取的评价数据来计算最终的指数值，这样更为客观也更为科学。目前除国家已制定的标准和行业规范与设计标准之外，生态环境质量评价的标准大多数尚处于探索阶段。环境质量的标准是基于环境质量基准制定的，目前我国缺少生态环境质量标准，其主要原因就是缺少生态环境质量基准方面的研究。

机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习包含很多,有分类、回归、聚类、推荐、图像识别领域等。其中分类算法是机器学习中一个重要组成部分，在生态环境评价中也有重要作用。其目标是在历史数据的基础上吸取经验为未进行评价的生态环境数据赋予类别或类标签。

数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。在生态环境评价的过程中所收集的数据，经常有缺失值，异常值，脏数据等，这个时候就可以用数据处理的方法，如数据清理、数据集成、数据缩减和数据转换等。数据数量不平衡又称样本比例失衡，比如二分类问题，如果标签为1的样本占总数的99％，标签为0的样本占比1％则会导致判断严重失误，准确率虚高，但是真阳率却极低，而实际上少数类的分类结果是否准确才是重要的。数据分布不平衡就是某一类数据在各个局部的数据密度差异极大，以及各类之间的数据密度差异也很大，会导致在分类的过程中发生误判。

重采样方法是在处理不平衡数据时常用的方法方法。重采样分为两种方法：过采样和欠采样。在包含类标签的生态环境不平衡数据中，有少数类和和多数类，数据的平衡程度在很大程度上会影响分类结果的准确率；一般而言我们需要对少数类进行过采样，合成新的少数类增加少数类的数量；同时对多数类进行欠采样，删除一部分多数类减少多数类的数量，这样多数类与少数类的数量相对而言更加接近，降低了数据集的不平衡程度。传统的依赖于IR的重采样方法有smote，borderline smote等。这些方法合成新的少数类时都具备一定的随机性，没有考虑数据集的分布，因此最终的分类结果可能并不理想。

发明内容

为解决上述技术问题，本发明提供了一种面向生态环境评价的不平衡数据重采样方法,其可处理分布不平衡的生态环境数据，使之变得平衡，在进行环境质量评价时可让数据集在数量和分布上更加平衡，少数类真阳率上升，评价结果更加准确，符合期望。

本发明所述一种面向生态环境评价的不平衡数据重采样方法，包括以下步骤：

步骤1、采集生态环境数据，对每个实例的生态环境数据进行标准化处理；

步骤2、计算每个实例的数据密度以及多数类与少数类的数量差d；

步骤3、计算少数类和多数类的分布不平衡程度DI与数量不平衡程度IR；

步骤4、对少数类进行过采样；

步骤5、对多数类进行欠采样。

进一步的，所述步骤1中，采用的标准化的方法为Min-Max标准化，即新数据＝(原数据-最小值)/(最大值-最小值)，其公式为

其中，u表示新数据，x表示原数据。

进一步的，所述步骤2中，设定一个K值，然后按照欧式距离d找到离此实例最近的K个近邻实例，并计算与近邻实例之间距离的平均值，该平均值就是单个实例的数据密度m，计算公式为

其中，u(x_i)每个实例的数据密度值，K表示近邻实例的数量、d表示联合实例之间的距离，t表示从0到K单个实例的序号。

进一步的，所述步骤3中，少数类和多数类的分布不平衡程度DI与数量不平衡程度IR的计算公式为

Bnum表示多数类实例的数量，Anum表示少数类实例的数量，max表示最大数据密度，min表示最小数据密度，u表示平均数据密度，u(x_i)表示实例xi的数据密度，n为所有的实例数量。

进一步的，所述步骤4中，对少数类进行过采样的步骤为：

步骤4-1、对少数类的每个实例按照数据密度从大到小排序；

步骤4-2、依次在此实例和离此实例最远的近邻实例之间合成新的少数类实例，新合成的少数类实例的数量不超过原来的20％，所述合成公式为

X_new＝X_i+(X_max-X_i)×σ

其中，X_max为实例X_i的K个最近邻中离此实例最远的近邻点，σ∈∪[0，1]为均匀分布的随机数，其中，

步骤4-3、检测加入新的少数类实例后是否使少数类的DI值变低，如果没有则将该新的少数类实例删除，返回步骤5-2，合成下一个新的少数类实例，直到数量达到要求。

进一步的，所述步骤5中，对于多数类进行欠采样的步骤为：

步骤5-1、对多数类的每个实例按照数据密度从小到大排序；

步骤5-2、在满足一定的条件下依次删除一定数量的多数类实例，经过欠采样删除的实例不超过原多数类实例数量的20％；

步骤5-2、判断所述被删除的多数类实例与其K个最近邻实例的数据密度是否小于多数类的平均数据密度，若小于，删除该多数类实例，进入步骤5-3，若不小于，则放弃删除，返回步骤5-2；

步骤5-3、判断删除该多数类实例后，多数类的DI值是否更接近与0，若是，则删除该实例，若否，则放弃删除，返回步骤5-2，直至数量达到要求。

本发明所述的有益效果为：对于大气环境数据集，未达到污染标准的与达到污染标准的两种数据从分布和数量上的不平衡程度都很高，本发明提出的能够对生态环境数据在数量和分布上进行平衡化的方法，利用数据集中每个实例的数据密度衡量分布的均匀程度，根据数据分布的不平衡程度来进行过采样和欠采样，达到平衡数据的目的，减小多数类与少数类的数量差异；进一步平衡了生态环境数据，提升了数据集的质量，在进行生态环境质量评价时，准确率会更高，真阳率上升。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的标准化过程图

图2是本发明的过采样方法流程图；

图3是本发明的欠采样方法流程图。

具体实施方式

本发明所述的一种面向生态环境评价的不平衡数据重采样方法，包括以下步骤：

标准化是指特征工程中的特征缩放过程，生态环境数据各个指标之间大小差异有时很大，当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。而在不计算权重的情况下，各个指标对于某一个实例的判别的贡献是相等的，如果不对这些指标进行标准化，那么这些差异极大的数值就会形成类似于权重的错误信息，这对于评价结果而言是不利的。比如在本发明所采用的生态环境数据集中，SO²的范围在0到0.01，NO²的范围在0到0.1，PM2.5的范围在0到120，由此可见，这些生态环境指标之间的数值范围差异极大，如果直接用这些原始的生态环境指标数据进行分析的话，PM2.5会对结果起决定性影响，而SO²，，NO²指标的数值太小，几乎不会对分析结果起到作用，因而需要对生态环境数据进行标准化处理。采用的标准化方法为Min-Max标准化即新数据＝(原数据-最小值)/(最大值-最小值)，标准化流程图如图1，以及标准化方法如公式1：

其中，u表示新数据，x表示原数据。

步骤2、计算数据集中每个实例的数据密度以及多数类与少数类的数量差d；

在本发明中，利用数据密度衡量生态环境数据分布情况。具体计算方法为设定一个K值，然后按照欧式距离d找到离此实例最近的K和近邻实例并计算与近邻实例之间的距离的平均值这个平均值就是单个实例的数据密度m，如公式2。数据密度越大说明此实例附近越稀疏，反之越稠密

在本文所用的生态环境数据集中，评价等级为优秀和良好的数据最多，分布最集中，显然数据密度最小。相反，重度污染，严重污染的数据几乎没有，数据密度最大。

在生态环境数据集中，如果质量评价等级分为优，良，轻度污染，中度污染，中度污染，严重污染6个等级的话，类标签为优和良的数据往往是最多的，甚至占总数据量的90％以上，就像在一年中不下雪不下雨的天气才是最多的或者人的一生中绝大部分时间都没有在生病，这就会导致在数量上的不平衡，甚至IR值在10以上。再者，在一天或者一年的时间内，生态环境数据往往在局部的时间段内呈现集中的趋势，在另一些时间段内则呈现出直观的变化，这就会导致在生态环境数据集中，局部的数据有时集中，有时稀疏的情况，也就是分布不平衡。所以，为了同时解决这两个问题，需要计算出DI值和IR值，然后依次为依据对数据集进行过采样和欠采样。

DI的计算依赖于每个大气数据实例的数据密度值u(x_i)，在本发明中利用离差计算DI，如公式3。离差是观测值或估计量的平均值与真实值之间的差，是反映数据分布离散程度的量度之一，或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标，所以这里用离差比较合适，可以很大程度上衡量数据集的分布情况。另外，还需要计算IR，在接下来的步骤中与DI配合，如公式4。

由于优，良分布比较集中，其他分类比较分散，故前者数据密度较小，后者较大，两者数据密度差异较大，于是整个数据集的分布不平衡程度较大。且由于两者之间数量差异巨大，故数据集的数量不平衡程度较大

步骤4、对少数类进行过采样，其具体流程如图2所示：

步骤4-1、对少数类的每个实例按照数据密度从大到小排序；在这些实例中，存在一些边界实例有其特殊性，在其周围存在多数类，故对于这些边界实例，如果其周围k个近邻实例含有多数类实例，则从预采样的少数类中排除，否则对这些边界实例进行过采样容易起到负面作用；在大气环境数据集中，上述所说的实例是一些边界实例，这些边界实例如果被删除，会缩小少数类的范围，损失一定量的信息，加大分类的难度；

步骤4-2、依次在此实例和离此实例最远的近邻实例之间合成新的少数类实例，因为合成新实例容易造成一些错误数据，脏数据或者噪声点，所以为了相对保留原始数据的正确信息，新合成的少数类数量不超过原来的20％，合成方法如公式5所示

X_new＝X_i+(X_max-X_i)×σ (5)

其中，X_max为实例X_i的K个最近邻中离此实例最远的近邻点，一般为均匀分布的随机数，但在本发明中，为了使少数类分布更加均匀并且使X_i与X_max的数据密度更加接近，σ在本发明中中定义为：

步骤4-3、检测加入新的少数类实例后是否对少数类分布平衡起到积极的作用，即新的实例在数据分布上平衡了数据集并且使少数类的DI值变低，如果没有则将该新的少数类实例删除，返回步骤5-2，合成下一个新的少数类实例，直到数量达到要求。

步骤5、对多数类进行欠采样，其具体流程如图3所示：

步骤5-1、对多数类的每个实例按照数据密度从小到大排序；

步骤5-2、在满足一定的条件下依次删除一定数量的多数类实例，但是对多数类进行欠采样容易造成信息损失，所以为了保留足够多的信息，经过欠采样删除的实例不超过原多数类实例数量的20％，从密度最小即周围实例最稀疏的实例开始删除；

此实例的K个最近邻实例的密度小于多数类的平均数据密度，可保证在删除了此实例之后最近邻实例的数据密度接近平均数据密度；此实例的数据密度也小于多数类的平均密度，可以直接减少数据密度小于平均数据密度的实例数量，每个实例的数据密度更加接近；

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种面向生态环境评价的不平衡数据重采样方法，其特征在于，所述方法包括以下步骤：

步骤4、对少数类进行过采样；

所述步骤4中，对少数类进行过采样的步骤为：

步骤4-1、对少数类的每个实例按照数据密度从大到小排序；

步骤4-2、依次在此实例和离此实例最远的近邻实例之间合成新的少数类实例，新合成的少数类实例的数量不超过原来的20％，合成公式为

X_new＝X_i+(X_max-X_i)×σ

步骤4-3、检测加入新的少数类实例后是否使少数类的DI值变低，如果没有则将该新的少数类实例删除，返回步骤5-2，合成下一个新的少数类实例，直到数量达到要求；

步骤5、对多数类进行欠采样；

所述步骤5中，对于多数类进行欠采样的步骤为：

步骤5-1、对多数类的每个实例按照数据密度从小到大排序；

步骤5-3、判断被删除的多数类实例与其K个最近邻实例的数据密度是否小于多数类的平均数据密度，若小于，删除该多数类实例，进入步骤5-3，若不小于，则放弃删除，返回步骤5-2；

步骤5-4、判断删除该多数类实例后，多数类的DI值是否更接近与0，若是，则删除该实例，若否，则放弃删除，返回步骤5-2，直至数量达到要求。

2.根据权利要求1所述的一种面向生态环境评价的不平衡数据重采样方法，其特征在于，所述步骤1中，采用的标准化的方法为Min-Max标准化，即新数据＝(原数据-最小值)/(最大值-最小值)，其公式为

其中，u表示新数据，x-表示原数据。

3.根据权利要求1所述的一种面向生态环境评价的不平衡数据重采样方法，其特征在于，所述步骤2中，设定一个K值，然后按照欧式距离d找到离此实例最近的K个近邻实例，并计算与近邻实例之间距离的平均值，该平均值就是单个实例的数据密度m，计算公式为

4.根据权利要求1所述的一种面向生态环境评价的不平衡数据重采样方法，其特征在于，所述步骤3中，少数类和多数类的分布不平衡程度DI与数量不平衡程度IR的计算公式为