CN110110779A

CN110110779A - 基于核密度估计和Copula函数的虚拟样本生成方法

Info

Publication number: CN110110779A
Application number: CN201910355624.8A
Authority: CN
Inventors: 朱群雄; 王世雄; 徐圆; 贺彦林
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-09

Abstract

本发明公开了一种基于核密度估计和Copula函数的虚拟样本生成方法，获取原始样本集和原始训练集，根据所述原始样本集和所述训练集构建初始分类模型，根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数，根据最大似然估计方法获得Copula模型参数，根据所述Copula模型参数构建所述正类样本的联合密度函数，使用所述联合密度函数经过重新采样获得虚拟样本集，根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本发明提供的技术方案可以有效改善原始数据集的不同类别数据分布状况，有助于提升多种分类器在不平衡样本条件下的分类效果，从而提高分类器的泛化能力。

Description

基于核密度估计和Copula函数的虚拟样本生成方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于核密度估计和Copula函数的虚拟样本生成方法。

背景技术

模式分类是人类与生俱来的一项最为基本的智能，自从人们试图在计算机上表现出智能之日起，模式分类自然成为研究的主要问题。近些年随着计算机领域的不断发展，出现了越来越多的优秀分类算法，如决策树算法(Decision Tree，DT)、支持向量机算法(Support Vector Machine，SVM)、K临近算法(k-Nearest Neighbor，knn)等。这些分类算法很好地提升了计算机模式分类的水平，在很多领域都能够接近甚至达到人类的识别水平。然而，分类算法往往对训练样本的要求很高，通常要求训练样本充足而且类间分布平衡。随着信息科技的发展，出现了越来越多的新分类问题，如网页分类、说话认识别、文本识别等，这些问题常常伴随着不平衡数据集问题。

不平衡数据集指的是某类样本数量远远少于其他样本数量的数据集。在实际的分类问题中，不平衡数据集比平衡数据集更加常见。但是，我们对分类器进行训练时，总是假定训练数据集是平衡数据集，分类器的好坏也以整体数据的分类精度为评价标准。当传统的机器学习方法用于解决这些不平衡分类问题时，往往出现分类器性能的大幅度下降，得到的分类器具有较大的偏向性。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于核密度估计和Copula函数的虚拟样本生成方法，包括：

获取原始样本集和原始训练集，所述原始样本集X_T为：

X_T＝(x₁，…，x_n)，n＝1，…，n

根据所述原始样本集和所述训练集构建初始分类模型；

根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数f₁，…，f_m，n＝1，…，m，所述正类样本X_P为：

X_P＝(x₁，…，x_m)，n＝1，…，m；

根据最大似然估计方法获得Copula模型参数；

根据所述Copula模型参数构建所述正类样本的联合密度函数；

使用所述联合密度函数经过重新采样获得虚拟样本集，所述虚拟样本集X'_P为：

X′_P＝(x′₁，…，x′_m)；

根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。

可选的，还包括：

对所述原始样本集和所述虚拟样本集进行整合，以形成平衡样本集；

根据所述平衡样本集形成新的分类器模型；

根据所述分类器模型和所述原始训练集获得新的分类器性能指标。

可选的，还包括：

获取具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测样本为：X₁,X₂,……,X_n；

连续分布函数F(x)的概率密度值为

其中，n为样本的数量值，h为平滑系数，核函数满足如下条件：

获得生产需求的平衡公式如下：

获得当均方误差公式最小时的h值，所述均方误差公式如下：

可选的，还包括：

根据所述均方误差公式获得所述平均积分误差公式，所述平均积分误差公式如下：

其中，R(K)＝∫K²(x)dx，R(f″_n(x))＝∫[f″_n]²dx；

根据所述平均积分误差公式得到：

当K为高斯核函数时，根据公式(6)获得：

h_MISE＝1.06n^-1/α (7)

其中，α＝5，σ是X的标准差。

可选的，还包括：

获得Copula函数，所述Copula函数满足如下条件：

F(x₁，x₂，…，x_n)＝C[F₁(x₁)，F₂(x₂)，…，F_n(x_n)；θ] (9)

其中，F为具有边缘分布F₁(·)，F₁(·)，…，F₁(·)的联合分布函数，F(x₁，x₁，…，x₁)是F₁(·)，…，F_n(·)的联合分布函数；

根据公式(9)获得公式(10)如下：

其中，当0＜u＜1时，为Copula函数的生成元。

本发明具有下述有益效果：

本发明提供的基于核密度估计和Copula函数的虚拟样本生成方法，获取原始样本集和原始训练集，根据所述原始样本集和所述训练集构建初始分类模型，根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数，根据最大似然估计方法获得Copula模型参数，根据所述Copula模型参数构建所述正类样本的联合密度函数，使用所述联合密度函数经过重新采样获得虚拟样本集，根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本发明提供的技术方案可以有效改善原始数据集的不同类别数据分布状况，有助于提升多种分类器在不平衡样本条件下的分类效果，从而提高分类器的泛化能力。

附图说明

图1为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的流程图。

图2为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的常用混淆矩阵示意图。

图3为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的对比示意图。

图4为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的F测度对比图。

图5为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的AUC值对比图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于核密度估计和Copula函数的虚拟样本生成方法进行详细描述。

实施例一

不平衡数据分类的核心需求在于如何提高少数类样本的分类效果。目前，解决不平衡数据分类问题的方法大致可以分为数据层面上的方法、算法层面上的方法以及特征选择方法。算法层面上的处理方式主要基于代价敏感学习算法，提高少类数据的误分代价，常用算法有AdaCost算法，基于代价敏感的决策树分类器等。基于算法层面的改进方式只是单纯提高少类数据的分类代价，并没有从根本上改善少数类样本的分类效果。数据层面的改进由于不需要改造分类就能较大地提升很多分类器在不平衡数据上的效果而逐渐成为了一种主流的处理方法。从数据层面上人们提出了很多方法来解决样本不平衡的问题，其中构造虚拟样本已经成为了一种主流的处理方法。对于某个给定的样本，通过某种变换得到的新的样本也是一个合理的样本，那么就称新得到的样本为给定样本的虚拟样本。

近些年虚拟样本技术被广泛应用于人脸识别、故障检测、医疗诊断等多个领域之中。虚拟样本技术也常常应用在不平衡数据问题之中。通过构造少数类数据的虚拟样本来平衡样本的分布情况可以减少类间样本数量的差异而导致分类结果的偏向性。

但是，在以往的基于数据层面的不平衡数据的研究中，对于少数类样本的虚拟样本生成方法绝大多数是基于线性组合附近的少数类样本来进行的。这种虚拟样本的生成方法使得新生成的虚拟样本不仅会带有少数类样本的特征信息，还经常带有临近样本的特征信息。这种虚拟样本的生成方法很容易让分类器出现过拟合情况，降低分类器对于其他样本的泛化性能。为解决这一问题，本实施例提供了一种基于核密度估计和Copula函数的虚拟样本生成方法，提高了分类器的泛化能力。

本实施例提供的核密度估计问题经常应用于根据已有数据对数据分布进行估计的问题之中。核密度估计方法不利用有关数据分布的先验知识，对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布特征的方法。

本实施例中，核密度估计的数学模型定义如下：

假定X₁,X₂,……,X_n来自于具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测的样本。上述连续分布函数的概率密度值可以根据如下公式得到：

其中，n是样本的数量值，h代表窗宽大小，也叫作平滑系数。在公式中，叫做核函数而且满足下面的条件：

其中，W_i是未使用的原料i的量，A_ij是使用的原料i的量，T_ij是区域j中原料i的总供应量。公式(2)表示在所有区域使用的某种原料的量必须小于或等于原料的总量。另外，生产需求的平衡如公式(3)所示：

由于高斯核函数具有更好的统计特性和现实意义，因此高斯核作为核函数得到广泛的应用。核密度函数的精确度很大程度上依赖于平滑系数h的估计值。本实施例确定光滑系数h主要通过最小化的均方误差(MSE)，即求取当公式(4)最小时的h值：

本实施例可以确定平均积分误差(MISE)由如下公式给出：

其中，R(K)＝∫K²(x)dx，R(f″_n(x))＝∫[f″_n]²dx。

通过对公式(5)进行求偏导，可以得到：

当K为高斯核函数时，经验h_MISE应为：

h_MISE＝1.06n^-1/α (7)

其中，α＝5，σ是X的标准差。

本实施例中，Copula函数来自于Sklar定理。Sklar定理是Copula函数构造多个随机变量联合分布的理论基础，在Copula理论中占有重要地位。在介绍Copula函数理论之前，首先需要介绍一下Sklar定理：

假设X_i＝{x₁，x₂，…，x_n}，i＝1，2，…，n对应的边缘分布分别为F_i(x_i)，i＝1，2，…，n。

若X_i，i＝1，2，…，n的n元联合分布函数为H(x₁，x₂，…，x_n)，则存在n元Copula函数C(u₁，u₂，…，u_n)，使得：

H(x₁，x₁，…，x₁)＝C(F₁(x₁)，F₂(x₂)，…，F_n(x_n))-∞＜x_i＜∞，i＝1，2，…，n (8)

其中，H(x₁，x₂，…，x_n)是X_i，i＝1，2，…，n的n元联合分布函数，各个变量的边缘分布函数为F_i(x_i)，i＝1，2，…n。

Sklar定理证明了Copula函数的存在性，本实施例提供的Copula函数以及Copula函数的构造方式如下：

假设F为具有边缘分布F₁(·)，F₁(·)，…，F₁(·)的联合分布函数，那么必然存在一个Copula函数C，满足：

其中，F为具有边缘分布F₁(·)，F₁(·)，…，F₁(·)的联合分布函数，F(x₁，x₁，…，x₁)是F₁(·)，…，F_n(·)的联合分布函数。

常用的Copula函数类，主要分为椭圆族Copula，Archimedean copula和二次型。其中，Archimedean copula由于其模型构造简单，并且有着良好的统计性质，在多个领域内得到广泛的应用。

Archimedean copula族Copula函数是通过一个完全单调函数构造而成的，其表示形式如下：

其中，对于任意0＜u＜1，即是一个凸的减函数，叫做Copula函数的生成元。

以前的基于数据分布生成虚拟样本的方法都只是两个数据点的线性组合，很难避免原有数据对于分类效果的影响，容易产生数据过拟合的情况。在先前的方法之中，虚拟样本只是针对于原始样本之间的数据插值，对于高度非线性的数据插值方法也较为盲目。当应用在含有一定随机性的数据样本的问题中，往往忽略掉原始数据的随机性的特征。因此，本实施例提出的利用核密度估计(kernel density estimation，KDE)和Copula函数重新构成虚拟样本的方法相较于原有虚拟样本方法更加合理，更加全面地刻画数据之间的相互关系。

图1为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的流程图。如图1所示，本实施例提供的基于核密度估计和Copula函数的虚拟样本生成方法，包括：

构建初始分类器模型，根据原始样本X_T＝(x₁，…，x_n)，n＝1，…，n训练出初始分类器模型，使用训练集X_E进行数据测试。通过核密度估计方法，根据原始样本中正类样本X_P＝(x₁，…，x_m)，n＝1，…，m获得原始样本的概率密度估计函数f₁，…，f_m，n＝1，…，m。通过最大似然估计方法得出Copula模型参数，根据Copula模型参数构建正类样本联合密度函数模型F_P，经过重新采样从而得到新的虚拟样本X′_P＝(x′₁，…，x′_m)。虚拟样本生成数量根据原始样本中负类样本数据量与正类样本数据量的差额确定。对所述原始样本集和所述虚拟样本集进行整合，以形成平衡样本集，根据所述平衡样本集形成新的分类器模型，根据所述分类器模型和所述原始训练集获得新的分类器性能指标。

本实施例提供的实例是通过检验酵母菌细胞内蛋白质信息来确定其是否为细胞核的构成蛋白质，其问题的陈述如下：给出两组数据集：一个包含843个样本的训练集X_T和一个446个样本的测试集X_E；训练数据集包含有两种类别的数据：105组正类数据X_P和738组负类数据X_N；每组数据包括6维特征数据X_i，i＝1,2,……,6以及一维的类别数据X_j。需要提升分类器在测试数据集中的分类精度，同时，还需要尽可能提升正类数据的分类精度，该组数据的详尽情况如同表1所示：

表1数据集相关信息描述

针对于不平衡样本的情况来说，单纯的分类精度已经难以描述分类器的分类性能，因此本实施例应用更加能够准确描述分类器分类性能的F测度和AUC值进行描述。F测度和AUC值是基于二分类的混淆矩阵的基础上演变而来用来描述分类器器的分类性能的指标值，常见混淆矩阵如图1所示。根据图中所示分类器的分类情况，本实施例定义以下两个参数指标：查全率和查准率。

查准率为个数与所有预测结果为正类结果的比值，计算公式如下：

查全率为正类正确个个数与实际为正类的结果的比值，计算公式如下：

因此，F测度值和AUC值是综合查准率公式(11)和查全率公式(12)的评判标准，取值越高，则分类器对于数据的分类效果越好。

图2为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的常用混淆矩阵示意图。如图2所示，本实施例利用原始样本对分类进行训练，可以得出该分类器在经过未被处理过的原始样本训练下的F测度值和AUC值。然后，依据原始样本中正类样本X_P＝(x₁，…，x_n)，n＝1，…，m利用核密度估计方法可以得到原始样本的最优参数值θ₁，…，θ_m，并根据参数值可以得出各个样本的概率密度估计函数f₁，…，f_m。通过最大似然估计法，可以得出最为适应该样本的Copula函数模型及其相应的参数值，并且构建出正类样本的联合密度函数模型F_P。根据已有的联合密度函数，可以进行随机生成虚拟平衡样本集X′_m＝(x′₁，…，x′_m)，其中虚拟样本生成数量根据原始样本多类与少类数据量的差额确定。将两个数据集进行合并后，新的数据集中正类样本和负类样本数据趋近于平衡，再将其重新训练分类器，并得到该分类器的F测度值和AUC值。

本实施例使用生成的虚拟样本进行实验验证，得到新的分类器的F测度与AUC值。图3为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的对比示意图，图4为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的F测度对比图，图5为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的AUC值对比图。为证明本方法所提出的虚拟样本构建方法的突破性，特将本实施例提出的方法与传统的SMOTE方法以及cluster-SMOTE方法进行对比。从图3-5可以看出，本实施例提出的方法相比较于SMOTE方法及其改进型方法来说，在svm分类器上的表现最为为明显，在svm分类器上提升了71.5％的F测度值，同时提升了44.5％的AUC值，对于其他分类器的也有不同程度上的性能上的提升。

本实施例提供的基于核密度估计和Copula函数的虚拟样本生成方法，获取原始样本集和原始训练集，根据所述原始样本集和所述训练集构建初始分类模型，根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数，根据最大似然估计方法获得Copula模型参数，根据所述Copula模型参数构建所述正类样本的联合密度函数，使用所述联合密度函数经过重新采样获得虚拟样本集，根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本实施例提供的技术方案可以有效改善原始数据集的不同类别数据分布状况，有助于提升多种分类器在不平衡样本条件下的分类效果，从而提高分类器的泛化能力。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于核密度估计和Copula函数的虚拟样本生成方法，其特征在于，包括：

获取原始样本集和原始训练集，所述原始样本集X_T为：

X_T＝(x₁，…，x_n)，n＝1，…，n

根据所述原始样本集和所述训练集构建初始分类模型；

X_P＝(x₁，…，x_m)，n＝1，…，m；

根据最大似然估计方法获得Copula模型参数；

根据所述Copula模型参数构建所述正类样本的联合密度函数；

使用所述联合密度函数经过重新采样获得虚拟样本集，所述虚拟样本集X′_P为：

X′_P＝(x′₁，…，x′_m)；

2.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法，其特征在于，还包括：

根据所述平衡样本集形成新的分类器模型；

3.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法，其特征在于，还包括：

获取具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测样本为：X₁，X₂，……，X_n；

连续分布函数F(x)的概率密度值为

获得生产需求的平衡公式如下：

获得当均方误差公式最小时的h值，所述均方误差公式如下：

4.根据权利要求3所述的基于核密度估计和Copula函数的虚拟样本生成方法，其特征在于，还包括：

其中，R(K)＝∫K²(x)dx，R(f″_n(x))＝∫[f″_n]²dx；

根据所述平均积分误差公式得到：

当K为高斯核函数时，根据公式(6)获得：

h_MISE＝1.06n^-1/α (7)

其中，α＝5，σ是X的标准差。

5.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法，其特征在于，还包括：

获得Copula函数，所述Copula函数满足如下条件：

根据公式(9)获得公式(10)如下：

其中，当0＜u＜1时，为Copula函数的生成元。