CN110110779A - 基于核密度估计和Copula函数的虚拟样本生成方法 - Google Patents

基于核密度估计和Copula函数的虚拟样本生成方法 Download PDF

Info

Publication number
CN110110779A
CN110110779A CN201910355624.8A CN201910355624A CN110110779A CN 110110779 A CN110110779 A CN 110110779A CN 201910355624 A CN201910355624 A CN 201910355624A CN 110110779 A CN110110779 A CN 110110779A
Authority
CN
China
Prior art keywords
sample
function
sample collection
copula
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910355624.8A
Other languages
English (en)
Inventor
朱群雄
王世雄
徐圆
贺彦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201910355624.8A priority Critical patent/CN110110779A/zh
Publication of CN110110779A publication Critical patent/CN110110779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于核密度估计和Copula函数的虚拟样本生成方法,获取原始样本集和原始训练集,根据所述原始样本集和所述训练集构建初始分类模型,根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数,根据最大似然估计方法获得Copula模型参数,根据所述Copula模型参数构建所述正类样本的联合密度函数,使用所述联合密度函数经过重新采样获得虚拟样本集,根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本发明提供的技术方案可以有效改善原始数据集的不同类别数据分布状况,有助于提升多种分类器在不平衡样本条件下的分类效果,从而提高分类器的泛化能力。

Description

基于核密度估计和Copula函数的虚拟样本生成方法
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于核密度估计和Copula函数的虚拟样本生成方法。
背景技术
模式分类是人类与生俱来的一项最为基本的智能,自从人们试图在计算机上表现出智能之日起,模式分类自然成为研究的主要问题。近些年随着计算机领域的不断发展,出现了越来越多的优秀分类算法,如决策树算法(Decision Tree,DT)、支持向量机算法(Support Vector Machine,SVM)、K临近算法(k-Nearest Neighbor,knn)等。这些分类算法很好地提升了计算机模式分类的水平,在很多领域都能够接近甚至达到人类的识别水平。然而,分类算法往往对训练样本的要求很高,通常要求训练样本充足而且类间分布平衡。随着信息科技的发展,出现了越来越多的新分类问题,如网页分类、说话认识别、文本识别等,这些问题常常伴随着不平衡数据集问题。
不平衡数据集指的是某类样本数量远远少于其他样本数量的数据集。在实际的分类问题中,不平衡数据集比平衡数据集更加常见。但是,我们对分类器进行训练时,总是假定训练数据集是平衡数据集,分类器的好坏也以整体数据的分类精度为评价标准。当传统的机器学习方法用于解决这些不平衡分类问题时,往往出现分类器性能的大幅度下降,得到的分类器具有较大的偏向性。
发明内容
为解决现有技术存在的局限和缺陷,本发明提供一种基于核密度估计和Copula函数的虚拟样本生成方法,包括:
获取原始样本集和原始训练集,所述原始样本集XT为:
XT=(x1,…,xn),n=1,…,n
根据所述原始样本集和所述训练集构建初始分类模型;
根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数f1,…,fm,n=1,…,m,所述正类样本XP为:
XP=(x1,…,xm),n=1,…,m;
根据最大似然估计方法获得Copula模型参数;
根据所述Copula模型参数构建所述正类样本的联合密度函数;
使用所述联合密度函数经过重新采样获得虚拟样本集,所述虚拟样本集X'P为:
X′P=(x′1,…,x′m);
根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。
可选的,还包括:
对所述原始样本集和所述虚拟样本集进行整合,以形成平衡样本集;
根据所述平衡样本集形成新的分类器模型;
根据所述分类器模型和所述原始训练集获得新的分类器性能指标。
可选的,还包括:
获取具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测样本为:X1,X2,……,Xn
连续分布函数F(x)的概率密度值为
其中,n为样本的数量值,h为平滑系数,核函数满足如下条件:
获得生产需求的平衡公式如下:
获得当均方误差公式最小时的h值,所述均方误差公式如下:
可选的,还包括:
根据所述均方误差公式获得所述平均积分误差公式,所述平均积分误差公式如下:
其中,R(K)=∫K2(x)dx,R(f″n(x))=∫[f″n]2dx;
根据所述平均积分误差公式得到:
当K为高斯核函数时,根据公式(6)获得:
hMISE=1.06n-1/α (7)
其中,α=5,σ是X的标准差。
可选的,还包括:
获得Copula函数,所述Copula函数满足如下条件:
F(x1,x2,…,xn)=C[F1(x1),F2(x2),…,Fn(xn);θ] (9)
其中,F为具有边缘分布F1(·),F1(·),…,F1(·)的联合分布函数,F(x1,x1,…,x1)是F1(·),…,Fn(·)的联合分布函数;
根据公式(9)获得公式(10)如下:
其中,当0<u<1时, 为Copula函数的生成元。
本发明具有下述有益效果:
本发明提供的基于核密度估计和Copula函数的虚拟样本生成方法,获取原始样本集和原始训练集,根据所述原始样本集和所述训练集构建初始分类模型,根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数,根据最大似然估计方法获得Copula模型参数,根据所述Copula模型参数构建所述正类样本的联合密度函数,使用所述联合密度函数经过重新采样获得虚拟样本集,根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本发明提供的技术方案可以有效改善原始数据集的不同类别数据分布状况,有助于提升多种分类器在不平衡样本条件下的分类效果,从而提高分类器的泛化能力。
附图说明
图1为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的流程图。
图2为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的常用混淆矩阵示意图。
图3为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的对比示意图。
图4为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的F测度对比图。
图5为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的AUC值对比图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的基于核密度估计和Copula函数的虚拟样本生成方法进行详细描述。
实施例一
不平衡数据分类的核心需求在于如何提高少数类样本的分类效果。目前,解决不平衡数据分类问题的方法大致可以分为数据层面上的方法、算法层面上的方法以及特征选择方法。算法层面上的处理方式主要基于代价敏感学习算法,提高少类数据的误分代价,常用算法有AdaCost算法,基于代价敏感的决策树分类器等。基于算法层面的改进方式只是单纯提高少类数据的分类代价,并没有从根本上改善少数类样本的分类效果。数据层面的改进由于不需要改造分类就能较大地提升很多分类器在不平衡数据上的效果而逐渐成为了一种主流的处理方法。从数据层面上人们提出了很多方法来解决样本不平衡的问题,其中构造虚拟样本已经成为了一种主流的处理方法。对于某个给定的样本,通过某种变换得到的新的样本也是一个合理的样本,那么就称新得到的样本为给定样本的虚拟样本。
近些年虚拟样本技术被广泛应用于人脸识别、故障检测、医疗诊断等多个领域之中。虚拟样本技术也常常应用在不平衡数据问题之中。通过构造少数类数据的虚拟样本来平衡样本的分布情况可以减少类间样本数量的差异而导致分类结果的偏向性。
但是,在以往的基于数据层面的不平衡数据的研究中,对于少数类样本的虚拟样本生成方法绝大多数是基于线性组合附近的少数类样本来进行的。这种虚拟样本的生成方法使得新生成的虚拟样本不仅会带有少数类样本的特征信息,还经常带有临近样本的特征信息。这种虚拟样本的生成方法很容易让分类器出现过拟合情况,降低分类器对于其他样本的泛化性能。为解决这一问题,本实施例提供了一种基于核密度估计和Copula函数的虚拟样本生成方法,提高了分类器的泛化能力。
本实施例提供的核密度估计问题经常应用于根据已有数据对数据分布进行估计的问题之中。核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法。
本实施例中,核密度估计的数学模型定义如下:
假定X1,X2,……,Xn来自于具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测的样本。上述连续分布函数的概率密度值可以根据如下公式得到:
其中,n是样本的数量值,h代表窗宽大小,也叫作平滑系数。在公式中,叫做核函数而且满足下面的条件:
其中,Wi是未使用的原料i的量,Aij是使用的原料i的量,Tij是区域j中原料i的总供应量。公式(2)表示在所有区域使用的某种原料的量必须小于或等于原料的总量。另外,生产需求的平衡如公式(3)所示:
由于高斯核函数具有更好的统计特性和现实意义,因此高斯核作为核函数得到广泛的应用。核密度函数的精确度很大程度上依赖于平滑系数h的估计值。本实施例确定光滑系数h主要通过最小化的均方误差(MSE),即求取当公式(4)最小时的h值:
本实施例可以确定平均积分误差(MISE)由如下公式给出:
其中,R(K)=∫K2(x)dx,R(f″n(x))=∫[f″n]2dx。
通过对公式(5)进行求偏导,可以得到:
当K为高斯核函数时,经验hMISE应为:
hMISE=1.06n-1/α (7)
其中,α=5,σ是X的标准差。
本实施例中,Copula函数来自于Sklar定理。Sklar定理是Copula函数构造多个随机变量联合分布的理论基础,在Copula理论中占有重要地位。在介绍Copula函数理论之前,首先需要介绍一下Sklar定理:
假设Xi={x1,x2,…,xn},i=1,2,…,n对应的边缘分布分别为Fi(xi),i=1,2,…,n。
若Xi,i=1,2,…,n的n元联合分布函数为H(x1,x2,…,xn),则存在n元Copula函数C(u1,u2,…,un),使得:
H(x1,x1,…,x1)=C(F1(x1),F2(x2),…,Fn(xn))-∞<xi<∞,i=1,2,…,n (8)
其中,H(x1,x2,…,xn)是Xi,i=1,2,…,n的n元联合分布函数,各个变量的边缘分布函数为Fi(xi),i=1,2,…n。
Sklar定理证明了Copula函数的存在性,本实施例提供的Copula函数以及Copula函数的构造方式如下:
假设F为具有边缘分布F1(·),F1(·),…,F1(·)的联合分布函数,那么必然存在一个Copula函数C,满足:
F(x1,x2,…,xn)=C[F1(x1),F2(x2),…,Fn(xn);θ] (9)
其中,F为具有边缘分布F1(·),F1(·),…,F1(·)的联合分布函数,F(x1,x1,…,x1)是F1(·),…,Fn(·)的联合分布函数。
常用的Copula函数类,主要分为椭圆族Copula,Archimedean copula和二次型。其中,Archimedean copula由于其模型构造简单,并且有着良好的统计性质,在多个领域内得到广泛的应用。
Archimedean copula族Copula函数是通过一个完全单调函数构造而成的,其表示形式如下:
其中,对于任意0<u<1,是一个凸的减函数,叫做Copula函数的生成元。
以前的基于数据分布生成虚拟样本的方法都只是两个数据点的线性组合,很难避免原有数据对于分类效果的影响,容易产生数据过拟合的情况。在先前的方法之中,虚拟样本只是针对于原始样本之间的数据插值,对于高度非线性的数据插值方法也较为盲目。当应用在含有一定随机性的数据样本的问题中,往往忽略掉原始数据的随机性的特征。因此,本实施例提出的利用核密度估计(kernel density estimation,KDE)和Copula函数重新构成虚拟样本的方法相较于原有虚拟样本方法更加合理,更加全面地刻画数据之间的相互关系。
图1为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的流程图。如图1所示,本实施例提供的基于核密度估计和Copula函数的虚拟样本生成方法,包括:
构建初始分类器模型,根据原始样本XT=(x1,…,xn),n=1,…,n训练出初始分类器模型,使用训练集XE进行数据测试。通过核密度估计方法,根据原始样本中正类样本XP=(x1,…,xm),n=1,…,m获得原始样本的概率密度估计函数f1,…,fm,n=1,…,m。通过最大似然估计方法得出Copula模型参数,根据Copula模型参数构建正类样本联合密度函数模型FP,经过重新采样从而得到新的虚拟样本X′P=(x′1,…,x′m)。虚拟样本生成数量根据原始样本中负类样本数据量与正类样本数据量的差额确定。对所述原始样本集和所述虚拟样本集进行整合,以形成平衡样本集,根据所述平衡样本集形成新的分类器模型,根据所述分类器模型和所述原始训练集获得新的分类器性能指标。
本实施例提供的实例是通过检验酵母菌细胞内蛋白质信息来确定其是否为细胞核的构成蛋白质,其问题的陈述如下:给出两组数据集:一个包含843个样本的训练集XT和一个446个样本的测试集XE;训练数据集包含有两种类别的数据:105组正类数据XP和738组负类数据XN;每组数据包括6维特征数据Xi,i=1,2,……,6以及一维的类别数据Xj。需要提升分类器在测试数据集中的分类精度,同时,还需要尽可能提升正类数据的分类精度,该组数据的详尽情况如同表1所示:
表1数据集相关信息描述
针对于不平衡样本的情况来说,单纯的分类精度已经难以描述分类器的分类性能,因此本实施例应用更加能够准确描述分类器分类性能的F测度和AUC值进行描述。F测度和AUC值是基于二分类的混淆矩阵的基础上演变而来用来描述分类器器的分类性能的指标值,常见混淆矩阵如图1所示。根据图中所示分类器的分类情况,本实施例定义以下两个参数指标:查全率和查准率。
查准率为个数与所有预测结果为正类结果的比值,计算公式如下:
查全率为正类正确个个数与实际为正类的结果的比值,计算公式如下:
因此,F测度值和AUC值是综合查准率公式(11)和查全率公式(12)的评判标准,取值越高,则分类器对于数据的分类效果越好。
图2为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法的常用混淆矩阵示意图。如图2所示,本实施例利用原始样本对分类进行训练,可以得出该分类器在经过未被处理过的原始样本训练下的F测度值和AUC值。然后,依据原始样本中正类样本XP=(x1,…,xn),n=1,…,m利用核密度估计方法可以得到原始样本的最优参数值θ1,…,θm,并根据参数值可以得出各个样本的概率密度估计函数f1,…,fm。通过最大似然估计法,可以得出最为适应该样本的Copula函数模型及其相应的参数值,并且构建出正类样本的联合密度函数模型FP。根据已有的联合密度函数,可以进行随机生成虚拟平衡样本集X′m=(x′1,…,x′m),其中虚拟样本生成数量根据原始样本多类与少类数据量的差额确定。将两个数据集进行合并后,新的数据集中正类样本和负类样本数据趋近于平衡,再将其重新训练分类器,并得到该分类器的F测度值和AUC值。
本实施例使用生成的虚拟样本进行实验验证,得到新的分类器的F测度与AUC值。图3为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的对比示意图,图4为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的F测度对比图,图5为本发明实施例一提供的基于核密度估计和Copula函数的虚拟样本生成方法与其他方法的AUC值对比图。为证明本方法所提出的虚拟样本构建方法的突破性,特将本实施例提出的方法与传统的SMOTE方法以及cluster-SMOTE方法进行对比。从图3-5可以看出,本实施例提出的方法相比较于SMOTE方法及其改进型方法来说,在svm分类器上的表现最为为明显,在svm分类器上提升了71.5%的F测度值,同时提升了44.5%的AUC值,对于其他分类器的也有不同程度上的性能上的提升。
本实施例提供的基于核密度估计和Copula函数的虚拟样本生成方法,获取原始样本集和原始训练集,根据所述原始样本集和所述训练集构建初始分类模型,根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数,根据最大似然估计方法获得Copula模型参数,根据所述Copula模型参数构建所述正类样本的联合密度函数,使用所述联合密度函数经过重新采样获得虚拟样本集,根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。本实施例提供的技术方案可以有效改善原始数据集的不同类别数据分布状况,有助于提升多种分类器在不平衡样本条件下的分类效果,从而提高分类器的泛化能力。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (5)

1.一种基于核密度估计和Copula函数的虚拟样本生成方法,其特征在于,包括:
获取原始样本集和原始训练集,所述原始样本集XT为:
XT=(x1,…,xn),n=1,…,n
根据所述原始样本集和所述训练集构建初始分类模型;
根据核密度估计方法和所述原始样本集之中的正类样本获得所述原始样本集的概率密度估计函数f1,…,fm,n=1,…,m,所述正类样本XP为:
XP=(x1,…,xm),n=1,…,m;
根据最大似然估计方法获得Copula模型参数;
根据所述Copula模型参数构建所述正类样本的联合密度函数;
使用所述联合密度函数经过重新采样获得虚拟样本集,所述虚拟样本集X′P为:
X′P=(x′1,…,x′m);
根据所述原始样本集之中负类样本数据量与正类样本数据量的差额确定所述虚拟样本集的生成数量。
2.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法,其特征在于,还包括:
对所述原始样本集和所述虚拟样本集进行整合,以形成平衡样本集;
根据所述平衡样本集形成新的分类器模型;
根据所述分类器模型和所述原始训练集获得新的分类器性能指标。
3.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法,其特征在于,还包括:
获取具有连续分布函数F(x)和概率密度函数f(x)的随机变量X的独立观测样本为:X1,X2,……,Xn
连续分布函数F(x)的概率密度值为
其中,n为样本的数量值,h为平滑系数,核函数满足如下条件:
获得生产需求的平衡公式如下:
获得当均方误差公式最小时的h值,所述均方误差公式如下:
4.根据权利要求3所述的基于核密度估计和Copula函数的虚拟样本生成方法,其特征在于,还包括:
根据所述均方误差公式获得所述平均积分误差公式,所述平均积分误差公式如下:
其中,R(K)=∫K2(x)dx,R(f″n(x))=∫[f″n]2dx;
根据所述平均积分误差公式得到:
当K为高斯核函数时,根据公式(6)获得:
hMISE=1.06n-1/α (7)
其中,α=5,σ是X的标准差。
5.根据权利要求1所述的基于核密度估计和Copula函数的虚拟样本生成方法,其特征在于,还包括:
获得Copula函数,所述Copula函数满足如下条件:
F(x1,x2,…,xn)=C[F1(x1),F2(x2),…,Fn(xn);θ] (9)
其中,F为具有边缘分布F1(·),F1(·),…,F1(·)的联合分布函数,F(x1,x1,…,x1)是F1(·),…,Fn(·)的联合分布函数;
根据公式(9)获得公式(10)如下:
其中,当0<u<1时, 为Copula函数的生成元。
CN201910355624.8A 2019-04-29 2019-04-29 基于核密度估计和Copula函数的虚拟样本生成方法 Pending CN110110779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355624.8A CN110110779A (zh) 2019-04-29 2019-04-29 基于核密度估计和Copula函数的虚拟样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355624.8A CN110110779A (zh) 2019-04-29 2019-04-29 基于核密度估计和Copula函数的虚拟样本生成方法

Publications (1)

Publication Number Publication Date
CN110110779A true CN110110779A (zh) 2019-08-09

Family

ID=67487470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355624.8A Pending CN110110779A (zh) 2019-04-29 2019-04-29 基于核密度估计和Copula函数的虚拟样本生成方法

Country Status (1)

Country Link
CN (1) CN110110779A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110514366A (zh) * 2019-08-22 2019-11-29 东北大学 一种小样本条件下管道微弱泄漏检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110514366A (zh) * 2019-08-22 2019-11-29 东北大学 一种小样本条件下管道微弱泄漏检测方法

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
García et al. Theoretical analysis of a performance measure for imbalanced data
WO2022126810A1 (zh) 文本聚类方法
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN110147760B (zh) 一种高效电能质量扰动图像特征提取与识别新方法
CN106611193A (zh) 一种基于特征变量算法的图像内容信息分析方法
CN106384119A (zh) 一种利用方差分析确定k值的k‑均值聚类改进算法
WO2021135271A1 (zh) 一种分类模型训练方法、系统、电子设备及存储介质
CN106599924A (zh) 一种基于三支决策的分类器构建方法
Antwi et al. The PerfSim algorithm for concept drift detection in imbalanced data
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN110110779A (zh) 基于核密度估计和Copula函数的虚拟样本生成方法
CN104102718A (zh) 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN109191452B (zh) 一种基于主动学习的腹腔ct图像腹膜转移自动标记方法
CN113852629B (zh) 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质
CN107423319B (zh) 一种垃圾网页检测方法
CN113190851B (zh) 恶意文档检测模型的主动学习方法、电子设备及存储介质
CN108776810A (zh) 一种基于Universum学习的多经验核分类器
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN113792551A (zh) 一种基于混合式迁移学习的命名实体识别方法
Xu et al. X2-Softmax: Margin adaptive loss function for face recognition
CN106557786A (zh) 一种自动确定聚类中心的势能聚类算法
CN110414583A (zh) 一种基于可拓关联函数的改进密度峰值聚类方法
CN111126444A (zh) 分类器集成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809

RJ01 Rejection of invention patent application after publication