CN111598116A - 数据分类方法、装置、电子设备及可读存储介质 - Google Patents

数据分类方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111598116A
CN111598116A CN201910129940.3A CN201910129940A CN111598116A CN 111598116 A CN111598116 A CN 111598116A CN 201910129940 A CN201910129940 A CN 201910129940A CN 111598116 A CN111598116 A CN 111598116A
Authority
CN
China
Prior art keywords
samples
sample
data
majority
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910129940.3A
Other languages
English (en)
Other versions
CN111598116B (zh
Inventor
张凌
王辉
姜伟浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910129940.3A priority Critical patent/CN111598116B/zh
Publication of CN111598116A publication Critical patent/CN111598116A/zh
Application granted granted Critical
Publication of CN111598116B publication Critical patent/CN111598116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据分类方法、装置、电子设备及可读存储介质,该方法包括:基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;基于采样后的数据集对预设分类模型进行训练;使用训练好的分类模型进行数据分类。该方法可以优化不平衡数据模型场景下的数据分类效果。

Description

数据分类方法、装置、电子设备及可读存储介质
技术领域
本申请涉及智能安防技术,尤其涉及一种数据分类方法、装置、电子设备及可读存储介质。
背景技术
随着大数据、云计算、存储设备与技术的发展,传统的安防领域发生了巨大的变化,相对于传统基于物理信息的破案方法,公安行业正在加速对各种数据库的建立,尽可能完善人员的各方面信息。例如,职业等基本静态属性信息;住宿、上网等行为数据;同酒店进行住宿等关系数据等。基于多维大数据,构建出一套基于机器学习的嫌疑人积分模型,即对已犯案人员与正常人员的模式进行学习,进而对可能犯案的人员进行预测。
但是在嫌疑人积分模型中,与一个地区的正常人员相比,已犯案人员的数量往往很少,其比例基本在1:100(犯案人员:正常人员)或以上 (正常人员比例更高),即属于不平衡数据模型。在这种情况下,直接使用传统的机器学习算法对犯案人员与正常人员进行分类,往往是存在问题的,因为这时候算法是偏向于多数类的。例如,假设在一个数据集中,1%的是犯案人员,99%是正常人员。这时,算法模型将所有的人都分类为正常人员,模型的正确率也能达到99%,但无法识别犯案人员。
因此,如何优化不平衡数据模型场景下的分类效果成为一个亟待解决的技术问题。
发明内容
有鉴于此,本申请提供一种数据分类方法、装置、电子设备及可读存储介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种数据分类方法,应用于不平衡数据模型场景,所述方法包括:
基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;
基于采样后的数据集对预设分类模型进行训练;
使用训练好的分类模型进行数据分类。
根据本申请实施例的第二方面,提供一种数据分类装置,应用于不平衡数据模型场景,所述装置包括:
采样单元,用于基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;
训练单元,用于基于采样后的数据集对预设分类模型进行训练;
分类单元,用于使用训练好的分类模型进行数据分类。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述数据分类方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分类方法。
本申请实施例的数据分类方法,通过基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除数据集中的多数类样本中的非安全样本,以得到采样后的数据集,并基于采样后的数据集对预设分类模型进行训练,进而,使用训练好的分类模型进行数据分类,优化了不平衡数据模型场景下的数据分类效果。
附图说明
图1是本申请一示例性实施例示出的一种数据分类方法的流程示意图;
图2是本申请一示例性实施例示出的一种数据集的分布示意图;
图3是本申请一示例性实施例示出的一种数据分类方法的流程示意图;
图4是本申请一示例性实施例示出的一种基于近邻样本的下采样的流程示意图;
图5是本申请一示例性实施例示出的一种LR模型与混合模型的对比示意图;
图6是本申请一示例性实施例示出的一种混合模型的工作原理示意图;
图7是本申请一示例性实施例示出的一种数据分类装置的结构示意图;
图8是本申请又一示例性实施例示出的一种数据分类装置的结构示意图;
图9是本申请又一示例性实施例示出的一种数据分类装置的结构示意图;
图10是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种数据分类方法的流程示意图,其中,该数据分类方法可以应用于不平衡数据模型(如嫌疑人积分模型)场景,如图1所示,该数据分类方法可以包括以下步骤:
步骤S100、基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除数据集中的多数类样本中的非安全样本,以得到采样后的数据集。
本申请实施例中,针对不平衡数据模型下的分类模型训练,为了提高数据层面的均衡性,可以对数据集中的多数类样本进行下采样。
而考虑到若对多数类样本进行随机下采样,与少数类样本一起组成平衡的数据集进行分类模型训练,则对下采样的多数类样本会有较高的要求。若每次采样的都是远离真实决策边界的多数类样本,会使得决策边界完全偏向多数类,即无法对少数类样本进行真正的区分。同时,随机下采样无法真实反映数据的真实分布,即采样的样本无法有效表征所有的多数类样本,也未对样本的分布情况进行分析。
相应地,在本申请实施例中,为了得到更加均衡的数据集,可以对数据集中的多数类样本进行基于近邻样本的下采样,以得到采样后的数据集。
其中,在不平衡数据模型中,占比多的样本称为多数类样本,占比少的样本称为少数类样本。
本申请实施例中,为了实现对数据集中的多数类样本进行基于近邻样本的下采样,可以基于样本之间的近邻关系对数据集中的多数类样本进行分类。
其中,对于任一多数类样本,可以基于该多数类样本的近邻样本中少数类样本和多数类样本的分布确定该多数类样本的类别。
举例来说,以图2为例,假设符号“+”表示少数类样本,黑色点表示多数类样本。对于任一多数类样本,可以基于kNN(k Nearest Neighbors,k近邻)算法找出该多数类样本的k个近邻样本,基于该多数类样本的k个近邻样本中的少数类样本与多数类样本的分布情况,确定该多数类样本的类别,如噪音样本、边界样本、安全样本或冗余样本。
其中,多数类样本E、G、H的近邻样本均为少数类样本,这些多数类样本为噪音样本;多数类样本C与少数类样本D互为近邻样本,可以称为边界样本;多数类样本A的近邻样本中,多数类样本的数量大于少数类样本的数量,为安全样本。另外,还存在一类冗余样本,这类样本在数据模型中并未提供有用信息,且可由附近样本代替,这类样本的存在会使得决策边界向多数类样本移动,如图2中的多数类样本B。
在该实施例中,基于以上多数类样本的分类,可以对除安全样本外的多数类样本(即非安全样本,可以包括噪声样本、边界样本或/和冗余样本)进行剔除,在保留有效多数类样本的同时,使得样本集相对更加均衡,进而基于模型进行相关的应用。
在本申请其中一个实施例中,上述基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除数据集中的多数类样本中的非安全样本,可以包括:
利用Tomek links算法识别出数据集中满足条件的第一样本对;其中,一个样本对包括一个少数类样本和一个多数类样本;
从数据集的多数类样本集中剔除第一样本对中的多数类样本,以得到处理后的多数类样本集;
利用目标集合对训练kNN分类器;其中,目标集合包括数据集中的少数类样本和处理后的多数类样本集中的任一多数类样本;
利用训练好的kNN分类器对处理后的多数类样本集进行分类,并将分类结果标签与原始标签不同的多数类样本加入所述目标集合;
利用Tomek links算法识别出目标集合中满足条件的第二样本对,并从目标集合中剔除第二样本对中的多数类样本。
在该实施例中,可以利用Tomek links算法识别出数据集中满足条件的样本对(本文中称为第一样本对)。
其中,一个样本对可以包括一个少数类样本和一个多数类样本,第一样本对可以包括一个或多个样本对。
在该实施例中,得到第一样本对之后,可以从数据集的多数类样本集(数据集可以划分为多数类样本集和少数类样本集)中剔除第一样本对中的多数类样本,以得到处理后的多数类样本集。
得到处理后的多数类样本集之后,可以利用包括该处理后的多数类样本集中任一多数类样本以及数据集中的少数类样本集的集合(本文中称为目标集合)训练kNN分类器,并利用训练好的kNN分类器对处理后的多数类样本集进行分类,将分类结果标签与原始标签不同的多数类样本加入目标集合,进而,利用Tomek links算法识别出目标集合中满足条件的样本对(本文中称为第二样本对),并从目标集合中剔除第二样本对中的多数样本,得到采样后的数据集。
需要说明的是,在本申请实施例中,为了进一步提高数据集的均衡性,可以设定一个阈值(本文中称为预设阈值),按照上述方式对数据集进行了基于近邻样本的下采样之后,可以确定目标集合中多数类样本与少数类样本的比值;当该比值大于预设阈值时,可以对目标集合中的多数类样本再次进行基于近邻样本的下采样(具体实现可以参见上述实施例中的相关描述),直至最终得到的目标集合中多数类样本与少数类样本的比值小于等于预设阈值。
步骤S110、基于采样后的数据集对预设分类模型进行训练。
本申请实施例中,按照步骤S100中描述的方式得到采样后的数据集之后,可以利用采样后的数据集对预设分类模型进行训练,以得到训练好的分类模型。
步骤S120、使用训练好的分类模型进行数据分类。
本申请实施例中,得到训练好的分类模型之后,可以使用训练好的分类模型进行数据分类,例如,使用训练好的分类模型对测试集中各测试样本进行分类。
在本申请其中一个实施例中,上述使用训练好的分类模型进行数据分类之前,还可以包括:
利用测试集对训练好的分类模型进行测试,以确定训练好的分类模型的分类效果是否满足要求;
若满足,则确定执行上述使用训练好的分类模型进行数据分类的步骤。
在该实施例中,为了保证训练好的分类模型的分类效果能够满足要求(可以根据实际需求确定,如准确率大于等于预设准确率阈值、或/ 和召回率大于等于预设召回率阈值等),在基于采样后的数据集对预设分类模型进行训练,得到训练好的分类模型之后,在使用该训练好的分类模型执行分类任务之前,还可以使用测试集对训练好的分类模型进行测试,并统计该训练好的分类模型的分类效果(如准确率、召回率等),以确定该训练好的分类模型的分类效果是否满足要求。
其中,当该训练好的分类模型的分类效果满足要求时,可以使用该训练好的分类模型进行数据分类。
需要说明的是,在该实施例中,当该训练好的分类模型的分类效果不满足要求时,可以再次进行分类模型的训练(可以对训练好的分类模型进一步进行训练或者重新对未训练的分类模型进行训练等),并当训练完成后,再次使用测试集对训练好的分类模型的分类效果进行评估,直至训练好的分类模型的分类效果满足要求后,使用训练好的分类模型进行数据分类,其具体实现在此不做赘述。
在该实施例中,用于对训练好的分类模型进行测试的测试集可以通过从原始数据集中取出一致比例(可以相同或差值在允许误差范围内) 的多数类样本和少数类样本组合而成。
举例来说,假设原始数据集中包括N1个少数类样本,N2个多数类样本(N2通常远大于N1),则可以由N1*30%(该比例可调整,当结果不为整数时可以向上或向下取整,或者四舍五入取整,下同)的少数类样本,和N2*30%的多数类样本组成测试集。
可见,在图1所示方法流程中,通过在分类模型训练之前,对数据集中的多数类样本进行基于近邻样本的下采样,以提高数据集的均衡性,并利用采样后的数据集对预设分类模型进行训练,进而,利用训练好的分类模型进行数据分类,可以优化不均衡数据模型场景下的分类效果。
进一步地,在本申请其中一个实施例中,上述对数据集中的多数类样本进行基于近邻样本的下采样之前,还包括:
对数据集中的数据进行无量纲化处理。
在该实施例中,考虑到特征数据的规格不一致时,在应用时可能会无法进行计算或比较,因此,在对特征数据进行应用之前,可以对特征数据进行无量纲化处理,转换为同一规格。
以应用基于距离的算法为例,由于年龄一般的取值范围为10到85 岁,身高的范围一般为130到210厘米。此时,一般取值比较大的特征计算出来的距离也比较大,无法有效地反映出样本间的真实距离,因此,需要通过对特征数据进行无量纲化处理,将特征数据转换为同一规格。
在一个示例中,上述对数据集中的数据进行无量纲化处理,可以包括:
对数据集中的数据进行零均值标准化处理。
具体地,零均值标准化,是无量纲化方法的一种,也称为标准分数 (standardscore)或z-score(z值)。
zij=(xijj)/σj
其中,xij为第i个样本在第j个特征上的取值,μj为第j个特征的均值,σj则是第j个特征的标准差。zij为原始数据xij经过z-score规范化处理后的特征值。i=1,2,…,n,表示样本的数量;j=1,2,…,m,表示特征的数量(或维度)。
应该认识到,在本申请实施例中,使用零均值标准化方式对数据集中的数据进行无量纲化处理仅仅是一种具体示例,而并不是对本申请保护范围的限定,即本申请实施例中也可以采用其他方式对数据集中的数据进行无量纲化处理,如最大-最小标准化方式,其具体实现在此不做赘述。
进一步地,在本申请其中一个实施例中,上述利用采样后的数据集对预设分类模型进行训练,可以包括:
利用采样后的数据集对预设混合模型进行训练;其中,混合模型包括级联的具备特征自动组合功能的Tree(树)模型和逻辑回归模型。
在该实施例中,考虑到传统的分类模型通常采用单一的LR (LogisticsRegression,逻辑回归)模型,而传统LR模型的特征工程工作原理通常是基于原始数据提取一些原始特征,然后对原始特征进行一定的组合形成新的人工交叉特征,最后进入LR模型进行训练,该过程中线性模型的分类效果十分依赖特征工程(有效特征提取、特征组合) 的相关工作;而人工交叉新特征的组合工作又需要大量的先验经验与人力,在资源消耗的同时也无法保证模型的提升与否。
相应地,在本申请实施例中,可以利用具备特征自动组合功能的Tree 模型和LR模型组成混合模型,基于Tree模型对特征进行自动地有效组合,省去了人工进行交叉的步骤,也解决了人工经验不足带来的一系列问题。
在一个示例中,上述Tree模型可以为GBDT(Gradient Boost Decision Tree,梯度提升决策树)模型。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,以基于近邻样本的下采样与混合模型在嫌疑人积分模型中应用为例,通过先对数据集中的数据进行零均值标准化(z-score 标准化)处理,然后基于近邻样本的下采样方法对数据集中的多数类样本进行采样,得到相对更加均衡的数据集,利用训练集对混合模型进行训练,并利用测试集对训练好的混合模型进行测试,其流程示意图可以如图3所示。
在该实施例中,数据分类的处理流程主要涉及零均值标准化、基于近邻样本的下采样以及混合模型,以下分别进行详细说明。
一、零均值标准化
特征数据在应用之前,特别是应用一些基于距离的算法时,需要先进行处理。
例如,年龄一般的取值范围为10到85岁,身高的范围一般为130 到210厘米。此时,一般取值比较大的特征计算出来的距离也比较大,无法有效地反映出样本间的真实距离。即,特征规格不一致,不能直接放在一起进行计算或比较。通常需要对特征转换到同一规格,这种方法称为无量纲化处理。
零均值标准化(下文中称为z-score),是无量纲化方法中的一种,其公式可以参见上述实施例中的相关说明,该实施例在此不做赘述。
在该实施例中,在应用基于近邻样本的下采样算法前,应用零均值标准化的方法,对特征数据进行无量纲化的处理。
二、基于近邻样本的下采样
为了提高数据集的均衡性,可以基于近邻样本的下采样方法,基于数据集中多数类样本的分类,对除安全样本外的多数类样本进行剔除,在保留有效多数类样本的同时使得样本集相对更加均衡,进而基于处理后的数据集进行相关的应用,其实现流程图可以如图4所示,其中:
对于原始数据集(在进行基于近邻样本的下采样之前,可以先进行零均值标准化处理),可以拆分为多数类样本集和少数类样本集。对多数类样本集,采用基于近邻样本的下采样算法对指定的多数类样本进行剔除,得到的新的多数类样本集,并将该新的多数类样本集与原始的少数类样本集,共同构成新的相对均衡的数据集,其具体流程如下:
1、假设原始数据集为T,少数类样本集为C,多数类样本集为S;
2、对集合T应用Tomek links算法识别出满足条件的样本对(少数类样本,多数类样本)(即上述第一样本对),对第一样本对中的多数类样本进行剔除,得到新的多数类样本集S1;
其中,对原始数据集T应用Tomek links算法识别出满足条件的样本对,这些满足条件的样本对中的多数类样本通常为噪音样本或边界样本,将样本对中的多数类样本从多数类样本集S中剔除,可以得到新的多数类样本集S1。
3、初始化一个集合C1,其中包括集合C中的全部少数类样本,以及从集合S1随机选中的一个多数类样本;
4、使用集合C1训练一个1-NN(1近邻,即kNN算法中k=1)的分类器,对集合S1中的多数类样本进行分类;
5、将集合S1中错分的样本加入到集合C1;
其中,基于步骤4中训练好的1-NN分类器对集合S1中的多数类样本进行分类之后,可以将分类的结果标签与原始的标签进行对比,将分类的结果标签与原始的标签不一致(即错分)的样本加入到集合C1。
举例来说,假设多数类样本的标签为正常人员,则当利用步骤4中训练好的1-NN分类器对集合S1中的多数类样本进行分类之后,可以将分类的结果标签为嫌疑人员的样本加入到集合C1。
其中,1-NN分类器的分类结果标签与原始标签一致的多数类样本属于冗余样本,对其进行剔除。
6、对集合C1应用步骤2中的Tomek links算法进行识别,对满足条件的样本对(即第二样本对)中的多数类样本进行剔除,剔除后的样本集合即为相对均衡的新数据集T1。
三、混合模型
混合模型,是相对单一模型而言的,一般由两个及以上的模型组合而成。该实施例中的混合模型是指GBDT+LR的模型。
其中,LR模型作为线性模型很容易并行化且在分类中应用广泛,但线性模型的学习能力有限,需要大量特征工程的相关工作,即对特征要求较高。GBDT模型作为非线性模型,能发掘出有效的特征并进行组合。
请参见图5,传统LR模型的特征工程工作原理为:基于原始数据提取一些原始特征,然后对原始特征进行一定的组合形成新的人工交叉特征,最后进入LR模型进行训练。在该过程中,线性模型的分类效果十分依赖特征工程(有效特征提取、特征组合)的相关工作;而人工交叉新特征的组合工作又需要大量的先验经验与人力,在资源消耗的同时也无法保证模型的提升与否。
在该实施例中,本申请提供的混合模型的特征工程工作是一个黑箱,如图5中的下方框图所示,基于Tree模型(GBDT)对特征进行自动地有效组合,省去了人工进行交叉的步骤,也解决了人工经验不足带来的一系列问题。
在该实施例中,混合模型实现的流程图如图6所示。其中,样本x 是输入的原始特征;假设GBDT迭代的次数为2,即有两棵树Tree1、 Tree2,共有5个叶子节点。样本x分别进入到Tree1、Tree2中,假设此时样本x落在了Tree1的第一个叶子节点,落在Tree2的第2个叶子节点上。这样,就可以构建一个五维的特征向量(1,0,0,1,0),每一个维度表示的是一个叶子节点。
其中,W1~W5分别为各叶子节点对应的权重,其值可以由所使用的LR模型确定;1表示样本落在了该叶子节点,0表示样本没有落在该叶子节点。因此,特征向量(1,0,0,1,0)就是样本x经过转换后的特征。根据GBDT的原理可知,每一个叶子节点,即树的每一条路径,是基于最小化均方差等相关方法进行分割的有明细区分性的路径;根据该路径得到的即为若干特征的组合,那么组合的特征也比较有区分性。最后,将转换后的特征向量输入到LR模型中进行训练。
例如,在嫌疑人积分模型中,公安行业应用多维(静态属性、行为、关系)数据对人员的特征进行提取,基于算法模型学习犯案人员与正常人员的模式,进而形成嫌疑人积分模型。在嫌疑人积分模型中,常见的特征有籍贯、年龄、职业、收入、有无医保、住宿次数等,将上述的特征直接应用LR模型,往往效果均不好。因为这里面的特征往往都是存在相关性的,也就是存在多重共线性的问题;同时,这些特征与因变量之间并非是线性的关系。而且,在嫌疑人积分模型中,与正常人员相比,嫌疑人员占比非常少(1:100及以上),这就涉及到不平衡数据的处理问题,上述的这些问题,会使得模型对特征有着更高的要求。本申请的混合模型可以较好地解决这类问题,例如,某个叶子节点(低收入+无医保 +本地户籍+一段时间内频繁住宿),具有这样行为模式的人群更容易成为嫌疑人员。
为了进一步说明本申请实施例中基于近邻样本的下采样与混合模型方法在嫌疑人积分模型应用中的有效性,设计了一组对照实验,分别基于原始的训练数据与经过本申请实施例中基于近邻样本的下采样算法处理得到新的相对均衡的训练数据应用同样的模型进行训练。同时,基于新的相对均衡的训练数据,分别应用基本的逻辑回归模型与本申请实施例中的混合模型进行训练。最后,对同一个测试数据进行预测,对分类问题常见的几个指标(以准确率、召回率以及f1值为例)进行观测,进而比较模型的效果;其中:
准确率(precision):
Figure RE-GDA0002081300090000141
召回率(recall):
Figure RE-GDA0002081300090000142
f1值(f1-score),是一种均衡准确率与召回率的指标:
Figure RE-GDA0002081300090000143
例如,在嫌疑人积分模型中,正向样本(嫌疑人员,类别设为1) 有1000人,负向样本(正常人员,类别设为0)为9000人。经过一个分类算法,有8721个类别为0的被预测为0,279个类别为0的预测为1;556个类别为1的被预测为0,444个类别为1的被预测为1。此时,上述指标的计算结果如下:
Figure RE-GDA0002081300090000144
Figure RE-GDA0002081300090000145
Figure RE-GDA0002081300090000146
其中,上述指标的值越大,可以表示模型的效果越好。
表1为原始训练数据与经过本申请实施例中的基于近邻样本的下采样算法处理后的数据分布表。
表1
Figure RE-GDA0002081300090000147
Figure RE-GDA0002081300090000151
如表1所示,随机选取了285个正向样本、1709个负向样本,此时训练集的不平衡率为5.996;基于本申请实施例中的基于近邻样本的下采样算法,得到新的训练集包括:285个正向样本、317个负向样本,此时不平衡率下降到1.112,即此时的数据已几乎为平衡数据集。测试集的数据中有122个正向样本,733个负向样本,用于对训练模型进行预测。
基于同样的测试集数据,分别应用不同的训练集数据与不同的模型进行比对,模型效果的几个指标结果如表2所示:
表2
Figure RE-GDA0002081300090000152
根据前两行的比对结果可以看出,基于同样的模型,本申请中基于近邻样本的下采样算法对训练集数据进行处理后,模型的召回率与f1值这两个指标上升明显,但准确率却有所降低。
而根据后两行的比对结果可以看出,基于本申请实施例提供的近邻样本的下采样算法对训练集进行处理后得到新的相对均衡的训练数据,与应用LR模型相比,应用本申请实施例提供的混合模型,准确率、召回率、f1值均明显提升。
可见,本申请实施例提供的基于近邻样本的下采样与混合模型的实现,在数据结构与模型结果上均有很好的效果,能很好地解决嫌疑人积分模型中不平衡数据处理以及模型这两大类的问题。
应该认识到,本申请实施例提供的基于近邻样本的下采样与混合模型的实现并不限于应用于嫌疑人识别场景,也可以应用于其他场景,如信用卡欺诈识别等,其具体实现在此不做赘述。
本申请实施例中,通过基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除数据集中的多数类样本中的非安全样本,以得到采样后的数据集,并基于采样后的数据集对预设分类模型进行训练,进而,使用训练好的分类模型进行数据分类,优化了不平衡数据模型场景下的数据分类效果。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图7,为本申请实施例提供的一种数据分类装置的结构示意图,其中,该数据分类装置可以应用于不平衡数据模型场景,如图7所示,该数据分类装置可以包括:
采样单元710,用于基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;
训练单元720,用于基于采样后的数据集对预设分类模型进行训练;
分类单元730,用于使用训练好的分类模型进行数据分类。
在一种可选的实施方式中,所述采样单元710,具体用于利用Tomek links算法识别出所述数据集中满足条件的第一样本对;其中,一个样本对包括一个少数类样本和一个多数类样本;
从所述数据集的多数类样本集中剔除所述第一样本对中的多数类样本,以得到处理后的多数类样本集;
利用目标集合训练kNN分类器;其中,所述目标集合包括所述数据集中的少数类样本集和所述处理后的多数类样本集中的任一多数类样本;
利用训练好的kNN分类器对所述处理后的多数类样本集进行分类,并将分类结果标签与原始标签不同的多数类样本加入所述目标集合;
利用所述Tomek links算法识别出所述目标集合中满足条件的第二样本对,并从所述目标集合中剔除所述第二样本对中的多数类样本。
在一种可选的实施方式中,所述采样单元710,还用于确定所述目标集合中多数类样本与少数类样本的比值;当所述比值大于预设阈值时,对所述目标集合中的多数类样本进行基于近邻样本的下采样,直至所述目标集合中多数类样本与少数类样本的比值小于等于所述预设阈值。
在一种可选的实施方式中,如图8所示,所述装置还包括:
预处理单元740,用于在对数据集中的多数类样本进行基于近邻样本的下采样之前,对所述数据集中的数据进行零均值标准化处理。
在一种可选的实施方式中,所述训练单元720,具体用于基于采样后的数据集对预设混合模型进行训练;其中,所述混合模型包括级联的梯度提升决策树GBDT模型和逻辑回归模型。
在一种可选的实施方式中,如图9所示,所述装置还包括:
测试单元750,用于利用测试集对训练好的分类模型进行测试,以确定训练好的分类模型的分类效果是否满足要求;
所述分类单元730,具体用于当所述训练好的分类模型的分类效果满足要求时,使用训练好的分类模型进行数据分类。
请参见图10,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器1001、通信接口1002、存储器1003和通信总线1004。处理器1001、通信接口1002以及存储器1003通过通信总线1004 完成相互间的通信。其中,存储器1003上存放有计算机程序;处理器1001 可以通过执行存储器1003上所存放的程序,执行上文描述的数据分类方法。
本文中提到的存储器1003可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器1002可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
本申请实施例还提供了一种存储有计算机程序的机器可读存储介质,例如图10中的存储器1003,所述计算机程序可由图10所示电子设备中的处理器1001执行以实现上文描述的数据分类方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (14)

1.一种数据分类方法,应用于不平衡数据模型场景,其特征在于,所述方法包括:
基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;
基于采样后的数据集对预设分类模型进行训练;
使用训练好的分类模型进行数据分类。
2.根据权利要求1所述的方法,其特征在于,所述基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,包括:
利用Tomek links算法识别出所述数据集中满足条件的第一样本对;其中,一个样本对包括一个少数类样本和一个多数类样本;
从所述数据集的多数类样本集中剔除所述第一样本对中的多数类样本,以得到处理后的多数类样本集;
利用目标集合训练kNN分类器;其中,所述目标集合包括所述数据集中的少数类样本集和所述处理后的多数类样本集中的任一多数类样本;
利用训练好的kNN分类器对所述处理后的多数类样本集进行分类,并将分类结果标签与原始标签不同的多数类样本加入所述目标集合;
利用所述Tomek links算法识别出所述目标集合中满足条件的第二样本对,并从所述目标集合中剔除所述第二样本对中的多数类样本。
3.根据权利要求2所述的方法,其特征在于,所述从所述目标集合中剔除所述第二样本对中的多数类样本之后,还包括:
确定所述目标集合中多数类样本与少数类样本的比值;
当所述比值大于预设阈值时,对所述目标集合中的多数类样本进行基于近邻样本的下采样,直至所述目标集合中多数类样本与少数类样本的比值小于等于所述预设阈值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本之前,还包括:
对所述数据集中的数据进行零均值标准化处理。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述基于采样后的数据集对预设分类模型进行训练,包括:
基于处理后的数据集对预设混合模型进行训练;其中,所述混合模型包括级联的梯度提升决策树GBDT模型和逻辑回归模型。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述使用训练好的分类模型进行数据分类之前,还包括:
利用测试集对训练好的分类模型进行测试,以确定训练好的分类模型的分类效果是否满足要求;
若满足,则确定执行所述使用训练好的分类模型进行数据分类的步骤。
7.一种数据分类装置,应用于不平衡数据模型场景,其特征在于,所述装置包括:
采样单元,用于基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;
训练单元,用于基于采样后的数据集对预设分类模型进行训练;
分类单元,用于使用训练好的分类模型进行数据分类。
8.根据权利要求7所述的装置,其特征在于,
所述采样单元,具体用于利用Tomek links算法识别出所述数据集中满足条件的第一样本对;其中,一个样本对包括一个少数类样本和一个多数类样本;
从所述数据集的多数类样本集中剔除所述第一样本对中的多数类样本,以得到处理后的多数类样本集;
利用目标集合训练kNN分类器;其中,所述目标集合包括所述数据集中的少数类样本集和所述处理后的多数类样本集中的任一多数类样本;
利用训练好的kNN分类器对所述处理后的多数类样本集进行分类,并将分类结果标签与原始标签不同的多数类样本加入所述目标集合;
利用所述Tomek links算法识别出所述目标集合中满足条件的第二样本对,并从所述目标集合中剔除所述第二样本对中的多数类样本。
9.根据权利要求8所述的装置,其特征在于,
所述采样单元,还用于确定所述目标集合中多数类样本与少数类样本的比值;当所述比值大于预设阈值时,对所述目标集合中的多数类样本进行基于近邻样本的下采样,直至所述目标集合中多数类样本与少数类样本的比值小于等于所述预设阈值。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述装置还包括:
预处理单元,用于在对数据集中的多数类样本进行基于近邻样本的下采样之前,对所述数据集中的数据进行零均值标准化处理。
11.根据权利要求7-9任一项所述的装置,其特征在于,
所述训练单元,具体用于基于采样后的数据集对预设混合模型进行训练;其中,所述混合模型包括级联的梯度提升决策树GBDT模型和逻辑回归模型。
12.根据权利要求7-9任一项所述的装置,其特征在于,所述装置还包括:
测试单元,用于利用测试集对训练好的分类模型进行测试,以确定训练好的分类模型的分类效果是否满足要求;
所述分类单元,具体用于当所述训练好的分类模型的分类效果满足要求时,使用训练好的分类模型进行数据分类。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201910129940.3A 2019-02-21 2019-02-21 数据分类方法、装置、电子设备及可读存储介质 Active CN111598116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129940.3A CN111598116B (zh) 2019-02-21 2019-02-21 数据分类方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129940.3A CN111598116B (zh) 2019-02-21 2019-02-21 数据分类方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111598116A true CN111598116A (zh) 2020-08-28
CN111598116B CN111598116B (zh) 2024-01-23

Family

ID=72185254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129940.3A Active CN111598116B (zh) 2019-02-21 2019-02-21 数据分类方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111598116B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579711A (zh) * 2020-12-28 2021-03-30 广东电网有限责任公司广州供电局 不平衡数据的分类方法、装置、存储介质及设备
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2357502A1 (en) * 1994-03-08 1995-09-14 Cummins-Allison Corp. Currency identification device and method
AU9749201A (en) * 1996-12-27 2002-02-21 Nec Corporation A method of and an apparatus for pre-selecting fingerprint cards
CN101501712A (zh) * 2006-08-11 2009-08-05 皇家飞利浦电子股份有限公司 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN105808762A (zh) * 2016-03-18 2016-07-27 北京百度网讯科技有限公司 资源排序方法和装置
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN106973057A (zh) * 2017-03-31 2017-07-21 浙江大学 一种适用于入侵检测的分类方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
US20180210944A1 (en) * 2017-01-26 2018-07-26 Agt International Gmbh Data fusion and classification with imbalanced datasets
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质
US20180253645A1 (en) * 2017-03-03 2018-09-06 International Business Machines Corporation Triage of training data for acceleration of large-scale machine learning
CN108681748A (zh) * 2018-05-18 2018-10-19 宝枫生物科技(北京)有限公司 判别轻度认知障碍的模型选择处理方法及装置
US20180357512A1 (en) * 2008-08-14 2018-12-13 Ping Zhang Cancer Diagnostic Method and System
CN109033208A (zh) * 2018-06-29 2018-12-18 杭州海康威视数字技术股份有限公司 本体构建方法及装置
US10181032B1 (en) * 2017-07-17 2019-01-15 Sift Science, Inc. System and methods for digital account threat detection

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2357502A1 (en) * 1994-03-08 1995-09-14 Cummins-Allison Corp. Currency identification device and method
AU9749201A (en) * 1996-12-27 2002-02-21 Nec Corporation A method of and an apparatus for pre-selecting fingerprint cards
CN101501712A (zh) * 2006-08-11 2009-08-05 皇家飞利浦电子股份有限公司 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置
US20180357512A1 (en) * 2008-08-14 2018-12-13 Ping Zhang Cancer Diagnostic Method and System
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN105808762A (zh) * 2016-03-18 2016-07-27 北京百度网讯科技有限公司 资源排序方法和装置
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
US20180210944A1 (en) * 2017-01-26 2018-07-26 Agt International Gmbh Data fusion and classification with imbalanced datasets
US20180253645A1 (en) * 2017-03-03 2018-09-06 International Business Machines Corporation Triage of training data for acceleration of large-scale machine learning
CN106973057A (zh) * 2017-03-31 2017-07-21 浙江大学 一种适用于入侵检测的分类方法
US10181032B1 (en) * 2017-07-17 2019-01-15 Sift Science, Inc. System and methods for digital account threat detection
CN108337316A (zh) * 2018-02-08 2018-07-27 平安科技(深圳)有限公司 信息推送方法、装置、计算机设备及存储介质
CN108681748A (zh) * 2018-05-18 2018-10-19 宝枫生物科技(北京)有限公司 判别轻度认知障碍的模型选择处理方法及装置
CN109033208A (zh) * 2018-06-29 2018-12-18 杭州海康威视数字技术股份有限公司 本体构建方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HARTAYUNI SAIN: "Combine Sampling Support Vector Machine for Imbalanced Data Classification", SCIENCEDIRECT THE THIRD INFORMATION SYSTEMS INTERNATIONAL CONFERENCE *
侯维岩;刘超;宋杨;孙?;: "基于TCGA数据库不平衡数据的改进分类方法", 安徽大学学报(自然科学版), no. 01 *
刘学;张素伟;: "基于二次随机森林的不平衡数据分类算法", 软件, no. 07 *
董璇;蔡立军;: "一种改进的少数类样本识别方法", 微型机与应用, no. 18 *
邱宁佳;沈卓睿;王辉;王鹏;: "通信垃圾文本识别的半监督学习优化算法", 计算机工程与应用, no. 17 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579711A (zh) * 2020-12-28 2021-03-30 广东电网有限责任公司广州供电局 不平衡数据的分类方法、装置、存储介质及设备
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置
CN112766394B (zh) * 2021-01-26 2024-03-12 维沃移动通信有限公司 建模样本生成方法及装置

Also Published As

Publication number Publication date
CN111598116B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US11900598B2 (en) System and method of classification of biological particles
CN110111113B (zh) 一种异常交易节点的检测方法及装置
JP7173332B2 (ja) 不正検知装置、不正検知方法および不正検知プログラム
CN114389834B (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN111598116B (zh) 数据分类方法、装置、电子设备及可读存储介质
Daubie et al. A comparison of the rough sets and recursive partitioning induction approaches: An application to commercial loans
Islam et al. Content-based fish classification using combination of machine learning methods
CN110705622A (zh) 一种决策方法、系统以及电子设备
CN111368865A (zh) 遥感影像储油罐检测方法、装置、可读存储介质及设备
CN112750038B (zh) 交易风险的确定方法、装置和服务器
CN108805152A (zh) 一种场景分类方法及装置
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
Shangguan et al. Few-shot object detection with refined contrastive learning
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN111931229B (zh) 一种数据识别方法、装置和存储介质
JP6659120B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
Caplescu et al. Will they repay their debt? Identification of borrowers likely to be charged off
Hamadeh et al. Predicting forest fire hazards using data mining techniques: decision tree and neural networks
Manimekalai et al. Taxonomic classification of Plant species using support vector machine
CN111666985A (zh) 一种基于dropout的深度学习对抗样本图像分类防御方法
CN113240007B (zh) 一种基于三支决策的目标特征选择方法
CN108629005B (zh) 一种地震应急的主题词的探测方法及装置
CN113361497B (zh) 基于训练样本指纹识别智能尾箱应用方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant