CN110909753A - 数据分类方法、系统和设备 - Google Patents

数据分类方法、系统和设备 Download PDF

Info

Publication number
CN110909753A
CN110909753A CN201811073934.2A CN201811073934A CN110909753A CN 110909753 A CN110909753 A CN 110909753A CN 201811073934 A CN201811073934 A CN 201811073934A CN 110909753 A CN110909753 A CN 110909753A
Authority
CN
China
Prior art keywords
index feature
data
training index
training
preset number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811073934.2A
Other languages
English (en)
Other versions
CN110909753B (zh
Inventor
张湛梅
张晓川
徐睿
崔志顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811073934.2A priority Critical patent/CN110909753B/zh
Publication of CN110909753A publication Critical patent/CN110909753A/zh
Application granted granted Critical
Publication of CN110909753B publication Critical patent/CN110909753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据分类方法、系统和设备,数据分类方法包括:基于最优训练指标特征子集,获取待分类的数据的最优特征;将所述待分类的数据的最优特征输入PLS‑logistic模型中,获取所述待分类的数据的分类结果。本发明实施例提供的数据分类方法、系统和设备,通过设置基于最优训练指标特征子集获取待分类的数据的最优特征,并通过PLS‑logistic模型,获取所述待分类的数据的分类结果,能够进行变量筛选算法交互式优化分类,分类具有准确性和高效性。

Description

数据分类方法、系统和设备
技术领域
本发明实施例涉及数据挖掘技术领域,更具体地,涉及一种数据分类方法、系统和设备。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
目前机器学习可应用于数据分类中,例如识别诈骗电话号码、识别优惠欺诈用户。常规的机器学习分类模型一般包含两个步骤:首先是进行特征信息提取,例如主成分分析(PCA,Principal Component Analysis),偏最小二乘(PLS);其次是分类器算法,常见的分类器算法有逻辑回归,随机森林等。其中特征信息提取是重要的基础性步骤,一般是对全变量的原始数据矩阵进行特征分析和数据降维。但是,这种方式存在一定的缺点,因为不同的分类目标都存在特定信息变量和干扰变量,如果不进行恰当的变量选择,将会影响特征信息提取的质量。由于分类算法设计的复杂性,目前变量筛选算法交互式优化分类模型的工作尚不多见。
发明内容
针对现有技术存在的问题,本发明实施例提供一种数据分类方法、系统和设备。
第一方面,本发明实施例提供一种数据分类方法,包括:基于最优训练指标特征子集,获取待分类的数据的最优特征;将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
第二方面,本发明实施例提供一种数据分类系统,包括:获取模块,用于基于最优训练指标特征子集,获取待分类的数据的最优特征;分类模块,用于将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面提供的数据分类方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面提供的数据分类方法。
本发明实施例提供的数据分类方法、系统和设备,通过设置基于最优训练指标特征子集获取待分类的数据的最优特征,并通过PLS-logistic模型,获取所述待分类的数据的分类结果,能够进行变量筛选算法交互式优化分类,分类具有准确性和高效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据分类方法实施例的流程图;
图2为本发明数据分类系统实施例的模块图;
图3为本发明实施例中的电子设备的框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明数据分类方法实施例的流程图,如图1所示,包括:S101、基于最优训练指标特征子集,获取待分类的数据的最优特征;S102、将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
具体地,本发明实施例中的CARS算法为竞争自适应重加权算法,竞争自适应重加权算法是模拟达尔文进化理论中的“适者生存”提出的变量选择方法。PLS-logistic模型为偏最小二乘逻辑回归模型。在主成分(PCA)分析中,只考虑了对自变量矩阵进行分解,消除包含的无用信息。但是不同的分类目标,其特征信息和干扰信息是不一样的,因此对自变量矩阵分解过程中应该考虑自变量与因变量之间的关系。偏最小二乘逻辑回归模型算法就是基于上述思想提出的一种分类算法。该方法综合了逻辑回归(logistic),主成分分析(PCA)和典型相关分析(OCC)的思想,在建立普通逻辑回归模型之前,它采用对自变量X和因变量Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),又使从X和Y提取出的成分相关性最大化。
进一步地,步骤S101中,所述最优训练指标特征子集中包括有若干个最优训练指标特征。对于任一数据,都包括若干个特征,而步骤S101中是将任一数据的若干个特征中的属于最优训练指标特征子集的特征提取出来。举例来说,对于某数据,包括姓名为A、ID号为B、性别为C、年龄为D等信息,而最优训练指标特征子集中包括有姓名、ID号两个最优训练指标特征,对应于某数据来说,其获取的最优特征包括:姓名为A、ID号为B。
进一步地,本发明实施例中的待分类的数据包括若干个数据,本发明实施例中的若干个包括一个或者多个。
进一步地,步骤S102中,基于PLS-logistic模型,将上一步骤中获取的最优特征输入PLS-logistic模型中,就会获取所述待分类的数据的分类结果。
本发明实施例提供的数据分类方法,通过设置基于最优训练指标特征子集获取待分类的数据的最优特征,并通过PLS-logistic模型,获取所述待分类的数据的分类结果,能够进行变量筛选算法交互式优化分类,分类具有准确性和高效性。
基于上述实施例,所述最优训练指标特征子集,通过下述步骤获取:对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集;对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率;基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集;其中,每两个训练指标特征集的训练指标特征子集是一一对应的。
具体地,蒙特卡罗(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡罗方法。通过随机抽样的方法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估算随机变量的数字特征,并将其作为问题的解。这种方法多用于求解复杂的高维积分问题。
进一步地,所述对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集是指:通过对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,每一次采样都会获得若干个指标特征,将这若干个指标特征划分成一个训练指标特征集和一个测试指标特征集。
进一步地,对于任一次蒙特卡罗采样获取的训练指标特征集,通过PLS-logistic模型和CARS算法获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率,训练指标特征子集和准确率一一对应。
进一步地,所述每两个训练指标特征集的训练指标特征子集是一一对应的是指:每一训练指标特征集均会获取到第一预设个数的训练指标特征子集,每两个训练指标特征集的第一预设个数的训练指标特征子集相互之间是一一对应的。举例来说,任一训练指标特征集中包括A1、B1、C1、D1和E1,共5个训练指标特征子集,而对于除所述任一训练指标特征集之外的任意一个训练指标特征集中包括A2、B2、C2、D2和E2,共5个训练指标特征子集,A1和A2相对应,B1和B2相对应,C1和C2相对应,D1和D2相对应,E1和E2相对应。
基于上述实施例,所述对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率,具体包括:对于任一训练指标特征集,通过PLS-logistic模型获取所述任一训练指标特征集中每一训练指标特征的回归系数;基于每一训练指标特征的回归系数,获取每一训练指标特征的权重,并以权重由大到小的顺序对每一训练指标特征进行排序;对指标特征保留率公式进行所述第一预设个数的迭代,并基于所述测试指标特征集,获取所述第一预设个数的指标特征保留率和对应的第一预设个数的准确率;根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集。
具体地,对于任一训练指标特征集,通过PLS-logistic模型获取所述任一训练指标特征集中每一训练指标特征的回归系数,具体为:对于任一训练指标特征集,通过任一训练指标特征集中包括的所有训练指标特征,建立PLS-logistic模型,获取所述任一训练指标特征集中每一训练指标特征的回归系数。
具体地,所述基于每一训练指标特征的回归系数,通过下式获取每一训练指标特征的权重:
Figure BDA0001800284170000061
其中,Bj为第j个训练指标特征的权重,bj为第j个训练指标特征的回归系数,p为训练指标特征的个数。
进一步地,以权重由大到小的顺序对每一训练指标特征进行排序,具体为:以权重由大到小的顺序对每一训练指标特征进行升序排列,就是较大的权重对应的训练指标特征获得较小的序号,最大的权重对应的训练指标特征获得最小的序号,最小的权重对应的训练指标特征获得最大的序号。
进一步地,对指标特征保留率公式进行所述第一预设个数的迭代,通过下式获取所述第一预设个数的指标特征保留率:
ri=ae-ki
其中,ri为第i个指标特征保留率,a和k为常数,i代表第i次迭代。
在第1次和最后一次(第N次)蒙特卡罗(MCS)采样时,训练指标特征集中全部p个训练指标特征参与建模和仅2个训练指标特征参与建模,即r_1=1且r_N=2/p。
Figure BDA0001800284170000062
Figure BDA0001800284170000063
基于上述实施例,所述根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集,具体包括:基于任一指标特征保留率和所述任一训练指标特征集中的训练指标特征的个数,获取所述任一指标特征保留率对应的保留个数;基于所有指标特征保留率对应的保留个数,在所述任一训练指标特征集中获取所述第一预设个数训练指标特征子集。
具体地,本实施例是指:用任一指标特征保留率和所述任一训练指标特征集中的训练指标特征的个数相乘,获取所述任一指标特征保留率对应的保留个数。举例来说就是任一指标特征保留率为20%,任一训练指标特征集中的训练指标特征的个数为100个,则所述任一指标特征保留率对应的保留个数为20个。
进一步地,基于所有指标特征保留率对应的保留个数,在所述任一训练指标特征集中获取所述第一预设个数训练指标特征子集是指:根据排序后的训练指标特征,基于所有指标特征保留率对应的保留个数,从所述任一训练指标特征集中的第一个训练指标特征开始,依次获取保留个数个训练指标特征作为任一训练指标特征子集。
基于上述实施例,所述基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集,具体包括:对所有训练指标特征集中对应的训练指标特征子集的准确率求均值,获取所述第一预设个数的均值;将所述第一预设个数的均值中最大的均值对应的训练指标特征子集作为所述最优训练指标特征子集。
具体地,上述实施例中已经说明每两个训练指标特征集的训练指标特征子集是一一对应的。所有训练指标特征集中对应的训练指标特征子集是完全相同的,对于所有训练指标特征集中对应的训练指标特征子集,获取其准确率的均值,并将最大的均值对应的训练指标特征子集作为所述最优训练指标特征子集。
基于上述实施例,所述将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果,具体包括:获取所述待分类的数据对应的数据样本矩阵,对所述数据样本矩阵做标准化处理,获取标准化的数据样本矩阵;提取第二预设个数的偏最小二乘成分,基于所述第二预设个数的偏最小二乘成分,获取所述第二预设个数次元的logistic回归模型;基于所述第二预设个数次元的logistic回归模型,获取所述待分类的数据的分类结果。
具体地,获取所述待分类的数据对应的数据样本矩阵,对所述数据样本矩阵做标准化处理,获取标准化的数据样本矩阵,具体为:
记V=(vij)n×p为数据样本矩阵,其中有p个最优特征Vj(j=1,2,…,p),n为待分类的数据个数。
记标准化的数据样本矩阵为V*=(vij *)n×p
其中,V*为标准化的数据样本矩阵。
Figure BDA0001800284170000081
其中,
Figure BDA0001800284170000082
进一步地,提取第二预设个数的偏最小二乘成分,基于所述第二预设个数的偏最小二乘成分,获取所述第二预设个数次元的logistic回归模型,具体为:
首先提取第一个偏最小二乘成分t1
步骤一:对每个j(j=1,2,…,p),分别建立以vj为自变量、Y为因变量的普通logistic一元回归模型,计算出vj(j=1,2,…,p)的回归系数w1j。将p个w1j(j=1,2,…,p)写成列向量的形式,记为
Figure BDA0001800284170000083
步骤二:利用下式将
Figure BDA0001800284170000084
标准化,得到
Figure BDA0001800284170000085
Figure BDA0001800284170000086
j=1,2,…,p;
步骤三:提取偏最小二乘成分
Figure BDA0001800284170000087
其次提取第一个偏最小二乘成分t2
步骤一:做t1对V*的最小二乘回归,求出残差阵V1=(v11,v12,…,v1p)′。用残差阵V1取代V*求第二个成分t2
步骤二:对每个j(j=1,2,…,p),分别建立以v1j,t1为自变量、Y为因变量的普通二元logistic回归模型,计算出x1j(j=1,2,…,p)的回归系数w2j,记
Figure BDA0001800284170000088
步骤三:将
Figure BDA0001800284170000089
标准化后得到
Figure BDA00018002841700000810
步骤四:提取偏最小二乘成分
Figure BDA00018002841700000811
重复以上算法,直至提取第h个偏最小二乘成分th,其中,h为第二预设个数。
以t1,t2,…,th为自变量,以Y为因变量,建立普通h元logistic回归模型。每个关系为正样本的概率可用P表示,则第二预设个数次元的logistic回归模型可表示为:
Figure BDA0001800284170000091
由于P取值在0到1之间,而通过logit变换后,取值范围可变换为任意实数值,最后得到回归系数β=(β0,β1,β2,…,βh)T
基于上述实施例,所述对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集,之前还包括:获取每一数据样本的多个指标特征,所述数据样本包括正数据样本和负数据样本。
具体地,正数据样本和负数据样本的界定是按需设置的。如本发明实施例应用于诈骗电话的分类的话,正数据样本为已识别出的诈骗号码,负数据样本为未被识别的号码。
作为一个优选的实施例,下面以一个具体的应用实例来进一步说明本发明实施例提供的数据分类方法。
本发明实施例提供的这种基于CARS优化后PLS-Logistic机器学习算法的数据分类方法可应用于识别优惠欺诈。
随着电子商务和互联网金融的迅猛发展,为了吸引新用户注册和提升老用户忠诚度,商家推出各种优惠活动,常见形式有:注册认证奖励、充值返现、满额立减等。优惠活动在增强商家竞争力和市场份额的同时,也催生一批专注于套取商家优惠的群体。套取商家优惠的群体主要有两种,一是优惠活动的目标群体,该群体主要以白领、学生、家庭主妇为主,获得的优惠总额较少,有效用户留存率较高;二是优惠欺诈用户。
对于通信运营商、互联网等企业,识别优惠欺诈用户,防范虚假交易行为,将更多的营销资源投放于真正的目标客户,是关乎企业健康发展的重要问题。目前一般的做法主要是通过使用高维度的信息验证(例如姓名、身份证号、手机号、多维度的验证码识别等)、提高优惠领取门槛或者基于固定的业务规则来过滤疑似优惠欺诈用户。
传统的优惠欺诈用户识别方法存在以下缺点:一方面,过高维度的信息验证会极大降低用户体验,而通过提高优惠领取门槛可能会将大量的有效用户排除在优惠范围之外;另一方面,基于固定的业务规则,采取“一刀切”的方式识别优惠欺诈用户,预测效果差,误伤率高。对正常用户的大量误伤显然是很难被接受的,而且很容易导致大量的投诉负面信息。
针对传统的优惠欺诈用户识别方法存在的问题,本发明实施例提供的数据分类方法可应用于识别优惠欺诈,作为基于CARS优化后PLS-Logistic机器学习算法的优惠欺诈识别方法,其主要也是做的分类工作,将优惠欺诈用户和正常用户区别开来,本发明实施例以区别优惠欺诈用户号码和正常用户号码为例。
对于基于CARS优化后PLS-Logistic机器学习算法的优惠欺诈识别方法,包括:
基于最优训练指标特征子集,获取待分类的用户号码数据的最优特征。
将所述待分类的用户号码数据的最优特征输入PLS-logistic模型中,获取所述待分类的用户号码数据的识别结果。
所述最优训练指标特征子集,通过下述步骤获取:
对所有用户号码数据样本的指标特征进行预设次数的蒙特卡罗采样,所述预设次数优选为50次,获取预设次数个训练指标特征集(占蒙特卡罗采样后的指标特征的90%)和测试指标特征集。对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率。基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集,其中,每两个训练指标特征集的训练指标特征子集是一一对应的。
所述对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率,具体包括:
对于任一训练指标特征集,通过PLS-logistic模型获取所述任一训练指标特征集中每一训练指标特征的回归系数;基于每一训练指标特征的回归系数,获取每一训练指标特征的权重,并以权重由大到小的顺序对每一训练指标特征进行排序;对指标特征保留率公式进行所述第一预设个数的迭代,所述第一预设个数优选为20,并基于所述测试指标特征集,获取所述第一预设个数的指标特征保留率和对应的第一预设个数的准确率;根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集。
所述根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集,具体包括:
基于任一指标特征保留率和所述任一训练指标特征集中的训练指标特征的个数,获取所述任一指标特征保留率对应的保留个数;基于所有指标特征保留率对应的保留个数,在所述任一训练指标特征集中获取所述第一预设个数训练指标特征子集。
所述基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集,具体包括:对所有训练指标特征集中对应的训练指标特征子集的准确率求均值,获取所述第一预设个数的均值;将所述第一预设个数的均值中最大的均值对应的训练指标特征子集作为所述最优训练指标特征子集。
所述将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的识别结果,具体包括:
获取所述待分类的数据对应的用户号码数据样本矩阵,对所述用户号码数据样本矩阵做标准化处理,获取标准化的数据样本矩阵;提取第二预设个数的偏最小二乘成分,所述第二预设个数优选取值为0~20(根据最大的准确率设定),基于所述第二预设个数的偏最小二乘成分,获取所述第二预设个数次元的logistic回归模型;基于所述第二预设个数次元的logistic回归模型,获取所述待分类的用户号码数据的识别结果。
所述对所有用户号码数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集,之前还包括:
获取每一用户号码数据样本的多个指标特征,所述用户号码数据样本包括正数据样本和负数据样本。
进一步地,对于获取每一用户号码数据样本的多个指标特征:
在优惠欺诈的过程中,优惠欺诈用户可通过打码平台、批量程序,将手机号在商家平台进行批量注册、批量绑定账号、批量绑定银行卡账号(或第三方支付账号),实现批量参与优惠活动、批量变现等。手机号码是关键入口和交易过程中重要的验证通道。因此,注册手机号码的历史活动数据是识别优惠欺诈用户的重要途径。选取某月某省在网用户作为分析对象,多个指标特征涉及到用户的身份属性、终端使用、通信消费、基站信息、流量使用习惯、叠加包、上网行为、通信次数与时长、网外通信、特殊通信与交往圈等维度指标。同时还引入用户累计参与优惠活动次数数据。将被识别为有欺诈风险、活动作弊者、欺诈者、垃圾小号、投诉欺诈成立的号码作为正数据样本,并随机抽取未被识别的号码作为负数据样本。
基于CARS优化后PLS-Logistic机器学习算法的优惠欺诈识别方法基于用户号码的历史特征数据,通过CARS优化后PLS-Logistic机器学习算法,能够快速有效地识别优惠欺诈用户,具有识别率高、准确率高的特点。针对现有技术中存在的过高维度的信息验证会极大降低用户体验,降低用户留存率,该识别方法无需过于复杂的信息验证,使得用户体验高,有利于提高用户留存率。该识别方法无需提高优惠领取门槛,避免将大量有效用户排除在优惠范围之外,从而降低营销成本。相较于现有技术中需要人为总结识别规则,操作难度大,效率低,整个方法中用到的模型复杂性低,识别能力强,运行效率高。
基于上述实施例,图2为本发明数据分类系统实施例的模块图,如图2所示,包括:获取模块201,用于基于最优训练指标特征子集,获取待分类的数据的最优特征;分类模块202,用于将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
具体地,本发明实施例中的CARS算法为竞争自适应重加权算法,竞争自适应重加权算法是模拟达尔文进化理论中的“适者生存”提出的变量选择方法。PLS-logistic模型为偏最小二乘逻辑回归模型。在主成分(PCA)分析中,只考虑了对自变量矩阵进行分解,消除包含的无用信息。但是不同的分类目标,其特征信息和干扰信息是不一样的,因此对自变量矩阵分解过程中应该考虑自变量与因变量之间的关系。偏最小二乘逻辑回归模型算法就是基于上述思想提出的一种分类算法。该方法综合了逻辑回归(logistic),主成分分析(PCA)和典型相关分析(OCC)的思想,在建立普通逻辑回归模型之前,它采用对自变量X和因变量Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),又使从X和Y提取出的成分相关性最大化。
进一步地,所述获取模块201中,所述最优训练指标特征子集中包括有若干个最优训练指标特征。对于任一数据,都包括若干个特征,而所述获取模块201中是将任一数据的若干个特征中的属于最优训练指标特征子集的特征提取出来。举例来说,对于某数据,包括姓名为A、ID号为B、性别为C、年龄为D等信息,而最优训练指标特征子集中包括有姓名、ID号两个最优训练指标特征,对应于某数据来说,其获取的最优特征包括:姓名为A、ID号为B。
进一步地,本发明实施例中的待分类的数据包括若干个数据,本发明实施例中的若干个包括一个或者多个。
进一步地,所述分类模块202中,基于PLS-logistic模型,将上一步骤中获取的最优特征输入PLS-logistic模型中,就会获取所述待分类的数据的分类结果。
本发明实施例的分类系统,可用于执行图1所示的数据分类方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
基于上述实施例,图3为本发明实施例中的电子设备的框架示意图。请参考图3,本发明实施例提供一种电子设备,包括:处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和总线340,其中,处理器310,通信接口320,存储器330通过总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法,包括:基于最优训练指标特征子集,获取待分类的数据的最优特征;将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的数据分类方法,例如包括:基于最优训练指标特征子集,获取待分类的数据的最优特征;将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
基于上述实施例,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的数据分类方法,例如包括:基于最优训练指标特征子集,获取待分类的数据的最优特征;将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
本领域普通技术人员可以理解:实现上述设备实施例或方法实施例仅仅是示意性的,其中所述处理器和所述存储器可以是物理上分离的部件也可以不是物理上分离的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本发明实施例提供的数据分类方法、系统和设备,通过设置基于最优训练指标特征子集获取待分类的数据的最优特征,并通过PLS-logistic模型,获取所述待分类的数据的分类结果,能够进行变量筛选算法交互式优化分类,基于CARS优化后PLS-Logistic机器学习算法进行分类具有准确性和高效性,预测能力强,复杂度低,运行效率高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据分类方法,其特征在于,包括:
基于最优训练指标特征子集,获取待分类的数据的最优特征;
将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
2.根据权利要求1所述的数据分类方法,其特征在于,所述最优训练指标特征子集,通过下述步骤获取:
对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集;
对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率;
基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集;
其中,每两个训练指标特征集的训练指标特征子集是一一对应的。
3.根据权利要求2所述的数据分类方法,其特征在于,所述对于任一训练指标特征集,通过偏最小二乘逻辑回归PLS-logistic模型获取每一训练指标特征的回归系数,并基于每一训练指标特征的回归系数和所述测试指标特征集通过竞争自适应重加权CARS算法,获取第一预设个数训练指标特征子集和对应的第一预设个数的准确率,具体包括:
对于任一训练指标特征集,通过PLS-logistic模型获取所述任一训练指标特征集中每一训练指标特征的回归系数;
基于每一训练指标特征的回归系数,获取每一训练指标特征的权重,并以权重由大到小的顺序对每一训练指标特征进行排序;
对指标特征保留率公式进行所述第一预设个数的迭代,并基于所述测试指标特征集,获取所述第一预设个数的指标特征保留率和对应的第一预设个数的准确率;
根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集。
4.根据权利要求3所述的数据分类方法,其特征在于,所述根据排序后的训练指标特征,通过所述第一预设个数的指标特征保留率,获取所述第一预设个数训练指标特征子集,具体包括:
基于任一指标特征保留率和所述任一训练指标特征集中的训练指标特征的个数,获取所述任一指标特征保留率对应的保留个数;
基于所有指标特征保留率对应的保留个数,在所述任一训练指标特征集中获取所述第一预设个数训练指标特征子集。
5.根据权利要求2所述的数据分类方法,其特征在于,所述基于每一训练指标特征集的第一预设个数训练指标特征子集和对应的第一预设个数的准确率,获取最优训练指标特征子集,具体包括:
对所有训练指标特征集中对应的训练指标特征子集的准确率求均值,获取所述第一预设个数的均值;
将所述第一预设个数的均值中最大的均值对应的训练指标特征子集作为所述最优训练指标特征子集。
6.根据权利要求1所述的数据分类方法,其特征在于,所述将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果,具体包括:
获取所述待分类的数据对应的数据样本矩阵,对所述数据样本矩阵做标准化处理,获取标准化的数据样本矩阵;
提取第二预设个数的偏最小二乘成分,基于所述第二预设个数的偏最小二乘成分,获取所述第二预设个数次元的logistic回归模型;
基于所述第二预设个数次元的logistic回归模型,获取所述待分类的数据的分类结果。
7.根据权利要求2所述的数据分类方法,其特征在于,所述对所有数据样本的指标特征进行预设次数的蒙特卡罗采样,获取预设次数个训练指标特征集和测试指标特征集,之前还包括:
获取每一数据样本的多个指标特征,所述数据样本包括正数据样本和负数据样本。
8.一种数据分类系统,其特征在于,包括:
获取模块,用于基于最优训练指标特征子集,获取待分类的数据的最优特征;
分类模块,用于将所述待分类的数据的最优特征输入PLS-logistic模型中,获取所述待分类的数据的分类结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至8任一所述的数据分类方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一所述的数据分类方法。
CN201811073934.2A 2018-09-14 2018-09-14 数据分类方法、系统和设备 Active CN110909753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811073934.2A CN110909753B (zh) 2018-09-14 2018-09-14 数据分类方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811073934.2A CN110909753B (zh) 2018-09-14 2018-09-14 数据分类方法、系统和设备

Publications (2)

Publication Number Publication Date
CN110909753A true CN110909753A (zh) 2020-03-24
CN110909753B CN110909753B (zh) 2022-07-01

Family

ID=69812594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811073934.2A Active CN110909753B (zh) 2018-09-14 2018-09-14 数据分类方法、系统和设备

Country Status (1)

Country Link
CN (1) CN110909753B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381587A (zh) * 2020-12-01 2021-02-19 大连交通大学 一种外贸产业生态聚集区综合系统及商业运营模式
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data
US20120254077A1 (en) * 2011-03-31 2012-10-04 Fatih Porikli Data Driven Frequency Mapping for Kernels Used in Support Vector Machines
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN105447844A (zh) * 2014-08-15 2016-03-30 大连达硕信息技术有限公司 一种复杂多变量数据的特征选择新方法
CN106060008A (zh) * 2016-05-10 2016-10-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data
US20120254077A1 (en) * 2011-03-31 2012-10-04 Fatih Porikli Data Driven Frequency Mapping for Kernels Used in Support Vector Machines
CN102821002A (zh) * 2011-06-09 2012-12-12 中国移动通信集团河南有限公司信阳分公司 网络流量异常检测方法和系统
CN105447844A (zh) * 2014-08-15 2016-03-30 大连达硕信息技术有限公司 一种复杂多变量数据的特征选择新方法
CN106060008A (zh) * 2016-05-10 2016-10-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法
CN107240024A (zh) * 2017-05-22 2017-10-10 中国平安人寿保险股份有限公司 保险理赔的反欺诈识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIRAN SONG ET AL.: "Differentiation of organic and non-organic apples using near infrared reflectance spectroscopy — A pattern recognition approach", 《2016 IEEE SENSORS》 *
任钱德: "基于偏最小二乘回归的多标签分类算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
季必贵: "基于共同交易行为的在线交易欺诈检测模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381587A (zh) * 2020-12-01 2021-02-19 大连交通大学 一种外贸产业生态聚集区综合系统及商业运营模式
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法

Also Published As

Publication number Publication date
CN110909753B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Chouiekh et al. Convnets for fraud detection analysis
US20180308160A1 (en) Risk assessment method and system
CN107507038B (zh) 一种基于stacking和bagging算法的电费敏感用户分析方法
CN111507831A (zh) 信贷风险自动评估方法和装置
CN112102073A (zh) 信贷风险控制方法及系统、电子设备及可读存储介质
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN111325550A (zh) 一种欺诈交易行为识别方法和装置
CN109376766B (zh) 一种画像预测分类方法、装置及设备
CN109214914A (zh) 一种基于通信开放平台的借贷信息审核方法及装置
CN107807941A (zh) 信息处理方法和装置
CN111428217A (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN110909753B (zh) 数据分类方法、系统和设备
CN110502694A (zh) 基于大数据分析的律师推荐方法及相关设备
CN113011884A (zh) 账户特征的提取方法、装置、设备及可读存储介质
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN115034886A (zh) 一种违约风险预测方法及装置
CN112434862B (zh) 上市企业财务困境预测方法及装置
CN111582757B (zh) 欺诈风险的分析方法、装置、设备及计算机可读存储介质
CN111598632A (zh) 权益份额、权益份额序列的确定方法及装置
CN112330328A (zh) 一种基于特征提取的信用卡欺诈检测方法
CN115731030A (zh) 一种银行消费贷款客户需求挖掘方法、装置及存储介质
CN115115403A (zh) 目标客群中客户的分类方法、装置、电子设备及存储介质
CN112116358A (zh) 一种交易欺诈行为的预测方法、装置及电子设备
CN112446425A (zh) 一种用于自动获取疑似养卡渠道的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant