CN111160473A - 一种分类标签的特征挖掘方法及装置 - Google Patents

一种分类标签的特征挖掘方法及装置 Download PDF

Info

Publication number
CN111160473A
CN111160473A CN201911398443.XA CN201911398443A CN111160473A CN 111160473 A CN111160473 A CN 111160473A CN 201911398443 A CN201911398443 A CN 201911398443A CN 111160473 A CN111160473 A CN 111160473A
Authority
CN
China
Prior art keywords
model
feature
training
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911398443.XA
Other languages
English (en)
Inventor
席云
赖�良
魏江龙
杨芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911398443.XA priority Critical patent/CN111160473A/zh
Publication of CN111160473A publication Critical patent/CN111160473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及金融科技(Fintech)领域,并公开了一种分类标签的特征挖掘方法及装置,包括:获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;获取目标对象的特征变量;利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;根据所述分类结果贡献度,确定分类解释信息,通过以上的方式,解决了无法解释和分析高收入人群的识别特征和识别结果的问题。

Description

一种分类标签的特征挖掘方法及装置
技术领域
本发明涉及金融科技(Fintech)的大数据技术领域,尤其涉及一种分类标签的特征挖掘方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(例如:分布式架构、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外。但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出了更高的要求。
针对含有特定特征人群(如高收入人群或者低收入人群)的识别,目前一般为通过机器学习模型的特征重要性分析,进行初步特征筛选,而后结合人工归纳得出主要特征的人群表征细节。这种方式仅能给出待识别对象的识别结果,例如待识别对象为高收入人群的可能性,无法利用特征进行准确分析,也无法对识别结果进行解释。
发明内容
本发明提供一种分类标签的特征挖掘方法及装置,用以解决无法解释和准确分析含有特定特征人群的识别特征和识别结果的问题。
第一方面,本发明实施例提供一种分类标签的特征挖掘方法,该方法包括:
获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;
获取目标对象的特征变量;
利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
根据特征的分类结果贡献度,确定分类解释信息。
作为一种可能实现的方法,所述各样本特征中包括噪声特征;根据所述各样本特征的评估值,确定第n+1次训练时使用的各样本特征,包括:将评估值低于所述噪声特征的评估值的样本特征删除。
第二方面,本发明实施例提供一种分类标签的特征挖掘装置,该装置包括:
获取单元,用于获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;获取目标对象的特征变量;
确定单元,用于利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
解释单元,用于根据所述分类结果贡献度,确定分类解释信息。
第三方面,本发明实施例提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如第一方面任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一所述的方法。
本发明实施例中,利用训练对象的特征变量以及训练对象的分类标签对目标分类模型进行训练,训练完成后,获取已训练的目标分类模型以及目标对象的特征变量。将已训练的目标分类模型和目标对象的特征变量输入解释模型中,确定每个特征的分类结果贡献度,并根据分类结果贡献度确定分类解释信息。本发明实施例中,利用解释模型得到每个特征的分类结果贡献度,并根据分类结果贡献度对目标分类模型以及目标对象的分类结果得到分类解释信息,从而实现对特定特征人群的识别特征以及识别结果的准确分析和解释。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分类标签的特征挖掘方法;
图2为本发明实施例提供的一种特征的reason graph示例图;
图3为本发明实施例提供的一种分类标签的特征挖掘装置;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了便于理解,下面对本发明实施例中可能涉及的名词进行定义和解释。
SHAP Value:一种基于协作博弈理论的模型无关的可解释性分析方式,每条预测记录都有对应的shap值,其中每个特征也有其对应的shap值。当shap值大于0时,表示当前样本中的当前特征将模型预测结果向正向推进,反之表示向反向推进。
Reason Graph:通过将同一个特征的全部特征的shap值与对应的特征值关联,可视化展示得到。
提升决策树:(Gradient Boosting Decision Tree,GBDT)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案。
LightGBM:一种GBDT算法的高效实现。
召回率、精确率:评价机器学习模型的好坏的指标。例如,召回率:真实为可疑的案例有10个,预测为可疑的有8个,有两个没有预测出来,则召回率为8/10=0.8。精确率:总共预测为可疑的案例是12个,真实可疑的案例是10个,有两个误判为可疑。精确率为10/12=0.83。
如图1所示,为本发明实施例提供的一种分类标签的特征挖掘方法,该方法包括:
步骤101,获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数。
步骤102,获取目标对象的特征变量。
步骤103,利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度。
步骤104,根据所述分类结果贡献度,确定分类解释信息。
本发明实施例中,利用训练对象的特征变量以及训练对象的分类标签对目标分类模型进行训练,训练完成后,获取已训练的目标分类模型以及目标对象的特征变量。将已训练的目标分类模型和目标对象的特征变量输入解释模型中,确定每个特征的分类结果贡献度,并根据分类结果贡献度确定分类解释信息。本发明实施例中,利用解释模型得到每个特征的分类结果贡献度,并根据分类结果贡献度对目标分类模型以及目标对象的分类结果得到分类解释信息,从而实现对高收入人群的识别特征以及识别结果的分析和解释。
本发明实施例中,解释模型可以为包括SHAP value模型、LIME(LocalInterpretable Model-Agnostic Explanations,局部可理解的与模型无关的解释技术)模型、DeepLIFT(Deep Learned Invariant Feature Transform,深度学习的特征点检测)模型。下面以Shap value模型为例进行介绍。
SHAP Value模型是将复杂的原始特征x经过变换为简单的可解释表示x’,将原目标分类模型输出f(x)分解为解释模型的输出g(x’),通过计算每个简化特征值的贡献程度进行近似表示原模型。其大致过程为,计算一个特征加入到目标分类模型时的边际贡献,然后考虑到该特征在所有的特征序列的情况下不同的边际贡献,取均值,即某该特征的shap值。简单来说,计算目标对象的特征i的贡献度时,先将所有特征输入目标分类模型中进行计算,再将除特征i之外的特征输入该目标分类模型中进行计算,将两次计算结果相比较,从而得出特征i对于该目标对象的分类结果贡献度。
具体shap值的根据以下公式计算:
Figure BDA0002346920690000051
其中,M为训练对象的全部特征集合;S为M的子集;fx(S)为使用S集合中特征的模型;contr(i)为第i个特征的shap值,即本发明实施例中的分类结果贡献度。其中,若shap值大于0,则表明对应的第i个特征将预测结果向正向推动,shap值越大表明推动的程度越大,即该特征对结果的影响越大。若shap值小于0,则表明对应的第i个特征将预测结果向反向推动。
本发明实施例中,可以将某个目标对象的特征变量输入已训练的目标分类模型中,得出该目标对象的分类结果。之后,将模板对象的特征变量和已训练的目标分类模型输入SHAP value模型中,计算得到目标对象每个特征变量的分类结果贡献值。从而依据每个特征变量的分类结果贡献值,对该目标对象得出的分类结果进行解释。
另一种可选的实施例中,输入解释模型的特征变量,还可以为多个目标对象的特征变量,为了方便,可以将目标分类模型的训练对象作为目标对象。从而可以针对任一特征,依据解释模型的计算结果,对目标分类模型进行合理性评价,例如,在人工复查时,分析目标分类模型的计算结果是否符合业务常识。此时,目标对象的个数为多个;
利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度,包括:
将所述已训练的目标分类模型输入所述解释模型中;
针对任一目标对象,将所述目标对象的特征变量输入所述解释模型中,确定所述目标对象的每个特征的分类结果贡献度;
所述根据所述分类结果贡献度,确定分类解释信息,包括:
针对任一特征,确定所述特征对应于所述多个目标对象的特征变量和分类结果贡献度的对应关系;
将所述对应关系与预设规则进行对比,判断所述已训练的目标分类模型是否合理。
具体实施过程中,将所有目标对象的每一个特征变量均输入解释模型中,确定计算一个目标对象的一个特征的分类结果贡献度。这里计算分类结果贡献度的方式与上述内容相似,这里不做赘述。确定每一个特征的分类结果贡献度之后,建立特征变量与分类结果贡献度的对应关系,例如,若特征的数量为10个,目标对象的数量为50,则确定500个对应关系。为了更清楚的看到特征的排列情况,本发明实施例中利用reason graph的形式对每一个特征的分布情况进行可视化展示。图2示出了一个特征的reason graph示例图。如图2所示,图中横轴为特征变量,纵轴为分类结果贡献度,通过散点图可视化的方式,形成该特征的reason gragh。之后可以根据reason graph,对目标分类模型进行合理性评价。仍以图2为例,若图2的reason graph对应的特征为a,根据图2中散点分布可以看出,对于分类结果贡献度大于0,对应于特征变脸小于4,即针对目标分类模型,当特征a的特征变量小于4时,趋向于预测目标对象为高收入人群。可以根据不同特征的reason graph对目标分类模型进行合理性评价。例如,将特征a的reason graph与预设规则,例如现实经验,相对照,若两者不一致,即现实经验中,是特征a的特征变量越大,目标对象为高收入人群的可能越小,则表明目标分类模型的不合理,需要重新调整目标分类模型,或者将特征a从目标分类模型中删除。
下面以识别高收入人群为例,详细介绍如何选择输入模型的特征。
首先需要基于具体的分类任务,采集用户数据并进行统计,构造统计类的特征。例如,针对识别高收入人群的任务中,可以围绕不同业务线产品中迭代来的用户特征,通过统一的ID整合关联。在取数周期上,采用近两年的存量数据进行训练,抛除近两个月的数据进行线下验证与离线回测。通过从数据仓储环节进行初步数据加工后,得到初步的用户基本属性信息(年龄、性别、职业等)与日志类统计特征(7日存款余额、历史余额峰值、当前持有产品数等)来表征用户的消费行为、兴趣爱好倾向等。
本次建模特征的原始字段种类主要包括:
人群属性特征:年龄、性别、婚姻、职业、是否有房、是否有车、婚姻状况等;
设备属性特征:设备类型、设备品牌、设备型号、品牌上市日期、运营商名称、设备等级等;
位置属性特征:登记省份、登记城市、手机号归属省份、手机号归属城市、活跃城市等;
行业类别特征:登录相关字段、活跃相关字段、交易相关字段、访问其他平台相关字段等。
其次,通过主体、客体、统计值等不同维度进行特征拓展,从主体在特定时间窗口内对客体进行统计操作,批量进行特征构造。
其中,主体如用户id,时间id,地点等;客体例如KYC(Know your customer,了解你的客户),兴趣爱好类别,贷款类别、存款类别等;统计值例如count,nunique,min,max等。
例如,周末时间段(时间ID)内的用户(用户ID),在贷款类别(客体)上的聚合行为的最大值、最小值(统计值)等。通过主体、客体、统计值的交叉,按批次构造统计类的特征。
然后,从构造的全部特征中,选择最终输入模型的特征,包括:特征初步选择,利用模型进行特征选择,利用噪音过滤特征。特征选择可以减少输入模型数据量以及减少无用特征对模型训练造成的干扰。
一种可选的实施例中,特征初步选择包括:
确定训练对象的初始特征;
通过初步筛选,从所述初始特征中确定初步筛选后的特征;
通过分析所述初步筛选后的特征的相关性,保留相关性小于阈值的多个特征中的一个特征。
具体实施过程中,初步筛选可以通过阈值筛选特征,去除缺失值高于阈值(例如缺失值大于95%)的特征。另外,由于单值特征对模型训练没有指导意义,因此可以通过分析,删除特征为单值的特征。然后,通过分析特征共线性,采用皮尔逊相关系数,去除相关性大于阈值的特征对中的一个特征。例如,对于任意两个特征对,计算皮尔逊相关系数,若相关系大于阈值,则只保留一个特征;若相关系数小于阈值,保留两者。
一种可选的实施例中,利用模型进行特征选择,可以为针对第n次训练得到的目标分类模型,通过验证数据确定所述目标分类模型是否过拟合;
在确定所述目标分类模型过拟合后,获取所述目标分类模型在所述第n次训练过程中使用的各训练对象的特征的评估值;根据所述各训练对象的特征的评估值,确定第n+1次训练时使用的训练对象的特征从而得到第n+1次训练的目标分类模型。
具体实施过程中,可以通过梯度提升树模型来判别零重要性的特征。首先通过早停技术(early stop),在验证集上训练一个模型,计算每个特征的重要性。如此重复N次,得到平均的特征重要性结果。通过树模型(LightGBM模型等)的节点分裂次数或信息增益大小,进行特征重要性排序,最后删除特征重要性为0的特征。
具体地,通过将采集到的海量用户信息投入梯度提升树模型进行训练,设在第n次训练结束后,比如n可以取1、2、3等诸如此类的数值,如进一步假设此处n取值为3,则可以对这第3次训练结束后的模型进行验证,通过验证数据来确定这第3次训练结束后的模型是否过拟合。假设通过使用验证数据对前述第3次训练结束后的模型进行验证后,确定了这第3次训练结束后的模型为一个过拟合的模型,则获取在训练这第3次模型过程中所使用的各样本特征的评估值。例如,对于不同的特征A、B、C、D等,获取对应的评估值为10630、是10336、5876、4633等。具体的评估值可以是Split得分,当然评估值的选取还可以是其他性质的得分,如Gain得分等。根据特征的评估值,将特征进行重要性排序,以确定接下来第4次训练模型时需要使用哪些特征来对模型进行调优,以及在模型训练过程可以摒弃哪些特征。
一种可选的实施例中,各训练对象的特征中包括噪声特征;
所述根据所述各训练对象的特征的评估值,确定第n+1次训练时使用的训练对象的特征,包括:
将评估值低于所述噪声特征的评估值的训练对象的特征删除。
具体实施过程中,利用噪音过滤特征,通过加入一列由均匀分布随机产生的noise特征(0-1之间),来观测模型训练的重要性是否可靠。若noise特征位于树模型(Lightgbm模型)重要性前10的特征中,说明模型过拟合了noise之前的特征,这是由于随机引入的均匀分布特征理论上没有意义。这个时候需要降低模型复杂度,来减少过拟合的情况。
在模型训练过程中,特征对于所训练模型的重要性可通过评估值的形式进行表示:特征越重要,则对应的评估值越高。由于噪声特征本身为一类无意义特征,当某些特征的评估值低于噪声特征的评估值时,则说明这些低于噪声特征的特征对模型的训练也不具备充足意义,从而出于对有效简化模型以及提高模型训练速度的目的,可以将评估值低于所述噪声特征的评估值的特征删除。
举例来说,若特征共13项,其中,A、B、C、D、E、F、M、N、O、X、Y、Z这12项特征为用户真实具有的特征;“Noise”这1项特征是在模型训练过程中所使用的无意义特征。在模型训练过程中通过使用“Noise”这1项特征,计算其Split得分为2206分,而特征O、特征X、特征Y和特征Z这4项特征的Split得分分别为1944分、1866分、1659分和1406分,也即这4项特征的Split得分均低于“Noise”这1项特征的Split得分,从而认为特征O、特征X、特征Y和特征Z这4项特征对于接下来的模型训练不具备充足的训练意义,进而出于对有效简化模型以及提高模型训练速度的目的,可以将Split得分低于“Noise”的Split得分的特征删除,也即,在接下来的第4次模型训练过程中,不对用户的特征O、特征X、特征Y和特征Z进行训练。
通过上述过程,从所有统计特征中选出了输入模型的特征。
此外,在目标分类模型训练之前,对模型参数调优,即选择超参数。
一种可选的实施例中,确定第n+1次训练时使用的训练对象的特征从而得到第n+1次训练的目标分类模型,包括:
在确定所述目标分类模型过拟合后,对所述目标分类模型的参数进行调整;
根据所述第n+1次训练时使用的各训练对象的特征,对调整后的目标分类模型重新进行第n+1次训练。
具体实施过程中,目标分类模型可以有GBDT(Gradient Boosting DecisionTree,提升决策树)、xgboost决策树框架等,比如,本发明实施例以目标分类模型为LightGBM模型进行介绍。当确定第2次已训练的模型属于过拟合的模型,可以通过调整LightGBM这种决策树模型自身的参数,以实现在第3次的模型训练过程中的得到较优的模型。
其中,可以通过调整最大深度(max_depth):过大的深度会导致模型过拟合,过小的深度会造成模型欠拟合;在确认模型过拟合时,则将max_depth调小一些。
可以通过调整叶节点个数(num_leaves):用来控制模型复杂度,叶子节点数越大,模型越广,拟合能力越强。由于lightgbm这种决策树模型是基于leaves_wise的生长规则,因而其叶节点个数的须小于2^max_depth(即2的max_depth次方);
可以通过调整叶节点的最少样本数(mean_data_in_leaf):增大叶节点的最少样本数。
上述具体实现可以包括以下过程:
1、定义需要优化的目标函数,本次建模要求在验证集合上的AUC(Area UnderCurve,ROC曲线下与坐标轴围成的面积)值最大。在进行参数调优的过程中,先按照7:3的比例进行训练集验证集切分。然后在训练集合上训练目标分类模型,在验证集合上计算AUC指标。
模型训练过程中通过使得验证集合上的AUC值最大。其中,AUC利用以下公式计算:M为正样本数,N为负样本数,ranki为第i个正样本所在的位置。
Figure BDA0002346920690000111
其中,M为正样本数,N为负样本数,ranki为第i个正样本所在的位置。
2、定义超参数搜索范围:
Learning_rate:[1e-4,0.1];
Max_depht:[3,4,5,6,7,8,9,10,11];
Num_leaves:[31,63,127,255];
3、调用贝叶斯优化开始优化目标函数。
4、得到最优参数:learning_rate=0.05,max_depth=7,num_leaves=127。
之后,将参数调优后的参数,作为目标分类模型训练之前的模型参数。之后,将训练对象的特征变量以及对应的标签输入目标分类模型中,进行模型训练,得到最终已训练的模型参数。
模型训练完成后,可以利用混淆矩阵、AUC、Precision、Recall等指标,对模型进行评价。
下面举例说明。例如,用于验证第2个已训练的目标分类模型时所使用的验证数据包括10000条新的用户信息;将这10000条新的用户信息输入至第2个已训练的目标分类模型,可以得到这10000条新的用户信息经由第2个已训练的目标分类模型处理后的验证结果。
这10000条新的用户信息经由第2个已训练的目标分类模型处理,可能出现以下情形:
情形1、对真实的高收入用户进行模型处理后,其结果为真;也即,将真实的高收入用户识别为高收入人群;
情形2、对真实的高收入用户进行模型处理后,其结果为假;也即,将真实的高收入用户识别为非高收入人群;
情形3、对非真实的高收入用户进行模型处理后,其结果为真;也即,将非真实的高收入用户识别为非高收入人群;
情形4、对非真实的高收入用户进行模型处理后,其结果为假;也即,将非真实的高收入用户识别为高收入人群。
比如,设这10000条新的用户信息中有200个用户为真实的高收入人群,余下的9800个用户为非高收入人群;通过将这10000条新的用户信息的验证结果与其真实值进行比较,得到如下的结果:
对应于情形1,其用户数量为150;也即第2次已训练的模型通过对这200个真实的高收入用户的各特征的学习与数据处理,预测出其中的150个真实的高收入用户为高收入人群;
对应于情形2,其用户数量为50;也即第2次已训练的模型通过对这200个真实的高收入用户的各特征的学习与数据处理,预测出其中的50个真实的高收入用户为非高收入人群;
对应于情形3,其用户数量为9700;也即第2次已训练的模型通过对这9800个非真实的高收入用户的各特征的学习与数据处理,预测出其中的9700个非真实的高收入用户为非高收入人群;
对应于情形4,其用户数量为100;也即第2次已训练的模型通过对这9800个非真实的高收入用户的各特征的学习与数据处理,预测出其中的100个非真实的高收入用户为中小微企业主用户。
根据上述数据,可以得到有关于第2次已训练的模型的混淆矩阵。
TP(Ture Positive)表示将正类预测为正类数,如样本真实为1,模型预测也为1;当模型用于高收入人群识别时,则对应于上述情形1,也即TP的值为150;
FN(False Negative)表示将正类预测为负类数,如样本真实为1,模型预测为0;当模型用于高收入人群识别时,则对应于上述情形2,也即FN的值为50;
FP(False Positive)表示将负类预测为正类数,如样本真实为0,模型预测为1;当模型用于高收入人群识别时,则对应于上述情形3,也即FP的值为100;
TN(Ture Negative)表示将负类预测为负类数,如样本真实为0,模型预测也为0;当模型用于高收入人群识别时,则对应于上述情形4,也即TN的值为9700。
以上,数字“1”用于表示真实的高收入人群,数字“0”用于表示非真实的高收入人群。
根据混淆矩阵,可以确定模型的精确率(Precision)和召回率(Recall)。其中,精确率(Precision)可以通过以下方式计算:
Figure BDA0002346920690000131
召回率(Recall)可以通过以下方式计算:
Figure BDA0002346920690000132
对于上述实施例,可以计算出这10000条新的用户信息的精确率(Precision)和召回率(Recall),其Precision的值为60%,其Recall的值为75%。
基于同样的构思,本发明实施例还提供一种分类标签的特征挖掘装置,如图3所示,该装置包括:
获取单元301,用于获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;获取目标对象的特征变量;
确定单元302,用于利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
解释单元303,用于根据所述分类结果贡献度,确定分类解释信息。
进一步地,所述目标对象的个数为多个;
所述解释单元303,具体用于:
将所述已训练的目标分类模型输入所述解释模型中;
针对任一目标对象,将所述目标对象的特征变量输入所述解释模型中,确定所述目标对象的每个特征的分类结果贡献度;
所述确定单元302,具体用于:
针对任一特征,确定所述特征对应于所述多个目标对象的特征变量和分类结果贡献度的对应关系;
将所述对应关系与预设规则进行对比,判断所述已训练的目标分类模型是否合理。
进一步地,所述解释模型包括以下模型中的一种:
Shap value模型、LIME模型、DeepLift模型。
进一步地,还包括训练单元304,用于:
针对第n次训练得到的目标分类模型,通过验证数据确定所述目标分类模型是否过拟合;
在确定所述目标分类模型过拟合后,获取所述目标分类模型在所述第n次训练过程中使用的各训练对象的特征的评估值;根据所述各训练对象的特征的评估值,确定第n+1次训练时使用的训练对象的特征从而得到第n+1次训练的目标分类模型。
进一步地,所述训练单元304,用于:
确定所述训练对象的初始特征;
通过初步筛选,从所述初始特征中确定初步筛选后的特征;
通过分析所述初步筛选后的特征的相关性,保留相关性小于阈值的多个特征中的一个特征。
进一步地,所述各训练对象的特征中包括噪声特征;
所述训练单元304,用于将评估值低于所述噪声特征的评估值的训练对象的特征删除。
进一步地,所述训练单元304,用于:
在确定所述目标分类模型过拟合后,对所述目标分类模型的参数进行调整;
根据所述第n+1次训练时使用的各训练对象的特征,对调整后的目标分类模型重新进行第n+1次训练。
本发明实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
基于相同的原理,本发明还提供一种电子设备,如图4所示,包括:
包括处理器701、存储器702、收发机703、总线接口704,其中处理器701、存储器702与收发机703之间通过总线接口704连接;
所述处理器701,用于读取所述存储器702中的程序,执行下列方法:
获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;
获取目标对象的特征变量;
利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
根据所述分类结果贡献度,确定分类解释信息。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行模型训练方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种分类标签的特征挖掘方法,其特征在于,包括:
获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;
获取目标对象的特征变量;
利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
根据所述分类结果贡献度,确定分类解释信息。
2.如权利要求1所述的方法,其特征在于,所述目标对象的个数为多个;
所述利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度,包括:
将所述已训练的目标分类模型输入所述解释模型中;
针对任一目标对象,将所述目标对象的特征变量输入所述解释模型中,确定所述目标对象的每个特征的分类结果贡献度;
所述根据所述分类结果贡献度,确定分类解释信息,包括:
针对任一特征,确定所述特征对应于所述多个目标对象的特征变量和分类结果贡献度的对应关系;
将所述对应关系与预设规则进行对比,判断所述已训练的目标分类模型是否合理。
3.如权利要求1所述的方法,其特征在于,所述解释模型包括以下模型中的一种:
Shap value模型、LIME模型、DeepLift模型。
4.如权利要求1至3任一项所述的方法,其特征在于,所述目标分类模型根据以下方式进行训练:
针对第n次训练得到的目标分类模型,通过验证数据确定所述目标分类模型是否过拟合;
在确定所述目标分类模型过拟合后,获取所述目标分类模型在所述第n次训练过程中使用的各训练对象的特征的评估值;根据所述各训练对象的特征的评估值,确定第n+1次训练时使用的训练对象的特征从而得到第n+1次训练的目标分类模型。
5.如权利要求4所述的方法,其特征在于,所述针对第n次训练得到的目标分类模型,通过验证数据确定所述目标分类模型是否过拟合之前,还包括:
确定所述训练对象的初始特征;
通过初步筛选,从所述初始特征中确定初步筛选后的特征;
通过分析所述初步筛选后的特征的相关性,保留相关性小于阈值的多个特征中的一个特征。
6.如权利要求4所述的方法,其特征在于,所述各训练对象的特征中包括噪声特征;
所述根据所述各训练对象的特征的评估值,确定第n+1次训练时使用的训练对象的特征,包括:
将评估值低于所述噪声特征的评估值的训练对象的特征删除。
7.如权利要求4所述的方法,其特征在于,所述确定第n+1次训练时使用的训练对象的特征从而得到第n+1次训练的目标分类模型,包括:
在确定所述目标分类模型过拟合后,对所述目标分类模型的参数进行调整;
根据所述第n+1次训练时使用的各训练对象的特征,对调整后的目标分类模型重新进行第n+1次训练。
8.一种分类标签的特征挖掘装置,其特征在于,包括:
获取单元,用于获取已训练的目标分类模型,所述目标分类模型利用训练对象的特征变量以及所述训练对象的分类标签进行训练得到对应的模型参数;获取目标对象的特征变量;
确定单元,用于利用解释模型根据所述目标对象的特征变量以及已训练的目标分类模型,确定每个特征的分类结果贡献度;
解释单元,用于根据所述分类结果贡献度,确定分类解释信息。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-7任一项所述的方法。
CN201911398443.XA 2019-12-30 2019-12-30 一种分类标签的特征挖掘方法及装置 Pending CN111160473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398443.XA CN111160473A (zh) 2019-12-30 2019-12-30 一种分类标签的特征挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398443.XA CN111160473A (zh) 2019-12-30 2019-12-30 一种分类标签的特征挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN111160473A true CN111160473A (zh) 2020-05-15

Family

ID=70559649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398443.XA Pending CN111160473A (zh) 2019-12-30 2019-12-30 一种分类标签的特征挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN111160473A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652657A (zh) * 2020-06-10 2020-09-11 创新奇智(南京)科技有限公司 商品销量预测方法、装置、电子设备及可读存储介质
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111782550A (zh) * 2020-07-31 2020-10-16 支付宝(杭州)信息技术有限公司 基于用户隐私保护训练指标预测模型的方法及装置
CN111784506A (zh) * 2020-07-01 2020-10-16 深圳前海微众银行股份有限公司 逾期风险控制方法、设备及可读存储介质
CN111959518A (zh) * 2020-08-14 2020-11-20 北京嘀嘀无限科技发展有限公司 数据处理方法、装置及设备
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
WO2021139223A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 分群模型的解释方法、装置、计算机设备和存储介质
CN113595999A (zh) * 2021-07-15 2021-11-02 北京淇瑀信息科技有限公司 基于单向特征筛选的用户设备认证方法、装置及电子设备
CN113902450A (zh) * 2021-12-08 2022-01-07 四川新网银行股份有限公司 一种可解释的欺诈交易识别方法及装置
CN114444986A (zh) * 2022-04-11 2022-05-06 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652657A (zh) * 2020-06-10 2020-09-11 创新奇智(南京)科技有限公司 商品销量预测方法、装置、电子设备及可读存储介质
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111784506A (zh) * 2020-07-01 2020-10-16 深圳前海微众银行股份有限公司 逾期风险控制方法、设备及可读存储介质
CN111782550A (zh) * 2020-07-31 2020-10-16 支付宝(杭州)信息技术有限公司 基于用户隐私保护训练指标预测模型的方法及装置
WO2021139223A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 分群模型的解释方法、装置、计算机设备和存储介质
CN111959518A (zh) * 2020-08-14 2020-11-20 北京嘀嘀无限科技发展有限公司 数据处理方法、装置及设备
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112116028B (zh) * 2020-09-29 2024-04-26 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备
CN113595999A (zh) * 2021-07-15 2021-11-02 北京淇瑀信息科技有限公司 基于单向特征筛选的用户设备认证方法、装置及电子设备
CN113902450A (zh) * 2021-12-08 2022-01-07 四川新网银行股份有限公司 一种可解释的欺诈交易识别方法及装置
CN114444986A (zh) * 2022-04-11 2022-05-06 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质
CN114444986B (zh) * 2022-04-11 2022-06-03 成都数之联科技股份有限公司 产品分析方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN111160473A (zh) 一种分类标签的特征挖掘方法及装置
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN111932269B (zh) 设备信息处理方法及装置
US11481707B2 (en) Risk prediction system and operation method thereof
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN112232833A (zh) 流失会员客群数据预测方法、模型训练方法及装置
WO2021257395A1 (en) Systems and methods for machine learning model interpretation
WO2019200742A1 (zh) 短期盈利的预测方法、装置、计算机设备和存储介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111325344A (zh) 评估模型解释工具的方法和装置
CN111160929B (zh) 一种客户类型的确定方法及装置
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN114511022A (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置
WO2022011237A1 (en) System and method for evaluating machine learning model behavior over data segments
CN111340356A (zh) 评估模型解释工具的方法和装置
US11822564B1 (en) Graphical user interface enabling interactive visualizations using a meta-database constructed from autonomously scanned disparate and heterogeneous sources
Demir et al. Customer churn prediction with machine learning methods in telecommunication industry
US20230367787A1 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US20240095556A1 (en) Automated Detection and Extraction of Interacting Variables for Predictive Models
US20230368013A1 (en) Accelerated model training from disparate and heterogeneous sources using a meta-database
CN117952658B (zh) 基于大数据的城市资源配置和产业特色分析方法及系统
Kalaivani et al. Statistical Modelling Using Data Mining Tools in Mergers and Acquisition with Regards to Manufacture & Service Sector
CN117893246A (zh) 一种银行活动的精准营销方法、装置、设备和介质
Sutisna USING FEATURE ENGINEERING IN LOGISTIC REGRESSION AND RANDOM FOREST METHODS TO IMPROVE EMPLOYEE ATTRITION PREDICTION IN KIMIA FARMA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination