CN107545347A - 用于防控风险的属性确定方法、装置及服务器 - Google Patents

用于防控风险的属性确定方法、装置及服务器 Download PDF

Info

Publication number
CN107545347A
CN107545347A CN201610491496.6A CN201610491496A CN107545347A CN 107545347 A CN107545347 A CN 107545347A CN 201610491496 A CN201610491496 A CN 201610491496A CN 107545347 A CN107545347 A CN 107545347A
Authority
CN
China
Prior art keywords
attribute
gain
sample data
prevention
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610491496.6A
Other languages
English (en)
Other versions
CN107545347B (zh
Inventor
陈晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610491496.6A priority Critical patent/CN107545347B/zh
Publication of CN107545347A publication Critical patent/CN107545347A/zh
Application granted granted Critical
Publication of CN107545347B publication Critical patent/CN107545347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种用于防控风险的属性确定方法、装置及服务器,该方法包括:获取样本数据,所述样本数据对应设定数量的属性;计算所述样本数据的每一个属性对应的显著性指标值;基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。本申请的技术方案可以提高识别出样本数据需要的用于防控风险的属性的效率。

Description

用于防控风险的属性确定方法、装置及服务器
技术领域
本申请涉及网络安全技术领域,尤其涉及一种用于防控风险的属性确定方法、装置及服务器。
背景技术
在安全业务防控中,非常重要的一个环节是针对突发风险,能够快速识别出被监控的数据业务的风险属性,并配置相应的风险防控模型。现有技术中,数据业务根据其自身的业务需求被设定为多个属性,通过对每个数据业务的黑样本和白样本的抽样,对黑样本和白样本分布的直方图进行分析判断,如果其中几个属性上出现的黑样本特别集中,并且白样本分布很少,则认为该几个属性为数据业务的显著属性,然后,将显著属性的特征组合成防控规则。对于显著属性的识别,当数据业务具有十几个属性的时候识别效率尚可行,当数据业务有几十个几百个指标时,对于显著属性的识别效率就会显得很低。
发明内容
有鉴于此,本申请提供一种新的技术方案,可以解决现有技术中识别显著属性的效率低的技术问题。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种用于防控风险的属性确定方法,包括:
获取样本数据,所述样本数据对应设定数量的属性;
计算所述样本数据的每一个属性对应的显著性指标值;
基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
根据本申请的第二方面,提出了一种用于防控风险的属性确定装置,包括:
样本数据获取单元,用于获取样本数据,所述样本数据对应设定数量的属性;
指标计算单元,用于计算所述样本数据获取单元获取到的所述样本数据的每一个属性对应的显著性指标值;
显著属性确定单元,用于基于所述指标计算单元计算得到的所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
根据本申请的第三方面,提出了一种服务器,所述服务器包括:
存储器和处理器,所述存储器用于存储所述处理器可执行指令;
其中,所述处理器,用于获取样本数据,所述样本数据对应设定数量的属性;
计算所述样本数据的每一个属性对应的显著性指标值;
基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
由以上技术方案可见,本申请基于样本数据的每一个属性对应的显著性指标值,从样本数据全部的属性中找出用于防控风险的属性,由于显著性指标值可以通过信息增益、信息增益率、逆基尼指数来综合判断,从而可以提高识别出样本数据需要的用于防控风险的属性的效率。
附图说明
图1A示出了根据本发明示例性实施例一的用于防控风险的属性确定方法的场景示意图;
图1B示出了根据本发明示例性实施例一的用于防控风险的属性的示意图;
图2示出了根据本发明示例性实施例一的用于防控风险的属性确定方法的流程示意图;
图3示出了根据本发明示例性实施例二的用于防控风险的属性确定方法的流程示意图;
图4示出了根据本发明示例性实施例三的用于防控风险的属性确定方法的流程示意图;
图5示出了根据本发明示例性实施例四的用于防控风险的属性确定方法的流程示意图;
图6示出了根据本发明示例性实施例一的用于防控风险的属性确定装置的结构示意图;
图7示出了根据本发明的一示例性实施例的服务器的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1A示出了根据本发明示例性实施例一的用于防控风险的属性确定方法的场景示意图,图1B示出了根据本发明示例性实施例一的用于防控风险的属性的示意图;如图1A所示,以银行业务的样本数据为例进行说明,黑白样本抽样得到样本数据,样本数据的属性包括:银行客户的生存时间变量、性别、年龄区间、客户的邮政区号是否改变、是否有定期账户、拥有的活期账户数量、客户拥有的业务数量、客户拥有的产品数量、是否购买理财产品、是否有消费贷款、账户余额的下降、是否有定期销户、客户主动进行的活期交易次数、最后一笔交易间隔时间、服务时间长度、是否投诉、与银行接触的主要渠道等17个属性,此时本申请中的设定数量为17。例如,样本数据所在的训练数据集中包含90个样本数据,该90个样本数据中包含30个流失样本数据(本申请中的黑样本),60个未流失样本数据(本申请中的白样本)。设定数量的属性中的部分属性如表1所示:
表1
由上述表1可知,每一个属性可以包含至少一个类别,类别的分区可以根据样本数据对应的数据业务而定,本申请对每一个属性所包含的类别不做限制。
根据90个样本数据每一个属性的分布确定该每一个属性对应的显著性指标值,显著性指标值可以为信息增益、信息增益率、逆基尼指数等中的任意一个、或者两个组合、或者三个组合,将每一个显著性指标值与对应的预设阈进行比较,例如,将信息增益与第一预设阈值进行比较,将信息增益率与第二预设阈值进行比较,将逆基尼指数与第三预设阈值进行比较,得到大于各自对应的预设阈值的显著性指标值,表2中所示的黑体下划线标注的显著性指标值符合设定条件的属性。
表2
属性 信息增益 信息增益率 基尼指数 逆基尼指数
生存时间变量 0.8365 0.6103 0.0219 0.9781
性别 0.0002 0.0002 0.4443 0.5557
年龄区间 0.0588 0.0314 0.4085 0.5915
客户的邮政区号改变 0.0003 0.0005 0.4443 0.5557
是否有定期账户 0.0425 0.0448 0.4179 0.5821
拥有的活期账户数量 0.1855 0.1186 0.3338 0.6662
客户拥有的业务数量 0.4017 0.2593 0.2093 0.7907
客户拥有的产品数量 0.2837 0.1513 0.2841 0.7159
是否购买理财产品 0.0188 0.0192 0.4331 0.5669
是否有消费贷款 0.1627 0.1665 0.3556 0.6444
账户余额的下降 0.0227 0.0276 0.4300 0.5700
是否有定期销户 0.0680 0.1047 0.4000 0.6000
客户主动进行的活期交易次数 0.2271 0.1867 0.3156 0.6844
最后一笔交易间隔时间 0.4955 0.3112 0.1871 0.8129
服务时间长度 0.7849 0.4054 0.0426 0.9574
是否投诉 0.0466 0.0666 0.4142 0.5858
与银行接触的主要渠道 0.0051 0.0026 0.4413 0.5587
通过上述表2可知,同时满足预设条件的属性包括:生存时间变量、客户拥有的业务数量、客户拥有的产品数量、客户主动进行的活期交易次数、最后一笔交易间隔时间、服务时间长度;对上述6个属性对应的显著性指标值求和,即,对于属性“生存时间变量”,计算信息增益、信息增益率、逆基尼指数的和值,得到:0.8365+0.6103+0.9781=2.4249,对于属性“客户拥有的业务数量”、“客户拥有的产品数量”、“客户主动进行的活期交易次数”、“最后一笔交易间隔时间”、“服务时间长度”同样计算信息增益、信息增益率、逆基尼指数的和值,并对该6个和值进行排名,综合排名后的顺序如图1B所示,依次为生存时间变量、服务时间长度、最后一笔交易间隔时间、客户拥有的业务数量、客户拥有的产品数量、客户进行主动活期交易次数,根据排名后的属性即可确定出本申请中的用于防控风险的属性,例如,将该6个属性中排名前三个的“客户进行主动活期交易次数”、“客户拥有的产品数量”、“客户拥有的业务数量”确定为本申请中的用于防控风险的属性。
为对本申请进行进一步说明,提供下列实施例:
图2示出了根据本发明示例性实施例一的用于防控风险的属性确定方法的流程示意图;本实施例可以应用在服务器上,如图2所示,包括如下步骤:
步骤201,获取样本数据,样本数据对应设定数量的属性。
步骤202,计算样本数据的每一个属性对应的显著性指标值。
步骤203,基于显著性指标值,从设定数量的属性中确定用于防控风险的属性。
在上述步骤201中,在一实施例中,样本数据可以白样本和黑样本,白样本与黑样本的比例可以由实际数据业务来定,本申请对样本数据中所包含的白样本和黑样本的比例不做限制。在一实施例中,样本数据所包含的属性可以由样本数据对应的数据业务而定,本申请对样本数据对应的属性的数量不做限制。
在上述步骤202中,在一实施例中,显著性指标值可以为信息增益、信息增益率、逆基尼指数中的任意一个、或者任意两个的组合或者三个的组合。以上述表1所示的银行业务为例,需要计算17个属性各自对应的显著性指标值。
在上述步骤203中,从上述17个属性中,基于显著性指标值可以得到用于防控风险的属性如表3所示:
表3
由上述描述可知,本实施例基于样本数据的每一个属性对应的显著性指标值,从样本数据全部的属性中找出用于防控风险的属性,由于显著性指标值可以通过信息增益、信息增益率、逆基尼指数来综合判断,从而可以提高识别出样本数据需要的用于防控风险的属性的效率。
图3示出了根据本发明示例性实施例二的确定风险特征的方法的流程示意图;本实施例在上述图2所示实施例的基础上,以显著性指标值包括样本数据的每一个属性对应的信息增益、信息增益率以及逆基尼增益为例进行示例性说明,如图3所示,包括如下步骤:
步骤301,基于样本数据的每一个属性对应的信息熵以及每一个属性对应的条件熵,确定每一个属性对应的增益信息。
步骤302,根据每一个属性对应的信息增益和每一个属性对应的内在信息确定每一个属性对应的信息增益率。
步骤303,确定样本数据的每一个属性对应的类别在样本数据中出现的相对频率。
步骤304,根据每一个属性对应的类别在所述样本数据中出现的相对频率确定每一个属性对应的基尼指数。
步骤305,根据每一个属性对应的基尼指数以及每一个属性对应的类别的记录数确定每一个属性对应的基尼增益。
步骤306,根据基尼增益确定样本数据的每一个属性对应的逆基尼增益。
步骤307,从设定数量的属性中确述显著性指标值大于预设阈值的属性。
步骤308,根据显著性指标值大于预设阈值的属性确定用于防控风险的属性。
在上述步骤301中,在一实施例中,可以通过第一公式确定每一个属性对应的增益信息,第一公式为:Gain(R)=Info(D)-Infok(D),其中,R表示数据业务的一个属性,Gain(R)表示属性R对应的信息增益,D表示训练数据集(即,样本数据所在的训练数据集),Info(D)表示属性R对应的信息熵,Infok(D)表示属性R对应的条件熵。在一实施例中,信息熵通过第二公式计算得到,条件熵通过第三公式计算得到,其中,第二公式为:其中,Infok(D)表示训练数据集的信息熵,k表示训练数据集中包含属性的个数,Dj表示属性R的第j个类别对应的数据训练集;第三公式为:其中,Info(D)表示训练数据集的条件熵,m表示属性所包含类别的个数,Dj表示属性R对应的第j个类别的数据训练集。本申请可以根据属性的物理含义包含不同个数的类别,例如,对于属性“生存时间变量”,可以包含的类别为不同的时间段,0-1年、1-2年、2-3年等,属性“客户拥有的业务数量”可以包含的类别为不同的数据量,例如,1、2、3等。
在上述步骤302中,在一实施例中,可通过第四公式确定每一个属性对应的信息增益率,第四公式为:其中,R表示数据业务的一个属性,GainRatio(R)表示数据业务的属性R对应的信息增益率,Gain(R)表示属性R对应的信息增益,SplitInfok(D)表示该属性R对应的内在信息。
在一实施例中,内在信息通过第五公式计算得到,第五公式为:其中,SplitInfok(D)表示属性R对应的内在信息,D表示训练数据集,Dj表示属性R对应的第j个类别的数据训练子集。本实施例中的内在信息可以对数据业务所包含的属性的数量和属性的分布进行约束,进而解决信息增益过拟合的问题,避免数据业务包含的属性越多信息增益越大的问题。
在上述步骤303和步骤304中,在一实施例中,可通过第六公式确定样本数据的每一个属性对应的基尼指数,第六公式为:其中,D表示训练数据集,pj表示类别j在训练数据集D中的相对频率,n表示属性R中包含的类别的数量。
在上述步骤305中,在一实施例中,可以基于第七公式,根据基尼指数确定该样本数据的每一个属性对应的基尼增益,第七公式为:其中,ginisplit表示属性R对应的基尼增益,Ni表示第i个类别的记录数,gini(Ti)表示属性R对应的基尼指数。
在上述步骤306中,在一实施例中,可以基于第八公式,根据基尼增益确定该样本数据的每一个属性对应的逆基尼增益,第八公式为gini-1 split(T)=1-ginisplit(T)其中,gini-1 split(T)表示属性R对应的逆基尼增益。通过将基尼指数变换成逆基尼增益,可以确保逆基尼增益能够与信息增益、信息增益率保持相同的判断标准,即,信息增益、信息增益率、逆基尼增益均为越大说明对应的属性越显著。
在上述步骤307中,在一示例性场景中,可以对上述银行业务所包含的17个属性分别计算各自对应的信息增益、信息增益率、逆基尼增益,即,17个属性对应17个信息增益、17个信息增益率、17个逆基尼增益,分别挑出大于各自对应的预设阈值的值,例如上述表2中黑体下划线部分的数据。
上述步骤308的描述可以参见上述图4所示实施例的相关描述,在此先不详述。
本实施例在具有上述图2所示实施例的有益技术效果的基础上,通过内在信息可以解决信息增益过拟合的问题,避免数据业务包含的属性越多信息增益越大的问题;通过将基尼指数变换成逆基尼增益,可以确保逆基尼增益能够与信息增益、信息增益率保持相同的判断标准。
图4示出了根据本发明示例性实施例三的确定风险特征的方法的流程示意图;本实施例在上述图2所示实施例的基础上,以如何根据显著性指标值确定用于防控风险的属性为例进行示例性说明,如图4所示,包括如下步骤:
步骤401,从设定数量的属性中确定信息增益大于第一预设阈值的属性,得到第一组属性。
步骤402中,从设定数量的属性中确定信息增益率大于第二预设阈值的属性,得到第二组属性。
步骤403中,从设定数量的属性中确定逆基尼增益大于第三预设阈值的属性,得到第三组属性。
步骤404中,计算均出现在第一组属性、第二组属性和第三组属性的属性对应的信息增益、信息增益率和逆基尼增益的和值。
步骤405,对信息增益、信息增益率和逆基尼增益的和值进行排序,将至少一个属性中排名在前设定个数的属性确定为数据业务需要被防控的属性。
上述步骤401和步骤405的描述可以参见图2或者图3所示实施例的相关描述,在此不再详述。
在一实施例中,第一预设阈值为设定数量的属性对应的设定数量的信息增益中的中位数,第二预设阈值为设定数量的属性对应的设定数量的信息增益率中的中位数,第三预设阈值为设定数量的属性对应的设定数量的逆基尼增益中的中位数。
以上述图1A列举的示例性场景为例,同时满足大于各自对应的中位数这一设定条件的属性包括:生存时间变量、客户拥有的业务数量、客户拥有的产品数量、客户主动进行的活期交易次数、最后一笔交易间隔时间、服务时间长度。
计算上述属性各自对应的信息增益、信息增益率和逆基尼增益的和值,对和值进行综合排名,如图1B所示,依次为:生存时间变量、服务时间长度、最后一笔交易间隔时间、客户拥有的业务数量、客户拥有的产品数量、客户进行主动活期交易次数。
本实施例在具有上述图2所示实施例的有益技术效果的基础上,在计算出每个属性的信息增益、信息增益率以及逆基尼增益后,从设定数量的属性中选出三个参数均大于各自对应的阈值的属性,并对信息增益、信息增益率和逆基尼增益的和值从大到小进行降序排列,最后确定该属性的综合排序,从而可以准确地找出具有显著性的属性。
图5示出了根据本发明示例性实施例四的确定风险特征的方法的流程示意图;本实施例在上述图2所示实施例的基础上,以如何将用于防控风险的属性各自对应防控规则模型进行关联为例进行示例性说明,如图5所示,包括如下步骤:
步骤501,获取样本数据,所述样本数据对应设定数量的属性。
步骤502,计算所述样本数据的每一个属性对应的显著性指标值。
步骤503,基于显著性指标值,从设定数量的属性中确定用于防控风险的属性。
步骤504,基于关联规则算法,确定用于防控风险的属性中的一个或多个用于预测黑样本的类别组合。
步骤505,确定该类别组合在样本数据中的支持度和置信度。
步骤506,根据支持度和置信度确定与样本数据相关联的防控规则模型。
上述步骤501-步骤503的描述可以参见上述相关实施例的描述,在此不再详述。
上述步骤504-步骤506中,例如,在上述图1A所例举的示例性场景中,银行业务包括17个属性,银行业务对应90组样本数据,30组流失样本(可以视为黑样本),60组未流失样本(可以视为白样本),银行业务包括17个属性,找到的具有显著性的属性包括:生存时间变量、服务时间长度、最后一笔交易间隔时间、客户拥有的业务数量、客户拥有的产品数量、客户进行主动活期交易次数,基于关联规则算法,从“客户主动进行的活期交易次数”和“服务时间长度”确定各自的一个或者多个类别,以类别组合为“10次以下”和“1年之内”为例进行示例性说明,其中,“10次以下”为属性“客户进行主动活期交易次数”的一个类别,“1年之内”为属性“服务时间长度”的一个类别,如果该种情形下覆盖样本量为25.5%,则流失样本的支持度为(25.5%/(30/90))=76.5%,通过数据验证得到的判断准确率100%,当流失样本的支持度对应的预设阈值为60%并且准确率对应的预设阈值为90%时,上述计算得到的流失样本的支持度为76.5%并且准确率100%均大于各自对应的预设阈值,因此可以确定该数据业务对应的一个防控规则模型为:客户主动进行活期交易次数10次以下并且服务时间长度1年之内。
与上述描述类似,可以通过对上述列举的六个属性中的每一个类别进行遍历,得到该银行数据业务的多个防控规则模型。例如,属性“是否有消费贷款”的类别为“0”,属性“服务时间长度”的一个类别为“1年以内”,需要预测的黑样本为客户流失,通过计算得到覆盖样本量为27.77778%,则流失样本的支持度为(27.77778%/(30/90))=83.3%,通过数据验证得到的判断准确率100%,当流失样本的支持度对应的预设阈值为70%并且准确率对应的预设阈值为90%时,上述计算得到的流失样本的支持度为83.3%并且准确率100%均大于各自对应的预设阈值,因此可以确定样本数据对应的一个防控规则模型为:是否有消费贷款的类别为0并且服务时间长度1年之内。
此外,关联规则算法可以参见现有技术中的描述,本申请不做详述。
本实施例中,通过确定防控风险的属性的一个或多个用于预测黑样本的类别组合,根据类别组合在样本数据中的支持度和置信度确定与数据业务相关联的防控规则模型,从而可以为样本数据对应的数据业务推荐有意义的防控规则模型,由于防控规则模型时结合数据业务的多个显著的属性进行推荐,因此可以提高后期对样本数据对应的数据业务的防控效率,节省防控时间。
图6示出了根据本发明示例性实施例一的用于防控风险的属性确定装置的结构示意图;如图6所示,用于防控风险的属性确定装置可包括:样本数据获取单元61、指标计算单元62、显著属性确定单元63;其中,
样本数据获取单元61,用于获取样本数据,所述样本数据对应设定数量的属性;
指标计算单元62,用于计算所述样本数据获取单元61获取到的所述样本数据的每一个属性对应的显著性指标值;
显著属性确定单元63,用于基于指标计算单元62计算得到的显著性指标值,从设定数量的属性中确定用于防控风险的属性。
在一实施例中,显著性指标值为信息增益,指标计算单元62可包括:
增益信息计算子单元621,用于基于样本数据的每一个属性对应的信息熵以及每一个属性对应的条件熵,确定每一个属性对应的增益信息。
在一实施例中,显著性指标值为信息增益率,指标计算单元62可包括:
内在信息计算子单元622,用于确定每一个属性对应的内在信息;
信息增益率计算子单元623,用于根据增益信息计算子单元621计算的每一个属性对应的信息增益和内在信息计算子单元622计算的每一个属性对应的内在信息确定每一个属性对应的信息增益率。
在一实施例中,显著性指标值为逆基尼增益,指标计算单元62可包括:
相对频率确定子单元624,用于确定样本数据的每一个属性对应的类别在样本数据中出现的相对频率;
基尼指数确定子单元625,用于根据相对频率确定子单元624确定的每一个属性对应的类别在样本数据中出现的相对频率确定每一个属性对应的基尼指数;
基尼增益确定子单元626,用于根据基尼指数确定子单元625确定的一个属性对应的基尼指数以及每一个属性对应的类别的记录数确定每一个属性对应的基尼增益;
基尼增益确定子单元627,用于根据基尼增益确定子单元626确定的基尼增益确定样本数据的每一个属性对应的逆基尼增益。
在一实施例中,显著属性确定单元63可包括:
第一确定子单元631,用于从设定数量的属性中确定显著性指标值大于预设阈值的属性;
第二确定子单元632,用于从根据第一确定子单元631确定的显著性指标值大于预设阈值的属性确定用于防控风险的属性。
在一实施例中,显著性指标值包括信息增益、信息增益率和逆基尼增益,第一确定子单元631具体用于:
从设定数量的属性中确定信息增益大于第一预设阈值的属性,得到第一组属性;
从设定数量的属性中确定信息增益率大于第二预设阈值的属性,得到第二组属性;
从设定数量的属性中确定逆基尼增益大于第三预设阈值的属性,得到第三组属性。
在一实施例中,第二确定子单元632具体用于:
计算均出现在第一组属性、第二组属性和第三组属性的属性对应的信息增益、信息增益率和逆基尼增益的和值;
对信息增益、信息增益率和逆基尼增益的和值进行排序,将至少一个属性中排名在前设定个数的属性确定为数据业务需要被防控的属性。
在一实施例中,第一预设阈值为设定数量的信息增益中的中位数,第二预设阈值为设定数量的信息增益率中的中位数,第三预设阈值为设定数量的逆基尼增益中的中位数。
在一实施例中,每一个属性包括至少一个类别,装置还包括:
类别组合确定单元64,用于基于关联规则算法,从用于防控风险的属性中的每一个属性的至少一个类别中确定用于预测黑样本的类别组合;
第三确定单元65,用于确定类别组合在样本数据中的支持度和置信度;
第四确定单元66,用于根据第三确定单元65确定的支持度和置信度确定与样本数据相关联的防控规则模型。
对应于上述的用于防控风险的属性确定方法,本申请还提出了图7所示的根据本发明的一示例性实施例的服务器的示意结构图。请参考图7,在硬件层面,该服务器包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成用于防控风险的属性确定装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
其中,处理器,用于确定训练数据集中的样本数据的每一个属性对应的参数信息,其中,训练数据集对应设定的数据业务,数据业务对应设定数量的属性;
基于参数信息,从设定数量的属性中确定符合设定条件的至少一个目标属性;
根据至少一个目标属性确定数据业务对应的风险特征。
图6示出了根据本发明示例性实施例一的确定风险特征的装置的结构示意图;如图6所示,该确定风险特征的装置可以包括:参数信息确定单元61、目标属性确定单元62、风险特征确定单元63。其中:
参数信息确定单元61,用于确定训练数据集对应的数据业务的每一个属性对应的参数信息,其中,数据业务对应设定数量的属性;
目标属性确定单元62,用于基于参数信息确定单元61确定的参数信息,从设定数量的属性中确定符合设定条件的至少一个目标属性;
风险特征确定单元63,用于根据目标属性确定单元62确定的至少一个目标属性确定数据业务对应的风险特征。
在一实施例中,参数信息包括信息增益、信息增益率和逆基尼增益,目标属性确定单元61包括:
第一确定子单元,用于从设定数量的属性中确定信息增益大于第一预设阈值的属性,得到第一组属性;
第二确定子单元,用于从设定数量的属性中确定信息增益率大于第二预设阈值的属性,得到第二组属性;
第三确定子单元,用于从设定数量的属性中确定逆基尼增益大于第三预设阈值的属性,得到第三组属性;
第四确定子单元,用于将均出现在第一确定子单元确定的第一组属性、第二确定子单元确定的第二组属性和第三确定子单元确定的第三组属性的属性确定为符合设定条件的至少一个目标属性。
在一实施例中,风险特征确定单元63包括:
和值确定子单元,用于确定至少一个目标属性各自对应的信息增益、信息增益率和逆基尼增益的和值;
风险特征确定子单元,用于基于和值确定子单元确定的信息增益、信息增益率和逆基尼增益的和值,确定数据业务对应的风险特征。
在一实施例中,装置还包括:
类别组合确定单元,用于基于关联规则算法,从至少一个目标属性中确定至少一个用于预测黑样本的类别组合;
支持度和置信度确定单元,用于确定类别组合在数据训练集中的支持度和置信度;
防控模型确定单元,用于根据支持度和置信度确定单元确定的支持度和置信度确定与数据业务相关联的防控规则模型。
上述实施例可见,本申请基于数据业务的每一个属性对应的参数信息,从数据业务全部的属性中找出符合设定条件的至少一个目标属性,根据至少一个目标属性确定该样本数据对应的风险特征,从而可以通过风险特征快速找到样本数据中具有显著性的特征,提高风控环节中定位风险特征的效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种用于防控风险的属性确定方法,其特征在于,所述方法包括:
获取样本数据,所述样本数据对应设定数量的属性;
计算所述样本数据的每一个属性对应的显著性指标值;
基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
2.根据权利要求1所述的方法,其特征在于,所述显著性指标值为信息增益,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:
基于所述样本数据的每一个属性对应的信息熵以及所述每一个属性对应的条件熵,确定所述每一个属性对应的增益信息。
3.根据权利要求1所述的方法,其特征在于,所述显著性指标值为信息增益率,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:
确定所述样本数据的每一个属性对应的信息增益;
确定所述每一个属性对应的内在信息;
根据所述每一个属性对应的信息增益和所述每一个属性对应的内在信息确定所述每一个属性对应的信息增益率。
4.根据权利要求1所述的方法,其特征在于,所述显著性指标值为逆基尼增益,所述计算所述样本数据的每一个属性对应的显著性指标值,包括:
确定所述样本数据的每一个属性对应的类别在所述样本数据中出现的相对频率;
根据所述每一个属性对应的类别在所述样本数据中出现的相对频率确定所述每一个属性对应的基尼指数;
根据所述每一个属性对应的基尼指数以及所述每一个属性对应的类别的记录数确定所述每一个属性对应的基尼增益;
根据所述基尼增益确定所述样本数据的每一个属性对应的逆基尼增益。
5.根据权利要求1所述的方法,其特征在于,所述基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性,包括:
从所述设定数量的属性中确定所述显著性指标值大于预设阈值的属性;
根据所述显著性指标值大于所述预设阈值的属性确定用于防控风险的属性。
6.根据权利要求5所述的方法,其特征在于,所述显著性指标值包括信息增益、信息增益率和逆基尼增益,所述从所述设定数量的属性中确定所述显著性指标值大于预设阈值的属性,包括:
从所述设定数量的属性中确定所述信息增益大于第一预设阈值的属性,得到第一组属性;
从所述设定数量的属性中确定所述信息增益率大于第二预设阈值的属性,得到第二组属性;
从所述设定数量的属性中确定所述逆基尼增益大于第三预设阈值的属性,得到第三组属性。
7.根据权利要求6所述的方法,其特征在于,所述根据所述显著性指标值大于所述预设阈值的属性确定用于防控风险的属性,包括:
计算均出现在所述第一组属性、所述第二组属性和所述第三组属性的属性对应的信息增益、信息增益率和逆基尼增益的和值;
对所述信息增益、信息增益率和逆基尼增益的和值进行排序,将所述至少一个属性中排名在前设定个数的属性确定为所述数据业务需要被防控的属性。
8.根据权利要求6所述的方法,其特征在于,所述第一预设阈值为所述设定数量的信息增益中的中位数,所述第二预设阈值为所述设定数量的信息增益率中的中位数,所述第三预设阈值为所述设定数量的逆基尼增益中的中位数。
9.根据权利要求1所述的方法,其特征在于,所述每一个属性包括至少一个类别,所述方法还包括:
基于关联规则算法,从所述用于防控风险的属性中的每一个属性的至少一个类别中确定用于预测黑样本的类别组合;
确定所述类别组合在所述样本数据中的支持度和置信度;
根据所述支持度和所述置信度确定与所述样本数据相关联的防控规则模型。
10.一种用于防控风险的属性确定装置,其特征在于,所述装置包括:
样本数据获取单元,用于获取样本数据,所述样本数据对应设定数量的属性;
指标计算单元,用于计算所述样本数据获取单元获取到的所述样本数据的每一个属性对应的显著性指标值;
显著属性确定单元,用于基于所述指标计算单元计算得到的所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
11.一种服务器,其特征在于,所述服务器包括:
存储器和处理器,所述存储器用于存储所述处理器可执行指令;
其中,所述处理器,用于获取样本数据,所述样本数据对应设定数量的属性;
计算所述样本数据的每一个属性对应的显著性指标值;
基于所述显著性指标值,从所述设定数量的属性中确定用于防控风险的属性。
CN201610491496.6A 2016-06-28 2016-06-28 用于防控风险的属性确定方法、装置及服务器 Active CN107545347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610491496.6A CN107545347B (zh) 2016-06-28 2016-06-28 用于防控风险的属性确定方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610491496.6A CN107545347B (zh) 2016-06-28 2016-06-28 用于防控风险的属性确定方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN107545347A true CN107545347A (zh) 2018-01-05
CN107545347B CN107545347B (zh) 2021-06-29

Family

ID=60963148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610491496.6A Active CN107545347B (zh) 2016-06-28 2016-06-28 用于防控风险的属性确定方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN107545347B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264333A (zh) * 2019-05-09 2019-09-20 阿里巴巴集团控股有限公司 一种风险规则确定方法和装置
CN112487475A (zh) * 2020-11-30 2021-03-12 北京京航计算通讯研究所 一种涉密载体风险分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699020A (zh) * 2013-12-09 2015-06-10 中芯国际集成电路制造(上海)有限公司 系统自动预检方法以及可自动预检的系统
CN102567807B (zh) * 2010-12-23 2016-01-13 上海亚太计算机信息系统有限公司 加油卡客户流失预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567807B (zh) * 2010-12-23 2016-01-13 上海亚太计算机信息系统有限公司 加油卡客户流失预测方法
CN104699020A (zh) * 2013-12-09 2015-06-10 中芯国际集成电路制造(上海)有限公司 系统自动预检方法以及可自动预检的系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
柴明亮: "关联规则在时间序列数据挖掘中的应用", 《中国优秀硕士论文全文数据库》 *
郑伟 等: "一种基于基尼指数和类内频率的特征选择方法", 《制造业自动化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264333A (zh) * 2019-05-09 2019-09-20 阿里巴巴集团控股有限公司 一种风险规则确定方法和装置
CN110264333B (zh) * 2019-05-09 2023-12-08 创新先进技术有限公司 一种风险规则确定方法和装置
CN112487475A (zh) * 2020-11-30 2021-03-12 北京京航计算通讯研究所 一种涉密载体风险分析方法及系统
CN112487475B (zh) * 2020-11-30 2023-06-09 北京京航计算通讯研究所 一种涉密载体风险分析方法及系统

Also Published As

Publication number Publication date
CN107545347B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US11665072B2 (en) Parallel computational framework and application server for determining path connectivity
US11985037B2 (en) Systems and methods for conducting more reliable assessments with connectivity statistics
Banasik et al. Sample selection bias in credit scoring models
US20140358829A1 (en) System and method for sharing record linkage information
JP2002092305A (ja) スコア算出方法及びスコア提供方法
CN107622326B (zh) 用户分类、可用资源预测方法、装置及设备
KR102105319B1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
CN111931055B (zh) 对象推荐方法、对象推荐装置和电子设备
Hayden et al. Statistical methods to develop rating models
US20200193340A1 (en) Business default prediction system and operation method thereof
CN113674087A (zh) 企业信用等级评定方法、装置、电子设备和介质
US20180005248A1 (en) Product, operating system and topic based
Bittmann et al. Decision‐making method using a visual approach for cluster analysis problems; indicative classification algorithms and grouping scope
Frydman et al. Random survival forest for competing credit risks
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN107545347A (zh) 用于防控风险的属性确定方法、装置及服务器
US20210357699A1 (en) Data quality assessment for data analytics
CN111680941B (zh) 保价推荐方法、装置、设备及存储介质
Dzerzhinsky et al. The support vectors and random forest methods analysis in the forecasting customer churn problem in banking services
Weisburd et al. Measures of association for nominal and ordinal variables
CN111400413B (zh) 一种确定知识库中知识点类目的方法及系统
CN113393303A (zh) 物品推荐方法、装置、设备及存储介质
Ramasubramanian et al. Sampling and resampling techniques
CN109933698B (zh) 一种用户画像的来源校验方法及装置
Mendes et al. Determinants of stock market classifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant