CN110503566A - 风控模型建立方法、装置、计算机设备及存储介质 - Google Patents
风控模型建立方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110503566A CN110503566A CN201910608839.6A CN201910608839A CN110503566A CN 110503566 A CN110503566 A CN 110503566A CN 201910608839 A CN201910608839 A CN 201910608839A CN 110503566 A CN110503566 A CN 110503566A
- Authority
- CN
- China
- Prior art keywords
- variable factor
- variable
- group
- factor
- useful
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 47
- 238000007637 random forest analysis Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 8
- 238000012549 training Methods 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 239000012535 impurity Substances 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 238000012954 risk control Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种风控模型建立方法、装置、计算机设备及存储介质,基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;根据所述目标变量因子建立风控模型。本发明提供的风控模型建立方法、装置、计算机设备及存储介质,能够实现将原始变量因子进行筛选,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种风控模型建立方法、装置、计算机设备及存储介质。
背景技术
随着社会经济的不断发展,人们越来越意识到保险的重要性。保险是指用户根据合同约定向保险公司支付保险费用,保险公司对于合同约定的可能发生的风险所造成的损失承担赔偿保险金的行为。因此,保险公司对保险业务的风险控制极为重要,风险控制主要有两个重要部分:一、核保/准入,判断是否承保;二、核赔,判断理赔是否符合保险保障条款。
目前,风险控制主要是基于风控模型进行的,而风控模型是基于风险因子建立的,为了提高风控模型的准确性,收集的风险因子非常细致全面,以核保风控模型为例,总共收集了2200多个风险因子。然而,要处理如此多的风险因子,对硬件资源的需求大,且风控模型的训练及开发周期长。
发明内容
有鉴于此,本发明提出一种风控模型建立方法、装置、计算机设备及存储介质,有效缩短风控模型的训练及开发周期,且能够保证模型的可靠性。
首先,为实现上述目的,本发明提出一种风控模型建立方法,该方法包括步骤:
基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
根据所述目标变量因子建立风控模型。
进一步地,所述预设的第一筛选规则基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率设置。
进一步地,所述预设的第二筛选规则基于变量因子的相关性设置。
进一步地,所述根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子的步骤包括:
计算所述有效变量因子间的相似度;
根据所述相似度将所述有效变量因子分成若干组;及
从每一组有效变量因子中选取至少一个目标变量因子。
进一步地,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算各组中每一有效变量因子的重要度;
从每一组中选取重要度最高的有效变量因子作为目标变量因子。
进一步地,所述根据所述相似度将所述有效变量因子分成若干组的步骤包括:
从所述有效变量因子中选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及
将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的有效变量因子组成非相关组。
进一步地,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算相关组各组中每一有效变量因子的重要度;及
从相关组的每一组中选取重要度最高的有效变量因子作为目标变量因子,选取非相关组中的全部有效变量因子作为目标变量因子。
此外,为实现上述目的,本发明还提供一种风控模型建立装置,其包括:
第一筛选模块,用于基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
第二筛选模块,用于根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
建模模块,用于根据所述目标变量因子建立风控模型。
进一步地,所述预设的第一筛选规则基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率设置。
进一步地,所述预设的第二筛选规则基于变量因子的相关性设置。
进一步地,所述第二筛选模块还适于计算所述有效变量因子间的相似度;根据所述相似度将所述有效变量因子分成若干组;及从每一组有效变量因子中选取至少一个目标变量因子。
进一步地,所述第二筛选模块还适于基于随机森林算法计算各组中每一有效变量因子的重要度;及从每一组中选取重要度最高的变量因子作为目标变量因子。
进一步地,所述第二筛选模块还适于选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的目标变量因子组成非相关组。
进一步地,所述第二筛选模块还适于根据基尼不纯度和信息增益计算相关组各组中每一变量因子的重要度;及从相关组的每一组中选取重要度最高的变量因子作为目标变量因子,选取非相关组中的全部变量因子作为目标变量因子。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
相较于现有技术,本发明所提出的风控模型建立方法、装置、计算机设备及存储介质,能够实现将原始变量因子进行筛选,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
附图说明
图1是本发明一示例性实施例示出的风控模型建立方法的流程示意图;
图2是本发明一示例性实施例示出的风控模型建立方法的流程示意图;
图3是本发明一示例性实施例示出的风控模型建立方法的流程示意图;
图4是本发明一示例性实施例示出的风控模型建立方法的流程示意图;
图5是本发明一示例性实施例示出的风控模型建立方法的流程示意图;
图6是本发明一示例性实施例示出的风控模型建立装置的程序模块示意图;
图7是本发明一示例性实施例示出的风控模型建立装置的硬件架构示意图。
附图标记:
风控模型建立装置 | 20 |
存储器 | 21 |
处理器 | 22 |
网络接口 | 23 |
内存 | 24 |
第一筛选模块 | 201 |
第二筛选模块 | 202 |
建模模块 | 203 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明一实施例之风控模型建立方法的流程示意图,所述方法包括以下步骤:
步骤S110,基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
步骤S120,根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
步骤S130,根据所述目标变量因子建立风控模型。
现有的风控模型是基于大数据样本构建而成的,大数据样本可以为保险公司常年积累的保险数据,其可以包括未出险数据及出险数据。从数据维度上看,大数据样本可以包括内部数据和外部数据,其中,内部数据可以包括客户的身份信息、风险信息、行为信息等,外部数据可以包括征信数据、安全信息数据以及互联网数据等。
风控模型是基于变量因子建立的,为了提高风控模型的准确性,收集的变量因子非常细致全面,以从尽可能多的维度对客户进行风险分析,以核保风控模型为例,总共收集了2200多个变量因子,常见的变量因子包括客户的年龄、性别、职业、身高、学历、头发长短、是否为新客户、是否为会员、成为会员时长为一周以内、成为会员时长为半年、成为会员时长为半年至一年、成为会员时长为一年及以上等。
细致全面的变量因子是基于长期的保险风险分析积累下来的,然而,在实际操作中,业务员很难完整记录每一个客户的几千个变量因子的信息,导致数据库中经常存在无效变量因子,因此,可以通过对大数据样本进行分析以得出无效变量因子的特征,从而剔除无效变量因子。例如,大数据样本中的A变量因子的数据饱和度极低,则可以认为A变量因子为无效变量因子。类似地,还可以根据大数据样本中的变量因子的数据值是否单一、变量所含的信息量是否异常和/或信息增益率判断该变量因子是否为无效变量因子,从而可以基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率等设置所述预设的第一筛选规则。
根据预设的第一筛选规则可以对大数据样本中的变量因子进行筛选,剔除其中的无效变量因子,以得到有效变量因子;或者,根据预设的第一筛选规则直接筛选出有效变量因子。当然,还可以根据其他方法筛选出有效变量因子,本发明对此不作限定。
在步骤S120中,根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;
如前所述,为了提高风控模型的准确性,收集的变量因子非常细致全面。当然,在收集变量因子的初期阶段,往往会追求变量因子的全面性,企图变量因子包含所有的因素,以从尽可能多的维度对客户进行风险分析。
然而,细致全面的变量因子又导致变量因子过多,变量因子间相互重叠,即针对某一维度可能通过多个变量因子表征,导致变量因子的权重减少,变量因子结构失真,从方向和数量两方面扭曲真实的信息,且增加了建立风控模型的难度,使得风控模型的训练及开发周期长。因此可以考虑选取其中最具代表性的变量因子来表征某一维度,从而缩减变量因子的数量。例如,是否是女性与是否是长头发,从某种程度来说具有较强的相关性,而是否是女性更能表征客户的性别,从而可以通过是否是女性这一变量因子来表征性别这一维度。因此,可以基于变量因子的相关性设置所述预设的第二筛选规则。
如图2所示,本发明一实施例中,所述根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子的步骤可以包括以下步骤:
步骤S201,计算所述有效变量因子间的相似度;
步骤S202,根据所述相似度将所述有效变量因子分成若干组;
步骤S203,从每一组有效变量因子中选取至少一个目标变量因子。
根据有效变量因子间的相似度判断各有效变量因子间的相关性,可以通过相似矩阵计算两有效变量因子间的相关系数,当然,还可以通过欧几里得距离、皮尔逊相关系数和/或余弦相似度等算法计算有效变量因子间的相似度。欧几里得距离(euclideanmetric,也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。皮尔逊(Pearson)相关系数是用协方差除以两个变量的标准差得到的,因此,协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关)。余弦相似度,也称为余弦距离,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”。本发明对计算相似度所采用的方法不作限定。
在本发明中,可以根据有效变量因子的特性选取合适的算法计算有效变量因子间的相似度。在计算出各有效变量因子间的相似度后,可以根据相似度将有效变量因子分成若干组,可以认为同一组中的有效变量因子用于表征同一个维度的客户特征,可以从每一组中选取少量的有效变量因子(即目标变量因子)用以表征该维度的客户特征,从而可以极大的缩减用于建立风控模型的变量因子的数量。
如图3所示,本发明一实施例中,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤可以包括以下步骤:
步骤S301,基于随机森林算法计算各组中每一有效变量因子的重要度;及
步骤S302,从每一组中选取重要度最高的有效变量因子作为目标变量因子。
从每一组中选取少量的有效变量因子(即目标变量因子)用以表征该维度的客户特征,通常来说,目标变量因子在这一组有效变量因子中的地位是最重要的,即目标变量因子是该组变量因子中重要度最高的有效变量因子,本发明一实施例中,可以通过随机森林算法计算变量因子的重要度。
为便于描述,以下通过例举在随机森林算法中计算X有效变量因子的重要性的计算过程进行说明:
一):对于随机森林中的每一颗决策树,使用相应的OOB数据(Out-Of-Bag,袋外数据)来计算它的袋外数据误差,记为errOOB1。
二):随机地对袋外数据OOB所有样本的X有效变量因子加入噪声干扰(就可以随机的改变样本在X有效变量因子处的值),再次计算它的袋外数据误差,记为errOOB2。
三):假设随机森林中有Ntree棵树,那么X有效变量因子的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应有效变量因子的重要性的度量值是因为:若给某个有效变量因子随机加入噪声之后,袋外的准确率大幅度降低,则说明这个有效变量因子对于样本的分类结果影响很大,也就是说它的重要程度比较高。
在计算出一组中每一有效变量因子的重要度之后,可以根据重要度对有效变量因子进行降序排列,进而从中选出若干个目标变量因子。当然,还可以通过以下方式选取目标变量因子:
一):对随机森林中的有效变量因子按照VI(Variable Importance,重要度)降序排序。
二):确定删除比例,从当前的有效变量因子中剔除相应比例不重要的有效变量因子,从而得到一个新的有效变量因子集。
三):用新的有效变量因子集建立新的随机森林,并计算有效变量因子集中每个特征的VI,并排序。
四):重复以上步骤,直到剩下m个特征(m为预设的目标变量因子的个数)。
本实施例根据有效变量因子的重要度选取目标变量因子,从而在选取较少的目标变量因子的情况下,仍可以保证选取到对建立的风控模型的准确性影响较大的目标变量因子,以提高风控模型的准确性。
由于可能存在仅由一个有效变量因子表征一个维度,即该有效变量因子与其他有效变量因子间的相似度都较低,显然这类有效变量因子难以与其他有效变量因子分入一组,即分组结束后,还可能存在部分零散的有效变量因子,为了对全部有效变量因子进行处理,如图4所示,本发明一实施例中,所述根据所述相似度将所述有效变量因子分成若干组的步骤可以包括以下步骤:
步骤S401,从所述有效变量因子中选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及
步骤S402,将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的有效变量因子组成非相关组。
如前所述,可以根据有效变量因子的特性选取合适的算法计算有效变量因子间的相似度。在计算出各有效变量因子间的相似度后,可以随机选定一个有效变量因子作为组长变量因子,可以在选定组长变量因子后,根据与“组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值”的原则直接挑选组员变量因子。当然,也可以在选定组长变量因子后,再挑选与所述组长变量因子间的相似度大于第一阈值(例如,第一阈值为0.9)的有效变量因子作为预选变量因子,再从所述预选变量因子中挑选相互间的相似度均大于第二阈值(例如,第二阈值为0.8)的预选变量因子作为组员变量因子,当然,也可以从所述预选变量因子中剔除相互间相似度不大于第二阈值的预选变量因子,最终剩余的预选变量因子作为组员变量因子。选取组长变量因子与对应组员变量因子的方法可以有多种,本发明对此不作限定。
通过选定组长变量因子与对应组员变量因子的方式,可以对几乎全部有效变量因子进行分组,且分入每一组中的有效变量因子间的相似度都很高,将通过相互间相似度组成的组可以称为相关组。在相关组全部分完之后,还可能剩余一些与其他有效变量因子间的相似度都不高的有效变量因子,可以将这部分有效变量因子组成非相关组,从而对全部的有效变量因子实现分组。当然,也可以将与其他有效变量因子间的相似度都不高的每一有效变量因子单独作为一组,本发明对此不作限定。
如图5所示,本发明一实施例中,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤可以包括以下步骤:
步骤S501,基于随机森林算法计算相关组各组中每一有效变量因子的重要度;及
步骤S502,从相关组的每一组中选取重要度最高的有效变量因子作为目标变量因子,选取非相关组中的全部有效变量因子作为目标变量因子。
从每一组中选取目标变量因子用以表征该维度的客户特征,对于相关组中的有效变量因子而言,目标变量因子在这一组有效变量因子中的地位是最重要的,即目标变量因子是该组变量因子中重要度最高的有效变量因子。对于非相关组而言,由于每一个有效变量因子可能表征不同维度的客户特征,因此,可以将非相关组中的全部有效变量因子均作为目标变量因子。
本发明一实施例中,可以通过随机森林算法计算变量因子的重要度,以从相关组中选取重要度最高的有效变量因子。
为便于描述,以下通过例举在随机森林算法中计算X有效变量因子的重要性的计算过程进行说明:
一):对于随机森林中的每一颗决策树,使用相应的OOB数据(Out-Of-Bag,袋外数据)来计算它的袋外数据误差,记为errOOB1。
二):随机地对袋外数据OOB所有样本的X有效变量因子加入噪声干扰(就可以随机的改变样本在X有效变量因子处的值),再次计算它的袋外数据误差,记为errOOB2。
三):假设随机森林中有Ntree棵树,那么对于X有效变量因子的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应有效变量因子的重要性的度量值是因为:若给某个有效变量因子随机加入噪声之后,袋外的准确率大幅度降低,则说明这个有效变量因子对于样本的分类结果影响很大,也就是说它的重要程度比较高。
在计算出一相关组中每一有效变量因子的重要度之后,可以根据重要度对有效变量因子进行降序排列,进而从中选出若干个目标变量因子。当然,还可以通过以下方式选取目标变量因子:
一):对随机森林中的有效变量因子按照VI(Variable Importance,重要度)降序排序。
二):确定删除比例,从当前的有效变量因子中剔除相应比例不重要的有效变量因子,从而得到一个新的有效变量因子集。
三):用新的有效变量因子集建立新的随机森林,并计算有效变量因子集中每个特征的VI,并排序。
四):重复以上步骤,直到剩下m个特征(m为预设的目标变量因子的个数)。
本实施例根据有效变量因子的重要度从相关组中选取目标变量因子,将非相关组中的全部有效变量因子均作为目标变量因子,从而选取的目标变量因子能够从比较全面的维度表征客户特征,在选取较少的目标变量因子的情况下,仍可以保证选取到对建立的风控模型的准确性影响较大的目标变量因子,以提高风控模型的准确性。
在步骤S130中,根据所述目标变量因子建立风控模型。
基于筛选出的目标变量因子及各个目标变量因子的权重构建风控模型。需要说明的是,可以针对不同的预设险种,通过与预设险种对应的大数据样本,筛选出不同的目标变量因子及各个目标变量因子的权重,从而构建不同的风控模型,预设险种可以包括车险、大病保险、财产保险等,本示例实施例对此不作特殊限定。
针对所构建的风控模型,通常还需要评价风控模型的性能,以确保风控模型的准确性和可靠性,通常可以通过风控模型的AUC(Area Under Curve,曲线下的面积)评价风控模型的性能,方法如下:
获取验证数据样本,并基于所述验证数据样本计算风控模型的AUC值;判断所述AUC值是否满足预设条件,并在所述AUC值不满足预设条件时,基于大数据样本中的变量因子重新构建风控模型,以使重新构建的风控模型的AUC值满足预设条件。
AUC值可以表示风控模型对好坏样本的区分度,AUC值越大,表示风控模型对好坏样本的区分度越好;AUC值越小,表示风控模型对好坏样本的区分度越差,AUC值通常的取值范围为0.5~1。基于此,在构建好风控模型之后,需要将验证数据样本输入该风控模型以计算该风控模型的AUC值,并判断该AUC值是否大于0.5,在AUC值大于0.5时,将该风控模型确定为最终的风控模型。在AUC值不大于0.5时,重新构建该风控模型,直到该风控模型的AUC值大于0.5。需要说明的是,计算风控模型的AUC值为公知技术,因此,在此不予赘述。
本发明所提出的风控模型建立方法,能够实现将原始变量因子进行筛选,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
为了更好地说明上述风控模型建立方案,以下将通过一个实例进行具体解释。
实例:
从某一险种的大数据样本中选取全部的变量因子,根据数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率等规则对所选取全部的变量因子进行筛选,从中筛选出有效变量因子,例如,所述有效变量因子包括A、B、C、D、E、F、G和H。
通过相似矩阵等算法计算有效变量因子间的相似度,所述有效变量因子间的相似度如下表1所示:
表1有效变量因子间的相似度
A | B | C | D | E | F | G | H | |
A | 1 | 0.2 | 0.91 | 0.92 | 0.3 | 0.4 | 0.3 | 0.2 |
B | 0.2 | 1 | 0.3 | 0.2 | 0.92 | 0.91 | 0.2 | 0.3 |
C | 0.91 | 0.3 | 1 | 0.81 | 0.3 | 0.4 | 0.3 | 0.2 |
D | 0.92 | 0.2 | 0.81 | 1 | 0.3 | 0.4 | 0.3 | 0.2 |
E | 0.3 | 0.92 | 0.3 | 0.3 | 1 | 0.81 | 0.4 | 0.3 |
F | 0.4 | 0.91 | 0.4 | 0.4 | 0.81 | 1 | 0.4 | 0.3 |
G | 0.3 | 0.2 | 0.3 | 0.3 | 0.4 | 0.4 | 1 | 0.3 |
H | 0.2 | 0.3 | 0.2 | 0.2 | 0.3 | 0.3 | 0.3 | 1 |
在计算出有效变量因子间的相似度后,可以根据所述相似度将所述有效变量因子分成若干组,从所述有效变量因子中选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子。例如,选定A为组长变量因子,则对应的组员变量因子为C和D;选定B为组长变量因子,则对应的组员变量因子为E和F。
将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的有效变量因子组成非相关组,则相关组包括:第1组(A,C,D)和第2组(B,E,F),非相关组(G,H)。基于信息不纯度和信息增益计算相关组各组中每一有效变量因子的重要度如下:第1组(A=0.9,C=0.8,D=0.6)和第2组(B=0.9,E=0.7,F=0.8),从而从相关组的每一组中选取重要度最高的有效变量因子作为目标变量因子,即A和B为目标变量因子。选取非相关组中的全部有效变量因子作为目标变量因子,即G和H也为目标变量因子。
根据目标变量因子A、B、G和H建立风控模型。显然,采用本发明的方法,建立风控模型所采用的变量因子从原本的10个缩减为4个,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期。
针对核保风控模型收集的2225个变量因子,采用本发明的方法最终筛选出的目标变量因子仅为472个。原来建立风控模型需要6小时,其AUC值为0.86。而采用本发明所提方法,建立风控模型仅需要1至2小时,其AUC值为0.83。显然,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
本发明进一步提供一种风控模型建立装置。参阅图6,是本发明一示例性实施例示出的风控模型建立装置20的程序模块示意图。
所述风控模型建立装置20包括:
第一筛选模块201,适于基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
第二筛选模块202,适于根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
建模模块203,适于根据所述目标变量因子建立风控模型。
本发明能够实现将原始变量因子进行筛选,极大的减少了变量因子的数量,从而缩短风控模型的训练及开发周期,由于剔除的是无效变量因子及冗余变量因子,从而能够保证模型的可靠性。
进一步地,所述预设的第一筛选规则基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率设置。
进一步地,所述预设的第二筛选规则基于变量因子的相关性设置。
进一步地,所述第二筛选模块202还适于计算所述有效变量因子间的相似度;根据所述相似度将所述有效变量因子分成若干组;及从每一组有效变量因子中选取至少一个目标变量因子。
在本发明中,可以根据有效变量因子的特性选取合适的算法计算有效变量因子间的相似度。在计算出各有效变量因子间的相似度后,可以根据相似度将有效变量因子分成若干组,可以认为同一组中的有效变量因子用于表征同一个维度的客户特征,可以从每一组中选取少量的有效变量因子(即目标变量因子)用以表征该维度的客户特征,从而可以极大的缩减用于建立风控模型的变量因子的数量。
进一步地,所述第二筛选模块还适于基于随机森林算法计算各组中每一有效变量因子的重要度;及从每一组中选取重要度最高的变量因子作为目标变量因子。
进一步地,所述第二筛选模块还适于选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的目标变量因子组成非相关组。
本实施例根据有效变量因子的重要度选取目标变量因子,从而在保证选取较少的目标变量因子的情况下,仍可以保证选取到对建立的风控模型的准确性影响较大的目标变量因子,以提高风控模型的准确性。
进一步地,所述第二筛选模块还适于根据基尼不纯度和信息增益计算相关组各组中每一变量因子的重要度;及从相关组的每一组中选取重要度最高的变量因子作为目标变量因子,选取非相关组中的全部变量因子作为目标变量因子。
本实施例根据有效变量因子的重要度从相关组中选取目标变量因子,将非相关组中的全部有效变量因子均作为目标变量因子,从而选取的目标变量因子能够从较全面的维度表征客户特征,在保证选取较少的目标变量因子的情况下,仍可以保证选取到对建立的风控模型的准确性影响较大的目标变量因子,以提高风控模型的准确性。
为实现上述目的,本发明还提供一种计算机设备20,包括存储器21、处理器22以及存储在存储器21上并可在所述处理器22上运行的计算机程序,所述处理器22执行所述计算机程序时实现上述方法的步骤。可以将所述计算机程序存储于内存24中。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过装置总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储风控模型建立装置20,被处理器22执行时实现本发明的风控模型建立方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种风控模型建立方法,其特征在于,所述方法包括步骤:
基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
根据所述目标变量因子建立风控模型。
2.如权利要求1所述的风控模型建立方法,其特征在于,所述预设的第一筛选规则基于数据饱和度、数据值是否单一、变量所含的信息量是否异常和/或信息增益率设置。
3.如权利要求1所述的风控模型建立方法,其特征在于,所述预设的第二筛选规则基于变量因子的相关性设置。
4.如权利要求3所述的风控模型建立方法,其特征在于,所述根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子的步骤包括:
计算所述有效变量因子间的相似度;
根据所述相似度将所述有效变量因子分成若干组;及
从每一组有效变量因子中选取至少一个目标变量因子。
5.如权利要求4所述的风控模型建立方法,其特征在于,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算各组中每一有效变量因子的重要度;及
从每一组中选取重要度最高的有效变量因子作为目标变量因子。
6.如权利要求4所述的风控模型建立方法,其特征在于,所述根据所述相似度将所述有效变量因子分成若干组的步骤包括:
从所述有效变量因子中选定组长变量因子,选取与所述组长变量因子的相似度大于第一阈值、且相互间相似度均大于第二阈值的组员变量因子;及
将组长变量因子与对应的组员变量因子组成相关组,将未分入相关组的有效变量因子组成非相关组。
7.如权利要求6所述的风控模型建立方法,其特征在于,所述从每一组有效变量因子中选取至少一个目标变量因子的步骤包括:
基于随机森林算法计算相关组各组中每一有效变量因子的重要度;及
从相关组的每一组中选取重要度最高的有效变量因子作为目标变量因子,选取非相关组中的全部有效变量因子作为目标变量因子。
8.一种风控模型建立装置,其特征在于,其包括:
第一筛选模块,用于基于预设的第一筛选规则从原始变量因子中筛选出有效变量因子;
第二筛选模块,用于根据预设的第二筛选规则对所述有效变量因子进行去冗余操作以筛选出目标变量因子;及
建模模块,用于根据所述目标变量因子建立风控模型。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述风控模型建立方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述风控模型建立方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608839.6A CN110503566B (zh) | 2019-07-08 | 2019-07-08 | 风控模型建立方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608839.6A CN110503566B (zh) | 2019-07-08 | 2019-07-08 | 风控模型建立方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503566A true CN110503566A (zh) | 2019-11-26 |
CN110503566B CN110503566B (zh) | 2024-02-09 |
Family
ID=68585477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910608839.6A Active CN110503566B (zh) | 2019-07-08 | 2019-07-08 | 风控模型建立方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503566B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330432A (zh) * | 2020-11-10 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 风险等级识别模型训练方法、识别方法、终端及存储介质 |
CN112529477A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 信用评估变量筛选方法、装置、计算机设备及存储介质 |
WO2021169212A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 风控模型构建方法、风控审核方法、装置及计算机设备 |
WO2021196843A1 (zh) * | 2020-03-31 | 2021-10-07 | 支付宝(杭州)信息技术有限公司 | 用于风险识别模型的衍生变量选择方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101727434B1 (ko) * | 2016-08-02 | 2017-04-26 | 성균관대학교산학협력단 | 랜덤 포레스트 모델을 이용한 냉동기의 성능 판단 방법 |
CN108269012A (zh) * | 2018-01-12 | 2018-07-10 | 中国平安人寿保险股份有限公司 | 风险评分模型的构建方法、装置、存储介质及终端 |
US20180308160A1 (en) * | 2016-02-01 | 2018-10-25 | Tencent Technology (Shenzhen) Company Limited | Risk assessment method and system |
CN109242361A (zh) * | 2018-10-31 | 2019-01-18 | 深圳市中电数通智慧安全科技股份有限公司 | 一种消防风险评估方法、装置及终端设备 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
CN109635335A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 驾驶风险预测方法、装置、计算机设备及存储介质 |
CN109670976A (zh) * | 2018-12-18 | 2019-04-23 | 泰康保险集团股份有限公司 | 特征因子确定方法及设备 |
-
2019
- 2019-07-08 CN CN201910608839.6A patent/CN110503566B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180308160A1 (en) * | 2016-02-01 | 2018-10-25 | Tencent Technology (Shenzhen) Company Limited | Risk assessment method and system |
KR101727434B1 (ko) * | 2016-08-02 | 2017-04-26 | 성균관대학교산학협력단 | 랜덤 포레스트 모델을 이용한 냉동기의 성능 판단 방법 |
CN108269012A (zh) * | 2018-01-12 | 2018-07-10 | 中国平安人寿保险股份有限公司 | 风险评分模型的构建方法、装置、存储介质及终端 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
CN109242361A (zh) * | 2018-10-31 | 2019-01-18 | 深圳市中电数通智慧安全科技股份有限公司 | 一种消防风险评估方法、装置及终端设备 |
CN109635335A (zh) * | 2018-11-12 | 2019-04-16 | 平安科技(深圳)有限公司 | 驾驶风险预测方法、装置、计算机设备及存储介质 |
CN109670976A (zh) * | 2018-12-18 | 2019-04-23 | 泰康保险集团股份有限公司 | 特征因子确定方法及设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169212A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 风控模型构建方法、风控审核方法、装置及计算机设备 |
WO2021196843A1 (zh) * | 2020-03-31 | 2021-10-07 | 支付宝(杭州)信息技术有限公司 | 用于风险识别模型的衍生变量选择方法和装置 |
CN112330432A (zh) * | 2020-11-10 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 风险等级识别模型训练方法、识别方法、终端及存储介质 |
CN112330432B (zh) * | 2020-11-10 | 2024-03-15 | 中国平安人寿保险股份有限公司 | 风险等级识别模型训练方法、识别方法、终端及存储介质 |
CN112529477A (zh) * | 2020-12-29 | 2021-03-19 | 平安普惠企业管理有限公司 | 信用评估变量筛选方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110503566B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503566A (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN109035003A (zh) | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 | |
CN109919781A (zh) | 团伙欺诈案件识别方法、电子装置及计算机可读存储介质 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
CN108427669A (zh) | 异常行为监控方法和系统 | |
CN110162566A (zh) | 业务数据的关联分析方法、装置、计算机设备及存储介质 | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN108665270A (zh) | 数据欺诈识别方法、装置、计算机设备和存储介质 | |
CN107346515A (zh) | 一种信用卡账户分期预测方法及装置 | |
CN113553583A (zh) | 信息系统资产安全风险评估方法与装置 | |
CN110020939A (zh) | 建立违约损失率预测模型的装置、方法及存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN116630030A (zh) | 一种运营商与互联网行业信用评估方法与系统 | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
CN111428982A (zh) | 一种基于大数据的优质光伏客户评价和筛选方法 | |
CN106230624A (zh) | 一种网络质量评估方法及装置 | |
CN109598525B (zh) | 数据处理方法和装置 | |
CN112926991B (zh) | 一种套现团伙严重等级划分方法及系统 | |
CN115660822A (zh) | 用于金融业务的风控策略处理方法以及装置、电子设备、存储介质 | |
CN109670976B (zh) | 特征因子确定方法及设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113469696A (zh) | 一种用户异常度评估方法、装置及计算机可读存储介质 | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
CN110570301A (zh) | 风险识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |