CN108629506A - 风控模型的建模方法、装置、计算机设备和存储介质 - Google Patents

风控模型的建模方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108629506A
CN108629506A CN201810413752.9A CN201810413752A CN108629506A CN 108629506 A CN108629506 A CN 108629506A CN 201810413752 A CN201810413752 A CN 201810413752A CN 108629506 A CN108629506 A CN 108629506A
Authority
CN
China
Prior art keywords
variable
air control
control model
characteristic
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810413752.9A
Other languages
English (en)
Inventor
徐定坚
赖晓彬
刘奕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dingfeng Cattle Technology Co Ltd
Original Assignee
Shenzhen Dingfeng Cattle Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dingfeng Cattle Technology Co Ltd filed Critical Shenzhen Dingfeng Cattle Technology Co Ltd
Priority to CN201810413752.9A priority Critical patent/CN108629506A/zh
Publication of CN108629506A publication Critical patent/CN108629506A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种风控模型的建模方法、装置、计算机设备和存储介质,所述方法包括:获取用户数据的特征信息;利用所述特征信息建立初始风控模型,所述风控模型包括多个变量;对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子;将所述膨胀因子与第一阈值进行比较,当所述膨胀因子达到所述第一阈值时,将所述膨胀因子对应的变量标记为共线性变量;将一个或多个共线性变量从所述风控模型中剔除,得到最终的风控模型。采用本方法能够准确地剔除共线性变量以增加模型的稳定性。

Description

风控模型的建模方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种风控模型的建模方法、装置、计算机设备和存储介质。
背景技术
随着互联网以及大数据的快速发展,数据挖掘在挽留客户、客户营销和发现高价值客户中起着越来越重要的作用,可以从大量数据中挖掘出有价值的信息。利用用户的数据特征建立风险控制模型,并进行分析,进而可以利用风险控制模型对用户进行信用评估。在建模的过程中,很难在众多因素中找到互不相干又同时对目标变量有显著作用的变量,则会出现变量相关的情形。变量之间一般不是相互独立的,甚至变量之间会存在严重的多重共线性,多重共线性是指变量之间存在完全的线性关系或者近似的线性关系。一些冗余的共线性变量会引起模型过度拟合。因此通常需要消除共线性变量,以增强模型的稳定性。
传统的消除共线性的方法包括删除引发共线性的变量、增加样本容量和有偏估计方法。删除引发共线性的变量,是根据假设结果删除容易引发共线性的变量,但会导致模型估计产生偏倚。增加样本容量的方法简单易行,但拟合优度增加,原有参数估计值方差也增大,无法确诊共线性变量。传统的有偏估计方法包括领回归、主成分分析和片最小二乘估计,但这几种方法在剔除共线性变量时具有随机性,从而使得模型不够稳定。因此,如何准确地剔除共线性变量以增加模型的稳定性成为目前需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确地剔除共线性变量以增加模型的稳定性的风控模型的建模方法、装置、计算机设备和存储介质。
一种风控模型的建模方法,包括:
获取用户数据的特征信息;
利用所述特征信息建立初始风控模型,所述风控模型包括多个变量;
对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子;
将所述膨胀因子与第一阈值进行比较,当所述膨胀因子达到所述第一阈值时,将所述膨胀因子对应的变量标记为共线性变量;
将一个或多个共线性变量从所述风控模型中剔除,得到最终的风控模型。
在其中一个实施例中,所述获取用户数据的特征信息的步骤之前,还包括:
获取数据库中用户的注册数据和用户的历史数据;
根据用户的注册数据获取第三方平台的用户行为数据;
对所述注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;
获取预设关键字,利用预设关键字提取所述用户数据中的特征信息。
在其中一个实施例中,所述利用所述特征信息建立初始风控模型的步骤包括:
提取所述特征信息对应的特征变量;
对所述特征变量进行特征选择,得到用户最优特征变量;
利用所述用户最优特征变量建立初始风控模型。
在其中一个实施例中,所述对所述特征变量进行特征选择,得到用户最优特征变量的步骤包括:
获取用户数据的特征信息,提取所述特征信息对应的特征变量;
对所述特征变量进行聚类,得到多个聚类结果;
对所述多个聚类结果内的特征变量分别进行组合,得到多个特征组合,所述特征组合包括多个组合特征变量;
对多个组合特征变量进行相关性检验,检验通过时,对所述组合特征变量添加交互标签;
将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
在其中一个实施例中,所述将添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:
统计所述特征变量在所述添加交互标签后的组合特征变量中出现的频数;
计算所述频数对应的方差,利用所述方差与第二阈值进行比较;
当所述方差达到第二阈值时,将所述频数对应的特征变量记录为用户最优特征变量。
在其中一个实施例中,所述对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子的步骤包括:
利用所述风控模型中的多个变量建立线性回归模型;
根据所述线性回归模型对多个变量进行线性回归运算;
在所述线性回归运算中统计变量对应的膨胀因子。
一种风控模型建模装置,包括:
获取模块,用于获取用户数据的特征信息;
建模模块,用于利用所述特征信息建立初始风控模型,所述风控模型包括多个变量;
统计模块,用于对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子;将所述膨胀因子与第一阈值进行比较,当所述膨胀因子达到所述第一阈值时,将所述膨胀因子对应的变量标记为共线性变量;
所述建模模块,用于将一个或多个共线性变量从所述风控模型中剔除,得到最终的风控模型。
在其中一个实施例中,所述统计模块还用于利用所述风控模型中的多个变量建立线性回归模型;根据所述线性回归模型对多个变量进行线性回归运算;在所述线性回归运算中统计变量对应的膨胀因子。
上述风控模型的建模方法、装置、计算机设备和存储介质,获取用户数据的特征信息;利用特征信息建立初始风控模型,风控模型包括多个变量;通过对多个变量分别进行线性回归运算,统计变量对应的膨胀因子;将膨胀因子与第一阈值进行比较,当膨胀因子达到所述第一阈值时,将膨胀因子对应的变量标记为共线性变量,由此可以准确地识别出风控模型中的一个或多个共线性变量,从而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的风控模型,进而能够增加模型的稳定性。
附图说明
图1为一个实施例中风控模型的建模方法的应用场景图;
图2为一个实施例中风控模型的建模方法流程图;
图3为一个实施例中风控模型的建模装置的内部结构图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定申请。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
本申请实施例中提供的风控模型的建模方法可以应用于如图1所示的应用场景中。其中,网站服务器102,具有接入网络的功能,网站服务器102可以是用户注册网站对应的各个网站服务器,网站服务器102中有用户数据的特征信息。建模服务器104,可以是独立服务器,也可以是集群服务器,用于实现风控模型的建模方法。终端106,具有接入网络的功能,可以是智能手机、笔记本电脑、台式电脑等终端。网站服务器102通过网络与建模服务器104连接,建模服务器104可以通过网络爬虫技术从网站服务器102中获取用户数据的特征信息,建模服务器104通过网络与终端106连接。建模服务器104获取用户数据的特征信息后,利用特征信息建立初始风控模型,风控模型包括多个变量;通过对多个变量分别进行线性回归运算,统计变量对应的膨胀因子;将膨胀因子与第一阈值进行比较,当膨胀因子达到所述第一阈值时,将膨胀因子对应的变量标记为共线性变量,由此可以准确识别出风控模型中的一个或多个共线性变量,进而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的稳定性较高的风控模型。建模服务器104将建立好的风控模型发送至终端106,以使得工作人员可以通过终端106利用风控模型对用户的信用进行有效地评估。
在一个实施例中,如图2所示,提供了一种风控模型的建模方法,以该方法应用于建模服务器为例进行说明,该方法具体包括以下步骤:
步骤202,获取用户数据的特征信息。
在建立风控模型的过程中,数据挖掘尤为重要,需要获取用户在不同平台的数据信息,对数据信息中的数据特征进行选择,通过选择的特征可以判断出用户的消费、信用状况等,进而对用户的信用进行评估。
建模服务器通过获取数据库中用户的注册数据和用户的历史数据,其中,注册数据包括用户的个人月均收入、家庭月均收入、存款额、学历、从事行业、工作年限、单位类型中的一个或多个数据,历史数据包括用户的收支记录、贷款次数、贷款类型等数据。还可以通过网络爬虫技术从网站服务器中获取用户在第三方平台的数据信息,例如支付宝、京东、微信等平台的行为数据,行为数据包括身份匹配数据、收支数据、消费数据等。建模服务器获取这些用户数据后,对用户数据进行分析,得到用户数据的特征信息。
步骤204,利用特征信息建立初始风控模型,风控模型包括多个变量。
建模服务器得到用户数据的特征信息后,提取特征信息对应的特征变量。例如,可以从获取到的用户数据的特征信息提取出年龄、工资水平、消费水平、存款额、学历、职业、地区、家庭负担等特征变量。通过对特征变量进行特征选择得到用户最优特征变量,利用选择出的最优特征变量建立初始的风控模型。风控模型中包括自变量和因变量,其中,自变量可以是最优特征变量,因变量可以根据需求自定义,由多个自变量的最优组合共同来预测或估计因变量。
步骤206,对多个变量分别进行线性回归运算,统计变量对应的膨胀因子。
建立初始风控模型后,由于各个自变量的单位可能不一样,例如一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等自变量的因素都会影响消费水平。而这些自变量的单位不同,因此需要对各个自变量进行统一单位,将所有的自变量和因变量都转化为标准分,再进行线性回归,得到的回归系数就能反映对应自变量的重要程度。在线性回归模型中可能会存在多重共线性,多重共线性是指自变量之间存在完全的线性关系或者近似的线性关系。
膨胀因子可以是方差膨胀因子(Variance Inflation Factor,VIF),方差膨胀因子是指自变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。对风控模型中的多个自变量分别进行线性回归运算时,统计出变量对应的方差膨胀因子。
步骤208,将膨胀因子与第一阈值进行比较,当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量。
建模服务器对多个变量分别进行线性回归运算时,通过检验每个自变量能够被回归方程中其它全部自变量所解释的程度来检测多重共线性。统计出变量对应的方差膨胀因子后,将膨胀因子与第一阈值进行比较,当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量。由此可以准确识别出风控模型中的一个或多个共线性变量,进而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的稳定性较高的风控模型。
其中,第一阈值可以为10。根据经验判断方法可得到:当0<VIF<10时,不存在多重共线性;当10≤VIF<100时,存在较强的多重共线性;当VIF≥100时,存在严重多重共线性。因此,当膨胀因子值大于等于10时,则该膨胀因子值对应的变量为共线性变量,当膨胀因子值大于等于10时,将膨胀因子对应的变量标记为共线性变量。
步骤210,将一个或多个共线性变量从风控模型中剔除,得到最终的风控模型。
在对多个变量分别进行线性回归运算的过程中,统计变量对应的膨胀因子。当膨胀因子值达到第一阈值时,将膨胀因子对应的变量标记为共线性变量,逐个将标记出的共线性变量从风控模型中剔除。继续对风控模型中的变量进行线性回归运算,统计变量对应的膨胀因子,直到所有变量的膨胀因子值小于第一阈值。由此可以准确识别出风控模型中的一个或多个共线性变量,进而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的稳定性较高的风控模型。
进一步地举例说明,例如风控模型中的因变量为信用评估等级,自变量为从用户数据的特征信息提取出年龄、工资水平、消费水平、存款额、学历、职业、地区、家庭负担等变量。其中一个消费水平的关系式中,工资水平、学历、职业、地区、家庭负担等变量都会影响到消费水平,学历、职业、地区、等变量也会影响工资水平,因此消费水平和工资水平之间具有相关性,通过在风控模型中对多个变量分别进行线性回归运算,统计变量对应的膨胀因子。当膨胀因子值达到第一阈值时,将膨胀因子对应的变量标记为共线性变量,将一个或多个共线性变量从风控模型中剔除后,得到最终的风控模型,由此可以准确地剔除共线性变量进而得到稳定性较高的风控模型,进而使得工作人员能够利用风控模型对用户的信用进行准确评估。
本实施例中,建模服务器获取用户数据的特征信息后,利用特征信息建立初始风控模型,风控模型中包括多个变量。通过对多个变量分别进行线性回归运算,统计变量对应的膨胀因子。将膨胀因子与第一阈值进行比较,当膨胀因子达到所述第一阈值时,将该膨胀因子值对应的变量标记为共线性变量,由此可以准确地识别出风控模型中的一个或多个共线性变量,从而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的风控模型,进而能够增加风控模型的稳定性。
在一个实施例中,获取用户数据的特征信息的步骤之前,还包括:获取数据库中用户的注册数据和用户的历史数据;根据用户的注册数据获取第三方平台的用户行为数据;对注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;获取预设关键字,利用预设关键字提取用户数据中的特征信息。
在建立风险控制模型中的过程中,数据挖掘尤为重要,需要获取用户在不同平台的数据信息,进而对用户的信用进行评估。建模服务器获取数据库中用户的注册数据和用户的历史数据,其中,注册数据包括用户的基本信息数据,历史数据包括用户的收支数据。还可以根据用户的注册数据获取用户在第三方平台的数据,例如支付宝、京东、微信等平台的行为数据,行为数据包括身份匹配数据、用户行为数据、收支数据、消费数据等。
建模服务器将获取到的数据进行分析,去除重复的数据,得到分析后的用户数据。在提取用户数据的特征信息前,可以预先设置关键词,例如“性别”、“年龄”、“学历”、“婚姻状况”、“房产状况”、“工作状况”等。建模服务器获取预设关键字,利用预设关键字提取用户数据中的特征信息,进而提取出特征信息对应的特征变量后,对特征变量进行特征选择。通过获取各个平台的用户数据的特征信息,可以提高特征的数量和质量,使得选择的特征更加准确有效,进而提高了特征选择的准确性。通过挖掘有价值的用户数据,可以发现高价值的用户数据特征,有利于挽留客户和进行有效地客户管理。
在一个实施例中,利用特征信息建立初始风控模型的步骤包括:提取特征信息对应的特征变量;对特征变量进行特征选择,得到用户最优特征变量;利用用户最优特征变量建立初始风控模型。
建模服务器获取用户数据的特征信息,对获取到的用户数据的特征信息进行分析,去除重复的特征信息,得到分析后的特征信息。利用预设关键字提取用户数据中的特征信息,进而提取出特征信息对应的特征变量。提取特征信息对应的特征变量后,对提取出的特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验,检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。利用从特征变量中选择出的用户最优特征变量建立初始风控模型。通过对特征变量进行特征选择,能够提高原始特征维度,进而能够提高初始风控模型的预测精度。
在一个实施例中,对特征变量进行特征选择,得到用户最优特征变量的步骤包括:获取用户数据的特征信息,提取特征信息对应的特征变量;对特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验,检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
建模服务器获取用户数据的特征信息,提取特征信息对应的特征变量后,对特征变量进行聚类,具体地,可以采用k-means(k-均值算法)聚类的方法,其中,k的值可以是2。通过对特征变量进行多次聚类后得到多个聚类结果。首先从特征变量中任意选择两个变量作为初始聚类中心点,计算出每个特征变量与聚类中心点之间的相似度,相似度也可以代表每个特征变量与聚类中心点之间的距离,可以采用均方差函数进行计算。根据每个特征变量与聚类中心点的相似度,分别将特征变量分配到与聚类中心点最相似的聚类中,得到多个聚类结果。
对多个聚类结果内的特征变量分别进行组合,具体地,可以采用两两组合的方式进行组合,得到多个特征组合,每个特征组合包括多个特征变量。建模服务器获取目标变量,目标变量可以是预先设置的变量,在风险控制模型中,可以预先设置经过分析后的特征变量作为目标变量。具体地,可以采用卡方检验的方式进行相关性检验,通过计算出组合特征变量与目标变量的卡方分布,统计出组合特征变量的实际观测值与目标变量的理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度得到卡方值,将组合特征变量的卡方值转换为P-value值,从而能够得到特征变量与目标变量之间的相关性。建模服务器获取预设的假定阈值,假定阈值可以是0.05,将得到的P-value值与假定阈值进行比较,如果P-value值小于假定阈值时,则表明组合特征变量有交互效应,则记录该组合特征变量通过检验。检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,通过利用解析得到的特征变量生成用户最优特征变量,可以使得选择的特征更加准确有效,从而能够选择出相关性较高且准确的用户最优特征变量,进而提高了特征选择的准确性。
在一个实施例中,将添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:统计特征变量在添加交互标签后的组合特征变量中出现的频数;计算频数对应的方差,利用方差与第二阈值进行比较;当方差达到第二阈值时,将频数对应的特征变量记录为用户最优特征变量。
建模服务器获取用户数据的特征信息,提取特征信息对应的特征变量后,对特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验。当组合特征变量通过检验时,建模服务器对该组合特征变量添加交互标签,同时可删除未通过检验的组合变量。建模服务器利用添加了交互标签后的组合特征变量解析对应的特征变量,具体地,建模服务器通过计算每个特征变量在添加交互标签后的组合特征变量中出现的频数,计算频数的二阶方差,将计算出的二阶方差的结果与第二阈值进行比较,当该结果达到第二阈值时,将该频数对应的特征变量记录为用户最优特征变量,由此可以使得选择的特征更加准确有效,进而提高了特征选择的准确性。
在一个实施例中,对多个变量分别进行线性回归运算,统计变量对应的膨胀因子的步骤包括:利用风控模型中的多个变量建立线性回归模型;根据线性回归模型对多个变量进行线性回归运算;在线性回归运算中统计变量对应的膨胀因子。
建模服务器获取用户数据的特征信息,利用特征信息建立初始风控模型,风控模型包括多个变量,其中变量包括因变量和自变量,自变量可以为选择出的用户最优特征变量。建立初始风控模型后,对多个变量分别进行线性回归运算。具体地,利用风控模型中的多个变量建立线性回归模型,根据线性回归模型对多个变量进行线性回归运算。线性回归运算中每个自变量有对应的膨胀因子值,膨胀因子值可以是方差膨胀因子值(VarianceInflation Factor,VIF),VIF值是关于多重共线性使相应的系数估计值的方差增大了多少的一个估计值。
具体地,可以设原线性方程为:
Y=β12X23X3+...+βkXk+ui
其中,Y表示因变量,k为自变量的数量,Xk表示第k个变量的VIF值,βi为回归系数,ui为随机变量。
自变量Xi的估计参数βi的方差可表示为:
其中VIFj是变量Xj的方差扩大因子,Ri 2是对多个自变量做辅助回归的决定系数。
VIF值则为第i个回归系数的方差与自变量不相关时第i个回归系数的方差之比,其公式可表示为:
其中Rj2是自变量Xj对模型中其余自变量线性回归模型的拟合优度。
统计出变量对应的方差膨胀因子后,将膨胀因子与第一阈值进行比较,第一阈值可以为10。根据经验判断方法可得到:当0<VIF<10时,不存在多重共线性;当10≤VIF<100时,存在较强的多重共线性;当VIF≥100时,存在严重多重共线性。通过检验每个自变量能够被回归方程中其它全部自变量所解释的程度来检测多重共线性。当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量,逐个将标记出的共线性变量从风控模型中剔除。继续对风控模型中的变量进行线性回归运算,统计变量对应的膨胀因子,直到所有变量的膨胀因子值小于第一阈值。由此可以准确识别出风控模型中的一个或多个共线性变量,进而能够准确无误地从风控模型中将相应的共线性变量剔除,得到最终的稳定性较高的风控模型。
在一个实施例中,如图3所示,提供了一种风控模型的建模装置,该装置包括:获取模块302、建模模块304和统计模块306,其中:
获取模块302,用于获取用户数据的特征信息。
建模模块304,用于利用特征信息建立初始风控模型,风控模型包括多个变量。
统计模块306,用于对多个变量分别进行线性回归运算,统计变量对应的膨胀因子;将膨胀因子与第一阈值进行比较,当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量。
获取模块302,还用于将一个或多个共线性变量从风控模型中剔除,得到最终的风控模型。
在一个实施例中,获取模块302还用于获取数据库中用户的注册数据和用户的历史数据;根据用户的注册数据获取第三方平台的用户行为数据;对注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;获取预设关键字,利用预设关键字提取用户数据中的特征信息。
在一个实施例中,建模模块304还用于提取特征信息对应的特征变量;对特征变量进行特征选择,得到用户最优特征变量;利用用户最优特征变量建立初始风控模型。
在一个实施例中,建模模块304还用于获取用户数据的特征信息,提取特征信息对应的特征变量;对特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验,检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
在一个实施例中,建模模块304还用于统计特征变量在添加交互标签后的组合特征变量中出现的频数;计算频数对应的方差,利用方差与第二阈值进行比较;当方差达到第二阈值时,将频数对应的特征变量记录为用户最优特征变量。
在一个实施例中,建模模块304还用于利用风控模型中的多个变量建立线性回归模型;根据线性回归模型对多个变量进行线性回归运算;在线性回归运算中统计变量对应的膨胀因子。
在一个实施例中,如图4所示,提供了一种计算机设备的内部结构示意图。例如,该计算机设备可以是一种建模服务器,建模服务器可以是独立服务器,也可以是集群服务器。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有数据库、操作系统和计算机程序,数据库中可存储用户数据、特征信息和特征变量等信息。该计算机设备的处理器用于提供计算和控制能力,支撑整个服务器的运行。该计算机程序被处理执行时,可使得处理器实现一种风控模型的建模方法。该计算机设备的处理器被配置为执行一种风控模型的建模方法。内存储器为非易失性存储介质中的计算机程序的运行提供环境。该计算机设备的网络接口用于据以接入网络与外部的终端通过网络连接通信,比如获取终端的用户数据等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是建模服务器。该计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,可使得处理器执行如下步骤:获取用户数据的特征信息;利用特征信息建立初始风控模型,风控模型包括多个变量;对多个变量分别进行线性回归运算,统计变量对应的膨胀因子;将膨胀因子与第一阈值进行比较,当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量;将一个或多个共线性变量从风控模型中剔除,得到最终的风控模型。
在其中一个实施例中,获取用户数据的特征信息的步骤之前,还包括:获取数据库中用户的注册数据和用户的历史数据;根据用户的注册数据获取第三方平台的用户行为数据;对注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;获取预设关键字,利用预设关键字提取用户数据中的特征信息。
在其中一个实施例中,利用特征信息建立初始风控模型的步骤包括:提取特征信息对应的特征变量;对特征变量进行特征选择,得到用户最优特征变量;利用用户最优特征变量建立初始风控模型。
在其中一个实施例中,对特征变量进行特征选择,得到用户最优特征变量的步骤包括:获取用户数据的特征信息,提取特征信息对应的特征变量;对特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验,检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
在其中一个实施例中,将添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:统计特征变量在添加交互标签后的组合特征变量中出现的频数;计算频数对应的方差,利用方差与第二阈值进行比较;当方差达到第二阈值时,将频数对应的特征变量记录为用户最优特征变量。
在其中一个实施例中,对多个变量分别进行线性回归运算,统计变量对应的膨胀因子的步骤包括:利用风控模型中的多个变量建立线性回归模型;根据线性回归模型对多个变量进行线性回归运算;在线性回归运算中统计变量对应的膨胀因子。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,可使得处理器执行如下步骤:获取用户数据的特征信息;利用特征信息建立初始风控模型,风控模型包括多个变量;对多个变量分别进行线性回归运算,统计变量对应的膨胀因子;将膨胀因子与第一阈值进行比较,当膨胀因子达到第一阈值时,将膨胀因子对应的变量标记为共线性变量;将一个或多个共线性变量从风控模型中剔除,得到最终的风控模型。
在其中一个实施例中,获取用户数据的特征信息的步骤之前,还包括:获取数据库中用户的注册数据和用户的历史数据;根据用户的注册数据获取第三方平台的用户行为数据;对注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;获取预设关键字,利用预设关键字提取用户数据中的特征信息。
在其中一个实施例中,利用特征信息建立初始风控模型的步骤包括:提取特征信息对应的特征变量;对特征变量进行特征选择,得到用户最优特征变量;利用用户最优特征变量建立初始风控模型。
在其中一个实施例中,对特征变量进行特征选择,得到用户最优特征变量的步骤包括:获取用户数据的特征信息,提取特征信息对应的特征变量;对特征变量进行聚类,得到多个聚类结果;对多个聚类结果内的特征变量分别进行组合,得到多个特征组合,特征组合包括多个组合特征变量;对多个组合特征变量进行相关性检验,检验通过时,对组合特征变量添加交互标签;将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
在其中一个实施例中,将添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:统计特征变量在添加交互标签后的组合特征变量中出现的频数;计算频数对应的方差,利用方差与第二阈值进行比较;当方差达到第二阈值时,将频数对应的特征变量记录为用户最优特征变量。
在其中一个实施例中,对多个变量分别进行线性回归运算,统计变量对应的膨胀因子的步骤包括:利用风控模型中的多个变量建立线性回归模型;根据线性回归模型对多个变量进行线性回归运算;在线性回归运算中统计变量对应的膨胀因子。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种风控模型的建模方法,包括:
获取用户数据的特征信息;
利用所述特征信息建立初始风控模型,所述风控模型包括多个变量;
对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子;
将所述膨胀因子与第一阈值进行比较,当所述膨胀因子达到所述第一阈值时,将所述膨胀因子对应的变量标记为共线性变量;
将一个或多个共线性变量从所述风控模型中剔除,得到最终的风控模型。
2.根据权利要求1所述的方法,其特征在于,所述获取用户数据的特征信息的步骤之前,还包括:
获取数据库中用户的注册数据和用户的历史数据;
根据用户的注册数据获取第三方平台的用户行为数据;
对所述注册数据、历史数据和行为数据进行分析,得到分析后的用户数据;
获取预设关键字,利用预设关键字提取所述用户数据中的特征信息。
3.根据权利要求1所述的方法,其特征在于,所述利用所述特征信息建立初始风控模型的步骤包括:
提取所述特征信息对应的特征变量;
对所述特征变量进行特征选择,得到用户最优特征变量;
利用所述用户最优特征变量建立初始风控模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述特征变量进行特征选择,得到用户最优特征变量的步骤包括:
获取用户数据的特征信息,提取所述特征信息对应的特征变量;
对所述特征变量进行聚类,得到多个聚类结果;
对所述多个聚类结果内的特征变量分别进行组合,得到多个特征组合,所述特征组合包括多个组合特征变量;
对多个组合特征变量进行相关性检验,检验通过时,对所述组合特征变量添加交互标签;
将添加交互标签后的组合特征变量解析对应的特征变量,利用解析得到的特征变量生成用户最优特征变量。
5.根据权利要求4所述的方法,其特征在于,所述将添加交互标签后的组合特征变量解析对应的特征变量的步骤包括:
统计所述特征变量在所述添加交互标签后的组合特征变量中出现的频数;
计算所述频数对应的方差,利用所述方差与第二阈值进行比较;
当所述方差达到第二阈值时,将所述频数对应的特征变量记录为用户最优特征变量。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子的步骤包括:
利用所述风控模型中的多个变量建立线性回归模型;
根据所述线性回归模型对多个变量进行线性回归运算;
在所述线性回归运算中统计变量对应的膨胀因子。
7.一种风控模型建模装置,包括:
获取模块,用于获取用户数据的特征信息;
建模模块,用于利用所述特征信息建立初始风控模型,所述风控模型包括多个变量;
统计模块,用于对多个变量分别进行线性回归运算,统计所述变量对应的膨胀因子;将所述膨胀因子与第一阈值进行比较,当所述膨胀因子达到所述第一阈值时,将所述膨胀因子对应的变量标记为共线性变量;
所述建模模块,用于将一个或多个共线性变量从所述风控模型中剔除,得到最终的风控模型。
8.根据权利要求7所述的装置,其特征在于,所述统计模块还用于利用所述风控模型中的多个变量建立线性回归模型;根据所述线性回归模型对多个变量进行线性回归运算;在所述线性回归运算中统计变量对应的膨胀因子。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述理器执行所述程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN201810413752.9A 2018-05-03 2018-05-03 风控模型的建模方法、装置、计算机设备和存储介质 Withdrawn CN108629506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810413752.9A CN108629506A (zh) 2018-05-03 2018-05-03 风控模型的建模方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810413752.9A CN108629506A (zh) 2018-05-03 2018-05-03 风控模型的建模方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN108629506A true CN108629506A (zh) 2018-10-09

Family

ID=63695349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810413752.9A Withdrawn CN108629506A (zh) 2018-05-03 2018-05-03 风控模型的建模方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108629506A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741098A (zh) * 2018-12-27 2019-05-10 中国联合网络通信集团有限公司 宽带离网预测方法、设备及存储介质
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741098A (zh) * 2018-12-27 2019-05-10 中国联合网络通信集团有限公司 宽带离网预测方法、设备及存储介质
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统

Similar Documents

Publication Publication Date Title
CN107633265B (zh) 用于优化信用评估模型的数据处理方法及装置
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
US20230336637A1 (en) Method and apparatus for moderating abnormal users, electronic device, and storage medium
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108022146A (zh) 征信数据的特征项处理方法、装置、计算机设备
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN107798615A (zh) 保单续期收费难度预测方法和装置
CN110737641A (zh) 一种信审模型的构建方法,装置及系统
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN108629506A (zh) 风控模型的建模方法、装置、计算机设备和存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
Yan et al. An integrated method based on hesitant fuzzy theory and RFM model to insurance customers’ segmentation and lifetime value determination
CN114219003A (zh) 样本生成模型的训练方法、装置及电子设备
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
CN111428092B (zh) 基于图模型的银行精准营销方法
CN106651630B (zh) 关键用电行业识别方法和系统
CN116743474A (zh) 决策树生成方法、装置、电子设备及存储介质
CN115641198A (zh) 用户运营方法、装置、电子设备和存储介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN107977413A (zh) 用户数据的特征选择方法、装置、计算机设备和存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN112308466A (zh) 企业资质审核方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181009

WW01 Invention patent application withdrawn after publication