发明内容
鉴于上述问题,本发明提供了一种基于关联规则的企业信用风险评估方法和装置。
为解决上述技术问题,本发明采用的技术方案是:一种基于关联规则的企业信用风险评估方法,包括如下步骤:获取已用信企业的第一用户信息,所述第一用户信息包括统一信用代码和历史贷款记录;将所述已用信企业的统一信用代码进行分解,获得多个信息元;将所述多个信息元任意组合,生成对应规则;计算符合所述规则的已用信企业的支持度、置信度和提升度;根据预设的置信度和贷款积阈值,从所述规则中选取强规则集合,所述贷款积为支持度与所有贷款数的乘积;收集未用信企业的第二用户信息,所述第二用户信息包括统一信用代码和联系方式;分解所述未用信企业的统一信用代码,按照所述强规则集合的标记阈值,从所述未用信企业中筛选出初选名单;根据所述联系方式,向所述初选名单中的未用信企业发送授信通知;接收未用信企业的授信请求,获取其信用特征数据;将所述信用特征数据输入至预先构建的风险评估模型中,输出所述未用信企业的评估分数。
作为优选方案,将所述已用信企业的统一信用代码进行分解,获得多个信息元,包括:将所述统一信用代码分解为4大信息元,分别为登记管理部门代码、机构类别代码、登记管理机关行政区划码和主体标识码。
作为优选方案,所述置信度阈值为置信度≥0.7,所述贷款积阈值为贷款积≥100。
作为优选方案,所述信用特征数据包括财务情况、工商数据、司法数据、舆情数据、融资数据。
作为优选方案,所述风险评估模型的构建,包括:获取信用特征数据,对所述信用特征数据进行预处理;将所述预处理后的信用特征数据与行业标准值进行比较,获得特征分值;对各信用特征数据的特征分值赋以权值,计算获得评估分数。
作为优选方案,所述预处理包括缺失值处理、异常值处理。
作为优选方案,所述行业标准值为同一行业下所有企业信用特征数据的平均值,则所述特征分值e为:
本发明还提供了一种基于关联规则的企业信用风险评估装置,包括:第一获取模块,用于获取已用信企业的第一用户信息,所述第一用户信息包括统一信用代码和历史贷款记录;分解模块,用于将所述已用信企业的统一信用代码进行分解,获得多个信息元;组合模块,用于将所述多个信息元任意组合,生成对应规则;计算模块,用于计算符合所述规则的已用信企业的支持度、置信度和提升度;强规则模块,用于根据预设的置信度和贷款积阈值,从所述规则中选取强规则集合,所述贷款积为支持度与所有贷款数的乘积;第二获取模块,用于收集未用信企业的第二用户信息,所述第二用户信息包括统一信用代码和联系方式;初选模块,用于分解所述未用信企业的统一信用代码,按照所述强规则集合的标记阈值,从所述未用信企业中筛选出初选名单;授信通知模块,用于根据所述联系方式,向所述初选名单中的未用信企业发送授信通知;第三获取模块,用于接收未用信企业的授信请求,获取其信用特征数据;输出模块,用于将所述信用特征数据输入至预先构建的风险评估模型中,输出所述未用信企业的评估分数。
与现有技术相比,本发明的有益效果包括:通过对统一信用代码分解,并组合成对应规则,计算对应规则下的已用信企业的支持度、置信度和提升度,根据预设阈值筛选出强规则集合,再将强规则集合应用于未用信企业,从中筛选出初选名单,对初选名单上的企业进行评估。在获取到企业详细资料之前,在海量的企业中筛选出初选名单,重点对初选名单上的企业进行评估,降低了业务人员获取企业资料的工作量,拓展了客户群体。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
根据本发明的一实施方式结合图1示出。一种基于关联规则的企业信用风险评估方法,包括如下步骤:
S101,获取已用信企业的第一用户信息,第一用户信息包括统一信用代码和历史贷款记录。
S102,将已用信企业的统一信用代码进行分解,获得多个信息元。
参见图2,将已用信企业的统一信用代码进行分解,获得多个信息元,包括:将统一信用代码分解为4大信息元,分别为登记管理部门代码、机构类别代码、登记管理机关行政区划码和主体标识码。
S103,将多个信息元任意组合,生成对应规则。例如,将机构类别代码和登记管理机关行政区划码组合后,即形成一规则。
S104,计算符合规则的已用信企业的支持度、置信度和提升度。
应理解,支持度、置信度和提升度的计算公式如下:
上式中,supp(X)为支持度,t为与条件X对应的贷款数,T为所有贷款数;
上式中,
为置信度,
为同时包含条件X和Y的贷款数,
为包含条件X的贷款数;
上式中,
为提升度,
为同时包含条件X和Y的贷款数,
为包含条件X的贷款数,
为包含条件Y的贷款数。
本发明实施例中,上述历史贷款记录包括正常贷款数、逾期贷款数。假设所有企业的贷款总数为300个,其中正常贷款数为260个,逾期贷款数为40个,其中某企业的贷款数为6个,正常贷款数为5个,逾期贷款数为1个,则该企业的支持度、置信度和提升度分别为:
支持度=5/300=0.016;
置信度=(5-1)/5=0.8;
提升度=0.8/(260/300)=0.92。
详细的,提升度是满足某条规则的企业群体的逾期率和所有企业的逾期率的比值。若提升度大于1,说明满足这条规则的企业群体的逾期率比所有企业高;若提升度小于1,说明满足这条规则的企业群体的逾期率比所有企业低。若提升度远大于1,说明这条规则可以识别逾期的劣质企业群体;若提升度远小于1,说明这条规则可以识别优质企业群体。提升度的阈值根据业务所能承受的风险大小来决定。
S105,根据预设的置信度和贷款积阈值,从规则中选取强规则集合,贷款积为支持度与所有贷款数的乘积。例如:规则总数为M个,其中符合置信度和贷款积阈值的规则数量为N个,则该N个规则为强规则。
本发明实施例中,置信度阈值为置信度≥0.7,贷款积阈值为贷款积≥100。
S106,收集未用信企业的第二用户信息,第二用户信息包括统一信用代码和联系方式。
S107,分解未用信企业的统一信用代码,按照强规则集合的标记阈值,从未用信企业中筛选出初选名单。
本发明实施例中,强规则集合的标记阈值为至少同时符合5个强规则。
S108,根据联系方式,向初选名单中的未用信企业发送授信通知。采用短信、邮箱或电话方式通知企业。
S109,接收未用信企业的授信请求,获取其信用特征数据。信用特征数据包括财务情况、工商数据、司法数据、舆情数据、融资数据。
S110,将信用特征数据输入至预先构建的风险评估模型中,输出未用信企业的评估分数。
其中,上述风险评估模型的构建,包括如下步骤:
(1)获取信用特征数据,对信用特征数据进行预处理。
本实施例中,预处理包括缺失值处理、异常值处理。处理缺失值的方法是平均值填充,例如,在连续年度财务数据中空缺某一月份数据,则采用该空缺前后月份的数据平均值替代。利用散点图探测异常值,若某点在散点图趋势线上下区间范围之外,则判定为异常值,将其删除。
(2)将预处理后的信用特征数据与行业标准值进行比较,获得特征分值。
该行业标准值为同一行业下所有企业信用特征数据的平均值,则特征分值e为:
(2)对各信用特征数据的特征分值赋以权值,计算获得评估分数。评估分数越低说明该企业的信用质量越差,当低于设定阈值时,拒绝企业的贷款申请。
设评估分数为M,则
上式中,
为第i个信用特征数据的权值,
为第i个信用特征数据的特征分值,n
为信用特征数据的个数。
参见图3,本发明还提供了一种基于关联规则的企业信用风险评估装置,包括:
第一获取模101,用于获取已用信企业的第一用户信息,第一用户信息包括统一信用代码和历史贷款记录。
分解模块102,用于将已用信企业的统一信用代码进行分解,获得多个信息元。
组合模块103,用于将多个信息元任意组合,生成对应规则。
计算模块104,用于计算符合规则的已用信企业的支持度、置信度和提升度。
强规则模块105,用于根据预设的置信度和贷款积阈值,从规则中选取强规则集合,贷款积为支持度与所有贷款数的乘积。
第二获取模块106,用于收集未用信企业的第二用户信息,第二用户信息包括统一信用代码和联系方式。
初选模块107,用于分解未用信企业的统一信用代码,按照强规则集合的标记阈值,从未用信企业中筛选出初选名单。
授信通知模块108,用于根据联系方式,向初选名单中的未用信企业发送授信通知。
第三获取模块109,用于接收未用信企业的授信请求,获取其信用特征数据。
输出模块110,用于将信用特征数据输入至预先构建的风险评估模型中,输出未用信企业的评估分数。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本发明的有益效果包括:通过对统一信用代码分解,并组合成对应规则,计算对应规则下的已用信企业的支持度、置信度和提升度,根据预设阈值筛选出强规则集合,再将强规则集合应用于未用信企业,从中筛选出初选名单,对初选名单上的企业进行评估。在获取到企业详细资料之前,在海量的企业中筛选出初选名单,重点对初选名单上的企业进行评估,降低了业务人员获取企业资料的工作量,拓展了客户群体。
应理解,所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。