CN115205026A - 信用评估方法、装置、设备及计算机存储介质 - Google Patents

信用评估方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN115205026A
CN115205026A CN202210833959.8A CN202210833959A CN115205026A CN 115205026 A CN115205026 A CN 115205026A CN 202210833959 A CN202210833959 A CN 202210833959A CN 115205026 A CN115205026 A CN 115205026A
Authority
CN
China
Prior art keywords
information
features
credit
feature
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210833959.8A
Other languages
English (en)
Inventor
江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202210833959.8A priority Critical patent/CN115205026A/zh
Publication of CN115205026A publication Critical patent/CN115205026A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请公开了一种信用评估方法、装置、设备及计算机存储介质,获取目标对象的特征信息,其中目标对象为待评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息,剔除特征信息中的无效特征,得到第一特征,确定无效特征中符合专家经验的第二特征,将第一特征和第二特征进行组合,得到目标对象的目标特征,将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格。根据本申请实施例,对待评估企业的关键信息进行分析,提炼其中的统计显著性高的特征,基于目标特征利用模型对企业进行信用评估,提高了风险企业的排除效率和准确率,从而有效减少信贷损失。

Description

信用评估方法、装置、设备及计算机存储介质
技术领域
本申请属于信用评估领域,尤其涉及一种信用评估方法、装置、设备及计算机存储介质。
背景技术
随着信贷机构(例如商业银行等)中企业线上业务的快速发展,“互联网+信贷”的产品模式给予企业客户更好更快的贷款体验,但同时也给了欺诈分子可乘之机。经过审计检查和调研发现,目前信贷业务中存在第三方协助客户注册公司、代理办理贷款、提供资金等通过恶意手段帮助客户获取贷款的情况。因此,提高反欺诈风险防控能力,防范外部欺诈已经成为信贷机构风险防控的重要组成部分。
为了降低信贷机构由于恶意欺诈导致的信贷损失,针对企业客户需要进行信用评估,其中企业客户包括小微企业和大中型企业。目前常用的信用评估方式主要为基于专家规则和黑名单的信用评估方式。基于专家规则和黑名单的信用评估方式主要是基于行内的专家经验进行的,其核心是由一系列根据专家经验设置的欺诈识别规则组成的规则库,每个规则给予一定的评分,当企业客户触发规则的总评分达到设定的阈值时,就认为该企业信用不合格。
但是上述方式维护成本较高,并且由于不同专家选择的特征和确定的特征权重具有较大的主观性,因此还存在评估结果准确率低等问题。
发明内容
本申请实施例提供一种信用评估方法、装置、设备及计算机存储介质,能够利用模型对企业进行信用评估,提高了风险企业的排除效率和准确率,从而有效减少信贷损失。
第一方面,本申请实施例提供一种信用评估方法,包括:
获取目标对象的特征信息,目标对象为待进行信用评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息;
剔除特征信息中的无效特征,得到第一特征;
确定无效特征中符合专家经验的第二特征;
将第一特征和第二特征进行组合,得到目标对象的目标特征;
将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格,其中,信用评估模型为使用多组训练数据通过机器学习训练得出的,多组训练数据包括第一类训练数据和第二类训练数据,第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
作为一种可能的实现方式,剔除特征信息中的无效特征,得到第一特征,包括:
剔除所述特征信息中稳定性大于第一阈值的无效特征、信息量小于第二阈值的无效特征、单变量分析的分析结果不满足预设条件的无效特征和多变量分析的分析结果不满足预设条件的无效特征,得到第一特征。
作为一种可能的实现方式,剔除特征信息中单变量分析的分析结果不满足预设条件的无效特征,包括:
剔除特征信息中业务含义与经验不符的无效特征。
作为一种可能的实现方式,剔除特征信息中多变量分析的分析结果不符合预设条件的无效特征,包括:
确定特征信息中的相关特征,相关特征为与其他特征之间存在相关性的特征;
将相关特征中除了需要保留的特征之外的其他特征作为无效特征进行剔除。
作为一种可能的实现方式,剔除特征信息中的无效特征之前,方法还包括:
对特征信息进行聚合衍生,得到衍生信息;
将特征信息和所述衍生信息组合,得到原始特征信息;
剔除所述特征信息中的无效特征,包括:
剔除原始特征信息中的无效特征。
作为一种可能的实现方式,对所述特征信息进行聚合衍生,得到衍生信息,包括:
对企业人员的基本信息中的连续属性信息采用第一衍生算法进行聚合衍生,得到第一衍生信息,其中,第一衍生算法包括下述算法中的一种或多种:求和算法、极大值算法、极小值算法、平均值算法、数量算法或中位数算法;
对企业人员的基本信息中的离散属性信息采用第二衍生算法进行聚合衍生,得到第二衍生信息,其中,第二衍生算法包括下述算法中的一种或多种:众数算法或属性类别数量算法;
将第一衍生信息和第二衍生信息进行组合,得到衍生信息。
作为一种可能的实现方式,剔除所述特征信息中的无效特征之前,方法还包括:
对特征信息进行数据预处理,其中,数据预处理包括缺失值处理、重复值处理、异常值处理和/或错误值处理。
第二方面,本申请实施例提供了一种信用评估装置,包括:
获取单元,用于获取目标对象的特征信息,目标对象为待进行信用评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息;
剔除单元,用于剔除特征信息中的无效特征,得到第一特征;
回选单元,用于确定无效特征中符合专家经验的第二特征;
组合单元,用于将第一特征和第二特征进行组合,得到目标对象的目标特征;
模型单元,用于将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格,其中,信用评估模型为使用多组训练数据通过机器学习训练得出的,多组训练数据包括第一类训练数据和第二类训练数据,第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
第三方面,本申请实施例提供了一种信用评估设备,设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如第一方面任意一项所述的信用评估方法。
第四方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面任意一项所述的信用评估方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行如第一方面任意一项所述的信用评估方法。
本申请实施例的一种信用评估方法、装置、设备及计算机存储介质,获取目标对象的特征信息,其中目标对象为待评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息,剔除特征信息中的无效特征,得到第一特征,确定无效特征中符合专家经验的第二特征,将第一特征和第二特征进行组合,得到目标对象的目标特征,将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格。本申请对待评估企业的关键信息进行分析,提炼其中的统计显著性高的特征,基于目标特征利用模型对企业进行信用评估,提高了风险企业的排除效率和准确率,从而有效减少信贷损失。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的信用评估方法的流程示意图;
图2是本申请一个实施例提供的随机森林模型的ROC曲线示意图;
图3是本申请一个实施例提供的LightGBM模型的ROC曲线示意图;
图4是本申请另一个实施例提供的信用评估装置的结构示意图;
图5是本申请又一个实施例提供的信用评估设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前对贷款对象进行信用评估的方式除了基于专家规则和黑名单的评估方式之外,还有一种基于逻辑回归进行信用评估的方式,此种方式主要是假定贷款对象存在欺诈的可能性与贷款对象某些特征因子存在线性关系。采用机器学习的方法训练获取每个特征的重要性,并将得到的重要性作为该特征的系数。最后将贷款对象存在欺诈的可能性映射为一个概率值,当贷款对象的概率值超过某个阈值时,就认为贷款对象存在欺诈。
基于逻辑回归进行信用评估的方式相比于基于专家规则和黑名单的评估方式,虽然准确率有所提高,但是此种方式的模型较为简单,只能训练线性预测模型,对于现实中的复杂模型往往存在欠拟合的情况,实际应用中存在较大的漏警,导致最终基于该模型得到的评估结果准确率也不是很高。
小微企业贷款业务是近年来新兴起的一种贷款手段,其贷款对象即为小微企业,小微企业是小型企业、微型企业、家庭作坊式企业的统称。由于小微企业贷款业务刚刚兴起,所以目前在金融行业内对小微企业进行信贷申请时存在的欺诈行为尚没有一个通用的定义。目前现有的信用评估方式多为面向大中型企业或面向个人信贷的。所以不论是基于规则和黑名单的信用评估方式在小微企业信贷申请中的应用,还是基于人工智能的小微企业申请欺诈识别都处于探索研发阶段。
为了解决现有技术问题,本申请实施例提供了一种信用评估方法、装置、设备及计算机存储介质。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
下面首先对本申请实施例所提供的信用评估方法进行介绍。
图1示出了本申请一个实施例提供的信用评估方法的流程示意图。如图1所示,本申请实施例提供的信用评估方法可以包括一下步骤:
S11.获取目标对象的特征信息。
本申请实施例可以用于对企业进行信用评估。基于此,本申请中的对象可以为企业,目标对象则为待进行信用评估的企业,特征信息可以包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息。其中企业人员可以为与企业核心相关的人员,例如可以为企业的实际控制人、法人等。
在一个示例中,企业基本信息可以包括:企业名称、地址、注册类型、批准设立机关、组织机构代码、证照号码、开业时间、邮政编码、电话、经营范围和/或所处行业等。
在一个示例中,企业工商信息可以包括:企业名称、地址、负责人姓名、筹建或者开业日期、经济性质、生产经营范围、生产经营方式、资金总额、职工人数和/或从业人数等。
在一个示例中,企业人员的基本信息可以包括:姓名、年龄、性别、身份证号码、教育经历、电话号码、地址、消费趋向、家庭成员和/或收入等。
在一个示例中,企业人员的账户信息可以包括:账号、账户开立时间、开户行、账户余额、账户交易情况和/或账户状态等。S12.剔除特征信息中的无效特征,得到第一特征。
S13.确定无效特征中符合专家经验的第二特征。
S14.将第一特征和第二特征进行组合,得到目标对象的目标特征。
S15.将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格。
其中,信用评估模型为使用多组训练数据通过机器学习训练得出的,多组训练数据包括第一类训练数据和第二类训练数据,第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
本申请实施例提供的一种信用评估方法,获取目标对象的特征信息,其中目标对象为待评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息,剔除特征信息中的无效特征,得到第一特征,确定无效特征中符合专家经验的第二特征,将第一特征和第二特征进行组合,得到目标对象的目标特征,将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格。本申请对待评估企业的关键信息进行分析,提炼其中的统计显著性高的特征,基于目标特征利用模型对企业进行信用评估,提高了风险企业的排除效率,从而有效减少信贷损失。并且相对于传统的基于专家规则和黑名单的信用评估方式,基于模型的信用评估方式开发维护的成本周期更短,评估结果更客观,评估效率也更高,有效的降低了信贷欺诈导致的坏账损失。
并且,本申请实施例中在进行特征筛选时,在剔除无效特征之后,基于专家经验再从无效特征中回选一部分特征作为目标特征,避免了特征量过少的问题,使得特征更加丰富。
此外,本申请实施例中的特征信息除了企业相关信息之外,还包括企业核心人员的相关信息,真实性更好。其中,企业自身信息可以体现企业的信用状况,企业人员的信息则可以体现企业核心人员的信用状况。基于此,可以从特征信息中获取更多与企业信用相关的特征,提高了特征的完整性,进而可以得到更准确的信用评估结果。
由上述内容可知,本申请实施例提供的信用评估方法是基于预先训练好的信用评估模型进行的。因此,在执行本申请实施例提供的信用评估方法之前,需要先进行模型训练得到训练好的信用评估模型。下面对本申请实施例中使用的信用评估模型的训练过程进行描述。
首先,在进行模型训练时,要先获取多组样本数据,以便根据多组样本数据构造模型训练所需的多组训练数据。
在一个示例中,多组样本数据中包括第一类样本数据和第二类样本数据。其中第一类样本数据为白样本数据,第一类样本数据中的每组样本数据均包括信用合格对象的特征信息和标识该对象信用合格的标签,第二类样本数据中的每组样本数据均包括信用不合格对象的特征信息和标识该对象信用不合格的标签。
因为通常信用评估具有复杂多变的业务场景,涉及企业类型众多,因此为了避免统计学中的辛普森悖论,将第一类样本数据中信用合格对象和第二类样本数据中信用不合格对象给出清晰的定义。
在一个示例中,第一类样本数据中信用合格对象可以为贷款完全结清的企业,第二类样本数据中信用不合格对象可以为企业黑名单中的企业,其中企业黑名单中的企业可以为之前在信贷业务中存在欺诈行为的企业。
在一个示例中,在获取样本数据中的特征信息时,可以控制不同线程分别向与特征信息关联的目标机构发送数据获取请求,并检测与特征信息关联的目标机构是否同意授权;其中,每一个线程关联一个预设接口。在目标机构同意授权时,调用与线程关联的预设接口从关联的目标机构或数据库中获取目标对象的特征信息。
在一个示例中,在获取样本数据中的特征信息时,还可以直接从预设的数据库中获取。其中,数据库中可以存储有通过合法合规的手段获取的多个企业的特征信息。
因为获取的特征信息中通常包含一些不满足建模要求的数据,所以在获取到样本数据之后,可以先对样本数据的特征信息进行数据预处理,使其成为满足建模要求的数据源。
在一个示例中,对样本数据的特征信息进行数据预处理主要是检查数据的准确性并掌握数据的整体情况,解决数据的无效性、集中度高、缺失情况、异常情况、数据不一致、数据单值率过高等问题。为了解决上述问题可以对样本数据的特征信息进行数据清洗,其中数据清洗可以包括缺失值处理、重复值处理、异常值处理和/或错误值处理等,经过数据清洗使得样本数据的特征信息能够满足建模使用的要求。
在得到满足建模要求的多组样本数据之后,可以基于样本数据中的特征信息进行特征筛选,筛选出统计显著性高的特征,以便基于统计显著性高的特征构建训练数据。
在一个示例中,对样本数据的特征信息进行特征筛选可以包括:
计算特征信息中各特征的稳定性,将特征信息中稳定性大于第一阈值的特征作为无效特征进行剔除,从而得到剩余的第一备选特征,计算第一备选特征中各特征的信息量也即IV值,将第一备选特征中信息量小于第二阈值的特征作为无效特征进行剔除,从而得到剩余的第二备选特征,对第二备选特征中的各特征进行单变量分析和多变量分析,将分析结果不满足预设条件的特征作为无效特征进行剔除,从而得到剩余的第三备选特征,之后通过专家回选的方式从剔除的无效特征中选取符合专家经验的第四备选特征,最后将第三备选特征和第四备选特征进行组合后作为统计显著性高的特征。其中,第一阈值和第二阈值为根据实际情况或经验设定的值,例如第一阈值可以为0.25,第二阈值可以为0.1。
在一个示例中,计算特征的稳定性可以包括:
将多组样本数据分为训练样本数据和验证样本数据,其划分方式可以为基于预设的比例进行划分,需要注意的是,在进行划分时,需要保证训练样本数据和验证样本数据中均包含第一类样本数据和第二类样本数据。针对各个特征,将训练样本数据作为预期分布,将验证样本数据作为实际分布,将预期分布进行跨时间分箱离散化,统计各个分箱里的第二类样本数据的占比。其中分箱可以是等频、等距或其他方式。按相同分箱区间,对实际分布进行跨时间分箱离散化,并统计各分箱内的第二类样本数据的占比。然后按照稳定性计算公式计算特征的稳定性。
其中,稳定性计算公式如下式所示:
Figure BDA0003749397860000111
其中,PSI表示稳定性,实际占比表示对实际分布进行跨时间分箱离散化得到的分箱中第二类样本数据的占比,预期占比表示对预期分布进行跨时间分箱离散化得到的分箱中第二类样本数据的占比,其中实际占比和预期占比属于同一分箱。
在一个示例中,对特征进行单变量分析,将分析结果不满足预设条件的特征作为无效特征进行剔除,可以包括:
确定各特征的业务含义,将业务含义与经验不符的特征作为无效特征进行剔除,和/或,将稳定性容易受到影响的特征作为无效特征进行剔除。
其中,特征的业务含义即为特征对模型结果之间的关系,其中关系可以为正相关或负相关或其他关系,其中特征的业务含义可以采用系数符号来标识,而特征的系数符号可以利用机器学习的方法训练获取。此为现有技术,所以不再过多描述。
在一个示例中,对特征进行多变量分析,将分析结果不满足预设条件的特征作为无效特征进行剔除,可以包括:
分析两两特征之间的相关性和多重特征之间的相关性,将存在两两相关性或多重相关性的特征,作为相关特征,从相关特征中选取一个特征进行保留,将除保留的特征之外的特征作为无效特征进行剔除。例如,如果两个特征之间存在相关性,则从两个特征中选取一个进行保留,将另一个特征作为无效特征进行剔除,如果多个特征之间存在相关性,则从多个特征中选取一个特征进行保留,将其他特征作为无效特征进行剔除。
在一个示例中,可以使用皮尔逊系数或者斯皮尔曼系数计算特征之间的相关性。若计算得到的特征之间的相关性大于第三阈值就确定特征相关,从而将特征作为相关特征。其中第三阈值可以根据实际情况设定。
在一个示例中,在从相关特征中选取保留的特征时,可以随机选取一个特征进行保留,也可以选取满足一定条件的特征进行保留,其中条件可以根据实际情况设定,例如可以为选取分类辨识效果最好的特征进行保留。
在一个示例中,采用专家回选的方式从无效特征中选取符合专家经验的第四备选特征,可以包括:由专家对无效特征的重要性进行判断,从中选取重要性比较高的作为第四备选特征。
进一步的,可以对通过上述方式确定出的无效特征和第四备选特征进行记录,以便后续进行模型应用时,可以基于记录的无效特征和第四备选特征对具体对象的特征进行特征筛选。
本申请实施例采用上述方式进行特征筛选时,基于稳定性对特征进行筛选可以解决信息冗余的问题,基于信息量对特征进行筛选可以筛选掉一部分对模型结果重要程度较小的特征,基于单特征分析对特征进行筛选可以剔除掉与经验不符的负面特征,基于多特征分析进行特征筛选可以剔除掉存在相关性的特征,避免由于特征的共线性给模型结果产生负面影响,而基于专家经验从无效特征中回选一部分特征,则可以避免特征量过少的问题,保证有足够多的特征进行模型训练。如此,利用采用上述方式进行特征筛选得到的特征进行模型训练,可以提高模型的拟合度,进一步提高模型结果的准确性。
进一步的,在本申请的另一实施例中,在对样本数据的特征信息进行特征筛选之前,还可以先对特征信息进行聚合衍生,得到衍生信息,然后将特征信息和衍生信息进行组合后得到原始特征信息,之后再对原始特征信息进行特征筛选。
在一个示例中,对特征信息进行聚合衍生的过程,根据数据类型不同可以分为两个部分。其中,一部分是连续特征的聚合衍生,另一部分是离散特征的聚合衍生,然后将两部分聚合衍生得到的衍生信息进行组合后作为最终的衍生信息。
进一步的,在一个示例中,连续特征的聚合衍生可以包括对企业人员的基本信息中的连续属性信息采用第一衍生算法进行聚合衍生,得到第一衍生信息。其中,第一衍生算法包括下述算法中的一种或多种:求和算法、极大值算法、极小值算法、平均值算法、数量算法或中位数算法。
在一个示例中,离散特征的聚合衍生可以包括:对所述企业人员的基本信息中的离散属性信息采用第二衍生算法进行聚合衍生,得到第二衍生信息,其中,所述第二衍生算法包括下述算法中的一种或多种:众数算法或属性类别数量算法。
在本申请实施例中,通过特征衍生可以构建一些新的特征,实现特征扩展,进而丰富了特征,进一步可以提高模型的拟合度。
一个例子,如下表1所示,为特征筛选的过程中特征数量的变化情况。
表1
Figure BDA0003749397860000141
在经过特征筛选确定出统计显著性高的特征之后,便可以基于统计显著性高的特征确定各组样本数据对应的目标特征,然后针对每组样本数据,将样本数据的目标特征和该样本数据中的标签组成该样本数据对应的训练数据,进而就可以得到第一类训练数据和第二类训练数据。其中第一类训练数据即为第一类样本数据经过特征筛选之后得到的训练数据,第二类训练数据即为第二类样本数据经过特征筛选之后得到的训练数据。
在得到第一类训练数据和第二类训练数据之后,便可以利用第一类训练数据和第二类训练数据进行模型训练。
在一个示例中,在进行模型训练时,可以将第一类训练数据和第二类训练数据按照预设的比例划分为训练集和验证集,其中训练集和验证集中均需要包含第一类训练数据和第二类训练数据,然后利用训练集对初始模型进行训练,利用验证集对训练后的模型进行验证,知道验证结果满足预设需求之后停止训练,从而得到训练好的信用评估模型。其中,初始模型为根据需求选取的机器学习模型。
在一个示例中,可以根据信用合格对象和信用不合格对象的定义,并结合不同的统计学习算法的特点,选取多个合适的机器学习模型作为初始模型,并分别进行模型训练,然后从训练得到的多个模型中选取一个效果最好的作为信用识别模型。
一个例子,以选取随机森林模型和LightGBM模型作为初始模型为例,利用训练数据分别对上述两个模型进行训练。由于数据类别存在极端的不平衡,因此在训练过程中引入scale_pos_weights参数,加大少数类样本训练误差的代价。然后可以采用跨时间验证集验证算法进行模型验证,这样可以保证模型在时间维度上具有优良的泛化能力。
在对上述两个模型训练得到的模型效果进行比较时,可以分别构建两个模型的ROC(Receiver Operating Characteristic,受试者工作特征)曲线。如图2所示,为随机森林模型的ROC曲线,如图3所示,为LightGBM模型的ROC曲线。基于图2和图3对上述两个初始模型训练后得到的模型进行对比分析,可知,LightGBM模型相较于随机森林模型在区分能力上有了较大幅度的提高,如LightGBM模型的AUC值相比随机森林模型的AUC值提高了5%,同时延续了随机森林模型的稳定性和解释性。综上,LightGBM模型相较于随机森林模型在稳定性、泛化性上有着较大的优势,区分能力也更加优越,所以最终可以选取LightGBM模型作为初始模型进行训练得到的最终模型作为信用识别模型。
进一步的,在一个例子中,如下表2所示,为采用Bootstrap(一种内部验证的方法)通过多次内部验证得到的基于LightGBM模型训练得到的信用识别模型的区分能力结果表。
统计量 开发样本 验证样本 *Bootstrap
KS 53.4 51.7 [43.2,53.8]
AR 57.5 53.2 [51.2,63.0]
其中,AR值(Accuracy Ratio,准确度比例)和KS值(Kolmogorov-Smirnov,柯尔莫诺夫-斯米尔诺夫检验)是用来监控模型的区分能力的值,Bootstrap结果区间分别为多次验证结果的5分位数和95分位数,通过上表可以看出信用识别模型的区分能力较强。
至此模型训练完成,得到信用识别模型。
下面对上述S11-S14的具体实现方式进行统一说明。
在一个示例中,在S11中,获取目标对象的特征信息时,可以控制不同线程分别向与特征信息关联的多个目标机构发送数据获取请求,并检测与特征信息关联的目标机构是否同意授权。其中,每一个线程关联一个预设接口,在目标机构同意授权时,调用与线程关联的预设接口从关联的目标机构中获取目标对象的特征信息。进一步的,为了保证可以获取到目标对象的特征信息,在目标机构不同意授权时,可以向目标对象发出上传特征信息的请求,从而在目标对象同意的情况下,由目标对象上传相关的特征信息。
在另一个示例中,在S11中,获取目标对象的特征信息时,也可以从预设的数据库中获取。其中,数据库中可以存储有通过合法合规的手段获取的多个企业的特征信息。
在一个示例中,S12-S14是为了对目标对象的特征信息进行特征筛选以便得到使用与信用评估模型的目标特征。基于此,在对目标对象的特征信息进行特征筛选时,可以采用与模型训练时进行特征筛选相同筛选标准进行筛选即可。
通过上述对模型训练过程的描述可知,需要剔除的无效特征包括定性大于第一阈值的无效特征、信息量小于第二阈值的无效特征、单变量分析的分析结果不满足预设条件的无效特征、和多变量分析的分析结果不满足预设条件的无效特征,而上述无效特征在进行模型训练时已经确定出了具体是哪些特征并进行了记录,所以在S12中对目标对象的特征信息进行筛选时,可以直接基于模型训练时确定出的上述无效特征进行特征剔除,从而得到第一特征。
同样的,通过上述对模型训练过程的描述可知,在模型训练时已经确定出了满足专家经验的第四备选特征,并进行了记录,所以S13可以直接根据记录的第四备选特征从无效特征中选取第二特征。
进一步的,如果在模型训练时对特征进行了聚类衍生,则在对目标对象的特征信息进行筛选之前,也即在执行S12之前,还可以包括对目标对象的特征信息进行聚合衍生,其中采用的聚合衍生方式与模型训练时采用的聚合衍生方式相同,具体可参见上述对模型训练过程的描述中关于聚合衍生的描述,此处不再赘述。
再进一步的,在对目标对象的特征信息进行筛选之前,也即在执行S12之前,还可以包括对目标对象的特征信息进行数据预处理,其中采用的数据预处理方式与模型训练时采用的数据预处理方式相同,具体可参见上述对模型训练过程的描述中关于数据预处理的描述,此处不再赘述。
在得到第一特征和第二特征之后,直接通过S13对第一特征和第二特征进行组合便可以得到符合信用评估模型需求的,该目标对象的目标特征,然后将目标特征输入到信用评估模型后,便可以得到信用评估模型输出的该目标对象的信用评估结果。
进一步的,在本申请的另一种实施例中,因为信用评估模型输出的信用评估结果通常为对象信用合格的概率值,不便于用户理解,所以为了方便用户理解,在得到目标对象的信用评估结果之后,还可以对信用评估结果进行分值尺度化。其中,分值尺度化即为将信用评估结果由概率值转化为分数,分数越高表明目标对象存在欺诈的可能越低也即信用合格的概率越大,分数越低表面企业存在欺诈的可能性越高也即信用不合格的概率越大。
在一个示例中,可以采用转换公式实现信用评估结果的分值尺度化,其中,转换公式可以如下式所示:
Figure BDA0003749397860000181
Figure BDA0003749397860000182
其中,score表示转化后得到的分数,p表示对象信用合格的概率,也即信号评估结果,PDO(point to double odds)表示当p与1-p的比值上升1倍时,分数上升PDO个单位,Base Point表示基础分值,作用是要使得所有分数的取值为正。
进一步的,在实际的应用中,可以基于实际业务场景取两个阈值,一个高阈值一个低阈值。基于此,在通过对目标对象的信用评估结果进行分值尺度化得到对应的分数之后,若确定分数大于高阈值,则系统可以直接确认目标对象通过信贷申请,若确定分数小于低阈值,则系统可以直接拒绝目标对象的信贷申请,而如果分数落在高阈值和低阈值之间,则可以进行人工审核或者提示目标对象补交申请材料后再重新对目标对象进行信用评估。
在实际应用中,采用本申请实施例提供的信用评估方法对目标对象进行信用评估,大大缩短了企业信贷申请业务的办理时间,提高了客户业务体验。通过信用评估模型对企业客户进行初筛,可以快速识别出潜在被拒绝的风险客群和申请通过可能性较高的优质客群,在已知客户相关基础信息的情况下,缩短了客户办理信贷申请的时间,优化了客户的信贷业务体验。
基于上述实施例提供的信用评估方法,相应地,本申请还提供了信用评估装置的具体实现方式。请参见以下实施例。
首先参见图4,本申请实施例提供的信用评估装置可以包括以下单元:
获取单元401,用于获取目标对象的特征信息,目标对象为待进行信用评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息;
剔除单元402,用于剔除特征信息中的无效特征,得到第一特征;
回选单元403,用于确定无效特征中符合专家经验的第二特征;
组合单元404,用于将第一特征和第二特征进行组合,得到目标对象的目标特征;
模型单元405,用于将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格,其中,信用评估模型为使用多组训练数据通过机器学习训练得出的,多组训练数据包括第一类训练数据和第二类训练数据,第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
本申请实施例的一种信用评估装置,获取目标对象的特征信息,其中目标对象为待评估的企业,特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息,剔除特征信息中的无效特征,得到第一特征,确定无效特征中符合专家经验的第二特征,将第一特征和第二特征进行组合,得到目标对象的目标特征,将目标特征输入预先训练好的信用评估模型得到信用评估结果,信用评估结果表征目标对象的信用是否合格。本申请对待评估企业的关键信息进行分析,提炼其中的统计显著性高的特征,基于目标特征利用模型对企业进行信用评估,提高了风险企业的排除效率和准确率,从而有效减少信贷损失。
作为一种可能的实现方式,剔除单元402用于:
剔除所述特征信息中稳定性大于第一阈值的无效特征、信息量小于第二阈值的无效特征、单变量分析的分析结果不满足预设条件的无效特征、和多变量分析的分析结果不满足预设条件的无效特征,得到第一特征。
作为一种可能的实现方式,剔除单元402剔除特征信息中单变量分析的分析结果不满足预设条件的无效特征,包括:
剔除特征信息中业务含义与经验不符的无效特征。
作为一种可能的实现方式,剔除单元402剔除特征信息中多变量分析的分析结果不符合预设条件的无效特征,包括:
确定特征信息中的相关特征,相关特征为与其他特征之间存在相关性的特征;
将相关特征中除了需要保留的特征之外的其他特征作为无效特征进行剔除。
作为一种可能的实现方式,上述装置还可以包括衍生单元(图4中未实处),其中衍生单元用于:
在剔除特征信息中的无效特征之前,对特征信息进行聚合衍生,得到衍生信息;
将特征信息和所述衍生信息组合,得到原始特征信息;
剔除所述特征信息中的无效特征,包括:
剔除原始特征信息中的无效特征。
作为一种可能的实现方式,衍生单元用于:
对企业人员的基本信息中的连续属性信息采用第一衍生算法进行聚合衍生,得到第一衍生信息,其中,第一衍生算法包括下述算法中的一种或多种:求和算法、极大值算法、极小值算法、平均值算法、数量算法或中位数算法;
对企业人员的基本信息中的离散属性信息采用第二衍生算法进行聚合衍生,得到第二衍生信息,其中,第二衍生算法包括下述算法中的一种或多种:众数算法或属性类别数量算法;
将第一衍生信息和第二衍生信息进行组合,得到衍生信息。
作为一种可能的实现方式,上述装置还可以包括预处理单元(图4中未实处),其中预处理单元用于:
在剔除所述特征信息中的无效特征之前,对特征信息进行数据预处理,其中,数据预处理包括缺失值处理、重复值处理、异常值处理和/或错误值处理。
图5示出了本申请实施例提供的信用评估设备的硬件结构示意图。
在信用评估设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于样本数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。
存储器502可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器502包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种信用评估方法。
在一个示例中,信用评估设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的信用评估方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种信用评估方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种信用评估方法,其特征在于,包括:
获取目标对象的特征信息,所述目标对象为待进行信用评估的企业,所述特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息;
剔除所述特征信息中的无效特征,得到第一特征;
确定所述无效特征中符合专家经验的第二特征;
将所述第一特征和所述第二特征进行组合,得到所述目标对象的目标特征;
将所述目标特征输入预先训练好的信用评估模型得到信用评估结果,所述信用评估结果表征所述目标对象的信用是否合格,其中,所述信用评估模型为使用多组训练数据通过机器学习训练得出的,所述多组训练数据包括第一类训练数据和第二类训练数据,所述第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,所述第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
2.根据权利要求1所述的方法,其特征在于,所述剔除所述特征信息中的无效特征,得到第一特征,包括:
剔除所述特征信息中稳定性大于第一阈值的无效特征、信息量小于第二阈值的无效特征、单变量分析的分析结果不满足预设条件的无效特征和多变量分析的分析结果不满足预设条件的无效特征,得到第一特征。
3.根据权利要求2所述的方法,其特征在于,所述剔除所述特征信息中单变量分析的分析结果不满足预设条件的无效特征,包括:
剔除所述特征信息中业务含义与经验不符的无效特征。
4.根据权利要求2所述的方法,其特征在于,所述剔除所述特征信息中多变量分析的分析结果不符合预设条件的无效特征,包括:
确定所述特征信息中的相关特征,所述相关特征为与其他特征之间存在相关性的特征;
将所述相关特征中除了需要保留的特征之外的其他特征作为无效特征进行剔除。
5.根据权利要求1所述的方法,其特征在于,所述剔除所述特征信息中的无效特征之前,所述方法还包括:
对所述特征信息进行聚合衍生,得到衍生信息;
将所述特征信息和所述衍生信息组合,得到原始特征信息;
所述剔除所述特征信息中的无效特征,包括:
剔除所述原始特征信息中的无效特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述特征信息进行聚合衍生,得到衍生信息,包括:
对所述企业人员的基本信息中的连续属性信息采用第一衍生算法进行聚合衍生,得到第一衍生信息,其中,所述第一衍生算法包括下述算法中的一种或多种:求和算法、极大值算法、极小值算法、平均值算法、数量算法或中位数算法;
对所述企业人员的基本信息中的离散属性信息采用第二衍生算法进行聚合衍生,得到第二衍生信息,其中,所述第二衍生算法包括下述算法中的一种或多种:众数算法或属性类别数量算法;
将所述第一衍生信息和所述第二衍生信息进行组合,得到衍生信息。
7.根据权利要求1所述的方法,其特征在于,所述剔除所述特征信息中的无效特征之前,所述方法还包括:
对所述特征信息进行数据预处理,其中,所述数据预处理包括缺失值处理、重复值处理、异常值处理和/或错误值处理。
8.一种信用评估装置,其特征在于,包括:
获取单元,用于获取目标对象的特征信息,所述目标对象为待进行信用评估的企业,所述特征信息包括企业基本信息、企业工商信息、企业人员的基本信息和企业人员的账户信息;
剔除单元,用于剔除所述特征信息中的无效特征,得到第一特征;
回选单元,用于确定所述无效特征中符合专家经验的第二特征;
组合单元,用于将所述第一特征和所述第二特征进行组合,得到所述目标对象的目标特征;
模型单元,用于将所述目标特征输入预先训练好的信用评估模型得到信用评估结果,所述信用评估结果表征所述目标对象的信用是否合格,其中,所述信用评估模型为使用多组训练数据通过机器学习训练得出的,所述多组训练数据包括第一类训练数据和第二类训练数据,所述第一类训练数据中的每组训练数据均包括信用合格对象的目标特征和标识该对象信用合格的标签,所述第二类训练数据中的每组训练数据均包括信用不合格对象的目标特征和标识该对象信用不合格的标签。
9.一种信用评估设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的信用评估方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的信用评估方法。
CN202210833959.8A 2022-07-15 2022-07-15 信用评估方法、装置、设备及计算机存储介质 Pending CN115205026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210833959.8A CN115205026A (zh) 2022-07-15 2022-07-15 信用评估方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210833959.8A CN115205026A (zh) 2022-07-15 2022-07-15 信用评估方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN115205026A true CN115205026A (zh) 2022-10-18

Family

ID=83581582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210833959.8A Pending CN115205026A (zh) 2022-07-15 2022-07-15 信用评估方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115205026A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362940A (zh) * 2023-04-01 2023-06-30 山东联信数字科技有限公司 一种基于大数据分析的企业信用评估方法、系统、装置和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362940A (zh) * 2023-04-01 2023-06-30 山东联信数字科技有限公司 一种基于大数据分析的企业信用评估方法、系统、装置和存储介质

Similar Documents

Publication Publication Date Title
CN107025596B (zh) 一种风险评估方法和系统
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
CN111507831A (zh) 信贷风险自动评估方法和装置
CN106651570A (zh) 一种贷款实时审批系统和方法
CN111461216A (zh) 一种基于机器学习的案件风险识别方法
CN110930218B (zh) 一种识别欺诈客户的方法、装置及电子设备
CN111062834A (zh) 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
CN114638688A (zh) 一种用于信贷反欺诈的拦截策略衍生方法、系统
CN115205026A (zh) 信用评估方法、装置、设备及计算机存储介质
CN112884480A (zh) 异常交易识别模型的构造方法、装置、计算机设备和介质
CN112037006A (zh) 小微企业的信用风险识别方法及装置
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN115564591A (zh) 一种融资产品的确定方法及相关设备
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN114581209A (zh) 财务分析模型的训练方法、装置、设备及存储介质
CN111401329B (zh) 信息流向识别方法、装置、设备和存储介质
CN114679557A (zh) 录制数据质检方法、装置、设备、存储介质及程序产品
CN114638504A (zh) 企业风险评估方法、装置、设备、介质及产品
CN113269412A (zh) 风险评估方法及相关装置
CN111951105A (zh) 基于多维大数据分析的智能信贷风控系统
CN117217910A (zh) 信息处理方法、装置、设备、介质及产品
CN114596152A (zh) 基于无监督模型预测发债主体违约的方法、设备及存储介质
CN118014712A (zh) 基于数字证书的贸易结算及融资系统
CN116362887A (zh) 一种基于客户交易信息的反欺诈系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination