CN112785420A - 信用评分模型的训练方法、装置、电子设备及存储介质 - Google Patents

信用评分模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112785420A
CN112785420A CN202110107067.5A CN202110107067A CN112785420A CN 112785420 A CN112785420 A CN 112785420A CN 202110107067 A CN202110107067 A CN 202110107067A CN 112785420 A CN112785420 A CN 112785420A
Authority
CN
China
Prior art keywords
data
statistical
machine learning
learning model
statistical characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110107067.5A
Other languages
English (en)
Inventor
张琛
梁秀钦
陈嘉真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110107067.5A priority Critical patent/CN112785420A/zh
Publication of CN112785420A publication Critical patent/CN112785420A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请提供了一种信用评分模型的训练方法、装置、电子设备及存储介质,该方法包括:从多个历史用户的原始数据中提取原始数据的第一统计特征数据,第一统计特征数据包括原始数据所属的目标数据类型,确定原始数据在目标数据类型下的第二统计特征数据,根据第一统计特征数据和第二统计特征数据,确定至少一个待选训练的初始机器学习模型,采用第一统计特征数据和第二统计特征数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型,从至少一个目标机器学习模型中选择出目标信用评分模型。利用该方法,能够实现更加精确的信用评分预测。

Description

信用评分模型的训练方法、装置、电子设备及存储介质
技术领域
本申请涉及信用评估技术领域,特别涉及一种信用评分模型的训练方法、装置、电子设备及存储介质。
背景技术
风险控制是金融领域中的核心基础。当金融机构发放贷款额度的时候,需要知道如何评判一组贷款申请人。其中,利用申请人的个人信用评分进行评判,是一种方便有效的评判方法。个人信用评分是银行或者其他金融机构利用所获得的关于信用申请人的信息,进行风险预测的一种方式和技术,使用个人信用评分可以量化贷款的风险。目前,人们在实际使用中利用个人信用评分得到个人信用分数时,可以使用信用评分模型,模型的输入是申请人的某些信息,比如,最近一年的履约情况、最近一年的支付金额、风险分数等,模型的输出即为申请人的个人信用分数,信用分数越高表示申请人偿还贷款的可能性越大。对于一组申请人,可以按照个人的信用分数做一个排序,来判断优先发放贷款的顺序。
现有技术中,生成信用评分模型的方式可以是使用机器学习方式,把历史申请人的原始数据信息提炼为特征数据得到训练数据集,选取合适的机器学习算法,调整算法参数,训练得到一个信用评分模型,然后对于新的申请人,可以用这个模型来计算个人信用分数。
但是,现有技术中使用机器学习方式生成信用评分模型的方法,当数据变化的时候需要重新选择机器学习算法并重新训练模型,但是由于机器学习算法的类型很多,所以在重新训练模型的时候会面临很多选择,同时,机器学习算法所需要的特征工程比较复杂,耗费人力和时间,因此,使用现有技术的方法,存在处理复杂、效率较低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种信用评分模型的训练方法、装置、电子设备及存储介质,以解决现有技术中进行信用评分时处理复杂、效率低下的问题。
第一方面,本申请实施例提供一种信用评分模型的训练方法,包括:
从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;
确定所述原始数据在所述目标数据类型下的第二统计特征数据;
根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;
采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,得到至少一个目标机器学习模型;
从所述至少一个目标机器学习模型中选择出目标信用评分模型。
作为一种可能的实现方式,所述从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,包括:
获取所述多个历史用户的至少一个数据维度上的原始数据;
分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。
作为一种可能的实现方式,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。
作为一种可能的实现方式,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。
作为一种可能的实现方式,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。
作为一种可能的实现方式,所述根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型,包括:
若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为二分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为多值数据,则将多分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为多分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为连续数值数据,则将回归类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为回归机器学习模型的训练数据。
作为一种可能的实现方式,所述采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,包括:
采用所述第一统计特征数据、所述第二统计特征数据以及多个历史用户的原始数据,训练所述至少一个初始机器学习模型。
第二方面,本申请实施例提供一种信用评分模型的训练装置,包括:
提取模块,用于从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;
第一确定模块,用于确定所述原始数据在所述目标数据类型下的第二统计特征数据;
第二确定模块,用于根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;
训练模块,用于采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,得到至少一个目标机器学习模型;
选择模块,用于从所述至少一个目标机器学习模型中选择出目标信用评分模型。
作为一种可能的实现方式,所述提取模块具体用于:
获取所述多个历史用户的至少一个数据维度上的原始数据;
分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。
作为一种可能的实现方式,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。
作为一种可能的实现方式,所述第一确定模块具体用于:
若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。
作为一种可能的实现方式,所述第一确定模块具体用于:
若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。
作为一种可能的实现方式,所述选择模块具体用于:
若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为二分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为多值数据,则将多分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为多分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为连续数值数据,则将回归类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为回归机器学习模型的训练数据。
作为一种可能的实现方式,所述训练模块具体用于:
采用所述第一统计特征数据、所述第二统计特征数据以及多个历史用户的原始数据,训练所述至少一个初始机器学习模型。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述第一方面所述的信用评分模型的训练方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面所述的信用评分模型的训练方法的步骤。
本申请实施例具有如下技术效果:
从多个历史用户的原始数据中提取原始数据的第一统计特征数据,该第一统计特征数据包括原始数据所属的目标数据类型的,针对原始数据所属的该目标数据类型,可以进一步统计出与该目标数据类型匹配的第二统计特征数据,从而完成了对原始数据的准确的数据画像,进而,基于该数据画像,可以筛选出与第一统计特征数据和第二统计特征数据更加匹配的模型,进而,将这些模型训练完成后,可以利用这些模型进行更加精确的信用评分预测。
同时,数据画像还可以提供更多的关于数据的特征信息,从而节省做特征工程的时间。
另外,数据画像还可以为模型结果提供一些可解释性,提高结果的可信度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种信用评分模型的训练方法的流程示意图;
图2示出了现有技术中的机器学习模型训练的流程示意图;
图3示出了本申请实施例的机器学习模型训练的流程示意图;
图4示出了本申请实施例提供的另一种信用评分模型的训练方法的流程示意图;
图5示出了本申请实施例提供的训练信用评分模型的流程示意图;
图6示出了本申请实施例提供的一种信用评分模型的训练装置的模块示意图;
图7示出了本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“对用户进行信用评分”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕对用户进行信用评分这一场景进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
值得说明的是,本申请以下实施例主要涉及利用训练样本训练得到信用评分模型的过程。
图1为本申请实施例提供的一种信用评分模型的训练方法的流程示意图,该方法的执行主体可以为具有计算处理能力的电子设备,如图1所示,该方法包括:
S101、从多个历史用户的原始数据中提取该原始数据的第一统计特征数据。
以银行领域为例,在银行领域中,上述多个历史用户,可以是曾经在该银行申请过贷款的用户,相应的,历史用户的原始数据可以指该历史用户对应的个人数据,该个人数据例如可以包括:用户的姓名、用户的性别、历史贷款额度、还款记录等。
可选的,通过计算可以确定多个历史用户的原始数据的第一统计特征数据。该原始数据的第一统计特征数据包括原始数据所属的目标数据类型。该原始数据所属的目标数据类型包括数值型和类别型。
继续以上述的银行领域为例,假设用户的原始数据包括:姓名、性别、历史贷款额度以及还款记录,则从这些原始数据中可以提取到第一统计特征数据,该第一统计特征数据中包括姓名所属的目标数据类型,即为数值型,还包括性别所属的目标数据类型,即为类别型。
为便于描述,下述实施例中将“原始数据所属的目标数据类型”称为“原始数据的目标数据类型”。
另外,上述第一统计特征数据还可以包括其他特征,将在下述实施例中详细说明。
S102、确定该原始数据在目标数据类型下的第二统计特征数据。
可选的,对步骤S101中得到的原始数据的目标数据类型进行判断,如果原始数据的目标数据类型为数值型,则通过计算确定其第二统计特征数据,其第二统计特征数据可以包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数;如果原始数据的目标数据类型为类别型,则通过计算确定其第二统计特征数据,其第二统计特征数据包括:数量、出现频次、众数。
可选的,相对于上述第一统计特征数据,本步骤中所得到的第二统计特征数据为一个特定的数据类型所特有的统计数据。例如上文所述的,对于数值型的原始数据,该原始数据的第二统计特征数据可以包括最大值、最小值等与数值相关的统计特征,而对于类别型的原始数据,该原始数据的第二统计特征数据可以包括数量、出现频次等。
另外,值得说明的是,本申请实施例所述的统计数据,并非是针对一个用户,而是将上述的多个历史用户作为统计对象,对多个历史用户的原始数据统一进行统计,从而得到上述第一统计特征数据和第二统计特征数据。
S103、根据第一统计特征数据和第二统计特征数据,确定至少一个待选训练的初始机器学习模型。
可选的,可以预先提供多种机器学习模型供选择,该多种机器学习模型中的每种机器学习模型可以适用不同类型的训练数据。本申请实施例中,机器学习模型例如可以为二分类、多分类以及回归类型,对于机器学习模型的具体形式不做限定。
在上述得到的第一统计特征数据和第二统计特征数据的基础上,确定与第一统计特征数据或第二统计特征数据匹配的一个或多个机器学习模型作为上述待选训练的初始机器学习模型。示例性的,如果原始数据的第一统计特征数据或第二统计特征数据是二分类数据,则可以选择二分类的机器学习模型作为待选训练的初始机器学习模型,其中二分类数据可以指0或1、是或否、-1或1等;又例如,原始数据的第一统计特征数据或第二统计特征数据是多值数据,则可以选择多分类的机器学习模型作为待选训练的初始机器学习模型,其中多值数据可以指多个值,并且数据类型是字符串,又或是等分的多个值;又例如,原始数据的第一统计特征数据或第二统计特征数据是连续数值,则可以选择回归类型的待选训练的机器学习模型作为初始机器学习模型。
S104、采用第一统计特征数据和第二统计特征数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型。
初始机器学习模型,指的是由步骤S103得到的机器学习模型,而目标机器学习模型指的是将第一统计特征数据以及第二统计特征数据输入至上述的初始机器学习模型,对该初始机器学习模型进行训练所得到的机器学习模型。
采用第一统计特征数据和第二统计特征数据训练上述初始机器学习模型的具体过程将在下述实施例中详细说明。
S105、从至少一个目标机器学习模型中选择出目标信用评分模型。
从经过步骤S104得到的至少一个目标机器学习模型中,选择一个最佳的机器学习模型,这个最佳的机器学习模型就是最终采用的目标信用评分模型。
示例性的,按照模型的复杂度、预测准确度等维度对上述各目标机器学习模型进行排序,并将排在首位的目标机器学习模型作为上述目标信用评分模型。
综上所述,本申请实施例提供一种信用评分模型的训练方法,首先,从多个历史用户的原始数据中提取原始数据的第一统计特征数据,第一统计特征数据包括:原始数据所属的目标数据类型;进而,确定原始数据在目标数据类型下的第二统计特征数据;根据第一统计特征数据以及第二统计特征数据,选择至少一个待选训练的初始机器学习模型;采用第一统计特征数据以及第二统计特征数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型;从至少一个目标机器学习模型中选择出目标信用评分模型。通过上述过程,即,首先从多个历史用户的原始数据中提取原始数据的第一统计特征数据,该第一统计特征数据包括原始数据所属的目标数据类型的,针对原始数据所属的该目标数据类型,可以进一步统计出与该目标数据类型匹配的第二统计特征数据,从而完成了对原始数据的准确的数据画像,进而,基于该数据画像,可以筛选出与第一统计特征数据和第二统计特征数据更加匹配的模型,进而,将这些模型训练完成后,可以利用这些模型进行更加精确的信用评分预测。
同时,数据画像还可以提供更多的关于数据的特征信息,从而节省做特征工程的时间。例如,哪些数据要做到特征里面,哪些数据要舍弃。这些特征可以作为辅助特征输入至模型,从而使模型可以显性地学习各个特征的分布、异常值、与目标值的线性关系等。
另外,数据画像还可以为模型结果提供一些可解释性,提高结果的可信度。例如,通过对一个特征,比如风险分数的统计描述,例如包括中位数、最大值、最小值、平均值、峰度等,可以形象的了解当前申请者的分数相比于整体申请人群的分数的表现,例如当前申请者的风险分数是8,而整体的平均分在5左右,那么如果这个用户的整体分数较高,我们就知道他的高分的原因是因为相对整体来说他的风险评级较高,从而间接知道该特征对于结果的重要性。
以下对上述步骤S104中采用第一统计特征数据和第二统计特征数据训练上述初始机器学习模型的过程进行说明。
图2是现有技术中的机器学习模型训练的流程示意图,如图所示,现有技术中的机器学习模型训练过程包括:
步骤S201:将训练所使用的数据切分为训练数据集和测试数据集。
步骤S202:对数据进行初步的特征工程分析。
步骤S203:选择需要进行训练的模型。
步骤S204:设置必需参数。
步骤S205:采用训练数据集对模型进行训练。
步骤S206:采用测试数据集对训练后的模型进行测试。
步骤S207:如果对测试结果满意,则输出训练好的模型,否则,则重新进入步骤S203。
在本申请实施例中,因为已经确定了原始数据的第一统计特征数据以及第二统计特征数据,而且,已经根据第一统计特征数据以及第二统计特征数据选择了初始机器学习模型,因此,步骤S203在本申请实施例中可以省略,且在本申请实施例中,训练数据为原始数据或者原始数据的第一统计特征数据或者原始数据的第二统计特征数据。相应的,图3是本申请实施例的机器学习模型训练的流程示意图,如图3所示,具体过程包括:
步骤S301:将训练数据切分为训练数据集和测试数据集,该训练数据包括上述第一统计特征和第二统计特征数据。
步骤S302:对训练数据进行特征工程分析。
步骤S303:设置必需参数。
步骤S304:采用训练数据集对初始机器学习模型进行训练。
步骤S305:采用测试数据集对训练后的模型进行测试。
步骤S306:如果对测试结果满意,则输出训练完成的模型,否则,调整参数后进入步骤S304。
如此,可以由初始机器学习模型经过训练得到目标机器学习模型。一般情况下,在一次模型训练过程中,往往会同时训练多个模型,在本申请的实施例中会训练至少一个初始机器学习模型,得到至少一个目标机器学习模型。
图4为本申请实施例提供的另一种信用评分模型的训练方法的流程示意图,如图4所示,上述步骤S101:从多个历史用户的原始数据中提取原始数据的第一统计特征数据,具体包括:
S401、获取多个历史用户的至少一个数据维度上的原始数据。
继续以上述的银行领域为例,假设用户的原始数据包括:姓名、性别、历史贷款额度以及还款记录。则姓名、性别、历史贷款额度以及还款记录分别表示一个数据维度。相应的,可以获取多个用户在这些数据维度上的原始数据。示例性的,历史用户的数量为3个,这3个历史用户的姓名分别为姓名A、姓名B和姓名C,则在姓名这一数据维度上,所获取到的原始数据包括:姓名A、姓名B和姓名C。
S402、分别从多个历史用户的至少一个数据维度上的原始数据中提取第一统计特征数据。
第一统计特征数据,首先包括原始数据的目标数据类型,继续以上述的银行领域为例,假设需要提取用户性别这个数据维度上的第一统计特征数据,例如首先要获取用户性别的数据类型,可以这样做:汇总所有常用的数据类型,并给出各种数据类型的定义,相当于建立各类型数据及其定义的映射关系,当获取到“用户性别”这一原始数据时,则可以直接基于上述给出的数据类型及其定义的映射关系进行逐一匹配,例如经过匹配,发现“用户性别”符合字符串类型的定义,则可以得到其数据类型为字符串类型。
作为一种可选的实施方式,上述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息、线性相关系数。
特征覆盖率,是指数据的一个特征对所有样本数据的概括程度。
卡方统计量,是指数据的分布与所选择的预期或假设分布之间的差异的度量。
互信息,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
线性相关系数,即Pearson相关系数,是用来衡量两个数据集合是否在一条线上,它用来衡量定距变量间的线性关系。
作为一种可选的实施方式,上述步骤S102中确定该原始数据在目标数据类型下的第二统计特征数据的一种可选方式包括:
如果目标数据类型为类别型,则确定原始数据在类别型下的第二统计特征数据,类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。
示例性的,在步骤S402中,对于用户性别,在得到其数据类型为字符串类型后,即可以得出其数据目标类型为类别型,则对于该类别型数据,就可以确定其第二统计特征数据,包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。进一步的,确定第二统计特征数据中的每个种类的数量,是指对每个种类的数量进行统计,得到统计结果。例如,原始数据中的性别作为一个类别型,则通过对多个历史用户的原始数据的性别进行统计,可以统计得到男性用户的数量以及女性用户的数量。
可选的,众数(Mode)是一个统计学的数学名词,是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平,也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。
作为另一种可选的实施方式,上述步骤S102中确定该原始数据在目标数据类型下的第二统计特征数据的一种可选方式包括:
如果目标数据类型为数值型,则确定原始数据在数值型下的第二统计特征数据,数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。
中位数,是统计学中使用的专有名词,有时也会称其为“中值”,中位数顾名思义代表着一个数字集合当中,其数值大小处于中间位置的数字,在统计学当中,中位数是用来考察样本、概率分布的数值工具。
偏度,也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
峰度,又称峰态系数,表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭,反之亦然。
分位数,亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
示例性的,对于数值型的数据,例如历史贷款额度,将所有用户的历史贷款额度进行排序,数值大小排在第一位的用户的历史贷款额度就是最大值,而数值大小处于中间位置的用户的历史贷款额度就是中位数,数值大小排在最后一位的用户的历史贷款额度就是最小值。
可选地,上述步骤S103中根据第一统计特征数据和第二统计特征数据,确定至少一个待选训练的初始机器学习模型的一种可选方式包括:
若第一统计特征数据或第二统计特征数据为二分类数据,则将二分类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为二分类机器学习模型的训练数据。
若第一统计特征数据或第二统计特征数据为多值数据,则将多分类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为多分类机器学习模型的训练数据。
若第一统计特征数据或第二统计特征数据为连续数值数据,则将回归类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为回归机器学习模型的训练数据。
其中,二分类数据是指,例如,第一统计特征数据或第二统计特征数据是0或1、是或否、-1或1、男或女等等;多值数据是指,例如,第一统计特征数据或第二统计特征数据是多个值,并且数据类型是字符串,又或者是等分的多个数值;连续数值数据是指,例如,第一统计特征数据或第二统计特征数据是连续数值。
可选地,采用第一统计特征数据以及第二统计特征数据,训练至少一个初始机器学习模型,具体包括:采用第一统计特征数据、第二统计特征数据以及多个历史用户的原始数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型,从至少一个目标机器学习模型中选择出目标信用评分模型。
图5为使用本申请实施例的训练信用评分模型的流程示意图,如图5所示,训练信用评分模型的完整过程包括:首先,获取历史申请人的多个维度的原始数据,其次,提取每个数据维度下的第一统计特征数据,包括:数据类型、特征覆盖率、卡方统计量、互信息、线性相关系数;接着,判断原始数据的数据类型,如果数据类型为类别型,则确定原始数据的第二统计特征数据,包括:数量、出现频次、众数;如果数据类型为数值型,则确定原始数据的第二统计特征数据,包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。最后,对上述得到的第一统计特征数据以及第二统计特征数据进行统计特征汇总,基于汇总结果,确定一个或者多个初始机器学习模型。
值得说明的是,上述图5中的具体实现细节已在前述实施例中进行了详细说明,此处不再赘述。
基于同一发明构思,本申请实施例中还提供了与该信用评分模型的训练方法对应的一种信用评分模型的训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述信用评分模型的训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图6为本申请实施例提供的一种信用评分模型的训练装置的模块结构图,如图6所示,该装置包括:
提取模块601,用于从多个历史用户的原始数据中提取原始数据的第一统计特征数据,该第一统计特征数据包括:原始数据所属的目标数据类型。
第一确定模块602,用于确定原始数据在目标数据类型下的第二统计特征数据。
第二确定模块603,用于根据第一统计特征数据以及第二统计特征数据,确定至少一个待选训练的初始机器学习模型。
训练模块604,用于采用第一统计特征数据以及第二统计特征数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型。
选择模块605,用于从至少一个目标机器学习模型中选择出目标信用评分模型。
一种可能的实施方式中,提取模块601具体用于:
获取多个历史用户的至少一个数据维度上的原始数据。
分别从该多个历史用户的至少一个数据维度上的原始数据中提取第一统计特征数据。
一种可能的实施方式中,第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。
一种可能的实施方式中,第一确定模块602具体用于:
若目标数据类型为类别型,则确定原始数据在上述类别型下的第二统计特征数据,该类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。
一种可能的实施方式中,第一确定模块602具体用于:
若目标数据类型为数值型,则确定原始数据在上述数值型下的第二统计特征数据,该数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。
一种可能的实施方式中,选择模块605具体用于:
若第一统计特征数据或第二统计特征数据为二分类数据,则将二分类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为二分类机器学习模型的训练数据;
若第一统计特征数据或第二统计特征数据为多值数据,则将多分类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为多分类机器学习模型的训练数据;
若第一统计特征数据或第二统计特征数据为连续数值数据,则将回归类机器学习模型作为初始机器学习模型,并将第一统计特征数据或第二统计特征数据作为回归机器学习模型的训练数据。
一种可能的实施方式中,训练模块604具体用于:
采用第一统计特征数据、第二统计特征数据以及多个历史用户的原始数据,训练至少一个初始机器学习模型。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本申请实施例还提供了一种电子设备70,如图7所示,为本申请实施例提供的电子设备70结构示意图,包括:处理器71、存储器72、和总线73。存储器72存储有处理器71可执行的机器可读指令(比如,图6中的装置中提取模块、第一确定模块、第二确定模块、训练模块、选择模块对应的执行指令等),当电子设备70运行时,处理器71与存储器72之间通过总线73通信,机器可读指令被处理器71执行时执行上述方法实施例中的方法步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述信用评分模型的训练方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述信用评分模型的训练方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种信用评分模型的训练方法,其特征在于,包括:
从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;
确定所述原始数据在所述目标数据类型下的第二统计特征数据;
根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;
采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个待选训练的初始机器学习模型,得到至少一个目标机器学习模型;
从所述至少一个目标机器学习模型中选择出目标信用评分模型。
2.根据权利要求1所述的方法,其特征在于,所述从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,包括:
获取所述多个历史用户的至少一个数据维度上的原始数据;
分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。
3.根据权利要求2所述的方法,其特征在于,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。
4.根据权利要求1所述的方法,其特征在于,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。
5.根据权利要求1所述的方法,其特征在于,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型,包括:
若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为二分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为多值数据,则将多分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为多分类机器学习模型的训练数据;
若所述第一统计特征数据或所述第二统计特征数据为连续数值数据,则将回归类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为回归机器学习模型的训练数据。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个待选训练的初始机器学习模型,包括:
采用所述第一统计特征数据、所述第二统计特征数据以及多个历史用户的原始数据,训练所述至少一个待选训练的初始机器学习模型。
8.一种信用评分模型的训练装置,其特征在于,包括:
提取模块,用于从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;
第一确定模块,用于确定所述原始数据在所述目标数据类型下的第二统计特征数据;
第二确定模块,用于根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;
训练模块,用于采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个待选训练的初始机器学习模型,得到至少一个目标机器学习模型;
选择模块,用于从所述至少一个目标机器学习模型中选择出目标信用评分模型。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至7任一所述的信用评分模型的训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的信用评分模型的训练方法的步骤。
CN202110107067.5A 2021-01-26 2021-01-26 信用评分模型的训练方法、装置、电子设备及存储介质 Withdrawn CN112785420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110107067.5A CN112785420A (zh) 2021-01-26 2021-01-26 信用评分模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110107067.5A CN112785420A (zh) 2021-01-26 2021-01-26 信用评分模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112785420A true CN112785420A (zh) 2021-05-11

Family

ID=75757965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110107067.5A Withdrawn CN112785420A (zh) 2021-01-26 2021-01-26 信用评分模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112785420A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326889A (zh) * 2021-06-16 2021-08-31 北京百度网讯科技有限公司 用于训练模型的方法和装置
CN113570257A (zh) * 2021-07-30 2021-10-29 北京房江湖科技有限公司 基于评分模型的指标数据评估方法和装置、介质、设备
CN117235624A (zh) * 2023-09-22 2023-12-15 中节能天融科技有限公司 排放数据造假检测方法、装置及系统和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326889A (zh) * 2021-06-16 2021-08-31 北京百度网讯科技有限公司 用于训练模型的方法和装置
CN113570257A (zh) * 2021-07-30 2021-10-29 北京房江湖科技有限公司 基于评分模型的指标数据评估方法和装置、介质、设备
CN117235624A (zh) * 2023-09-22 2023-12-15 中节能天融科技有限公司 排放数据造假检测方法、装置及系统和存储介质
CN117235624B (zh) * 2023-09-22 2024-05-07 中节能数字科技有限公司 排放数据造假检测方法、装置及系统和存储介质

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
CN107103171B (zh) 机器学习模型的建模方法及装置
CN110245132B (zh) 数据异常检测方法、装置、计算机可读存储介质和计算机设备
CN112785420A (zh) 信用评分模型的训练方法、装置、电子设备及存储介质
WO2019218699A1 (zh) 欺诈交易判断方法、装置、计算机设备和存储介质
Kočišová et al. Discriminant analysis as a tool for forecasting company's financial health
US20070124236A1 (en) Credit risk profiling method and system
Han et al. Orthogonal support vector machine for credit scoring
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
CN113298373A (zh) 一种金融风险评估方法、装置、存储介质和设备
US20220058431A1 (en) Semantic input sampling for explanation (sise) of convolutional neural networks
Kozodoi et al. Shallow self-learning for reject inference in credit scoring
Zhang et al. Order-restricted inference for clustered ROC data with application to fingerprint matching accuracy
CN112884480A (zh) 异常交易识别模型的构造方法、装置、计算机设备和介质
CN112348685A (zh) 信用评分方法、装置、设备及存储介质
CN111368837B (zh) 一种图像质量评价方法、装置、电子设备及存储介质
CN116308370A (zh) 异常交易识别模型的训练方法、异常交易识别方法及装置
CN112446505B (zh) 一种元学习建模方法及装置、电子设备、存储介质
CN114707420A (zh) 一种信贷欺诈行为识别方法、装置、设备及存储介质
CN113822751A (zh) 一种线上贷款的风险预测方法
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
Olsen et al. Predicting dactyloscopic examiner fingerprint image quality assessments
Kuzmin et al. Uncertainty Estimation for Debiased Models: Does Fairness Hurt Reliability?
CN116644372B (zh) 一种账户类型的确定方法、装置、电子设备及存储介质
CN115329968B (zh) 确定量子机器学习算法公平性的方法、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210511