CN114372867A - 用户信用度的验证评估方法、装置和计算机设备 - Google Patents
用户信用度的验证评估方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN114372867A CN114372867A CN202111663398.3A CN202111663398A CN114372867A CN 114372867 A CN114372867 A CN 114372867A CN 202111663398 A CN202111663398 A CN 202111663398A CN 114372867 A CN114372867 A CN 114372867A
- Authority
- CN
- China
- Prior art keywords
- data set
- user
- verification
- training model
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种用户信用度的验证评估方法、装置、计算机设备和存储介质。该方法包括:获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;将原始数据集进行预处理操作,得到已贷款用户的第一数据集;对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;根据验证权重值对已贷款用户的信用度进行验证评估。采用本方法能够更为精确有效的对用户的信用度进行验证评估。
Description
技术领域
本申请涉及信用评估技术领域,特别是涉及一种用户信用度的验证评估方法、装置、计算机设备和存储介质。
背景技术
目前,在小微贷款场景中,信用评估是一个不可缺少的环节。对于一个申请贷款的用户,如何正确评估其违约风险,并基于这个风险决定是否给予其贷款、贷款年限以及贷款利率均为贷款场景中最重要的环节之一。
由于,在小微风控建模中,个贷业务的数据量相对较少、好坏样本不平衡,多数商家在信用评估方面主要采用的是逻辑回归评分卡。
然而,众所周知,逻辑回归评分卡通常基于10个左右的特征变量进行预测评估时,虽然具有较强的可解释性,且每个变量可以复核其业务含义,但是,其本质上仍然是一个线性模型,对非线性的特征拟合效果较差,导致预测评估的准确率较低,尤其对于发票贷场景的应用效果更差。
发明内容
基于此,有必要针对上述技术问题,提供一种用户信用度的验证评估方法、装置、计算机设备和存储介质。
一方面,提供一种用户信用度的验证评估方法方法,该方法包括:
获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;
根据验证权重值对已贷款用户的信用度进行验证评估。
在其中一个实施例中,上述的将原始数据集进行预处理操作,得到已贷款用户的第一数据集,包括:
将原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,原始关联数据集包含多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;
对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
在其中一个实施例中,上述的对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集,包括:
将原始关联数据集中的原始关联空数据删除,得到数据处理集;
将数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
在其中一个实施例中,该方法中的预设方法包括斯皮尔曼相关性系数法;
通过斯皮尔曼相关性系数法计算得到第一数据集中开票特征信息和对应标签信息的相关性系数,根据相关性系数对第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
在其中一个实施例中,该方法中的预设方法还包括KS值法;
通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
在其中一个实施例中,该方法中的预设方法还包括随机森林筛选法;
通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,基于随机森林模型的训练结果对第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
在其中一个实施例中,上述的将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值,包括:
将验证评估数据集输入训练模型,其中,训练模型设置有多个;
获取设置的每个训练模型的训练参数,基于每个训练模型的训练参数得到每个训练模型的召回率和精准率;
通过召回率和精准率以及预设验证权重公式计算得到每个训练模型的验证权重值。
另一方面,提供了一种用户信用度的验证评估装置,该装置包括:
获取模块,用于获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
预处理模块,用于将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
特征筛选模块,用于对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
验证权重值计算模块,用于将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值;
验证评估模块,用于根据验证权重值对已贷款用户的信用度进行验证评估。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;
根据验证权重值对已贷款用户的信用度进行验证评估。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;
根据验证权重值对已贷款用户的信用度进行验证评估。
上述一种用户信用度的验证评估方法、装置、计算机设备和存储介质,首先,通过获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;然后,将原始数据集进行预处理操作,得到已贷款用户的第一数据集;对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;最后,将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;根据验证权重值对已贷款用户的信用度进行验证评估。通过上述操作在原训练模型的基础上引入装袋算法的思想对预测结果进行加权,获取到训练模型的验证权重值,将验证权重值应用于发票贷场景,方便业务人员基于训练模型的验证权重值对已贷款用户进行进一步的验证评估,进而达到提高预测评估的精确性的效果。
附图说明
图1为一个实施例中一种用户信用度的验证评估方法的应用环境图;
图2为一个实施例中一种用户信用度的验证评估方法的流程示意图;
图3为一个实施例中一种用户信用度的验证评估装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种用户信用度的验证评估方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取已贷款用户的原始数据集,将原始数据集进行预处理操作,得到已贷款用户的第一数据集;对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值;根据验证权重值对已贷款用户的信用度进行验证评估。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户信用度的验证评估方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息。
这里,已贷款用户即为已经有过贷款记录的用户;用户基本信息包括公司唯一标识、公司名称、经营时长以及法人信息等;开票特征信息包括近3个月的全部税额合计、有效票数张数合计、有效专票张数合计等,用户标签信息包括好用户信息和坏用户信息等;其中,被定义为好用户的即为贷款后没有过逾期记录的用户;被定义为坏用户的即为贷款后有过逾期记录且逾期天数超过90天的被定义为坏用户,对好用户进行标记得到好用户信息,对坏用户进行标记得到坏用户信息。
具体地,获取已贷款用户的原始数据集,即需要获取到所有已经贷过款的用户的原始数据,每个用户的原始数据至少包括用户基本信息、开票特征信息以及用户标签信息。
这里需要进一步说明的是,用户基本信息和开票特征信息包含的信息很多,尤其是开票特征信息,由于本申请的数据源主要源于发票贷数据,因此,获取的开票信息特征涉及的内容非常多,这里就不一一举例说明了。
步骤204,将原始数据集进行预处理操作,得到已贷款用户的第一数据集。
具体地,需要对原始数据集中的原始数据进行初步的预处理操作,初步的预处理操作包括但不限于对原始空数据和原始无用数据的处理,经过初步的预处理操作后,得到已贷款用户的第一数据集。
步骤206,对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集。
具体地,采用预设方法对第一数据集内的开票特征信息进行进一步的筛选操作,使得最终得到的验证评估数据集内的验证评估数据更具代表性。
步骤208,将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值。
这里,需要说明的是,训练模型设置有多个,在获取到设置的每个训练模型的训练参数后,基于每个训练模型的训练参数便可得到每个训练模型的召回率和精准率;通过召回率和精准率以及预设验证权重公式计算得到每个训练模型的验证权重值。
同时,验证评估数据集中的数据还需要进行进一步的划分,将其划分为数据训练集和数据验证集,具体划分情况根据已贷款用户的数量而定;其中,利用数据训练集中的训练数据进行训练得到预测概率的过程就是常规的模型训练的过程,此处不再赘述,本申请的关键在于基于装袋算法的思想对预测结果进行加权,并将加权后的预测概率应用于发票场景评分,从而提升预测评分的精确性。
具体地,将数据验证集中的验证数据输入训练模型中进行训练,得到训练模型的预测概率。由于,训练模型设置有多个,当每个训练模型的训练参数不同时,得到的训练模型的权重结果也就不同,基于每个训练模型的训练参数首先可得到每个训练模型的召回率和精准率。
这里,召回率和精准率在训练模型中的预置公式如下:
其中,recall表示召回率,precision表示精确率,TP表示为被正确的预测为正样本的个数;FN表示为被错误的预测为负样本的数量;FP表示被错误的预测为正样本的个数。
当召回率和精确率均已知后,便可得到F0.5的值,F0.5在训练模型中的预置公式为:
再通过F0.5的值以及预设验证权重公式计算得到每个训练模型的验证权重值。
这里,预设验证权重公式如下:
其中,N代表的训练模型的个数,i代表的为第i个训练模型,weight(i)代表第i个训练模型的验证权重值,oobF0.5代表袋外样本(out-of-bag)在该模型上的F0.5值。这里的袋外样本即为将数据验证集中的验证数据输入到训练模型后得到的F0.5的值。
为了方便理解,这里简单举例说明一下,例如,获取的设置训练模型的参数如下:学习率0.08,总共迭代次数为50,树的深度为5,惩罚项系数gamma为0,训练每棵树时使用的数据占全部训练集的比例设为0.9。
将数据验证评估集中的验证评估数据经过划分后得到的数据验证集中的验证数据为200条,200条验证数据中有136个被标记为正样本,64个被标记为负样本。当将其输入到训练模型后经过训练,136个正样本中被正确预测为正样本的为99个,被错误预测为负样本的为37个;64个负样本中被正确的预测为负样本的为63个,被错误的预测为正样本的是1个,则训练模型可以直接根据预置公式得到:
当得到recall和precision的值后,F0.5的值便已知即为0.87。
当训练模型的个数和oobF0.5(i)的值均已知后,根据预设验证权重公式便可得到weigth(i)的值即为0.19,进而根据weigth(i)的值对训练模型的预测概率进行进一步的验证。
步骤210,根据验证权重值对已贷款用户的信用度进行验证评估。
具体地,当获取到训练模型的验证权重值之后,便可对已贷款用户的信用度进行验证评估,决定是否给予其放款的权限。这里,具体验证评估的过程需要业务人员结合业务场景以及训练模型的验证权重值来进行综合考量,并没有特别确切的标准,本申请的关键在于训练模型的验证权重值的获取,进而结合获取到的验证权重值来进行验证评估。
上述一种用户信用度的验证评估方法、装置、计算机设备和存储介质,首先,通过获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;然后,将原始数据集进行预处理操作,得到已贷款用户的第一数据集;对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;最后,将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;根据验证权重值对已贷款用户的信用度进行验证评估。通过上述操作在原训练模型的基础上引入装袋算法的思想对预测结果进行加权,获取到训练模型的验证权重值,将验证权重值应用于发票贷场景,方便业务人员基于训练模型的验证权重值对已贷款用户进行进一步的验证评估,同时,以F0.5误差指标对不平衡分类问题进行有效验证评估,进而达到提高预测评估的精确性的效果。
在其中一个实施例中,上述的将原始数据集进行预处理操作,得到已贷款用户的第一数据集,具体还包括如下步骤:
将原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,原始关联数据集包含多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
具体地,由于每个用户都有其自身唯一标识,在获取到原始数据集后,根据企业唯一标识,便可以把每一个用户的原始数据关联起来组合成宽表,进而得到原始关联数据集。其宽表从字面意义上讲就是字段比较多的数据库表,通常涉及到的字段有与业务主题相关的指标、维度和属性等。本申请中将发票数据张数、发票总金额以及单个发票金额占比等各维度数据按照企业唯一标识进行关联组合成宽表。这里,宽表中的所有数据可以看作是一个集合,即为原始关联数据集。其中,原始关联数据集包括多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括已贷款用户的用户基本信息、开票特征信息以及用户标签信息等。
对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集,具体包括将原始关联数据集中的原始关联空数据删除,得到数据处理集;将数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
具体地,将原始关联数据集中的原始关联空数据删除,因为空的数据即使后期输入到训练模型中也是没有任何意义的,将原始关联空数据删除后得到数据处理集。再将数据处理集中相同开票特征信息的取值唯一的开票特征删除,其涉及到关于同质变量的处理,即为变量取值只有一种的情况,将其删除。这里举例说明一下,例如有三个用户(当然,一般正常可能会有几万个用户,这里为了方便说明,举的简单一点),三个用户中都有发票数据张数这一开票特征信息,需要强调的是开票特征信息包括开票特征类型以及开票特征类型对应的数值,当发票数据张数这一开票特征类型对应的数值相同时,假如都为5,则将这三个客户的发票数据张数这一开票特征删除,得到已贷款用户的第一数据集。
这里需要强调的是,对于一些类别型变量需要对其进行编码,由于输入到训练模型的数据要求必须是数字类型,虽然,我们经常采用One-Hot编码和LabelEncoder编码两种编码方式对类别型变量进行编码。但由于One-Hot编码生成的变量个数过多,容易产生高维度的问题。因此,本申请采用LabelEncoder编码(现有技术,此处不再赘述)的方式将类别型变量统一成数字型变量,方便后期输入到训练模型中进行训练。
通过上述操作,对原始数据集中的原始数据进行预处理,进而,得到已贷款用户的第一数据集,为最终输入到训练模型中的数据做初步的处理。
在其中一个实施例中,该方法中的预设方法包括斯皮尔曼相关性系数法;通过斯皮尔曼相关性系数法计算得到第一数据集中开票特征信息和对应标签信息的相关性系数,根据相关性系数对第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
具体地,斯皮尔曼相关性系数法主要用来衡量两个变量的依赖性的非参数指标,它利用单调方程评价两个统计变量的相关性。对于斯皮尔曼相关性系数法的具体计算过程因为其也为现有技术,此处不再详细赘述,只是在本申请中针对的两个变量为第一数据集中开票特征信息和对应标签信息之间的相关性。例如,开票特征信息为开票张数,则斯皮尔曼相关性系数即为开票张数和用户标签的关系,这里,根据业务场景的不同,相关性系数的参照标准是不一样,但是其大范围是0-1之间,工作人员根据业务情况且结合相关性系数情况对第一数据集中的开票特征信息进行筛选,将相关性系数较低的开票特征信息删除,得到第一筛选数据集。
在其中一个实施例中,该方法中的预设方法还包括KS值法;通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
这里,通过计算不同特征的KS值,KS指标越大,说明该特征区分好坏样本的能力越强。
具体地,通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,这里的预设公式的表达式如下:
其中,i对应某个特征,CumBadi表示i个特征在第一筛选数据集对应被标记为坏用户的个数累加;Badtotal表示在第一筛选数据集所有被标记为坏用户的个数;CumGoodi表示i个特征在第一筛选数据集对应被标记为好用户的个数累加,Goodtotal表示在第一筛选数据集所有被标记为好用户的个数。
这里举例说明一下,例如,发票张数这个特征对应的数值为5,若第一筛选数据集中有100个第一筛选数据,CumBadi表示的为100个第一筛选数据中发票张数这个特征对应的数值为5的且被标记为坏用户的个数,Badtotal表示的为100个第一筛选数据所有被标记为坏用户的个数,CumGoodi和Goodtotal类同,此处不再赘述。这里需要强调的是,当对下一个发票特征信息中的发票特征进行计算时,CumBadi表示的为符合当前条件的发票特征个数和上一符合条件的发票特征的个数的累加。通过计算,将第一筛选数据集中不符合KS值要求的对应的开票特征信息删除,进而得到第二筛选数据集。
在其中一个实施例中,该方法中的预设方法还包括随机森林筛选法;通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,基于随机森林模型的计算结果对第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
这里,随机森林筛选法其元学习器为决策树,用于搜寻与因变量强相关的特征变量为目标,使用随机森林法对训练集内的数据进行拟合,可得到各变量的特征重要性,从而选择合适数量的特征且能够充分对因变量进行预测,此训练模型基于以下公式:
FI=RF(X)
其中,FI代表特征重要性的值,RFI表示特征相对重要性的值,j表示的是某个特征。
具体地,通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,便可以直接得到特征相对重要性的值,例如,这里举例说明一下,开票特征信息包括:有效票数张数、有效专票张数以及全部票数总额,将上述特征输入到随机森林模型中,便可得到有效票数张数的特征重要性为0.037,有效专票张数的特征重要性为0.057,全部票数总额的特征重要性为0.032,则有效票数张数的特征相对重要性的值为0.561,有效专票张数的特征相对重要性为1,全部票数总额的特征相对重要性为0.649。
基于随机森林模型的计算结果对第二筛选数据集中的开票特征信息进行筛选,将不符合条件的再次删除,得到验证评估数据集。
通过上述三种方式的筛选操作,对第一数据集中的数据特征进行层层筛选,得到验证评估数据集,完成对数据特征的筛选操作。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种用户信用度的验证评估装置,包括:获取模块302、预处理模块304、特征筛选模块306、验证权重值计算模块308以及验证评估模块310,其中:
获取模块302,用于获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
预处理模块304,用于将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
特征筛选模块306,用于对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
验证权重值计算模块308,用于将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值;
验证评估模块310,用于根据验证权重值对已贷款用户的信用度进行验证评估。
在一个实施例中,预处理模块304,还用于:
将原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,原始关联数据集包含多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;
对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
在一个实施例中,上述的对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集,具体还用于:
将原始关联数据集中的原始关联空数据删除,得到数据处理集;
将数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
在一个实施例中,该装置中的预设方法包括斯皮尔曼相关性系数法;
通过斯皮尔曼相关性系数法计算得到第一数据集中开票特征信息和对应标签信息的相关性系数,根据相关性系数对第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
在一个实施例中,该装置中的预设方法还包括KS值法;
通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
在一个实施例中,该装置中的预设方法还包括随机森林筛选法;
通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,基于随机森林模型的计算结果对第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
在一个实施例中,上述的将将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值,包括:
将验证评估数据集输入训练模型,其中,训练模型设置有多个;
设置每个训练模型的训练参数,通过每个训练模型的训练参数得到每个训练模型的召回率和精准率;
通过召回率和精准率以及预设验证权重公式计算得到每个训练模型的验证权重值。
关于一种用户信用度的验证评估装置的具体限定可以参见上文中对于一种用户信用度的验证评估方法的限定,在此不再赘述。上述一种用户信用度的验证评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储已贷款用户数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种一种用户信用度的验证评估方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;
根据验证权重值对已贷款用户的信用度进行验证评估。
在一个实施例中,在处理器执行计算机程序实现上述的将原始数据集进行预处理操作,得到已贷款用户的第一数据集的步骤时,具体还实现以下步骤:
将原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,原始关联数据集包含多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;
对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
在一个实施例中,在处理器执行计算机程序实现上述的对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集的步骤时,具体还实现以下步骤:
将原始关联数据集中的原始关联空数据删除,得到数据处理集;
将数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
在一个实施例中,在处理器执行计算机程序时,预设方法包括斯皮尔曼相关性系数法;
通过斯皮尔曼相关性系数法计算得到第一数据集中开票特征信息和对应标签信息的相关性系数,根据相关性系数对第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
在一个实施例中,在处理器执行计算机程序时,预设方法还包括KS值法;
通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
在一个实施例中,在处理器执行计算机程序时,预设方法还包括随机森林筛选法;
通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,基于随机森林模型的训练结果对第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
在一个实施例中,在处理器执行计算机程序实现上述的将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值的步骤时,具体还实现以下步骤:
将验证评估数据集输入训练模型,其中,训练模型设置有多个;
获取设置的每个训练模型的训练参数,基于每个训练模型的训练参数得到每个训练模型的召回率和精准率;
通过召回率和精准率以及预设验证权重公式计算得到每个训练模型的验证权重值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取已贷款用户的原始数据集,其中,原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将验证评估数据集输入训练模型,同时获取设置的训练模型的训练参数,得到训练模型的验证权重值;
根据验证权重值对已贷款用户的信用度进行验证评估。
在一个实施例中,在计算机程序被处理器执行上述的将原始数据集进行预处理操作,得到已贷款用户的第一数据集的步骤时,具体还实现以下步骤:
将原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,原始关联数据集包含多条原始关联数据,每条原始关联数据对应每个已贷款用户,且每条原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;
对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
在一个实施例中,在计算机程序被处理器执行上述的对原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集的步骤时,具体还实现以下步骤:
将原始关联数据集中的原始关联空数据删除,得到数据处理集;
将数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
在一个实施例中,在计算机程序被处理器执行时,预设方法包括斯皮尔曼相关性系数法;
通过斯皮尔曼相关性系数法计算得到第一数据集中开票特征信息和对应标签信息的相关性系数,根据相关性系数对第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
在一个实施例中,在计算机程序被处理器执行时,预设方法还包括KS值法;
通过KS值法中的预设公式计算得到第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
在一个实施例中,在计算机程序被处理器执行时,预设方法还包括随机森林筛选法;
通过随机森林筛选法将第二筛选数据集中的开票特征信息输入随机森林模型中,基于随机森林模型的训练结果对第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
在一个实施例中,在计算机程序被处理器执行上述的将验证评估数据集输入训练模型,同时设置训练模型的训练参数,得到训练模型的验证权重值的步骤时,具体还实现以下步骤:
将验证评估数据集输入训练模型,其中,训练模型设置有多个;
获取设置的每个训练模型的训练参数,基于每个训练模型的训练参数得到每个训练模型的召回率和精准率;
通过召回率和精准率以及预设验证权重公式计算得到每个训练模型的验证权重值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种用户信用度的验证评估方法,所述方法包括:
获取已贷款用户的原始数据集,其中,所述原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
将所述原始数据集进行预处理操作,得到已贷款用户的第一数据集;
对所述第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
将所述验证评估数据集输入训练模型,同时获取设置的所述训练模型的训练参数,得到训练模型的验证权重值;
根据所述验证权重值对所述已贷款用户的信用度进行验证评估。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始数据集进行预处理操作,得到已贷款用户的第一数据集,包括:
将所述原始数据集中的原始数据按照用户唯一标识进行关联,得到原始关联数据集;其中,所述原始关联数据集包含多条原始关联数据,每条所述原始关联数据对应每个已贷款用户,且每条所述原始关联数据包括用户基本信息、开票特征信息以及用户标签信息;
对所述原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始关联数据集中的原始关联数据进行操作,得到已贷款用户的第一数据集,包括:
将所述原始关联数据集中的原始关联空数据删除,得到数据处理集;
将所述数据处理集中相同开票特征信息的取值唯一的开票特征删除,得到已贷款用户的第一数据集。
4.根据权利要求1所述的方法,其特征在于,所述预设方法包括斯皮尔曼相关性系数法;
通过所述斯皮尔曼相关性系数法计算得到所述第一数据集中开票特征信息和对应标签信息的相关性系数,根据所述相关性系数对所述第一数据集中的开票特征信息进行筛选,得到第一筛选数据集。
5.根据权利要求4所述的方法,其特征在于,所述预设方法还包括KS值法;
通过所述KS值法中的预设公式计算得到所述第一筛选数据集中的每个发票特征信息的KS值,基于每个发票特征信息的KS值对所述第一筛选数据集中的开票特征信息进行筛选,得到第二筛选数据集。
6.根据权利要求5所述的方法,其特征在于,所述预设方法还包括随机森林筛选法;
通过所述随机森林筛选法将所述第二筛选数据集中的开票特征信息输入所述随机森林模型中,基于所述随机森林模型的训练结果对所述第二筛选数据集中的开票特征信息进行筛选,得到验证评估数据集。
7.根据权利要求6所述的方法,其特征在于,所述将所述验证评估数据集输入训练模型,同时获取设置的所述训练模型的训练参数,得到训练模型的验证权重值,包括:
将所述验证评估数据集输入训练模型,其中,所述训练模型设置有多个;
获取设置的每个所述训练模型的训练参数,基于每个所述训练模型的训练参数得到每个所述训练模型的召回率和精准率;
通过所述召回率和所述精准率以及预设验证权重公式计算得到每个所述训练模型的验证权重值。
8.一种用户信用度的验证评估装置,其特征在于,所述装置包括:
获取模块,用于获取已贷款用户的原始数据集,其中,所述原始数据集至少包括用户基本信息、开票特征信息以及用户标签信息;
预处理模块,用于将所述原始数据集进行预处理操作,得到已贷款用户的第一数据集;
特征筛选模块,用于对所述第一数据集内的开票特征信息采用预设方法进行特征筛选得到验证评估数据集;
验证权重值计算模块,用于将所述验证评估数据集输入训练模型,同时设置所述训练模型的训练参数,得到训练模型的验证权重值;
验证评估模块,用于根据所述验证权重值对所述已贷款用户的信用度进行验证评估。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111663398.3A CN114372867A (zh) | 2021-12-31 | 2021-12-31 | 用户信用度的验证评估方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111663398.3A CN114372867A (zh) | 2021-12-31 | 2021-12-31 | 用户信用度的验证评估方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372867A true CN114372867A (zh) | 2022-04-19 |
Family
ID=81141861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111663398.3A Pending CN114372867A (zh) | 2021-12-31 | 2021-12-31 | 用户信用度的验证评估方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372867A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579020A (zh) * | 2023-07-04 | 2023-08-11 | 深圳前海环融联易信息科技服务有限公司 | 基于隐私保护的校园风险预测方法、装置、设备及介质 |
-
2021
- 2021-12-31 CN CN202111663398.3A patent/CN114372867A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579020A (zh) * | 2023-07-04 | 2023-08-11 | 深圳前海环融联易信息科技服务有限公司 | 基于隐私保护的校园风险预测方法、装置、设备及介质 |
CN116579020B (zh) * | 2023-07-04 | 2024-04-05 | 深圳前海环融联易信息科技服务有限公司 | 基于隐私保护的校园风险预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818344B (zh) | 用户行为进行分类和预测的方法和系统 | |
CN110516910B (zh) | 基于大数据的保单核保模型训练方法和核保风险评估方法 | |
CN109858737B (zh) | 基于模型部署的评分模型调整方法、装置和计算机设备 | |
D’Ambros et al. | Evaluating defect prediction approaches: a benchmark and an extensive comparison | |
CN111176990A (zh) | 基于数据决策的测试数据生成方法、装置、计算机设备 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN111241161A (zh) | 发票信息挖掘方法、装置、计算机设备及存储介质 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN114372867A (zh) | 用户信用度的验证评估方法、装置和计算机设备 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN114881343B (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
CN115759742A (zh) | 企业风险评估方法、装置、计算机设备和存储介质 | |
CN115630221A (zh) | 终端应用界面展示数据处理方法、装置及计算机设备 | |
CN114998001A (zh) | 业务类别识别方法、装置、设备、存储介质和程序产品 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US20220215142A1 (en) | Extensible Agents in Agent-Based Generative Models | |
CN111008038B (zh) | 一种基于逻辑回归模型的pull request被合并概率的计算方法 | |
WO2022150343A1 (en) | Generation and evaluation of secure synthetic data | |
CN113935788A (zh) | 模型评估方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |