CN113362159A - 一种用户信用度的确定方法、装置和设备 - Google Patents
一种用户信用度的确定方法、装置和设备 Download PDFInfo
- Publication number
- CN113362159A CN113362159A CN202110629917.8A CN202110629917A CN113362159A CN 113362159 A CN113362159 A CN 113362159A CN 202110629917 A CN202110629917 A CN 202110629917A CN 113362159 A CN113362159 A CN 113362159A
- Authority
- CN
- China
- Prior art keywords
- behavior
- information set
- user
- target user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 239000002245 particle Substances 0.000 claims abstract description 24
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 21
- 230000006399 behavior Effects 0.000 claims description 153
- 238000012545 processing Methods 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本说明书实施例提供了一种用户信用度的确定方法、装置和设备,涉及人工智能技术领域,其中,该方法包括:从多个数据源中获取目标用户的行为信息;根据关键要素合并多个数据源中所述目标用户的行为信息,得到目标用户的行为特征信息集;基于目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,表征值用于表示目标用户的信用度。在本说明书实施例中,由于采用了结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型,从而可以基于用户的行为特征高效、准确地确定出用户的信用度。
Description
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种用户信用度的确定方法、装置和设备。
背景技术
自次贷危机爆发以来,信贷风险管理已成为金融机构的首要关注焦点。现有技术中,银行和金融机构通常是依赖于相对固定的决策规则和人为判断来对客户进行信用风险评估。这种以专家系统方式进行的决策一定程度上掺杂主观性,不足以全面客观地评估客户潜在的信贷风险问题。由此可见,采用现有技术中的技术方案无法准确地确定用户的信用度。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种用户信用度的确定方法、装置和设备,以解决现有技术中无法准确地确定用户的信用度的问题。
本说明书实施例提供了一种用户信用度的确定方法,包括:从多个数据源中获取目标用户的行为信息;根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
本说明书实施例还提供了一种用户信用度的确定装置,包括:获取模块,用于从多个数据源中获取目标用户的行为信息;合并模块,用于根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;确定模块,用于基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
本说明书实施例还提供了一种用户信用度的确定设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中所述用户信用度的确定方法的步骤。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中所述用户信用度的确定方法的步骤。
本说明书实施例提供了一种用户信用度的确定方法,可以从多个数据源中获取目标用户的行为信息,并根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集。进一步的,可以基于所述目标用户的行为特征信息集,利用结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型确定所述目标用户的表征值,其中,上述表征值用于表示所述目标用户的信用度。由于采用了结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型,从而可以基于用户的行为特征高效、准确地确定出用户的信用度。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:
图1是根据本说明书实施例提供的用户信用度的确定方法的步骤示意图;
图2是根据本说明书实施例提供的进行均衡处理的过程的示意图;
图3是根据本说明书实施例提供的用户信用度的确定装置的结构示意图;
图4是根据本说明书实施例提供的用户信用度的确定设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
请参阅图1,本实施方式可以提供一种用户信用度的确定方法。该用户信用度的确定方法可以用于利用结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型,基于用户的行为特征高效、准确地确定出用户的信用度。上述用户信用度的确定方法可以包括以下步骤。
S101:从多个数据源中获取目标用户的行为信息。
在本实施方式中,由于系统中可能包含多个数据源,为了确保获取的目标用户的行为信息的完整性,因此,可以从多个数据源中获取目标用户的行为信息。例如,银行系统中可以包含5个数据源:客户负债信息表、逾期还款信息表、高法失信客户表、客户资产表、客户个人信息表,可以从这些数据源中分别获取目标用户的行为信息。当然,获取目标用户的行为信息方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,上述行为信息可以用于表征目标用户历史的资源转移行为,例如:资源转移金额、资源转移的时间等,具体的可以根据实际的应用场景确定,本说明书实施例对此不作限定。
在本实施方式中,上述目标用户可以为系统中需要评估信用度的用户,或者可以为系统外部的用户,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S102:根据关键要素合并多个数据源中目标用户的行为信息,得到目标用户的行为特征信息集。
在本实施方式中,为了便于体现目标用户完整的行为信息,可以根据关键要素合并所述多个数据源中所述目标用户的行为信息,从而确保同一关键要素下的所有信息可以汇总到一起,拼凑得到以自然人为基本粒度的一份完整的行为信息。例如,可以按照姓名、证件类型和证件号码将同一用户持有的不同客户编号、不同银行卡号、不同银行账户下的所有信息都能汇总到一起。当然,根据关键要素合并的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,由于初始获得的行为信息可能不完全符合目标预测模型输入的要求,因此,可以在合并多个数据源中所述目标用户的行为信息时进行处理,例如:累加、取最大值、取最小值等,从而得到目标用户的多个行为特征,进而得到目标用户的行为特征信息集。
在本实施方式中,上述关键要素可以为一个或多个,关键要素可以用于唯一确定一个用户,上述关键要素可以为姓名、证件类型、证件号码,当然可以理解的是上述关键要素还可以为其它信息,例如:银行卡号、电话号码、用户编号等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述目标用户的行为特征信息集中可以包含多个目标用户的行为特征,上述行为特征信息集可以以表格、文本等形式进行存储。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S103:基于目标用户的行为特征信息集,利用目标预测模型确定目标用户的表征值;其中,目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,表征值用于表示目标用户的信用度。
在本实施方式中,可以基于目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值。其中,上述目标预测模型可以是为结合粒子群算法、前馈神经网络和Adam优化算法预先训练得到的用于根据用户的行为特征确定用户的信用度的神经网络模型。其中,上述Adam(Adaptive moment estimation,适应性矩估计)优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。
在本实施方式中,粒子群算法(PSO,Particle Swarm Optimization)也称粒子群优化算法或鸟群觅食算法,是一种进化计算技术,粒子群算法在对动物集群活动行为观察基础上,利用群体中的个体对信息的共享使整个群体的运动在问题求解空间中产生从无序到有序的演化过程,从而获得最优解。上述前馈神经网络可以为BP(Back Propagation)神经网络,BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。
在本实施方式中,上述目标预测模型的输入数据为目标用户的多个行为特征,输出数据为目标用户的表征值。其中,上述表征值可以用户标识目标用户的信用度。在一些实施例中,上述表征值可以为大于0的数值,例如:0、1,0表示目标用户信用度高不存在信用风险,1表示目标用户信用度低存在信用风险。当然,表征值不限于上述举例,还可以为高、中、低等数值,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:可以从多个数据源中获取目标用户的行为信息,并根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集。进一步的,可以基于所述目标用户的行为特征信息集,利用结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型确定所述目标用户的表征值,其中,上述表征值用于表示所述目标用户的信用度。由于采用了结合粒子群算法、前馈神经网络和Adam优化算法训练得到的目标预测模型,从而可以基于用户的行为特征高效、准确地确定出用户的信用度。
在一个实施方式中,根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集,可以包括:获取主副客编关系表,并根据所述主副客编关系表中的关键要素,对所述多个数据源中所述目标用户的行为信息进行累加计算,得到多个行为特征。进一步的,可以将所述多个行为特征作为所述目标用户的行为特征信息集。
在本实施方式中,由于数据库里记录的信息大体上都以“客户编号”的粒度存放记录。但对于同一个用户而言,由于其可能涉及多个业务,因此,在系统内可能会具有多个用户编号。例如:在银行业务系统内同一用户可能会持有一张信用卡、一个存折,那就对应着两个客户编号。因此,可以根据主副客编关系表中的关键要素信息去合并同一自然人名下的所有信息。
在本实施方式中,上述主副客编关系表的思想是:挑选最早的一条开户记录作为主客编,后续开通的视作副客编,主副客编关系表中可以包含多个关键要素,例如:姓名、证件类型、证件号、主客编、一般客编等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,由于初始获得的行为信息可能与目标预测模型要求输入的行为特征存在差异,例如:获取的行为信息为用户历史所有的资源转移明细,而要求输入的行为特征为历史资源转移的最大金额,此时则需要对行为信息进行累加计算等处理,从而得到对应的行为特征。其中,累加计算的处理方式可以包括:求和、取最大值、取最小值、取平均值等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,行为特征可以包括:预设时间段内逾期平台数、预设时间段内逾期总次数、预设时间段内逾期总金额、预设时间段内逾期最大金额、预设时间段内成功还款次数、预设时间段内成功还款总金额、预设时间段内成功还款最大金额、预设时间段内平均月应还款额、预设时间段内最大月应还款额、预设时间段内申请平台数、预设时间段内申请总次数、预设时间段内申请总金额、预设时间段内申请平均月应还款额、预设时间段内申请最大月应还款额等。
在本实施方式中,在贷款的应用场景下目标用户可以为当前正在申请贷款的用户或者外部用户,行为信息可以包括:还款信息和申请信息等。上述预设时间段可以为在当前时刻的前三个月内、在当前时刻的前六个月内或者历史记录的所有时刻,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一些实施例中,行为特征信息集中包含的行为特征可以如表1中所示。
表1
在一个实施方式中,所述关键要素可以包括:姓名、证件类型、证件号码等。
在本实施方式中,上述关键要素可以为一个或多个,关键要素可以用于唯一确定一个用户。当然可以理解的是上述关键要素还可以为其它信息,例如:银行卡号、电话号码等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,在基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值之前,还可以包括:获取初始行为特征样本信息集;其中,所述初始行为特征样本信息集中包含多组行为特征。可以对所述初始行为特征样本信息集进行预处理,得到训练样本信息集。进一步的,可以利用所述训练样本信息集结合粒子群算法、前馈神经网络和Adam优化算法进行训练,得到所述目标预测模型。
在本实施方式中,可以基于系统中已记录的用户行为信息生成初始行为特征样本信息集,其中,所述初始行为特征样本信息集中可以包含多组行为特征,每组行为特征对应一个样本用户。在一些实施例中,上述初始行为特征样本信息集中还可以包含各个样本用户的标签(表征值),例如:可以对目前已知的失信客户和信用良好的客户分类添加0-1标签以供后续阶段的模型训练,对在逾期还款相关数据表中有记录的用户设置标签值为1,反之为0。当然,表征值设置的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,上述初始行为特征样本信息集的每组数据中还可以包含对应的样本用户的主客户编号,用于标识不同的样本用户。当然可以理解的是也可以利用其它信息标识样本用户,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,可以按固定频度,例如以日频或月频在Hadoop平台侧进行新增数据的批量收集和计算,并将其纳入增量表。再更新全量表中维护的各项数据指标,形成最新可供训练的数据,从而保证数据的有效性和时效性。其中,Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
在本实施方式中,由于获得初始行为特征样本信息集的格式等可能不符合模型的输入要求,因此,可以先对初始行为特征样本信息集进行预处理,得到训练样本信息集。并利用训练样本信息集结合粒子群算法、前馈神经网络和Adam优化算法进行训练,得到所述目标预测模型。
在本实施方式中,为了得到全局最优、速度较快的前馈网络,可以采用PSO算法和BP算法结合的方法训练:首先利用PSO算法和全局寻优和收敛速度快的特点,训练网络的权值。在利用BP算法具有无穷逼近能力且局部寻优能力强等特点,再用PSO算法得到一个接近最优解的空间中,使用BP算法进一步寻优得到网络权值的最优值。假设将用户的行为特征抽取成了一条20个字段的数据,那么对于BP神经网络而言输入层节点数量就是20,再假设模型具有10个节点的中间层和2个节点的输出层(表示输出信用度高的用户和信用度低的用户),加上每层节点的偏置值数量,对于整个模型而言总共有20×10+10+10×2+2=232个参数。可以视这样一组完整参数为一个粒子,并且赋予其一个同样维数的速度属性,可以在训练模型之初随机生成若干个这样的粒子,让它们在迭代过程中逐渐向全局最优解收敛。
在本实施方式中,可以将一个完整的PSO-BP视为一个弱分类器,使用Adam优化算法将若干个PSO-BP整合为一个强分类器,从而训练得到目标预测模型。
在一个实施方式中,对所述行为特征样本信息集进行预处理,得到训练样本信息集,可以包括:利用合成少数类过采样技术对所述初始行为特征样本信息集进行均衡处理,得到第一行为特征样本信息集。可以对所述第一行为特征样本信息集进行归一化处理,得到第二行为特征信息集。进一步的,可以根据所述第二行为特征信息集随机生成训练样本信息集和测试样本信息集。
在本实施方式中,由于实际采集到的行为特征样本数据中正样本(信用度高)与负样本(信用度低)的数据量分布不平衡,因此,需要利用合成少数类过采样技术(SMOTE)对所述初始行为特征样本信息集进行均衡处理,得到第一行为特征样本信息集。例如,在贷款场景下,贷款用户占整体用户的极小部分,逾期、失信用户占贷款用户的极小部分,即逾期、失信用户数远小于正常用户数。若不经过预处理,直接使用原始数据进行训练,会导致模型存在严重偏向性,无法正确判断出潜在风险。因此在数据预处理阶段可以采取合成少数类过采样技术,基于样本空间中样本类的相似性,人为对数量较少的那一类样本进行合成。可以根据信用度低的用户和信用度高的用户数量之间的不平衡比例,设定参数合成信用度低的用户样本。
在本实施方式中,当给定初始行为特征样本信息集:
T={(x1,y1),(x2,y2),…,(xn,yn)}
其中,xn为第n个样本用户的行为特征,yn为第n个样本用户的标签(表征值,1或0)。生成样本策略为,对于信用度低的用户的那部分子集中的每条数据xi,识别出样本空间中k个最近邻,按如下策略生成k个人造信用度低的样本用户。
其中,xnew为生成的人造信用度低的样本用户;δ为(0,1]之间的随机数;xi是第i个样本用户的行为特征;是样本xi在样本空间中的k个最近邻样本的其中之一。对于诸如本例这样的二分类问题,可以简单地通过这种方式人为控制样本的正负比例,从而优化模型训练结果。进行均衡处理的过程可以如图2中所示,其中,圆形部分为信用度高的样本用户,三角形部分为信用度低的样本用,正方形部分为人造信用度低的样本用户。
在本实施方式中,由于不同行为特征之间差异会根据业务场景有明显的不同,表现在分布上不平均,且最大值与最小值之间有巨大的数量级差距。如果直接使用原始数据以及人工生成的数据进行下一阶段的模型训练,会使得整个模型的训练结果严重倾向于某一个或几个拥有较多训练样本的区间,而其它数据将相对而言失去意义,从而导致数据倾斜现象。因此,可以对所述第一行为特征样本信息集进行归一化处理,得到第二行为特征信息集,使每个训练样本中的所有行为特征在特征空间中对样本距离产生的影响是同级别的。
在本实施方式中,可以按照预设比例将第二行为特征信息集随机生成训练样本信息集和测试样本信息集,上述预设比例可以为3:2,也可以为4:1,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在一个实施方式中,对所述第一行为特征样本信息集进行归一化处理,得到第二行为特征信息集,可以包括:对所述第一行为特征样本信息集中涉及金额的行为特征进行归一化处理,得到第二行为特征信息集。
在本实施方式中,在涉及金融场景的情况下,上述第一行为特征样本信息集会存在一些涉及金额的行为特征,例如:申请金额、还款金额、逾期金额等。对于具备这种属性的数据来说,个体之间差异会根据业务场景有明显的不同。表现在分布上不平均,且最大值与最小值之间有巨大的数量级差距。如果直接使用原始数据以及人工生成数据进行下一阶段的模型训练,整个模型的训练结果会严重倾向于某一个或几个拥有较大交易笔数和交易金额的区间,而其它数据将相对而言失去意义。因此,可以针对涉及金额的行为特征采取z-score归一化策略,假设有涉及金额的行为特征M,则对于第一行为特征样本信息集,可以按照下述公式对M进行归一化处理。
其中,M为原始值;M'为归一化后的值;μ为第一行为特征样本信息集中该类行为特征的平均值;σ为第一行为特征样本信息集中该类行为特征的标准差。这样可以使可能发生的最大值、最小值都未知的涉及金额的行为特征,依然满足均值0方差1的相对平稳分布,尽可能削弱最频繁出现区间内的数据对模型整体造成的负面影响。
在一个实施方式中,在基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值之后,还可以包括:将所述目标用户的表征值反馈给目标处理对象。
在本实施方式中,可以将训练得到的目标预测模型整合进后台批量计算服务器上,例如在Hadoop或MPP服务器上部署并对当前正在申请贷款的用户或外部用户进行批量计算,最终得到各个目标用户的表征值,并将确定的表征值反馈给对应的处理对象的终端。其中,上述处理对象可以为业务人员,上述MPP(Massively Parallel Processing,大规模并行处理),每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。
在本实施方式中,处理对象可以根据确定各个目标用户的表征值清晰认知已有用户的价值,充分利用手上的海量数据,对可以提供贷款或不可以提供贷款的用户进行准确甄别;对外而言,可以利用表征值评估外部数据,以点对点的方式,有目的性和针对性地推广个人贷款产品,拓宽市场,筛选出潜在优质用户。从而可以为用户经理提供强有力的技术支持,作为辅助手段去拓宽市场、寻找潜在的用户,从海量数据中挖掘价值的同时控制规避风险,最大化收益。
基于同一发明构思,本说明书实施例中还提供了一种用户信用度的确定装置,如下面的实施例所述。由于用户信用度的确定装置解决问题的原理与用户信用度的确定方法相似,因此用户信用度的确定装置的实施可以参见用户信用度的确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本说明书实施例的用户信用度的确定装置的一种结构框图,如图3所示,可以包括:获取模块301、合并模块302、确定模块303,下面对该结构进行说明。
获取模块301,可以用于从多个数据源中获取目标用户的行为信息。
合并模块302,可以用于根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集。
确定模块303,可以用于基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
本说明书实施例实施方式还提供了一种电子设备,具体可以参阅图4所示的基于本说明书实施例提供的用户信用度的确定方法的电子设备组成结构示意图,所述电子设备具体可以包括输入设备41、处理器42、存储器43。其中,所述输入设备41具体可以用于输入多个数据源中目标用户的行为信息。所述处理器42具体可以用于根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。所述存储器43具体可以用于存储目标用户的表征值等参数。
在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施例实施方式中还提供了一种基于用户信用度的确定方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时可以实现:从多个数据源中获取目标用户的行为信息;根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书实施例的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书实施例的优选实施例而已,并不用于限制本说明书实施例,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
Claims (11)
1.一种用户信用度的确定方法,其特征在于,包括:
从多个数据源中获取目标用户的行为信息;
根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;
基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
2.根据权利要求1所述的方法,其特征在于,根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集,包括:
获取主副客编关系表;
根据所述主副客编关系表中的关键要素,对所述多个数据源中所述目标用户的行为信息进行累加计算,得到多个行为特征;
将所述多个行为特征作为所述目标用户的行为特征信息集。
3.根据权利要求2所述的方法,其特征在于,所述行为特征包括:预设时间段内逾期平台数、预设时间段内逾期总次数、预设时间段内逾期总金额、预设时间段内逾期最大金额、预设时间段内成功还款次数、预设时间段内成功还款总金额、预设时间段内成功还款最大金额、预设时间段内平均月应还款额、预设时间段内最大月应还款额、预设时间段内申请平台数、预设时间段内申请总次数、预设时间段内申请总金额、预设时间段内申请平均月应还款额、预设时间段内申请最大月应还款额。
4.根据权利要求1所述的方法,其特征在于,所述关键要素包括:姓名、证件类型、证件号码。
5.根据权利要求1所述的方法,其特征在于,在基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值之前,还包括:
获取初始行为特征样本信息集;其中,所述初始行为特征样本信息集中包含多组行为特征;
对所述初始行为特征样本信息集进行预处理,得到训练样本信息集;
利用所述训练样本信息集结合粒子群算法、前馈神经网络和Adam优化算法进行训练,得到所述目标预测模型。
6.根据权利要求5所述的方法,其特征在于,对所述行为特征样本信息集进行预处理,得到训练样本信息集,包括:
利用合成少数类过采样技术对所述初始行为特征样本信息集进行均衡处理,得到第一行为特征样本信息集;
对所述第一行为特征样本信息集进行归一化处理,得到第二行为特征信息集;
根据所述第二行为特征信息集随机生成训练样本信息集和测试样本信息集。
7.根据权利要求6所述的方法,其特征在于,对所述第一行为特征样本信息集进行归一化处理,得到第二行为特征信息集,包括:对所述第一行为特征样本信息集中涉及金额的行为特征进行归一化处理,得到第二行为特征信息集。
8.根据权利要求1所述的方法,其特征在于,在基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值之后,还包括:
将所述目标用户的表征值反馈给目标处理对象。
9.一种用户信用度的确定装置,其特征在于,包括:
获取模块,用于从多个数据源中获取目标用户的行为信息;
合并模块,用于根据关键要素合并所述多个数据源中所述目标用户的行为信息,得到所述目标用户的行为特征信息集;
确定模块,用于基于所述目标用户的行为特征信息集,利用目标预测模型确定所述目标用户的表征值;其中,所述目标预测模型为结合粒子群算法、前馈神经网络和Adam优化算法训练得到的用于根据用户的行为特征确定用户的信用度的模型,所述表征值用于表示所述目标用户的信用度。
10.一种用户信用度的确定设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629917.8A CN113362159A (zh) | 2021-06-07 | 2021-06-07 | 一种用户信用度的确定方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629917.8A CN113362159A (zh) | 2021-06-07 | 2021-06-07 | 一种用户信用度的确定方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362159A true CN113362159A (zh) | 2021-09-07 |
Family
ID=77532703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629917.8A Pending CN113362159A (zh) | 2021-06-07 | 2021-06-07 | 一种用户信用度的确定方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362159A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408411A (zh) * | 2016-08-31 | 2017-02-15 | 北京城市网邻信息技术有限公司 | 信用评估方法及装置 |
CN108399453A (zh) * | 2018-01-24 | 2018-08-14 | 国家电网公司 | 一种电力客户信用等级评价方法和装置 |
CN108921686A (zh) * | 2018-06-19 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 一种个人用户的信用评分方法和装置 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN111192131A (zh) * | 2019-12-12 | 2020-05-22 | 上海淇玥信息技术有限公司 | 金融风险预测方法、装置和电子设备 |
CN111583024A (zh) * | 2020-05-08 | 2020-08-25 | 南京甄视智能科技有限公司 | 信用评估方法、装置、存储介质及服务器 |
CN112037012A (zh) * | 2020-08-14 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于pso-bp神经网络的互联网金融信用评价方法 |
CN112348685A (zh) * | 2020-10-09 | 2021-02-09 | 中南大学 | 信用评分方法、装置、设备及存储介质 |
CN112819604A (zh) * | 2021-01-19 | 2021-05-18 | 浙江省农村信用社联合社 | 基于融合神经网络特征挖掘的个人信用评估方法与系统 |
CN112884569A (zh) * | 2021-02-24 | 2021-06-01 | 中国工商银行股份有限公司 | 一种信用评估模型的训练方法、装置及设备 |
CN112907358A (zh) * | 2021-03-17 | 2021-06-04 | 平安消费金融有限公司 | 贷款用户信用评分方法、装置、计算机设备和存储介质 |
-
2021
- 2021-06-07 CN CN202110629917.8A patent/CN113362159A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408411A (zh) * | 2016-08-31 | 2017-02-15 | 北京城市网邻信息技术有限公司 | 信用评估方法及装置 |
CN108399453A (zh) * | 2018-01-24 | 2018-08-14 | 国家电网公司 | 一种电力客户信用等级评价方法和装置 |
CN108921686A (zh) * | 2018-06-19 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 一种个人用户的信用评分方法和装置 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN111192131A (zh) * | 2019-12-12 | 2020-05-22 | 上海淇玥信息技术有限公司 | 金融风险预测方法、装置和电子设备 |
CN111583024A (zh) * | 2020-05-08 | 2020-08-25 | 南京甄视智能科技有限公司 | 信用评估方法、装置、存储介质及服务器 |
CN112037012A (zh) * | 2020-08-14 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于pso-bp神经网络的互联网金融信用评价方法 |
CN112348685A (zh) * | 2020-10-09 | 2021-02-09 | 中南大学 | 信用评分方法、装置、设备及存储介质 |
CN112819604A (zh) * | 2021-01-19 | 2021-05-18 | 浙江省农村信用社联合社 | 基于融合神经网络特征挖掘的个人信用评估方法与系统 |
CN112884569A (zh) * | 2021-02-24 | 2021-06-01 | 中国工商银行股份有限公司 | 一种信用评估模型的训练方法、装置及设备 |
CN112907358A (zh) * | 2021-03-17 | 2021-06-04 | 平安消费金融有限公司 | 贷款用户信用评分方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11836615B2 (en) | Bayesian nonparametric learning of neural networks | |
CN111598143B (zh) | 基于信用评估的面向联邦学习中毒攻击的防御方法 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
WO2018145586A1 (zh) | 信用评分方法及服务器 | |
CN109766454A (zh) | 一种投资者分类方法、装置、设备及介质 | |
WO2012084320A2 (en) | Method and system for predictive modeling | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
CN112800053A (zh) | 数据模型的生成方法、调用方法、装置、设备及存储介质 | |
CN115080248B (zh) | 调度装置的调度优化方法、调度装置和存储介质 | |
Eddy et al. | Credit scoring models: Techniques and issues | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN115577152A (zh) | 基于数据分析的在线图书借阅管理系统 | |
CN113570222A (zh) | 一种用户设备鉴别方法、装置和计算机设备 | |
CN110659930A (zh) | 基于用户行为的消费提质方法、装置、存储介质及设备 | |
CN112200665A (zh) | 一种授信额度的确定方法及装置 | |
CN106803815A (zh) | 一种流量控制方法和装置 | |
Wang | Research on bank marketing behavior based on machine learning | |
CN113362159A (zh) | 一种用户信用度的确定方法、装置和设备 | |
CN110765110A (zh) | 泛化能力处理方法、装置、设备及存储介质 | |
JP5491430B2 (ja) | クラス分類装置、クラス分類方法、及びクラス分類プログラム | |
CN113610170A (zh) | 一种基于时序网络社团检测的影响力最大化方法 | |
CN115147117A (zh) | 资源使用异常的账户群组识别方法、装置及设备 | |
CN113570207A (zh) | 用户策略分配方法、装置及电子设备 | |
CN112396507A (zh) | 基于阴影划分的集成svm个人信用评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |