CN113052693A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113052693A CN113052693A CN202110611513.6A CN202110611513A CN113052693A CN 113052693 A CN113052693 A CN 113052693A CN 202110611513 A CN202110611513 A CN 202110611513A CN 113052693 A CN113052693 A CN 113052693A
- Authority
- CN
- China
- Prior art keywords
- vector
- credit level
- credit
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 602
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 170
- 238000007781 pre-processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 101100380328 Dictyostelium discoideum asns gene Proteins 0.000 description 1
- 241000623377 Terminalia elliptica Species 0.000 description 1
- 101150062095 asnA gene Proteins 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供了一种数据处理方法、装置、电子设备及计算机可读存储介质,包括:将目标用户的第一金融信息对应的第一特征向量分别输入到至少两个目标信用等级模型中,对第一特征向量进行编码处理得到第一编码向量,对第一编码向量进行解码处理得到解码向量,对均值向量和解码向量之间的均值进行编码处理得到第二编码向量;每个目标信用等级模型对应一个均值向量以及信用等级;针对每个目标信用等级模型计算第一编码向量和第二编码向量之间的差异值;针对目标用户,根据每个目标信用等级模型对应的差异值,确定目标用户的信用等级。本申请通过目标用户在每个目信用等级模型中的差异值,确定该目标用户的信用等级,提高用户信用等级评估的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
信用等级评估是银行或其他金融机构对借款人信用情况进行评估的一种活动。银行或其他金融机构贷款的最基本条件是信用,信用好就容易取得银行或其他金融机构的贷款支持,信用差就难以取得银行或其他金融机构的贷款支持。而借款人信用是由多种因素构成的,包括借款人资产负债状况、经营管理水平、产品经济效益及市场发展趋势等等,在用户向银行或其他金融机构提交业务申请(例如贷款)的时候,银行或金融机构则需要对用户的信用等级进行评估,用以预防风险以及制定贷款标准。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法、装置、电子设备及计算机可读存储介质,以提高用户信用等级评估的准确率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取目标用户的第一金融信息;
根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量;
将所述目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个所述目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个所述目标信用等级模型,在对所述第一特征向量进行处理时,对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到所述第二编码向量;每个所述目标信用等级模型对应一个所述均值向量;每个所述目标信用等级模型对应一个信用等级;
针对每个所述目标信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值;
针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述目标信用等级模型包括第一编码器、第一解码器和第二编码器;
所述对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到所述第二编码向量,包括:
使用所述第一编码器对所述第一特征向量进行编码处理,得到所述第一编码向量;
使用所述第一解码器对所述第一编码向量进行解码处理,得到解码向量;
使用所述第二编码器对所述解码向量和所述均值向量之间的均值进行编码处理,得到所述第二编码向量。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级,包括:
针对所述目标用户,从每个所述目标信用等级模型对应的所述差异值中,筛选出最小的差异值作为目标差异值;
将所述目标差异值对应的所述目标信用等级模型所对应的信用等级,确定为所述目标用户的信用等级。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述第一金融信息中包括数值型信息和/或用户属性信息;
所述根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量,包括:
当所述第一金融信息为用户属性信息时,对所述用户属性信息进行独热编码,得到用于表示所述用户属性信息的第一子特征向量;
当所述第一金融信息为数值型信息时,根据所述数值型信息,确定用于表示所述数值型信息的第二子特征向量;
将所述第一子特征向量与所述第二子特征向量组合,得到用于表示所述第一金融信息的第一特征向量。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述第一编码向量和所述第二编码向量的行数和列数相同;
所述针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值,包括:
针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的欧几里得范数;
将所述欧几里得范数确定为所述第一编码向量和所述第二编码向量之间的差异值。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述获取目标用户的第一金融信息之前,还包括:
获取训练样本的第二金融信息以及信用等级标签;
根据所述第二金融信息的类型,对所述第二金融信息进行预处理,得到用于表示所述第二金融信息的第二特征向量;
根据所述训练样本的信用等级标签,将所述训练样本对应的第二特征向量输入到与所述训练样本的信用等级标签所对应的信用等级模型中,得到所述训练样本的信用等级标签所对应的信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量;其中,对于所述训练样本的等级标签所对应的信用等级模型,在对所述训练样本对应的第二特征向量进行处理时,对所述第二特征向量进行编码处理得到所述第三编码向量,对所述第三编码向量进行解码处理得到所述第三特征向量;所述信用等级模型的个数与目标信用等级的个数相同;每个所述信用等级模型对应一个信用等级;
针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量;
针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值;
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型。
结合第一方面的第五种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量,还包括:
针对每个信用等级标签对应的所述信用等级模型,计算所述信用等级模型中所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值;
针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用所述第一损失数值对所述信用等级模型进行本轮训练;
所述针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值,还包括:
针对每个信用等级标签对应的信用等级模型,对所述第三特征向量和所述均值向量之间的均值进行编码,得到所述训练样本对应的第四编码向量;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型,还包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练。
结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述信用等级模型包括第三编码器、第二解码器和第四编码器;
所述针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型进行本轮训练,包括:
针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型中的所述第三编码器和所述第二解码器进行本轮训练;其中,所述第三编码器用于对所述第二特征向量进行编码处理,所述第二解码器用于对所述第三编码向量进行解码处理;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练,包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型中的所述第四编码器进行本轮训练;其中,所述第四编码器用于对所述第三特征向量和所述均值向量之间的均值进行编码处理;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型,包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型中的所述第三编码器确定为第一编码器,将所述第二解码器确定为所述第一解码器,将所述第四编码器确定为第二编码器。
第二方面,本申请实施例还提供一种数据处理装置,包括:
第一获取单元,用于获取目标用户的第一金融信息;
第一处理单元,用于根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量;
第一编码单元,用于将所述目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个所述目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个所述目标信用等级模型,在对所述第一特征向量进行处理时,对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到第二编码向量;每个所述目标信用等级模型对应一个所述均值向量;每个所述目标信用等级模型对应一个信用等级;
第一计算单元,用于针对每个所述目标信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值;
第一确定单元,用于针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述目标信用等级模型包括第一编码器、第一解码器和第二编码器;
所述第一编码单元在用于对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到所述第二编码向量时,具体用于:
使用所述第一编码器对所述第一特征向量进行编码处理,得到所述第一编码向量;
使用所述第一解码器对所述第一编码向量进行解码处理,得到解码向量;
使用所述第二编码器对所述解码向量和所述均值向量之间的均值进行编码处理,得到所述第二编码向量。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述第一确定单元在用于针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级时,具体用于:
针对所述目标用户,从每个所述目标信用等级模型对应的所述差异值中,筛选出最小的差异值作为目标差异值;
将所述目标差异值对应的所述目标信用等级模型所对应的信用等级,确定为所述目标用户的信用等级。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述第一金融信息中包括数值型信息和/或用户属性信息;
所述第一处理单元在用于根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量时,具体用于:
当所述第一金融信息为用户属性信息时,对所述用户属性信息进行独热编码,得到用于表示所述用户属性信息的第一子特征向量;
当所述第一金融信息为数值型信息时,根据所述数值型信息,确定用于表示所述数值型信息的第二子特征向量;
将所述第一子特征向量与所述第二子特征向量组合,得到用于表示所述第一金融信息的第一特征向量。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述第一编码向量和所述第二编码向量的行数和列数相同;
所述第一计算单元在用于针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值时,具体用于:
针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的欧几里得范数;
将所述欧几里得范数确定为所述第一编码向量和所述第二编码向量之间的差异值。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第五种可能的实施方式,其中,所述获取目标用户的第一金融信息之前,还包括:
第二获取单元,用于获取训练样本的第二金融信息以及信用等级标签;
第二处理单元,用于根据所述第二金融信息的类型,对所述第二金融信息进行预处理,得到用于表示所述第二金融信息的第二特征向量;
第三处理单元,用于根据所述训练样本的信用等级标签,将所述训练样本对应的第二特征向量输入到与所述训练样本的信用等级标签所对应的信用等级模型中,得到所述训练样本的信用等级标签所对应的信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量;其中,对于所述训练样本的等级标签所对应的信用等级模型,在对所述训练样本对应的第二特征向量进行处理时,对所述第二特征向量进行编码处理得到所述第三编码向量,对所述第三编码向量进行解码处理得到所述第三特征向量;所述信用等级模型的个数与目标信用等级的个数相同;每个所述信用等级模型对应一个信用等级;
解码单元,用于针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量;
第二计算单元,用于针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值;
第二确定单元,用于针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型。
结合第二方面的第五种可能的实施方式,本申请实施例提供了第二方面的第六种可能的实施方式,其中,所述针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量,还包括:
第三计算单元,用于针对每个信用等级标签对应的所述信用等级模型,计算所述信用等级模型中所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值;
第一训练单元,用于针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用所述第一损失数值对所述信用等级模型进行本轮训练;
所述针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值,还包括:
第二编码单元,用于针对每个信用等级标签对应的信用等级模型,对所述第三特征向量和所述均值向量之间的均值进行编码,得到所述训练样本对应的第四编码向量;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型,还包括:
第二训练单元,用于针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练。结合第二方面的第六种可能的实施方式,本申请实施例提供了第二方面的第七种可能的实施方式,其中,所述信用等级模型包括第三编码器、第二解码器和第四编码器;
所述第一训练单元在用于针对每个等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型进行本轮训练时,具体用于:
针对每个等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型中的所述第三编码器和所述第二解码器进行本轮训练;其中,所述第三编码器用于对所述第二特征向量进行编码处理,所述第二解码器用于对所述第三编码向量进行解码处理;
所述第二训练单元在用于针对每个等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练时,具体用于:
针对每个等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型中的所述第四编码器进行本轮训练;其中,所述第四编码器用于对所述第三特征向量和所述均值向量之间的均值进行编码处理;
所述第二确定单元在用于针对每个等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型时,具体用于:
针对每个等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型中的所述第三编码器确定为第一编码器,将所述第二解码器确定为所述第一解码器,将所述第四编码器确定为第二编码器。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
在本申请中,设置至少两个目标信用等级模型,其中每个目标信用等级模型对应一个信用等级,在对目标用户的信用等级进行评估时,将该目标用户的第一特征向量分别输入到每个目标信用等级模型中,得到该目标用户在每个信用等级上的可能性的大小,进而确定出该目标用户的信用等级。与只有一个网络模型相比,通过本申请的方法,不仅可以确定目标用户的信用等级,还可以直观的感受到每个目标用户在每个信用等级上的可能性的大小。并且在使用一个网络模型对多个用户进行信用等级评估时,该网络模型需要参考已经评估完成的用户所提供的数据对目标用户的信用等级进行评估,由于网络模型参考的用户等级多数是属于信用等级良好的,信用等级较差的用户相对较少,因此会导致网络模型的评估结果偏向信用良好,影响了网络模型评估的准确率。而本申请中,每个目标信用等级模型只需要确定每个目标用户在该目标信用等级模型对应的信用等级上的可能性的大小,不受其他信用等级用户的影响,因此提高了信用等级评估的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据处理方法的流程图;
图2示出了本申请实施例所提供的一种目标信用等级模型的结构示意图;
图3示出了本申请实施例所提供的一种数据处理装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
当银行或其他金融机构对借款人信用情况进行评估时,可使用一个网络模型对用户的信用等级进行评估,从而得到用户的信用等级。具体地,使用一个网络模型对多个用户进行信用等级评估时,该网络模型需要参考已经评估完成的用户所提供的数据对目标用户的信用等级进行评估,但是由于在进行信用评估时参考的用户等级多数是属于信用等级良好的,信用等级较差的用户相对较少,因此会导致网络模型的评估结果偏向信用良好,影响了网络模型评估的准确率。
考虑到上述问题,基于此,本申请实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,以提高用户信用等级评估的准确率,下面通过实施例进行描述。
实施例一:
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据处理方法进行详细介绍。图1示出了本申请实施例所提供的一种数据处理方法的流程图,如图1所示,该方法包括以下步骤:
S101:获取目标用户的第一金融信息。
目标用户指的是需要进行信用等级评估但还未进行评估的用户。
第一金融信息指的是对目标用户进行信用等级评估时所需要的目标用户的个人信息,具体地,第一金融信息包括但不限于目标用户的个人身份信息(例如姓名、性别、国籍、民族、身份证件种类号码、职业、联系方式、婚姻状况、家庭状况、住所或工作单位地址、照片等)、个人财产信息(例如个人收入状况、拥有的不动产状况、拥有的车辆状况、纳税额、公积金缴存金额等)、个人账户信息(例如账号、账户开立时间、开户行、账户余额、账户交易情况等)、个人信用信息(例如信用卡还款情况、贷款偿还情况以及个人在经济活动中形成的,能够反映其信用状况的其他信息)以及个人金融交易信息(例如银行金融机构在支付结算、理财、保险箱等中间业务过程中获取、保存、留存的个人信息和客户在通过银行金融机构与保险公司、证券公司、基金公司、期货公司等第三方机构发生业务关系时产生的个人信息等)等。
在本申请的实施例中,获取目标用户的第一金融信息的可通过但不限于目标用户自己输入的方式获取以及从数据库中获取等。
S102:根据第一金融信息的类型,对第一金融信息进行预处理,得到用于表示第一金融信息的第一特征向量。
在本申请的实施例中,根据第一金融信息中每个信息所属的类型,对第一金融信息中的每个信息分别进行预处理,得到用于表示第一金融信息的第一特征向量,其中,第一特征向量中包含该目标用户对应的第一金融信息中的所有信息,具体的,第一特征向量可以为行向量,每个目标用户对应一个第一特征向量。
S103:将目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个目标信用等级模型,在对第一特征向量进行处理时,对第一特征向量进行编码处理得到第一编码向量,对第一编码向量进行解码处理得到解码向量,对该目标信用等级模型中的均值向量和解码向量之间的均值进行编码处理得到第二编码向量;每个目标信用等级模型对应一个均值向量;每个目标信用等级模型对应一个信用等级。
在本申请的实施例中,目标信用等级模型指的是训练完成后的用于评估目标用户信用等级的模型,具体地,目标信用等级模型至少有两个,每个目标信用等级模型对应一个信用等级。也就是说,当有多个目标信用等级模型时,信用等级也对应有多个。
在对目标用户的信用等级进行评估时,目标用户可为多个,针对每个目标用户,将目标用户的第一特征向量分别输入到每个目标信用等级模型中,每个目标信用等级模型分别输出编码后的第一编码向量和第二编码向量。在每个目标信用等级模型中,分别对第一特征向量进行编码处理得到每个目标信用等级模型输出的第一编码向量,对所述第一编码向量进行解码处理得到解码向量。具体地,第一特征向量中包含了第一金融信息中的所有信息,使得第一特征向量中的信息密度较稀疏,因此通过对第一特征向量进行编码,提取出了第一特征向量中的关键信息,即第一编码向量可以表示第一特征向量中的关键特征信息。其中,第一编码向量可以为行向量,第一编码向量的列数少于第一特征向量的列数,解码向量可以为行向量,解码向量的列数与第一编码向量的列数相同。
在本申请的实施例中,每个目标信用等级模型对应一个均值向量,均值向量可以是通过对信用等级模型进行训练后得到的一个固定不变的向量,均值向量用于表示所属的目标信用等级模型所对应的信用等级所具备的特征信息。当目标用户的解码向量与目标信用等级模型中的均值向量越相似,则表示该目标用户的信用等级是该目标信用等级模型所对应的信用等级的可能性越大。其中均值向量的行数和列数与解码向量相同,且解码向量的行列数与第一特征向量的行列数相同。
在每个目标信用等级模型中,计算该目标信用等级模型中的均值向量和解码向量之间的均值,得到第二均值向量,例如当均值向量为Xu时,解码向量为X时,第二均值向量可以为(X+Xu)/2。对该第二均值向量进行编码处理得到第二编码向量。其中第二编码向量可以表示解码向量和均值向量中的关键特征信息,具体地,第二均值向量的行数和列数与均值向量和解码向量的行数和列数相同,第二编码向量的行数和列数少于第二均值向量的行数和列数。
S104:针对每个目标信用等级模型,计算第一编码向量和第二编码向量之间的差异值。
针对每个目标信用等级模型,根据该目标信用等级模型输出的第一编码向量和第二编码向量,计算第一编码向量和第二编码向量之间的差异值。具体地,每个目标信用等级模型对应一个差异值,例如,信用等级分为M级时,目标信用等级模型有M个时,每个目标用户对应M个差异值。其中,差异值的大小用于表示该目标用户在该目标信用等级模型所对应的信用等级的可能性的大小。
S105:针对目标用户,根据每个目标信用等级模型对应的差异值,确定目标用户的信用等级。
在本申请的技术方案中,根据该目标用户在每个目标信用等级模型所对应的差异值的大小,确定该目标用户所属的信用等级。
在一种可能的实施方式中,图2示出了本申请实施例所提供的目标信用等级模型的结构示意图,如图2所示,目标信用等级模型包括第一编码器、第一解码器和第二编码器;在执行步骤S103对第一特征向量进行编码处理得到第一编码向量,对第一编码向量进行解码处理得到解码向量,对目标信用等级模型中的均值向量和解码向量之间的均值进行编码处理得到第二编码向量时,具体可以按照以下步骤执行:
S1031:使用第一编码器对第一特征向量进行编码处理,得到第一编码向量。
在本申请的实施例中,针对每个目标信用等级模型,在对第一特征向量进行编码时,将第一特性向量输入到第一编码器中,在第一编码器中对第一特性向量进行编码处理,输出第一编码向量。
S1032:使用第一解码器对第一编码向量进行解码处理,得到解码向量。
在本申请的实施例中,针对每个目标信用等级模型,在对第一编码向量进行解码时,将第一编码向量输入到第一解码器中,在第一解码器对第一编码向量进行解码处理,输出解码向量。
S1033:使用第二编码器对解码向量和均值向量之间的均值进行编码处理,得到第二编码向量。
在本申请的实施例中,针对每个目标信用等级模型,在对解码向量和均值向量之间的均值进行编码处理时,计算出解码向量和均值向量之间的均值,得到第二均值向量,将第二均值向量输入到第二编码器中,在第二编码器中对第二均值向量进行编码处理,输出第二编码向量。
在本申请的实施例中,每个目标信用等级模型中均包括第一编码器、第一解码器和第二编码器,其中不同的目标信用等级模型中第一编码器、第一解码器和第二编码器的结构不同,参数不同;同一个目标信用等级模型中的第一编码器和第二编码器的结构相同,参数不同。
具体地,编码器和解码器中分别包括输入层,隐藏层和输出层,其中隐藏层的层数根据训练样本的数量决定。具体地,由于现在多数用户的信用大多都是良好的,而信用较差的用户相对于信用良好用户是少数的,是不易收集的。因此,训练的样本分布是不平衡的。样本类别的不均衡一方面会导致模型预测偏向样本数量较多的类别,另一方面由于模型的深度、参数量与数据量的不匹配,会导致模型对数量较少的某类数据的收敛是不足的。因此本申请实施例中根据训练样本数量对模型的结构进行个性化的设计。
例如,目标信用等级模型F中包括第一编码器f1、第一解码器f2和第二编码器f3,其中第一编码器f1中包括输入层、第一隐藏层、第二隐藏层和输出层;第一解码器f2中包括输入层、第一隐藏层、第二隐藏层和输出层;第二编码器f3中也包括输入层、第一隐藏层、第二隐藏层和输出层。目标信用等级模型E中包括第一编码器e1、第一解码器e2和第二编码器e3,其中第一编码器e1中包括输入层、隐藏层和输出层;第一解码器e2中包括输入层、隐藏层和输出层;第二编码器e3中也包括输入层、隐藏层和输出层。其中,同一个目标信用等级模型中的第一编码器f1和第二编码器f3的结构相同,即都包括输入层、第一隐藏层、第二隐藏层和输出层,但是第一编码器f1和第二编码器f3的参数不同,具体表现在第一编码器f1的第一隐藏层和第二隐藏层与第二编码器f3的第一隐藏层和第二隐藏层的参数不同。不同目标信用等级模型中的第一编码器f1和第一编码器e1结构不同且参数也不同,具体表现在第一编码器f1中包括两个隐藏层(即第一隐藏层和第二隐藏层),而第一编码器e1中仅包括一个隐藏层,并且第一编码器f1中的第一隐藏层和第二隐藏层与第一编码器e1中的隐藏层的参数均不同。在本申请的技术方案中,由于不同的编码器中隐藏层的层数和参数的不同,使得每个编码器的编码处理过程不同。
在一种可能的实施方式中,在执行步骤S105针对目标用户,根据每个目标信用等级模型对应的差异值,确定目标用户的信用等级时,具体可以按照以下步骤执行:
S1051:针对目标用户,从每个目标信用等级模型对应的差异值中,筛选出最小的差异值作为目标差异值。
在本申请的实施例中,差异值的大小用于表示该目标用户在该目标信用等级模型所对应的信用等级的可能性的大小,其中,差异值越大,则表示该差异值对应的第一编码向量和第二编码向量的之间差异越大,也就表示该目标用户在该差异值对应的目标信用等级模型所对应的信用等级的可能性越小;差异值越小,则表示该差异值对应的第一编码向量和第二编码向量的之间差异越小,也就表示该目标用户在该差异值对应的目标信用等级模型所对应的信用等级的可能性越大。从该目标用户对应的所有差异值中,筛选出最小的差异值作为目标差异值。
S1052:将目标差异值对应的目标信用等级模型所对应的信用等级,确定为目标用户的信用等级。
在本申请的实施例中,目标差异值为该目标用户对应的所有差异值中最小的差异值,因此,该目标差异值对应的目标信用等级模型所对应的信用等级为该目标用户所属的信用等级。例如,将信用等级分为A、B、C三个等级,针对每个目标用户,信用等级A对应一个目标信用等级模型A1,该目标信用等级模型A1对应该目标用户的差异值a;信用等级B对应一个目标信用等级模型B1,该目标信用等级模型B1对应该目标用户的差异值b;信用等级C对应一个目标信用等级模型C1,该目标信用等级模型C1对应该目标用户的差异值c。若该目标用户的差异值a大于差异值b大于差异值c,则将差异值c确定为目标差异值,将该目标差异值c对应的目标信用等级模型C1所对应的信用等级C确定为该目标用户的信用等级,即该目标用户的信用等级为C。
在本申请的实施例中,差异值越小,则表示该目标用户在该差异值对应的目标信用等级模型所对应的信用等级的可能性越大,因此本申请中通过筛选出每个目标信用等级模型对应的所有差异值中最小的差异值作为目标差异值,将该目标差异值对应的目标信用等级模型所对应的信用等级,确定为目标用户的信用等级,使得本申请不仅可以确定目标用户的信用等级,还可以直观的感受到目标用户在每个信用等级上的可能性的大小。在一种可能的实施方式中,第一金融信息中包括数值型信息和/或用户属性信息;在执行步骤S102根据第一金融信息的类型,对第一金融信息进行预处理,得到用于表示第一金融信息的第一特征向量时,具体可以按照以下步骤执行:
S1021:当第一金融信息为用户属性信息时,对用户属性信息进行独热编码,得到用于表示用户属性信息的第一子特征向量。
在本申请的实施例中,第一金融信息包括数值型信息和用户属性信息中的至少一种。其中,数值型信息指的是可以用具体的数字表示的信息,例如目标用户的工资、银行卡余额等;用户属性信息指的是不能用具体的数字表示的,需要通过选项的形式展示的信息,例如,目标用户的职业、婚姻状况等。
当第一金融信息为用户属性信息时,在一个具体的例子中,当用户属性信息为目标用户的婚姻状况时,将婚姻状况信息用选项的形式展示给用户供用户选择,例如,①.未婚;②.已婚;③.丧偶;④.离婚。当该目标用户选择②(已婚)时,通过对该目标用户属性信息(婚姻状况)进行独热编码,根据该用户属性信息(婚姻状况)的类别总数(4个选项)以及用户的选择(②),可以将该用户属性信息(婚姻状况)编码为0100,其中0100为第一子特征向量中的一个元素。将该目标用户对应的所有用户属性信息编码成的元素组合成一个该目标用户对应的第一子特征向量,例如该目标用户对应的所有用户属性信息数量为两个时,且经过独热编码将这两个用户属性信息分别编码为0100和0001时,该目标用户对应的第一子特征向量为[0100,0001],其中,由于在对目标用户进行信用等级评估时,每个目标用户需要采集的用户属性信息是相同的,因此每个目标用户对应的第一子特征向量中各个元素(每个用户属性信息对应的向量元素)的顺序可以根据预先设置的顺序排列。
在本申请的实施例中,当第一金融信息中只包含用户属性信息时,直接将第一子特征向量作为用于表示第一金融信息的第一特征向量。
S1022:当第一金融信息为数值型信息时,根据数值型信息,确定用于表示数值型信息的第二子特征向量。
当第一金融信息为数值型信息时,可以直接将该数值型信息转换成向量的形式,在一个具体的例子中,当数值型信息为目标用户的工资时,并且该目标用户的工资为5000元时,可以将该数值型信息(工资)转换为5000,其中5000为第二子特征向量中的一个元素。将该目标用户对应的所有数值型信息转换成的元素组合成一个该目标用户对应的第二子特征向量。例如该目标用户对应的所有数值型信息数量为两个时,且将这两个数值型信息分别转换为5000和30000时,该目标用户对应的第二子特征向量为[5000,30000],其中,由于在对目标用户进行信用登记评估时,每个目标用户需要采集的数值型信息是相同的,因此每个目标用户对应的第二子特征向量中各个元素(每个数值型信息对应的向量元素)的顺序可以根据预先设置的顺序排列。
在本申请的实施例中,当第一金融信息中只包含数值型信息时,直接将第二子特征向量作为用于表示第一金融信息的第一特征向量。
S1023:将第一子特征向量与第二子特征向量组合,得到用于表示第一金融信息的第一特征向量。
在本申请的实施例中,当第一金融信息中同时包含数值型信息和用户属性信息时,针对每个目标用户,将用于表示该目标用户的用户属性信息的第一子特征向量和用于表示该目标用户的数值型信息的第二子特征向量进行组合,得到用于表示该目标用户的第一金融信息的第一特征向量。例如,当该目标用户的第一子特征向量为[0100,0001],第二子特征向量为[5000,30000]时,该目标用户的第一特征向量可以为[0100,0001,5000,30000],也可以为[5000,30000,0100,0001],还可以为[0100,5000,0001,30000]等,具体的组合顺序可以根据预先设置的顺序进行组合。
在本申请的实施例中,由于第一金融信息中所包含的信息类型不同,即可能只包含数值型信息、或者可能只包含用户属性信息,或者可能同时包含数值型信息和用户属性信息,而不同类型的信息的处理方式不同,因此本申请中根据第一金融信息中所包含的信息类型,对于不同类型的信息进行不同的处理,以便得到第一特征向量能够表示出第一金融信息中包含的全部信息。
在一种可能的实施方式中,第一编码向量和第二编码向量的行数和列数相同;在执行步骤S104对每个信用等级模型,计算第一编码向量和第二编码向量之间的差异值时,具体可以按照以下步骤执行:
S1041:针对每个信用等级模型,计算第一编码向量和第二编码向量之间的欧几里得范数。
在本申请的实施例中,第一编码向量和第二编码向量之间的差异值可以用欧几里得范数(L2)表示,具体地,针对每个信用等级模型,当该目标用户的第一编码向量为Z,第二编码向量为Z * 时,计算第一编码向量和第二编码向量之间的欧几里得范数的方法具体为:
其中,M表示信用等级模型的数量,n表示第n个信用等级模型,Z n 表示第n个信用等级模型中该目标用户的第一编码向量,Z n * 表示第n个信用等级模型中该目标用户的第二编码向量,得到的diff n 表示该目标用户在第n个目标信用等级模型中的欧几里得范数。
S1042:将欧几里得范数确定为第一编码向量和第二编码向量之间的差异值。
针对每个目标信用等级模型,将该目标信用等级模型中的欧几里得范数确定为该目标信用等级模型中第一编码向量和第二编码向量之间的差异值。
在本申请的实施利中,为便于计算第一编码向量和第二编码向量之间的欧几里得范数,因此使得第一编码向量和第二编码向量的行数和列数相同。并且本申请中通过计算第一编码向量和第二编码向量之间的欧几里得范数,以便于更清楚具体的表示出第一编码向量和第二编码向量之间的差异值。
在一种可能的实施方式中,在执行步骤S101获取目标用户的第一金融信息之前,具体可以按照以下步骤执行:
S1001:获取训练样本的第二金融信息以及信用等级标签。
在对信用等级模型进行训练时,首先要获取到训练样本的第二金融信息以及信用等级标签。训练样本为已经确定出信用等级的用户,其中训练样本的获取方法可以从数据库中获取。第二金融信息指的是对训练样本进行信用等级评估时所使用的训练样本的个人信息,每个训练样本对应一个第二金融信息,第二金融信息与前述的第一金融信息中所包含的信息相同。信用等级标签指的是对训练样本的信用等级进行标注的信息,每个训练样本对应一个信用等级标签。
S1002:根据第二金融信息的类型,对第二金融信息进行预处理,得到用于表示第二金融信息的第二特征向量。
在本申请的实施例中,第二金融信息中包括的类型与第一金融信息中包括的类型相同,对第二金融信息进行预处理的方法与对第一金融信息进行预处理的方法相同,具体参见前述内容。通过对每个训练样本的第二金融信息进行预处理,得到每个训练样本对应的用于表示第二金融信息的第二特征向量,其中,第二特征向量中包含训练样本对应的第二金融信息中的所有信息,具体地,第二特征向量可以为行向量,每个训练样本对应一个第二特征向量。
S1003:根据训练样本的信用等级标签,将训练样本对应的第二特征向量输入到与训练样本的信用等级标签所对应的信用等级模型中,得到训练样本的信用等级标签所对应的信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量;其中,对于训练样本的等级标签所对应的信用等级模型,在对训练样本对应的第二特征向量进行处理时,对第二特征向量进行编码处理得到第三编码向量,对第三编码向量进行解码处理得到第三特征向量;信用等级模型的个数与目标信用等级的个数相同;每个信用等级模型对应一个信用等级。
在本申请的实施例中,每个信用等级对应一个信用等级模型,分别对每个信用等级模型进行训练时,使用与该信用等级模型对应的信用等级的训练样本进行训练。其中,在对信用等级模型进行训练时,针对每个训练样本,根据该训练样本的信用等级标签确定该训练样本的信用等级,使用该训练样本对与该训练样本的信用等级所对应的信用等级模型进行训练。
具体地,将该训练样本的第二特征向量输入到与该训练样本的信用等级标签所对应的信用等级模型中,得到该信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量。其中,在该信用等级模型中,先对第二特征向量进行编码得到第三编码向量,再对第三编码向量进行解码得到第三特征向量。第三编码向量是从第二特征向量中提取出来的关键信息,第三特征向量是通过对第三编码向量进行解码得到的,其中对第三编码向量进行解码,是为了使得到的第三特征向量接近于第二特征向量,也就是为了判断该信用等级模型是否可以根据第三编码向量还原出第二特征向量。具体地,第三编码向量可以为行向量,第三特征向量可以为行向量,第二特征向量的列数多于第三编码向量的行数,并且第三特征向量和第二特征向量的行数和列数相同。
S1004:针对每个信用等级标签对应的信用等级模型,当信用等级模型中的训练样本对应的第二特征向量和第三特征向量之间的第一损失数值小于第一预设损失数值时,对第三编码向量的均值进行解码得到均值向量。
针对每个信用等级模型,当第一损失数值小于第一预设损失数值时,表示第二特征向量与第三特征向量之间的差异较小,也就表示该信用等级模型对第二特征进行编码时,提取的关键特征较为准确,因此不需要再使用第一损失数值对该信用等级模型进行训练。
在本申请的实施例中,当第一损失数值小于第一预设损失数值时,计算对该信用等级模型进行训练时所使用的训练样本的第三编码向量的均值,具体地,在对信用等级模型进行训练时,使用了k个训练样本对其进行训练,k个训练样本对应k个第三编码向量,计算该k个第三编码向量的均值,得到第三均值向量。对该第三均值向量进行解码得到均值向量。其中在计算k个第三编码向量的均值时具体可以根据以下公式进行计算:
其中,k表示训练样本个数,i表示第i个训练样本,Z i 表示第i个训练样本的第三编码向量,Z u 表示k个第三编码向量的均值。
在本申请的实施例中,每个信用等级模型对应一个均值向量,将该均值向量保存在信用等级模型中。
S1005:针对每个信用等级标签对应的信用等级模型,根据对第三特征向量和均值向量之间的均值进行编码后得到的训练样本对应的第四编码向量,计算信用等级模型中的训练样本对应的第三编码向量和第四编码向量之间的第二损失数值。
在本申请的实施例中,每个训练样本分别对应一个第三编码向量和第四编码向量,针对每个信用等级标签对应的信用等级模型,计算该目标信用等级的每个训练样本对应的第三编码向量和第四编码向量之间的第二损失数值。
在本申请的实施例中,可以使用欧几里得范数(L2)表示第二损失数值,具体地,在计算欧几里得范数时,当第三编码向量为Z,第四编码向量为Z * 时,第三编码向量与第四编码向量之间的第二损失数值可以为:
S1006:针对每个等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将信用等级模型确定为训练完成的目标信用等级模型。
针对每个等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,表示该信用等级模型已经训练完成,将该信用等级模型确定为训练完成的目标信用等级模型。
现有技术中通常使用各个信用等级的训练样本对同一个信用等级模型进行训练,由于现有技术中可获得的用来对信用等级模型训练的样本分布是极度不平衡的,具体体现在多数用户是信用良好的,而信用较差的用户相对于信用良好用户是少数的,是不易收集的。因此,训练的样本分布是不平衡的。样本类别的不均衡会导致模型预测偏向样本数量较多的类别,从而影响了模型在使用时的准确率。本申请针对现有技术在面对样本等级不均衡可能面临的问题,提出了一种根据训练样本的信用等级,使用同一等级的训练样本对同一个信用等级模型进行训练,得到每个信用等级对应的信用等级模型的方法。
在一种可能的实施方式中,在执行步骤S1004针对每个信用等级标签对应的信用等级模型,当信用等级模型中的训练样本对应的第二特征向量和第三特征向量之间的第一损失数值小于第一预设损失数值时,对第三编码向量的均值进行解码得到均值向量时,具体还可以按照以下步骤执行:
S10041:针对每个信用等级标签对应的信用等级模型,计算该信用等级模型中训练样本对应的第二特征向量和第三特征向量之间的第一损失数值。
在每个信用等级模型中,计算该信用等级模型中训练样本对应的第二特征向量和第三特征向量之间的第一损失数值,其中第二特征向量是该训练样本的第二金融信息中的信息转换而成的,第三特征向量是该信用等级模型重构出来的与第二特征向量的行列数相同的特征向量,第二特征向量与第三特征向量之间的第一损失数值表示该信用等级模型重构第三特征向量的能力,也就表示该信用等级模型对第二特征向量进行编码时提取的关键特征是否准确的能力,具体地,提取的关键特征越准确,则重构能力越强,其中关键信息指的是该信用等级的训练样本所具备的信息。
在本申请的实施例中,可以使用欧几里得范数(L2)表示第一损失数值,具体地,在计算欧几里得范数时,当第二特征向量为X,第三特征向量为X * 时,第二特征向量与第三特征向量之间的第一损失数值可以为:
S10042:针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对该信用等级模型进行本轮训练。
针对每个信用等级模型,当第一损失数值不小于第一预设损失数值时,表示第二特征向量与第三特征向量之间的差异较大,也就表示该信用等级模型对第二特征进行编码时,提取的关键特征不够准确,因此使用第一损失数值对该信用等级模型进行本轮训练。具体地,将第一损失数值反向传播给该信用等级模型,更新该信用等级模型中的参数。
在一种可能的实施方式中,在执行步骤S1005针对每个信用等级标签对应的信用等级模型,根据对第三特征向量和均值向量之间的均值进行编码后得到的训练样本对应的第四编码向量,计算信用等级模型中的训练样本对应的第三编码向量和第四编码向量之间的第二损失数值时,具体还可以:针对每个信用等级标签对应的信用等级模型,对第三特征向量和均值向量之间的均值进行编码,得到训练样本对应的第四编码向量。
针对每个信用等级标签对应的信用等级模型,基于确定出的均值向量,分别计算每个训练样本的第三特征向量和均值向量之间的均值,得到每个训练样本对应的第四均值向量,其中该步骤里的训练样本与计算均值向量时的训练样本是同一批训练样本,当训练样本的个数为m个时,第三特征向量的个数为m个,第四均值向量的个数也为m个。在本申请的实施例中,对每个训练样本对应的第四均值向量分别进行编码,得到每个训练样本对应的第四编码向量。
在一种可能的实施方式中,在执行步骤S1006针对每个等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将信用等级模型确定为训练完成的目标信用等级模型时,具体还可以按照以下步骤执行:
S10061:针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对信用等级模型进行本轮训练。
针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,表示该信用等级模型未训练完成,利用第二损失数值对该信用等级模型进行本轮训练。
本申请中,分别使用第一损失数值和第二损失数值对信用等级模型进行训练,提高信用等级模型评估信用等级的准确率。
在一种可能的实施方式中,信用等级模型包括第三编码器、第二解码器和第四编码器,在执行步骤S1042针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对该信用等级模型进行本轮训练时,具体可以针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对该信用等级模型中的第三编码器和第二解码器进行本轮训练;其中,第三编码器用于对第二特征向量进行编码处理,第二解码器用于对第三编码向量进行解码处理。
具体地,每个信用等级模型中分别包括第三编码器、第二解码器和第四编码器,针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值,在对该信用等级模型进行训练时,具体可以使用第一损失数值对该信用等级模型中的第三编码器和第二解码器进行训练,其中第三编码器用于对第二特征向量进行编码得到第三编码向量,第二解码器用于对第三编码向量进行解码得到第三特征向量。
在一种可能的实施方式中,信用等级模型包括第三编码器、第二解码器和第四编码器,在执行步骤S10061针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对该信用等级模型进行本轮训练时,具体可以针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对该信用等级模型中的第四编码器进行本轮训练;其中,第四编码器用于对第三特征向量和均值向量之间的均值进行编码处理。
具体地,每个信用等级模型中分别包括第三编码器、第二解码器和第四编码器,针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值,在利用第二损失数值对该信用等级模型进行训练时,具体可以利用第二损失数值对该信用等级模型中的第四编码器进行训练,其中第四编码器用于对第三特征向量和均值向量之间的均值进行编码处理,得到第四编码向量。
在一种可能的实施方式中,信用等级模型包括第三编码器、第二解码器和第四编码器,在执行步骤S1006针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将该信用等级模型确定为训练完成的目标信用等级模型时,具体可以针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将该信用等级模型中的第三编码器确定为第一编码器,将第二解码器确定为第一解码器,将第四编码器确定为第二编码器。
具体地,每个信用等级模型中分别包括第三编码器、第二解码器和第四编码器,针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值,表示该信用等级模型已经训练完成,可以将该信用等级模型确定为训练完成的目标信用等级模型,将该信用等级模型中的第三编码器确定为第一编码器,将第二解码器确定为第一解码器,将第四编码器确定为第二编码器。
在本申请的实施例中,使用第一损失数值对信用等级模型中的第三编码器和第二解码器进行本轮训练,使用第二损失数值对该信用等级模型中的第四编码器进行本轮训练,将训练完成后信用等级模型确定为目标信用等级模型,具体是将该信用等级模型中的第三编码器确定为第一编码器,将第二解码器确定为第一解码器,将第四编码器确定为第二编码器。本申请中,通过使用不同的损失数值分别对信用等级模型中的第三编码器和第四编码器进行训练,使得训练完成后得到的第一编码器和第二编码器中的参数不同。
实施例二:
基于相同的技术构思,本申请实施例还提供一种数据处理装置,图3示出了本申请实施例所提供的一种数据处理装置的结构示意图,如图3所示,该装置包括:
第一获取单元301,用于获取目标用户的第一金融信息;
第一处理单元302,用于根据第一金融信息的类型,对第一金融信息进行预处理,得到用于表示第一金融信息的第一特征向量;
第一编码单元303,用于将目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个目标信用等级模型,在对第一特征向量进行处理时,对第一特征向量进行编码处理得到第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对该目标信用等级模型中的均值向量和解码向量之间的均值进行编码处理得到第二编码向量;每个目标信用等级模型对应一个均值向量;每个目标信用等级模型对应一个信用等级;
第一计算单元304,用于针对每个目标信用等级模型,计算第一编码向量和第二编码向量之间的差异值;
第一确定单元305,用于针对目标用户,根据每个目标信用等级模型对应的差异值,确定目标用户的信用等级。
可选的,目标信用等级模型包括第一编码器、第一解码器和第二编码器;前述第一编码单元303在对第一特征向量进行编码处理得到第一编码向量,对第一编码向量进行解码处理得到解码向量,对该目标信用等级模型中的均值向量和解码向量之间的均值进行编码处理得到第二编码向量时,具体用于:
使用第一编码器对第一特征向量进行编码处理,得到第一编码向量;
使用第一解码器对第一编码向量进行解码处理,得到解码向量;
使用第二编码器对解码向量和均值向量之间的均值进行编码处理,得到第二编码向量。
可选的,前述第一计算单元304在用于针对每个目标信用等级模型,计算第一编码向量和第二编码向量之间的差异值时,具体用于:
针对目标用户,从每个目标信用等级模型对应的差异值中,筛选出最小的差异值作为目标差异值;
将目标差异值对应的目标信用等级模型所对应的信用等级,确定为目标用户的信用等级。
可选的,第一金融信息中包括数值型信息和/或用户属性信息;前述第一处理单元302,在用于根据第一金融信息的类型,对第一金融信息进行预处理,得到用于表示第一金融信息的第一特征向量时,具体用于:
当第一金融信息为用户属性信息时,对用户属性信息进行独热编码,得到用于表示用户属性信息的第一子特征向量;
当第一金融信息为数值型信息时,根据数值型信息,确定用于表示数值型信息的第二子特征向量;
将第一子特征向量与第二子特征向量组合,得到用于表示第一金融信息的第一特征向量。
可选的,第一编码向量和第二编码向量的行数和列数相同;前述第一计算单元304,在用于针对每个目标信用等级模型,计算第一编码向量和第二编码向量之间的差异值时,具体用于:
针对每个信用等级模型,计算第一编码向量和第二编码向量之间的欧几里得范数;
将欧几里得范数确定为第一编码向量和第二编码向量之间的差异值。
可选的,前述第一获取单元301用于获取目标用户的第一金融信息之前,还包括:
第二获取单元,用于获取训练样本的第二金融信息以及信用等级标签;
第二处理单元,用于根据第二金融信息的类型,对第二金融信息进行预处理,得到用于表示第二金融信息的第二特征向量;
第三处理单元,用于根据训练样本的信用等级标签,将该训练样本对应的第二特征向量输入到与训练样本的信用等级标签所对应的信用等级模型中,得到训练样本的信用等级标签所对应的信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量;其中,对于训练样本的等级标签所对应的信用等级模型,在对训练样本对应的第二特征向量进行处理时,对第二特征向量进行编码处理得到第三编码向量,对第三编码向量进行解码处理得到第三特征向量;信用等级模型的个数与目标信用等级的个数相同;每个信用等级模型对应一个信用等级;
解码单元,用于针对每个信用等级标签对应的信用等级模型,当信用等级模型中的训练样本对应的第二特征向量和第三特征向量之间的第一损失数值小于第一预设损失数值时,对第三编码向量的均值进行解码得到均值向量;
第二计算单元,用于针对每个信用等级标签对应的信用等级模型,根据对第三特征向量和均值向量之间的均值进行编码后得到的训练样本对应的第四编码向量,计算信用等级模型中的训练样本对应的第三编码向量和第四编码向量之间的第二损失数值;
第二确定单元,用于针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将信用等级模型确定为训练完成的目标信用等级模型。
可选的,前述解码单元用于针对每个信用等级标签对应的信用等级模型,当信用等级模型中的训练样本对应的第二特征向量和第三特征向量之间的第一损失数值小于第一预设损失数值时,对第三编码向量的均值进行解码得到均值向量时,还包括:
第三计算单元,用于针对每个信用等级标签对应的信用等级模型,计算信用等级模型中训练样本对应的第二特征向量和第三特征向量之间的第一损失数值;
第一训练单元,用于针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对信用等级模型进行本轮训练;
可选的,前述第二计算单元用于针对每个信用等级标签对应的信用等级模型,根据对第三特征向量和均值向量之间的均值进行编码后得到的训练样本对应的第四编码向量,计算信用等级模型中的训练样本对应的第三编码向量和第四编码向量之间的第二损失数值时,还包括:
第二编码单元,用于针对每个信用等级标签对应的信用等级模型,对第三特征向量和均值向量之间的均值进行编码,得到训练样本对应的第四编码向量;
可选的,前述第二确定单元用于针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将信用等级模型确定为训练完成的目标信用等级模型,还包括:
第二训练单元,用于针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对信用等级模型进行本轮训练。
可选的,信用等级模型包括第三编码器、第二解码器和第四编码器;前述第一训练单元,在用于针对每个等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对信用等级模型进行本轮训练时,具体用于:针对每个信用等级标签对应的信用等级模型,当第一损失数值不小于第一预设损失数值时,利用第一损失数值对信用等级模型中的第三编码器和第二解码器进行本轮训练;其中,第三编码器用于对第二特征向量进行编码处理,第二解码器用于对第三编码向量进行解码处理。
可选的,信用等级模型包括第三编码器、第二解码器和第四编码器;前述第二训练单元,在用于针对每个等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对信用等级模型进行本轮训练时,具体用于:针对每个信用等级标签对应的信用等级模型,当第二损失数值不小于第二预设损失数值时,利用第二损失数值对信用等级模型中的第四编码器进行本轮训练;其中,第四编码器用于对第三特征向量和均值向量之间的均值进行编码处理。
可选的,信用等级模型包括第三编码器、第二解码器和第四编码器;前述第二确定单元,在用于针对每个等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将信用等级模型确定为训练完成的目标信用等级模型时,具体用于:针对每个信用等级标签对应的信用等级模型,当第二损失数值小于第二预设损失数值时,将该信用等级模型中的第三编码器确定为第一编码器,将第二解码器确定为第一解码器,将第四编码器确定为第二编码器。
实施例三:
基于相同的技术构思,本申请实施例还提供一种电子设备,图4示出了本申请实施例所提供的一种电子设备的结构示意图,如图4所示,该电子设备400包括:处理器401、存储器402和总线403,存储器402存储有处理器可执行的机器可读指令,当电子设备运行时,处理器401与存储器402之间通过总线403通信,处理器401执行机器可读指令,以执行实施例一中所述的方法步骤。
实施例四:
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种数据处理方法,其特征在于,包括:
获取目标用户的第一金融信息;
根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量;
将所述目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个所述目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个所述目标信用等级模型,在对所述第一特征向量进行处理时,对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到所述第二编码向量;每个所述目标信用等级模型对应一个所述均值向量;每个所述目标信用等级模型对应一个信用等级;
针对每个所述目标信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值;
针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级。
2.根据权利要求1所述的数据处理方法,其特征在于,所述目标信用等级模型包括第一编码器、第一解码器和第二编码器;
所述对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到所述第二编码向量,包括:
使用所述第一编码器对所述第一特征向量进行编码处理,得到所述第一编码向量;
使用所述第一解码器对所述第一编码向量进行解码处理,得到解码向量;
使用所述第二编码器对所述解码向量和所述均值向量之间的均值进行编码处理,得到所述第二编码向量。
3.根据权利要求1所述的数据处理方法,其特征在于,所述针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级,包括:
针对所述目标用户,从每个所述目标信用等级模型对应的所述差异值中,筛选出最小的差异值作为目标差异值;
将所述目标差异值对应的所述目标信用等级模型所对应的信用等级,确定为所述目标用户的信用等级。
4.根据权利要求1所述的数据处理方法,其特征在于,所述第一金融信息中包括数值型信息和/或用户属性信息;
所述根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量,包括:
当所述第一金融信息为用户属性信息时,对所述用户属性信息进行独热编码,得到用于表示所述用户属性信息的第一子特征向量;
当所述第一金融信息为数值型信息时,根据所述数值型信息,确定用于表示所述数值型信息的第二子特征向量;
将所述第一子特征向量与所述第二子特征向量组合,得到用于表示所述第一金融信息的第一特征向量。
5.根据权利要求1所述的数据处理方法,其特征在于,所述第一编码向量和所述第二编码向量的行数和列数相同;
所述针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值,包括:
针对每个所述信用等级模型,计算所述第一编码向量和所述第二编码向量之间的欧几里得范数;
将所述欧几里得范数确定为所述第一编码向量和所述第二编码向量之间的差异值。
6.根据权利要求2所述的数据处理方法,其特征在于,所述获取目标用户的第一金融信息之前,还包括:
获取训练样本的第二金融信息以及信用等级标签;
根据所述第二金融信息的类型,对所述第二金融信息进行预处理,得到用于表示所述第二金融信息的第二特征向量;
根据所述训练样本的信用等级标签,将所述训练样本对应的第二特征向量输入到与所述训练样本的信用等级标签所对应的信用等级模型中,得到所述训练样本的信用等级标签所对应的信用等级模型输出的编码后的第三编码向量和解码后的第三特征向量;其中,对于所述训练样本的等级标签所对应的信用等级模型,在对所述训练样本对应的第二特征向量进行处理时,对所述第二特征向量进行编码处理得到所述第三编码向量,对所述第三编码向量进行解码处理得到所述第三特征向量;所述信用等级模型的个数与目标信用等级的个数相同;每个所述信用等级模型对应一个信用等级;
针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量;
针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值;
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型。
7.根据权利要求6所述的数据处理方法,其特征在于,所述针对每个信用等级标签对应的所述信用等级模型,当所述信用等级模型中的所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值小于第一预设损失数值时,对所述第三编码向量的均值进行解码得到均值向量,还包括:
针对每个信用等级标签对应的所述信用等级模型,计算所述信用等级模型中所述训练样本对应的所述第二特征向量和所述第三特征向量之间的第一损失数值;
针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用所述第一损失数值对所述信用等级模型进行本轮训练;
所述针对每个信用等级标签对应的信用等级模型,根据对所述第三特征向量和所述均值向量之间的均值进行编码后得到的所述训练样本对应的第四编码向量,计算所述信用等级模型中的所述训练样本对应的所述第三编码向量和所述第四编码向量之间的第二损失数值,还包括:
针对每个信用等级标签对应的信用等级模型,对所述第三特征向量和所述均值向量之间的均值进行编码,得到所述训练样本对应的第四编码向量;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型,还包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练。
8.根据权利要求7所述的数据处理方法,其特征在于,所述信用等级模型包括第三编码器、第二解码器和第四编码器;
所述针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型进行本轮训练,包括:
针对每个信用等级标签对应的信用等级模型,当所述第一损失数值不小于第一预设损失数值时,利用第一损失数值对所述信用等级模型中的所述第三编码器和所述第二解码器进行本轮训练;其中,所述第三编码器用于对所述第二特征向量进行编码处理,所述第二解码器用于对所述第三编码向量进行解码处理;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型进行本轮训练,包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值不小于第二预设损失数值时,利用第二损失数值对所述信用等级模型中的所述第四编码器进行本轮训练;其中,所述第四编码器用于对所述第三特征向量和所述均值向量之间的均值进行编码处理;
所述针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型确定为训练完成的目标信用等级模型,包括:
针对每个信用等级标签对应的信用等级模型,当所述第二损失数值小于第二预设损失数值时,将所述信用等级模型中的所述第三编码器确定为第一编码器,将所述第二解码器确定为所述第一解码器,将所述第四编码器确定为第二编码器。
9.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标用户的第一金融信息;
第一处理单元,用于根据所述第一金融信息的类型,对所述第一金融信息进行预处理,得到用于表示所述第一金融信息的第一特征向量;
第一编码单元,用于将所述目标用户对应的第一特征向量分别输入到至少两个训练完成的目标信用等级模型中,得到每个所述目标信用等级模型输出的编码后的第一编码向量和第二编码向量;其中,对于每个所述目标信用等级模型,在对所述第一特征向量进行处理时,对所述第一特征向量进行编码处理得到所述第一编码向量,对所述第一编码向量进行解码处理得到解码向量,对所述目标信用等级模型中的均值向量和所述解码向量之间的均值进行编码处理得到第二编码向量;每个所述目标信用等级模型对应一个所述均值向量;每个所述目标信用等级模型对应一个信用等级;
第一计算单元,用于针对每个所述目标信用等级模型,计算所述第一编码向量和所述第二编码向量之间的差异值;
第一确定单元,用于针对所述目标用户,根据每个所述目标信用等级模型对应的所述差异值,确定所述目标用户的信用等级。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的数据处理方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611513.6A CN113052693B (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110611513.6A CN113052693B (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113052693A true CN113052693A (zh) | 2021-06-29 |
CN113052693B CN113052693B (zh) | 2021-09-24 |
Family
ID=76518616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110611513.6A Active CN113052693B (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052693B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766418A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于融合模型的信用评估方法、电子设备和存储介质 |
US20190325514A1 (en) * | 2018-04-24 | 2019-10-24 | Alibaba Group Holding Limited | Credit risk prediction method and device based on lstm model |
CN110503459A (zh) * | 2019-07-19 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于大数据的用户信用度评估方法、装置及存储介质 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN110889759A (zh) * | 2019-11-21 | 2020-03-17 | 北京三快在线科技有限公司 | 信用数据的确定方法、装置及存储介质 |
CN111539769A (zh) * | 2020-04-27 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的异常检测模型的训练方法及装置 |
-
2021
- 2021-06-02 CN CN202110611513.6A patent/CN113052693B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766418A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于融合模型的信用评估方法、电子设备和存储介质 |
US20190325514A1 (en) * | 2018-04-24 | 2019-10-24 | Alibaba Group Holding Limited | Credit risk prediction method and device based on lstm model |
CN110503459A (zh) * | 2019-07-19 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于大数据的用户信用度评估方法、装置及存储介质 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN110889759A (zh) * | 2019-11-21 | 2020-03-17 | 北京三快在线科技有限公司 | 信用数据的确定方法、装置及存储介质 |
CN111539769A (zh) * | 2020-04-27 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私的异常检测模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113052693B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arestis et al. | The financial development and growth nexus: A meta‐analysis | |
Calabrese et al. | “Birds of a feather” fail together: exploring the nature of dependency in SME defaults | |
Ullah et al. | Exploring asymmetric relationship between Islamic banking development and economic growth in Pakistan: Fresh evidence from a non‐linear ARDL approach | |
Lee et al. | Predicting the financial crisis by Mahalanobis–Taguchi system–Examples of Taiwan’s electronic sector | |
CN111260189B (zh) | 一种风险控制方法、装置、计算机系统及可读存储介质 | |
Wu | Does corporate governance quality lend credibility to open‐market share repurchase announcements? | |
US10984446B1 (en) | Method and system for predicting relevant offerings for users of data management systems using machine learning processes | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
Sharma | Factors influencing dividend decisions of Indian construction, housing and real estate companies: An empirical panel data analysis | |
US20140279704A1 (en) | Mapping consumer ownership of financial assets to geographic localities and computer-implemented methods and computer systems thereof | |
Billingsley et al. | The choice among debt, equity, and convertible bonds | |
Lin et al. | Impacts of the borrower's attributes, loan contract contents, and collateral characteristics on mortgage loan default | |
CN115526700A (zh) | 风险的预测方法、装置及电子设备 | |
Kampouris et al. | Foreign ownership and the financing constraints of firms operating in a multinational environment | |
Choi et al. | Effect of export credit insurance on export performance: an empirical analysis of Korea | |
CN113888278A (zh) | 基于企业信用额度分析模型的数据分析方法及装置 | |
Hong et al. | Forecasting inflation with economic narratives and machine learning | |
CN113052693B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN110619024A (zh) | 一种信用评价方法、系统及相关装置 | |
CN113052692A (zh) | 数据处理的方法、装置、电子设备及计算机可读存储介质 | |
Düsterhöft et al. | Let’s talk about risk! Stock market effects of risk disclosure for European energy utilities | |
Malik et al. | Z-score Model: analysis and implication on textile sector of Pakistan | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 | |
Li et al. | Restructuring performance prediction with a rebalanced and clustered support vector machine | |
Oladutire et al. | Return on assets and market stock prices of quoted deposit money banks in Nigeria |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 716, 7 / F, building 2, 28 Andingmen East Street, Dongcheng District, Beijing Patentee after: Beijing Easy Yikang Information Technology Co.,Ltd. Address before: Room 716, 7 / F, building 2, 28 Andingmen East Street, Dongcheng District, Beijing Patentee before: BEIJING QINGSONGCHOU INFORMATION TECHNOLOGY Co.,Ltd. |