CN116416056B - 一种基于机器学习的征信数据处理方法及系统 - Google Patents
一种基于机器学习的征信数据处理方法及系统 Download PDFInfo
- Publication number
- CN116416056B CN116416056B CN202310392013.7A CN202310392013A CN116416056B CN 116416056 B CN116416056 B CN 116416056B CN 202310392013 A CN202310392013 A CN 202310392013A CN 116416056 B CN116416056 B CN 116416056B
- Authority
- CN
- China
- Prior art keywords
- credit
- data
- individual
- investigation
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 53
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000011835 investigation Methods 0.000 claims description 208
- 239000006185 dispersion Substances 0.000 claims description 78
- 238000012549 training Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 43
- 238000012795 verification Methods 0.000 claims description 39
- 238000003062 neural network model Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提出了一种基于机器学习的征信数据处理方法及系统,通过使用每个征信个体的历史征信数据生成结构化数据和征信数据预测模型的样本数据,基于所述结构化数据生成每个征信个体的征信数据分布,根据征信数据分布对征信个体进行分类得到多个征信个体类别,基于预设规则从数据库中识别征信不良个体,确定所述征信不良个体所属的目标征信个体类别,将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据,能够为征信风险识别模型提供更为准确有效的征信数据。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于机器学习的征信数据处理方法及系统。
背景技术
传统的个人征信数据通常包括个人基本信息、信用交易信息等信息,较为常见的征信数据应用通常是基于个人的职业教育信息、个人的资产信息以及个人的信用交易信息中的违约信息等即定事实来评价个人的征信等级。随着市场经济的发展,人们的消费习惯也开始逐渐向先消费后付款的模式转变,预支未来资产的消费方式带来了负面影响就是违约行为越来越多,导致信贷机构越来越重视客户的信用等级评价以及信用风险分析,传统的采用即定的违约事实来评价个人征信等级的方式已经无法满足信贷机构的信贷业务开展需求。为了避免出现大量的潜在违约客户,人们研究出了使用大数据技术拓展征信数据类型的征信数据来源的方案,即通过大数据平台采集包括信贷机构、司法机关、行政机关、公开事业单位以及民营企业等公开发布的信息来收集海量的信用交易/非信用交易信息、行政/民事/刑事案件判决信息、行政处理事件通知公告信息等海量信息,从中提取个人信息进行分析以预测个人的信用风险,为信贷机构提供更进一步的信贷业务开展依据。然而由于大数据平台采集的数据来源众多且数据量庞大、不同个体的数据分布不均匀,无法使用传统的机器学习模型来量化这些信息所代表的信用风险。
发明内容
本发明正是基于上述问题,提出了一种基于机器学习的征信数据处理方法及系统,能够为征信风险识别模型提供更为准确有效的征信数据。
有鉴于此,本发明的第一方面提出了一种基于机器学习的征信数据处理方法,包括:
顺序从数据库中读取每个征信个体的历史征信数据;
生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
基于所述结构化数据生成征信数据预测模型的样本数据;
使用所述样本数据训练所述征信数据预测模型;
基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
根据征信数据分布对征信个体进行分类得到多个征信个体类别;
基于预设规则从数据库中识别征信不良个体;
确定所述征信不良个体所属的目标征信个体类别;
将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
进一步的,在上述的基于机器学习的征信数据处理方法中,在生成每个征信个体的结构化数据的步骤之后,还包括:
接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
返回所述目标结构化数据记录的征信内容。
进一步的,在上述的基于机器学习的征信数据处理方法中,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:
抽取部分所述结构化数据执行数据处理以生成样本数据;
将所述样本数据划分为训练集、验证集和测试集;
配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;
使用所述验证集评估所述征信数据预测模型的验证指标;
当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
进一步的,在上述的基于机器学习的征信数据处理方法中,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:
获取预先配置的每个征信数据维度的数据有效期限;
按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
顺序读取征信个体的每一条结构化数据记录;
将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
将当前结构化数据记录中的时间确定为当前分布时间段的上界;
在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
进一步的,在上述的基于机器学习的征信数据处理方法中,根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:
获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
进一步的,在上述的基于机器学习的征信数据处理方法中,计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:
分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,…,n),n为所述征信个体的有用征信数据维度的数量;
根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
进一步的,在上述的基于机器学习的征信数据处理方法中,分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度的步骤具体包括:
获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=(1,2,…,m);
根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长度系数。
进一步的,在上述的基于机器学习的征信数据处理方法中,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:
获取预先配置的离散度范围与每一个二级分类的对应关系;
根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
进一步的,在上述的基于机器学习的征信数据处理方法中,基于预设规则从数据库中识别征信不良个体的步骤具体包括:
从所述结构化数据中识别每个征信个体的违约记录;
记录每个征信个体的违约记录数量;
将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
本发明的第二方面提出了一种基于机器学习的征信数据处理系统,包括:
历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;
结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;
预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;
分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;
不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;
分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;
征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
进一步的,在上述的基于机器学习的征信数据处理系统中,还包括:
访问请求接收模块,用于接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
目标记录确定模块,用于从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
征信内容输出模块,用于返回所述目标结构化数据记录的征信内容。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述预测模型训练模块包括:
数据记录抽取模块,用于抽取部分所述结构化数据执行数据处理以生成样本数据;
样本数据分类模块,用于将所述样本数据划分为训练集、验证集和测试集;
训练参数配置模块,用于配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
训练数据输入模块,用于将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;
预测模型验证模块,用于使用所述验证集评估所述征信数据预测模型的验证指标;
训练参数调整模块,用于当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
预测模型测试模块,用于当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
循环执行模块,用于当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述分布数据生成模块包括:
有效期限获取模块,用于获取预先配置的每个征信数据维度的数据有效期限;
数据记录排序模块,用于按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
数据记录读取模块,用于顺序读取征信个体的每一条结构化数据记录;
有用维度确定模块,用于将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
时间连续性判断模块,用于在每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
分布时间段下界确定模块,用于在判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
分布时间段上界确定模块,用于将当前结构化数据记录中的时间确定为当前分布时间段的上界;
有效维度确定模块,用于在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述征信个体分类模块包括:
分类标准获取模块,用于获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
一级分类确定模块,用于将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
综合离散度计算模块,用于计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
二级分类确定模块,用于根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
所述征信个体分类模块具体用于将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述综合离散度计算模块包括:
单一离散度计算模块,用于分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,…,n),n为所述征信个体的有用征信数据维度的数量;
所述综合离散度计算模块具体用于根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
进一步的,在上述的基于机器学习的征信数据处理系统中,所述单一离散度计算模块包括:
时间段数据获取模块,用于获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=(1,2,…,m);
所述所述单一离散度计算模块具体用于根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长度系数。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述二级分类确定模块包括:
对应关系获取模块,用于获取预先配置的离散度范围与每一个二级分类的对应关系;
所述二级分类确定模块具体用于根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述不良个体识别模块包括:
违约记录识别模块,用于从所述结构化数据中识别每个征信个体的违约记录;
违约记录数量记录模块,用于记录每个征信个体的违约记录数量;
不良个体确定模块,用于将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
本发明提出了一种基于机器学习的征信数据处理方法及系统,通过使用每个征信个体的历史征信数据生成结构化数据和征信数据预测模型的样本数据,基于所述结构化数据生成每个征信个体的征信数据分布,根据征信数据分布对征信个体进行分类得到多个征信个体类别,基于预设规则从数据库中识别征信不良个体,确定所述征信不良个体所属的目标征信个体类别,将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据,能够为征信风险识别模型提供更为准确有效的征信数据。
附图说明
图1是本发明一个实施例提供的一种基于机器学习的征信数据处理方法的流程图;
图2是本发明一个实施例提供的一种基于机器学习的征信数据处理系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本说明书的描述中,术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
下面参照附图来描述根据本发明一些实施方式提供的一种基于机器学习的征信数据处理方法及系统。
如图1所示,本发明的第一方面提出了一种基于机器学习的征信数据处理方法,包括:
顺序从数据库中读取每个征信个体的历史征信数据;
生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
基于所述结构化数据生成征信数据预测模型的样本数据;
使用所述样本数据训练所述征信数据预测模型;
基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
根据征信数据分布对征信个体进行分类得到多个征信个体类别;
基于预设规则从数据库中识别征信不良个体;
确定所述征信不良个体所属的目标征信个体类别;
将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
具体的,所述结构化数据由大量的结构化数据记录组成,每条结构化数据记录的内容格式为“[时间,征信数据维度,征信内容]”,例如,{2020/3/19,职业,教师}、{2020/3/19,负债总金额,¥500000元}。
所述有用征信数据维度为在所述征信个体的结构化数据中存在一条或一条以上结构化数据记录的征信数据维度,所述有用征信数据维度的时间分布为一个连续的时间段或者多个间隔的分布时间段的组合,所述有效征信数据维度为时间分布延续至今的征信数据维度。例如,当某个征信个体缺失职业信息时,则在其结构化数据中没有职业数据记录,则职业维度为该征信个体的无用征信数据维度;反之,当该征信个体在其结构化数据中存在一条或一条以上的职业数据记录时,则职业维度为该征信个体的有用征信数据维度。
以下是失效征信数据维度为“职业”和“总账户余额”的时间分布示例:
职业:[2020/3/19,2022/5/20];
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26]。
以下是有效征信数据维度为“总账户余额”的两种类型的时间分布示例:
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26],[2019/4/7至今];
总账户余额:[2001/1/1至今]。
进一步的,在上述的基于机器学习的征信数据处理方法中,在生成每个征信个体的结构化数据的步骤之后,还包括:
接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
返回所述目标结构化数据记录的征信内容。
进一步的,在上述的基于机器学习的征信数据处理方法中,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:
抽取部分所述结构化数据执行数据处理以生成样本数据,具体的,对所述结构化数据执行数据处理具体包括数据清洗、缺失值处理以及异常值处理等步骤;
将所述样本数据划分为训练集、验证集和测试集,示例性的,可以按照80:15:15的比例将所述样本数据分成训练集、验证集和测试集;
配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型,所述预设的神经网络模型可以为多层感知机(MLP)、循环神经网络(RNN)和长短期记忆网络(LSTM)等;
使用所述验证集评估所述征信数据预测模型的验证指标,所述验证指标包括均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等;
当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
进一步的,在上述的基于机器学习的征信数据处理方法中,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:
获取预先配置的每个征信数据维度的数据有效期限;
按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
顺序读取征信个体的每一条结构化数据记录;
将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
将当前结构化数据记录中的时间确定为当前分布时间段的上界;
在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
具体的,不同的征信数据维度的数据有效期限有所不同,不考虑个体差异或其它复杂因素对各个征信数据维度的数据有效期限的影响,为每个征信数据维度配置一个合理时长作为其数据有效期限用于排除部分容易失效数据对征信数据预测的不利影响。在采集到新的征信数据后,根据预设的数据处理周期定期或定量将所集集到的新的征信数据转换为对应的结构化数据,并基于这些新的结构化数据更新所述征信数据分布。
进一步的,在上述的基于机器学习的征信数据处理方法中,根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:
获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
具体的,征信个体的有用征信数据维度覆盖某个一级分类的最小有用征信数据维度序列是指征信个体的有用征信数据维度为该一级分类的最小有用征信数据维度序列的父集,同样的,征信个体的有效征信数据维度覆盖某个一级分类的最小有效征信数据维度序列是指征信个体的有效征信数据维度为该一级分类的最小有效征信数据维度序列的父集。
进一步的,在上述的基于机器学习的征信数据处理方法中,计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:
分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,…,n),n为所述征信个体的有用征信数据维度的数量;
根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
进一步的,在上述的基于机器学习的征信数据处理方法中,分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度的步骤具体包括:
获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=(1,2,…,m);
根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长度系数。
进一步的,在上述的基于机器学习的征信数据处理方法中,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:
获取预先配置的离散度范围与每一个二级分类的对应关系;
根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
进一步的,在上述的基于机器学习的征信数据处理方法中,基于预设规则从数据库中识别征信不良个体的步骤具体包括:
从所述结构化数据中识别每个征信个体的违约记录;
记录每个征信个体的违约记录数量;
将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
如图2所示,本发明的第二方面提出了一种基于机器学习的征信数据处理系统,包括:
历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;
结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;
预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;
分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;
不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;
分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;
征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
具体的,所述结构化数据由大量的结构化数据记录组成,每条结构化数据记录的内容格式为“[时间,征信数据维度,征信内容]”,例如,{2020/3/19,职业,教师}、{2020/3/19,负债总金额,¥500000元}。
所述有用征信数据维度为在所述征信个体的结构化数据中存在一条或一条以上结构化数据记录的征信数据维度,所述有用征信数据维度的时间分布为一个连续的时间段或者多个间隔的分布时间段的组合,所述有效征信数据维度为时间分布延续至今的征信数据维度。例如,当某个征信个体缺失职业信息时,则在其结构化数据中没有职业数据记录,则职业维度为该征信个体的无用征信数据维度;反之,当该征信个体在其结构化数据中存在一条或一条以上的职业数据记录时,则职业维度为该征信个体的有用征信数据维度。
以下是失效征信数据维度为“职业”和“总账户余额”的时间分布示例:
职业:[2020/3/19,2022/5/20];
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26]。
以下是有效征信数据维度为“总账户余额”的两种类型的时间分布示例:
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26],[2019/4/7至今];
总账户余额:[2001/1/1至今]。
进一步的,在上述的基于机器学习的征信数据处理系统中,还包括:
访问请求接收模块,用于接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
目标记录确定模块,用于从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
征信内容输出模块,用于返回所述目标结构化数据记录的征信内容。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述预测模型训练模块包括:
数据记录抽取模块,用于抽取部分所述结构化数据执行数据处理以生成样本数据,具体的,对所述结构化数据执行数据处理具体包括数据清洗、缺失值处理以及异常值处理等步骤;
样本数据分类模块,用于将所述样本数据划分为训练集、验证集和测试集,示例性的,可以按照80:15:15的比例将所述样本数据分成训练集、验证集和测试集;
训练参数配置模块,用于配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
训练数据输入模块,用于将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型,所述预设的神经网络模型可以为多层感知机(MLP)、循环神经网络(RNN)和长短期记忆网络(LSTM)等;
预测模型验证模块,用于使用所述验证集评估所述征信数据预测模型的验证指标,所述验证指标包括均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等;
训练参数调整模块,用于当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
预测模型测试模块,用于当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
循环执行模块,用于当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述分布数据生成模块包括:
有效期限获取模块,用于获取预先配置的每个征信数据维度的数据有效期限;
数据记录排序模块,用于按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
数据记录读取模块,用于顺序读取征信个体的每一条结构化数据记录;
有用维度确定模块,用于将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
时间连续性判断模块,用于在每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
分布时间段下界确定模块,用于在判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
分布时间段上界确定模块,用于将当前结构化数据记录中的时间确定为当前分布时间段的上界;
有效维度确定模块,用于在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
具体的,不同的征信数据维度的数据有效期限有所不同,不考虑个体差异或其它复杂因素对各个征信数据维度的数据有效期限的影响,为每个征信数据维度配置一个合理时长作为其数据有效期限用于排除部分容易失效数据对征信数据预测的不利影响。在采集到新的征信数据后,根据预设的数据处理周期定期或定量将所集集到的新的征信数据转换为对应的结构化数据,并基于这些新的结构化数据更新所述征信数据分布。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述征信个体分类模块包括:
分类标准获取模块,用于获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
一级分类确定模块,用于将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
综合离散度计算模块,用于计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
二级分类确定模块,用于根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
所述征信个体分类模块具体用于将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
具体的,征信个体的有用征信数据维度覆盖某个一级分类的最小有用征信数据维度序列是指征信个体的有用征信数据维度为该一级分类的最小有用征信数据维度序列的父集,同样的,征信个体的有效征信数据维度覆盖某个一级分类的最小有效征信数据维度序列是指征信个体的有效征信数据维度为该一级分类的最小有效征信数据维度序列的父集。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述综合离散度计算模块包括:
单一离散度计算模块,用于分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,…,n),n为所述征信个体的有用征信数据维度的数量;
所述综合离散度计算模块具体用于根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
进一步的,在上述的基于机器学习的征信数据处理系统中,所述单一离散度计算模块包括:
时间段数据获取模块,用于获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=(1,2,…,m);
所述所述单一离散度计算模块具体用于根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长度系数。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述二级分类确定模块包括:
对应关系获取模块,用于获取预先配置的离散度范围与每一个二级分类的对应关系;
所述二级分类确定模块具体用于根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
进一步的,在上述的基于机器学习的征信数据处理系统中,所述不良个体识别模块包括:
违约记录识别模块,用于从所述结构化数据中识别每个征信个体的违约记录;
违约记录数量记录模块,用于记录每个征信个体的违约记录数量;
不良个体确定模块,用于将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。显然,根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (7)
1.一种基于机器学习的征信数据处理方法,其特征在于,包括:
顺序从数据库中读取每个征信个体的历史征信数据;
生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
基于所述结构化数据生成征信数据预测模型的样本数据;
使用所述样本数据训练所述征信数据预测模型;
基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
根据征信数据分布对征信个体进行分类得到多个征信个体类别;
基于预设规则从数据库中识别征信不良个体;
确定所述征信不良个体所属的目标征信个体类别;
将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的结构化数据;
合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据;
根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:
获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
根据所述征信个体的有用征信数据维度的时间分布的综合离散度确定所述征信个体的二级分类;
将一级分类和二级分类相同的征信个体划分到同一个征信个体类别;
计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:
分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=1,2,…,n,n为所述征信个体的有用征信数据维度的数量;
根据每一个有用征信数据维度的时间分布的离散度si计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si的步骤具体包括:
获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=1,2,…,m;
根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长度系数。
2.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,在生成每个征信个体的结构化数据的步骤之后,还包括:
接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
返回所述目标结构化数据记录的征信内容。
3.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:
抽取部分所述结构化数据执行数据处理以生成样本数据;
将所述样本数据划分为训练集、验证集和测试集;
配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;
使用所述验证集评估所述征信数据预测模型的验证指标;
当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
4.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:
获取预先配置的每个征信数据维度的数据有效期限;
按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
顺序读取征信个体的每一条结构化数据记录;
将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
将当前结构化数据记录中的时间确定为当前分布时间段的上界;
在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
5.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:
获取预先配置的离散度范围与每一个二级分类的对应关系;
根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
6.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,基于预设规则从数据库中识别征信不良个体的步骤具体包括:
从所述结构化数据中识别每个征信个体的违约记录;
记录每个征信个体的违约记录数量;
将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
7.一种基于机器学习的征信数据处理系统,其特征在于,包括:
历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;
结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;
预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;
分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;
不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;
分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;
征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据;
所述征信个体分类模块包括:
分类标准获取模块,用于获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
一级分类确定模块,用于将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
综合离散度计算模块,用于计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
二级分类确定模块,用于根据所述征信个体的有用征信数据维度的时间分布的综合离散度确定所述征信个体的二级分类;
所述征信个体分类模块具体用于将一级分类和二级分类相同的征信个体划分到同一个征信个体类别;
所述综合离散度计算模块包括:
单一离散度计算模块,用于分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=1,2,…,n,n为所述征信个体的有用征信数据维度的数量;
所述综合离散度计算模块具体用于根据每一个有用征信数据维度的时间分布的离散度si计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
所述单一离散度计算模块包括:
时间段数据获取模块,用于获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b,其中j=1,2,…,m;
所述单一离散度计算模块具体用于根据分布时间段的数量m以及每一个分布时间段的上界tj,t和下界tj,b计算每一个有用征信数据维度的时间分布的离散度:
其中α为时间片段密度系数,β为时间片段长、度系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392013.7A CN116416056B (zh) | 2023-04-04 | 2023-04-04 | 一种基于机器学习的征信数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392013.7A CN116416056B (zh) | 2023-04-04 | 2023-04-04 | 一种基于机器学习的征信数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116416056A CN116416056A (zh) | 2023-07-11 |
CN116416056B true CN116416056B (zh) | 2023-10-03 |
Family
ID=87059295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310392013.7A Active CN116416056B (zh) | 2023-04-04 | 2023-04-04 | 一种基于机器学习的征信数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416056B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
WO2022062193A1 (zh) * | 2020-09-28 | 2022-03-31 | 南京博雅区块链研究院有限公司 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
CN114372620A (zh) * | 2021-12-28 | 2022-04-19 | 天津汇智星源信息技术有限公司 | 基于轨迹预测的目标人员动态风险预警方法及相关设备 |
WO2022174669A1 (zh) * | 2021-02-19 | 2022-08-25 | 北京沃东天骏信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
US11544783B1 (en) * | 2016-05-12 | 2023-01-03 | State Farm Mutual Automobile Insurance Company | Heuristic credit risk assessment engine |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019140675A1 (zh) * | 2018-01-22 | 2019-07-25 | 大连理工大学 | 基于逼近理想点违约鉴别能力最大的信用评级最优权重向量的方法 |
-
2023
- 2023-04-04 CN CN202310392013.7A patent/CN116416056B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544783B1 (en) * | 2016-05-12 | 2023-01-03 | State Farm Mutual Automobile Insurance Company | Heuristic credit risk assessment engine |
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN107992982A (zh) * | 2017-12-28 | 2018-05-04 | 上海氪信信息技术有限公司 | 一种基于深度学习的非结构化数据的违约概率预测方法 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
WO2022062193A1 (zh) * | 2020-09-28 | 2022-03-31 | 南京博雅区块链研究院有限公司 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
WO2022174669A1 (zh) * | 2021-02-19 | 2022-08-25 | 北京沃东天骏信息技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN114372620A (zh) * | 2021-12-28 | 2022-04-19 | 天津汇智星源信息技术有限公司 | 基于轨迹预测的目标人员动态风险预警方法及相关设备 |
Non-Patent Citations (3)
Title |
---|
于立勇.商业银行信用风险评估预测模型研究.管理科学学报.2003,(05),全文. * |
陈启伟 ; 王伟 ; 马迪 ; 毛伟 ; .基于Ext-GBDT集成的类别不平衡信用评分模型.计算机应用研究.2017,(02),全文. * |
陈飞 ; 杨波 ; .基于机器学习的互联网金融机构信用风险识别.金融科技时代.2020,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116416056A (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
King et al. | Cost-benefit analysis in information systems development and operation | |
CN106651424B (zh) | 基于大数据技术的电力用户画像建立与分析方法 | |
Masrury et al. | Analyzing tourism mobile applications perceived quality using sentiment analysis and topic modeling | |
Durrant et al. | Using paradata to predict best times of contact, conditioning on household and interviewer influences | |
EP1361526A1 (en) | Electronic data processing system and method of using an electronic processing system for automatically determining a risk indicator value | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
Statistics | Socio-economic indexes for areas (SEIFA) | |
CN112116256A (zh) | 一种数据资产管理方法 | |
Jena et al. | The determinants of United Kingdom student visa demand from developing countries | |
CN114358014A (zh) | 基于自然语言的工单智能诊断方法、装置、设备及介质 | |
JP2010225103A (ja) | 投資収支リスク分析方法、プログラム、及び、投資収支リスク分析装置 | |
US20220261818A1 (en) | System and method for determining and managing reputation of entities and industries through use of media data | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
Salling | Assessment of transport projects: risk analysis and decision support | |
CN116416056B (zh) | 一种基于机器学习的征信数据处理方法及系统 | |
Derks et al. | The Bayesian approach to audit evidence: Quantifying statistical evidence using the Bayes factor | |
Castaings et al. | The 2007 European e-business readiness index | |
Banfi et al. | An empirical analysis of child care demand in Switzerland | |
Wasesa et al. | Using smart card data to develop origin-destination matrix-based business analytics for bus rapid transit systems: case study of Jakarta, Indonesia | |
Bass et al. | Utility-scale Building Type Assignment Using Smart Meter Data | |
CN112926816B (zh) | 供应商评价方法、装置、计算机设备和存储介质 | |
Minashkin et al. | Measuring the digital economy's contribution to Russia's gross domestic product: approaches and methods. | |
CN115187009A (zh) | 一种数据处理方法及装置 | |
CN118710283A (zh) | 一种客户服务能力画像生成方法、装置及介质 | |
CN117726434A (zh) | 一种信用评分卡模型训练方法、应用方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |