CN110765110A - 泛化能力处理方法、装置、设备及存储介质 - Google Patents
泛化能力处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110765110A CN110765110A CN201911020136.8A CN201911020136A CN110765110A CN 110765110 A CN110765110 A CN 110765110A CN 201911020136 A CN201911020136 A CN 201911020136A CN 110765110 A CN110765110 A CN 110765110A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- portrait
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 175
- 238000012545 processing Methods 0.000 claims abstract description 88
- 238000003066 decision tree Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012795 verification Methods 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 239000000523 sample Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技领域,本发明公开了一种泛化能力处理方法、装置、设备及存储介质,所述方法包括:获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。本发明解决现有技术中计算机系统性能较低,计算机系统训练模型的效率较低的技术问题。
Description
技术领域
本发明涉及金融科技技术领域,尤其涉及一种泛化能力处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
由于决策树模型具有可解释性,因此在金融风控,医疗诊断等要求模型可解释的场景通常会应用决策树模型进行数据训练以实现建模。但是传统的模型数据训练需要人工参与模型调整,而人工调整模型训练的过程较为复杂,计算机系统需要消耗等待人工输入数据所消耗的资源,且需要额外计算和存储大量的数据,造成计算系统的处理器能力和数据存储方面的负担增加,导致计算机系统性能较低,且导致计算机系统训练模型的效率较低。
发明内容
本发明的主要目的在于提供一种泛化能力处理方法、装置、设备及存储介质,旨在解决计算机系统性能较低,计算机系统训练模型的效率较低的技术问题。
为实现上述目的,本发明实施例提供一种泛化能力处理方法,所述泛化能力处理方法包括:
获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
可选地,所述根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型,包括:
将第一预设个数的画像数据设为验证数据,并将第二预设个数的画像数据设为训练数据;
根据所述验证数据对所述训练数据进行数据训练处理,以获得训练结果;
根据所述训练结果对预设的标准泛化模型进行数据训练处理,以获得初步模型。
可选地,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型,包括:
根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以确定所述画像数据对应的所有叶子节点;
获取所述叶子节点中的训练预测数据;
提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型。
可选地,所述提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型,包括:
提取所述训练预测数据的预测值,并对所述预测值进行分类,以获得正比例预测值和负比例预测值;
分别统计所述正比例预测值的第一预测数量和所述负比例预测值的第二预测数量,并根据所述第一预测数量和第二预测数量生成最终泛化模型。
可选地,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型之后,所述方法还包括:
从待识别用户数据中提取待处理的画像数据;
将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果,包括:
提取所述最终泛化模型中不同分布占比的目标叶子节点,并获取各目标叶子节点的目标预测数据;
获取所述目标预测数据对应的目标画像数据,并根据所述目标画像数据生成对应的画像特征数据集;
将所述待处理的画像数据和所述画像特征数据集进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述获取画像数据,包括:
获取待筛选画像数据;
若所述待筛选画像数据满足预设筛选标准,则将所述待筛选画像数据确认为画像数据。
本发明还提供一种泛化能力处理装置,所述泛化能力处理装置包括:
获取模块,用于获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
预测模块,用于将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
第一训练模块,用于根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
第二训练模块,用于根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
可选地,所述获取模块包括:
设置单元,用于将第一预设个数的画像数据设为验证数据,并将第二预设个数的画像数据设为训练数据;
第一训练单元,用于根据所述验证数据对所述训练数据进行数据训练处理,以获得训练结果;
第二训练单元,用于根据所述训练结果对预设的标准泛化模型进行数据训练处理,以获得初步模型。
可选地,所述第二训练模块包括:
第三训练单元,用于根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以确定所述画像数据对应的所有叶子节点;
获取单元,用于获取所述叶子节点中的训练预测数据;
生成单元,用于提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型。
可选地,所述生成单元包括:
分类子单元,用于提取所述训练预测数据的预测值,并对所述预测值进行分类,以获得正比例预测值和负比例预测值;
统计子单元,用于分别统计所述正比例预测值的第一预测数量和所述负比例预测值的第二预测数量,并根据所述第一预测数量和第二预测数量生成最终泛化模型。
可选地,所述泛化能力处理装置还包括:
画像模块,用于从待识别用户数据中提取待处理的画像数据;
匹配模块,用于将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述泛化能力处理装置还包括:
提取模块,用于提取所述最终泛化模型中不同分布占比的目标叶子节点,并获取各目标叶子节点的目标预测数据;
特征模块,用于获取所述目标预测数据对应的目标画像数据,并根据所述目标画像数据生成对应的画像特征数据集;
识别模块,用于将所述待处理的画像数据和所述画像特征数据集进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述获取模块还用于:
获取待筛选画像数据;
若所述待筛选画像数据满足预设筛选标准,则将所述待筛选画像数据确认为画像数据。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的泛化能力处理程序,其中:
所述泛化能力处理程序被所述处理器执行时实现如上所述的泛化能力处理方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有泛化能力处理程序,所述泛化能力处理程序被处理器执行时实现如上述的泛化能力处理方法的步骤。
本发明获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。通过以上方案,本发明在稳定性上继承多决策树模型的稳定概率,降低计算系统的处理器能力和数据存储方面的负担,提升计算机系统性能,同时结合泛化模型和解释能力强的决策树模型,获取得到目标的预测模型,无需人工参与,简化模型训练流程,提高系统自动化训练效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明泛化能力处理方法一实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及泛化能力处理程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的泛化能力处理程序,并执行下述泛化能力处理方法各个实施例中的操作。
本发明实施例方案的主要思路是:本发明获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。通过以上方案,本发明在稳定性上继承多决策树模型的稳定概率,降低计算系统的处理器能力和数据存储方面的负担,提升计算机系统性能,同时结合泛化模型和解释能力强的决策树模型,获取得到目标的预测模型,无需人工参与,提高系统自动化训练效率,简化模型训练流程。
本发明实施例考虑到,由于现有技术中,传统的模型数据训练需要人工参与模型调整,而人工调整模型训练的过程较为复杂,计算机系统需要消耗等待人工输入数据所消耗的资源,且需要额外计算和存储大量的数据,造成计算系统的处理器能力和数据存储方面的负担增加,导致计算机系统性能较低,且导致计算机系统训练模型的效率较低。
本发明提供一种解决方案,可以在稳定性上继承多决策树模型的稳定概率,降低计算系统的处理器能力和数据存储方面的负担,提升计算机系统性能,同时结合泛化模型和解释能力强的决策树模型,获取得到目标的预测模型,无需人工参与,简化模型训练流程,提高系统自动化训练效率。
基于上述硬件结构,提出本发明泛化能力处理方法实施例。
本发明属于金融科技领域(Fintech),本发明提供一种泛化能力处理方法,该泛化能力处理方法可应用于设备上,在泛化能力处理方法一实施例中,参照图2,所述泛化能力处理方法包括:
步骤S10,获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
步骤S20,将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
步骤S30,根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
步骤S40,根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
具体内容如下:
步骤S10,获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
在本发明中,所述画像数据作为模型数据集,用X表示,包含n条数据{x1,x2,...xn},每一条数据包含k个数值{xi1,xi2,...xi(k)},所述属性特征作为记录数据集,用Y表示,包含n条数据{y1,y2,...yn},对于分类模型(二分类或多分类),yi是离散的,而对于回归模型yi是连续的。画像数据代表了样本对象的对象信息,而属性特征代表了样本对象的业务事项信息。当前画像数据X是每个用户的用户画像,如年龄,性别和学历等,属性特征Y是每个用户在历史上是否正常还款的标注,一般会对标注数字化,例如0表示正常还款,1表示有过逾期。本发明中,画像数据和属性特征是一一对应的,例如每个用户都有唯一的用户画像,并且其是否有逾期的记录也是关联该用户的,因此用户画像和逾期与否是一一对应的。根据画像数据和属性特征,本发明可生成训练集{X,Y}。所述训练集是预设数据模型中的样本数据,提供了数据训练的参考标本。
进一步地,所述获取画像数据,包括:
获取待筛选画像数据;
若所述待筛选画像数据满足预设筛选标准,则将所述待筛选画像数据确认为画像数据。
为进一步提高训练集的有效性,避免异常数据的干扰,本实施例将对画像数据进行筛选。通过设置预设筛选标准,对画像数据进行标准比对匹配。例如,画像数据为贷款审批数据中的用户画像,而预设筛选标准规定必须年龄在18~40周岁,职业为非无业游民。也就是说,预设筛选标准规定了画像数据中年龄数据和职业数据的边界,只有年龄在18~40周岁且非无业游民的用户才可以成为合格数据。可以理解的是,本实施例中预设筛选标准可根据实际业务需求进行调整更改,而并不仅限于上述所举的例子。例如业务需求是只统计男性白领的贷款数据,那么预设筛选标准将对性别、年收入、社保信息等画像数据进行规范,只有满足要求的画像数据才能作为统计样本。将满足预设筛选标准的达标画像数据,以及该达标画像数据对应的属性特征共同添加至目标训练列表。所述目标训练列表是放置满足预设筛选标准的画像数据以及对应属性特征的数据缓冲区。
在完成画像数据以及对应的属性特征的筛选之后,可通过从数据缓冲区中的目标训练列表中提取出达标的画像数据和属性特征,并根据二者之间一一对应的关联关系生成训练集{X,Y}。
由此,通过预设筛选标准的筛选,本发明可提前规定具有特定用户特征的画像数据和属性特征,从而实现灵活的数据筛选。
所述标准泛化模型指的是具有强泛化能力的模型,例如梯度提升树,随机森林等模型,为方便理解,本发明以梯度提升树为例子。通过标准泛化模型对训练集{X,Y}进行数据交叉验证,从而以训练集的数据对标准泛化模型进行训练,以得到初步模型。可以理解的是,决策树具有良好的可解释性,金融风控、医疗模型等要求模型可解释的场景通常会使用决策树模型建模,所述初步模型是由梯度提升树训练而来,因此梯度提升树不再是单个决策树,而是由多个决策树集成的模型,其泛化误差会被抹平,即泛化误差比单个决策树更低。
具体地,所述根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型,包括:
步骤B1,将第一预设个数的画像数据设为验证数据,并将第二预设个数的画像数据设为训练数据;
步骤B2,根据所述验证数据对所述训练数据进行数据训练处理,以获得训练结果;
具体地,本实施例中获得初步模型的步骤需要先对训练集中的数据进行设置。由于是利用画像数据和属性特征,因此系统将从训练集中的X和Y进行交叉验证,具体方式为从训练集中获取第一预设个数的目标数据为验证数据,获取第二预设个数的目标数据为训练数据。所述目标数据指的是的训练集中的被选中的数据。
假设本实施例训练集中存在5个目标数据,则系统根据预设设定将1个(即第一预设个数)目标数据设置为验证数据,将剩下4个(即第二预设个数)目标数据设置为训练数据。所述第一预设个数和第二预设个数可根据业务需求自定义设置。
通过验证数据对训练数据进行验证,取得训练数据交叉验证后的验证数值。例如,将4个训练数据(a、b、c和d)和1个验证数据e输入到梯度提升树中,其中a与b、c和d以及e进行交叉验证,获得验证值1;将b与a、c和d以及e进行交叉验证,获得验证值2;依次类推,分别获得验证值1、验证值2、验证值3和验证值4。同理,验证数据e与训练数据a、b、c和d交叉验证,获得验证值5。对所述验证值1、验证值2、验证值3、验证值4和验证值5进行平均值处理,即可获得训练结果。可以理解的是,若训练集中的目标数据大于第一预设个数和第二预设个数的和,则按照目标数据的先后存储顺序依次获取训练集中第一预设个数的目标数据和第二预设个数的目标数据进行处理,循环获取,直至训练集中每一个目标数据均被训练处理,得到大量的训练结果。
步骤B3,根据预设的标准泛化模型和所述训练结果进行数据训练处理,以获得初步模型。
获取到训练结果之后,获取到标准泛化模型,利用标准泛化模型对训练结果进行数据训练处理。利用多元决策树数据处理,标准泛化模型采用梯度提升树,将所有训练结果输入梯度提升树,再根据梯度提升树对训练结果的数据训练处理,利用训练结果和当前梯度提升树的决策逻辑,获取到多元决策树的稳定性表达,从而得到初步模型。
步骤S20,将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
获取到初步模型之后,系统将用画像数据X作为初步模型的输入参数,以预测得到预测结果,若训练集的来源是回归问题,则预测结果为回归问题预测值,若训练集的来源是分类问题,则预测结果为分类模型目标预测值与预测概率;所述分类模型目标预测值与预测概率为:{y1,y2,...yn},{p1,p2,...pn},所述回归模型目标预测值:{y'1,y'2,...y'n},即初步模型在数据集X的初始输入中得到预测值。
例如,本发明用用户画像数据X作为输入,用初步模型预测得到是否会逾期的预测结果P,P为一个n维的数组{p_1,p_2,…,p_n},p_i的值域为[0,1],值越大表示该用户逾期概率越大。P如果是回归问题,则P为回归模型目标预测值,如果是分类问题,则P为分类模型目标预测值与预测概率。
步骤S30,根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
进阶模型相比较初步模型更加直观易懂,所述画像数据X将作为预测结果P的标签,通常标签的选择与具体业务相关(如:判断用户是否会逾期的问题会选择逾期的概率为标签;预测房价问题会选择模型预测的房价为标签)。用训练集中的数据集X作为输入,预测结果P作为标签训练一个决策树模型,所述进阶模型即用决策树拟合初步模型在训练集上的结果得到的模型。
例如,预测结果P的标签为用户逾期的概率,通过画像数据X以及预测结果P,建立决策树模型。可以理解的是,画像数据X代表不同用户的用户画像,预测结果P代表逾期概率,因此由用户画像和逾期概率所建立的模型即为逾期概率与用户画像之间的关联关系模型,例如用户画像中消费贷款占主要比例的用户贷款逾期概率高,而用户画像中投资贷款占主要比例的用户贷款逾期概率低。
步骤S40,根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
进阶模型的决策逻辑可作为统计分布的计算因子。利用进阶模型的决策逻辑以及所述训练集{X,Y},统计进阶模型中叶子节点的预测结果,得到统计分布模型,即统计分布模型为最终模型。
具体地,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型,包括:
步骤C1,根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以确定所述画像数据对应的所有叶子节点;
所述画像数据和属性特征可对进阶模型进行数据训练,进阶模型中包含多个叶子节点,不同的叶子节点根据进阶模型的决策逻辑分配到不同的画像数据和属性特征。可以理解的是,画像数据和属性特征输入至进阶模型中,而进阶模型根据决策逻辑对画像数据和属性特征进行分配。例如通过性别、年龄、职业等进行分配,以将画像数据和属性特征分配到对应的叶子节点。不同的叶子节点表示不同的分配机制。通过不同的分配方式即可将画像数据和属性特征分配到不同的叶子节点中,系统可确定画像数据和属性特征在进阶模型中的具体叶子节点,例如叶子节点为空,则画像数据和属性特征不在该叶子节点中,若叶子节点中存在数值,则该叶子节点中有画像数据和属性特征。
步骤C2,获取所述叶子节点中的训练预测数据;
步骤C3,提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型。
画像数据和属性特征经过进阶模型的决策逻辑,分配在不同的叶子节点中。不同的叶子节点对应着不同的分配结果,即不同的叶子节点代表不同维度的训练预测数据。而训练预测数据是将画像数据和属性特征进行数据解析后得到的具有预测性的数据,例如叶子节点的训练预测数据形成了二分类数据,即是否逾期。
系统将对这些训练预测数据的预测值进行提取,以将叶子节点中的预测值进行统计。
具体地,所述提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型,包括:
步骤C31,提取所述训练预测数据的预测值,并对所述预测值进行分类,以获得正比例预测值和负比例预测值;
由于预测值是本发明将回归问题转化为二分类问题的直接显示结果,因此需要将预测值进行分类,以区分出正比例预测值和负比例预测值。所述正比例预测值指的是预测结果P标签的正预测数据,例如该用户存在逾期风险,所述负比例预测值指的是预测结果P标签的负预测数据,例如该用户不存在逾期风险。
步骤C32,分别统计所述正比例预测值的第一预测数量和所述负比例预测值的第二预测数量,并根据所述第一预测数量和第二预测数量生成最终泛化模型。
系统将统计正比例预测值的第一预测数量,例如统计预测值会贷款逾期(即正比例预测值)的样本数量,同理系统将统计负比例预测值的第二预测数量。根据统计出来的第一预测数量和第二预测数量生成统计分布模型。所述统计分布模型确定了当前预测值的贷款逾期的比例分布图,即所有用户在贷款是否会逾期上的画像比例分布。
综上,通过将单一决策树模型整合为多个决策树模型,利用多个决策树之间的数据泛化,保障模型数据的稳定性,例如判断是否逾期,单一决策树的KS值为0.45,梯度提升树模型A的KS值为0.53,模型C的KS介于单一决策树模型和梯度提升之间为0.5。
本发明获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。通过以上方案,本发明在稳定性上继承多决策树模型的稳定概率,降低计算系统的处理器能力和数据存储方面的负担,提升计算机系统性能,同时结合泛化模型和解释能力强的决策树模型,获取得到目标的预测模型,无需人工参与,简化模型训练流程,提高系统自动化训练效率。
进一步地,基于第一实施例,提出本发明泛化能力处理方法的第二实施例,在该实施例中,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型之后,所述方法还包括:
步骤a,从待识别用户数据中提取待处理的画像数据;
步骤b,将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果。
假设有待识别用户数据输入最终泛化模型,而此时最终泛化模型未进入新一轮的计算周期(如计算周期为半个月计算一次),则系统直接获取该待识别用户数据的待处理的画像数据,通过待处理的画像数据可确定该待识别用户数据对应的用户画像,例如得到待处理的画像数据的职业分类,年收入状况,社保信息。在本实施例中,可以将待处理的画像数据跟最终泛化模型进行特征匹配,以得到对应的用户识别结果。系统将根据待处理的画像数据的具体情况,匹配到与该待处理的画像数据相似度最高的目标画像数据,并将相似度最高的目标画像数据作为所述待处理的画像数据的最接近数据,以便进行计算,从而得到用户识别结果。
例如,待处理的画像数据中职业分类为股票投资理财经理,年收入状况为80万,社保信息为一档社保,缴费时长12年整,系统将在最终泛化模型获取职业分类最接近股票投资理财经理,年收入状况最接近80万,社保信息为一档社保,缴费时长最接近12年整的特征数据,并将该特征数据的待识别用户数据对应的贷款审批预测结果作为参考数据,得到用户识别结果。
进一步地,所述将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果,包括:
步骤b1,提取所述最终泛化模型中不同分布占比的目标叶子节点,并获取各目标叶子节点的目标预测数据;
最终泛化模型将画像数据和属性特征进行分类统计,系统可进一步根据统计数据提取出数据之间的特征。系统从最终泛化模型中提取出不同分布占比的目标叶子节点,由于最终泛化模型会将画像数据类型相同或画像数据接近的训练预测数据统计分布在叶子节点上,从而使得各叶子节点聚集了具有相同属性的数据,因此将预测值划分为不同分布占比的数据块。
本实施例系统从最终泛化模型中提取出不同分布占比的目标叶子节点,并获取各个目标叶子节点中的目标预测数据。
步骤b2,获取所述目标预测数据对应的目标画像数据,并根据所述目标画像数据生成对应的画像特征数据集;
步骤b3,将所述待处理的画像数据和所述画像特征数据集进行匹配,得到所述待识别用户数据对应的用户识别结果。
所述目标预测数据是针对画像数据和属性特征的训练集{X,Y}计算而来的,因此目标预测数据能够从训练集中定位到画像数据,获取目标预测数据对应的目标画像数据,由于当前目标预测数据是通过决策树模型分析数据而来,因此目标预测数据是针对目标画像数据中的特定特征而获取到的,因此,系统可提取出目标画像数据中的数据特征,例如用户性别、年龄、年收入、社保信息等数据特征,将相同类型的数据进行划分归纳,从而获取到对应的画像特征数据集。
例如,统计分布模型定位出占比10%,15%,20%,25%,30%的5种不同分布占比的目标叶子节点,并从目标叶子节点中提取出对应的目标预测数据,分别代表月收入7000~8500,6000~7000,5000~6000,4000~5000,3000~4000的目标预测用户群体。同时,系统将提取出这些目标预测用户群体的目标画像数据,例如提取出这些群体的性别、年龄、社保信息。由于这些群体的月收入以不同分布的形式归类,那么同一分布的用户群体的性别、年龄、社保信息有很大程度是具有共性的,如性别相同,年龄落在某个特定区间,社保信息缴费类型或费用相似等等。系统将把这些共性的数据提取出来,并确认为该用户群体的画像特征数据集。待处理的画像数据与画像特征数据集即可通过共性进行匹配,如职业与职业匹配,性别与性别匹配,年龄与年龄匹配等等,从而得到待识别用户数据对应的用户识别结果。
此外,本发明实施例还提出一种泛化能力处理装置,所述泛化能力处理装置包括:
获取模块,用于获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
预测模块,用于将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
第一训练模块,用于根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
第二训练模块,用于根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
可选地,所述获取模块包括:
设置单元,用于将第一预设个数的画像数据设为验证数据,并将第二预设个数的画像数据设为训练数据;
第一训练单元,用于根据所述验证数据对所述训练数据进行数据训练处理,以获得训练结果;
第二训练单元,用于根据所述训练结果对预设的标准泛化模型进行数据训练处理,以获得初步模型。
可选地,所述第二训练模块包括:
第三训练单元,用于根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以确定所述画像数据对应的所有叶子节点;
获取单元,用于获取所述叶子节点中的训练预测数据;
生成单元,用于提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型。
可选地,所述生成单元包括:
分类子单元,用于提取所述训练预测数据的预测值,并对所述预测值进行分类,以获得正比例预测值和负比例预测值;
统计子单元,用于分别统计所述正比例预测值的第一预测数量和所述负比例预测值的第二预测数量,并根据所述第一预测数量和第二预测数量生成最终泛化模型。
可选地,所述泛化能力处理装置还包括:
画像模块,用于从待识别用户数据中提取待处理的画像数据;
匹配模块,用于将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述泛化能力处理装置还包括:
提取模块,用于提取所述最终泛化模型中不同分布占比的目标叶子节点,并获取各目标叶子节点的目标预测数据;
特征模块,用于获取所述目标预测数据对应的目标画像数据,并根据所述目标画像数据生成对应的画像特征数据集;
识别模块,用于将所述待处理的画像数据和所述画像特征数据集进行匹配,得到所述待识别用户数据对应的用户识别结果。
可选地,所述获取模块还用于:
获取待筛选画像数据;
若所述待筛选画像数据满足预设筛选标准,则将所述待筛选画像数据确认为画像数据。
此外,本发明实施例还提出一种设备,设备包括:存储器109、处理器110及存储在存储器109上并可在处理器110上运行的泛化能力处理程序,所述泛化能力处理程序被处理器110执行时实现上述的泛化能力处理方法各实施例的步骤。
此外,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述泛化能力处理方法各实施例的步骤。
本发明设备及存储介质(即计算机存储介质)的具体实施方式的拓展内容与上述泛化能力处理方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种泛化能力处理方法,其特征在于,所述泛化能力处理方法包括:
获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
2.如权利要求1所述的泛化能力处理方法,其特征在于,所述根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型,包括:
将第一预设个数的画像数据设为验证数据,并将第二预设个数的画像数据设为训练数据;
根据所述验证数据对所述训练数据进行数据训练处理,以获得训练结果;
根据所述训练结果对预设的标准泛化模型进行数据训练处理,以获得初步模型。
3.如权利要求1所述的泛化能力处理方法,其特征在于,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型,包括:
根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以确定所述画像数据对应的所有叶子节点;
获取所述叶子节点中的训练预测数据;
提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型。
4.如权利要求3所述的泛化能力处理方法,其特征在于,所述提取所述训练预测数据的预测值,并根据所述预测值生成最终泛化模型,包括:
提取所述训练预测数据的预测值,并对所述预测值进行分类,以获得正比例预测值和负比例预测值;
分别统计所述正比例预测值的第一预测数量和所述负比例预测值的第二预测数量,并根据所述第一预测数量和第二预测数量生成最终泛化模型。
5.如权利要求1所述的泛化能力处理方法,其特征在于,所述根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型之后,所述方法还包括:
从待识别用户数据中提取待处理的画像数据;
将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果。
6.如权利要求5所述的泛化能力处理方法,其特征在于,所述将所述待处理的画像数据和最终泛化模型进行匹配,得到所述待识别用户数据对应的用户识别结果,包括:
提取所述最终泛化模型中不同分布占比的目标叶子节点,并获取各目标叶子节点的目标预测数据;
获取所述目标预测数据对应的目标画像数据,并根据所述目标画像数据生成对应的画像特征数据集;
将所述待处理的画像数据和所述画像特征数据集进行匹配,得到所述待识别用户数据对应的用户识别结果。
7.如权利要求1-6任一项所述的泛化能力处理方法,其特征在于,所述获取画像数据,包括:
获取待筛选画像数据;
若所述待筛选画像数据满足预设筛选标准,则将所述待筛选画像数据确认为画像数据。
8.一种泛化能力处理装置,其特征在于,所述泛化能力处理装置包括:
获取模块,用于获取画像数据,并根据所述画像数据和所述画像数据的属性特征对预设的标准泛化模型进行数据训练处理,以获得初步模型;
预测模块,用于将所述画像数据输入所述初步模型进行预测处理,以获得预测结果;
第一训练模块,用于根据所述画像数据和所述预测结果对预设的标准决策树模型进行数据训练处理,以获得进阶模型;
第二训练模块,用于根据所述画像数据和所述属性特征对所述进阶模型进行数据训练处理,以获得最终泛化模型。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的泛化能力处理程序,所述泛化能力处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的泛化能力处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有泛化能力处理程序,所述泛化能力处理程序被处理器执行时实现如权利要求1至7中任一项所述的泛化能力处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911020136.8A CN110765110A (zh) | 2019-10-24 | 2019-10-24 | 泛化能力处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911020136.8A CN110765110A (zh) | 2019-10-24 | 2019-10-24 | 泛化能力处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110765110A true CN110765110A (zh) | 2020-02-07 |
Family
ID=69333767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911020136.8A Pending CN110765110A (zh) | 2019-10-24 | 2019-10-24 | 泛化能力处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765110A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488942A (zh) * | 2020-04-15 | 2020-08-04 | 深圳前海微众银行股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
CN112699964A (zh) * | 2021-01-13 | 2021-04-23 | 成都链安科技有限公司 | 模型构建方法、系统、装置、介质、交易身份识别方法 |
CN113222732A (zh) * | 2021-05-17 | 2021-08-06 | 中国农业银行股份有限公司 | 信息处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358269A (zh) * | 2017-07-12 | 2017-11-17 | 广州天源信息科技有限公司 | 一种面向精准营销的电信用户消费画像的构建方法 |
CN109711636A (zh) * | 2019-01-09 | 2019-05-03 | 南京工业大学 | 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法 |
WO2019114413A1 (zh) * | 2017-12-11 | 2019-06-20 | 北京三快在线科技有限公司 | 模型训练 |
CN109978179A (zh) * | 2019-04-04 | 2019-07-05 | 拉扎斯网络科技(上海)有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 |
-
2019
- 2019-10-24 CN CN201911020136.8A patent/CN110765110A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358269A (zh) * | 2017-07-12 | 2017-11-17 | 广州天源信息科技有限公司 | 一种面向精准营销的电信用户消费画像的构建方法 |
WO2019114413A1 (zh) * | 2017-12-11 | 2019-06-20 | 北京三快在线科技有限公司 | 模型训练 |
CN109711636A (zh) * | 2019-01-09 | 2019-05-03 | 南京工业大学 | 一种基于混沌萤火虫与梯度提升树模型的河流水位预测方法 |
CN109978179A (zh) * | 2019-04-04 | 2019-07-05 | 拉扎斯网络科技(上海)有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN110245802A (zh) * | 2019-06-20 | 2019-09-17 | 杭州安脉盛智能技术有限公司 | 基于改进梯度提升决策树的卷烟空头率预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
LI JINSHU等: "Gradient Boosting Decision Tree and Random Forest Based Partial Discharge Pattern Recognition of HV Cable", 《 2018 CHINA INTERNATIONAL CONFERENCE ON ELECTRICITY DISTRIBUTION (CICED)》, 30 December 2018 (2018-12-30) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488942A (zh) * | 2020-04-15 | 2020-08-04 | 深圳前海微众银行股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
CN112699964A (zh) * | 2021-01-13 | 2021-04-23 | 成都链安科技有限公司 | 模型构建方法、系统、装置、介质、交易身份识别方法 |
CN113222732A (zh) * | 2021-05-17 | 2021-08-06 | 中国农业银行股份有限公司 | 信息处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428322A (zh) | 一种业务数据的适配方法及装置 | |
CN109376766B (zh) | 一种画像预测分类方法、装置及设备 | |
CN110765110A (zh) | 泛化能力处理方法、装置、设备及存储介质 | |
CN110457577B (zh) | 数据处理方法、装置、设备和计算机存储介质 | |
CN113051911B (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN112396079A (zh) | 号码识别模型训练方法、号码识别方法及装置 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
CN111062444A (zh) | 信用风险预测方法、系统、终端及存储介质 | |
CN110019774B (zh) | 标签分配方法、装置、存储介质及电子装置 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN110597984B (zh) | 异常行为用户信息的确定方法及装置、存储介质、终端 | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN110852809A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN111752985A (zh) | 一种主体画像生成的方法、装置和存储介质 | |
CN114186831B (zh) | 一种应用迁移学习进行个人信用风险预测方法及系统 | |
CN116258593A (zh) | 金融产品创设方法、装置、设备及存储介质 | |
CN115907850A (zh) | 用户分类的方法、装置、电子设备及存储介质 | |
CN116361542A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN114581130A (zh) | 基于客户画像的银行网点派号方法及装置、存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113191570A (zh) | 基于深度学习的资金规划推荐方法、装置和设备 | |
TWI759785B (zh) | 整合定性資料及定量資料進行稽核準則推薦的系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |