CN113919432A - 一种分类模型构建方法、数据分类方法及装置 - Google Patents
一种分类模型构建方法、数据分类方法及装置 Download PDFInfo
- Publication number
- CN113919432A CN113919432A CN202111213641.1A CN202111213641A CN113919432A CN 113919432 A CN113919432 A CN 113919432A CN 202111213641 A CN202111213641 A CN 202111213641A CN 113919432 A CN113919432 A CN 113919432A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- model
- sample
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/403—Solvency checks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分类模型构建方法、数据分类方法及装置,属于数据处理领域。方法包括:从至少两个数据源中获取样本数据,提取样本数据中的数据指标;计算各数据指标的重要程度值以及关联程度值;结合重要程度值和关联程度值在数据指标中确定分类指标,按照分类指标对各数据源的样本数据分类;分别利用各数据源中不同类别的样本数据训练机器学习模型,获得子分类模型;将相同样本类别不同数据源的子分类模型融合,获得融合分类模型。本发明打破了仅根据一个数据源的样本进行模型训练的壁垒,使模型预测结果准确可靠;通过结合数据指标的重要程度和关联程度确定分类指标能够使样本数据的类别区别更加明显,从而提升分类模型的显著性和预测能力。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种分类模型构建方法、数据分类方法及装置。
背景技术
在许多具体的业务场景中,为了能够针对性地分析用户数据,需要将用户样本进行分类分析。目前常用的分类方法包括:机器学习模型分类法、逻辑回归分类法、模型融合分类法,机器学习模型分类法为使用预训练的神经网络模型对样本数据进行分类的方法,逻辑回归分类法是一种解决二分类问题的机器学习方法,模型融合分类法需要将针对样本分类预训练的多个子模型按照一定的方法集成一个融合模型,通过融合模型对样本数据分类的方法。目前,使用较多且分类效果最好的为模型融合分类法。
如上所述,模型融合分类法需要对样本数据细分后针对不同的人群建立独立的子模型再融合,然而现有技术中对样本数据的分类一般采用业务经验选择某一个分类指标,没有通过一套数据分析框架完成分类指标选择,导致样本分类不客观、不准确的问题。此外,目前在模型融合方面既可以采用传统的逻辑回归模型也可以使用层次较浅的机器学习模型,这两种方法在处理异常样本时,往往会因为样本的过少导致异常样本的评分严重失真。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种分类模型构建方法、数据分类方法及装置。所述技术方案如下:
第一方面,提供了一种分类模型构建方法,所述方法包括:
从至少两个数据源中获取样本数据,提取所述样本数据中的数据指标;
计算各所述数据指标的重要程度值,以及各所述数据指标与其他所述数据指标的关联程度值;
结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类;
分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型;
将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型。
进一步地,所述计算确定各所述数据指标的重要程度,以及各所述数据指标与其他所述数据指标的关联程度,包括:
利用预训练的重要指标机器学习模型计算所述数据指标的所述重要程度值;
利用预训练的相关指标机器学习模型计算所述数据指标的所述关联程度值。
进一步地,所述结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类,包括:
将所述数据指标的所述重要程度值与预设的重要性条件对比;
将满足所述重要性条件的所述数据指标的所述关联程度值与预设的关联性条件对比,确定满足所述关联性条件的所述数据指标为所述分类指标;
按照所述分类指标对各所述数据源的样本数据分类。
进一步地,所述分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型,包括:
分别利用与各所述数据源中各所述样本类别对应的所述样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型和各所述子分类模型的测试结果;
根据所述测试结果对所述子分类模型打分,获得各所述子分类模型的模型评分。
进一步地,所述将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型,包括:
将相同样本类别不同所述数据源对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型。
进一步地,所述将相同样本类别不同所述数据源对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型,包括:
对各所述数据源中相同样本类别对应的所述子分类模型的模型评分进行分箱处理,并根据分箱结果计算所述子分类模型的模型评分对应的分析参数;
将所述模型评分的分析参数与变量筛选标准比较,利用符合所述变量筛选标准的所述模型评分进行逻辑回归拟合,获得拟合结果,并计算所述拟合结果的分析参数;
将所述拟合结果的分析参数与模型筛选标准比较,确定满足所述模型筛选标准的逻辑回归模型为所述融合分类模型。
第二方面,提供了一种数据分类方法,包括:
利用如第一方面任一项构建的融合分类模型根据信贷数据对信贷申请人在贷款前进行贷前分类评估;
利用如第一方面任一项构建的融合分类模型根据信贷数据对信贷借款人在贷款后还款逾期前进行贷后分类评估;
利用如第一方面任一项构建的融合分类模型根据信贷数据对所述信贷借款人在贷款后还款逾期后对应的贷款进行催收分类评估。
第三方面,提供了一种分类模型构建装置,所述装置包括:
数据获取模块,用于从至少两个数据源中获取样本数据,提取所述样本数据中的数据指标;
计算模块,用于计算各所述数据指标的重要程度值,以及各所述数据指标与其他所述数据指标的关联程度值;
分类模块,用于结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类;
训练模块,用于分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型;
融合模块,用于将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型。
进一步地,计算模块,包括:重要程度值计算模块和关联程度值计算模块,分别用于:
重要程度值计算模块,用于利用预训练的重要指标机器学习模型计算所述数据指标的所述重要程度值;
关联程度值计算模块,利用预训练的相关指标机器学习模型计算所述数据指标的所述关联程度值。
进一步地,分类模块,具体用于:
将所述数据指标的所述重要程度值与预设的重要性条件对比;
将满足所述重要性条件的所述数据指标的所述关联程度值与预设的关联性条件对比,确定满足所述关联性条件的所述数据指标为所述分类指标;
按照所述分类指标对各所述数据源的样本数据分类。
进一步地,训练模块,包括:
训练子模块,用于分别利用与各所述数据源中各所述样本类别对应的所述样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型和各所述子分类模型的测试结果;
评分子模块,根据所述测试结果对所述子分类模型打分,获得各所述子分类模型的模型评分。
进一步地,融合模块,具体用于:
将各所述数据源中相同样本类别对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型。
进一步地,融合模块,包括:
变量分析模块,用于对各所述数据源中相同样本类别对应的所述子分类模型的模型评分进行分箱处理,并根据分箱结果计算所述子分类模型的模型评分对应的分析参数;
拟合模块,用于将所述模型评分的分析参数与变量筛选标准比较,利用符合所述变量筛选标准的所述模型评分进行逻辑回归拟合,获得拟合结果,并计算所述拟合结果的分析参数;
结果确定模块,用于将所述拟合结果的分析参数与模型筛选标准比较,确定满足所述模型筛选标准的逻辑回归模型为所述融合分类模型。
第四方面,提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面任一所述的方法。
第五方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如第一方面任一所述的方法。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明公开的技术方案,在对同一类别的样本预测中结合了不同数据源的样本数据对应的子分类模型进行融合,获得融合分类模型,打破了现有技术中尤其是金融风控技术领域的现有技术中仅根据一个数据源的样本进行模型训练的壁垒,使得模型预测结果更加准确可靠;
2、本发明公开的技术方案,在对样本数据分类过程中区别与传统的专家经验确定分类指标的方法,通过结合数据指标的重要程度和关联程度确定分类指标能够使样本数据的类别区别更加明显,从而提升依托不同类别样本数据构建分类模型的显著性和预测能力;
3、本发明公开的技术方案,在对同一样本类别不同数据源的子分类模型的融合技术中,根据子分类模型的评分进行逻辑回归预测,相对于现有技术中的模型融合方法,更加适用于子模型量少的模型融合,不会引起因异常样本量少而导致预测结果失真。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的分类模型构建方法流程图;
图2是本发明实施例提供的逻辑拟合方法流程图;
图3是本发明实施例提供的分类模型构建装置结构示意图;
图4是本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在信贷业务场景中,为了能对信贷申请人进行准确、全面、系统的管理,目前,通常采用信用评分卡对处在不同信贷环节的申请人进行分类评估。普遍地,信贷评分卡包括:A卡、B卡、C卡,其中A卡主要针对信贷前在信贷审批阶段对借款申请人的量化评估,B卡主要针对贷后管理,通过借款人的还款行为等其他维度,预测借款人未来的还款能力和意愿,C卡主要针对逾期后的催收管理,在借款人当前逾期的前提下,预测该笔贷款未来变为坏账的概率。
上述各类型的信贷评分卡各对应一个机器学习模型,该机器学习模型通过训练样本和测试样本预先训练和测试后上线使用。现有技术中信贷评分卡对应的机器学习模型通常仅根据一个数据源的训练样本和测试样本构建,例如仅根据某家银行或者银行体系的数据进行构建,而缺乏对银行体系外的其他数据源训练。因此对于用户的分类评估不准确、不全面,由此我们需要对不同数据源分别构建机器学习模型,然后将其融合,使得融合后的机器学习模型可以适用于不同的数据源,获得的评估结果更加准确。
在模型融合技术中,通常的做法是依据业务经验确定客群分类指标,根据分类指标对用户分类,然后对不同类别的用户分别训练对应的模型。上述做法由于分类指标不是通过一套数据分析框架对数据分析后得出的,因此会导致用户分类不准确,训练出的模型之间要么模型相关度过高,无效模型太多,要么模型过于离散,用户类别覆盖不全。
因此,为了解决上述存在的技术问题,本发明公开一种分类模型构建方法、数据分类方法及装置,具体技术方案如下:
如图1所示,一种分类模型构建方法,包括:
S1、从至少两个数据源中获取样本数据,提取样本数据中的数据指标。
上述,数据源是获取样本数据的不同来源,可根据不同的业务场景选取,例如在信贷业务场景中数据源可以是第一银行、第二银行、第三银行、第一网络信贷平台、第二网络信贷平台、第三网络信贷平台等。样本数据的数据指标主要指数据的属性,对于信贷业务场景中例如:信用卡张数、信用卡利用率、信用卡最大账龄、贷款金额、逾期次数等。
S2、计算各数据指标的重要程度值,以及各数据指标与其他数据指标的关联程度值。
上述,数据指标的重要程度值表示该数据指标在对应业务场景中的重要程度,数据指标的关联程度值表示某业务场景中数据指标之间的相关程度。重要程度值和关联程度值均可通过计算公式或者模型计算获得。
在一个实施例中,步骤S2,包括:
S21、利用预训练的重要指标机器学习模型计算数据指标的重要程度值;
S22、利用预训练的相关指标机器学习模型计算各数据指标之间的关联程度值。
上述,具体地,可通过sklearn SDG算法训练进行重要指标机器学习模型的训练,利用训练后的模型确定数据指标的重要程度,此时重要程度值指数据指标属于某种重要程度的概率。可通过sklearn-gbmi计算每一个变量与其他各变量之间的交互作用即关联程度,此时关联程度值指数据指标之间属于某种关联程度的概率。
S3、结合重要程度值和关联程度值在数据指标中确定分类指标,按照分类指标对各数据源的样本数据分类。
上述,结合重要程度值和关联程度值确定分类指标,即可以确保样本数据的分类可以符合业务场景的应用需求,又可以确保样本数据之间的关联程度适当,确保以各类别样本数据构建的子分类模型的预测结果更有效。在具体的信贷评分的场景中,基于变量重要程度和关联程度的客群细分方法与传统利用风险专家的经验对客群细分的效果对比的优势在于:以基于银行报告的开发的特征对人群进行切分,风险专家以经验选选择账龄类或账户数变量,账龄类变量一般表示了客户在的信贷史长短,账户类表示客户的信贷丰富程度。但账龄类或账户类特征很多(如:信用卡最大账龄,个人消费贷最大账龄,当前有余额账户的最大账龄,贷记卡账户数,贷款账户数,总账户数等等),通过依赖风险专家的个人经验,每个人的经验不同选择的切分变量不同。而通过将计算每个有变量的重要程度和每个变量与所有其他变量统计关联程度,选择出来的客群切分变量,能够使得在建模时所用到的变量在切分的客群上差距更加明显,从而显著的提升切分客群子模型的预测能力,并最终体现在融合模型上有更强的预测能力。
在一个实施例中,步骤S3,包括:
S31、将数据指标的重要程度值与预设的重要性条件对比;
S32、将满足重要性条件的数据指标的关联程度值与预设的关联性条件对比,确定满足关联性条件的数据指标为分类指标;
S33、按照分类指标对各数据源的样本数据分类。
上述,为步骤S3中重要程度值和关联程度值结合的一种情况,其他还可以先对比关联程度值与关联性条件,然后再比较重要程度值和重要性条件。重要性条件可以是重要程度值的排序次序,关联性条件可以是关联程度值的排序次序。具体地,选择重要程度值排名前五的数据指标中与其他数据指标关联程度值最大的数据指标作为分类指标。
S4、分别利用各数据源中不同类别的样本数据训练机器学习模型,获得与各数据源中各样本类别对应的子分类模型。
上述,上述步骤S4中在训练子分类模型的同时还获得了各子分类模型的模型评分。各数据源均对应一个或多个类别的样本数据,本发明中子分类模型与数据源和样本数据的类别对应,例如第一数据源中有第一类别样本、第二类别样本,第二数据源中有第一类别样本、第三类别样本,第三数据源中有第二类别样本、第三类别样本,这样各数据源中的各样本类别均对应一个子分类模型,一共构建六个子分类模型。
在一个实施例中,步骤S4,包括:
S41、分别利用与各数据源中各样本类别对应的样本数据训练机器学习模型,获得与各数据源中各样本类别对应的子分类模型和各子分类模型的测试结果;
S42、根据测试结果对子分类模型打分,获得各子分类模型的模型评分。
上述,训练获得子分类模型的具体方法包括:首先按时间将样本数据分成训练样本和测试样本(Out of Time,OOT),然后将训练样本随机划分成训练集(In the Sample,INS)和验证集(Out of Sample,OOS),通过训练集INS对各数据源中各类别的样本数据分别采用Light CBM训练建模,利用验证集OOS调整模型参数,最终以测试样本OOT的效果为准,同时要保证这三个数据集的KS相差不大,最终得到各数据源各样本类别对应子分类模型以及各子分类模型的测试结果。
上述,采用Light CBM训练建模,调整模型参数包括:设定学习率和迭代次数;确定max-depth和num-leaves;确定min-data-in-leaf和max-bin in;确定feature-fraction、bagging-fraction、bagging-freq;确定lambda-11和lambda-12;确定min-split-gain;降低学习率,增加迭代次数,验证模型。
在一个实施例中由于数据源不同,因此对各数据源对应的子分类模型的模型评分需要在同一的标准下进行校准,以统一评分标尺。
S5、将相同样本类别不同数据源的子分类模型融合,获得与各样本类别对应的融合分类模型。
上述,将各数据源在相同样本类别的子分类模型融合主要是根据子分类模型的模型评分融合子分类模型。现有技术中模型融合的方法包括:bagging,Boosting两种思想的方法。Bagging融合方法采用的是利用随机采样(Bootstap sampling)获得的训练样本进行模型训练,由于是随机采样,每次的采样集是和原始训练集不同的,和其他采样集也是不同的,这样得到多个不同的弱学习器,最终将多个弱学习器按照结合策略结合,得到最终的强学习器。Boosting算法的工作机制是在模型训练中调整训练样本的权重,利用调整权重后的训练样本进行模型训练,得到多个弱学习器,最终将多个弱学习器按照结合策略结合,得到最终的强学习器。上述常用的结合策略包括:平均法、投票法、学习器法等,其中平均法一般用于回归预测模型中,投票法一般用于分类预测模型中,学习法即通过另一个学习器对弱学习器融合。
上述提到的两种现有技术在处理异常样本时候往往会因为样本过少而导致样本的评分严重失真,因此在一个实施例中,本发明将各子分类模型的模型评分作为变量利用评分卡技术根据子分类模型的模型评分进行逻辑回归的模型融合,具体包括:
S51、对各数据源中相同样本类别对应的子分类模型的模型评分进行分箱处理,并根据分箱结果计算子分类模型的模型评分对应的分析参数;
S52、将模型评分的分析参数与变量筛选标准比较,利用符合变量筛选标准的模型评分进行逻辑回归拟合,获得拟合结果,并计算拟合结果的分析参数;
S53、将拟合结果的分析参数与模型筛选标准比较,确定满足模型筛选标准的逻辑回归模型为融合分类模型。
上述,具体地,拟合结果的分析参数可以包括:模型变量系数、模型变量的p值、模型变量间的相关系数、模型变量的VIF(方差膨胀因子),其中,模型变量的p值表示模型变量的显著性,p值越小越显著,模型变量间相关系数体现了模型变量的代表性,相关系数越小变量的代表性越高,模型变量的VIF用于检验变量间的共线性。具体设定的模型筛选标准可以是:模型变量系数全部为负;模型变量的p值全部小于0.05;模型变量间的相关系数全部小于0.7;模型变量的VIF全部小于4。上述各模型变量的分析参数和拟合结果的分析参数的计算方法均是现有技术,本发明实施例不做具体赘述。
图2所示为本发明实施例提供的逻辑拟合方法的具体流程,图中,将模型评分作为备选变量进行粗分箱;粗分箱后进行WOE转换;计算备选变量score test下的p值,按p值从小到大排序;按照排序依次判断是否需要调整分箱即细分箱,若调整则回到p值计算步骤,若不需要调整,则判断备选变量是否满足变量筛选标准,若否则将该备选变量删除,若是则将该备选变量加入拟合逻辑归回,获得拟合结果;将拟合结果与模型筛选标准对比,若不满足则将该备选变量剔除,若满足则确定该备选变量为入模变量,如此重复直至所有备选变量均筛选完毕。
本发明公开的方法,在对同一类别的样本预测中结合了不同数据源的样本数据对应的子分类模型进行融合,获得融合分类模型,打破了现有技术中尤其是金融风控技术领域的现有技术中仅根据一个数据源的样本进行模型训练的壁垒,使得模型预测结果更加准确可靠;
本发明公开的分类模型构建方法,在对样本数据分类过程中区别与传统的专家经验确定分类指标的方法,通过结合数据指标的重要程度和关联程度确定分类指标能够使样本数据的类别区别更加明显,从而提升依托不同类别样本数据构建分类模型的显著性和预测能力;
本发明公开的方法,在对同一样本类别不同数据源的子分类模型的融合技术中,根据子分类模型的评分进行逻辑回归预测,相对于现有技术中的模型融合方法,更加适用于子模型量少的模型融合,不会引起因异常样本量少而导致预测结果失真。
基于上述本发明任意实施例公开的分类模型构建方法,本发明结合金融风控领域中现有的评分卡技术还公开了一种数据分类方法,包括:
利用本发明实施例构建的融合分类模型,根据信贷数据对信贷申请人在贷款前进行贷前分类评估;
利用本发明实施例构建的融合分类模型根据信贷数据对信贷借款人在贷款后还款逾期前进行贷后分类评估;
利用本发明构建的融合分类模型根据信贷数据对信贷借款人在贷款后还款逾期后对应的贷款进行催收分类评估。
上述,融合分类模型在信贷业务场景中的三个应用,相当于是在现有技术中A卡、B卡、C卡中通过融合分类模型进行客户评估,使得评估结果更加准确、客观。
此外,如图3所示,根据本发明任意实施例公开的分类模型构建方法,本发明还提供一种分类模型构建装置,包括:
数据获取模块301,用于从至少两个数据源中获取样本数据,提取样本数据中的数据指标;
计算模块302,用于计算各数据指标的重要程度值,以及各数据指标与其他数据指标的关联程度值;
分类模块303,用于结合重要程度值和关联程度值在数据指标中确定分类指标,按照分类指标对各数据源的样本数据分类;
训练模块304,用于分别利用各数据源中不同类别的样本数据训练机器学习模型,获得与各数据源中各样本类别对应的子分类模型;
融合模块305,用于将相同样本类别不同数据源的子分类模型融合,获得与各样本类别对应的融合分类模型。
上述,数据获取模块301需要通过和不同的数据源平台对接获取数据。计算模块302可通过计算公式或者模型计算获得重要程度值和关联程度值。分类模块303中设有重要程度值和关联程度值的结合规则。训练模块304中可同时进行多个子分类模型的训练。融合模块305可包括多种基于不同模型融合方法的子融合模块。
在一个实施例中,计算模块302,包括:重要程度值计算模块和关联程度值计算模块,分别用于:
重要程度值计算模块,用于利用预训练的重要指标机器学习模型计算所述数据指标的所述重要程度值;
关联程度值计算模块,利用预训练的相关指标机器学习模型计算所述数据指标的所述关联程度值。
上述,可通过sklearn SDG算法训练进行重要指标机器学习模型的训练,利用训练后的模型确定数据指标的重要程度。可通过sklearn-gbmi计算每一个变量与其他各变量之间的交互作用即关联程度。
在一个实施例中,分类模块303,具体用于:
将所述数据指标的所述重要程度值与预设的重要性条件对比;
将满足所述重要性条件的所述数据指标的所述关联程度值与预设的关联性条件对比,确定满足所述关联性条件的所述数据指标为所述分类指标;
按照所述分类指标对各所述数据源的样本数据分类。
在一个实施例中,训练模块304,包括:
训练子模块,用于分别利用与各所述数据源中各所述样本类别对应的所述样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型和各所述子分类模型的测试结果;
评分子模块,根据所述测试结果对所述子分类模型打分,获得各所述子分类模型的模型评分。
上述,评分子模块还用于对各数据源对应的子分类模型的模型评分需要在同一的标准下进行校准,以统一评分标尺。
在一个实施例中,融合模块305,具体用于:
将各所述数据源中相同样本类别对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型。
进一步地,在一个实施例中,融合模块305,包括:
变量分析模块,用于对各所述数据源中相同样本类别对应的所述子分类模型的模型评分进行分箱处理,并根据分箱结果计算所述子分类模型的模型评分对应的分析参数;
拟合模块,用于将所述模型评分的分析参数与变量筛选标准比较,利用符合所述变量筛选标准的所述模型评分进行逻辑回归拟合,获得拟合结果,并计算所述拟合结果的分析参数;
结果确定模块,用于将所述拟合结果的分析参数与模型筛选标准比较,确定满足所述模型筛选标准的逻辑回归模型为所述融合分类模型。
上述,具体地,拟合结果的分析参数可以包括:模型变量系数、模型变量的p值、模型变量间的相关系数、模型变量的VIF(方差膨胀因子),其中,模型变量的p值表示模型变量的显著性,p值越小越显著,模型变量间相关系数体现了模型变量的代表性,相关系数越小变量的代表性越高,模型变量的VIF用于检验变量间的共线性。
以上,本发明实施例公开的分类模型构建装置,通过数据获取模块、计算模块、分类模块、训练模块、融合模块,完成了分类模型构建方法的全部步骤。该装置可单独设置在硬件设备中,或者可嵌套在数据分类系统中。
另外本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述实施例公开的分类模型构建方法。
其中,图4示例性的展示出了电子设备的系统架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制电子设备运行的操作系统421,用于控制电子设备的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器423,数据存储管理系统424,以及设备标识信息处理系统425等等。上述设备标识信息处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
另外,该电子设备还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储器被安装,或者从ROM被安装。在该计算机程序被处理器执行时,执行本申请的实施例的方法中限定的上述功能。
需要说明的是,本申请的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:响应于检测到终端的外设模式未激活时,获取终端上应用的帧率;在帧率满足息屏条件时,判断用户是否正在获取终端的屏幕信息;响应于判断结果为用户未获取终端的屏幕信息,控制屏幕进入立即暗淡模式。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的终端设备标识信息处理方法、装置及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种分类模型构建方法,其特征在于,包括:
从至少两个数据源中获取样本数据,提取所述样本数据中的数据指标;
计算各所述数据指标的重要程度值,以及各所述数据指标与其他所述数据指标的关联程度值;
结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类;
分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型;
将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型。
2.如权利要求1所述的方法,其特征在于,所述计算确定各所述数据指标的重要程度,以及各所述数据指标与其他所述数据指标的关联程度,包括:
利用预训练的重要指标机器学习模型计算所述数据指标的所述重要程度值;
利用预训练的相关指标机器学习模型计算所述数据指标的所述关联程度值。
3.如权利要求1所述的方法,其特征在于,所述结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类,包括:
将所述数据指标的所述重要程度值与预设的重要性条件对比;
将满足所述重要性条件的所述数据指标的所述关联程度值与预设的关联性条件对比,确定满足所述关联性条件的所述数据指标为所述分类指标;
按照所述分类指标对各所述数据源的样本数据分类。
4.如权利要求1~3中任一项所述的方法,其特征在于,所述分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型,包括:
分别利用与各所述数据源中各所述样本类别对应的所述样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型和各所述子分类模型的测试结果;
根据所述测试结果对所述子分类模型打分,获得各所述子分类模型的模型评分。
5.如权利要求4所述的方法,其特征在于,所述将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型,包括:
将相同样本类别不同所述数据源对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型。
6.如权利要求5所述的方法,其特征在于,所述将相同样本类别不同所述数据源对应的所述子分类模型的模型评分作为变量进行逻辑回归融合,获得所述融合分类模型,包括:
对各所述数据源中相同样本类别对应的所述子分类模型的模型评分进行分箱处理,并根据分箱结果计算所述子分类模型的模型评分对应的分析参数;
将所述模型评分的分析参数与变量筛选标准比较,利用符合所述变量筛选标准的所述模型评分进行逻辑回归拟合,获得拟合结果,并计算所述拟合结果的分析参数;
将所述拟合结果的分析参数与模型筛选标准比较,确定满足所述模型筛选标准的逻辑回归模型为所述融合分类模型。
7.一种数据分类方法,其特征在于,包括如下任意一项或多项:
利用如权利要求1~6中任一项构建的融合分类模型根据信贷数据对信贷申请人在贷款前进行贷前分类评估;
利用如权利要求1~6中任一项构建的融合分类模型根据信贷数据对信贷借款人在贷款后还款逾期前进行贷后分类评估;
利用如权利要求1~6中任一项构建的融合分类模型根据信贷数据对所述信贷借款人在贷款后还款逾期后对应的贷款进行催收分类评估。
8.一种分类模型构建装置,其特征在于,包括:
数据获取模块,用于从至少两个数据源中获取样本数据,提取所述样本数据中的数据指标;
计算模块,用于计算各所述数据指标的重要程度值,以及各所述数据指标与其他所述数据指标的关联程度值;
分类模块,用于结合所述重要程度值和所述关联程度值在所述数据指标中确定分类指标,按照所述分类指标对各所述数据源的样本数据分类;
训练模块,用于分别利用各所述数据源中不同类别的样本数据训练机器学习模型,获得与各所述数据源中各样本类别对应的子分类模型;
融合模块,用于将相同样本类别不同所述数据源的所述子分类模型融合,获得与各样本类别对应的融合分类模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1~6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1~6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213641.1A CN113919432A (zh) | 2021-10-19 | 2021-10-19 | 一种分类模型构建方法、数据分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213641.1A CN113919432A (zh) | 2021-10-19 | 2021-10-19 | 一种分类模型构建方法、数据分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113919432A true CN113919432A (zh) | 2022-01-11 |
Family
ID=79241159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111213641.1A Pending CN113919432A (zh) | 2021-10-19 | 2021-10-19 | 一种分类模型构建方法、数据分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113919432A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204888A (zh) * | 2023-03-01 | 2023-06-02 | 联洋国融(北京)科技有限公司 | 一种基于隐私计算的数据源融合评估方法及系统 |
CN116340306A (zh) * | 2023-05-29 | 2023-06-27 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
-
2021
- 2021-10-19 CN CN202111213641.1A patent/CN113919432A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204888A (zh) * | 2023-03-01 | 2023-06-02 | 联洋国融(北京)科技有限公司 | 一种基于隐私计算的数据源融合评估方法及系统 |
CN116204888B (zh) * | 2023-03-01 | 2023-10-27 | 联洋国融(北京)科技有限公司 | 一种基于隐私计算的数据源融合评估方法及系统 |
CN116340306A (zh) * | 2023-05-29 | 2023-06-27 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
CN116340306B (zh) * | 2023-05-29 | 2023-10-20 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6749468B2 (ja) | 評価モデルのためのモデリング方法及び装置 | |
CN108921569B (zh) | 一种确定用户投诉类型的方法及装置 | |
CN113919432A (zh) | 一种分类模型构建方法、数据分类方法及装置 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
CN110033284A (zh) | 房源验真方法、装置、设备及存储介质 | |
CN111275338A (zh) | 一种企业欺诈行为的判定方法、装置、设备及存储介质 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN112598294A (zh) | 在线建立评分卡模型的方法、装置、机器可读介质及设备 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111178656A (zh) | 信用模型训练方法、信用评分方法、装置及电子设备 | |
CN111582645B (zh) | 基于因子分解机的app风险评估方法、装置和电子设备 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN111882140A (zh) | 风险评测方法、模型训练方法、装置、设备及存储介质 | |
CN111582315A (zh) | 样本数据处理方法、装置及电子设备 | |
CN114638695A (zh) | 信用评估方法、装置、设备及介质 | |
CN109308660B (zh) | 一种征信评分模型评估方法、装置、设备及存储介质 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN112905435A (zh) | 基于大数据的工作量评估方法、装置、设备及存储介质 | |
CN117036834A (zh) | 基于人工智能的数据分类方法、装置及电子设备 | |
CN113269433B (zh) | 税收风险预测方法、设备、介质及计算机程序产品 | |
CN115423600A (zh) | 数据筛选方法、装置、介质及电子设备 | |
CN114387089A (zh) | 客户信用风险评估方法、装置、设备及存储介质 | |
CN112836765B (zh) | 分布式学习的数据处理方法、装置、电子设备 | |
CN113011971B (zh) | 风险测度方法、装置、系统与计算机存储介质 | |
CN117609061A (zh) | 基于支持向量机的账务测试分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |