CN114418024A - 学历预测方法、系统、终端设备及存储介质 - Google Patents
学历预测方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN114418024A CN114418024A CN202210093144.0A CN202210093144A CN114418024A CN 114418024 A CN114418024 A CN 114418024A CN 202210093144 A CN202210093144 A CN 202210093144A CN 114418024 A CN114418024 A CN 114418024A
- Authority
- CN
- China
- Prior art keywords
- academic
- prediction
- sample
- samples
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000003066 decision tree Methods 0.000 claims abstract description 22
- 238000007477 logistic regression Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种学历预测方法、系统、终端设备及存储介质。该方法包括:获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,提高了学历预测的精度。
Description
技术领域
本发明涉及金融科技(Finteh)技术领域,尤其涉及一种学历预测方法、系统、终端设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步走向金融科技(Finteh)转变,贷前信用审批技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出更高的要求。目前暂无现成的技术方案对客户的学历进行预测,常规做法是通过学信网或中国人民银行征信中心对客户的学历进行查询。然而,受限于学信网对查询量的控制,无法对所有的客户均进行学历查询。
发明内容
本发明实施例的主要目的在于提供一种学历预测方法、系统、终端设备及存储介质,旨在对客户的学历进行预测,提高了学历预测的精度。
为实现上述目的,本发明实施例提供一种学历预测方法,所述学历预测方法包括:
获取样本并对所述样本进行分类,得到多个样本集;
根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
对所述正样本、负样本进行训练,得到二分类模型;
通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。
可选地,所述学历预测方法还包括:
获取所述正样本、负样本的还款概率;
基于所述预测概率、还款概率训练逻辑回归模型;
通过所述逻辑回归模型将所述预测概率转换为评分,以根据所述评分对所述客户的学历进行预测。
可选地,所述学历预测方法还包括:
基于学历占比、升学率,设置变量权重;
基于所述变量权重对所述预测概率进行计算,得到所述评分,以根据所述评分对所述客户的学历进行预测。
可选地,所述根据所述评分对所述客户的学历进行预测的步骤包括:
对所述评分设置分位点;
计算所述分位点的准确率;
基于所述准确率,目标函数判断所述分位点是否准确;
若所述分位点准确,则根据所述分位点对所述评分进行划分,得到划分结果,以根据所述划分结果确定所述客户对应的学历。
可选地,所述学历预测方法还包括:
对所述预测概率进行排序,得到第一排序结果;
基于所述第一排序结果确定所述预测概率的最大值;
根据所述预测概率的最大值所属的学历类别确定所述客户的学历。
可选地,所述学历预测方法还包括:
基于所述预测概率所属的学历类别的占比,对所述预测概率进行处理,得到归一化结果;
对所述归一化结果进行排序,得到第二排序结果;
基于所述第二排序结果确定所述归一化结果的最大值,并根据所述归一化结果的最大值所属的学历类别确定所述客户的学历。
可选地,所述学历预测方法还包括:
获取所述正样本、负样本的应用程序使用数据;
基于所述应用程序使用数据,确定所述正样本、负样本的学历。
此外,为实现上述目的,本发明还提供一种学历预测系统,所述系统包括:
样本获取模块,用于获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
模型训练模块,用于对所述正样本、负样本进行训练,得到二分类模型;
概率预测模块,用于通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
模型融合模块,用于对所述预测概率进行决策树模型训练,得到融合模型。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的学历预测方法,所述学历预测的程序被所述处理器执行时实现如上所述的学历预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有学历预测的程序,所述学历预测的程序被处理器执行时实现如上所述的学历预测方法的步骤。
本发明实施例提出的学历预测方法、系统、终端设备及存储介质,通过获取样本并对所述样本进行分类,得到多个样本集,以根据多个样本集得到融合模型,对客户的学历进行预测;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本,对所述正样本、负样本进行训练,得到二分类模型,以将多分类问题转换为多个二分类问题,进而对学历的等级进行预测,提高预测的精度;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测,提高学历预测的精度。
附图说明
图1为本发明学历预测装置所属终端设备的功能模块示意图;
图2为本发明学历预测方法第一实施例的流程示意图;
图3为本发明学历预测方法第二实施例的流程示意图;
图4为本发明学历预测方法第三实施例的流程示意图;
图5为本发明学历预测系统的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。
本发明实施例涉及的技术术语:
信用评分卡:信用评分卡在信用风险评估以及金融风险控制领域得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后,运用logistic回归模型进行的一种二分类变量的广义线性模型。
KS:(Kolmogorov-Smirnov),KS用于对模型风险的区分能力进行评估,指标衡量的是好坏样本累积分布之间的差值,好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
ROC曲线:(receiver operating characteristic curve,受试者工作特征曲线),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。
AUC(Area Under Curve):被定义为ROC曲线下与坐标轴围成的面积,AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法区分能力强;越接近0.5,则模型区分能力弱,无应用价值。
混淆矩阵:就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表格中可以清楚看到每个类别正确识别的数量和错误识别的数量。表格的数字包括TP、FN、FP、FN。其中,TP=True Postive=真阳性;FP=False Positive=假阳性;FN=False Negative=假阴性;TN=True Negative=真阴性。
XGBOOST模型:机器学习中的一种boosting算法,通过可加性的分类回归树对样本进行预测,可以有较好的模型预测效果。
决策树:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步走向金融科技(Finteh)转变,贷前信用审批技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出更高的要求。目前暂无现成的技术方案用于学历预测,常规做法是通过学信网或中国人民银行征信中心对客户的学历进行查询。然而,受限于学信网对查询量的控制,无法对所有客户均进行学历查询;同时对于有海外学历的客户及2002年之前获得学位的客户,无法进行学历查询。
本发明提供一种解决方案,旨在对客户的学历进行预测,提高了学历预测的精度。
具体地,参照图1,图1是本发明学历预测装置所属终端设备的功能模块示意图。该学历预测装置可以为独立于终端设备的、能够进行图片处理、网络模型训练的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该学历预测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作方法以及学历预测程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的学历预测程序被处理器执行时实现以下步骤:
获取样本并对所述样本进行分类,得到多个样本集;
根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
对所述正样本、负样本进行训练,得到二分类模型;
通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
获取所述正样本、负样本的还款概率;
基于所述预测概率、还款概率训练逻辑回归模型;
通过所述逻辑回归模型将所述预测概率转换为评分,以根据所述评分对所述客户的学历进行预测。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
基于学历占比、升学率,设置变量权重;
基于所述变量权重对所述预测概率进行计算,得到所述评分,以根据所述评分对所述客户的学历进行预测。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
对所述评分设置分位点;
计算所述分位点的准确率;
基于所述准确率,目标函数判断所述分位点是否准确;
若所述分位点准确,则根据所述分位点对所述评分进行划分,得到划分结果,以根据所述划分结果确定所述客户对应的学历。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
对所述预测概率进行排序,得到第一排序结果;
基于所述第一排序结果确定所述预测概率的最大值;
根据所述预测概率的最大值所属的学历类别确定所述客户的学历。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
基于所述预测概率所属的学历类别的占比,对所述预测概率进行处理,得到归一化结果;
对所述归一化结果进行排序,得到第二排序结果;
基于所述第二排序结果确定所述归一化结果的最大值,并根据所述归一化结果的最大值所属的学历类别确定所述客户的学历。
进一步地,存储器130中的学历预测程序被处理器执行时还实现以下步骤:
获取所述正样本、负样本的应用程序使用数据;
基于所述应用程序使用数据,确定所述正样本、负样本的学历。
本实施例通过上述方案,具体通过获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,提高了学历预测的精度。
基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
参照图2,图2为本发明学历预测方法第一实施例的流程示意图。所述学历预测方法包括:
步骤S101,获取样本并对所述样本进行分类,得到多个样本集。
步骤S102,根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本。
本实施例方法的执行主体可以是一种学历预测装置,也可以是一种学历预测终端设备或服务器,本实施例以学历预测装置进行举例,该学历预测装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
为了对客户的学历进行预测,首先,获取样本并对样本进行分类,得到多个样本集。
作为一种实施方式,在本实施例中,将客户作为样本,筛选进行了学信网查询的客户,并根据客户的学历类别对客户进行分类,得到多个样本集。
具体地,筛选进行了学信网查询的客户,并将学信网查得的客户根据等级分为大专、本科、硕博,并对学信网未查得的客户剔除了年龄大于40岁的客户(2002年之前毕业),其余客户作为查无。
由此,通过对进行了学信网查询的客户进行筛选、分类,得到了多个样本集,并且,每个样本集均有各自对应地学历类别,分别为:大专样本集、本科样本集、硕博样本集、学信网查无样本集,以便后续对不同的样本集进行训练,得到学历预测模型对客户的学历进行预测。并且,对学信网查询的客户进行筛选时,对学信网未查得的客户剔除了年龄大于40岁的客户,由此提高了样本的准确率,降低了后期得到的训练模型的误差,提高了模型的精确度。
需要说明的是,样本的分类可根据实际情况进行调整,本实施例对此不作具体限制。
进一步地,根据多个样本集的所属类别,从多个样本集的样本确定正样本、及其对应的负样本。
具体地,将多个样本集的样本根据学历类别,轮流作为正样本,剩余样本作为负样本。
例如:(1)将学历为大专的客户作为正样本,学历为本科、硕博、学信网查无的客户作为负样本。
(2)将学历为本科的客户作为正样本,学历为大专、硕博、学信网查无的客户作为负样本。
(3)将学历为硕博的客户作为正样本,学历为大专、本科、学信网查无的客户作为负样本。
(4)将学信网查无的客户作为正样本,学历为大专、本科、硕博的客户作为负样本。
将每一类学历类别的客户轮流作为正样本,剩余样本作为负样本,由此,将多分类问题转换为多个二分类问题,并且,基于此样本进行训练,得到的训练模型可以对客户的学历进行预测,提高学历等级的预测精准度。
作为另一种实施方式,获取客户的APP使用数据、客户的年龄、客户所处的地理位置、与客户有关的关系人的学历情况等维度数据,对客户学历进行刻画,以得到客户的预测学历。
由此,无需进行学信网查询,通过其他维度数据对客户的学历进行预测,即可得到客户的预测学历。
步骤S103,对所述正样本、负样本进行训练,得到二分类模型。
在本实施例中,通过机器学习算法对正样本、负样本进行训练,得到二分类模型。
具体地,基于Boosting算法对正样本、负样本进行训练,得到4个基于XGBOOST的二分类模型。
更为具体地,(1)通过Boosting算法对正样本、负样本进行训练,得到第一XGBOOST的二分类模型。其中,将学历为大专的客户作为正样本,学历为本科、硕博、学信网查无的客户作为负样本。
(2)通过Boosting算法对正样本、负样本进行训练,得到第二XGBOOST的二分类模型。其中,将学历为本科的客户作为正样本,学历为大专、硕博、学信网查无的客户作为负样本。
(3)通过Boosting算法对正样本、负样本进行训练,得到第三XGBOOST的二分类模型。其中,将学历为硕博的客户作为正样本,学历为大专、本科、学信网查无的客户作为负样本。
(4)通过Boosting算法对正样本、负样本进行训练,得到第四XGBOOST的二分类模型。其中,将学信网查无的客户作为正样本,学历为大专、本科、硕博的客户作为负样本。
由此,将多分类问题转换为多个二分类问题,并且,通过XGBOOST算法对样本进行训练,以使训练得到的模型具有较高的预测精度。
步骤S104,通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率。
步骤S105,对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。
在本实施例中,通过二分类模型对正样本、负样本进行预测,得到预测概率。
具体地,计算4个二分类模型的AUC以及KS,并通过4个二分类模型分别对所有的正样本、负样本进行预测,得到样本归属于每一类别的概率,将样本归属于每一类别的概率作为预测概率;其中,样本归属于每一类别的概率包括预测样本归属于每一类别的最大值、最小值、均值、极差等。
其中,预测的样本归属于每一类别的最大值、最小值为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的最大值、最小值;预测的样本归属于每一类别的均值为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的均值;预测的样本归属于每一类别的极差为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的极差。
进一步地,计算得到的二分类模型的AUC越接近1.0,该二分类模型的检测区分能力越强;计算得到的二分类模型的AUC越接近0.5,则该二分类模型区分能力越弱,无应用价值。
计算得到的二分类模型的KS指标越大,那么该二分类模型的风险区分能力越强。
由此,通过计算二分类模型的AUC、KS,可以对二分类模型预测的准确性进行评估筛选,以便后续对各二分类模型的占比进行调整,提高模型的预测精度。
进一步地,对预测概率进行决策树模型训练,得到融合模型。
具体地,通过4个二分类模型分别对所有的正样本、负样本进行预测,将预测的样本归属于每一类别的最大值、最小值、均值、极差等作为变量,输入决策树模型中进行决策树模型训练,得到融合模型。
其中,预测的样本归属于每一类别的最大值、最小值为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的最大值、最小值;预测的样本归属于每一类别的均值为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的均值;预测的样本归属于每一类别的极差为通过4个二分类模型对正样本、负样本进行预测,得到样本归属于每一类别的概率的极差。
由此,将多个模型的预测结果作为输入变量输入到决策树中进行类别预测,提高了预测的准确性。
作为另一种实施方式,对预测概率进行排序,得到第一排序结果;基于第一排序结果确定预测概率的最大值;将预测概率的最大值所属的学历类别作为预测类别,以此确定客户的学历。
作为再一种实施方式,基于预测概率所属的学历类别的占比,对预测概率进行处理,得到归一化结果;对归一化结果进行排序,得到第二排序结果;基于第二排序结果确定归一化结果的最大值,将归一化结果的最大值所属的学历类别作为预测类别,以此确定客户的学历。
归一化概率=预测概率/该类占比
如归一化_第一XGBOOST的二分类模型的预测概率=第一XGBOOST的二分类模型的预测概率/大专样本占比
第二XGBOOST的二分类模型的预测概率=第二XGBOOST的二分类模型的预测概率/本科样本占比
第三XGBOOST的二分类模型的预测概率=第三XGBOOST的二分类模型的预测概率/硕博样本占比
第四XGBOOST的二分类模型的预测概率=第四XGBOOST的二分类模型的预测概率/学信网查无的样本占比
本实施例通过上述方案,具体通过获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,将多分类问题转换为多个二分类问题进行学历等级的预测,通过XGBOOST算法对样本进行训练,使得获得的训练模型具有较高的预测精度。
参照图3,图3为本发明学历预测方法第二实施例的流程示意图。
步骤S106,获取所述正样本、负样本的还款概率。
步骤S107,基于所述预测概率、还款概率训练逻辑回归模型。
在一些应用场景中,学历评分比学历分类应用起来更加灵活。因此,将4个二分类模型的预测概率融合为描述客户学术水平的单一评分。
作为一种实施方式,在本实施例中,将评分与还款表现相关联。首先,选择具有还款表现的样本,并获取样本的还款概率。
进一步地,将4个二分类模型的预测概率作为输入X,将还款概率作为Y,对X、Y进行训练,得到逻辑回归模型。
作为另一种实施方式,在本实施例中,将评分与还款表现相关联。首先,选择具有还款表现的样本,并获取样本的违约标签。
其中,若样本出现还款逾期达到预设天数以上,则该样本的违约标签为1,若样本未出现还款逾期,则该样本的违约标签为0。
例如,若样本出现还款逾期达到60天以上,则该样本的违约标签为1,若样本未出现还款逾期,则该样本的违约标签为0。
需要说明的是,用户可根据自身的需求对预设天数进行设置,本实施例对此不作具体地限定。
进一步地,将4个二分类模型的预测概率作为输入X,将违约标签作为Y,对X、Y进行训练,得到逻辑回归模型(二分类模型)。
由此,通过将预测概率与反映客户特征的概率相关联,以此训练逻辑回归模型,提高逻辑回归模型的预测精度。
步骤S108,通过所述逻辑回归模型将所述预测概率转换为评分,以根据所述评分对所述客户的学历进行预测。
通过逻辑回归模型将预测概率转换到[0,100]的评分区间,并对评分设置分位点。
进一步地,计算分位点的准确率;并基于准确率,目标函数判断分位点是否准确。
若所述分位点不准确,则返回执行:对所述评分设置分位点。
若所述分位点准确,则根据分位点对评分进行划分,得到划分结果,以根据划分结果确定客户对应的学历。
具体地,将评分分为100等分,然后,随机对评分设置分位点,并将分位点作为阈值,计算准确率。通过目标函数循环计算切分点的准确率,以找出最优的切分点;其中,目标函数为自行设置的、可以使各个准确率的调和平均数最大的函数。
例如,如果希望学信网查无的准确率更高,可以通过调整学信网查无的权重,使目加权的调和平均数最大。
由此,通过训练逻辑回归模型,将学历的预测概率转换为评分,通过切分点寻优法,将评分转换为学历的预测概率,在保证每类预测准确率较高的情况下,保证整体的预测准确率最高,提高应用的灵活性。
本实施例通过上述方案,具体通过获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,通过训练逻辑回归模型,将学历的预测概率转换为评分,通过切分点寻优法,将评分转换为学历的预测概率,在保证每类预测准确率较高的情况下,保证整体的预测准确率最高,提高应用的灵活性。
参照图4,图4为本发明学历预测方法第三实施例的流程示意图。
步骤S109,基于学历占比、升学率,设置变量权重;
步骤S1010,基于所述变量权重对所述预测概率进行计算,得到所述评分,以根据所述评分对所述客户的学历进行预测。
作为一种实施方式,在本实施例中,首先,基于学历占比、升学率,设置变量权重;其次,基于变量权重对预测概率进行计算,得到评分,以根据评分对客户的学历进行预测。
具体地,根据各学历类别的客户占比及各学历类别的升学率,设置变量权重,并根据变量权重,将预测概率构造为[0,100]的评分。
从人口普查的数据来看,大专及以上的人群占全体人口的比例大概为12%,有88%的客户的学历在高中及以下。因此,在本实施例中,对于学历查无分类暂定权重为10分,而硕博人群暂定权重为100。对于大专及本科类别,根据升学难易程度暂定权重50分及80分。
由此,基于变量权重,将预测概率转换为评分,以便后续根据评分对客户的学历进行预测。
进一步地,对评分设置分位点,并计算分位点的准确率。
进一步地,基于准确率,目标函数判断分位点是否准确。
若所述分位点不准确,则返回执行:对所述评分设置分位点。
若所述分位点准确,则根据分位点对评分进行划分,得到划分结果,以根据划分结果确定客户对应的学历。
具体地,将评分分为100等分,然后,随机对评分设置分位点,并将分位点作为阈值,计算准确率。通过目标函数循环计算切分点的准确率,以找出最优的切分点;其中,目标函数为自行设置的、可以使各个准确率的调和平均数最大的函数。
例如,如果希望学信网查无的准确率更高,可以通过调整学信网查无的权重,使加权的调和平均数最大。
由此,通过切分点寻优法,在保证每类预测准确率较高的情况下,保证整体的预测准确率最高,提高应用的灵活性。
本实施例通过上述方案,具体通过获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,通过切分点寻优法,在保证每类预测准确率较高的情况下,保证整体的预测准确率最高,提高应用的灵活性。
参照图5,图5为本发明学历预测系统的功能模块示意图。学历预测系统包括:
样本获取模块10,用于获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
模型训练模块20,用于对所述正样本、负样本进行训练,得到二分类模型;
概率预测模块30,用于通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
模型融合模块40,用于对所述预测概率进行决策树模型训练,得到融合模型。
本实施例实现学历预测的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的学历预测程序,所述学历预测程序被所述处理器执行时实现如上所述的学历预测方法的步骤。
由于本学历预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有学历预测程序,所述学历预测程序被处理器执行时实现如上所述的学历预测方法的步骤。
由于本学历预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明提供的一种学历预测方法、系统、终端设备及存储介质,通过获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;对所述正样本、负样本进行训练,得到二分类模型;通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。本发明旨在对客户的学历进行预测,提高了学历预测的精度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种学历预测方法,其特征在于,所述方法包括如下步骤:
获取样本并对所述样本进行分类,得到多个样本集;
根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
对所述正样本、负样本进行训练,得到二分类模型;
通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
对所述预测概率进行决策树模型训练,得到融合模型,以通过所述融合模型对客户的学历进行预测。
2.根据权利要求1所述的学历预测方法,其特征在于,所述学历预测方法还包括:
获取所述正样本、负样本的还款概率;
基于所述预测概率、还款概率训练逻辑回归模型;
通过所述逻辑回归模型将所述预测概率转换为评分,以根据所述评分对所述客户的学历进行预测。
3.根据权利要求1所述的学历预测方法,其特征在于,所述学历预测方法还包括:
基于学历占比、升学率,设置变量权重;
基于所述变量权重对所述预测概率进行计算,得到所述评分,以根据所述评分对所述客户的学历进行预测。
4.根据权利要求2、3中任一项所述的学历预测方法,其特征在于,所述根据所述评分对所述客户的学历进行预测的步骤包括:
对所述评分设置分位点;
计算所述分位点的准确率;
基于所述准确率,目标函数判断所述分位点是否准确;
若所述分位点准确,则根据所述分位点对所述评分进行划分,得到划分结果,以根据所述划分结果确定所述客户对应的学历。
5.根据权利要求1所述的学历预测方法,其特征在于,所述学历预测方法还包括:
对所述预测概率进行排序,得到第一排序结果;
基于所述第一排序结果确定所述预测概率的最大值;
根据所述预测概率的最大值所属的学历类别确定所述客户的学历。
6.根据权利要求1所述的学历预测方法,其特征在于,所述学历预测方法还包括:
基于所述预测概率所属的学历类别的占比,对所述预测概率进行处理,得到归一化结果;
对所述归一化结果进行排序,得到第二排序结果;
基于所述第二排序结果确定所述归一化结果的最大值,并根据所述归一化结果的最大值所属的学历类别确定所述客户的学历。
7.根据权利要求1所述的学历预测方法,其特征在于,所述学历预测方法还包括:
获取所述正样本、负样本的应用程序使用数据;
基于所述应用程序使用数据,确定所述正样本、负样本的学历。
8.一种学历预测系统,其特征在于,包括:
样本获取模块,用于获取样本并对所述样本进行分类,得到多个样本集;根据所述多个样本集的所属类别,从所述多个样本集的样本确定正样本、及其对应的负样本;
模型训练模块,用于对所述正样本、负样本进行训练,得到二分类模型;
概率预测模块,用于通过所述二分类模型对所述正样本、负样本进行预测,得到预测概率;
模型融合模块,用于对所述预测概率进行决策树模型训练,得到融合模型。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的学历预测方法,所述学历预测的程序被所述处理器执行时实现如权利要求1-7中任一项所述学历预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有学历预测的程序,所述学历预测的程序被处理器执行时实现如权利要求1-7中任一项所述的学历预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210093144.0A CN114418024B (zh) | 2022-01-26 | 2022-01-26 | 学历预测方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210093144.0A CN114418024B (zh) | 2022-01-26 | 2022-01-26 | 学历预测方法、系统、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114418024A true CN114418024A (zh) | 2022-04-29 |
CN114418024B CN114418024B (zh) | 2024-05-31 |
Family
ID=81276393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210093144.0A Active CN114418024B (zh) | 2022-01-26 | 2022-01-26 | 学历预测方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114418024B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106952155A (zh) * | 2017-03-08 | 2017-07-14 | 深圳前海纵腾金融科技服务有限公司 | 一种基于信用评分的催收方法及装置 |
CN110322085A (zh) * | 2018-03-29 | 2019-10-11 | 北京九章云极科技有限公司 | 一种客户流失预测方法和装置 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN111538873A (zh) * | 2019-12-23 | 2020-08-14 | 浙江大学 | 一种基于端对端模型的电信客户流失概率预测方法及系统 |
CN113642652A (zh) * | 2021-08-16 | 2021-11-12 | 未鲲(上海)科技服务有限公司 | 生成融合模型的方法、装置和设备 |
-
2022
- 2022-01-26 CN CN202210093144.0A patent/CN114418024B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106952155A (zh) * | 2017-03-08 | 2017-07-14 | 深圳前海纵腾金融科技服务有限公司 | 一种基于信用评分的催收方法及装置 |
CN110322085A (zh) * | 2018-03-29 | 2019-10-11 | 北京九章云极科技有限公司 | 一种客户流失预测方法和装置 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN110544155A (zh) * | 2019-09-02 | 2019-12-06 | 中诚信征信有限公司 | 用户信用评分的获取方法、获取装置、服务器及存储介质 |
CN111538873A (zh) * | 2019-12-23 | 2020-08-14 | 浙江大学 | 一种基于端对端模型的电信客户流失概率预测方法及系统 |
CN113642652A (zh) * | 2021-08-16 | 2021-11-12 | 未鲲(上海)科技服务有限公司 | 生成融合模型的方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114418024B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070391B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN109583966B (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN108550065B (zh) | 评论数据处理方法、装置及设备 | |
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN112989621B (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
EP3726441A1 (en) | Company bankruptcy prediction system and operating method therefor | |
US20200210776A1 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
CN108629508A (zh) | 信用风险分类方法、装置、计算机设备及存储介质 | |
CN114418748A (zh) | 车贷信用评估方法、装置、设备及存储介质 | |
CN111222026B (zh) | 用户类别识别模型的训练方法和用户类别识别方法 | |
CN116629716A (zh) | 一种智能交互系统工效分析方法 | |
CN115713399B (zh) | 一种结合第三方数据源的用户信用评估系统 | |
CN111784506A (zh) | 逾期风险控制方法、设备及可读存储介质 | |
CN114418024A (zh) | 学历预测方法、系统、终端设备及存储介质 | |
CN113011961B (zh) | 公司关联信息风险监测方法、装置、设备及存储介质 | |
CN115630708A (zh) | 一种模型更新方法、装置、电子设备、存储介质及产品 | |
CN115099934A (zh) | 一种高潜客户识别方法、电子设备和存储介质 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN112214675B (zh) | 用户购机的确定方法、装置、设备及计算机存储介质 | |
CN111160929B (zh) | 一种客户类型的确定方法及装置 | |
CN114266643A (zh) | 基于融合算法的企业挖掘方法、装置、设备及存储介质 | |
CN113850483A (zh) | 一种企业信用风险评级系统 | |
CN113743752A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |