CN113837863A - 一种业务预测模型创建方法、装置及计算机可读存储介质 - Google Patents
一种业务预测模型创建方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113837863A CN113837863A CN202111138614.2A CN202111138614A CN113837863A CN 113837863 A CN113837863 A CN 113837863A CN 202111138614 A CN202111138614 A CN 202111138614A CN 113837863 A CN113837863 A CN 113837863A
- Authority
- CN
- China
- Prior art keywords
- data set
- sample
- prediction model
- modeling
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 22
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供的业务预测模型创建方法、装置及计算机可读存储介质,首先,找到与目标数据集类似的多个辅助数据集;接着,从多个辅助数据集中进行抽样得到样本数据集,并通过样本数据集训练得到一业务状态模型;再接着,通过业务状态模型得到违约概率,并基于违约概率确定建模数据集;然后,基于目标数据集及建模数据集,确定权重参数;最后,建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集,通过量化方式筛选出建模数据集,并对建模数据集中的样本权重进行调整,以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本,能使创建的业务预测模型具有更强的预测能力和稳定性。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种业务预测模型创建方法、装置及计算机可读存储介质。
背景技术
在模型开发时,一般需要大量的样本数据,在一项业务开展刚刚开始的阶段,会面临样本数据(业务对象及业务状态标签)少的等情况,无法基于已有的当前样本数据进行模型开发,或者开发的模型预测能力偏差、效果不稳定。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种业务预测模型创建方法、装置及计算机可读存储介质,用于解决上述技术问题。
第一方面,本申请实施例提供一种业务预测模型创建方法,应用于计算机设备,所述方法包括:
获取待创建业务预测模型的目标数据集;
基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集;
从所述多个辅助数据集中抽取样本数据,得到样本数据集;
根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型;
采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率;
基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集;
根据所述目标数据集及所述建模数据集,确定权重参数;
基于所述建模数据集及所述权重参数创建所述业务预测模型。
上述方案,首先,获取待创建业务预测模型的目标数据集,并找到与目标数据集类似的多个辅助数据集;接着,从多个辅助数据集中进行抽样得到样本数据集,并通过样本数据集训练得到一业务状态模型;再接着,通过业务状态模型得到目标数据集和每个辅助数据集的违约概率,并基于违约概率确定建模数据集;然后,基于目标数据集及建模数据集,确定权重参数;最后,建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集,通过量化方式筛选出建模数据集,并对建模数据集中的样本权重进行调整,以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本,以便能在目标数据集的数据量偏少的情况下,创建出业务预测模型,并能使创建的业务预测模型具有更强的预测能力和稳定性。
在一种可能的实现方式中,在所述基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集的步骤中,所述预设业务相似条件包括:
每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量;和,
所述每个辅助数据集的样本数据包括业务对象的业务状态标签。
在一种可能的实现方式中,所述从所述多个辅助数据集中抽取样本数据,得到样本数据集的步骤,包括:
从每个辅助数据集中抽取相同预设数量的样本数据,得到所述样本数据集;
其中,所述从每个辅助数据集中抽取相同预设数量的样本数据的步骤包括:
检测每个辅助数据集中的样本数据的数量是否大于所述预设数量;
若检测到大于等于所述预设数量,则采用无放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据;
若检测到小于所述预设数量,则采用有放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据。
在一种可能的实现方式中,所述基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集的步骤,包括:
将所述目标数据集的违约概率作为基础数据,将所述多个辅助数据集的违约概率作为测试数据,根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标;
将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集。
在一种可能的实现方式中,在所述根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标的步骤中,将所述基础数据进行分组,并按照所述基础数据的分组的阈值标准将所述测试数据进行分组,其中,所述基础数据的分组数量与所述测试数据的分组数量相同;
群体稳定性指标psi的计算公式如下:
其中,n为分组数量,i为分组的序号,Ai为所述测试数据中第i组的组内样本所占比例,Ei为所述基础数据中第i组的组内样本所占比例。
在一种可能的实现方式中,在所述根据所述目标数据集及所述建模数据集,确定权重参数的步骤中,确定所述权重参数的公式如下:
其中,β是一个一维权重参数数组,一维权重参数数组包括权重参数β1、β2…βj ,m是所述建模数据集的样本个数,x’j为第j个所述建模数据集的样本,n是所述目标数据集的样本个数,xi为第 i 个所述目标数据集的样本,Φ代表欧拉公式,二次规划的约束条件为β1、β2…βj大于等于0并且β1、β2…βj之和为1。
在一种可能的实现方式中,所述基于所述建模数据集及所述权重参数创建所述业务预测模型的步骤,包括:
将所述建模数据集中的样本数据作为建模样本,并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建,得到所述业务预测模型。
在一种可能的实现方式中,所述业务状态模型及所述业务预测模型为逻辑回归模型。
第二方面,本申请实施例还提供一种业务预测模型创建装置,应用于计算机设备,所述装置包括:
第一获取模块,用于获取待创建业务预测模型的目标数据集;
第二获取模块,用于基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集;
样本抽取模块,用于从所述多个辅助数据集中抽取样本数据,得到样本数据集;
模型训练模块,用于根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型;
违约概率预测模块,用于采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率;
建模数据集确定模块,用于基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集;
权重参数确定模块,用于根据所述目标数据集及所述建模数据集,确定权重参数;
模型创建模块,用于基于所述建模数据集及所述权重参数创建所述业务预测模型。
第三方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的业务预测模型创建方法。
第四方面,本申请实施例还提供一种计算机设备,所述计算机设备包括处理器、计算机可读存储介质和通信单元,所述计算机可读存储介质、所述通信单元以及所述处理器之间通过总线系统相连,所述通信单元用于与至少一个终端设备通信连接,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现第一方面或者第一方面中任意一个可能的实现方式中的业务预测模型创建方法。
基于上述任意一个方面,首先,获取待创建业务预测模型的目标数据集,并找到与目标数据集类似的多个辅助数据集;接着,从多个辅助数据集中进行抽样得到样本数据集,并通过样本数据集训练得到一业务状态模型;再接着,通过业务状态模型得到目标数据集和每个辅助数据集的违约概率,并基于违约概率确定建模数据集;然后,基于目标数据集及建模数据集,确定权重参数;最后,建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集,通过量化方式筛选出建模数据集,并对建模数据集中的样本权重进行调整,以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本,以便能在目标数据集的数据量偏少的情况下,创建出业务预测模型,并能使创建的业务预测模型具有更强的预测能力和稳定性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的业务预测模型创建方法的流程示意图;
图2为本申请实施例提供的业务预测模型创建装置的功能模块示意图;
图3为本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
在现有技术中,为了解决背景技术中的技术问题,一种可能的解决方案为采用其他比较成熟业务的样本数据进行建模,然而,由于业务内容存在差异,直接采用其他比较成熟业务的样本数据建模形成的业务预测模型存在预测能力差以及稳定性弱的问题。
以金融机构开展信贷业务为例,通常会使用业务预测模型来预测业务对象(客户)的违约(业务状态)概率,在信贷审批阶段所使用的预测业务模型通常称作申请评分模型,预测业务模型的评分结果一般作为审批予以通过或拒绝的依据。然而,预测业务模型的开发一般需要大量的样本数据,在一项新的信贷业务(比如大额贷款业务)刚刚开展的早期阶段,会面业务对象群体样本数量少、贷后还款表现不够充分(样本的预测标签不明确)的情况,缺乏可用的贷后样本,于是面临无法进行模型开发,或者开发的模型预测能力偏差、效果不稳定的问题。
为了克服上述技术方案中的不足,发明人提供以下解决方案,请参照图1,图1为本申请实施例提供的业务预测模型创建方法的流程示意图,本实施例提供的业务预测模型创建方法可以由计算机设备执行,为了便于说明本申请的技术方案,下面结合一种可能的应用场景对该业务预测模型创建方法进行详细介绍,其中,该可能的应用场景可以是用在金融借贷场景中,可以理解的是,本申请提供的技术方案还可以应用于其他场景,比如,基于大数据的产品信息推广。下面以金融借贷场景为例对本申请提供的业务预测模型创建方法进行介绍。
结合图1对该业务预测模型创建方法的流程步骤进行详尽说明。
步骤S11,获取待创建业务预测模型的目标数据集。
在本步骤中,待创建业务预测模型可以是用于对新业务进行业务预测的模型,其中,新业务是指业务开展的时间小于预设时间(比如,3个月)的业务,新业务也可以是指该业务场景下产生的样本数据条数小于预设数量(比如,1000条)的业务。目标数据集是指新业务场景下产生的样本数据的集合。
步骤S12,基于目标数据集,获取与目标数据集满足预设业务相似条件的多个辅助数据集。
在本申请实施例中,预设业务相似条件可以包括:
每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量;和,
所述每个辅助数据集的样本数据包括业务对象的业务状态标签。
以金融借贷场景为例,辅助数据集S1、S2…Sn及目标数据集S0满足的业务相似的条件可以如下:
辅助数据集S1、S2…Sn及目标数据集S0具有一些相同的可供建模使用的自变量(也称作预测变量)字段,例如借款人的基本信息、人行征信报告的衍生字段等;和,
辅助数据集S1、S2…Sn具有根据贷后还款表现(业务状态)生成可供建模的好、坏客户标签,即因变量(也称作响应变量、目标变量),由于目标数据集S0的业务开展时间短,贷后还款表现不够,目标数据集S0中可能只有少数样本数据具有好、坏客户标签。
步骤S13,从多个辅助数据集中抽取样本数据,得到样本数据集。
在本申请实施例中,可以从每个辅助数据集(S1、S2…Sn)中抽取相同预设数量的样本数据,得到样本数据集S。
具体地,从每个辅助数据集(S1、S2…Sn)中抽取相同预设数量的样本数据,得到样本数据集S的步骤包括:
检测每个辅助数据集(S1、S2…Sn)中的样本数据的数量是否大于所述预设数量(比如,10000条);
若检测到大于等于所述预设数量,则采用无放回抽样方式从所述每个辅助数据集(S1、S2…Sn)中抽取所述预设数量的样本数据;
若检测到小于所述预设数量,则采用有放回抽样方式从所述每个辅助数据集(S1、S2…Sn)中抽取所述预设数量的样本数据。
无放回抽样方式是指每次从总体中抽取一个单位,经调查记录后不再将其放回总体中,因此,每抽一个单位,总体单位数就减少一个,每个单位被抽中的概率不同。放回抽样方式是指在逐个抽取个体时,每次被抽到的个体放回总体中后,再进行下次抽取的抽样方法。
步骤S14,根据样本数据集训练得到一用于对样本数据中的业务对象进行业务状态预测的业务状态模型。
在本申请实施例中,使用样本数据集S对业务状态模型进行训练,得到一个可以对业务对象(比如,贷款客户)进行还款预测(预测客户是否逾期还款)的业务状态模型。
具体地,在模型训练过程中,可以通过输入样本数据的标签与模型输出的该输入样本数据的标签之间的差异,调整模型参数,直到输入样本数据的标签与模型输出的该输入样本数据的标签基本一致时,结束模型训练,得到训练好的业务状态模型。
步骤S15,采用业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率。
具体地,可以将所述目标数据集的违约概率作为基础数据,将所述多个辅助数据集的违约概率作为测试数据,根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标;
将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集,其中,群体稳定性指标用于衡量模型的预测值与实际值偏差大小的指标。
在本申请实施例中,将所述基础数据进行分组,并按照所述基础数据的分组的阈值标准将所述测试数据进行分组,其中,所述基础数据的分组数量与所述测试数据的分组数量相同;
群体稳定性指标psi的计算公式如下:
其中,n为分组数量,i为分组的序号,Ai为所述测试数据中第i组的组内样本所占比例,Ei为所述基础数据中第i组的组内样本所占比例。将各个辅助数据集的违约概率记为psi1、psi2...psin。
步骤S16,基于目标数据集及每个辅助数据集的违约概率,从样本数据集中确定出建模数据集。
将psi1、psi2...psin中最小值对应的辅助数据集,作为建模数据集T。
步骤S17,根据目标数据集及建模数据集,确定权重参数。
在本申请实施例中,确定所述权重参数的公式如下:
其中,β是一个一维权重参数数组,一维权重参数数组包括权重参数β1、β2…βj ,m是所述建模数据集T的样本个数,x’j为第j个所述建模数据集T的样本,n是所述目标数据集S0的样本个数,xi为第 i 个所述目标数据集S0的样本,Φ代表欧拉公式,二次规划的约束条件为β1、β2…βj大于等于0并且β1、β2…βj之和为1。
步骤S18,基于所述建模数据集及所述权重参数创建所述业务预测模型。
在本申请实施例中,将所述建模数据集中的样本数据作为建模样本,并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建,得到所述业务预测模型。
本申请实施例提供的上述业务预测模型创建方法,通过使用与目标数据集类似的辅助数据集,通过量化方式筛选出建模数据集(采用群体稳定性指标确定建模数据集),并对建模数据集中的样本权重进行调整(使用加权后的建模样本数据更加接近目标客群,降低样本偏差,有助于提高模型预测能力和稳定性),以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本,以便能在目标数据集的数据量偏少的情况下,创建出业务预测模型,并能使创建的业务预测模型具有更强的预测能力和稳定性。
进一步地,在本申请实施例中,业务状态模型及业务预测模型可以为逻辑回归模型,二分类模型、随机森林模型及梯度提升迭代决策树模型等。优选地,业务状态模型及业务预测模型可以为逻辑回归模型,业务状态模型及业务预测模型采用逻辑回归模型,相比于采用其他模型具体较强的可解释性,并且能够降低过拟合的风险。
请参照图2,图2为本公开实施例提供的业务预测模型创建装置的功能模块示意图,本实施例可以根据计算机设备执行的方法实施例对业务预测模型创建装置20进行功能模块的划分,也即该业务预测模型创建装置20所对应的以下各个功能模块可以用于执行上述计算机设备执行的各个方法实施例。其中,该基于业务预测模型创建装置20可以包括第一获取模块21、第二获取模块22、样本抽样模块23、模型训练模块24、违约概率预测模块25、建模数据集确定模块26、权重参数确定模块27及模型创建模块28,下面分别对该业务预测模型创建装置20的各个功能模块的功能进行详细阐述。
第一获取模块21,用于获取待创建业务预测模型的目标数据集。
待创建业务预测模型可以是用于对新业务进行业务预测的模型,其中,新业务是指业务开展的时间小于预设时间(比如,3个月)的业务,新业务也可以是指该业务场景下产生的样本数据条数小于预设数量(比如,1000条)的业务。目标数据集是指新业务场景下产生的样本数据的集合。
第二获取模块22,用于基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集。
在本申请实施例中,预设业务相似条件可以包括:
每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量;和,
所述每个辅助数据集的样本数据包括业务对象的业务状态标签。
以金融借贷场景为例,辅助数据集S1、S2…Sn及目标数据集S0满足的业务相似的条件可以如下:
辅助数据集S1、S2…Sn及目标数据集S0具有一些相同的可供建模使用的自变量(也称作预测变量)字段,例如借款人的基本信息、人行征信报告的衍生字段等;和,
辅助数据集S1、S2…Sn具有根据贷后还款表现(业务状态)生成可供建模的好、坏客户标签,即因变量(也称作响应变量、目标变量),由于目标数据集S0的业务开展时间短,贷后还款表现不够,目标数据集S0中可能只有少数样本数据具有好、坏客户标签。
样本抽取模块23,用于从所述多个辅助数据集中抽取样本数据,得到样本数据集。
在本申请实施例中,可以从每个辅助数据集(S1、S2…Sn)中抽取相同预设数量的样本数据,得到样本数据集S。
具体地,从每个辅助数据集(S1、S2…Sn)中抽取相同预设数量的样本数据,得到样本数据集S的步骤包括:
检测每个辅助数据集(S1、S2…Sn)中的样本数据的数量是否大于所述预设数量(比如,10000条);
若检测到大于等于所述预设数量,则采用无放回抽样方式从所述每个辅助数据集(S1、S2…Sn)中抽取所述预设数量的样本数据;
若检测到小于所述预设数量,则采用有放回抽样方式从所述每个辅助数据集(S1、S2…Sn)中抽取所述预设数量的样本数据。
无放回抽样方式是指每次从总体中抽取一个单位,经调查记录后不再将其放回总体中,因此,每抽一个单位,总体单位数就减少一个,每个单位被抽中的概率不同。放回抽样方式是指在逐个抽取个体时,每次被抽到的个体放回总体中后,再进行下次抽取的抽样方法。
模型训练模块24,用于根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型。
在本申请实施例中,使用样本数据集S对业务状态模型进行训练,得到一个可以对业务对象(比如,贷款客户)进行还款预测(预测客户是否逾期还款)的业务状态模型。
具体地,在模型训练过程中,可以通过输入样本数据的标签与模型输出的该输入样本数据的标签之间的差异,调整模型参数,直到输入样本数据的标签与模型输出的该输入样本数据的标签基本一致时,结束模型训练,得到训练好的业务状态模型。
违约概率预测模块25,用于采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率。
具体地,可以将所述目标数据集的违约概率作为基础数据,将所述多个辅助数据集的违约概率作为测试数据,根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标;
将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集,其中,群体稳定性指标用于衡量模型的预测值与实际值偏差大小的指标。
在本申请实施例中,将所述基础数据进行分组,并按照所述基础数据的分组的阈值标准将所述测试数据进行分组,其中,所述基础数据的分组数量与所述测试数据的分组数量相同;
群体稳定性指标psi的计算公式如下:
其中,n为分组数量,i为分组的序号,Ai为所述测试数据中第i组的组内样本所占比例,Ei为所述基础数据中第i组的组内样本所占比例。将各个辅助数据集的违约概率记为psi1、psi2...psin。
建模数据集确定模块26,用于基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集。
将psi1、psi2...psin中最小值对应的辅助数据集,作为建模数据集T。
权重参数确定模块27,用于根据所述目标数据集及所述建模数据集,确定权重参数。
在本申请实施例中,权重参数确定模块270确定所述权重参数的公式可以如下:
其中,β是一个一维权重参数数组,一维权重参数数组包括权重参数β1、β2…βj ,m是所述建模数据集T的样本个数,x’j为第j个所述建模数据集T的样本,n是所述目标数据集S0的样本个数,xi为第 i 个所述目标数据集S0的样本,Φ代表欧拉公式,二次规划的约束条件为β1、β2…βj大于等于0并且β1、β2…βj之和为1。
模型创建模块28,用于基于所述建模数据集及所述权重参数创建所述业务预测模型。
在本申请实施例中,将所述建模数据集中的样本数据作为建模样本,并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建,得到所述业务预测模型。
需要说明的是,应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以在物理上分开。且这些模块可以全部以软件(比如,开源软件)可以通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理器调用软件的形式实现,部分模块通过硬件的形式实现。例如,模型创建模块28可以由单独处理器运行实现,例如,可以以程序代码的形式存储于上述装置或系统的存储器中,由上述装置或系统的某一个处理器调用并执行以上模型创建模块28的功能,其它模块的实现与之类似,在此就不再赘述。此外这些模块可以全部或部分集成在一起,也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路,在实现过程中,上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。
请参照图3,图3示出了本公开实施例提供的用于实现上述的业务预测模型创建方法的计算机设备10的硬件结构示意图,计算机设备10可以在云端服务器上实现。如图3所示,计算机设备10可包括处理器11、计算机可读存储介质12、总线13以及通信单元14。
在具体实现过程中,至少一个处理器11执行计算机可读存储介质12存储的计算机执行指令(例如图2中所示的业务预测模型创建装置20中包括的各个模块),使得处理器11可以执行如上方法实施例的业务预测模型创建方法,其中,处理器11、计算机可读存储介质12以及通信单元14通过总线13连接,处理器11可以用于控制通信单元14的数据接收与发送。
处理器11的具体实现过程可参见上述计算机设备10执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
计算机可读存储介质12可能包含随机存取存储器,也可能还包括非易失性存储,例如至少一个磁盘存储器。
总线13可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上业务预测模型创建方法。
综上所述,本申请实施例提供的业务预测模型创建方法、装置及计算机可读存储介质,首先,获取待创建业务预测模型的目标数据集,并找到与目标数据集类似的多个辅助数据集;接着,从多个辅助数据集中进行抽样得到样本数据集,并通过样本数据集训练得到一业务状态模型;再接着,通过业务状态模型得到目标数据集和每个辅助数据集的违约概率,并基于违约概率确定建模数据集;然后,基于目标数据集及建模数据集,确定权重参数;最后,建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集,通过量化方式筛选出建模数据集,并对建模数据集中的样本权重进行调整,以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本,以便能在目标数据集的数据量偏少的情况下,创建出业务预测模型,并能使创建的业务预测模型具有更强的预测能力和稳定性。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。基于此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种业务预测模型创建方法,其特征在于,应用于计算机设备,所述方法包括:
获取待创建业务预测模型的目标数据集;
基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集;
从所述多个辅助数据集中抽取样本数据,得到样本数据集;
根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型;
采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率;
基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集;
根据所述目标数据集及所述建模数据集,确定权重参数;
基于所述建模数据集及所述权重参数创建所述业务预测模型。
2.如权利要求1所述的业务预测模型创建方法,其特征在于,在所述基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集的步骤中,所述预设业务相似条件包括:
每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量;和,
所述每个辅助数据集的样本数据包括业务对象的业务状态标签。
3.如权利要求1所述的业务预测模型创建方法,其特征在于,所述从所述多个辅助数据集中抽取样本数据,得到样本数据集的步骤,包括:
从每个辅助数据集中抽取相同预设数量的样本数据,得到所述样本数据集;
其中,所述从每个辅助数据集中抽取相同预设数量的样本数据的步骤包括:
检测每个辅助数据集中的样本数据的数量是否大于所述预设数量;
若检测到大于等于所述预设数量,则采用无放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据;
若检测到小于所述预设数量,则采用有放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据。
4.如权利要求1所述的业务预测模型创建方法,其特征在于,所述基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集的步骤,包括:
将所述目标数据集的违约概率作为基础数据,将所述多个辅助数据集的违约概率作为测试数据,根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标;
将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集。
7.如权利要求6所述的业务预测模型创建方法,其特征在于,所述基于所述建模数据集及所述权重参数创建所述业务预测模型的步骤,包括:
将所述建模数据集中的样本数据作为建模样本,并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建,得到所述业务预测模型。
8.如权利要求7所述的业务预测模型创建方法,其特征在于,所述业务状态模型及所述业务预测模型为逻辑回归模型。
9.一种业务预测模型创建装置,其特征在于,应用于计算机设备,所述装置包括:
第一获取模块,用于获取待创建业务预测模型的目标数据集;
第二获取模块,用于基于所述目标数据集,获取与所述目标数据集满足预设业务相似条件的多个辅助数据集;
样本抽取模块,用于从所述多个辅助数据集中抽取样本数据,得到样本数据集;
模型训练模块,用于根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型;
违约概率预测模块,用于采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测,得到所述目标数据集及每个辅助数据集的违约概率;
建模数据集确定模块,用于基于所述目标数据集及每个辅助数据集的违约概率,从所述样本数据集中确定出建模数据集;
权重参数确定模块,用于根据所述目标数据集及所述建模数据集,确定权重参数;
模型创建模块,用于基于所述建模数据集及所述权重参数创建所述业务预测模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其被执行时,使得计算机设备执行上述权利要求1-8中任意一项所述的业务预测模型创建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138614.2A CN113837863B (zh) | 2021-09-27 | 2021-09-27 | 一种业务预测模型创建方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138614.2A CN113837863B (zh) | 2021-09-27 | 2021-09-27 | 一种业务预测模型创建方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837863A true CN113837863A (zh) | 2021-12-24 |
CN113837863B CN113837863B (zh) | 2023-12-29 |
Family
ID=78970723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138614.2A Active CN113837863B (zh) | 2021-09-27 | 2021-09-27 | 一种业务预测模型创建方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837863B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015168250A2 (en) * | 2014-04-30 | 2015-11-05 | Battelle Memorial Institute | Decision support system for hospital quality assessment |
CN109636243A (zh) * | 2019-01-03 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 模型故障检测方法、装置、计算机设备以及存储介质 |
CN110349012A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 数据预测方法及计算机可读存储介质 |
CN110689427A (zh) * | 2019-10-12 | 2020-01-14 | 杭州绿度信息技术有限公司 | 一种基于生存分析的消费分期违约概率模型 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112200667A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 一种数据处理方法、装置及计算机设备 |
CN112241916A (zh) * | 2020-10-22 | 2021-01-19 | 北京大学 | 个人信用风险违约预警方法、装置、设备及存储介质 |
CN112288572A (zh) * | 2020-12-24 | 2021-01-29 | 上海冰鉴信息科技有限公司 | 业务数据处理方法及计算机设备 |
CN112488817A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于拒绝推断的金融违约风险评估方法及系统 |
CN112785005A (zh) * | 2021-01-22 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 多目标任务的辅助决策方法、装置、计算机设备及介质 |
CN112884092A (zh) * | 2021-04-28 | 2021-06-01 | 深圳索信达数据技术有限公司 | Ai模型生成方法、电子设备及存储介质 |
CN113051317A (zh) * | 2021-04-09 | 2021-06-29 | 上海云从企业发展有限公司 | 一种数据探查方法和系统、数据挖掘模型更新方法和系统 |
CN113052512A (zh) * | 2021-05-12 | 2021-06-29 | 中国工商银行股份有限公司 | 风险预测方法、装置和电子设备 |
CN113139687A (zh) * | 2021-04-25 | 2021-07-20 | 中国工商银行股份有限公司 | 一种预测信用卡用户违约的方法及装置 |
-
2021
- 2021-09-27 CN CN202111138614.2A patent/CN113837863B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015168250A2 (en) * | 2014-04-30 | 2015-11-05 | Battelle Memorial Institute | Decision support system for hospital quality assessment |
CN109636243A (zh) * | 2019-01-03 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 模型故障检测方法、装置、计算机设备以及存储介质 |
CN110349012A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 数据预测方法及计算机可读存储介质 |
CN110689427A (zh) * | 2019-10-12 | 2020-01-14 | 杭州绿度信息技术有限公司 | 一种基于生存分析的消费分期违约概率模型 |
CN110837931A (zh) * | 2019-11-08 | 2020-02-25 | 中国农业银行股份有限公司 | 客户流失预测方法、装置及存储介质 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112488817A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于拒绝推断的金融违约风险评估方法及系统 |
CN112241916A (zh) * | 2020-10-22 | 2021-01-19 | 北京大学 | 个人信用风险违约预警方法、装置、设备及存储介质 |
CN112200667A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 一种数据处理方法、装置及计算机设备 |
CN112288572A (zh) * | 2020-12-24 | 2021-01-29 | 上海冰鉴信息科技有限公司 | 业务数据处理方法及计算机设备 |
CN112785005A (zh) * | 2021-01-22 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 多目标任务的辅助决策方法、装置、计算机设备及介质 |
CN113051317A (zh) * | 2021-04-09 | 2021-06-29 | 上海云从企业发展有限公司 | 一种数据探查方法和系统、数据挖掘模型更新方法和系统 |
CN113139687A (zh) * | 2021-04-25 | 2021-07-20 | 中国工商银行股份有限公司 | 一种预测信用卡用户违约的方法及装置 |
CN112884092A (zh) * | 2021-04-28 | 2021-06-01 | 深圳索信达数据技术有限公司 | Ai模型生成方法、电子设备及存储介质 |
CN113052512A (zh) * | 2021-05-12 | 2021-06-29 | 中国工商银行股份有限公司 | 风险预测方法、装置和电子设备 |
Non-Patent Citations (4)
Title |
---|
周翔;张文宇;江业峰;: "个人信贷违约预测模型的研究", 辽宁科技大学学报, no. 03 * |
张涛: "不同分类模型下网络信贷违约识别的比较验证", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》, no. 7 * |
张涛: "基于样本依赖代价矩阵的小微企业信用评估方法", 《同济大学学报(自然科学版)》, vol. 48, no. 1 * |
童佳庆: "基于机器学习的消费信贷违约概率预测模型研究", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》, no. 2 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837863B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
US20210374582A1 (en) | Enhanced Techniques For Bias Analysis | |
CN112990294B (zh) | 行为判别模型的训练方法、装置、电子设备及存储介质 | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN110674188A (zh) | 一种特征提取方法、装置及设备 | |
CN112711578B (zh) | 用于云计算业务的大数据去噪方法及云计算金融服务器 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN111428217A (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN112434884A (zh) | 一种供应商分类画像的建立方法及装置 | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
CN113344079B (zh) | 一种图像标签半自动标注方法、系统、终端及介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN113837863B (zh) | 一种业务预测模型创建方法、装置及计算机可读存储介质 | |
CN116245630A (zh) | 一种反欺诈检测方法、装置、电子设备及介质 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN113610175A (zh) | 一种业务策略生成方法、装置及计算机可读存储介质 | |
CN111324732A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN111612023A (zh) | 一种分类模型构建方法及装置 | |
CN115953248B (zh) | 基于沙普利可加性解释的风控方法、装置、设备及介质 | |
CN116028880B (zh) | 训练行为意图识别模型的方法、行为意图识别方法及装置 | |
CN113723522B (zh) | 异常用户的识别方法、装置、电子设备以及存储介质 | |
CN118132091A (zh) | 业务模型的处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |