CN111950601B - 一种构建资源返还表现预测模型的方法、装置和电子设备 - Google Patents
一种构建资源返还表现预测模型的方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111950601B CN111950601B CN202010699224.1A CN202010699224A CN111950601B CN 111950601 B CN111950601 B CN 111950601B CN 202010699224 A CN202010699224 A CN 202010699224A CN 111950601 B CN111950601 B CN 111950601B
- Authority
- CN
- China
- Prior art keywords
- task
- resource return
- return performance
- pipeline
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 187
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000004891 communication Methods 0.000 claims abstract description 15
- 238000003860 storage Methods 0.000 claims description 18
- 238000005192 partition Methods 0.000 claims description 14
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 abstract description 12
- 238000010276 construction Methods 0.000 abstract description 5
- 238000009826 distribution Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000009740 moulding (composite fabrication) Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种构建资源返还表现预测模型的方法,提供具有多个任务阶段的流水线学习器,分布存储多个待训练的任务算法,利用流水线学习器对算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,其中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,结合逾期信息,利用机器学习算法对该流水线中的任务算法进行训练,得到资源返还表现预测模型。通过流水线学习器,可自动对分布存储的多个任务算法进行组合,组合后形成的闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,不需要手动组合算法,又可自动结合预测结果对模型进行自我优化,因而简化了模型构建过程。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种构建资源返还表现预测模型的方法、装置和电子设备。
背景技术
目前很多业务中,往往会存在实体资源或者虚拟资源的配给,供用户使用,后续用户返还这些资源可以结束这个业务。然而在返还资源的阶段,往往会出现用户不能按照预定的时间进行资源的返还,造成逾期。
为了能够提高风险管控水平,业内会采取构建模型,利用模型提前预测资源返还表现。
现有的构建模型的方式,每次都需要将多种任务算法进行组合,任务算法之间的数据向联通,这样,输入数据集,组合后的任务算法便可以输出预测结果。
这种方式使得构建模型的实际操作过程较为繁琐,有必要提出一种简化的构建资源返还表现预测模型的方法。
发明内容
本说明书实施例提供一种构建资源返还表现预测模型的方法、装置和电子设备,用以简化模型构建过程。
本说明书实施例提供一种构建资源返还表现预测模型的方法,包括:
提供流水线学习器,所述流水线学习器中具有多个任务阶段;
分布存储多个待训练的任务算法,构成算法集群;
利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通;
结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型。
可选地,所述结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型,包括:
获取逾期用户的资源返还表现数据;
基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
可选地,所述获取逾期用户的资源返还表现数据,包括:
业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;
接收所述业务系统监测生成的所述资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,还包括:
利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正。
可选地,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
可选地,所述流水线学习器中的每个任务阶段均具有转换器和评估器;
所述方法还包括:
利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
可选地,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
可选地,所述将所述输出数据集传递给所述下一转换器,包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
可选地,所述将所述输出数据发送至存储所述下一转换器的分片中,包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
本说明书实施例还提供一种构建资源返还表现预测模型的装置,包括:
学习器模块,提供流水线学习器,所述流水线学习器中具有多个任务阶段;
任务算法模块,分布存储多个待训练的任务算法,构成算法集群;
流水线模块,利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通;
所述流水线模块,还用于结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型。
可选地,所述结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型,包括:
获取逾期用户的资源返还表现数据;
基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
可选地,所述获取逾期用户的资源返还表现数据,包括:
业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;
接收所述业务系统监测生成的所述资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,还包括:
利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正。
可选地,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
可选地,所述流水线学习器中的每个任务阶段均具有转换器和评估器;
所述流水线模块,还用于:
利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
可选地,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
可选地,所述将所述输出数据集传递给所述下一转换器,包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
可选地,所述将所述输出数据发送至存储所述下一转换器的分片中,包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
本说明书实施例还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
本说明书实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
本说明书实施例提供的各种技术方案通过提供具有多个任务阶段的流水线学习器,分布存储多个待训练的任务算法,利用流水线学习器对算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,其中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,结合逾期信息,利用机器学习算法对该流水线中的任务算法进行训练,得到资源返还表现预测模型。通过流水线学习器,可自动对分布存储的多个任务算法进行组合,组合后形成的闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,不需要手动组合算法,又可自动结合预测结果对模型进行自我优化,因而简化了模型构建过程。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种构建资源返还表现预测模型的方法的原理示意图;
图2为本说明书实施例提供的一种构建资源返还表现预测模型的装置的结构示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
对现有技术进行分析发现,如果能够提供一种不带具体算法的模型框架结构,那么每次构建模型时,只需要利用这种模型框架结构对算法进行自动组合,而不需要手动将算法相连接(将算法相组合并使算法之间的输入数据、输出数据相连通)。
考虑到训练的模型可以看作流水线(或者工作流),因此,我们可以提供一个流水线学习器,用来将任务算法相组合。
进一步考虑,如果能够在组合时,直接组合出一个具有反馈功能的闭环流水线,便可以直接以将预测后产生的新业务数据作为训练模型的数据源,自动对模型进行在线优化。
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
图1为本说明书实施例提供的一种构建资源返还表现预测模型的方法的原理示意图,该方法可以包括:
S101:提供流水线学习器,所述流水线学习器中具有多个任务阶段。
在本说明书实施例中,流水线学习器具体而言可以是pipeline,pipeline也可以称为管道。流水线学习器中具有多个任务阶段(stage,管道由一系列stage组成,每个任务阶段均具有转换器(Transformer)和/或评估器(Estimator))。
多个任务阶段可以包括:用于预测的任务阶段和用于训练的任务阶段,其中,用于训练的任务阶段,可以具有输入层,用于输入训练数据集,而用于预测的任务阶段可以具有输出层,用于输出预测结果。
流水线学习器中的任务阶段还可以具有任务算法,在进行训练时,训练数据被反向传播而对任务算法中的参数进行调整,而实现训练过程,训练后得到的任务算法便可以进行预测,在进行预测时,数据集在这些任务算法中正向传递和并且被任务算法处理,最终输出预测结果,而预测结果,可以再作为训练数据,流向训练阶段的输入层,从而进行自我学习。
S102:分布存储多个待训练的任务算法,构成算法集群。
我们可以预先提供各种对数据特征进行处理的算法,并进行分布存储,构成算法集群,这样,能够实现索引和搜索的负载均衡。
具体的,可以以Elasticsearch(一种搜索服务器)分布式数据存储结构实现集群,ES是分布式的文档存储引擎,能够很好的处理结构化数据和非结构化数据,可以实时存储并检索复杂数据结构,在底层自动完成了分布式存储。文档分区到不同的容器或者分片(shards)中,存在于一个或多个节点中。将分片均匀的分配到各个节点,实现索引和搜索做负载均衡。可以冗余每一个分片防止硬件故障造成的数据丢失,将集群中任意一个节点上的请求路由到相应数据所在的节点。无论是增加节点还是移除节点,分片都可以做到无缝的扩展和迁移。业务系统的数据通过Logstash(一种实时数据收集引擎)脚本配置,实现自动同步到云端Elasticsearch对应的索引中,实现分布式存储与快速检索,同时支持集成分布式计算平台的数据读取。
S103:利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通。
其中,对所述算法集群中的多个任务算法进行组合,可以是将任务算法相连接,这样,相连接的任务算法之间也可以实现数据连通,具体是指,上一个任务算法对输入数据进行转换后,将转换得到的数据传递给与该任务算法相连接的下一个任务算法。这样,通过层层连接,便可以初步完成构建资源返还表现预测模型的结构和该结构下的算法,后续只需要对这些算法进行训练,便可以得到具有预测功能的模型。
S104:结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型。
通过提供具有多个任务阶段的流水线学习器,分布存储多个待训练的任务算法,利用流水线学习器对算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,其中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,结合逾期信息,利用机器学习算法对该流水线中的任务算法进行训练,得到资源返还表现预测模型。通过流水线学习器,可自动对分布存储的多个任务算法进行组合,组合后形成的闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,不需要手动组合算法,又可自动结合预测结果对模型进行自我优化,因而简化了模型构建过程。
具体的,所述结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型,可以包括:
获取逾期用户的资源返还表现数据;
基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
具体可以用广义线性回归算法进行训练,具体过程在此不做详述。
我们在一种实施方式中对闭环反馈流水线进行在线优化的具体过程进行阐述,在实际应用时,模型预测的数据可能会流向业务系统,供业务系统进行决策,后续可能会产生业务数据,那么,可以自动收集这些业务数据,以进行在线优化。
具体地,所述获取逾期用户的资源返还表现数据,可以包括:
业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;
接收所述业务系统监测生成的所述资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,还可以包括:
利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正。
考虑到业务系统做出的决策通常都是辅助资源返还的策略,称作辅助策略,由于辅助策略的实施通常会带来一定的成本,因此,如果能针对每个用户精确地预测该用户在辅助策略的影响下的资源返还效果,预先知道实施该辅助策略后的返还表现,便可以在产生资源消耗前做出决策,减少实施策略后才发现资源返还效果不如意的情况发生,最终降低资源消耗。
因此,在本说明书实施例中,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,可以包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
训练得到的模型的任务算法可具有转换或评估的功能,形成流水线学习器中的每个任务阶段的转换器和评估器。
在训练完模型后,便可以利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,这具体可以包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
在本说明书实施例中,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,可以包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
在本说明书实施例中,所述将所述输出数据集传递给所述下一转换器,可以包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
在本说明书实施例中,所述将所述输出数据发送至存储所述下一转换器的分片中,可以包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
模型训练与预测形成了闭合数据反馈链路,能够支持业务规则自我学习与在线优化。业务数据存储在关系型数据库中,通过Logstash配置脚本实现自动同步业务数据到云端ES存储,Logstash采用可插拔框架,支持不同的输入选择、过滤器和输出选择混合搭配、通过Pipeline实现数据自动同步。形成闭合的数据反馈链路,可以不断的校正模型的训练和预测,达到自动学习的目的。数据源通过同步组件Logstash实现全量与增量数据同步到Elasticsearch集群中,ES集群能够很好的存储海量数据量,能够很好的处理结构化数据和非结构化数据,能够完成部分数据预处理工作,能够有效避免模型训练过程中的数据倾斜,模型训练时从ES节点获取对应的数据,模型预测结果输出到ES集群中,提供给业务系统使用。业务系统根据模型数据结果调整业务策略,有利于开展高质量数据分析和业务预测。
模型训练过程主要包括数据清洗、特征工程、输出模型、模型评估等4个阶段。基于Spark Pipeline提供的管道计算模式,能够方便的将不同的算法组合成一个独立的管道,形成一个闭环反馈流水线,轻松实现模型训练和预测。
图2为本说明书实施例提供的一种构建资源返还表现预测模型的装置的结构示意图,该装置可以包括:
学习器模块201,提供流水线学习器,所述流水线学习器中具有多个任务阶段;
任务算法模块202,分布存储多个待训练的任务算法,构成算法集群;
流水线模块203,利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通;
流水线模块203,还用于结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型。
在本说明书实施例中,所述结合逾期信息,利用机器学习算法对所述闭环反馈流水线中的任务算法进行训练,得到资源返还表现预测模型,包括:
获取逾期用户的资源返还表现数据;
基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
在本说明书实施例中,所述获取逾期用户的资源返还表现数据,包括:
业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;
接收所述业务系统监测生成的所述资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,还包括:
利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正。
在本说明书实施例中,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
在本说明书实施例中,所述流水线学习器中的每个任务阶段均具有转换器和评估器;
所述流水线模块,还用于:
利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
在本说明书实施例中,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
在本说明书实施例中,所述将所述输出数据集传递给所述下一转换器,包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
在本说明书实施例中,所述将所述输出数据发送至存储所述下一转换器的分片中,包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
该装置提供具有多个任务阶段的流水线学习器,分布存储多个待训练的任务算法,利用流水线学习器对算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,其中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,结合逾期信息,利用机器学习算法对该流水线中的任务算法进行训练,得到资源返还表现预测模型。通过流水线学习器,可自动对分布存储的多个任务算法进行组合,组合后形成的闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通,不需要手动组合算法,又可自动结合预测结果对模型进行自我优化,因而简化了模型构建过程。
基于同一发明构思,本说明书实施例还提供一种电子设备。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
所述存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1所示的方法。
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
实现图1所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种构建资源返还表现预测模型的方法,其特征在于,包括:
提供流水线学习器,所述流水线学习器中具有多个任务阶段;其中,多个任务阶段至少包括:用于预测的任务阶段和用于训练的任务阶段;所述任务阶段具有任务算法;
分布存储多个待训练的任务算法,构成算法集群;
利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通;
业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;接收所述业务系统监测生成的所述资源返还表现数据;
基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练;利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正,得到资源返还表现预测模型。
2.根据权利要求1所述的方法,其特征在于,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
3.根据权利要求1所述的方法,其特征在于,所述流水线学习器中的每个任务阶段均具有转换器和评估器;
所述方法还包括:
利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
4.根据权利要求3所述的方法,其特征在于,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
5.根据权利要求3所述的方法,其特征在于,所述将所述输出数据集传递给所述下一转换器,包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
6.根据权利要求5所述的方法,其特征在于,所述将所述输出数据发送至存储所述下一转换器的数据库分片中,包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
7.一种构建资源返还表现预测模型的装置,其特征在于,包括:
学习器模块,提供流水线学习器,所述流水线学习器中具有多个任务阶段;其中,多个任务阶段至少包括:用于预测的任务阶段和用于训练的任务阶段;所述任务阶段具有任务算法;
任务算法模块,分布存储多个待训练的任务算法,构成算法集群;
流水线模块,利用所述流水线学习器对所述算法集群中的多个任务算法进行组合,形成各任务阶段均具有任务算法的闭环反馈流水线,所述闭环反馈流水线中用于训练的输入层与用于预测的任务算法的输出层之间数据连通;
所述流水线模块,还用于业务系统对已预测的逾期用户进行监测,生成逾期用户的资源返还表现数据,并通过数据同步组件将所述资源返还表现数据同步至模型系统;接收所述业务系统监测生成的所述资源返还表现数据;基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练;利用所述逾期用户的逾期信息、对所述逾期用户预测并由所述输出层向所述输入层传递的资源返还表现数据和所述业务系统监测生成的所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行修正,得到资源返还表现预测模型。
8.根据权利要求7所述的装置,其特征在于,所述资源返还表现数据为施行资源返还辅助策略后的资源返还表现数据;
所述基于所述逾期用户的逾期信息和所述资源返还表现数据,以回归算法对所述闭环反馈流水线中的任务算法进行训练,包括:
基于所述逾期用户的逾期信息和所述资源返还表现数据,结合所述辅助策略,以回归算法对所述闭环反馈流水线中的任务算法进行训练。
9.根据权利要求7所述的装置,其特征在于,所述流水线学习器中的每个任务阶段均具有转换器和评估器;
所述流水线模块,还用于:
利用所述资源返还表现预测模型预测逾期用户的资源返还表现数据,包括:
当前转换器获取输入的数据集,进行处理,得到输出数据集;
所述当前转换器对应的评估器根据所述输出数据集输出资源返还表现数据,或者,当前转换器对应的评估器根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,并将所述输出数据集传递给所述下一转换器。
10.根据权利要求9所述的装置,其特征在于,所述根据所述输出数据集路由与所述输出数据集相匹配的下一转换器,包括:
从当前转换器连接的多个转换器中选择与所述输出数据集相匹配的下一转换器。
11.根据权利要求9所述的装置,其特征在于,所述将所述输出数据集传递给所述下一转换器,包括:
将所述输出数据发送至存储所述下一转换器的数据库分片中,以利用分布式算法集群进行预测。
12.根据权利要求11所述的装置,其特征在于,所述将所述输出数据发送至存储所述下一转换器的数据库分片中,包括:
利用数据同步组件将所述输出数据发送至存储所述下一转换器的数据库分片中。
13.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699224.1A CN111950601B (zh) | 2020-07-20 | 2020-07-20 | 一种构建资源返还表现预测模型的方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699224.1A CN111950601B (zh) | 2020-07-20 | 2020-07-20 | 一种构建资源返还表现预测模型的方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950601A CN111950601A (zh) | 2020-11-17 |
CN111950601B true CN111950601B (zh) | 2024-04-26 |
Family
ID=73341639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010699224.1A Active CN111950601B (zh) | 2020-07-20 | 2020-07-20 | 一种构建资源返还表现预测模型的方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950601B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733339A (zh) * | 2017-04-17 | 2018-11-02 | 英特尔公司 | 增强现实和虚拟现实反馈增强系统、设备和方法 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN110110858A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于强化学习的自动化机器学习方法 |
CN110414714A (zh) * | 2019-06-28 | 2019-11-05 | 上海上湖信息技术有限公司 | 逾期事件的回款概率预测方法及装置、可读存储介质 |
CN110659741A (zh) * | 2019-09-03 | 2020-01-07 | 浩鲸云计算科技股份有限公司 | 一种基于分片式自动学习的ai模型训练系统和方法 |
CN110780978A (zh) * | 2019-10-25 | 2020-02-11 | 下一代互联网重大应用技术(北京)工程研究中心有限公司 | 一种数据处理方法、系统、设备和介质 |
CN111178592A (zh) * | 2019-12-12 | 2020-05-19 | 上海淇玥信息技术有限公司 | 资源的逾期占用预测方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11244388B2 (en) * | 2017-06-08 | 2022-02-08 | Flowcast, Inc. | Methods and systems for assessing performance and risk in financing supply chain |
-
2020
- 2020-07-20 CN CN202010699224.1A patent/CN111950601B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733339A (zh) * | 2017-04-17 | 2018-11-02 | 英特尔公司 | 增强现实和虚拟现实反馈增强系统、设备和方法 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN110110858A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于强化学习的自动化机器学习方法 |
CN110414714A (zh) * | 2019-06-28 | 2019-11-05 | 上海上湖信息技术有限公司 | 逾期事件的回款概率预测方法及装置、可读存储介质 |
CN110659741A (zh) * | 2019-09-03 | 2020-01-07 | 浩鲸云计算科技股份有限公司 | 一种基于分片式自动学习的ai模型训练系统和方法 |
CN110780978A (zh) * | 2019-10-25 | 2020-02-11 | 下一代互联网重大应用技术(北京)工程研究中心有限公司 | 一种数据处理方法、系统、设备和介质 |
CN111178592A (zh) * | 2019-12-12 | 2020-05-19 | 上海淇玥信息技术有限公司 | 资源的逾期占用预测方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
Credit Scoring in Microfinance Using Non-traditional Data;Saulo Ruiz等;《EPIA Conference on Artificial Intelligence》;20170809;447-458 * |
Also Published As
Publication number | Publication date |
---|---|
CN111950601A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342547A1 (en) | System for focused conversation context management in a reasoning agent/behavior engine of an agent automation system | |
US10936361B2 (en) | Cloud and datacenter migration wave planning using analytics and flow modeling | |
CN112015402A (zh) | 业务场景快速建立方法、装置和电子设备 | |
CN109298948B (zh) | 分布式计算方法和系统 | |
US8990294B2 (en) | File system optimization by log/metadata analysis | |
US8458657B2 (en) | Documentation roadmaps and community networking for developers on large projects | |
CN111950600B (zh) | 一种预测逾期用户资源返还表现的方法、装置和电子设备 | |
CN115373835A (zh) | Flink集群的任务资源调整方法、装置及电子设备 | |
CN107526639B (zh) | 资源编排的方法、介质、装置和计算设备 | |
US11943177B2 (en) | Virtual agent portal integration of two frameworks | |
CN103270520A (zh) | 基于重要性类的数据管理 | |
CN113656502B (zh) | 数据同步方法、系统、电子设备和存储介质 | |
US10228916B2 (en) | Predictive optimization of next task through asset reuse | |
US9619518B2 (en) | Tracking tuples to reduce redundancy in a graph | |
CN111950601B (zh) | 一种构建资源返还表现预测模型的方法、装置和电子设备 | |
Peng et al. | Fp8-lm: Training fp8 large language models | |
CN111177247B (zh) | 一种数据转换的方法、装置及存储介质 | |
CN111046010A (zh) | 日志储存方法、装置、系统、电子设备和计算机可读介质 | |
CN111967806B (zh) | 基于定期回扫的用户风险更新方法、装置和电子设备 | |
CN113141407B (zh) | 一种页面资源加载方法、装置和电子设备 | |
CN113568930A (zh) | 一种分布式内存数据查询优化的方法和设备 | |
CN116402432B (zh) | 路由规划方法、装置、设备及存储介质 | |
CN113177212B (zh) | 联合预测方法和装置 | |
Binh et al. | Heuristic and genetic algorithms for solving survivability problem in the design of last mile communication networks | |
CN111666156B (zh) | 一种容器编排方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 200062 room 1027, floor 10, No. 89, Yunling East Road, Putuo District, Shanghai Applicant after: Qifu Shuke (Shanghai) Technology Co.,Ltd. Address before: 200062 room 1027, floor 10, No. 89, Yunling East Road, Putuo District, Shanghai Applicant before: Shanghai Qifu Information Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |