CN114092230A

CN114092230A - 一种数据处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN114092230A
Application number: CN202111414989.7A
Authority: CN
Inventors: 曾桂平; 杨旸; 陈芷君
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-25

Abstract

本申请公开了数据处理方法、装置、电子设备及计算机可读介质，涉及人工智能、大数据领域，具体涉及机器学习、数据预处理领域，该方法包括：接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；调用预测模型，确定预测模型中与各业务标识对应的分类器；将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。从而相比其他一般的工作评估算法具有更高的效率以及更高的准确率，充分挖掘公积金价值字段的使用价值。

Description

一种数据处理方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及人工智能、大数据领域，具体涉及机器学习、数据预处理领域，尤其涉及一种数据处理方法、装置、电子设备及计算机可读介质。

背景技术

目前市场上对公积金数据的应用仍大多专注于利用公积金贷款数据分析客户的风险等级方面，在一些客户画像中亦是常以易获得的基础性指标为主要呈现。整体来看，市场上对于公积金价值字段的数据挖掘工作目前仍存在较大的进步空间。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

对公积金价值字段的利用不充分，市场上对于公积金价值字段的数据挖掘工作目前仍存在较大的进步空间。

发明内容

有鉴于此，本申请实施例提供一种数据处理方法、装置、电子设备及计算机可读介质，能够解决现有的对公积金价值字段的利用不充分，市场上对于公积金价值字段的数据挖掘工作目前仍存在较大的进步空间的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种数据处理方法，包括：

接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；

调用预测模型，确定预测模型中与各业务标识对应的分类器；

将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；

根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

可选地，在调用预测模型之前，数据处理方法还包括：

获取初始梯度提升模型；

获取训练样本数据，训练样本数据包括携带有用户标识和观察时点的公积金数据以及标注的模型预测概率；

将携带有用户标识和观察时间的公积金数据作为初始梯度提升模型的输入，将标注的对应的模型预测概率作为初始梯度提升模型的期望输出，调用梯度提升树算法，对初始梯度提升模型进行迭代训练，以得到预测模型。

可选地，述获取训练样本数据，包括：

获取企业各员工的公积金数据，对企业各员工的初始公积金数据进行格式化和数值字段单位的统一化，生成预处理公积金数据；

确定预处理公积金数据的业务标识，基于预处理公积金的业务标识对预处理公积金数据进行拆解；

对拆解后的预处理公积金数据进行交叉结合，对交叉结合的预处理公积金数据进行特征提取，对提取的特征进行特征衍生和特征清洗，以得到携带有用户标识和观察时点以及标注有对应的模型预测概率的公积金数据，进而确定为训练样本数据。

可选地，对初始梯度提升模型进行迭代训练，包括：

响应于期望输出与输入对应的标注的模型预测概率不匹配，确定当前输入初始梯度提升模型的训练样本数据的训练权重；

基于预设的训练权重等级，确定高于训练权重的目标训练权重，将训练权重更新为目标训练权重。

可选地，得到预测模型，包括：

调用各预处理公积金数据的业务标识对应的训练样本数据分别对初始梯度提升模型的各决策树进行训练，进而得到训练完成的分类器；

组合各分类器，以得到预测模型。

可选地，确定对应的工作稳定等级，包括：

获取公积金数据对应的公积金断缴数据；

基于公积金断缴数据确定异常用户概率，进而基于异常用户概率确定正常用户概率；

基于异常用户概率、正常用户概率和预设系数，确定评分分值；

基于预设的评分分值和工作稳定等级的对应关系和评分分值，确定对应的工作稳定等级。

可选地，在得到预测模型之前，方法还包括：

获取测试样本数据和验证样本数据，根据测试样本数据和验证样本数据对预测模型的模型参数进行更新。

另外，本申请还提供了一种数据处理装置，包括：

接收单元，被配置成接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；

分类器确定单元，被配置成调用预测模型，确定预测模型中与各业务标识对应的分类器；

概率预测单元，被配置成将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；

数据处理单元，被配置成根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

可选地，数据处理装置还包括训练单元，被配置成：

获取初始梯度提升模型；

可选地，训练单元进一步被配置成：

组合各分类器，以得到预测模型。

可选地，数据处理单元进一步被配置成：

获取公积金数据对应的公积金断缴数据；

可选地，训练单元进一步被配置成：

另外，本申请还提供了一种数据处理电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的数据处理方法。

另外，本申请还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的数据处理方法。

为实现上述目的，根据本申请实施例的又一个方面，提供了一种计算机程序产品。

本申请实施例的一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的数据处理方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；调用预测模型，确定预测模型中与各业务标识对应的分类器；将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。通过根据公积金数据的业务标识将对应的数据输入到预测模型的对应的分类器，以根据各分类器输出的模型预测概率得到对应用户的工作稳定性的评述结果的实现方案。从而相比其他一般的算法具有更高的效率以及更高的准确率，充分挖掘公积金价值字段的使用价值。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请第一实施例的数据处理方法的主要流程的示意图；

图2是根据本申请第二实施例的数据处理方法的主要流程的示意图；

图3是根据本申请第三实施例的数据处理方法的应用场景示意图；

图4是根据本申请实施例的数据处理装置的主要单元的示意图；

图5是本申请实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

图1是根据本申请第一实施例的数据处理方法的主要流程的示意图，如图1所示，数据处理方法包括：

步骤S101，接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征。

本实施例中，数据处理方法的执行主体(例如，可以是服务器)可以通过有线连接或无线连接的方式，接收业务申请请求。具体地，可以是贷款申请请求。业务标识，例如可以是TQ、JC、ZFTQ、TXTQ、JE、BS、3/6/9，TQ、JC业务标识分别可以表示不同行为，如提取、缴存；ZFTQ、TXTQ、业务标识分别可以表示不同目的，如租房提取、退休提取；JE、BS业务标识分别可以表示不同数据种类，如金额、笔数。3/6/9业务标识可以表示不同时间窗口，如3/6/9月。

执行主体在接收到业务申请请求后，可以提取对应的公积金数据，进而对该公积金数据基于业务标识进行对应的特征提取，得到对应的数据特征。

步骤S102，调用预测模型，确定预测模型中与各业务标识对应的分类器。

具体地，在调用预测模型之前，方法还包括：

获取初始梯度提升模型，例如LightGBM，LightGBM采用Leaf-wise的增长策略，该策略是每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。

获取训练样本数据，训练样本数据包括携带有用户标识和观察时点的公积金数据以及标注的模型预测概率。

将携带有用户标识和观察时间的公积金数据作为初始梯度提升模型的输入，将标注的对应的模型预测概率作为初始梯度提升模型的期望输出，调用梯度提升树算法，对初始梯度提升模型进行迭代训练，具体为通过反复迭代训练决策树来最小化损失函数，以得到预测模型。具体地，梯度提升树会依次迭代训练一系列的决策树。在每一次迭代中，算法使用现有的集成对每个训练实例的类别进行预测，然后将预测结果与真实的标签值进行比较。对于预测结果不准确的实例，算法将通过重新标记赋予其更高的权重。从而使得在下一次的迭代中，这些“错误”会被严重关注，进而对先前的错误进行修正。在进行了N次迭代后，将会得到N个简单的分类器，将其组合起来便可得到一个最终的模型。

具体地，获取训练样本数据，包括：

获取企业各员工的公积金数据，对企业各员工的初始公积金数据进行格式化和数值字段单位的统一化，生成预处理公积金数据。

示例的，剔除不符合规范的证件号码；规范时间字段格式，并剔除时间异常值；统一数值型字段的单位，金额类型统一单位为元，比例类型的变量单位统一为百分比，如贷款利率为百分之3.25，则记录值为3.25；对数值型变量取绝对值，目的是解决数值型变量出现负值的异常情况；清洗分类型变量，将异常值转化为缺失。

确定预处理公积金数据的业务标识，基于预处理公积金的业务标识对预处理公积金数据进行拆解。

示例的，依据不同数据源的不同业务特性，将数据源重新分为个人信息、个人缴存、个人贷款、还款行为、逾期行为、共同借款、单位信息、单位缴存、报税信息、担保信息及政策信息共11个大类。针对每类信息可从不同业务角度出发对数据进行拆解后混合，具体可以是基于业务标识对数据进行拆解后混合，并结合窗口数据与数据字段，完成特征设计。如公积金缴存，可分为不同行为(如提取、缴存等)，不同目的(如租房提取、退休等)，不同时间窗口(如3/6/9月等)，不同数据种类(如金额，笔数等)等，彼此交叉结合即可汇聚成庞大的特征网络。

对拆解后的预处理公积金数据进行交叉结合，对交叉结合的预处理公积金数据进行特征提取，对提取的特征进行特征衍生和特征清洗，以得到携带有用户标识和观察时点以及标注有对应的模型预测概率的公积金数据，进而确定为训练样本数据。其中，特征衍生：依照设计出来的衍生思路，对各个类别的特征进行衍生代码的开发，最后可以共衍生特征出900多个特征。特征清洗：通过确定特征的正常取值范围解决特征的异常值问题，一般通过挑选出异常值，将异常值替换为null或最大值或最小值的方法进行清洗。具体包含的措施有：对于人数类统计变量，观察数据分布后确定特征的正常取值范围，并替换异常值；对于时间区间类的特征，如果出现负值或超出99分位数，则替换为null；对于比例类变量统一处理成百分数；对于数值型变量，若超出99分位数，则替换为99分位数，出现负值则替换为0。

具体地，对初始梯度提升模型进行迭代训练，包括：

响应于期望输出与输入对应的标注的模型预测概率不匹配，确定当前输入初始梯度提升模型的训练样本数据的训练权重；基于预设的训练权重等级，确定高于训练权重的目标训练权重，将训练权重更新为目标训练权重。目标训练权重就是下一次模型迭代训练需要达到的权重。

示例的，梯度提升树会依次迭代训练一系列的决策树。在每一次迭代中，算法使用现有的集成对每个训练实例的类别进行预测，然后将预测结果与真实的标签值进行比较。对于预测结果不准确的实例，算法将通过重新标记赋予其更高的权重。从而使得在下一次的迭代中，这些“错误”会被严重关注，进而对先前的错误进行修正。在进行了N次迭代后，将会得到N个简单的分类器，将其组合起来便可得到一个最终的模型。

具体地，得到预测模型，包括：

调用各预处理公积金数据的业务标识对应的训练样本数据分别对初始梯度提升模型的各决策树进行训练，进而得到训练完成的分类器；组合各分类器，以得到预测模型。

具体地，在得到预测模型之前，方法还包括：

具体地，算法的迭代次数，决策树的最大深度，连续特征离散化的最大数量，分裂节点时所需最小信息增益，分裂后自节点最少包含的实例数量等均可由自行调整设定。将已获取到的训练样本数据放入选定的初始梯度提升模型中进行训练，并与测试样本数据和验证样本数据对应的预测模型的输出结果相比较，即可得到并验证模型结果，并基于模型结果纠正模型参数并更新模型参数。

步骤S103，将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率。

分类器是预测模型中的分类器。基于预测模型中组合的分类器，对输入的数据特征进行稳定性的概率预测。

步骤S104，根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

执行主体可以根据预设的概率和稳定性等级的对应关系，确定出预测模型的各分类器输出的模型预测概率对应的稳定性等级。具体地，执行主体可以将各分类器输出的稳定性等级取众数作为最终的工作稳定性等级。当然，本申请实施例中，也可以将各分类器输出的稳定性等级取中位数作为最终的工作稳定性等级。本申请实施例对稳定性等级的确定方式不做具体限定。

具体地，执行主体可以调用与工作稳定等级对应的策略，对业务申请请求进行处理。示例的，工作稳定等级为A、B、C、D中的A级，也是最低级别，则可以调用最严格的风控策略以对该业务申请请求进行处理，以严格把控用户的业务申请。

本实施例通过接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；调用预测模型，确定预测模型中与各业务标识对应的分类器；将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。通过根据公积金数据的业务标识将对应的数据输入到预测模型的对应的分类器，以根据各分类器输出的模型预测概率得到对应用户的工作稳定性的评述结果的实现方案。从而相比其他一般的算法具有更高的效率以及更高的准确率，充分挖掘公积金价值字段的使用价值。

图2是根据本申请第二实施例的数据处理方法的主要流程示意图，如图2所示，数据处理方法包括：

步骤S201，接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征。

步骤S202，调用预测模型，确定预测模型中与各业务标识对应的分类器。

具体地，预测模型的构建，首先是利用数据分析与挖掘技术，完成工作稳定性模型好坏客户标签定义与样本划分，然后，依据住房公积金数据进行了相关特征的提取与衍生；最后，利用机器学习技术实现模型的搭建，并对每个职工输出其工作稳定性的好坏预测概率值。预测模型构建涉及全国住房公积金数据平台的所有客户，模型的构建主要涉及确定观察期和表现期，定义好坏标签，制定样本排除规则，获取及划分样本，筛选特征和选择训练模型六个方面。

示例的，观察期是一个滚动窗口，以保证贷款“好”、“坏”的行为可以充分观察。表现期是对观察点存续贷款在未来进行表现监控的时间周期。根据贷款在表现期内的表现，将其分别标识为“好”、“不确定”、“坏”。表现期必须足够长，从而保证样本好坏情况得以充分体现。由于样本数据时间限制，预测模型可以选取2019.10.31、2019.11.30、2019.12.31、2020.01.31共4个观察时点，将观察时点之后的6个月定义为表现期。并且确定公积金变动数据的观察窗口为3年，其他数据的观察窗口为6个月。

坏客户定义：

由于工作稳定性模型的搭建源于公积金数据平台，且目标为预测客户的工作稳定性风险，预测模型以公积金断缴这一行为作为评判客户工作稳定程度的标准。

公积金断缴行为涉及到单位账户断缴以及个人账户断交两个方面，为了更准确地评估客户个人因素造成工作的稳定性风险，规定只有当个人断缴且单位没断缴时，才判断客户该月为真正的断缴行为。若以“1”代表当月客户真实断缴标志，“0”代表当月客户公积金正常缴交标志。则存在如下对应关系：

当月个人账户状态(正常缴交)-当月单位账户状态(正常缴交)-当月真实缴纳标志(0)；

当月个人账户状态(正常缴交)-当月单位账户状态(断缴)-当月真实缴纳标志(0)；

当月个人账户状态(断缴)-当月单位账户状态(正常缴交)-当月真实缴纳标志(1)；

当月个人账户状态(断缴)-当月单位账户状态(断缴)-当月真实缴纳标志(0)。

示例的，随着客户初期连续断缴月份数的增加，客户下个月继续断缴的概率在逐渐变大。当客户连续断缴标志达到3个月(m3)时，在下一个月有60％多的概率会变得更坏，即进入连续断缴4个月(m4)阶段。因此，可以认为，当客户断缴阶段达到m3之后，滚动率比较稳定，客户有较大概率会继续变坏，因此，最终确定工作稳定性模型定义坏客户标签为“1”，标准为m3+(即客户连续断缴3个月及以上)；好客户标签为“0”，标准为客户未断缴或连续断缴2个月及以下。

样本排除：

模型开发样本应具有群体代表性，而且必须有准确的预测信息和表现信息，从而使模型在开发时更加准确，并且可在未来进行应用。预测模型作为一个贷中模型，对于一些特殊的客户样本数据，如数据不正常的客户，行为无法预测的客户，在观察时点已经可以定义为坏的客户等，都需要予以剔除，以防特殊数据对模型真实效果产生干扰。

预测模型共制定了以下样本排除规则：剔除非正常身份证号的客户；剔除个人账号为空或状态为非正常的客户；剔除个人账号账龄小于等于180天的客户；剔除已销户的客户；剔除单位账户为空的客户；剔除在观察时点之前，个人关联的单位账户存在连续三个月公积金断缴行为的客户；剔除在观察时点之前，个人账户存在连续三个月公积金断缴行为的客户。

样本划分：

由个人信息表和个人账户信息表出发，模型选取了201910，201911，201912，202001四个观察时点的整体样本数据用于构建模型，并以客户身份证号加上观察时点作为主键定义样本的唯一标识。同时，为了更好地验证模型效果，将整体样本划分为开发训练集、开发测试集以及验证集，训练集用于工作稳定性模型的训练拟合，测试集用于评估模型的泛化能力，验证集则用于验证在外推样本中模型的效果表现与稳定性等。

预测模型可以将201910和201911两个观察时点的样本用于训练集和测试集的抽样，其中好样本数据由于过多，在保留所有坏样本同时，按好坏比9：1对好样本进行抽样，最后训练测试集按照7：3比例进行划分。此外，预测模型可以将201912和202001两个观察时点的样本随机抽取1％作为验证集使用。

特性筛选：

特征筛选部分可以分为两大模块，第一模块为特征初步筛选，包含缺失率筛选(剔除缺失率大于等于90％的特征)，iv筛选(剔除iv小于等于0.01的特征,IV的全称是Information Value，中文意思是信息价值，或者信息量)，相关项筛选(相关项筛选不包含分类型特征，仅将数值型特征由iv从高到低排序进行相关性计算，剔除相关性大于等于0.7的特征)以及psi筛选(剔除psi值大于等于0.1的特征)；第二模块为特征重要性筛选，通过将第一步初步筛选后特征与选定的样本数据放入模型进行训练，得到模型特征重要性结果排序，选择累计特征重要性前99％的特征，作为最终的选定模型特征。

模型选择与训练：

预测模型可以采用GBTModel算法进行模型开发。GBTModel为梯度提升树算法，是一种决策树的集成算法，通过反复迭代训练决策树来最小化损失函数，可以用来做分类、回归。梯度提升树算法适用于连续特征以及类别特征，具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。

梯度提升树会依次迭代训练一系列的决策树。在每一次迭代中，算法使用现有的集成对每个训练实例的类别进行预测，然后将预测结果与真实的标签值进行比较。对于预测结果不准确的实例，算法将通过重新标记赋予其更高的权重。从而使得在下一次的迭代中，这些“错误”会被严重关注，进而对先前的错误进行修正。在进行了N次迭代后，将会得到N个简单的分类器，将其组合起来便可得到一个最终的模型。

其中，算法的迭代次数，树的最大深度，连续特征离散化的最大数量，分裂节点时所需最小信息增益，分裂后自节点最少包含的实例数量等均可由自行调整设定。将已获取到的训练集样本与选定特征放入选定的模型中进行训练，并与测试集和验证集的结果相比较，即可得到并验证模型结果。

步骤S203，将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率。

步骤S201～步骤S203的原理与步骤S101～步骤S103的原理类似，此处不再赘述。

步骤S204，获取公积金数据对应的公积金断缴数据。

步骤S205，基于公积金断缴数据确定异常用户概率，进而基于异常用户概率确定正常用户概率。

步骤S206，基于异常用户概率、正常用户概率和预设系数，确定评分分值。

步骤S207，基于预设的评分分值和工作稳定等级的对应关系和评分分值，确定对应的工作稳定等级。

为了提高模型输出结果的可读性及可解释性，将模型预测概率转化为评分，可方便业务人员进行快速研判。示例的，公积金断缴数据对应“坏用户”。公积金正常缴纳用户对应“好用户”。业务申请请求对应的用户是坏用户的概率(即异常用户概率)可以为P(Y＝1|X)＝p，业务申请请求对应的用户是好用户的概率(即正常用户概率)可以为P(Y＝0|X)＝1-p。计算好坏用户比值为odds＝(1-p)/p。评分分值可以表示为比率对数的线性表达式：

score＝A+B*ln(odds)

设定odd＝Θ0时的分数p0，设定当odds每增加1倍时，增加的分数为PDO，因此可列出下列组合公式：

最终可以计算得到A和B的值：

本申请实施例可以设定p0(即预设系数)为600，odd＝1/17(即为训练集样本数据的坏好比)，PDO＝100，分数范围限制在300至700之间(低于300全部设为300，高于700全部设为700)，依据上述评分转换方法，将可获得最终的客户工作稳定性评分分值。

执行主体可以根据预先设定好的评分分值与工作稳定等级的对应关系，确定业务申请请求对应的工作稳定等级。

步骤S208，根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

本申请实施例通过最终得到的评分分值能够更加精确地确定出业务申请请求对应的工作稳定等级。

图3是根据本申请第三实施例的数据处理方法的应用场景示意图。本申请实施例的数据处理方法，可以应用于对公积金数据的开发利用场景，即可以是利用公积金数据进行工作稳定性的判定的场景。如图3所示，以全国住房公积金数据平台(公积金数据)的公积金数据作为底层数据，在完成原始数据情况分析后，对原始数据进行整理与清洗，进入特征构造环节。特征构造环节包含特征设计、特征衍生与特征清洗三大部分，输出部分基础特征，用于下一步模型的搭建与重要性显著的特征的平台展示。而后，依赖于构造得出的特征，在进行特征重要性筛选后完成工作稳定性预测模型的搭建，并向决策分析平台输出两个工作稳定性等级评分，最终应用于职工风险视图及专项指标稽查等目标功能之中。其中，原始数据，可以包括：个人数据、单位数据、其他数据。其中，个人数据，包括个人信息、账户信息、个人缴存及变动信息等。单位数据，可以包括：单位缴存及变动等。其他数据，可以包括：共同借款人、政策信息等。本申请实施例对原始数据所包含的具体内容不做限定。

本申请实施例实现了数据创新：充分利用公积金数据中蕴藏的丰富信息价值，将公积金数据源进行分类整合，并通过特征衍生技术衍生出大量具有业务含义的新特征，最终将其应用到工作稳定性预测之中，做到了对公积金数据价值的创新开发，深层挖掘与应用。定义创新：将用户工作稳定情况以公积金数据源为基础进行了准确的定义，结合单位缴存与个人缴存双重数据行为，准确定义缴存概念，让工作稳定性具有了量化的衡量指标，提升了结果可靠性与可解释性。与传统统计分析方法和逻辑回归算法不同，本申请实施例采用机器学习GBTModel算法，适用于连续特征以及类别特征，可以更好的展现数据间的非线性关系，更快速高效地进行数据建模处理，从而最终在工作稳定性评分指标的输出应用下，实现公积金用户风控能力的整体提升。数据使用层次更丰富：不同于市场上将公积金数据应用于分析贷款逾期从而评判客户风险等级的业务场景，本申请实施例将公积金数据应用于描述用户的工作稳定性情况，并以此评估用户的资金流动性强弱水平，从而识别用户风险。在数据应用层次上拓展的新的边界，为之后公积金数据挖掘提供了新的方向。模型更可靠：相比于传统的统计分析与逻辑回归模型，GBTModel作为一种先进的机器学习集成模型，不仅会通过反复迭代训练决策树以及不断调整预测错误样本的权重来一步步完成错误的修正，而且对于大量级的数据十分友好，这使得该模型在具有极高的模型开发效率的同时亦保证了结果较高的准确度与可靠性，业务解释性说服力更高：本申请实施例将工作稳定性这一模糊概念性的词语进行了量化的解释与指标的对应，使得在进行业务介绍与解释时整个发明有据可依，有理可证。在实际应用之中，底层数据的保障更是为业务解释带来了更强的说服力与可信力。

图4是根据本申请实施例的数据处理装置的主要单元的示意图。如图4所示，数据处理装置包括接收单元401、分类器确定单元402、概率预测单元403和数据处理单元404。

接收单元401，被配置成接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征。

分类器确定单元402，被配置成调用预测模型，确定预测模型中与各业务标识对应的分类器。

概率预测单元403，被配置成将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率。

数据处理单元404，被配置成根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

在一些实施例中，数据处理装置还包括图4中未示出的训练单元，被配置成：获取初始梯度提升模型；获取训练样本数据，训练样本数据包括携带有用户标识和观察时点的公积金数据以及标注的模型预测概率；将携带有用户标识和观察时间的公积金数据作为初始梯度提升模型的输入，将标注的对应的模型预测概率作为初始梯度提升模型的期望输出，调用梯度提升树算法，对初始梯度提升模型进行迭代训练，以得到预测模型。

在一些实施例中，训练单元进一步被配置成：获取企业各员工的公积金数据，对企业各员工的初始公积金数据进行格式化和数值字段单位的统一化，生成预处理公积金数据；确定预处理公积金数据的业务标识，基于预处理公积金的业务标识对预处理公积金数据进行拆解；对拆解后的预处理公积金数据进行交叉结合，对交叉结合的预处理公积金数据进行特征提取，对提取的特征进行特征衍生和特征清洗，以得到携带有用户标识和观察时点以及标注有对应的模型预测概率的公积金数据，进而确定为训练样本数据。

在一些实施例中，训练单元进一步被配置成：响应于期望输出与输入对应的标注的模型预测概率不匹配，确定当前输入初始梯度提升模型的训练样本数据的训练权重；基于预设的训练权重等级，确定高于训练权重的目标训练权重，将训练权重更新为目标训练权重。

在一些实施例中，训练单元进一步被配置成：调用各预处理公积金数据的业务标识对应的训练样本数据分别对初始梯度提升模型的各决策树进行训练，进而得到训练完成的分类器；组合各分类器，以得到预测模型。

在一些实施例中，数据处理单元404进一步被配置成：获取公积金数据对应的公积金断缴数据；基于公积金断缴数据确定异常用户概率，进而基于异常用户概率确定正常用户概率；基于异常用户概率、正常用户概率和预设系数，确定评分分值；基于预设的评分分值和工作稳定等级的对应关系和评分分值，确定对应的工作稳定等级。

在一些实施例中，训练单元进一步被配置成：获取测试样本数据和验证样本数据，根据测试样本数据和验证样本数据对预测模型的模型参数进行更新。

需要说明的是，在本申请数据处理方法和数据处理装置在具体实施内容上具有相应关系，故重复内容不再说明。

图5示出了可以应用本申请实施例的数据处理方法或数据处理装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有数据处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所提交的业务申请请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；调用预测模型，确定预测模型中与各业务标识对应的分类器；将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。通过根据公积金数据的业务标识将对应的数据输入到预测模型的对应的分类器，以根据各分类器输出的模型预测概率得到对应用户的工作稳定性的评述结果的实现方案。从而相比其他一般的算法具有更高的效率以及更高的准确率，充分挖掘公积金价值字段的使用价值。

需要说明的是，本申请实施例所提供的数据处理方法一般由服务器505执行，相应地，数据处理装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、分类器确定单元、概率预测单元和数据处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备接收业务申请请求，确定对应的业务标识，提取业务申请请求对应的公积金数据的数据特征，进而从数据特征中确定各业务标识对应的数据特征；调用预测模型，确定预测模型中与各业务标识对应的分类器；将各业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；根据各模型预测概率，确定对应的工作稳定等级，以基于工作稳定等级，调用对应的策略，以对业务申请请求进行处理。

本申请的计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本申请实施例中的数据处理方法。

根据本申请实施例的技术方案，通过根据公积金数据的业务标识将对应的数据输入到预测模型的对应的分类器，以根据各分类器输出的模型预测概率得到对应用户的工作稳定性的评述结果的实现方案。从而相比其他一般的算法具有更高的效率以及更高的准确率，充分挖掘公积金价值字段的使用价值。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

接收业务申请请求，确定对应的业务标识，提取所述业务申请请求对应的公积金数据的数据特征，进而从所述数据特征中确定各所述业务标识对应的数据特征；

调用预测模型，确定所述预测模型中与各所述业务标识对应的分类器；

将所述各所述业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；

根据各所述模型预测概率，确定对应的工作稳定等级，以基于所述工作稳定等级，调用对应的策略，以对所述业务申请请求进行处理。

2.根据权利要求1所述的方法，其特征在于，在所述调用预测模型之前，所述方法还包括：

获取初始梯度提升模型；

获取训练样本数据，所述训练样本数据包括携带有用户标识和观察时点的公积金数据以及标注的模型预测概率；

将所述携带有用户标识和观察时间的公积金数据作为所述初始梯度提升模型的输入，将所述标注的对应的模型预测概率作为所述初始梯度提升模型的期望输出，调用梯度提升树算法，对所述初始梯度提升模型进行迭代训练，以得到所述预测模型。

3.根据权利要求2所述的方法，其特征在于，所述获取训练样本数据，包括：

获取企业各员工的公积金数据，对所述企业各员工的初始公积金数据进行格式化和数值字段单位的统一化，生成预处理公积金数据；

确定所述预处理公积金数据的业务标识，基于所述预处理公积金的业务标识对所述预处理公积金数据进行拆解；

4.根据权利要求2所述的方法，其特征在于，所述对所述初始梯度提升模型进行迭代训练，包括：

响应于所述期望输出与所述输入对应的标注的模型预测概率不匹配，确定当前输入初始梯度提升模型的训练样本数据的训练权重；

基于预设的训练权重等级，确定高于所述训练权重的目标训练权重，将所述训练权重更新为所述目标训练权重。

5.根据权利要求3所述的方法，其特征在于，所述得到所述预测模型，包括：

调用各所述预处理公积金数据的业务标识对应的训练样本数据分别对所述初始梯度提升模型的各决策树进行训练，进而得到训练完成的分类器；

组合各所述分类器，以得到所述预测模型。

6.根据权利要求1所述的方法，其特征在于，所述确定对应的工作稳定等级，包括：

获取所述公积金数据对应的公积金断缴数据；

基于所述公积金断缴数据确定异常用户概率，进而基于所述异常用户概率确定正常用户概率；

基于所述异常用户概率、所述正常用户概率和预设系数，确定评分分值；

基于预设的评分分值和工作稳定等级的对应关系和所述评分分值，确定对应的工作稳定等级。

7.根据权利要求2所述的方法，其特征在于，在所述得到所述预测模型之前，所述方法还包括：

获取测试样本数据和验证样本数据，根据所述测试样本数据和验证样本数据对所述预测模型的模型参数进行更新。

8.一种数据处理装置，其特征在于，包括：

接收单元，被配置成接收业务申请请求，确定对应的业务标识，提取所述业务申请请求对应的公积金数据的数据特征，进而从所述数据特征中确定各所述业务标识对应的数据特征；

分类器确定单元，被配置成调用预测模型，确定所述预测模型中与各所述业务标识对应的分类器；

概率预测单元，被配置成将所述各所述业务标识对应的数据特征输入对应的分类器，以得到对应的模型预测概率；

数据处理单元，被配置成根据各所述模型预测概率，确定对应的工作稳定等级，以基于所述工作稳定等级，调用对应的策略，以对所述业务申请请求进行处理。

9.根据权利要求8所述的装置，其特征在于，所述数据处理装置还包括训练单元，被配置成：

获取初始梯度提升模型；

10.根据权利要求9所述的装置，其特征在于，所述训练单元进一步被配置成：

11.根据权利要求9所述的装置，其特征在于，所述训练单元进一步被配置成：

12.根据权利要求10所述的装置，其特征在于，所述训练单元进一步被配置成：

组合各所述分类器，以得到所述预测模型。

13.根据权利要求8所述的装置，其特征在于，所述数据处理单元进一步被配置成：

获取所述公积金数据对应的公积金断缴数据；

14.一种数据处理电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。