CN110163713B

CN110163713B - 一种业务数据处理方法、装置以及相关设备

Info

Publication number: CN110163713B
Application number: CN201910080951.7A
Authority: CN
Inventors: 陈尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2024-08-27
Anticipated expiration: 2039-01-28
Also published as: CN110163713A

Abstract

本发明实施例公开了一种业务数据处理方法、装置以及相关设备，方法包括：从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与目标样本用户信息具有绑定关系的目标业务对象；在初始业务预测模型中获取与目标样本用户信息对应的预测业务对象；根据目标业务对象、预测业务对象、最大预测业务量确定样本奖励业务量，根据样本奖励业务量、预测业务对象和目标样本用户信息，调整初始业务预测模型；当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型。采用本发明，可以高效并准确地预测每个用户与多种业务对象之间的业务收益。

Description

一种业务数据处理方法、装置以及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种业务数据处理方法、装置以及相关设备。

背景技术

当在保证产品收益的前提下，需要向用户推荐产品时，现有技术是通过用户的用户信息，以及表示用户的产品状态是否发生变化的状态标签之间的映射关系建立概率预测模型。在使用该概率预测模型时，输入用户的用户信息，概率预测模型输出该用户的产品状态发生变化的概率。后续由该概率预测模型输出的概率以及人工决策，在保证产品收益最大化的前提下，向用户推荐相应的产品。

但只有通过长期观察用户的产品状态才能获取到每个用户的状态标签，造成携带状态标签的用户信息数量较少，进而导致携带标签的样本数据过少，基于少量的样本是无法训练得到预测准确度较高的概率预测模型。因而，导致后续向用户推荐的产品不能满足产品收益最大化的条件。同时，在现有产品推荐中，需要由人工根据产品状态发生变化的概率作出选择推荐产品的决策，导致推荐产品的效率低下。

发明内容

本发明实施例提供一种业务数据处理方法、装置以及相关设备，可以高效并准确地预测每个用户与多种业务对象之间的业务收益。

本发明实施例一方面提供了一种业务数据处理方法，包括：

从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与所述目标样本用户信息具有绑定关系的目标业务对象；

在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象；

根据所述目标业务对象、所述预测业务对象、所述最大预测业务量确定样本奖励业务量，根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型；

当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型；所述目标业务预测模型是用于预测目标用户的目标用户信息与所述多个业务对象分别对应的目标业务量。

其中，还包括：

获取多个原始用户，并获取每个原始用户的样本用户信息和原始业务对象；

获取多个单位时间段，将在每个单位时间段内具有有效生命周期的原始业务对象所对应的原始用户分别确定为样本用户，并在所述每个单位时间段内提取多个样本用户的样本用户信息，根据提取的每个单位时间段内的样本用户信息生成与所述每个单位时间段分别对应的目标业务样本集。

其中，所述在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象，包括：

将所述目标样本用户信息和每个业务对象分别组合为样本元组，并将多个样本元组均作为初始输入参数；每个样本元组均包括所述目标样本用户信息和一个业务对象；

获取所述初始业务预测模型，基于所述初始业务预测模型获取与每个初始输入参数分别对应的预测业务量，并从多个预测业务量中选择所述最大预测业务量，将所述最大预测业务量对应的初始输入参数中的业务对象确定为所述预测业务对象。

其中，所述根据所述目标业务对象、所述预测业务对象、所述最大预测业务量确定样本奖励业务量，包括：

获取所述目标样本用户所属的单位时间段，作为目标单位时间段；

获取所述目标业务对象在所述目标单位时间段内的目标业务状态，根据所述目标业务状态确定样本输出资源；

根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数；

将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量。

其中，所述根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数，包括：

若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源等于输出阈值，则根据所述目标业务对象对应的输入资源和目标权重，确定所述奖励参数；所述目标权重是根据所述目标业务对象的有效生命时长确定的；

若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源小于所述输出阈值，则将所述样本输出资源作为所述奖励参数；

若所述预测业务对象对应的输入资源大于所述目标业务对象对应的输入资源，则将目标数值作为所述奖励参数。

其中，所述根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型，包括：

获取与所述初始业务预测模型相关联的初始模型函数；

根据所述目标样本用户信息、所述预测业务对象和所述初始模型函数，生成目标拟合函数；所述目标拟合函数包括模型变量参数和辅助输入参数；所述辅助输入参数包括由所述目标样本用户信息和所述预测业务对象组合而成的元组；

根据所述样本奖励业务量和所述目标拟合函数，生成目标损失函数；

基于梯度下降规则确定所述目标拟合函数中模型变量参数的参数值，作为目标参数值；所述目标参数值是指所述目标损失函数的函数值最小时所对应的模型变量参数的取值；

将所述初始模型函数中的模型变量参数更新为所述目标参数值。

其中，还包括

获取目标用户，并获取所述目标用户的目标用户信息，将所述目标用户信息和每个业务对象分别组合为目标元组，将多个目标元组均作为目标输入参数；每个所述目标元组均包括所述目标用户信息和一个业务对象；

基于所述目标业务预测模型获取与每个目标输入参数分别对应的目标业务量，将具有最大的目标业务量的目标输入参数中的业务对象，确定为推荐业务对象。

其中，还包括：

获取多组模型超参数，在所述多组模型超参数中选择一组模型超参数，作为待确定超参数；

从所有目标业务样本集包含的样本用户中提取训练用户，将所述训练用户划分为多个用户集合，从所述用户集合中提取一个用户集合作为第一集合，其余用户集合作为第二集合；与所述训练用户的样本用户信息具有绑定关系的业务对象在具有有效生命周期的单位时间段内均具有业务状态；

根据所述待确定超参数、所述第二集合中的样本用户的样本用户信息以及与所述第二集合中的样本用户的样本用户信息具有绑定关系的业务对象，生成样本业务预测模型；所述样本业务预测模型满所述目标收敛条件；

根据所述样本业务预测模型、所述第一集合中样本用户的样本用户信息以及与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象，确定业务量误差；

当每个用户集合均被确定为所述第一集合时，将多个业务量误差的平均值作为所述待确定超参数的超参数误差；

从所述多组模型超参数中选择下一组模型超参数，作为所述待确定超参数；

当每组模型超参数均被确定为所述待确定超参数时，将超参数误差最低的待确定超参数作为目标超参数；所述目标超参数用于生成所述初始业务预测模型。

其中，所述根据所述样本业务预测模型、所述第一集合中样本用户的样本用户信息以及与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象，确定业务量误差，包括：

基于所述样本业务预测模型获取所述第一集合中样本用户的样本用户信息与所述多个业务对象分别对应的训练业务量，从多个训练业务量中将最大训练业务量确定为第一业务量，并将最大训练业务量对应的业务对象确定为第一对象；

将与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象确定为第二对象，根据所述第二对象对应的输入资源，和所述第二对象在所有单位时间段内的业务状态，确定第二业务量；

根据所述第一对象和所述第二对象确定第一误差，根据所述第一业务量和所述第二业务量确定第二误差，将第一误差和所述第二误差之和作为所述业务量误差。

其中，还包括：

当调整次数达到次数阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件；或，

当调整后的初始业务预测模型的模型变量参数和调整前的初始业务预测模型的模型变量参数之间的差异量小于差异阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件。

本发明实施例另一方面提供了一种业务数据处理方法，包括：

获取目标用户，并获取所述目标用户的目标用户信息；

获取目标业务预测模型，基于所述目标业务预测模型获取所述目标用户信息与多个业务对象分别对应的目标业务量，将目标业务量最大的业务对象确定为推荐业务对象；

所述目标业务预测模型是根据多个样本用户的样本用户信息、目标业务对象以及样本奖励业务量训练初始业务预测模型后得到的；所述样本奖励业务量是根据目标业务对象和基于所述初始业务预测模型确定的预测业务对象、最大预测业务量生成的；所述预测业务对象是在所述多个业务对象中具有所述最大预测业务量的业务对象。

其中，所述基于所述目标业务预测模型获取所述目标用户信息与多个业务对象分别对应的目标业务量，包括：

将所述目标用户信息和每个业务对象分别组合为目标元组，并获取与所述目标业务预测模型对应的目标模型函数；

根据所述目标模型函数和多个所述目标元组，生成与每个目标元组中的业务对象分别对应的目标业务量。

本发明实施例另一方面提供了一种业务数据处理装置，包括：

第一获取模块，用于从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与所述目标样本用户信息具有绑定关系的目标业务对象；

第二获取模块，用于在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象；

业务量确定模块，用于根据所述目标业务对象、所述预测业务对象、所述最大预测业务量确定样本奖励业务量；

调整模块，用于根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型；

模型确定模块，用于当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型；所述目标业务预测模型是用于预测目标用户的目标用户信息与所述多个业务对象分别对应的目标业务量。

其中，还包括：

提取模块，用于获取多个原始用户，并获取每个原始用户的样本用户信息和原始业务对象；

所述提取模块，还用于获取多个单位时间段，将在每个单位时间段内具有有效生命周期的原始业务对象所对应的原始用户分别确定为样本用户，并在所述每个单位时间段内提取多个样本用户的样本用户信息，根据提取的每个单位时间段内的样本用户信息生成与所述每个单位时间段分别对应的目标业务样本集。

其中，所述第二获取模块，包括：

第一组合单元，用于将所述目标样本用户信息和每个业务对象分别组合为样本元组，并将多个样本元组均作为初始输入参数；每个样本元组均包括所述目标样本用户信息和一个业务对象；

第一确定单元，用于获取所述初始业务预测模型，基于所述初始业务预测模型获取与每个初始输入参数分别对应的预测业务量，并从多个预测业务量中选择所述最大预测业务量，将所述最大预测业务量对应的初始输入参数中的业务对象确定为所述预测业务对象。

其中，所述业务量确定模块，包括：

第一获取单元，用于获取所述目标样本用户所属的单位时间段，作为目标单位时间段；

所述第一获取单元，还用于获取所述目标业务对象在所述目标单位时间段内的目标业务状态，根据所述目标业务状态确定样本输出资源；

奖励确定单元，用于根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数；

所述第一获取单元，还用于将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量。

其中，所述奖励确定单元，包括：

第一确定子单元，用于若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源等于输出阈值，则根据所述目标业务对象对应的输入资源和目标权重，确定所述奖励参数；所述目标权重是根据所述目标业务对象的有效生命时长确定的；

第二确定子单元，用于若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源小于所述输出阈值，则将所述样本输出资源作为所述奖励参数；

第三确定子单元，用于若所述预测业务对象对应的输入资源大于所述目标业务对象对应的输入资源，则将目标数值作为所述奖励参数。

其中，所述调整模块，包括：

第二获取单元，用于获取与所述初始业务预测模型相关联的初始模型函数；

生成单元，用于根据所述目标样本用户信息、所述预测业务对象和所述初始模型函数，生成目标拟合函数；所述目标拟合函数包括模型变量参数和辅助输入参数；所述辅助输入参数包括由所述目标样本用户信息和所述预测业务对象组合而成的元组；

所述生成单元，还用于根据所述样本奖励业务量和所述目标拟合函数，生成目标损失函数；

更新单元，用于基于梯度下降规则确定所述目标拟合函数中模型变量参数的参数值，作为目标参数值；所述目标参数值是指所述目标损失函数的函数值最小时所对应的模型变量参数的取值；

所述更新单元，还用于将所述初始模型函数中的模型变量参数更新为所述目标参数值。

其中，还包括

组合模块，用于获取目标用户，并获取所述目标用户的目标用户信息，将所述目标用户信息和每个业务对象分别组合为目标元组，将多个目标元组均作为目标输入参数；每个所述目标元组均包括所述目标用户信息和一个业务对象；

第一对象确定模块，用于基于所述目标业务预测模型获取与每个目标输入参数分别对应的目标业务量，将具有最大的目标业务量的目标输入参数中的业务对象，确定为推荐业务对象。

其中，还包括：

选择模块，用于获取多组模型超参数，在所述多组模型超参数中选择一组模型超参数，作为待确定超参数；

划分模块，用于从所有目标业务样本集包含的样本用户中提取训练用户，将所述训练用户划分为多个用户集合，从所述用户集合中提取一个用户集合作为第一集合，其余用户集合作为第二集合；与所述训练用户的样本用户信息具有绑定关系的业务对象在具有有效生命周期的单位时间段内均具有业务状态；

训练模块，用于根据所述待确定超参数、所述第二集合中的样本用户的样本用户信息以及与所述第二集合中的样本用户的样本用户信息具有绑定关系的业务对象，生成样本业务预测模型；所述样本业务预测模型满所述目标收敛条件；

生成模块，用于根据所述样本业务预测模型、所述第一集合中样本用户的样本用户信息以及与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象，确定业务量误差；

所述训练模块，还用于当每个用户集合均被确定为所述第一集合时，将多个业务量误差的平均值作为所述待确定超参数的超参数误差；

所述训练模块，还用于从所述多组模型超参数中选择下一组模型超参数，作为所述待确定超参数；

所述训练模块，还用于当每组模型超参数均被确定为所述待确定超参数时，将超参数误差最低的待确定超参数作为目标超参数；所述目标超参数用于生成所述初始业务预测模型。

其中，所述生成模块，包括：

业务量确定单元，用于基于所述样本业务预测模型获取所述第一集合中样本用户的样本用户信息与所述多个业务对象分别对应的训练业务量，从多个训练业务量中将最大训练业务量确定为第一业务量，并将最大训练业务量对应的业务对象确定为第一对象；

所述业务量确定单元，还用于将与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象确定为第二对象，根据所述第二对象对应的输入资源，和所述第二对象在所有单位时间段内的业务状态，确定第二业务量；

统计单元，用于根据所述第一对象和所述第二对象确定第一误差，根据所述第一业务量和所述第二业务量确定第二误差，将第一误差和所述第二误差之和作为所述业务量误差。

其中，还包括：

条件确定模块，用于当调整次数达到次数阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件；或，

所述条件确定模块，还用于当调整后的初始业务预测模型的模型变量参数和调整前的初始业务预测模型的模型变量参数之间的差异量小于差异阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件。

第三获取模块，用于获取目标用户，并获取所述目标用户的目标用户信息；

第三获取模块，还用于获取目标业务预测模型；

第二对象确定模块，用于基于所述目标业务预测模型获取所述目标用户信息与多个业务对象分别对应的目标业务量；

第三获取模块，还用于将目标业务量最大的业务对象确定为推荐业务对象；

其中，所述第二对象确定模块，包括：

第二组合单元，用于将所述目标用户信息和每个业务对象分别组合为目标元组，并获取与所述目标业务预测模型对应的目标模型函数；

第二确定单元，用于根据所述目标模型函数和多个所述目标元组，生成与每个目标元组中的业务对象分别对应的目标业务量。

本发明实施例另一方面提供了一种电子设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中另一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中另一方面中的方法。

本发明实施例通过从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与目标样本用户信息具有绑定关系的目标业务对象；在初始业务预测模型中获取与目标样本用户信息对应的预测业务对象；根据目标业务对象、预测业务对象、最大预测业务量确定样本奖励业务量，根据样本奖励业务量、预测业务对象和目标样本用户信息，调整初始业务预测模型；当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型。上述可知，样本数据不需要对应的状态标签就可以不断地调整业务预测模型，从而降低了样本数据的收集难度，以扩大样本数据的数量，通过大量的样本数据可以提高业务预测模型预测用户与多种业务对象之间的业务收益的准确性；同时，训练好的业务预测模型可以自动化地预测用户与多种业务对象之间的业务收益，不需要人工决策，减少人工参与，可以更高效率地确定使业务收益最大的业务对象，从而提高推荐业务对象的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种业务数据处理的系统架构图；

图2a-图2b是本发明实施例提供的一种业务数据处理的场景示意图；

图3是本发明实施例提供的一种业务数据处理方法的流程示意图；

图4是本发明实施例提供的一种构建目标业务样本集的示意图；

图5是本发明实施例提供的一种确定样本奖励业务量的流程示意图；

图6是本发明实施例提供的另一种业务数据处理方法的流程示意图；

图7是本发明实施例提供的一种业务数据处理装置的结构示意图；

图8是本发明实施例提供的另一种业务数据处理装置的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图；

图10是本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种业务数据处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接，用户终端集群可包括：用户终端10a、用户终端10b、...、用户终端10c。数据库10g中存储了多个用户的用户信息以及与每个用户信息具有绑定关系的业务对象。服务器10f从数据库中提取多个用户的用户信息以及对应的业务对象，训练业务预测模型，该业务预测模型用于预测用户信息与多种业务对象分别对应的业务收益，并将训练好的业务预测模型存储在服务器10f的本地文件中。当服务器10f接收到来自终端集群中的用户终端的收益计算请求时，基于训练好的业务预测模型计算该收益请求所请求的用户的用户信息与多种业务对象分别对应的业务收益，服务器10f将计算到的多种业务对象的业务收益发送至对应的用户终端，用户终端将最大业务收益对应的业务对象作为向用户推荐的推荐对象。当然，也可以由服务器10f将训练好的业务预测模型发送至用户终端集群中的各用户终端，由各用户终端根据业务预测模型，计算本地用户的用户信息与多种业务对象分别对应的业务收益。

由于训练业务预测模型需要大量的存储空间和强大的计算能力，因此服务器10f和存储训练数据(训练包括用户的用户信息和业务对象)的数据库10g均可以采用分布式架构，上述训练数据可以存放于HDFS(Hadoop Distributed File System，分布式文件系统)中，以提高读取训练数据的效率；训练业务预测模型时，可以将业务预测模型进行切分，得到多个业务预测模型副本，每个业务预测模型副本都采用不同的数值进行初始化，一个工作节点在数据集中随机采样后，单独优化一个业务预测模型副本。在一个迭代周期结束后，将所有的节点上的业务预测模型副本的参数进行汇合和平均，由此得到平均业务预测模型，再将平均业务预测模型下发到各个工作节点，训练过程重复，直到平均业务预测模型收敛。这种方式可以提高模型训练的精度，且服务器10f可以是Yard服务器。

采用分布式架构训练业务预测模型还可以是基于数据并行，即将所有的样本分割成多个数据块，同样将业务预测模型进行切分，得到多个业务预测模型副本。基于一个数据块中的采样数据，在一个节点上训练业务预测模型副本，将所有节点上的业务预测模型副本的参数求平均值，得到平均业务预测模型，将平均业务预测模型再下发到各个工作节点中。重复上述过程，直到平均模型收敛。

其中，如图1所示的设备10b、10c、10d等可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID，mobile internet device)、可穿戴设备(例如智能手表、智能手环等)等。

请参见图2a-图2b，是本发明实施例提供的一种业务数据处理的场景示意图。下述实施例以向用户推荐保险产品，以最大化保险公司的收益为例进行说明。如图2a所示，获取多个样本用户，并获取每个样本用户的用户信息，用户信息可以包括：用户的年龄、用户的性别、用户的生活区域、用户的职业、用户的网络浏览数据等，其中用户信息中的属性可以使用数值形式进行表示，例如，将性别中的男或者女，用数值0或者数值1来表示。再获取与每个样本用户对应的已知业务对象，在推荐保险产品的应用场景下，业务对象是指不同的保险产品，已知业务对象就是指该用户实际购买的保险产品。

获取神经网络模型20a，并初始化该神经网络模型20a中的模型参数W1和W2，其中W1是输入层和隐藏层之间的连接权重矩阵，W2是隐藏层和输出层之间的连接权重矩阵。下述以一个样本用户的用户信息和该样本用户的已知业务对象调整一次神经网络模型20a中的模型参数W1和W2为例进行说明，其余的样本数据都可以按照相同的方式不断地调整神经网络模型20a中的模型参数W1和W2，直至调整的次数达到次数阈值，说明该神经网络模型20a满足收敛条件，那么可以将满足收敛条件的神经网络模型20a作为业务预测模型。需要说明的，上述是采用神经网络模型来进行训练得到业务预测模型，还可以采用其他具有预测功能的回归模型(例如，线性回归模型、逻辑回归模型、岭回归模型等)来进行训练以得到业务预测模型。

假设需要预测保险收益的业务对象(保险产品)有3种(分别为保险产品a1、保险产品a2和保险产品a3)，将用户信息和3种业务对象分别组合为3个输入向量X，将每个输入向量X分别输入神经网络模型20a中，神经网络模型20a可以输出与输出向量X中业务对象对应的保险收益。在上述获取到的3个保险收益中，将最大的保险收益作为最大预测业务量，并将最大预测业务量对应的输入向量X中的业务对象(保险产品)作为预测业务对象。获取已知业务对象的出险状态。由最大预测业务量、预测业务对象、已知业务对象和出险状态，确定目标业务量Y，其中目标业务量Y就是后续损失函数中的目标值。将用户信息和预测业务对象组合为代入向量A，并代入神经网络模型20a对应的函数表达式中，代入后可以得到关于模型参数W1和W2的拟合函数：(AW1)W2(该拟合函数中代入向量A是已知的，模型参数W1和W2和未知的)，由当前的目标业务量Y和上述拟合函数，可以确定损失函数为：Loss＝(Y-(AW₁)W₂)²(该损失损失中，代入向量A和目标业务量Y是已知的，模型参数W1和W2和未知的)。采用梯度下降算法计算模型参数W1和W2的取值，使得当前损失函数的函数值最小，也就是计算当(AW₁)W₂和目标业务量Y最接近时，模型参数W1和W2的取值。这样就完成了对神经网络模型20a中模型参数W1和W2的一次更新。为了迭代更新神经网络模型20a中的模型参数，可以将上述更新后神经网络模型20a又作为神经网络模型，后续可以在新的神经网络模型(模型参数W1和W2更新后的模型)基础上，利用其它样本用户的用户信息和对应的已知业务对象不断地更新神经网络模型20a的模型参数。

多次迭代更新后，将最后一次迭代更新后的神经网络模型20a确定为业务预测模型20a。如图2b所示，当终端需要计算用户20b与上述3种业务对象(保险产品a1、保险产品a2和保险产品a3)分别对应的保险收益时，终端将与用户20b相关联的用户信息20c发送至服务器。服务器将获取到的用户信息20c和每种业务对象组合后分别输入业务预测模型20a中。基于业务预测模型20a对应的模型函数，可以确定用户信息20c与每种业务对象分别对应的保险收益。将确定的3个保险收益和每个保险收益对应的保险产品组合成收益向量20d：[8.2a1，6.3a2，9.3a3]，其中，ai表示一种保险产品(业务对象)；“8.2a1”就表示用户20b若购买保险产品a1保险公司对应的收益是8.2。服务器可以将收益向量20d直接发送至终端；或者，服务器可以将最大保险收益对应的保险产品a3发送至终端，保险产品a3即是向用户推荐购买的保险产品。

其中，计算样本奖励业务量(如上述图2a所对应实施例中目标业务量Y)、调整模型(如上述图2a所对应实施例中神经网络模型20a的模型参数W1和W2)的具体过程可以参见以下图3至图5所对应的实施例。

进一步地，请参见图3，是本发明实施例提供的一种业务数据处理方法的流程示意图。如图3所示，业务数据处理方法可以包括：

步骤S101，从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与所述目标样本用户信息具有绑定关系的目标业务对象。

具体的，终端(如上述图1所对应实施例中的服务器10f)获取目标业务样本集，从目标业务样本集中提取样本用户作为目标样本用户，并在目标业务样本集中获取该目标样本用户的样本用户信息(称为目标样本用户信息)。终端在目标业务样本集中获取与目标样本用户信息具有绑定关系的业务对象(称为目标业务对象，如上述图2a所对应实施例中的已知业务对象)。若以向用户推荐保险产品为例，业务对象可以是保险产品的，不同价格的保险产品可以认为是不同的业务对象，可以将“拒保”也可以当做是一种保险产品，与目标样本用户信息具有绑定关系的目标业务对象就是指目标样本用户真实购买的保险产品。用户信息可以包括：用户的年龄、用户的性别、用户的生活区域、用户的职业、用户的网络浏览数据等。

其中目标业务样本集中包括多个样本用户，以及每个样本用户分别对应的样本用户信息和具有绑定关系的业务对象，同时，目标业务样本集中的每个样本用户和每个样本用户信息都是具有时间段标识的，该时间段标识是用于表示在对应时间段内，该样本用户是有效用户，该样本用户信息是有效用户信息，是否为有效用户信息是由与该样本用户信息绑定的业务对象在对应时间段内是否具有有效生命周期决定的。

举例来说，以月为单位，每一个月都对应一个目标业务样本集，对于购买一年期保险产品A的用户B来说，在这一年期的12个月内，由于用户B购买的保险产品A都是具有有效生命周期(也可以理解为在有效期内)的，因此在12个月内，用户B的用户信息都是有效用户信息，即在12个目标业务样本集中，都存在用户B和用户B的用户信息。再例如，购买半年期保险产品C的用户D来说，保险产品C只有6个月是具有有效生命周期的，因此在上述12个目标业务样本集中，只有6个目标业务样本集中存在用户D和用户D的用户信息。

可选的，下面对如何构建目标业务样本集进行说明。终端获取多个原始用户，并获取多个原始用户的用户信息(称为样本用户信息)以及，与每个原始用户具有绑定关系的的业务对象(称为原始业务对象)，其中每个原始业务对象还携带了该绑定关系所具有有效生命周期的具体时间信息。以保险为例，原始业务对象是指原始用户实际购买的保险产品，有效生命周期的时间信息是指实际购买的保险产品的有效时间信息，例如，一年期(1月-12月)的保险产品具有有效生命周期的时间信息是指1月至12月。终端获取多个预设的单位时间段(例如，1月为一个时间段，2月为一个时间段等)。对一个单位时间段来说，终端将在该单位时间段内具有有效生命周期的原始业务对象对应的原始用户作为样本用户，将该单位时间段内样本用户的样本用户信息和对应的原始业务对象组合为目标业务样本集。对每个单位时间段来说，都可以确定每个单位时间段内的样本用户信息和各自对应的原始业务对象，进而确定与每个单位时间段对应的目标业务样本集。可以知道，同一个样本用户的样本用户信息可以存在于多个目标业务样本集中，且同一个样本用户的样本用户信息存在于目标业务样本集的数量是由该样本用户的原始业务对象的有效生命周期的时间信息确定的。需要注意的是，多种保险产品中存在一次性保险产品，即在有效期内只赔付一次，对一次性保险来说，若在有效期内没有进行赔付，那么该保险产品具有有效生命周期的时间信息就由保单的起始时间和截止时间决定；若在有效期内进行了赔付，那么该保险产品具有有效生命周期的时间信息就由保单的起始时间和赔付时间决定。

请参见图4，是本发明实施例提供的一种构建目标业务样本集的示意图。如图4所示，现有4个原始用户以及对应的原始业务对象：与用户A具有绑定关系是业务对象A，且上述业务对象A的具有效生命周期的时间信息是1月-3月；与用户B具有绑定关系是业务对象B，且该业务对象B具有有效生命周期的时间信息是1月-2月；与用户C具有绑定关系是业务对象C，且该业务对象C具有有效生命周期的时间信息是1月-3月；与用户D具有绑定关系是业务对象D，且该业务对象D具有有效生命周期的时间信息是1月。若单位时间段为1月、2月和3月。对1月所对应的目标业务样本集来说，上述4个用户对应的业务对象均是具有有效生命周期的，因此4个用户以及各自的用户信息、业务对象可以组合为目标业务样本集30a；对2月所对应的目标业务样本集来说，用户D对应的业务对象D已经不具有的有效生命周期了，因此用户A、用户B和用户C以及各自的用户信息、业务对象可以组合为目标业务样本集30b；对3月所对应的目标业务样本集来说，用户D对应的业务对象D和用户B对应的业务对象B都是不具有的有效生命周期的，因此剩余的用户A和用户C以及各自的用户信息、业务对象可以组合为目标业务样本集30c。

采用多个单位时间段确定目标业务样本集的方式，可以覆盖不同有效时长(具有有效生命周期的时间信息不同)的业务对象，进而使更多的数据可以作为样本参与后续的模型训练；同时，不仅可以将对那些业务对象的有效期已经截止的样本用户，作为样本数据参与模型的训练；对那些业务对象的效期还没有截至的样本用户，同样可以作为样本数据参与模型训练，从保险的场景来说，就是保单已到期的数据可以用来训练模型，保单还未到期的数据同样可以用来训练模型。

还需要说明的是，构建了多个目标业务样本集后，且每个目标业务样本集都是具有时间段标识的，终端可以按照时间先后顺序，依次在目标业务样本集中提取目标样本用户和对应的目标样本用户、目标业务对象用于训练模型，例如，先处理一月对应的目标业务样本集、然后处理二月对应的目标业务样本集。按照时间的先后顺序，这样可以使模型学习到数据的时序变化特征，进而使模型具有更好的鲁棒性。同时，对每一个目标业务样本集来说，终端可以让所有的数据都参与模型的训练，也可以随机抽样部分数据参与模型的训练。若是随机抽样部分数据参数模型训练，可以避免模型出现过拟合现象，这是因为同一个数据可以出现在多个目标业务样本集中，因此数据之间的相关性较大，若采用随机抽样的方法，可以消除这种相关性，进而避免模型出现过拟合的情况。

步骤S102，在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象。

具体的，终端获取具有预测功能的模型，称为初始业务预测模型(如上述图2a对应实施例中神经网络模型20a)，并初始化初始业务预测模型中的模型变量参数的取值(如上述图2a对应实施例中的模型参数W1和W2)，该初始业务预测模型是用于预测用户信息与多种业务对象分别对应的业务量(业务收益)。具有预测功能的模型可以包括：BP(BackPropagation，反向传播)神经网络模型、卷积神经网络模型、各种回归模型(例如，线性回归模型、逻辑回归模型)等。不同的初始业务预测模型所对应的模型函数(称为初始模型函数)不相同，例如，BP神经网络模型所对应的初始模型函数为：H＝g*(Wn*...*g(W2*(g(W1*X+b1))+b2)+...+bn)，其中，Wi表示bp神经网络模型中各层(输入层、隐藏层、输出层)之间的连接权重矩阵，bi表示每层的偏移项(也可以将X称为初始模型函数的输入参数，Wi和bi称为初始模型函数的模型变量参数)，函数g(·)是bp神经网络中的激活函数，激活函数可以是Sgn阶跃函数、Sigmoid函数、Tanh函数等。又例如，线性回归模型所对应的初始模型函数为可以为：Y＝h_θ(X)＝θ^TX，其中，X是初始模型函数中的输入参数，θ是初始模型函数中的模型变量参数。为了统一，初始业务预测模型对应的初始模型函数可以表示为：其中，x表示样本用户信息，α表示业务对象，W表示模型变量参数。

终端获取多个业务对象(业务对象可以用α表示，α_i表示第i种业务对象)，将目标样本用户信息(目标样本用户信息可以用x_i表示)和每个业务对象α分别组合为元组(称为样本元组)，也就是说每个样本元组中都包含目标样本用户信息和一个业务对象。对一个样本元组来说，终端将该样本元组作为初始业务预测模型对应的初始模型函数的输入参数(称为初始输入参数)，并将该初始输入参数输入初始业务预测模型中(也可以理解为将该初始输入参数代入初始模型函数中)，由于初始输入参数中包含的是目标样本用户信息和一个业务对象，因此可以将上述目标样本用户信息x_i和业务对象α组合为向量输入初始业务预测模型中。终端从初始业务预测模型中可以获取与该样本元组对应的预测业务量，也就是获取与该样本元组中业务对象对应的预测业务量。对每个样本元组来说，都可以作为初始输入参数并分别输入初始业务预测模型中，初始业务预测模型可以获取与每个业务对象分别对应的预测业务量。从获得的多个预测业务量中，终端将最大的预测业务量确定为最大预测业务量(最大预测业务量可以表示为并将最大的预测业务量对应的样本元组中的业务对象确定的预测业务对象(预测业务对象可以表示为

步骤S103，根据所述目标业务对象、所述预测业务对象、所述最大预测业务量确定样本奖励业务量；

具体的，由于目标样本用户和目标样本用户信息是具有时间段标识的，终端获取在目标样本用户所具有时间段标识所指示的单位时间段内，目标业务对象的的目标业务状态。终端根据获取的目标业务状态、目标业务对象以及由初始业务预测模型确定的预测业务对象α_i，可以确定奖励参数r。将确定的奖励参数r和初始业务预测模型确定的最大预测业务量之和，作为样本奖励业务量y(如上述图2a所对应实施例中的目标业务量Y)，该样本奖励业务量y是具有目标值属性的，目标值属性是用于标识该样本奖励业务量y是后续损失函数中的目标取值(或者称为真实值，Target)。也可以理解为样本奖励业务量y是由模型输出的最大预测业务量和当前获得的奖励参数r确定的。

仍以保险为例，目标业务状态就是用于标识在目标样本用户所属的单位时间段内，保险产品是否出险。可以知道，若保险产品出险了，奖励参数r为非正数(在保险公司的角度来说出险说明赔钱了，为了和收益进行统一，赔钱当做负收益)；若保险产品没有出险，奖励参数r为非负数。需要说明的是，可以将“拒保”当做一种特殊的保险产品，该保险产品的价格为正无穷大。

步骤S104，根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型。

具体的，确定了具有目标值属性的样本奖励业务量y后，终端可以构建损失函数，该损失函数用于更新初始业务预测模型中的模型变量参数的取值。终端获取与初始业务预测模型相关联的初始模型函数将目标样本用户信息x_i和预测业务对象α_i同样地组合为元组，并将组合的元组作为输入参数代入初始模型函数中，可以得到目标拟合函数目标拟合函数包括模型变量参数W和辅助输入参数(x_i,α_i)，且上述由目标样本用户信息x_i和预测业务对象α_i组合而成的元组就是辅助输入参数。此处的辅助输入参数(x_i,α_i)是已知的，模型变量参数W是未知的，因此目标拟合函数实际上就是关于模型变量参数W的表达式。终端将样本奖励业务量y和目标拟合函数之差的平方作为目标损失函数，因此目标损失函数可以表示为：其中y表示样本奖励业务量，x_i表示目标样本用户信息，α_i表示预测业务对象，W表示模型变量参数。

终端可以采用梯度下降规则，计算当目标损失函数的函数值最小时，上述目标损失函数中的模型变量参数W的取值(称为目标参数值)；或者可以理解为，当目标拟合函数的函数值和样本奖励业务量y最接近时，目标拟合函数中的模型变量参数W的取值。梯度下降规则同样是通过一步步的迭代求解，得到最小化的目标损失函数。梯度下降就是选择坡度变化率最大的方向，这个方向就是目标损失函数在这一点梯度的反方向。每迭代一次，都要重新计算目标损失函数在当前点的梯度，然后选择梯度的反方向作为梯度下降的方向。随着不断地迭代，梯度不断地减小，到最后减小为零。其中，梯度下降规则中的学习率用于控制每一次迭代的距离，以保证收敛的速度以及防止错过最低点。梯度下降的数学表达式为：其中，n表示学习率或者学习步长，W^k表示模型变量参数W第k次迭代的取值。

以目标损失函数单变量函数为例，L(W)＝W²，通过梯度下降规则计算目标损失函数的最小值，该函数的微分是：L'(W)＝2W，初始化W⁰＝1(第一次迭代初始化模型变量参数W＝1)，学习率n为0.4，根据梯度下降的数学表达式，可以得到基于梯度下降规则的3次迭代过程为：W⁰＝1,W¹＝W⁰-n*L'(W⁰)＝1-0.4*2＝0.2,W²＝W¹-n*L'(W¹)＝0.04,W³＝0.008，当迭代3次时，基本达到目标损失函数的最小值，此时W＝0.008。

步骤S105，当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型；所述目标业务预测模型是用于预测目标用户的目标用户信息与所述多个业务对象分别对应的目标业务量。

具体的，终端确定了目标拟合函数中的模型变量参数W的取值(目标参数值)后，将初始模型函数中的模型变量参数W的取值更新为目标参数值。这样就完成了对初始模型函数中的模型变量参数W的一次更新。

终端继续将模型变量参数W更新后的初始业务预测模型再次确定为初始业务预测模型(这就相当于前述中的对初始业务预测模型进行初始化)，再次从目标业务样本集中提取目标样本用户和目标样本用户信息，并在新的初始业务预测模型的基础上，继续更新初始业务预测模型对应的模型变量参数W。当调整次数达到次数阈值时，或者模型变量参数W收敛时，说明最后一次更新的初始业务预测模型满足目标收敛条件，模型变量参数W收敛的意思是说两次连续调整初始业务预测模型所确定的模型变量参数W的取值之间的差异量(变化量)小于差异阈值，也可以理解为调整后的初始业务预测模型的模型变量参数Wⁿ和调整前的初始业务预测模型的模型变量参数W^n-1之间的差异量小于预设的差异阈值。

终端将最后一次更新的(达到目标收敛条件的)初始业务预测模型确定为目标业务预测模型，可以知道，和训练过程类似，目标业务预测模型可以确定目标用户的目标用户信息和多种业务对象分别对应的目标业务量，即是将目标用户信息和多种业务对象分别输入目标业务预测模型中，目标业务预测模型可以输出与每种业务对象分别对应的目标业务量。

可选的，终端获取待预测的用户，称为目标用户(如上述图2b所对应实施例中的用户20b)，并获取该目标用户的目标用户信息(如上述图2b所对应实施例中的用户信息20c)，和样本用户信息类似，目标用户信息可以包括用户的年龄、用户的性别、用户的生活区域、用户的职业、用户的网络浏览数据等。终端将目标用户信息和多种待预测的业务对象分别组合为目标元组，每个目标元组包括目标用户信息和一个业务对象。终端将每个目标元组作为目标业务预测模型对应的输入参数(称为目标输入参数)，并输入目标业务预测模型中，或者可以理解为将目标输入参数代入目标业务预测模型对应的目标模型函数中。基于目标业务预测模型预测与每个目标输入参数分别对应的目标业务量，每个目标输入参数都存在与之对应的目标业务量，将最大的目标业务量对应的目标输入参数中的业务对象确定为推荐业务对象(如上述图2b实施例中的保险产品a3)，还可以将最大的目标业务量确定为推荐业务收益。

请参见图5，是本发明实施例提供的一种确定样本奖励业务量的流程示意图。如图5所示，确定样本奖励业务量的具体过程包括如下步骤S201-步骤S204，且步骤S201-步骤S204为图3所对应实施例中步骤S103的一个具体实施例：

步骤S201，获取所述目标样本用户所属的单位时间段，作为目标单位时间段。

具体的，目标样本用户和目标样本用户信息都是具有时间段标识的，终端获取目标样本用户所属时间段标识所指示的单位时间段，并将获取到的单位时间段作为目标单位时间段。

步骤S202，获取所述目标业务对象在所述目标单位时间段内的目标业务状态，根据所述目标业务状态确定样本输出资源。

具体的，终端获取在目标单位时间段内目标业务对象的目标业务状态，根据获取到的目标业务状态确定样本输出资源。仍以保险为例，目标业务状态是用于标识在目标单位时间段内，实际购买的保险产品(目标业务对象)是否出险。若在目标单位时间段内，出险了，那么样本输出资源就是保险公司赔付的金额；若在目标单位时间段内，没有出险，那么样本输出资源就等于0。为了和业务收益进行统一，赔付金额可以用负数来表示。

步骤S203，根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数。

具体的，与样本输出资源对应的是输入资源，仍以保险为例，输入资源是指保险公司的保费收入，也是用户购买保险产品所支付的费用。

若预测业务对象对应的输入资源小于或等于目标业务对象对应的输入资源，且样本输出资源等于预设的输出阈值(输出阈值可以等于0，也就是说未出险)，那么终端将目标业务对象对应的输入资源乘以目标权重，可以得到奖励参数r(可以知道，此时的奖励参数r为正数)。目标权重是终端根据目标业务对象所具有有效生命时长确定的。举例来说，若以月为单位时间段构建的目标业务样本集，且用户B购买了一年期的保险产品C，那么有效生命时长是12个月，因此目标权重就等于1/12，也就是每个月的奖励参数就等于全年用户B支付保费的1/12，采用这种方式，这样可以和目标业务样本集的单位时间段进行统一。上述过程在保险场景下可以理解为：若初始业务预测模型推荐的保险产品的价格要小于或等于用户实际购买的保险产品的价格，且用户实际购买的保险产品并没有出险，那么奖励参数r就等于用户实际购买的保险产品所支付的保费乘以目标权重。

若预测业务对象对应的输入资源小于或等于目标业务对象对应的输入资源，且样本输出资源小于预设的输出阈值(输出阈值可以等于0，也就是说出险了)，那么终端直接将样本输出资源确定为奖励参数r(可以知道，此时的样本奖励业务量r为负数)。上述过程在保险场景下可以理解为：若初始业务预测模型推荐的保险产品的价格要小于或等于用户实际购买的保险产品的价格，且用户实际购买的保险产品出险了，那么奖励参数r就等于保险公司支付的赔付金额(奖励参数r等于样本输出资源)。

若预测业务对象对应的输入资源大于目标业务对象对应的输入资源，那么终端将目标数值作为奖励参数r，目标数值可以等于0。上述过程在保险场景下可以理解为：若初始业务预测模型推荐的保险产品的价格要大于用户实际购买的保险产品的价格，那么奖励参数等于目标数值。需要说明的是，前述中将“拒保”也看做是一种保险价格为正无穷大的保险产品，因此若初始业务预测模型推荐的保险产品是“拒保”，那么此时奖励参数r就等于目标数值。

步骤S204，将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量。

具体的，将奖励参数r和初始业务预测模型确定的最大预测业务量之和作为样本奖励业务量。

可选的，无论初始业务预测模型是bp神经网络模型、卷积神经网络模型或者各种回归模型，终端都需要提前设置初始业务预测模型的超参数，超参数可以由人工根据以往的经验来设置的，但这样会造成不同的超参数训练出来的目标业务预测模型的效果差异较大。

为了提高初始业务预测模型的泛化能力，终端可以采用交叉验证(Cross-validation)来提前确定初始业务预测模型的超参数。交叉验证就是在一组超参数下，终端将样本数据划分为K个集合，K-1个集合当做训练集合在上述超参数下训练初始业务预测模型，剩余的一个集合当做测试集合用于测试上述训练好的初始业务预测模型的业务量误差，当K个集合中的每一个集合都被当做了测试集合，可以得到K个误差，终端将K个误差的平均值作为当前一组超参数的误差。上述是得到一组超参数的误差，采用同样的方式，终端可以得到多组不同超参数的误差。将误差最小的那一组超参数作为初始业务预测模型的超参数。这样就可以在训练初始业务预测模型之前，确定误差较小的模型超参数。

交叉验证确定初始业务预测模型的模型超参数的具体过程为：预设多组初始业务预测模型的模型超参数，超参数可以包括：梯度下降中的学习率n，梯度下降中的迭代次数，初始业务预测模型满足目标收敛条件时的迭代次数等。在多组模型超参数中选择一组模型超参数，作为待确定超参数。对每个样本用户来说，终端查询与该样本用户具有绑定关系的业务对象在具有有效生命周期的时间段内是否均具有业务状态，若均具有业务状态，说明该样本用户是训练用户；若只在部分时间段内具有部分业务状态，说明该样本用户不是训练用户。在保险的场景下可以理解为，对那些购买的保险产品已过期的样本用户(即是在保单有效期内是否出险是已知的)，是训练用户；对那些购买的保险产品未过期的样本用户(即是在保单有效期内是否出险是未知的，或者说是该保单还没有达到截止日期)，不是训练用户。每个样本用户都可以采用该方式判断是否为训练用户，将多个训练用户划分多个用户集合，从所有用户集合中提取一个用户集合作为第一集合，其余的用户集合作为第二集合，也就是说，只有已到期的保单可以参与交叉验证。

同样地，终端根据第二集合中样本用户(第二集合中的样本用户必然是训练用户)和样本用户信息生成多个目标业务样本集，在待确定超参数的条件下，根据第二集合中的样本用户信息以及与第二集合中的样本用户的样本用户信息具有绑定关系的业务对象，迭代训练初始业务预测模型，当多次迭代后的初始业务预测模型满足目标收敛条件时，将最后一次迭代的初始业务预测模型确定为样本业务预测模型(训练初始业务预测模型以得到满足目标收敛条件的样本业务预测模型的具体过程，可以参数上述图3所对应实施例中对步骤S101-步骤S105的具体描述)。

终端将第一集合中的样本用户用来作测试，对第一集合中的一个样本用户来说，将上述样本用户(第一集合中的一个样本用户)的样本用户信息和多种业务对象作为输入参数，输入样本业务预测模型中，在样本业务预测模型中获取样本用户信息与多种业务对象分别对应的训练业务量，将最大的训练业务量确定为第一业务量，并将最大的训练业务量对应的业务对象作为第一对象。对应地，终端将与该样本用户的样本用户信息具有绑定关系的业务对象作为第二对象，根据第二对象对应的输入资源，以及第二对象在所有单位时间段内的业务状态，确定第二业务量。例如，若用户A购买了保险产品B，若在保期内，没有出险，那么第二业务量就等于用户A购买了保险产品B所支付的金额；若在保期内，出险了，那么第二业务量就等于赔付金额。根据第一对象和第二对象可以计算出第一误差，根据第一业务量和第二业务量可以计算出第二误差，对第一集合中的每个样本用户，都可以计算出与之对应第一误差和第二误差，终端将第一集合中的每个样本用户的第一误差和第二误差之和作为业务量误差。

按照上述方式，终端可以分别将每个用户集合作为第一集合，再计算与每个第一集合对应的业务量误差。将多个业务量误差的平均值作为当前待确定超参数的超参数误差。这样就确定了一组模型超参数的超参数误差。终端从多组模型超参数中继续选择下一组模型超参数，作为待确定超参数，继续计算该待确定超参数的超参数误差。当每组模型超参数都被确定为待确定超参数时，将超参数误差最低的待确定超参数作为目标超参数。后续可以基于该目标超参数训练初始业务预测模型，也就是再基于目标超参数在所有的样本用户中，训练初始业务预测模型(此时就不需要在所有样本用户中选择出训练用户)。采用交叉验证，就可以保证后续训练初始业务预测模型时，模型超参数取值的合理性。

请参见图6，是本发明实施例提供的另一种业务数据处理方法的流程示意图，如图6所示，该业务数据处理方法的具体过程可以包括如下步骤：

步骤S301，获取目标用户，并获取所述目标用户的目标用户信息。

具体的，服务器(如上述图1所对应实施例中的服务器10f)从用户终端中获取待预测的目标用户，并获取该目标用户的目标用户信息。和样本用户信息类似，目标用户信息可以包括：用户的年龄、用户的性别、用户的生活区域、用户的职业、用户的网络浏览数据等。

步骤S302，获取目标业务预测模型，基于所述目标业务预测模型获取所述目标用户信息与多个业务对象分别对应的目标业务量，将目标业务量最大的业务对象确定为推荐业务对象；所述目标业务预测模型是根据多个样本用户的样本用户信息、目标业务对象以及样本奖励业务量训练初始业务预测模型后得到的；所述样本奖励业务量是根据目标业务对象和基于所述初始业务预测模型确定的预测业务对象、最大预测业务量生成的；所述预测业务对象是在所述多个业务对象中具有所述最大预测业务量的业务对象。

具体的，服务器获取已经训练好的目标业务预测模型对应的目标模型函数，服务器获取多种业务对象，下述以业务对象1为例进行说明。服务器将目标用户信息和业务对象1组合为目标元组，可以知道，一个目标元组中包括目标用户信息和一个业务对象，服务器将该目标元组作为目标模型函数的输入参数输入目标业务预测模型中，也可以理解为将该目标元组中的目标用户信息和业务对象1组合为向量代入目标模型函数中，可以得到目标业务量1，将该目标业务量1作为与目标用户信息和该目标元组中业务对象1对应的目标业务量1。那么，对其余的业务对象都可以采用相同的方式先组合为目标元组，然后基于目标业务预测模型确定与每个目标元组中的业务对象1对应的目标业务量1(根据业务对象2可以确定目标业务量2，根据业务对象3可以确定目标业务量3)。服务器可以将最大目标业务量对应的目标元组中的业务对象作为推荐业务对象(如上述图2b实施例中的保险产品a3)，并将最大目标业务量作为推荐业务收益。后续服务器可以将确定的推荐业务对象发送至用户终端。

其中，目标业务预测模型是通过对初始业务预测模型的多次迭代更新后确定的，每次迭代更新的具体过程为：服务器将目标样本用户信息和多种业务对象分别作为初始业务预测模型的输入参数输入初始业务预测模型中，基于初始业务预测模型获取目标样本用户信息和每种业务对象分别对应的预测业务量，将最大的预测业务量作为最大预测业务量，将最大预测业务量对应的业务对象作为预测业务对象。服务器根据与目标样本用户信息具有绑定关系的目标业务对象、目标业务对象的目标业务状态、初始业务预测模型确定的预测业务对象，确定奖励参数，服务器将奖励参数和初始业务预测模型确定的最大预测业务量之和作为样本奖励业务量。

服务器采用梯度下降规则，计算初始业务预测模型中的模型变量参数的取值，使得当向模型输入目标样本用户信息和预测业务对象时，初始业务预测模型的输出和样本奖励业务量尽量相同。这样就完成了对初始业务预测模型中模型变量参数的一次迭代更新。后续服务器又基于新的初始业务预测模型再次进行迭代更新，直至初始业务预测模型的迭代更新次数达到次数阈值，或者调整前后模型变量参数的差异量小于差异阈值时，说明此时的初始业务预测模型满足目标收敛条件，将此时的初始业务预测模型确定为目标业务预测模型。

进一步的，请参见图7，是本发明实施例提供的一种业务数据处理装置1的结构示意图。如图7所示，业务数据处理装置1可以应用于上述图3-图5对应实施例中的终端，业务数据处理装置1可以包括：第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14和模型确定模块15。

第一获取模块11，用于从目标业务样本集中获取目标样本用户的目标样本用户信息，并获取与所述目标样本用户信息具有绑定关系的目标业务对象；

第二获取模块12，用于在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象；

业务量确定模块13，用于根据所述目标业务对象、所述预测业务对象、所述最大预测业务量确定样本奖励业务量；

调整模块14，用于根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型；

模型确定模块15，用于当调整后的初始业务预测模型满足目标收敛条件时，将调整后的初始业务预测模型确定为目标业务预测模型；所述目标业务预测模型是用于预测目标用户的目标用户信息与所述多个业务对象分别对应的目标业务量。

其中，第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14和模型确定模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

请参见图7，业务数据处理装置1可以包括第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14、模型确定模块15，还可以包括：提取模块16。

提取模块16，用于获取多个原始用户，并获取每个原始用户的样本用户信息和原始业务对象；

所述提取模块16，还用于获取多个单位时间段，将在每个单位时间段内具有有效生命周期的原始业务对象所对应的原始用户分别确定为样本用户，并在所述每个单位时间段内提取多个样本用户的样本用户信息，根据提取的每个单位时间段内的样本用户信息生成与所述每个单位时间段分别对应的目标业务样本集。

其中，提取模块16的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

请参见图7，第二获取模块12可以包括：第一组合单元121、第一确定单元122。

第一组合单元121，用于将所述目标样本用户信息和每个业务对象分别组合为样本元组，并将多个样本元组均作为初始输入参数；每个样本元组均包括所述目标样本用户信息和一个业务对象；

第一确定单元122，用于获取所述初始业务预测模型，基于所述初始业务预测模型获取与每个初始输入参数分别对应的预测业务量，并从多个预测业务量中选择所述最大预测业务量，将所述最大预测业务量对应的初始输入参数中的业务对象确定为所述预测业务对象。

其中，第一组合单元121、第一确定单元122的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

请参见图7，业务量确定模块13可以包括：第一获取单元131、奖励确定单元132。

第一获取单元131，用于获取所述目标样本用户所属的单位时间段，作为目标单位时间段；

所述第一获取单元131，还用于获取所述目标业务对象在所述目标单位时间段内的目标业务状态，根据所述目标业务状态确定样本输出资源；

奖励确定单元132，用于根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数；

所述第一获取单元131，还用于将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量。

其中，第一获取单元131、奖励确定单元132的具体功能实现方式可以参见上述图5对应实施例中的步骤S201-步骤S204，这里不再进行赘述。

请参见图7，奖励确定单元132可以包括：第一确定子单元1321、第二确定子单元1322、第三确定子单元1323。

第一确定子单元1321，用于若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源等于输出阈值，则根据所述目标业务对象对应的输入资源和目标权重，确定所述奖励参数；所述目标权重是根据所述目标业务对象的有效生命时长确定的；

第二确定子单元1322，用于若所述预测业务对象对应的输入资源小于或等于所述目标业务对象对应的输入资源，且所述样本输出资源小于所述输出阈值，则将所述样本输出资源作为所述奖励参数；

第三确定子单元1323，用于若所述预测业务对象对应的输入资源大于所述目标业务对象对应的输入资源，则将目标数值作为所述奖励参数。

其中，第一确定子单元1321、第二确定子单元1322、第三确定子单元1323的具体功能实现方式可以参见上述图5对应实施例中的步骤S203，这里不再进行赘述。

请参见图7，调整模块14可以包括：第二获取单元141、生成单元142、更新单元143。

第二获取单元141，用于获取与所述初始业务预测模型相关联的初始模型函数；

生成单元142，用于根据所述目标样本用户信息、所述预测业务对象和所述初始模型函数，生成目标拟合函数；所述目标拟合函数包括模型变量参数和辅助输入参数；所述辅助输入参数包括由所述目标样本用户信息和所述预测业务对象组合而成的元组；

所述生成单元142，还用于根据所述样本奖励业务量和所述目标拟合函数，生成目标损失函数；

更新单元143，用于基于梯度下降规则确定所述目标拟合函数中模型变量参数的参数值，作为目标参数值；所述目标参数值是指所述目标损失函数的函数值最小时所对应的模型变量参数的取值；

所述更新单元143，还用于将所述初始模型函数中的模型变量参数更新为所述目标参数值。

其中，第二获取单元141、生成单元142、更新单元143的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

请参见图7，业务数据处理装置1可以包括第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14、模型确定模块15、提取模块16，还可以包括：组合模块17、第一对象确定模块18。

组合模块17，用于获取目标用户，并获取所述目标用户的目标用户信息，将所述目标用户信息和每个业务对象分别组合为目标元组，将多个目标元组均作为目标输入参数；每个所述目标元组均包括所述目标用户信息和一个业务对象；

第一对象确定模块18，用于基于所述目标业务预测模型获取与每个目标输入参数分别对应的目标业务量，将具有最大的目标业务量的目标输入参数中的业务对象，确定为推荐业务对象。

其中，组合模块17、第一对象确定模块18的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

请参见图7，业务数据处理装置1可以包括第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14、模型确定模块15、提取模块16、组合模块17、第一对象确定模块18，还可以包括：选择模块19、划分模块20、训练模块21、生成模块22。

选择模块19，用于获取多组模型超参数，在所述多组模型超参数中选择一组模型超参数，作为待确定超参数；

划分模块20，用于从所有目标业务样本集包含的样本用户中提取训练用户，将所述训练用户划分为多个用户集合，从所述用户集合中提取一个用户集合作为第一集合，其余用户集合作为第二集合；与所述训练用户的样本用户信息具有绑定关系的业务对象在具有有效生命周期的单位时间段内均具有业务状态；

训练模块21，用于根据所述待确定超参数、所述第二集合中的样本用户的样本用户信息以及与所述第二集合中的样本用户的样本用户信息具有绑定关系的业务对象，生成样本业务预测模型；所述样本业务预测模型满所述目标收敛条件；

生成模块22，用于根据所述样本业务预测模型、所述第一集合中样本用户的样本用户信息以及与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象，确定业务量误差；

所述训练模块21，还用于当每个用户集合均被确定为所述第一集合时，将多个业务量误差的平均值作为所述待确定超参数的超参数误差；

所述训练模块21，还用于从所述多组模型超参数中选择下一组模型超参数，作为所述待确定超参数；

所述训练模块21，还用于当每组模型超参数均被确定为所述待确定超参数时，将超参数误差最低的待确定超参数作为目标超参数；所述目标超参数用于生成所述初始业务预测模型。

其中，选择模块19、划分模块20、训练模块21、生成模块22的具体功能实现方式可以参见上述图5对应实施例中的步骤S204，这里不再进行赘述。

请参见图7，生成模块22可以包括：业务量确定单元221、统计单元222。

业务量确定单元221，用于基于所述样本业务预测模型获取所述第一集合中样本用户的样本用户信息与所述多个业务对象分别对应的训练业务量，从多个训练业务量中将最大训练业务量确定为第一业务量，并将最大训练业务量对应的业务对象确定为第一对象；

所述业务量确定单元221，还用于将与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象确定为第二对象，根据所述第二对象对应的输入资源，和所述第二对象在所有单位时间段内的业务状态，确定第二业务量；

统计单元222，用于根据所述第一对象和所述第二对象确定第一误差，根据所述第一业务量和所述第二业务量确定第二误差，将第一误差和所述第二误差之和作为所述业务量误差。

其中，业务量确定单元221、统计单元222的具体功能实现方式可以参见上述图5对应实施例中的步骤S204，这里不再进行赘述。

请参见图7，业务数据处理装置1可以包括第一获取模块11、第二获取模块12、业务量确定模块13、调整模块14、模型确定模块15、提取模块16、组合模块17、第一对象确定模块18、选择模块19、划分模块20、训练模块21、生成模块22；还可以包括：条件确定模块23。

条件确定模块23，用于当调整次数达到次数阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件；或，

所述条件确定模块23，还用于当调整后的初始业务预测模型的模型变量参数和调整前的初始业务预测模型的模型变量参数之间的差异量小于差异阈值时，确定调整后的初始业务预测模型满足所述目标收敛条件。

其中，条件确定模块23的具体功能实现方式可以参见上述图3对应实施例中的步骤S105，这里不再进行赘述。

进一步的，请参见图8，是本发明实施例提供的另一种业务数据处理装置2的结构示意图。如图8所示，业务数据处理装置2可以应用于上述图6对应实施例中的服务器，业务数据处理装置2可以包括：第三获取模块30、第二对象确定模块31。

第三获取模块30，用于获取目标用户，并获取所述目标用户的目标用户信息；

第三获取模块30，还用于获取目标业务预测模型；

第二对象确定模块31，用于基于所述目标业务预测模型获取所述目标用户信息与多个业务对象分别对应的目标业务量；

第三获取模块30，还用于将目标业务量最大的业务对象确定为推荐业务对象；

其中，第三获取模块30、第二对象确定模块31的具体功能实现方式可以参见上述图6对应实施例中的步骤S301-步骤S302，这里不再进行赘述。

请参见图8，第二对象确定模块31可以包括：第二组合单元311、第二确定单元312。

第二组合单元311，用于将所述目标用户信息和每个业务对象分别组合为目标元组，并获取与所述目标业务预测模型对应的目标模型函数；

第二确定单元312，用于根据所述目标模型函数和多个所述目标元组，生成与每个目标元组中的业务对象分别对应的目标业务量。

其中，第二组合单元311、第二确定单元312的具体功能实现方式可以参见上述图6对应实施例中的步骤S302，这里不再进行赘述。

上述可知，样本数据不需要对应的状态标签就可以不断地调整业务预测模型，从而降低了样本数据的收集难度，以扩大样本数据的数量，通过大量的样本数据可以提高业务预测模型预测用户与多种业务对象之间的业务收益的准确性；同时，训练好的业务预测模型可以自动化地预测用户与多种业务对象之间的业务收益，不需要人工决策，减少人工参与，可以更高效率地确定使业务收益最大的业务对象，从而提高推荐业务对象的效率。

进一步地，请参见图9，是本发明实施例提供的一种电子设备的结构示意图。上述图3-图5对应实施例中的终端可以为电子设备1000，如图9所示，所述电子设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至电子设备1000。用户接口1002可以包括：接收机1018和显示器1020。

在图9所示的电子设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

应当理解，本发明实施例中所描述的电子设备1000可执行前文图3到图5所对应实施例中对所述业务数据处理方法的描述，也可执行前文图7所对应实施例中对所述业务数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的业务数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3到图5所对应实施例中对所述业务数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

进一步地，请参见图10，是本发明实施例提供的一种电子设备的结构示意图。上述图6对应实施例中的服务器可以为电子设备2000，如图10所示，所述电子设备2000可以包括：用户接口2002、处理器2004、编码器2006以及存储器2008。信号接收器2016用于经由蜂窝接口2010、WIFI接口2012、...、或NFC接口2014接收或者发送数据。编码器2006将接收到的数据编码为计算机处理的数据格式。存储器2008中存储有计算机程序，处理器2004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器2008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器2008可进一步包括相对于处理器2004远程设置的存储器，这些远程存储器可以通过网络连接至电子设备2000。用户接口2002可以包括：接收机2018和显示器2020。

在图9所示的电子设备2000中，处理器2004可以用于调用存储器2008中存储计算机程序，以实现：

获取目标用户，并获取所述目标用户的目标用户信息；

应当理解，本发明实施例中所描述的电子设备2000可执行前文图6所对应实施例中对所述业务数据处理方法的描述，也可执行前文图8所对应实施例中对所述业务数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的业务数据处理装置2所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图6所对应实施例中对所述业务数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种业务数据处理方法，其特征在于，包括：

根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数；所述奖励参数是基于所述预测业务对象对应的输入资源与所述目标业务对象对应的输入资源之间的大小关系、以及所述样本输出资源与输出阈值之间的大小关系所确定的；

将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量，根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述在初始业务预测模型中获取与所述目标样本用户信息对应的预测业务对象；所述预测业务对象是在多个业务对象中具有最大预测业务量的业务对象，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数，包括：

5.根据权利要去1所述的方法，其特征在于，所述根据所述样本奖励业务量、所述预测业务对象和所述目标样本用户信息，调整所述初始业务预测模型，包括：

获取与所述初始业务预测模型相关联的初始模型函数；

6.根据权利要求1所述的方法，其特征在于，还包括

7.根据权利要求2所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述样本业务预测模型、所述第一集合中样本用户的样本用户信息以及与所述第一集合中的样本用户的样本用户信息具有绑定关系的业务对象，确定业务量误差，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种业务数据处理方法，其特征在于，包括

获取目标用户，并获取所述目标用户的目标用户信息；

所述目标业务预测模型是根据多个样本用户的样本用户信息、目标业务对象以及样本奖励业务量训练初始业务预测模型后得到的；所述多个样本用户包括目标样本用户，所述样本奖励业务量是指所述目标样本用户对应的奖励参数与所述初始业务预测模型确定的最大预测业务量之和，所述奖励参数是根据所述目标业务对象、所述初始业务预测模型确定的预测业务对象和样本输出资源所确定的，且所述奖励参数是基于所述预测业务对象对应的输入资源与所述目标业务对象对应的输入资源之间的大小关系、以及样本输出资源与输出阈值之间的大小关系所确定的；所述预测业务对象是在所述多个业务对象中具有所述最大预测业务量的业务对象；所述样本输出资源是根据所述目标业务对象在目标单位时间段内的目标业务状态所确定的，所述目标单位时间段是指所述目标样本用户所属的单位时间段。

11.一种业务数据处理装置，其特征在于，包括：

业务量确定模块，用于获取所述目标样本用户所属的单位时间段，作为目标单位时间段，获取所述目标业务对象在所述目标单位时间段内的目标业务状态，根据所述目标业务状态确定样本输出资源，根据所述目标业务对象、所述预测业务对象和所述样本输出资源，确定与所述目标样本用户信息对应的奖励参数；所述奖励参数是基于所述预测业务对象对应的输入资源与所述目标业务对象对应的输入资源之间的大小关系、以及所述样本输出资源与输出阈值之间的大小关系所确定的；

所述业务量确定模块，还用于将所述奖励参数与所述最大预测业务量之和确定为所述样本奖励业务量；

12.一种业务数据处理装置，其特征在于，包括

第三获取模块，还用于获取目标业务预测模型；

13.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-10任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-10任一项所述的方法。