CN111582448A

CN111582448A - 一种权重训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111582448A
Application number: CN202010366420.7A
Authority: CN
Inventors: 徐宣宏
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-25
Anticipated expiration: 2040-04-30
Also published as: CN111582448B

Abstract

本发明实施例公开了一种权重训练方法、装置、计算机设备和存储介质，该方法包括：获取业务模型；对目标行为配置权重；计算目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；识别离线评价指标的状态；若状态为离线评价指标未收敛，则根据评价指标调整所述权重，返回执行计算目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；若状态为离线评价指标已收敛，则确定业务模型的权重训练完成。本实施例在离线的状态下，通过评价指标指导寻参(即设置权重)，明确寻参的方向，提高权重在离线训练时的精确度，可以减少根据线上的情况对权重调整的频次，节约了大量的时间和人力，从而提高了效率。

Description

一种权重训练方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及机器学习的技术，尤其涉及一种权重训练方法、装置、计算机设备和存储介质。

背景技术

在信息检索、信息推荐等业务场景中，通常预先训练模型召回业务数据，从所有业务数据中选择合适的业务数据发送给用户，用户对这些业务数据进行操作，如点击、点赞、评论、分享、关注等。

在这个过程中，在先多是以CTR(Click Through Rate，点击通过率)为目标进行优化，例如，对于多媒体的业务场景，优化的目标为用户点击发送的短视频，这种方式导致返回给用户的信息多注重业务数据的标题、封面等直接显示给用户的信息，使得用户更容易点击该业务数据，但是，该业务数据的内容可能较差，使得用户点击并浏览该业务数据之后迅速关闭，用户体验较差。

对此，现在多是以多个不同的目标进行优化，即使用模型对业务数据计算多个不同目标的概率，配合相应的权重选择合适的信息，综合考虑用户各个方面的需求，以期提高用户体验。

针对该权重，目前是以历史经验初始化，然后上线模型、权重之后，根据在线的情况调整权重。

但是，在同一业务场景下，目标之间的相关性比较强，例如，用户对感兴趣的短视频会同时点赞、评论、分享、关注，使得调整某一个目标的权重都会在一定程度上给其他目标带来波动，对权重的调整造成干扰，使得需要反复多次调整，才最终确定权重的值，即这种方式要反复先观察线上的情况再来调整权重，需要大量的用户流量进行试验，耗费大量的时间和人力，效率较低。

发明内容

本发明实施例提供一种权重训练方法、装置、计算机设备和存储介质，以解决以多目标优化模型的权重时，训练权重的效率较低的问题。

第一方面，本发明实施例提供了一种权重训练方法，包括：

获取业务模型，所述业务模型用于计算用户对业务数据执行多个目标行为的概率；

对所述目标行为配置权重；

计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；

识别所述离线评价指标的状态；

若所述状态为所述离线评价指标未收敛，则根据所述评价指标调整所述权重，返回执行所述计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；

若所述状态为所述离线评价指标已收敛，则确定所述业务模型的权重训练完成。

可选地，所述对所述目标行为配置权重，包括：

确定参考模型，所述参考模型用于计算用户对业务数据执行多个候选行为的概率，所述候选行为对应的权重已完成训练，所述目标行为与所述候选行为部分相同；

若所述目标行为与任一所述候选行为相同，则将所述候选行为对应的权重赋值给所述目标行为的权重；

若所述目标行为与所有所述候选行为不同，则随机对所述目标行为设置权重；

和/或，

随机对所述目标行为设置权重。

可选地，所述对所述目标行为配置权重，包括：

计算所述目标行为在属于同一组的权重下推送业务数据给用户所呈现的评价指标，作为参考评价指标；

基于所述参考评价指标选择一组或多组权重。

可选地，所述基于所述参考评价指标选择一组或多组权重，包括：

对所述参考评价指标的排序；

若某组权重对应的参考评价指标均排序在前n个位置，则选择所述组中的权重。

可选地，所述计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，包括：

召回业务数据；

调用所述业务模型计算用户对所述业务数据执行多个目标行为的概率；

结合所述权重与所述概率对所述业务数据计算业务分数；

基于所述业务分数对所述业务数据设置推送标识，所述推送标识用于表示已推送给用户或者未被推送给用户；

基于用户在先在指定维度下对所述业务数据执行的行为数据对所述业务数据设置样本标签，所述样本标签用于表示正样本或负样本；

结合所述推送标识与所述样本标签对计算曲线下面积AUC，作为所述目标行为在所述权重下呈现的评价指标，从而获得离线评价指标。

可选地，所述当离线模拟用户访问所述业务数据时，计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，还包括：

获取用户在先对所述业务数据执行的行为数据；

使用所述行为数据计算所述曲线下面积AUC的平均值GAUC、准确率MAP、归一化折损累积增益NDCG中的至少一者，作为所述目标行为在所述权重下呈现的评价指标，从而获得离线评价指标。

可选地，所述结合所述权重与所述概率对所述业务数据计算业务分数，包括：

计算所述与所述概率之间的乘积，获得单项分数；

计算所有所述单项分数之和，获得业务分数。

可选地，所述识别所述离线评价指标的状态，包括：

调用所述业务模型为用户推送业务数据；

计算所述目标行为在某一组权重下呈现的评价指标，作为在线评价指标；

计算目标评价指标的占比，所述目标评价指标为数值大于所述在线评价指标的离线评价指标；

基于所述占比确定所述离线评价指标的状态。

可选地，所述根据所述评价指标调整所述权重，包括：

若所述离线评价指标大于所述在线评价指标，则降低配置给所述离线评价指标所属目标行为的权重；

和/或，

若所述离线评价指标小于所述在线评价指标，则提高配置给所述离线评价指标所属目标行为的权重。

第二方面，本发明实施例还提供了一种权重训练装置，包括：

业务模型获取模块，用于获取业务模型，所述业务模型用于计算用户对业务数据执行多个目标行为的概率；

权重配置模块，用于对所述目标行为配置权重；

离线评价指标计算模块，用于计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；

指标状态识别模块，用于识别所述离线评价指标的状态；

权重调整模块，用于若所述状态为所述离线评价指标未收敛，则根据所述评价指标调整所述权重，返回调用所述离线评价指标计算模块；

训练完成确定模块，用于若所述状态为所述离线评价指标已收敛，则确定所述业务模型的权重训练完成。

可选地，所述权重配置模块包括：

参考模型确定子模块，用于确定参考模型，所述参考模型用于计算用户对业务数据执行多个候选行为的概率，所述候选行为对应的权重已完成训练，所述目标行为与所述候选行为部分相同；

权重赋值子模块，用于若所述目标行为与任一所述候选行为相同，则将所述候选行为对应的权重赋值给所述目标行为的权重；

第一随机设置子模块，用于若所述目标行为与所有所述候选行为不同，则随机对所述目标行为设置权重；

和/或，

第二随机设置子模块，用于随机对所述目标行为设置权重。

可选地，所述权重配置模块包括：

参考评价指标计算子模块，用于计算所述目标行为在属于同一组的权重下推送业务数据给用户所呈现的评价指标，作为参考评价指标；

权重组选择子模块，用于基于所述参考评价指标选择一组或多组权重。

可选地，所述权重组选择子模块包括：

指标排序单元，用于对所述参考评价指标的排序；

排序选择单元，用于若某组权重对应的参考评价指标均排序在前n个位置，则选择所述组中的权重。

可选地，所述离线评价指标计算模块包括：

业务数据召回子模块，用于召回业务数据；

概率计算子模块，用于调用所述业务模型计算用户对所述业务数据执行多个目标行为的概率；

业务分数计算子模块，用于结合所述权重与所述概率对所述业务数据计算业务分数；

推送标识设置子模块，用于基于所述业务分数对所述业务数据设置推送标识，所述推送标识用于表示已推送给用户或者未被推送给用户；

样本标签设置子模块，用于基于用户在先在指定维度下对所述业务数据执行的行为数据对所述业务数据设置样本标签，所述样本标签用于表示正样本或负样本；

曲线下面积计算子模块，用于结合所述推送标识与所述样本标签对计算曲线下面积AUC，作为所述目标行为在所述权重下呈现的评价指标，从而获得离线评价指标。

可选地，所述离线评价指标计算模块还包括：

行为数据获取子模块，用于获取用户在先对所述业务数据执行的行为数据；

参考参数计算子模块，用于使用所述行为数据计算所述曲线下面积AUC的平均值GAUC、准确率MAP、归一化折损累积增益NDCG中的至少一者，作为所述目标行为在所述权重下呈现的评价指标，从而获得离线评价指标。

可选地，所述业务分数计算子模块包括：

乘积计算单元，用于计算所述与所述概率之间的乘积，获得单项分数；

和值计算单元，用于计算所有所述单项分数之和，获得业务分数。

可选地，所述指标状态识别模块包括：

业务数据推送子模块，用于调用所述业务模型为用户推送业务数据；

在线评价指标计算子模块，用于计算所述目标行为在某一组权重下呈现的评价指标，作为在线评价指标；

占比计算子模块，用于计算目标评价指标的占比，所述目标评价指标为数值大于所述在线评价指标的离线评价指标；

状态确定子模块，用于基于所述占比确定所述离线评价指标的状态。

可选地，所述权重调整模块包括：

权重降低子模块，用于若所述离线评价指标大于所述在线评价指标，则降低配置给所述离线评价指标所属目标行为的权重；

和/或，

权重提高子模块，用于若所述离线评价指标小于所述在线评价指标，则提高配置给所述离线评价指标所属目标行为的权重。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的权重训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一项所述的权重训练方法。

在本实施例中，获取业务模型，业务模型用于计算用户对业务数据执行多个目标行为的概率，对目标行为配置权重，计算目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，识别离线评价指标的状态，若状态为离线评价指标未收敛，则根据评价指标调整权重，返回执行计算目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，若状态为离线评价指标已收敛，则确定业务模型的权重训练完成，在离线的状态下，通过评价指标指导寻参(即设置权重)，明确寻参的方向，提高权重在离线训练时的精确度，可以减少根据线上的情况对权重调整的频次，节约了大量的时间和人力，从而提高了效率。

附图说明

图1为本发明实施例一提供的一种权重训练方法的流程图；

图2是本发明实施例一提供的一种业务模型的结构示意图；

图3为本发明实施例二提供的一种权重训练装置的结构示意图；

图4为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种权重训练方法的流程图，本实施例可适用于离线以评价指标反映出多目标的权重上线之后的表现，以此训练权重，该方法可以由权重训练装置来执行，该权重训练装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，该方法具体包括如下步骤：

S101、获取业务模型。

在本实施例中，可以预先训练业务模型及其参数，该业务模型及其参数存储在数据库中，在训练权重时，可从数据库读取该业务模型并加载其参数。

其中，业务模型用于计算用户对业务数据执行多个(两个及两个以上)目标行为的概率。

进一步而言，业务模型可以为神经网络，如DNN(Deep Neural Networks，深度神经网络)等，也可以为其他机器学习模型，如LR(logistics regression，逻辑回归)模型等，本实施例对此不加以限制。

业务模型可以基于多任务学习进行训练，多任务学习是一种推导迁移的学习方法，将多个目标(如本实施例中的目标行为)放在一起相互学习，相关的目标(如本实施例中的目标行为)共享信息以及不相关的目标引入的噪声都可以在一定程度上提高业务模型的泛化能力。

多任务学习属于迁移学习的范畴，它与迁移学习的主要区别在于它是多个目标(如本实施例中的目标行为)一起学习提升模型的效果，而通常的迁移学习是借助其他目标来提升一个目标的学习效果。

在本实施例中，可以采用基于参数共享的模型作为业务模型，以神经网络为例，如图2所示，业务模型接收相同的输入(Input)，底层的网络共享模型参数，多个目标行为(如Task1、Task2、Task3、Task4等)相互学习，梯度同时反向传播，可提高业务模型的泛化能力。

需要说明的是，业务模型、业务数据及目标行为，根据实际的业务场景而有所不用，本实施例对此不加以限制。

例如，对于多媒体的业务场景，业务数据为短视频，业务模型可以计算用户对短视频执行点击、点赞、评论、分享、收藏、关注等目标行为的概率。

又例如，对于直播的业务场景，业务数据为主播用户，业务模型可以计算用户对主播用户执行点击、发表弹幕、赠送虚拟物品、关注等目标行为的概率。

又例如，对于电子商务的业务场景，业务数据为商品数据，业务模型可以计算用户对商品数据执行点击、收藏、下单等目标行为的概率。

S102、对目标行为配置权重。

业务模型会输出用户对每个下发的业务数据执行多个目标行为的概率，在本实施例中，为每个目标行为配置相应的权重，该权重表示该目标行为的重要程度，遍历合适权衡和融合各个概率及其权重的方式、用于给待下发的业务数据计算最终的业务分数。

一般情况下，目标行为正向的操作，例如，点击、关注、点赞、赠送虚拟礼物，等等，此时，权重越大、该目标行为越重要。

在一种配置权重的方式中，可以确定参考模型，该参数模型为与目标模型相似的模型，即参考模型用于计算用户对业务数据执行多个(即两个及两个以上)候选行为的概率，目标行为与候选行为部分相同。

并且，候选行为已配置相应的权重，候选行为对应的权重已完成训练，此时，参考模型往往已上线运行，参与推送业务数据给用户。

在此配置权重的方式中，将目标行为逐个与候选行为进行比较。

若目标行为与任一候选行为相同，则将候选行为对应的权重赋值给目标行为的权重。

若目标行为与所有候选行为不同，则随机对目标行为设置权重。

在另一种配置权重的方式中，可以随机对目标行为设置权重。

在本实施例中，参考模型的权重已完成训练，准确性较高，通过相似性，参照该参考模型对业务模型配置权重，可以提高业务模型初始权重的准确性，减少后续调整权重的频次，从而降低计算量。

此外，通过随机设置权重，可以增大调整权重的空间，实现权重的全局最优解，避免根据线上的评价指标调整权重陷入局部最优解的问题。

当然，上述配置权重的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其他配置权重的方式，例如，按照目标行为之间的相关性对目标行为配置权重，即具有相关性的目标行为一同配置权重，等等，本发明实施例对此不加以限制。另外，除了上述配置权重的方式外，本领域技术人员还可以根据实际需要采用其它配置权重的方式，本发明实施例对此也不加以限制。

在配置权重之后，可以对权重进行归一化操作等整理操作，方便后续对权重的调整。

在本实施例中，同一次对目标行为配置的权重，可以称之为同一组权重，在多次对目标行为配置权重之后，可挑选表现较好的一组或多组权重继续进行调整。

在具体实现中，可存储用户访问网页的日志文件，该日志文件中记录了用户对业务数据反馈的行为数据，通过这些离线的行为数据分析用户对业务数据的行为，从而实现离线计算目标行为在属于同一组的权重下推送业务数据给用户所呈现的评价指标，作为参考评价指标。

其中，所谓评价指标，可以指用于评价优劣的指标，包括AUC(Area Under Curve，曲线下面积)、MAP(Mean Average Precision，平均准确率均值)、MRR(Mean ReciprocalRank，平均排序倒数)、NDCG(Normalized Discounted Cumulative Gain，归一化折损累积增益)，等等。

进一步而言，可召回业务数据，调用业务模型计算用户对业务数据执行多个目标行为的概率，结合权重与概率对业务数据计算业务分数。

例如，计算与概率之间的乘积，获得单项分数；计算所有单项分数之和，获得业务分数。

基于业务分数对业务数据设置推送标识，其中，推送标识用于表示已推送给用户或者未被推送给用户。

基于用户在先在指定维度下对业务数据执行的行为数据对业务数据设置样本标签，其中，样本标签用于表示正样本或负样本。

结合推送标识与样本标签对计算曲线下面积AUC，作为目标行为在权重下呈现的评价指标，从而获得参考评价指标。

此外，获取用户在先对业务数据执行的行为数据，使用行为数据计算所述曲线下面积AUC的平均值GAUC、准确率MAP、归一化折损累积增益NDCG，作为目标行为在权重下呈现的评价指标，从而获得参考评价指标。

在本实施例中，由于计算参考评价指标的方式与S103中计算离线评价指标的方式基本相似，所以描述的比较简单，相关之处参见S103中计算离线评价指标的部分说明即可，本实施例在此不加以详述。

在计算完所有组权重对应的目标行为的参考评价指标，则可以按照预先设置的选择规则，基于参考评价指标选择一组或多组权重，即选择参考评价指标较好的权重，继续进行调整。

在一个示例中，对参考评价指标的排序，若某组权重对应的参考评价指标均排序在前n(n为正整数)个位置，则选择组中的权重。

当然，上述选择属于同一组权重的方式只是作为示例，在实施本实施例时，可以根据实际情况设置其他选择属于同一组权重的方式，例如，对同一组权重排序的序号计算总和，选择综合最小的k(k为正整数)个组权重，等等，本实施例对此不加以限制。

S103、计算目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标。

在本实施例中，可存储用户访问网页的日志文件，该日志文件中记录了用户对业务数据反馈的行为数据，通过这些离线的行为数据分析用户对业务数据的行为，从而实现离线计算每个目标行为在权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标。

在本发明的一个实施例中，S103可以包括如下步骤：

S1301、召回业务数据。

在本实施例中，在先已在数据库存储多个业务数据相关的特征(如时间、类目、点击量等)，在计算离线评价时，可以从该数据库中读取部分或全部业务数据相关的特征(如时间、类目、点击量等)。

S1302、调用业务模型计算用户对业务数据执行多个目标行为的概率。

在本实施例中，将业务数据及其相关的特征(如时间、类目、点击量等)输入到业务模型中，业务模型按照自身的逻辑进行处理，从而输出用户对该业务数据执行多个目标行为的概率。

S1303、结合权重与概率对业务数据计算业务分数。

在本实施例中，将属于同一个目标行为的权重及概率按照预设的计算规则进行融合，得到该业务数据的业务分数。

在一个示例中，可以使用线性方式(计算规则)融合属于同一个目标行为的权重及概率，具体而言，针对每个目标行为，计算属于同一个目标行为的权重与概率之间的乘积，获得单项分数，针对所有目标行为，计算所有单项分数之和，获得业务分数。

当然，上述计算业务分数的规则只是作为示例，在实施本实施例时，可以根据实际情况设置其他计算业务分数的规则，例如，计算所有权重与概率之间的乘积，作为业务分数，等等，本实施例对此不加以限制。另外，除了上述计算业务分数的规则外，本领域技术人员还可以根据实际需要采用其它计算业务分数的规则，本实施例对此也不加以限制。

S1304、基于业务分数对业务数据设置推送标识。

在本实施例中，可预先设置推送规则，该推送规则用于对业务数据设置推送标识，该推送标识用于表示已推送给用户或者未被推送给用户。

进一步而言，在业务数据的业务分数满足该推送规则时，对该业务数据设置标识已推送给用户的推送标识，在业务数据的业务分数未满足该推送规则时，对该业务数据设置标识未推送给用户的推送标识。

例如，该推送规则为业务分数大于预设的阈值，即推送业务分数大于该阈值的业务数据给用户。

又如，该推送规则为业务分数为前m(m为正整数)个，即推送业务分数最高的m个业务数据给用户。

再如，该推送规则为业务分数为前t％(m为正整数)，即推送业务分数最高的t％的业务数据给用户。

此外，在整个推送业务数据的系统中，除了当前业务模型的业务分数之外，可能还有其他业务模型的业务分数作为推送的参考，即结合当前业务模型的业务分数与其他业务模型的业务分数对业务数据设置相应的推送标识，本实施例对此不加以限制。

S1305、基于用户在先在指定维度下对业务数据执行的行为数据对业务数据设置样本标签。

在本实施例中，从日志文件中读取用户在指定维度下对业务数据执行的行为数据，并对业务数据设置相应的样本标签，该样本标签用于表示正样本或负样本。

进一步地，该行为数据表示用户是否执行了该维度下的操作，该操作可以包括正向的操作，例如，关注、点赞、赠送虚拟礼物，等等，该操作也可以包括负向的操作，例如，屏蔽、黑名单、确认不感兴趣，等等。

对于正向的操作，如果业务数据对应行为数据表示已执行该操作，则可以对该业务数据设置正样本，如果业务数据对应行为数据表示未执行该操作，则可以对该业务数据设置负样本。

对于负向的操作，如果业务数据对应行为数据表示已执行该操作，则可以对该业务数据设置负样本，如果业务数据对应行为数据表示未执行该操作，则可以对该业务数据设置正样本。

S1306、结合推送标识与样本标签对计算曲线下面积AUC，作为目标行为在权重下呈现的评价指标，从而获得离线评价指标。

曲线下面积AUC是ROC(receiver operating characteristic curve，接收者操作特征曲线)下方的面积，是判断二分类预测模型优劣的标准，表示正例排在负例前面的概率。

ROC曲线的横坐标是伪阳性率(也叫假正类率，False Positive Rate)，纵坐标是真阳性率(真正类率，True Positive Rate)，相应的还有真阴性率(真负类率，TrueNegative Rate)和伪阴性率(假负类率，False Negative Rate)，这四类的计算方法如下：

伪阳性率(FPR)——判定业务数据为正例(已推送给用户)却不是真正例(负样本)的概率

真阳性率(TPR)——判定业务数据为正例(已推送给用户)也是真正例(正样本)的概率

伪阴性率(FNR)——判定业务数据为负例(未推送给用户)却不是真负例(负样本)的概率

真阴性率(TNR)——判定业务数据为负例(未推送给用户)也是真负例(正样本)的概率

在本发明的另一个实施例中，S103还可以包括如下步骤：

S1307、获取用户在先对业务数据执行的行为数据。

S1308、使用行为数据计算曲线下面积AUC的平均值GAUC、准确率MAP、归一化折损累积增益NDCG中的至少一者，作为目标行为在权重下呈现的评价指标，从而获得离线评价指标。

在实际应用中，离线的评价指标可以在一定程度上反映出线上应用业务模型的效果，但是，离线的评价指标的提升不一定能带来线上的评价指标的收益，结合整个推送业务数据的系统，可能在积累作为样本的业务数据的过程中，各个业务模型的版本在不停迭代，由于不同业务模型对于同一个样本的业务分数之间会有差异，导致影响离线曲线下面积AUC的计算。

为了解决离线曲线下面积AUC计算的问题，本实施例引入了GAUC(即计算属于同一组权重对应的每个目标行为的曲线下面积AUC，求所有曲线下面积AUC的平均值)、准确率MAP、归一化折损累积增益NDCG中的至少一者作为评价指标，这些评价指标会计算每一次下发业务数据的优劣程度，即是否把与用户更相关的业务数据排在相对靠前的位置，具有较高的参考价值。

S104、识别离线评价指标的状态。

在本实施例中，在每次离线计算离线评价指标之后，可以计算该离线评价指标的状态，决定是否完成训练。

在具体实现中，可以将业务模型针对一部分小流量的用户上线一段时间，调用业务模型为用户推送业务数据，即调用业务模型计算业务数据的业务分数，基于业务分数选择合适的业务数据推送给用户。

针对线上的情况，计算目标行为在某一组权重下呈现的评价指标，作为在线评价指标。

具体而言，可以针对推送的情况设置推送标识，基于用户在指定维度下对业务数据执行的行为数据对业务数据设置样本标签，其中，样本标签用于表示正样本或负样本。

结合推送标识与样本标签对计算曲线下面积AUC，作为目标行为在权重下呈现的评价指标，从而获得在线评价指标。

此外，获取用户在先对业务数据执行的行为数据，使用行为数据计算所述曲线下面积AUC的平均值GAUC、准确率MAP、归一化折损累积增益NDCG，作为目标行为在权重下呈现的评价指标，从而获得在线评价指标。

计算目标评价指标的占比，其中，目标评价指标为数值大于在线评价指标的离线评价指标，从而按照预设的迭代规则、基于占比确定离线评价指标的状态，该状态包括收敛、未收敛。

例如，该迭代规则可以包括占比超过预设的阈值，即大部分的离线评价指标大于在线评价指标，此时离线评价指标收敛，否则，离线评价指标未收敛。

又例如，该迭代规则可以包括占比超过预设的阈值，并且，指定的离线评价指标大于在线评价指标，即大部分的离线评价指标大于在线评价指标，并且，重点的离线评价指标大于在线评价指标，此时离线评价指标收敛，否则，离线评价指标未收敛。

S105、若状态为离线评价指标未收敛，则根据评价指标调整权重，返回执行S103。

在离线评价指标未收敛的情况下，可以参考评价指标微调权重，继续进行迭代。

在具体实现中，若离线评价指标大于在线评价指标，则降低配置给离线评价指标所属目标行为的权重。

若离线评价指标小于在线评价指标，则提高配置给离线评价指标所属目标行为的权重。

S106、若状态为离线评价指标已收敛，则确定业务模型的权重训练完成。

在离线评价指标已收敛的情况下，可以认为权重已完成训练，可以将业务模型上线运行，独立推送业务数据给用户，或者，与其他业务模型一同推送业务数据给用户。

实施例二

图3为本发明实施例二提供的一种权重训练装置的结构示意图，该装置具体可以包括如下模块：

业务模型获取模块301，用于获取业务模型，所述业务模型用于计算用户对业务数据执行多个目标行为的概率；

权重配置模块302，用于对所述目标行为配置权重；

离线评价指标计算模块303，用于计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标；

指标状态识别模块304，用于识别所述离线评价指标的状态；

权重调整模块305，用于若所述状态为所述离线评价指标未收敛，则根据所述评价指标调整所述权重，返回调用所述离线评价指标计算模块；

训练完成确定模块306，用于若所述状态为所述离线评价指标已收敛，则确定所述业务模型的权重训练完成。

在本发明的一个实施例中，所述权重配置模块302包括：

和/或，

第二随机设置子模块，用于随机对所述目标行为设置权重。

在本发明的一个实施例中，所述权重配置模块302包括：

在本发明实施例的一个示例中，所述权重组选择子模块包括：

指标排序单元，用于对所述参考评价指标的排序；

在本发明的一个实施例中，所述离线评价指标计算模块303包括：

业务数据召回子模块，用于召回业务数据；

在本发明的一个实施例中，所述离线评价指标计算模块303还包括：

在本发明实施例的一个示例中，所述业务分数计算子模块包括：

在本发明的一个实施例中，所述指标状态识别模块304包括：

在本发明的一个实施例中，所述权重调整模块305包括：

和/或，

本发明实施例所提供的权重训练装置可执行本发明任意实施例所提供的权重训练方法，具备执行方法相应的功能模块和有益效果。

实施例三

图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示，该计算机设备包括处理器400、存储器401、通信模块402、输入装置403和输出装置404；计算机设备中处理器400的数量可以是一个或多个，图4中以一个处理器400为例；计算机设备中的处理器400、存储器401、通信模块402、输入装置403和输出装置404可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器401作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的权重训练方法对应的模块(例如，如图3所示的权重训练装置中的业务模型获取模块301、权重配置模块302、离线评价指标计算模块303、指标状态识别模块304、权重调整模块305和训练完成确定模块306)。处理器400通过运行存储在存储器401中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的权重训练方法。

存储器401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器401可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器401可进一步包括相对于处理器400远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块402，用于与显示屏建立连接，并实现与显示屏的数据交互。

输入装置403可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。

输出装置404可以包括扬声器等音频设备。

需要说明的是，输入装置403和输出装置404的具体组成可以根据实际情况设定。

处理器400通过运行存储在存储器401中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的电子白板的连接节点控制方法。

本实施例提供的计算机设备，可执行本发明任一实施例提供的权重训练方法，具体相应的功能和有益效果。

实施例四

本发明实施例四还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种权重训练方法，该方法包括：

权重配置模块，用于对所述目标行为配置权重；

指标状态识别模块，用于识别所述离线评价指标的状态；

当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的权重训练方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述权重训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种权重训练方法，其特征在于，包括：

对所述目标行为配置权重；

识别所述离线评价指标的状态；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标行为配置权重，包括：

和/或，

随机对所述目标行为设置权重。

3.根据权利要求1所述的方法，其特征在于，所述对所述目标行为配置权重，包括：

基于所述参考评价指标选择一组或多组权重。

4.根据权利要求3所述的方法，其特征在于，所述基于所述参考评价指标选择一组或多组权重，包括：

对所述参考评价指标的排序；

5.根据权利要求1所述的方法，其特征在于，所述计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，包括：

召回业务数据；

结合所述权重与所述概率对所述业务数据计算业务分数；

6.根据权利要求5所述的方法，其特征在于，所述当离线模拟用户访问所述业务数据时，计算所述目标行为在所述权重下推送业务数据给用户所呈现的评价指标，作为离线评价指标，还包括：

获取用户在先对所述业务数据执行的行为数据；

7.根据权利要求5所述的方法，其特征在于，所述结合所述权重与所述概率对所述业务数据计算业务分数，包括：

计算所述与所述概率之间的乘积，获得单项分数；

计算所有所述单项分数之和，获得业务分数。

8.根据权利要求1所述的方法，其特征在于，所述识别所述离线评价指标的状态，包括：

调用所述业务模型为用户推送业务数据；

基于所述占比确定所述离线评价指标的状态。

9.根据权利要求8所述的方法，其特征在于，所述根据所述评价指标调整所述权重，包括：

和/或，

10.一种权重训练装置，其特征在于，包括：

权重配置模块，用于对所述目标行为配置权重；

指标状态识别模块，用于识别所述离线评价指标的状态；

11.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的权重训练方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9中任一所述的权重训练方法。