CN113935788A

CN113935788A - 模型评估方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113935788A
Application number: CN202111548933.0A
Authority: CN
Inventors: 钟子宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-01-14
Anticipated expiration: 2041-12-17
Also published as: CN113935788B

Abstract

本申请提供了一种模型评估方法、装置、设备及计算机可读存储介质；方法包括：获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；利用初步训练好的预测模型对第一样本数据和第二样本数据分别进行预测处理，得到当前时间周期对应的第一预测结果和上一个时间周期对应的第二预测结果；基于当前时间周期的第一标签信息、第一预测结果、上一个时间周期对应的第二标签信息和第二预测结果，确定初步训练好的预测模型在当前时间周期的评估信息；当确定评估信息达到预设的评估阈值时，将初步训练好的预测模型确定为最终训练好的预测模型。通过本申请，能够提高预测模型对当前数据的预测精度。

Description

模型评估方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及互联网技术，尤其涉及一种模型评估方法、装置、设备及计算机可读存储介质。

背景技术

一个产品完整的生命周期一般包括：初创期、成长期、成熟期、衰减期、退出期这五个周期。企业对于产品生命周期管理，一般对针对不同的场景进行对应的营销干预。为了给予用户更加精准的营销方案，需要对用户的推荐场景进行预测，而为了保证预测模型的准确度，需要在预测模型上线使用之前进行模型评估。

现有方案的模型评估方法，主要是利用当前统计周期的训练样本数据进行预测模型的训练，并采用当前周期的测试样本数据计算相关的模型评估指标（查全率、查准率、AUC等）评估模型的好坏。在实际实现时，经常涉及各个模块连续时间的运营活动，而由于活动周期存在叠加情况，因此，用当前样本数据很难反映出当前模型的效果，不能保证模型的预测准确率。

发明内容

本申请实施例提供一种模型评估方法、装置及计算机可读存储介质，能够提高预测模型对当前数据的预测精度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种模型评估方法，包括：

获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；

利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；

基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息；

当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型。

本申请实施例提供一种模型评估装置，包括：

第一获取模块，用于获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；

预测处理模块，用于利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；

第一确定模块，用于基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息；

第二确定模块，用于当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型。

在一些实施例中，该第一预测结果和该第二预测结果为二值化的向量，该第一确定模块，还用于：

基于该第一预测结果确定在该当前时间周期中预测为正样本的第一用户集合；

基于该第一预测结果和该第一标签信息确定在该当前时间周期中正确预测为正样本的第二用户集合；

基于该第二预测结果和该第二标签信息确定在该上一个时间周期中错误预测为负样本的第三用户集合；

基于该第一用户集合、该第二用户集合和该第三用户集合确定该初步训练好的预测模型在该上一个时间周期的影响下，该当前时间周期的查准率。

在一些实施例中，该第一确定模块，还用于：

确定该第一用户集合和该第三用户集合的第一交集；

确定该第二用户集合和该第三用户集合的第二交集；

确定该第一用户集合对应的第一用户个数、该第二用户集合对应的第二用户个数、该第三用户集合对应的第三用户个数；

确定该第一交集对应的第四用户个数和该第二交集对应的第五用户个数；

基于该第一用户个数、该第二用户个数、该第三用户个数、该第四用户个数和该第五用户个数，确定该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查准率。

在一些实施例中，该第一确定模块，还用于：

基于该第一标签信息，确定在该当前时间周期内实际为正样本的第四用户集合；

确定该第三用户集合和该第四用户集合的第三并集；

确定该第四用户集合对应的第六用户个数和该第三并集对应的第七用户个数；

基于该第二用户个数、该第三用户个数、该第五用户个数、该第六用户个数和该第七用户个数，确定该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查全率。

在一些实施例中，该装置还包括：

第二获取模块，还用于获取各个用户标识对应的日志数据，基于该日志数据确定训练数据，该训练数据包括多个训练特征数据和各个训练特征数据对应的营销场景标签；

第三获取模块，用于获取预设营销场景类型对应的训练特征数据和该预设营销场景类型对应的预设模型；

第一训练模块，用于利用该预设营销场景类型对应的训练特征数据对该预设营销场景类型对应的预设模型进行迭代训练；

第四获取模块，用于在确定达到迭代结束条件时，获取该预设营销场景类型对应的初步训练好的预测模型。

在一些实施例中，该第二获取模块，还用于：

基于该日志数据确定各个用户标识对应的历史特征数据和营销场景标签；

基于该营销场景标签确定确定各个营销场景类型对应的历史特征数据；

将该各个营销场景类型对应的历史特征数据进行划分，得到该各个营销场景类型对应的训练特征数据和该各个营销场景类型对应的测试数据。

在一些实施例中，该装置还包括：

第五获取模块，用于当确定该评估信息未达到该评估阈值时，再次获取该预测模型对应的新的训练数据；

第二训练模块，用于利用该新的训练数据对该初步训练好的预测模型继续进行训练，直至该评估信息达到该评估阈值，得到最终训练好的预测模型。

在一些实施例中，该装置还包括：

第六获取模块，用于获取多个营销场景类型分别对应的训练好的预测模型和多个用户标识在当前时间周期的多个用户特征数据；

模型预测模块，用于将该多个用户特征数据分别输入各个预测模型，得到各个营销场景类型对应的预测向量；

第三确定模块，用于基于各个营销场景类型对应的预测向量确定各个用户标识对应的目标营销场景类型。

在一些实施例中，该装置还包括：

第四确定模块，用于在确定达到推荐时机时，基于该各个用户标识对应的目标营销场景类型，确定该各个用户标识对应的目标推荐信息；

发送模块，用于向该各个用户标识对应的终端发送对应的目标推荐信息。

本申请实施例提供一种计算机设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行该存储器中存储的可执行指令时，实现本申请实施例提供的模型评估方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的模型评估方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现本申请实施例提供的模型评估方法。

本申请实施例具有以下有益效果：

在需要对初步训练好的预测模型进行模型评估时，首先获取当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；然后利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；并基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息，由于在计算初步训练好的预测模型在当前时间周期的评估信息时，是考虑了上一个时间周期的影响，能够更加准确反映当前数据对模型的影响，当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型，从而能够保证在多种业务场景、多种活动周期叠加的应用场景中，有效将每一个业务场景及每一个活动周期的模型效果进行有效区分，保证预测模型的预测结果的准确性。

附图说明

图1是本申请实施例提供的推荐系统100的网络架构示意图；

图2是本申请实施例提供的服务器400的结构示意图；

图3是本申请实施例提供的模型评估方法的一种实现流程示意图；

图4是本申请实施例提供的模型评估方法的另一种实现流程示意图；

图5是本申请实施例提供的模型评估方法的再一种实现流程示意图；

图6是本申请实施例提供的模型评估方法的其他一种实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）查全率，在真实为正的样本中模型成功预测出的样本所占比例。

2）查准率，在预测为正的样本中真实类别为正的样本所占比例。

3）混淆矩阵，一种用来呈现监督学习算法性能可视化效果的特定矩阵，将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总，其每一列代表预测值，每一行代表的是实际的类别。

4）递归混淆矩阵，t时刻的混淆矩阵中的计算指标（查全率、查准率）受到t-1时刻的混淆矩阵的影响。

5）Sigmoid函数，一类定义为如下形式的函数：

。

6）逻辑回归（LR，Logistic Regression）模型，通过在线性回归模型中引入Sigmoid函数，将线性回归的不确定范围的连续输出值映射到（0，1）范围内，将线性回归模型转化为一个概率预测模型。

为了更好地理解本申请实施例提供的模型评估方法，首先对相关技术中的模型评估方法及存在的确定进行说明。

相关技术中的模型评估方法，在实现时是利用当前统计周期（T）的训练样本数据进行机器学习模型训练，并采用当前周期的测试样本数据计算相关的模型评估指标（查全率、查准率、AUC等）评估模型的好坏。以查全率（Recall Rate）、查准率（Precision Rate）为例，相关技术中，模型评估方案的评估指标查准率利用公式（1-1）确定：

（1-1）；

查全率利用公式（1-2）确定：

（1-2）；

其中，TP表示实际为“1”，预测为“1”的统计个数；FN表示实际为“1”，预测为“0”的统计个数；FP表示实际为“0”，预测为“1”的统计个数；TN表示实际为“0”，预测为“0”的统计个数。

相关技术提供的模型评估方法存在的缺点包括以下几点：

第一、不能体现上一期（T-1期）运营活动（营销活动）对当前周期（T期）的影响。相关技术中的模型评估方法是基于当前周期的样本数据进行模型评估，然而，在运营活动中，由于运营策略的影响，上一周期的运营活动周期往往会与当前周期的运营活动存在时间叠加的情况，因此，上一周期的样本数据往往会影响当前周期的模型效果。例如，在出行服务的优惠加油活动中，运营人员为了提高车主使用优惠加油的功能，往往会使用优惠券营销的策略，而优惠券的使用周期一般会设置在7到14天内，活动周期一般设置在7天内，那么就造成了上一周期的运营活动对当前周期的运营活动产生正向影响。从而，当前周期的模型效果受到上一周期模型效果的影响。

第二、相关技术中模型评估方法为静态数据的模型评估方法，不能排除连续时间周期下运营活动叠加造成的效果叠加，不能准确反映当前运营活动对当前模型效果的贡献。

本申请实施例提供一种模型评估方法、装置、设备和计算机可读存储介质，能够应用于多种业务场景、多种活动周期叠加的模型效果评估当中，能够有效将每一个业务场景及每一个活动周期的模型效果进行有效区分，并且能够准确反映每一个业务场景、各个活动周期模型的效果。下面说明本申请实施例提供的计算机设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备）等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的推荐系统100的网络架构示意图，该推荐系统包括终端200（在图1中示例性示出终端200-1和终端200-2）、网络300和服务器400，其中，终端200通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200中可以安装有各种各样的应用程序，例如即时通讯应用程序、第三方支付应用程序、视频观看应用程序、购物应用程序等。终端200可以通过即时通讯应用程序与亲朋好友或者同事进行生活或工作上的即时通讯，可以通过第三方支付应用程序实现电子支付，通过购物应用程序进行网上购物等等。在本申请实施例中，即时通讯应用程序或者第三方支付应用程序还可以嵌入实现其他业务功能的小程序，例如可以是线上打车小程序、外卖小程序、加油小程序等等。

服务器400为了能够为终端200提供精准的推荐信息，需要利用预测模型对终端200对应用户所处的营销场景进行预测，而预测模型需要在评估信息达标后才能够上线使用，在本申请实施例中，为了提高模型评估的精确度，服务器400在对预设的预测模型进行初步训练，得到初步训练好的预测模型后，会利用初步训练好的预测模型对当前时间周期的第一样本数据和上一时间周期的第二样本数据进行预测处理，分别得到第一预测结果和第二预测结果，然后再基于第一预测结果、第一样本数据对应的第一标签信息、第二预测结果、第二样本数据对应的第二标签信息确定初步训练好的预测模型的评估信息，在确定该评估信息达到预设的评估阈值后，将该初步训练好的预测模型确定为最终训练好的预测模型。然后基于该预测模型对终端200的下一个时间周期所处的营销场景进行预测，并基于确定出的目标营销场景，确定对应的目标推荐信息，并将目标推荐信息发送给终端200，在图1中示出服务器向终端200-1发送目标推荐信息1，向终端200-2发送目标推荐信息2。

在一些实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端200可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2为本申请实施例提供的服务器400的结构示意图，图2所示的服务器400包括：至少一个处理器410、至少一个网络接口420、总线系统430和存储器440。服务器400中的各个组件通过总线系统430耦合在一起。可理解，总线系统430用于实现这些组件之间的连接通信。总线系统430除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统430。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器440可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器440可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器440包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器440旨在包括任意适合类型的存储器。

在一些实施例中，存储器440能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统441，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块442，用于经由一个或多个（有线或无线）网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器440中的模型评估装置443，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块4431、预测处理模块4432、第一确定模块4433和第二确定模块4434，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的模型评估方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的模型评估方法。

本申请实施例提供一种模型评估方法，该模型评估方法应用于服务器，图3是本申请实施例提供的模型评估方法的一种实现流程示意图，以下将结合图3对本申请实施例提供的模型评估方法的各个步骤进行说明。

步骤S101，获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据。

不同的营销场景类型对应有不同的初步训练好的预测模型，其中营销场景类型可以包括拉新场景类型、流失预警场景类型、流失挽回场景类型、付费拉新场景类型、付费回流场景类型等。该初步训练好的预测模型可以是某一种预设好的营销场景类型对应的模型，在本申请实施例中，以该初步训练好的预测模型为是流失预警场景类型对应的初步训练好的预测模型为例进行说明。该预测模型可以是逻辑二分类模型，还可以是神经网络模型。

在本申请实施例中，假设当前时间周期为第K个时间周期，当前时间周期的上一个时间周期为第（K-1）个时间周期。第K个时间周期的第一样本数据可以包括各个用户标识对应的身份特征数据、第（K-1）个时间周期的消费特征数据和活跃特征数据、该各个用户标识在第K个时间周期的营销场景标签；第（K-1）个时间周期的第二样本数据可以包括各个用户标识对应的身份特征数据、第（K-2）个时间周期的消费特征数据和活跃特征数据、该各个用户标识在第（K-1）个时间周期的营销场景标签。

步骤S102，利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果。

该步骤在实现时，是将第一样本数据中各个用户标识对应的身份特征数据、第（K-1）个时间周期的消费特征数据和活跃特征数据输入到初步训练好的预测模型，得到当前时间周期对应的第一预测结果，该第一预测结果为一个预测向量，假设第一样本数据中有N个用户标识，那么第一预测结果为1*N的预测向量，预测向量中的各个预测值表征各个用户标识在当前时间周期内是否处于预设的营销场景类型；将第二样本数据中各个用户标识对应的身份特征数据、第（K-2）个时间周期的消费特征数据和活跃特征数据输入到初步训练好的预测模型，得到上一个时间周期对应的第二预测结果。与第一预测结果类似，第二预测结果也是一预测向量，该预测向量中的各个预测值表征各个用户标识在上一个时间周期内是否处于预设的营销场景类型。

步骤S103，基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息。

该评估信息可以是初步训练好的预测模型的查全率、查准率等。当前时间周期的第一标签信息为一个标签向量，该标签向量中的各个标签值表征各个用户标识实际是否为预设的营销场景类型，仍以预设的营销场景类型为流失预警场景类型为例，各个标签值表征各个用户标识实际是否为流失预警场景类型。该步骤在实现时，可以基于第一标签信息和第一预测结果构建当前周期对应的混淆矩阵，然后基于第二标签信息和第二预测结果构建上一个时间周期对应的混淆矩阵，进而基于当前周期对应的混合矩阵和上一个时间周期对应的混淆矩阵，确定初步训练好的预测模型在当前时间周期的评估信息，由于在计算当前时间周期的评估信息时，是考虑了上一个时间周期的影响，因此计算出的评估信息更加能够反映模型的实际准确性。

步骤S104，当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型。

在一些实施例中，在步骤S104之前，首先获取预设的评估阈值，然后确定初步训练好的预测模型在当前时间周期的评估信息是否达到评估阈值，在达到评估阈值时，认为该初步训练好的预测模型已经达到评估标准，可以进行线上预测，将该初步训练好的预测模型确定为最终训练好的预测模型。

在本申请实施例提供的模型评估方法中，在需要对初步训练好的预测模型进行模型评估时，首先获取当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；然后利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；并基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息，由于在计算初步训练好的预测模型在当前时间周期的评估信息时，是考虑了上一个时间周期的影响，能够更加准确反映当前数据对模型的影响，当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型，从而能够保证在多种业务场景、多种活动周期叠加的应用场景中，有效将每一个业务场景及每一个活动周期的模型效果进行有效区分，保证预测模型的预测结果的准确性。

在一些实施例中，该第一预测结果和该第二预测结果为二值化的向量，当评估信息为查准率时，上述步骤S102“基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息”，可以通过以下步骤实现：

步骤S1021A，基于该第一预测结果确定在该当前时间周期中预测为正样本的第一用户集合。

由于第一预测结果为二值化预测向量，其中，当某一用户标识对应的第一预测值为1时，确定该用户标识在当前时间周期对应的样本数据为预测正样本，表征该用户标识在当前时间周期的预测营销场景为预设营销场景（也即假设的流失预警场景）；当某一用户对应的第一预测值为0时，确定该用户标识在当前时间周期对应的样本数据为预测负样本，表征该用户标识在当前时间周期的预测营销场景不为预设营销场景。

该步骤在实现时，将第一预测结果中，第一预测值为1的用户标识确定为第一用户集合。

步骤S1022A，基于该第一预测结果和该第一标签信息确定在该当前时间周期中正确预测为正样本的第二用户集合。

在本申请实施例中，第一标签信息也为二值化向量，当某一用户标识在当前时间周期的实际营销场景为预设场景类型时，该用户标识对应的第一标签值为1，当某一用户标识在当前时间周期的实际营销场景不为预设场景类型时，该用户标识对应的第一标签值为0。

该步骤在实现时，是将第一预测值为1，且第一标签值也为1的用户标识确定为第二用户集合。

步骤S1023A，基于该第二预测结果和该第二标签信息确定在该上一个时间周期中错误预测为负样本的第三用户集合。

在本申请实施例中，第二预测结果也为二值化预测向量，其中，当某一用户标识对应的第二预测值为1时，确定该用户标识在当前时间周期的上一个时间对应的样本数据为预测正样本，表征该用户标识在当前时间周期的上一个时间周期的预测营销场景为预设营销场景（也即假设的流失预警场景）；当某一用户对应的第二预测值为0时，确定该用户标识在当前时间周期的上一个时间周期对应的样本数据为预测负样本，表征该用户标识在当前时间周期的上一个时间周期的预测营销场景不为预设营销场景。第二标签信息也为二值化向量，当某一用户标识在当前时间周期的上一个时间周期的实际营销场景为预设场景类型时，该用户标识对应的第二标签值为1，当某一用户标识在当前时间周期的上一个时间周期的实际营销场景不为预设场景类型时，该用户标识对应的第二标签值为0。

该步骤在实现时，是将第二预测值为0，且第二标签值为1的用户标识确定为第三用户集合。

步骤S1024A，基于该第一用户集合、该第二用户集合和该第三用户集合确定该初步训练好的预测模型在该上一个时间周期的影响下，该当前时间周期的查准率。

该步骤在实现时，可以通过以下步骤实现：

步骤S241，确定该第一用户集合和该第三用户集合的第一交集。

由于第一交集为第一用户集合和第三用户集合的交集，那么第一交集中包括的是第一预测值为1、第二预测值为0，且第二标签值为1的用户标识。

步骤S242，确定该第二用户集合和该第三用户集合的第二交集。

第二交集为第二用户集合和第三用户集合的第二交集，那么第二交集包括的是第一预测值为1、第一标签值为1、第二预测值为0，且第二标签值为1的用户标识。

步骤S243，确定该第一用户集合对应的第一用户个数、该第二用户集合对应的第二用户个数、该第三用户集合对应的第三用户个数。

在本申请实施例中，第一用户集合对应的第一用户个数记为TPt+FPt，第二用户集合对应的第二用户个数记为TPt，第三用户集合对应的第三用户个数FNt-1。

步骤S244，确定该第一交集对应的第四用户个数和该第二交集对应的第五用户个数。

第一交集对应的第四用户个数记为TPt|t-1+FPt|t-1，第二交集对应的第五用户个数记为TPt|t-1。

步骤S245，基于该第一用户个数、该第二用户个数、该第三用户个数、该第四用户个数和该第五用户个数，确定该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查准率。

在实际实现时，可以通过公式（2-1）确定初步训练好的预测模型在上一时间周期影响下，在当前时间周期的查准率：

（2-1）；

通过上述步骤S1021A至步骤S1024A能够计算出该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查准率，并且在计算时，分子为在该当前时间周期中正确预测为正样本的或者在该上一个时间周期中错误预测为负样本的用户标识的总和，不包括同时存在于第一用户集合和第二用户集合的用户，分母为在该当前时间周期中预测为正样本或者在该上一个时间周期中错误预测为负样本的用户标识的总和，不包括同时存在与第一用户集合和第三用户集合的用户，这样就能够考虑了上一个时间周期的影响，但是又剔除了上一个时间周期对当前时间周期的叠加影响，能够有效将不同时间周期的模型评估信息进行有效区分，提高模型评估信息的准确性。

在一些实施例中，当评估信息为查全率时，上述步骤S102“基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息”，可以通过以下步骤实现：

步骤S1021B，基于该第一标签信息，确定在该当前时间周期内实际为正样本的第四用户集合。

在实现时，将第一标签值为1的用户标识确定为第四用户集合。

步骤S1022B，确定该第三用户集合和该第四用户集合的第三并集。

第三并集为第三用户集合和第四用户集合的并集，那么第三并集包括的是第一标签值为1、第二预测值为0，且第二标签值为1的用户标识。

步骤S1023B，确定该第四用户集合对应的第六用户个数和该第三并集对应的第七用户个数。

在本申请实施例中，第六用户个数记为TPt+FNt，第七用户个数记为TPt|t-1+FNt|t-1。

步骤S1024B，基于该第二用户个数、该第三用户个数、该第五用户个数、该第六用户个数和该第七用户个数，确定该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查全率。

在实现时，可以通过公式（2-2）确定初步训练好的预测模型在上一时间周期影响下，在当前时间周期的查全率：

（2-2）；

通过上述步骤S1021B至步骤S1024B能够计算出该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的查全率，并且在计算时，分子为在该当前时间周期中正确预测为正样本的或者在该上一个时间周期中错误预测为负样本的用户标识的总和，不包括同时存在于第一用户集合和第二用户集合的用户，分母为在该当前时间周期中实际为正样本（第四用户集合）、或者在该上一个时间周期中错误预测为负样本（第三用户集合）的用户标识的总和，而不包括同时存在与第四用户集合和第三用户集合（也即第三并集）这样就能够考虑了上一个时间周期的影响，但是又剔除了上一个时间周期对当前时间周期的叠加影响，能够有效将不同时间周期的模型评估信息进行有效区分，提高模型评估信息的准确性。

在一些实施例中，在步骤S101之前需要通过以下步骤对预设的预测模型进行训练，得到初步训练好的预测模型：

步骤S001，获取各个用户标识对应的日志数据，基于该日志数据确定训练数据。

各个用户标识对应的日志数据可以是预设时长内的日志数据，例如可以是从当前时刻起之前一周的日志数据，还可以是从当前时刻起之前五天的日志数据，该日志数据基于各个用户标识在该预设时长内登录以及使用对应应用程序或者小程序所产生的数据。

在本申请实施例中，在得到日志数据之后，首先对日志数据进行数据处理，得到各个用户标识的历史特征数据和营销场景标签，进而，将各个用户标识对应的历史特征数据营销场景标签进行划分，分为训练特征数据和测试特征数据。其中，该训练数据包括多个训练特征数据和各个训练特征数据对应的营销场景标签。

步骤S002，获取预设营销场景类型对应的训练特征数据和该预设营销场景类型对应的预设模型。

预设营销场景类型可以是拉新场景类型、流失预警场景类型、流失挽回场景类型、付费拉新场景类型、付费回流场景类型中的一个或多个。

步骤S003，利用该预设营销场景类型对应的训练特征数据对该预设营销场景类型对应的预设模型进行迭代训练。

在该步骤中，将预设营销场景类型对应的训练特征数据输入到对应的预设模型中，得到各个用户标识的预测结果，然后利用用户标识的营销场景标签和该预测结果对预设模型进行反向传播训练，从而对预设模型的参数进行调整。在一些实施例中，还可以是利用梯度下降法对预设营销场景类型对应的预设模型进行迭代训练，在达到迭代结束条件时，得到初步训练好的预测模型。

步骤S004，在确定达到迭代结束条件时，获取初步训练好的预测模型。

这里，迭代结束条件可以是是达到预设的迭代次数，还可以是达到目标函数的最小值。在确定达到迭代结束条件时，获取初步训练好的预测模型。

在一些实施例中，上述步骤S001中的“基于该日志数据确定训练数据”可以通过以下步骤实现：

步骤S0011，基于该日志数据确定各个用户标识对应的历史特征数据和营销场景标签。

该步骤S0011，可以通过以下步骤实现：

步骤S0111，基于该各个用户标识对应的日志数据，确定该各个用户标识对应的身份特征数据、该各个用户标识在第（K-1）个时间周期的消费特征数据和活跃特征数据。

在本申请实施例中，获取的日志数据是包括从用户注册后的所有日志数据还可以是多个时间周期的数据，例如至少包括三个时间周期，可以是五个时间周期，还可以是十个时间周期。

其中一个时间周期可以为预设时长，例如可以为24个小时，可以为12个小时、三天、五天等。假设当前时间周期为第K期，那么第（K-1）个时间周期为当前时间周期的上一个时间周期。用户标识对应的身份特征数据可以包括用户标识、性别、年龄、所在区域等。在第（K-1）个时间周期的消费特征数据可以包括：在第（K-1）个时间周期内的充值金额、消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等；在第（K-1）个时间周期的活跃特征数据包括：在第（K-1）个时间周期内的活跃天数、活跃时长、活跃功能数量、注册时间距离当前时间天数间隔。

步骤S0112，基于用户标识对应的日志数据，如果确定在第K个时间周期之前未进行过登陆，确定该用户标识的用户场景标签为拉新场景。

在该步骤中，如果在第K个时间周期之前为进行过登陆，说明用户还从未使用过该应用程序的各项业务功能，为新用户，因此此时确定该用户标识的用户场景标签为拉新场景。

步骤S0113，如果确定在第（K-1）个时间周期进行过登陆，在该第K个时间周期未进行登录，确定该用户标识的用户场景标签为流失预警场景。

如果在第（K-1）个时间周期进行过登陆，而第K个时间周期未进行登录，那么说明用户可能会存在流失风险，因此将该用户标识的用户场景标签确定为流失预警场景。

步骤S0114，如果确定在第（K-2）个时间周期进行过登陆，在该第（K-1）个时间周期未进行登录，在该第K个时间周期进行登录，确定该用户标识的用户场景标签为流失挽回场景。

如果在第（K-2）个时间周期进行过登陆，而在第（K-1）个时间周期未进行登录，在第K个时间周期又进行了登录，说明用户可能会流失，但是又没有流失，因此确定该用户标识的用户场景标签为流失挽回场景。

步骤S0115，如果确定在第K个时间周期之前进行过登陆但未消费，在第K个时间周期进行登录并消费，确定该用户标识的用户场景标签为付费新增场景。

步骤S0116，如果确定在第（K-2）个时间周期进行过登陆并消费，在第（K-1）个时间周期进行登录未消费，在第K个时间周期进行登录并消费，确定该用户标识的用户场景标签为付费回流场景。

步骤S0012，基于该营销场景标签确定确定各个营销场景类型对应的历史特征数据。

本申请实施例中，可以首先将各个用户标识对应的历史特征数据分为稀疏型特征和稠密型特征，其中稀疏型特征可以是ID类、标识类的特征，此时对该稀疏型特征进行onehot处理，能够通过标记特征所在位置，从而增加识别度；稠密性特征主要是连续性的数值特征，一般采用PCA去相关性处理、归一化（标准化）处理、特征离散化处理等，能够消除量纲的影响，同样也是为了提高模型的识别度。

在对稀疏型特征和稠密型特征进行相应处理之后，按照营销场景标签将处理的的历史特征数据进行分类，从而得到各个营销场景类型对应的历史特征数据。

步骤S0013，将该各个营销场景类型对应的历史特征数据进行划分，得到该各个营销场景类型对应的训练特征数据和该各个营销场景类型对应的测试数据。

该步骤在实现时，可以是将各个营销场景类型对应的历史特征数据分别按一定比例随机切分，从而得到各个营销场景类型对应的训练特征数据和各个营销场景类型对应的测试数据。例如，可以是将训练数据和测试数据按照8:2的比例随机划分，从而得到各个营销场景对应的训练特征数据和测试数据。

在得到各个营销场景类型对应的训练特征数据后，可以利用训练数据对预设模型进行训练，在达到迭代结束条件时，即得到初步训练好的预测模型。在一些实施例中，在达到迭代结束条件后，利用测试数据用于对此时得到的预测模型进行评估，以确定此时得到的预测模型是否满足评估标准，如果不满足则继续训练，直至达到评估标准，得到初步训练好的预测模型，从而使得初步训练好的预测模型是满足评估标准的，从而保证初步训练好的预测模型的预测结果的准确性。

在一些实施例中，如图4所示，在步骤S104之前，还可以执行以下步骤：

步骤S201，确定该评估信息是否达到评估阈值。

其中，评估信息可以包括查全率、查准率、AUC中的至少之一，当确定评估信息达到评估阈值时，进入步骤S104；当确定评估信息未达到评估阈值时，进入步骤S202。

步骤S202，再次获取该初步训练好的预测模型对应的新的训练数据。

步骤S203，利用该新的训练数据对该初步训练好的预测模型继续进行训练，直至该评估信息达到该评估阈值，得到最终训练好的预测模型。

该步骤在实现时，是利用新的训练数据中的训练特征数据对初步训练好的预测模型继续训练，直至达到迭代结束条件，然后再次利用步骤S101至步骤S103获取再次初步训练好的预测模型的评估信息，并确定再次初步训练好的预测模型的评估信息是否达到评估阈值，在达到评估阈值时，得到训练好的预测模型，在未达到评估阈值时，继续重复步骤S203和步骤S203，直至得到训练好的预测模型。

基于前述的实施例，本申请实施例再提供一种模型评估方法，应用于图1所示的网络架构，图5为本申请实施例提供的模型评估方法的再一种实现流程示意图，如图5所示，该方法包括：

步骤S301，服务器获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据。

步骤S302，服务器利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果。

步骤S303，服务器基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该上一个时间周期的影响下，在该当前时间周期的评估信息。

步骤S304，服务器确定该初步训练好的预测模型的评估信息是否达到评估阈值。

其中，确定该初步训练好的预测模型的评估信息未达到评估阈值时，进入步骤S305；确定该初步训练好的额预测模型的评估信息达到评估阈值时，进入步骤S307。

步骤S305，服务器再次获取该预测模型对应的新的训练数据。

步骤S306，服务器利用该新的训练数据对该初步训练好的预测模型继续进行训练，直至该评估信息达到该评估阈值，得到最终训练好的预测模型。

在该步骤之后，进入步骤S308。

步骤S307，服务器将该初步训练好的预测模型确定为最终训练好的预测模型。

上述步骤S301至步骤S307的实现方式与步骤S101至步骤S104以及步骤S201至步骤S203的实现方式是相同的，在实际实现时可以参考步骤S101至步骤S104以及步骤S201至步骤S203的实现方式。

步骤S308，服务器获取多个营销场景类型分别对应的训练好的预测模型和多个用户标识在当前时间周期的多个用户特征数据。

该多个营销场景类型可以包括：拉新场景类型、流失预警场景类型、流失挽回场景类型、付费拉新场景类型、付费回流场景类型，在该步骤中可以是分别获取上述五个营销场景类型对应的训练好的预测模型。

用户标识可以是用户的注册ID，不同于账号，该用户标识具有唯一性。用户特征数据可以包括身份特征数据、消费特征数据、活跃特征数据等等。其中，身份特征数据可以包括：年龄，性别、所在地区等，消费特征数据可以包括充值金额、消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等；活跃特征数据包括：活跃天数、活跃时长、活跃功能数量、注册时间距离当前时间天数间隔。

步骤S309，服务器将该多个用户特征数据分别输入各个训练好的预测模型，得到各个营销场景类型对应的预测向量。

各个营销场景类型对应的预测向量均为二值化向量，当用户标识在某一营销场景类型对应的预测向量中的预测值为1时，说明预测用户标识在当前时间周期的下一个时间周期对应该营销场景类型。

步骤S310，服务器基于各个营销场景类型对应的预测向量确定各个用户标识对应的目标营销场景类型。

该步骤在实现时，可以将各个营销场景类型对应的预测向量构建预测矩阵，每一行表示一个营销场景类型对应的预测向量，每一列表示一个用户标识在各个营销场景类型的预测值。在该步骤中，可以是将一个用户标识的预测值为1的营销场景类型确定为目标营销场景类型。

步骤S311，终端响应于接收到的启动指令，启动出行服务应用程序。

该启动指令可以是用户点击出行服务应用程序的图标触发的，还可以是用户做出启动出行服务应用程序的手势触发的，还可以是基于用户发出的启动出行服务应用程序的语音触发的。

步骤S312，服务器在监测到终端启动应用程序并登陆时，确定达到推荐时机。

在本申请实施例中，以终端启动应用程序并登陆为例说明达到推荐时机，在一些实施例中，可以是在确定有新的推荐信息发布，也即确定推荐信息更新时或者达到预设的推荐间隔时长时，确定达到推荐时机。

步骤S313，服务器基于该目标营销场景类型，确定该各个用户标识对应的目标推荐信息。

由于不同的营销场景类型对应有不同的推荐信息，比如，对于拉新场景类型，推荐信息可以是首单优惠信息，对于流失预警场景类型，推荐信息可以是消费打折优惠信息，还可以是推荐好友优惠信息等。在确定出用户标识对应的目标营销场景类型后，即可基于目标营销场景类型确定出各个用户标识对应的目标推荐信息。

步骤S314，服务器向该各个用户标识对应的终端发送对应的目标推荐信息。

在图5中示例性示出服务器向其中一个终端发送该终端对应的目标推荐信息。

步骤S315，终端呈现接收到的推荐信息。

在实现时，终端可以在自身的显示界面上加载浮层，并在该浮层呈现接收到的推荐信息。在本申请实施例中，推荐信息可以是优惠券信息，还可以是邀请好友领取优惠券信息等等。

在本申请实施例提供的模型评估方法中，在需要对初步训练好的预测模型进行模型评估时，首先获取当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；然后利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；并基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息，由于在计算初步训练好的预测模型在当前时间周期的评估信息时，是考虑了上一个时间周期的影响，能够更加准确反映当前数据对模型的影响，当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型，服务器在预测下一个时间周期的推荐信息时，是利用各个营销场景类型对应的训练好的预测模型，确定出各个用户标识对应的目标营销场景，并基于各个用户标识对应的目标营销场景类型，确定对应的目标推荐信息，如此能够保证在多种业务场景、多种活动周期叠加的应用场景中，有效将每一个业务场景及每一个活动周期的模型效果进行有效区分，提高信息推荐的精准度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在本申请实施例中，以车企数字化营销场景作为例进行说明。车企数字化营销场景可以包括打车业务、加油业务等等。优惠加油业务是车企数字化营销的一个典型案例，该业务产品模块可以是嵌入在即时通讯应用程序或者在数字支付应用程序中的小程序中，还可以是单独的应用程序。

为了提升车主在优惠加油模块的使用率，企业运营人员经常采用各种营销活动的推荐，流失预警场景就是运营企业中经常会使用的一种运营活动场景。在流失预警场景下，本申请实施例采用基于递归混淆矩阵的模型评估方案，能够有效排除上期活动叠加对当期模型的影响，准确归因每一期活动对其当前周期模型效果。

图6是本申请实施例提供的模型评估方法的再一种实现流程示意图，如图6所示，该流程包括以下七个步骤实现：

步骤S601，数据处理。

该步骤在实现时，输入车主日志数据，将车主日志数据分别处理成车主场景标签、车主特征数据。如图6所示，在该步骤中，将车主日志数据处理为T-1期用户标签、T-1期用户特征、T期用户标签、T期用户特征。

T-1周期的流失预警场景标签

构建如下：T-2期车主登录优惠加油功能模块，T-1期没有登录该模块，表示该车主为第T-1期在优惠加油模块的流失车主，标记为1；否则，T-2期车主登录优惠加油功能模块，T-1期也登录该模块，表示该车主为第T-1期在优惠加油模块的留存车主，标记为0。

T周期的流失预警场景标签

构建如下：T-1期车主登录优惠加油功能模块，T期没有登录该模块，表示该车主为第T期在优惠加油模块的流失车主，标记为1；否则，T-1期车主登录优惠加油功能模块，T期也登录该模块，表示该车主为第T期在优惠加油模块的留存车主，标记为0。

T期的车主特征（feature）

主要包括：车主性别、年龄、地域等基础属性数据；在T期内的活跃天数、活跃时长、活跃功能数量、注册时间距离当前时间天数间隔等活跃属性数据；充值金额、消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等充值属性数据；车主功能点击、车主领取礼包/礼券类型（数量、次数、价值）、使用礼包/礼券类型（数量、价值）、过期礼包/礼券类型（数量、价值）等优惠券属性。

T-1期的车主特征（feature）

主要包括：车主性别、年龄、地域等基础属性数据；活跃天数、活跃时长、活跃功能数量、注册时间距离当前时间天数间隔等活跃属性数据；充值金额、消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等充值属性数据；车主功能点击、车主领取礼包/礼券类型（数量、次数、价值）、使用礼包/礼券类型（数量、价值）、过期礼包/礼券类型（数量、价值）等优惠券属性。

T-2期的车主特征（feature）

步骤S602、构建样本。

在该步骤中，构建的样本包括训练样本、测试样本、预测样本、T-1期全量样本。

在构建训练样本及测试样本时，输入T-1期的车主特征（feature）

及T期的车主标签

根据userid匹配构建车主样本数据

，并将构建出的车主样本数据进行区分，得到稀疏型特征和稠密型特征。然后对稀疏型特征进行onehot处理，对稠密型特征进行PCA去相关性处理、归一化（标准化）处理、特征离散化处理等。将处理后的稀疏特征和处理后的稠密特征及车主分类标签，按一定比例随机切分，得到训练样本

（比例为а）和测试样本

（比例为1-а），例如，按照通用经验将样本随机切分为训练样本：测试样本=8:2（即，按8:2的比例随机切分训练样本和测试样本）。

在构建预测样本时，将T时期的特征

作为预测样本，并将预测样本进行区分，得到稀疏型特征和稠密型特征。然后对稀疏型特征进行onehot处理，对稠密型特征进行PCA去相关性处理、归一化（标准化）处理、特征离散化处理等。

在构建T-1期全量样本时，输入T-2期的车主特征（feature）

及T-1期的车主标签

根据userid匹配构建T-1期车主全量样本数据

。

步骤S603，对模型进行训练测试。

利用步骤S602得到的训练样本

、测试样本

，采用LR二分类模型对每个场景的训练和测试样本进行模型训练和测试，如果T期测评指标（查全率、查准率、AUC等指标）达到测评效果，则分别保存模型的模型权重向量

。

步骤S604，获取评估标签。

输入步骤S603得到的模型权重向量

，输入步骤S602得到的T期全量样本

，采用LR二分类算法并按照0.5的阈值划分标签（其中，概率大于等于0.5，记为1；小于0.5记为0），得到T期全量样本的模型评估指标序列

（也即第T期的评估标签）。同理，输入步骤S602得到的T-1期全量样本

，采用LR二分类算法并按照0.5的阈值划分标签，得到T-1期全量样本的模型评估指标序列

（也即第T-1的评估标签）。

步骤S605，构建查全率、查准率公式。

在实现时，可以构建递归混淆矩阵，然后利用公式（2-1）确定在T-1期干扰下，T期的查准率可以用：

（2-1）；

在T-1期干扰下，T期的查全率可以用公式（2-2）确定：

（2-2）；

其中，TPt表示T期实际为“1”，预测为“1”；FNt表示T期实际为“1”，预测为“0”；FPt表示T期实际为“0”，预测为“1”；Nt表示T期实际为“0”，预测为“0”；TPt-1表示T-1期实际为“1”，预测为“1”；FNt-1表示T-1期实际为“1”，预测为“0”；FPt-1表示T-1期实际为“0”，预测为“1”；TNt-1表示T-1期实际为“0”，预测为“0”；TPt|t-1表示T-1期实际为“1”，预测为“0”，在T期实际为“1”，预测为“1”；FNt|t-1表示T-1期实际为“1”，预测为“0”，在T期实际为“1”，预测为“0”；FPt|t-1表示T-1期实际为“1”，预测为“0”，在T期实际为“0”，预测为“1”。

步骤S606，模型评估。

输入步骤S604得到的T期全量样本的模型评估指标序列

、T-1期全量样本的模型评估指标序列

、T-1期用户标签数据

、T-1期用户标签数据

。分别计算如下指标：

TPt：T期预测为“1”的用户集与T期的实际为“1”的用户集进行交集后的统计个数；

FNt：T期实际为“1”的用户集与T期预测为“0”的用户集交集后的统计个数；

FPt：T期实际为“0”的用户集与T期预测为“1”的用户集交集后的统计个数；

TNt：T期实际为“0”的用户集与T期预测为“0”的用户集交集后的统计个数；

TPt-1：T-1期预测为“1”的用户集与T-1期的实际为“1”的用户集交集后的统计个数；

FNt-1：T-1期实际为“1”的用户集与T-1期预测为“0”的用户集交集后的统计个数；

FPt-1：T-1期实际为“0”的用户集与T-1期预测为“0”的用户集交集后的统计个数；

TNt-1：T-1期实际为“0”的用户集与T-1期预测为“0”的用户集交集后的统计个数；

TPt|t-1：T-1期实际为“1”且与T-1预测为“0”的用户集进行交集后，再与T期实际为“1”预测为“1”的用户集交集后的统计个数；

FNt|t-1：T-1期实际为“1”且与T-1预测为“0”的用户集进行交集后，再与T期实际为“1”预测为“0”的用户集交集后的统计个数；

FPt|t-1：T-1期实际为“1”且与T-1预测为“0”的用户集进行交集后，再T期实际为“0”预测为“1”的用户集交集后的统计个数。

代入公式（2-1）和公式（2-2）分别得到T-1期影响下，T期的查全率

、查准率

，并重新得到模型评估效果。如果模型达不到目标效果（一般经验，查全率大于等于90%，查准率大于等于85%），则重复步骤S603至步骤S606，直至模型达到目标效果为止。

步骤S607，模型预测。

输入步骤S602中的预测样本

，及步骤S603的模型W。采用LR二分类算法，代入预测样本

及模型W，得到预测概率，并按照0.5的阈值划分标签，概率大于等于0.5，记为1；小于0.5记为0，完成整个模型训练预测，此时得到第T+1期的用户标签。

在本申请实施例中，在模型评估中引入递归混淆矩阵，解决了传统模型的静态评估方法无法评估存在效果叠加影响时候的模型效果归因到当期的问题，能够更加准确反映当前数据对模型的影响；并且能够应用于多种业务场景、多种活动周期叠加的模型效果评估当中，能够有效将每一个业务场景及每一个活动周期的模型效果进行有效区分，能够准确反映每一个业务场景、各个活动周期模型的效果；还能够结合各类场景下的营销推荐活动，能够搭载多种机器学习算法、深度学习算法，且能够合适多种活动场景，具有很好的扩展性。

可以理解的是，在本申请实施例中，涉及到用户信息的内容，例如，用户标识对应的日志数据、样本数据、训练数据等相关的数据，当本申请实施例运用到实际产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的模型评估装置443的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的模型评估装置443中的软件模块可以包括：

第一获取模块4431，用于获取初步训练好的预测模型、当前时间周期的第一样本数据和当前时间周期的上一个时间周期的第二样本数据；

预测处理模块4432，用于利用该初步训练好的预测模型对该第一样本数据和该第二样本数据分别进行预测处理，得到该当前时间周期对应的第一预测结果和该上一个时间周期对应的第二预测结果；

第一确定模块4433，用于基于该当前时间周期的第一标签信息、该第一预测结果、该上一个时间周期的第二标签信息和该第二预测结果，确定该初步训练好的预测模型在该当前时间周期的评估信息；

第二确定模块4434，用于当确定该评估信息达到预设的评估阈值时，将该初步训练好的预测模型确定为最终训练好的预测模型。

在一些实施例中，该第一确定模块，还用于：

确定该第一用户集合和该第三用户集合的第一交集；

确定该第二用户集合和该第三用户集合的第二交集；

在一些实施例中，该第一确定模块，还用于：

确定该第三用户集合和该第四用户集合的第三并集；

在一些实施例中，该装置还包括：

在一些实施例中，该第二获取模块，还用于：

在一些实施例中，该装置还包括：

需要说明的是，本申请实施例针对模型评估装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的模型评估方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的模型评估方法，例如，如图3、图4、图5示出的模型评估方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上该，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种模型评估方法，其特征在于，所述方法包括：

获取初步训练好的预测模型，获取当前时间周期的第一样本数据和所述当前时间周期的上一个时间周期的第二样本数据；

利用所述初步训练好的预测模型对所述第一样本数据和所述第二样本数据分别进行预测处理，得到所述当前时间周期对应的第一预测结果和所述上一个时间周期对应的第二预测结果；

基于所述当前时间周期的第一标签信息、所述第一预测结果、所述上一个时间周期的第二标签信息和所述第二预测结果，确定所述初步训练好的预测模型在所述当前时间周期的评估信息；

当确定所述评估信息达到预设的评估阈值时，将所述初步训练好的预测模型确定为最终训练好的预测模型。

2.根据权利要求1中所述的方法，其特征在于，所述第一预测结果和所述第二预测结果均为二值化的向量，所述基于所述当前时间周期的第一标签信息、所述第一预测结果、所述上一个时间周期的第二标签信息和所述第二预测结果，确定所述初步训练好的预测模型在所述当前时间周期的评估信息，包括：

基于所述第一预测结果确定在所述当前时间周期中预测为正样本的第一用户集合；

基于所述第一预测结果和所述第一标签信息确定在所述当前时间周期中正确预测为正样本的第二用户集合；

基于所述第二预测结果和所述第二标签信息确定在所述上一个时间周期中错误预测为负样本的第三用户集合；

基于所述第一用户集合、所述第二用户集合和所述第三用户集合确定所述初步训练好的预测模型在所述上一个时间周期的影响下，在所述当前时间周期的查准率。

3.根据权利要求2中所述的方法，其特征在于，基于所述第一用户集合、所述第二用户集合和所述第三用户集合确定所述初步训练好的预测模型在所述上一个时间周期的影响下，在所述当前时间周期的查准率，包括：

确定所述第一用户集合和所述第三用户集合的第一交集；

确定所述第二用户集合和所述第三用户集合的第二交集；

确定所述第一用户集合对应的第一用户个数、所述第二用户集合对应的第二用户个数、所述第三用户集合对应的第三用户个数；

确定所述第一交集对应的第四用户个数和所述第二交集对应的第五用户个数；

基于所述第一用户个数、所述第二用户个数、所述第三用户个数、所述第四用户个数和所述第五用户个数，确定所述初步训练好的预测模型在所述上一个时间周期的影响下，在所述当前时间周期的查准率。

4.根据权利要求3中所述的方法，其特征在于，所述基于所述当前时间周期的第一标签信息、所述第一预测结果、所述上一个时间周期的第二标签信息和所述第二预测结果，确定所述初步训练好的预测模型在所述当前时间周期的评估信息，包括：

基于所述第一标签信息，确定在所述当前时间周期内实际为正样本的第四用户集合；

确定所述第三用户集合和所述第四用户集合的第三并集；

确定所述第四用户集合对应的第六用户个数和所述第三并集对应的第七用户个数；

基于所述第二用户个数、所述第三用户个数、所述第五用户个数、所述第六用户个数和所述第七用户个数，确定所述初步训练好的预测模型在所述上一个时间周期的影响下，在所述当前时间周期的查全率。

5.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

获取各个用户标识对应的日志数据，基于所述日志数据确定训练数据，所述训练数据包括多个训练特征数据和各个训练特征数据对应的营销场景标签；

获取预设营销场景类型对应的训练特征数据和所述预设营销场景类型对应的预设模型；

利用所述预设营销场景类型对应的训练特征数据对所述预设营销场景类型对应的预设模型进行迭代训练；

在确定达到迭代结束条件时，获取所述预设营销场景类型对应的初步训练好的预测模型。

6.根据权利要求5中所述的方法，其特征在于，所述基于所述日志数据确定训练数据，包括：

基于所述日志数据确定各个用户标识对应的历史特征数据和营销场景标签；

基于所述营销场景标签确定确定各个营销场景类型对应的历史特征数据；

将所述各个营销场景类型对应的历史特征数据进行划分，得到所述各个营销场景类型对应的训练特征数据和所述各个营销场景类型对应的测试数据。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

当确定所述评估信息未达到所述评估阈值时，再次获取所述初步训练好的预测模型对应的新的训练数据；

利用所述新的训练数据对所述初步训练好的预测模型继续进行训练，直至所述评估信息达到所述评估阈值，得到最终训练好的预测模型。

8.根据权利要1至6任一项所述的方法，其特征在于，所述方法还包括：

获取多个营销场景类型分别对应的训练好的预测模型和多个用户标识在当前时间周期的多个用户特征数据；

将所述多个用户特征数据分别输入各个训练好的预测模型，得到各个营销场景类型对应的预测向量；

基于所述各个营销场景类型对应的预测向量确定各个用户标识对应的目标营销场景类型。

9.根据权利要求8中所述的方法，其特征在于，所述方法还包括：

在确定达到推荐时机时，基于所述各个用户标识对应的目标营销场景类型，确定所述各个用户标识对应的目标推荐信息；

向所述各个用户标识对应的终端发送对应的目标推荐信息。

10.一种模型评估装置，其特征在于，所述装置包括：

预测处理模块，用于利用所述初步训练好的预测模型对所述第一样本数据和所述第二样本数据分别进行预测处理，得到所述当前时间周期对应的第一预测结果和所述上一个时间周期对应的第二预测结果；

第一确定模块，用于基于所述当前时间周期的第一标签信息、所述第一预测结果、所述上一个时间周期的第二标签信息和所述第二预测结果，确定所述初步训练好的预测模型在所述当前时间周期的评估信息；

第二确定模块，用于当确定所述评估信息达到预设的评估阈值时，将所述初步训练好的预测模型确定为最终训练好的预测模型。

11.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的方法。