CN111460292A

CN111460292A - 模型评估方法、装置、设备和介质

Info

Publication number: CN111460292A
Application number: CN202010238674.0A
Authority: CN
Inventors: 刘涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28

Abstract

本申请实施例公开了一种模型评估方法、装置、设备和介质，涉及机器学习技术，其中，该方法包括：获取目标用户在预设交互周期内针对推荐结果的行为数据，其中，推荐结果利用推荐模型确定；利用行为数据，对预设交互周期内的推荐结果进行反馈标注；根据预设交互周期内推荐结果的标注结果，对推荐模型进行评估。本申请实施例可以实现针对不同用户的个性化的模型评估效果，以更为细化的时间粒度提高模型评估结果的准确性。

Description

模型评估方法、装置、设备和介质

技术领域

本申请实施例涉及计算机技术，具体涉及机器学习技术，尤其涉及一种模型评估方法、装置、设备和介质。

背景技术

在电商或者广告场景中，排序模型的线上效果，直接影响用户对推荐结果的满意度。目前，关于推荐模型，只是单纯从整体性能上对模型进行评估。由于评估粒度较大，导致模型评估结果针对不同用户而言，不具有针对性。

发明内容

本申请实施例公开一种模型评估方法、装置、设备和介质，以实现针对不同用户的个性化的模型评估效果，以更为细化的时间粒度提高模型评估结果的准确性。

第一方面，本申请实施例公开了一种模型评估方法，包括：

获取目标用户在预设交互周期内针对推荐结果的行为数据，其中，所述推荐结果利用推荐模型确定；

利用所述行为数据，对所述预设交互周期内的推荐结果进行反馈标注；

根据所述预设交互周期内推荐结果的标注结果，对所述推荐模型进行评估。

上述申请中的一个实施例具有如下优点或有益效果：实现了针对不同用户在不同交互周期内的行为数据的个性化模型评估效果，以更为细化的时间粒度提高了模型评估结果的准确性，解决了现有的模型整体评估方案中评估粒度较大，模型评估结果不具有针对性的问题。

可选的，在所述获取目标用户在预设交互周期内针对推荐结果的行为数据之前，所述方法还包括：

建立所述目标用户与所述推荐模型的对应关系，其中，所述推荐模型基于用户画像信息训练得到。

上述申请中的一个实施例具有如下优点或有益效果：通过预先建立用户标识和推荐模型之间的对应关系，后续按照该对应关系，收集目标用户的行为数据并对推荐模型进行评估，形成一个闭环，使得可以根据评估结果进一步改进推荐模型，并进一步提高个性化推荐效果。

可选的，所述预设交互周期的数量为多个；

相应的，根据所述预设交互周期内推荐结果的标注结果，对所述推荐模型进行评估，包括：

利用每个预设交互周期内推荐结果的标注结果、以及每个预设交互周期内推荐结果的数量，确定所述推荐模型的评估指标。

上述申请中的一个实施例具有如下优点或有益效果：通过统计分析目标用户在多个预设交互周期内针对推荐结果的行为数据，用于推荐模型的评估中，提高了模型评估结果的稳定性。

可选的，利用所述行为数据，对所述预设交互周期内的推荐结果进行反馈标注，包括：

利用所述行为数据，将所述预设交互周期内的推荐结果标注为正样本和负样本；

依据所述预设交互周期内的正样本和负样本，确定所述推荐模型的评估指标，其中，所述评估指标包括AUC值。

可选的，所述推荐模型包括二分类推荐模型和多分类推荐模型。

上述申请中的一个实施例具有如下优点或有益效果：本申请实施例可以同时适用于二分类推荐模型和多分类推荐模型，在实现针对性、个性化的模型评估效果的基础上，还具有广泛的适用性。以AUC值作为模型评估指标为例，打破了现有模型评估方案中只考虑二分类模型的局限。

可选的，如果所述推荐结果为展现类对象，则所述行为数据包括点击行为；如果所述推荐结果为音频或视频类对象，则所述行为数据包括所述推荐结果的播放时长。

第二方面，本申请实施例还公开了一种模型评估装置，包括：

行为数据获取模块，用于获取目标用户在预设交互周期内针对推荐结果的行为数据，其中，所述推荐结果利用推荐模型确定；

推荐结果标注模块，用于利用所述行为数据，对所述预设交互周期内的推荐结果进行反馈标注；

模型评估模块，用于根据所述预设交互周期内推荐结果的标注结果，对所述推荐模型进行评估。

可选的，所述装置还包括：

对应关系建立模块，用于在行为数据获取模块执行所述获取目标用户在预设交互周期内针对推荐结果的行为数据的操作之前，建立所述目标用户与所述推荐模型的对应关系，其中，所述推荐模型基于用户画像信息训练得到。

可选的，所述预设交互周期的数量为多个；

相应的，所述模型评估模块具体用于：

可选的，所述推荐结果标注模块具体用于：

相应的，所述模型评估模块具体用于：

根据本申请实施例的技术方案，通过分析目标用户在预设交互周期内针对推荐结果的行为数据，对推荐结果进行反馈标注，然后利用标注结果对推荐模型进行评估，实现了针对不同用户在不同交互周期内的行为数据的个性化模型评估效果，以更为细化的时间粒度提高了模型评估结果的准确性，解决了现有的模型整体评估方案中评估粒度较大，模型评估结果不具有针对性的问题；同时，模型评估结果的针对性、准确性，有助于更好的改进推荐模型，为目标用户提供更为精准的推荐服务。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例一公开的一种模型评估方法的流程图；

图2是本申请实施例二公开的一种模型评估方法的流程图；

图3是本申请实施例三公开的一种模型评估装置的结构示意图；

图4是本申请实施例四公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一

图1是本申请实施例一公开的一种模型评估方法的流程图，本实施例可以适用于对推荐模型进行针对性、个性化的评估的情况，推荐模型包括二分类推荐模型和多分类推荐模型。本实施例方法可以由模型评估装置来执行，该装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器。

如图1所示，本实施例公开的模型评估方法可以包括：

S101、获取目标用户在预设交互周期内针对推荐结果的行为数据，其中，推荐结果利用推荐模型确定。

其中，目标用户可以是指特定的一个用户或者具有共性的一类用户。预设交互周期(或称为一次会话交互Session)是指基于目标用户的搜索需求，目标用户与终端的交互周期，例如目标用户通过终端向服务器发送搜素需求，服务器将推荐结果反馈给终端，目标用户通过终端对各推荐结果进行操作，例如点击或播放等，这便可以称为一个交互周期。每个预设交互周期的时间长度本实施例不作具体限定，与服务器对用户搜索需求的响应时间有关。目标用户对推荐结果的操作数据即为目标用户的行为数据。示例性的，如果推荐结果为展现类对象，例如广告，则行为数据包括点击行为；如果推荐结果为音频或视频类对象，则行为数据包括推荐结果的播放时长。以服务器为例，用户行为数据可以由服务器周期性或实时地从用户终端获取，还可以由用户终端周期性或实时地反馈给服务器，此外，用户行为数据可以采用用户日志的形式在服务器和用户终端之间传输。通过区分用户以及按照交互周期对推荐模型进行评估粒度细化，提高了模型评估的针对性、个性化。而且，随着预设交互周期的不断变化，实现了对推荐模型的持续性及时评估。

可选的，在获取目标用户在预设交互周期内针对推荐结果的行为数据之前，本实施例方法还包括：建立目标用户与推荐模型的对应关系，其中，推荐模型基于用户画像信息训练得到。目标用户可以采用用户标识(或称为用户ID)进行区分，待评估的推荐模型可以是针对目标用户的个性化推荐模型。预先建立用户标识和推荐模型之间的对应关系，并进行存储，进而后续可以按照该对应关系，收集目标用户的行为数据并对推荐模型进行评估，形成一个闭环，使得可以根据评估结果进一步改进推荐模型，并提高个性化推荐效果。

S102、利用行为数据，对预设交互周期内的推荐结果进行反馈标注。

通过对目标用户的行为数据进行分析，可以确定该目标用户对各推荐结果的采纳或满意程度。因此，利用目标用户的行为数据，对推荐结果进行自动化地反馈标注，可以区分出预设交互周期内被用户采纳的推荐结果与未被用户采纳的推荐结果，进而可以用于分析推荐模型的推荐效果的优劣。

S103、根据预设交互周期内推荐结果的标注结果，对推荐模型进行评估。

其中，推荐结果的标注结果包括被目标用户采纳和未被目标用户采纳，被目标用户采纳的推荐结果还可以称为正样本，未被目标用户采纳的推荐结果还可以称为负样本。根据预设交互周期内推荐结果的标注结果，可以对推荐模型进行定性或定量的评估，本实施例不作具体限定。例如，可以利用推荐结果的标注结果，按照现有技术中任意可用的模型评估指标的计算公式，计算相应的评估指标，从而实现对推荐模型的评估。

根据本实施例的技术方案，通过分析目标用户在预设交互周期内针对推荐结果的行为数据，对推荐结果进行反馈标注，然后利用标注结果对推荐模型进行评估，实现了针对不同用户在不同交互周期内的行为数据的个性化模型评估效果，以更为细化的时间粒度提高了模型评估结果的准确性，解决了现有的模型整体评估方案中评估粒度较大，模型评估结果不具有针对性的问题；同时，模型评估结果的针对性、准确性，有助于更好的改进推荐模型，为目标用户提供更为精准的推荐服务。

实施例二

图2是本申请实施例二公开的一种模型评估方法的流程图，基于上述实施例进一步优化与扩展，并可以与上述各个可选实施方式进行结合。如图2所示，该方法可以包括：

S201、获取目标用户在多个预设交互周期内针对推荐结果的行为数据，其中，推荐结果利用推荐模型确定。

通过统计分析目标用户在多个(指至少两个)预设交互周期内针对推荐结果的行为数据，以用于推荐模型的评估中，可以提高模型评估结果的稳定性。多个预设交互周期对应的时间长度可以是按小时、按天或者按月为单位。

S202、利用每个预设交互周期内的用户行为数据，对每个预设交互周期内的推荐结果进行反馈标注。

S203、利用每个预设交互周期内推荐结果的标注结果、以及每个预设交互周期内推荐结果的数量，确定推荐模型的评估指标。

评估指标可以直接用于反应推荐模型效果的优劣。示例性的，针对多个预设交互周期，推荐模型的综合评估指标A可以按照以下公式进行计算：

其中，n表示预设交互周期的数量；M_i表示每个预设交互周期内反馈给目标用户的推荐结果的数量，或者称为每个预设交互周期内的资源数量；A_session表示在每个预设交互周期内，按照推荐结果的标注结果所计算的推荐模型的评估指标。根据评估指标的不同，A_session的具体计算公式不同。

以评估指标为AUC(Area Under Curve)值为例，利用目标用户的行为数据，对预设交互周期内的推荐结果进行反馈标注，包括：利用该行为数据，将预设交互周期内的推荐结果标注为正样本和负样本；相应的，根据预设交互周期内推荐结果的标注结果，对推荐模型进行评估，包括：依据预设交互周期内的正样本和负样本，确定推荐模型的AUC值。AUC值计算过程中需要用到真正例率(true positive rate，TPR)和假正例率(false positiverate，FPR)，真正例率表示当前被分到正样本中真实的正样本数量所占所有正样本数量的比例；假正例率表示当前被错误分到正样本中真实的负样本数量所占所有负样本数量的比例。关于AUC值、真正例率和假正例率的具体计算公式，本领域技术人员可以参照现有技术实现。

示例性的，如果推荐结果为展现类对象，通过分析目标用户的行为数据，可以将被目标用户点击的推荐结果标注为正样本，否则标注为负样本；如果推荐结果为音频或视频类对象，通过分析目标用户的行为数据，将播放时长超过时长阈值的推荐结果标注为正样本，否则标注为负样本。时长阈值可以适应性设置，例如设置为5秒等。

假设每个预设交互周期内推荐模型的评估指标用AUC_session表示，则利用多个预设交互周期内的AUC_session值，计算推荐模型的综合评估指标SGAUC，具体为：

其中，n表示预设交互周期的数量；M_i表示每个预设交互周期内反馈给目标用户的推荐结果的数量。

进一步的，本实施例中待评估的推荐模型包括二分类推荐模型和多分类推荐模型。以多分类推荐模型为例，针对每个预设交互周期，首先根据目标用户的行为数据，将推荐结果标注为正样本和负样本，然后计算每个分类阈值下的真正例率和假正例率，从而得到多条ROC(接收者操作特征，Receiver Operating Characteristic)曲线，ROC曲线的数量与多分类情况下的分类数量有关；其次，对多条ROC曲线取平均，得到最终的目标ROC曲线，利用该最终的目标ROC曲线计算每个预设交互周期内推荐模型的AUC_session值；最后，利用上述公式计算推荐模型的综合评估指标SGAUC，从而实现对多分类推荐模型的针对性、个性化评估。

本实施例方案可以同时适用于二分类推荐模型和多分类推荐模型，在实现针对性、个性化的模型评估效果的基础上，还具有广泛的适用性，例如，可以将上述SGAUC值同时作为二分类模型和多分类模型的评估指标之一。

根据本实施例的技术方案，通过分析目标用户在多个预设交互周期内针对推荐结果的行为数据，分别对每个预设交互周期内的推荐结果进行反馈标注，然后基于标注结果对推荐模型进行综合评估，实现了针对不同用户在不同交互周期内的行为数据的个性化模型评估效果，以更为细化的时间粒度提高了模型评估结果的准确性，解决了现有的模型整体评估方案中评估粒度较大，模型评估结果不具有针对性的问题，同时提高了模型评估结果的稳定性；而且，模型评估结果的针对性、准确性，有助于更好的改进推荐模型，为目标用户提供更为精准的推荐服务。

实施例三

图3是本申请实施例三公开的一种模型评估装置的结构示意图，本实施例可以适用于对推荐模型进行针对性、个性化的评估的情况。本实施例装置可以采用软件和/或硬件实现，并可集成在任意的具有计算能力的电子设备上，例如服务器。

如图3所示，本实施例公开的模型评估装置300可以包括行为数据获取模块301、推荐结果标注模块302和模型评估模块303，其中：

行为数据获取模块301，用于获取目标用户在预设交互周期内针对推荐结果的行为数据，其中，推荐结果利用推荐模型确定；

推荐结果标注模块302，用于利用行为数据，对预设交互周期内的推荐结果进行反馈标注；

模型评估模块303，用于根据预设交互周期内推荐结果的标注结果，对推荐模型进行评估。

可选的，本实施例装置还包括：

对应关系建立模块，用于在行为数据获取模块301执行获取目标用户在预设交互周期内针对推荐结果的行为数据的操作之前，建立目标用户与推荐模型的对应关系，其中，推荐模型基于用户画像信息训练得到。

可选的，预设交互周期的数量为多个；

相应的，模型评估模块303具体用于：

利用每个预设交互周期内推荐结果的标注结果、以及每个预设交互周期内推荐结果的数量，确定推荐模型的评估指标。

可选的，推荐结果标注模块302具体用于：

利用行为数据，将预设交互周期内的推荐结果标注为正样本和负样本；

相应的，模型评估模块303具体用于：

依据预设交互周期内的正样本和负样本，确定推荐模型的评估指标，其中，评估指标包括AUC值。

可选的，推荐模型包括二分类推荐模型和多分类推荐模型。

可选的，如果推荐结果为展现类对象，则行为数据包括点击行为；如果推荐结果为音频或视频类对象，则行为数据包括推荐结果的播放时长。

本申请实施例所公开的模型评估装置300可执行本申请任意实施例所公开的模型评估方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

实施例四

本申请实施例还提供了一种电子设备和一种可读存储介质。

如图4所示，图4是用于实现本申请实施例中模型评估方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作，例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统。图4中以一个处理器401为例。

存储器402即为本申请实施例所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请实施例所提供的模型评估方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请实施例所提供的模型评估方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中模型评估方法对应的程序指令/模块，例如，附图3所示的行为数据获取模块301、推荐结果标注模块302和模型评估模块303。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的模型评估方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据模型评估方法的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至用于实现本实施例中模型评估方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本实施例中模型评估方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与用于实现本实施例中模型评估方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置和触觉反馈装置等，其中，辅助照明装置例如发光二极管(Light Emitting Diode，LED)；触觉反馈装置例如，振动电机等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、LED显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuit，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序，也称作程序、软件、软件应用、或者代码，包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置，例如，磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置，例如，阴极射线管(Cathode Ray Tube，CRT)或者LCD监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且可以用任何形式，包括声输入、语音输入或者、触觉输入，来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统，例如，作为数据服务器，或者实施在包括中间件部件的计算系统，例如，应用服务器，或者实施在包括前端部件的计算系统，例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互，或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信，例如通信网络，来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过分析目标用户在预设交互周期内针对推荐结果的行为数据，对推荐结果进行反馈标注，然后利用标注结果对推荐模型进行评估，实现了针对不同用户在不同交互周期内的行为数据的个性化模型评估效果，以更为细化的时间粒度提高了模型评估结果的准确性，解决了现有的模型整体评估方案中评估粒度较大，模型评估结果不具有针对性的问题；同时，模型评估结果的针对性、准确性，有助于更好的改进推荐模型，为目标用户提供更为精准的推荐服务。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种模型评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取目标用户在预设交互周期内针对推荐结果的行为数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设交互周期的数量为多个；

4.根据权利要求1所述的方法，其特征在于，利用所述行为数据，对所述预设交互周期内的推荐结果进行反馈标注，包括：

5.根据权利要求1-4中任一所述的方法，其特征在于，所述推荐模型包括二分类推荐模型和多分类推荐模型。

6.根据权利要求1所述的方法，其特征在于：

如果所述推荐结果为展现类对象，则所述行为数据包括点击行为；

如果所述推荐结果为音频或视频类对象，则所述行为数据包括所述推荐结果的播放时长。

7.一种模型评估装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求7所述的装置，其特征在于，所述预设交互周期的数量为多个；

相应的，所述模型评估模块具体用于：

10.根据权利要求7所述的装置，其特征在于，所述推荐结果标注模块具体用于：

相应的，所述模型评估模块具体用于：

11.根据权利要求7-10中任一所述的装置，其特征在于，所述推荐模型包括二分类推荐模型和多分类推荐模型。

12.根据权利要求7所述的装置，其特征在于：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的模型评估方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的模型评估方法。