CN116662652A

CN116662652A - 模型训练方法、资源推荐方法、样本生成方法和装置

Info

Publication number: CN116662652A
Application number: CN202310590388.4A
Authority: CN
Inventors: 胡小雨; 王朝旭; 王卓颖; 张宗涛; 潘超; 苏军平; 崔宁馨; 郑宇航
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-29

Abstract

本公开提供了一种模型训练方法、资源推荐方法、样本生成方法和装置，涉及人工智能技术领域，尤其涉及信息流、智能推荐领域。具体实现方案为：训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源、第二资源的偏好程度之间的差异，第二标签和第三标签分别表征对象对第一资源和第二资源的偏好程度；利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值；将对象特征、第一资源特征输入第二子模型，得到第二评价值；将对象特征、第二资源特征输入第二子模型，得到第三评价值；根据多个评价值和多个标签之间的差异，训练资源推荐模型。

Description

模型训练方法、资源推荐方法、样本生成方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及信息流、智能推荐领域，更具体地，本公开提供了一种资源推荐模型的训练方法、资源推荐方法、生成训练样本的方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术

视频网站、图书网站等平台可以根据用户的历史行为，向用户推荐视频、文本等资源，然而目前资源推荐的效果较差，影响了用户体验。

发明内容

本公开提供了一种资源推荐模型的训练方法、资源推荐方法、生成训练样本的方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种资源推荐模型的训练方法，资源推荐模型包括第一子模型和第二子模型，方法包括：获取训练样本；训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度；利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值；将对象特征、第一资源特征输入第二子模型，得到第二评价值；将对象特征、第二资源特征输入第二子模型，得到第三评价值；以及根据第一评价值和第一标签之间的第一差异，第二评价值和第二标签之间的第二差异，以及第三评价值和第三标签之间的第三差异，训练第一子模型和第二子模型。

根据本公开的另一方面，提供了一种资源推荐方法，包括：确定目标对象和待推荐的多个候选资源；针对多个候选资源中的每个候选资源，利用资源推荐模型处理目标对象的目标对象特征和候选资源的候选资源特征，得到针对候选资源的推荐评价值；根据多个候选资源的多个推荐评价值，从多个候选资源中确定目标资源；以及向目标对象推荐目标资源；其中，资源推荐模型是利用上述资源推荐模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种生成训练样本的方法，包括：根据对象针对多个资源产生的行为，将多个资源划分为多个资源集合；多个资源为已向对象展示的资源；以及根据多个资源集合中的至少一个资源集合，生成训练样本；其中，训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。

根据本公开的另一方面，提供了一种资源推荐模型的训练装置，资源推荐模型包括第一子模型和第二子模型，装置包括：样本获取模块，用于获取训练样本；训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度；第一评价值确定模块，用于利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值；第二评价值确定模块，用于将对象特征、第一资源特征输入第二子模型，得到第二评价值；第三评价值确定模块，用于将对象特征、第二资源特征输入第二子模型，得到第三评价值；以及训练模块，用于根据第一评价值和第一标签之间的第一差异，第二评价值和第二标签之间的第二差异，以及第三评价值和第三标签之间的第三差异，训练第一子模型和第二子模型。

根据本公开的另一方面，提供了一种资源推荐装置，包括：信息确定模块，用于确定目标对象和待推荐的多个候选资源；推荐评价值确定模块，用于针对多个候选资源中的每个候选资源，利用资源推荐模型处理目标对象的目标对象特征和候选资源的候选资源特征，得到针对候选资源的推荐评价值；目标资源确定模块，用于根据多个候选资源的多个推荐评价值，从多个候选资源中确定目标资源；以及推荐模块，用于向目标对象推荐目标资源；其中，资源推荐模型是利用上述训练得到的。

根据本公开的另一方面，提供了一种生成训练样本的装置，包括：划分模块，用于根据对象针对多个资源产生的行为，将多个资源划分为多个资源集合；多个资源为已向对象展示的资源；以及生成模块，用于根据多个资源集合中的至少一个资源集合，生成训练样本；其中，训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的生成训练样本的方法、资源推荐模型的训练方法、资源推荐方法和装置的应用场景示意图；

图2是根据本公开实施例的生成训练样本的方法的示意流程图；

图3是根据本公开实施例的划分资源集合的示意原理图；

图4是根据本公开实施例的资源推荐模型的训练方法的示意流程图；

图5是根据本公开实施例的资源推荐模型的训练方法的示意原理图；

图6是根据本公开实施例的资源推荐方法的示意流程图；

图7是根据本公开实施例的生成训练样本的装置的示意结构框图；

图8是根据本公开实施例的资源推荐模型的训练装置的示意结构框图；

图9是根据本公开实施例的资源推荐装置的示意结构框图；以及

图10是用来实施本公开实施例的生成训练样本的方法、资源推荐模型的训练方法、资源推荐方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一些推荐场景中，会采用多因子综合作用的信息流推荐方法，该方法会确定目标用户对候选资源在点击、阅读时长、互动等多维度行为上的概率，然后根据多个维度的多个概率，确定目标用户对候选资源的偏好程度，然后基于偏好程度对多个候选资源进行排序，并将排序靠前的候选资源推荐给目标用户。

例如，可以确定目标用户点击某个候选资源的第一概率，目标用户长时间阅读该候选资源的第二概率，以及该目标用户对该候选资源产生互动行为的第三概率。然后基于第一概率、第二概率和第三概率来确定目标用户对该候选资源的偏好程度，并基于偏好程度进行推荐。

然而，采用上述推荐方法，推荐给用户的资源是多因子平衡的结果，但是多因子综合作用的信息流推荐方法容易出现单一因子作用力度较大的问题，进而导致确定出的偏好程度无法反映用户对候选资源的整体满意程度。例如，确定出某个候选资源的偏好程度较高，但是实际上该候选资源的点击概率高但阅读时间短，或者该候选资源的互动概率高但点击概率低。

因此，上述多因子综合作用的信息流推荐方法的推荐效果差，用户无法获得满意的资源，降低了用户体验。

本实施例旨在提供一种生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法，该方法通过综合刻画用户多维度行为信息，建模了用户对资源整体满意程度，为用户推荐满意度高的资源，缓解多因子综合作用下单一因子过大导致的推荐效果变差的问题，提升用户整体体验。

本实施例提供的方法可以应用于信息流推荐中，也可更广泛的应用于各种推荐系统。

以下将结合附图和具体实施例详细阐述本公开提供的技术方案。

图1是根据本公开实施例的生成训练样本的方法、资源推荐模型的训练方法、资源推荐方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的任意电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

根据本公开的实施例，如图1所示，该应用场景100还可以包括服务器140。电子设备110可以通过网络与服务器1 40通信连接，该网络可以包括无线或有线通信链路。

根据本公开的实施例，如图1所示，该应用场景100还可以包括数据库160，该数据库160可以维护有海量的训练样本，该些训练样本可以具有标签，例如第一标签、第二标签和第三标签。可以采用生成训练样本的方法来生成训练样本，并将该些训练样本存储于数据库160中。

示例性地，服务器140可以用于训练资源推荐模型，服务器140可以访问该数据库160，并从数据库160中抽取部分训练样本，以对资源推荐模型进行训练。在训练资源推荐模型150时，可以根据模型输出的第一评价值、第二评价值、第三评价值，以及第一标签、第二标签和第三标签，采用损失函数来确定资源推荐模型的总损失，通过最小化模型总损失来完成模型的训练。

示例性地，服务器140可以用于训练资源推荐模型，并响应于电子设备110发送的模型获取请求，将训练好的资源推荐模型150发送给电子设备110，便于电子设备110进行资源推荐。在一实施例中，也可以由服务器根据训练好的资源推荐模型确定候选资源的推荐评价值。

示例性地，电子设备110例如可以根据目标对象120的目标对象特征和候选资源特征，确定候选资源的推荐评价值，然后基于推荐评价值确定目标资源130并推荐给目标对象120。

需要说明的是，本公开所提供的生成训练样本的方法、资源推荐模型的训练方法、资源推荐方法可以由电子设备110或服务器140执行。

应该理解，图1中的电子设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备、服务器和数据库。

以下结合图2～图3，对生成训练样本的方法进行说明。

图2是根据本公开实施例的生成训练样本的方法的示意流程图。

如图2所示，该生成训练样本的方法200可以包括操作S210～操作S220。

在操作S210，根据对象针对多个资源产生的行为，将多个资源划分为多个资源集合；多个资源为已向对象展示的资源。

例如，对象可以为用户。

例如，资源可以包括视频、文本、图片、音乐等。资源为已向对象展示的资源，例如，利用显示屏等展示设备向用户展示过的资源。

例如，用户针对资源产生的行为可以包括点击、浏览、互动等，浏览可以按照浏览时长分为长时间浏览和短时间浏览，互动可以包括点赞、评论、收藏、转发等。相应地，多个资源集合可以包括点击集合、浏览时间较长的第一浏览集合、浏览时间较短的第二浏览集合、互动集合，互动集合可以包括点赞集合、转发集合等。

在操作S220，根据多个资源集合中的至少一个资源集合，生成训练样本。

例如，训练样本包括：对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签。例如，可以从同一个资源集合中选择第一资源和第二资源，也可以从不同资源集合中选择第一资源和第二资源。

例如，第一标签表征对象对第一资源的偏好程度P1与对象对第二资源的偏好程度P1之间的差异。偏好程度可以包括满意和不满意，该两个偏好程度P1、P2之间的差异可以为：对象对第一资源和第二资源中的哪一个更加满意，例如偏好程度P1高于偏好程度P2，则表示对象对第一资源更加满意。

例如，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。例如，对象对资源的偏好程度可以为用户对资源是否满意，即第二标签表征对象对第一资源是否满意，第三标签表征对象对第二资源是否满意。

根据本公开实施例提供的技术方案，该方案先划分资源集合，然后根据资源集合来构建了资源对，资源对指第一资源和第二资源，因此无需人工标注样本，降低标注成本。并且该训练样本可以用于训练资源推荐模型，利用该训练样本训练得到的资源推荐模型可以准确评估目标对象对候选资源的整体偏好程度。

图3是根据本公开实施例的划分资源集合的示意原理图。

以下结合图3，对上述根据对象针对多个资源产生的行为，将多个资源划分为多个资源集合的方法进行说明。

例如，可以判断用户是否点击了资源，若未点击，则将该资源添加至展示集合301，若点击，则可以确定用户是否产生互动行为。若产生互动行为，则将该资源添加至互动集合304，若未产生互动行为，则可以判断浏览时长是否大于等于预定时长，第一预定时长例如为5秒，若大于或等于，则可以将该资源添加至第一浏览集合302，否则将该资源添加至第二浏览集合303。

需要说明的是，本实施例对上述判断的顺序不做限定，总体而言，可以响应于检测到对象未点击资源，将资源添加至展示集合。响应于检测到对象点击资源，且对象产生针对资源的互动行为，将资源添加至互动集合。响应于检测到对象点击资源，且对象未产生针对资源的互动行为，且对象针对资源的浏览时长大于等于预定时长，将资源添加至第一浏览集合。响应于检测到对象点击资源，且对象未产生针对资源的互动行为，且对象针对资源的浏览时长小于预定时长，将资源添加至第二浏览集合。

本公开实施例根据对象的点击、互动、浏览等行为来划分资源集合，上述行为可以准确体现对象对资源的整体偏好程度，例如互动集合、第一浏览集合、展示集合和第二浏览集合的偏好程度依次降低，进而利用由该些资源集合生成的训练样本来训练资源推荐模型，可以使资源推荐模型准确评估目标对象对候选资源的整体偏好程度。

以下结合实施例，对确定第一资源、第二资源和第一标签的方法进行说明。

在一种示例中，可以从不同资源集合中选择第一资源和第二资源。

需要说明的是，资源集合可以对应有偏好程度，资源所属的资源集合可以体现用户对资源的偏好程度的高低。例如，互动集合A、第一浏览集合B、展示集合C和第二浏览集合D的偏好程度依次降低，即，用户对产生互动行为的资源、长时间浏览的资源、展示过的资源、短时间浏览的资源的偏好程度依次降低。

例如，可以从多个资源集合中的任意两个资源集合中分别确定一个资源，作为第一资源和第二资源，然后根据第一资源所属的资源集合和第二资源所属的资源集合，确定第一标签。

可以看出，训练样本中的第一资源和第二资源构成资源对(pair)，在确定资源对时，可以将互动集合A中的一个资源和第一浏览集合B中的一个资源构成一个资源对，可以将互动集合A中的一个资源和展示集合C中的一个资源构成一个资源对，可以将互动集合A中的一个资源和第二浏览集合D中的一个资源构成一个资源对，可以将第一浏览集合B中的一个资源和展示集合C中的一个资源构成一个资源对，可以将第一浏览集合B中的一个资源和第二浏览集合D中的一个资源构成一个资源对，可以将展示集合C中的一个资源和第二浏览集合D中第一个资源构成一个资源对。

第一标签的值可以为1或0，1可以表示用户对第一资源的偏好程度高于对第二资源的偏好程度，0可以表示用户对第一资源的偏好程度低于对第二资源的偏好程度。

本实施例从不同资源集合中确定资源对，且基于资源所属的资源集合来确定第一标签的值，因此无需人工标注样本，可以较为便捷地生成训练样本，并且确保第一标签准确表征对象对第一资源的偏好程度和用户对第二资源的偏好程度之间的偏差。

在一种示例中，可以从同一个资源集合中选择第一资源和第二资源。

例如，可以从浏览集合中确定第一资源和第二资源，然后根据第一资源对应的浏览时长和第二资源对应的浏览时长，确定第一标签。

可以看出，浏览时长可以从另一维度体现用户对资源的偏好程度高低，即，浏览时长越长，则用户的偏好程度越高。第一标签的值可以为1或0，1可以表示用户对第一资源的偏好程度高于对第二资源的偏好程度，例如第一资源的浏览时长大于第二资源的浏览时长。0可以表示用户对第一资源的偏好程度低于对第二资源的偏好程度，例如第一资源的浏览时长小于第二资源的浏览时长。

又例如，可以从互动集合中确定第一资源和第二资源，然后根据第一资源对应的互动类别和第二资源对应的互动类别，确定第一标签。例如第一资源的互动类别为转发，第二资源的互动类别为评论，可以确定第一标签的值为1

本实施例从同一个资源集合中确定资源对，且基于资源的浏览时长或者互动类别来确定第一标签的值，因此无需人工标注样本，可以较为便捷地生成训练样本，并且确保第一标签准确表征对象对第一资源的偏好程度和用户对第二资源的偏好程度之间的偏差。

以上对确定第一资源、第二资源和第一标签的方法进行了说明。以下结合实施例，对确定第二标签和第三标签的方法进行说明。

例如，对于第一资源，若对象产生针对第一资源的互动行为，可以确定对象对第一资源满意。若对象未产生针对第一资源的互动行为，且对象针对第一资源的完成率大于等于完成率阈值，可以确定对象对第一资源满意。若对象未产生针对第一资源的互动行为，且对象针对第一资源的完成率小于完成率阈值，可以确定对象对第一资源不满意。若对象对第一资源满意，则第二标签的值可以为1。若对象对第一资源不满意，则第二标签的值可以为0。

对于第二资源，可以确定对象对第二资源是否满意，进而确定第三标签。第三标签的具体确定方式可以参考第二标签，在此不再赘述。

例如，在资源为文本类别资源的情况下，完成率是根据浏览时长和资源的文本数量确定的，例如将浏览时长与文本数量之间的比值作为完成率。

例如，在资源为视频类别资源的情况下，完成率是根据浏览时长和资源的视频时长确定的，例如将浏览时长与视频时长之间的比值作为完成率。

本公开实施例在对象产生互相行为或完成率较高的情况下，确定对象对资源满意，因此可以准确确定第二标签和第三标签的值。

以下结合图4～图5，对资源推荐模型的训练方法进行说明。

图4是根据本公开实施例的资源推荐模型的训练方法的示意流程图。

如图4所示，该资源推荐模型的训练方法400可以包括操作S410～操作S440。

资源推荐模型可以为LTR(Learning to Rank，排序学习)模型。资源推荐模型可以包括第一子模型和第二子模型，第一子模型可以包括卷积神经网络等，第二子模型可以包括卷积神经网络等。

在操作S410，获取训练样本。

在操作S420，利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值。

在操作S430，将对象特征、第一资源特征输入第二子模型，得到第二评价值。

在操作S440，将对象特征、第二资源特征输入第二子模型，得到第三评价值。

在操作S450，根据第一评价值和第一标签之间的第一差异，第二评价值和第二标签之间的第二差异，以及第三评价值和第三标签之间的第三差异，训练第一子模型和第二子模型。

例如，可以利用生成训练样本的方法，来生成训练资源推荐模型所需的训练样本。

例如，训练样本可以包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。

例如，偏好程度可以包括满意和不满意，即偏好程度体现了对象对资源是否满意。偏好程度高，则表示对象对资源满意。偏好程度低，则表示对象对资源不满意。

根据本公开提供的实施例，第一标签体现了对象对第一资源和第二资源中的哪一个更加满意，第二标签体现了对象对第一资源是否满意，第三标签体现了对象对第二资源是否满意，可以看出，上述三个标签可以准确体现对象对第一资源、第二资源的整体偏好程度。进而基于第一评价值可以从配对(pair-wise)角度训练资源推荐模型，基于第二评价值和第三评价值，可以从单点(point-wise)角度训练资源推荐模型，因此经训练的资源推荐模型可以准确评估对象对资源的整体偏好程度，实现推荐效果的提升。

根据本公开另一实施例，上述利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值的方法可以包括以下操作：将对象特征、第一资源特征输入第一子模型，得到第一子评价值。将对象特征、第二资源特征输入第一子模型，得到第二子评价值。然后根据第一子评价值和第二子评价值，确定第一评价值。

例如，第一评价值可以表征由第一子模型估计出的对象对第一资源的偏好程度，第二评价值可以表征由第一子模型估计出的对象对第二资源的偏好程度。

例如，可以计算第一子评价值和第二子评价值之间的差值，作为第一评价值。第一评价值可以表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的估计差异，且该估计差异是由第一子模型输出的。

本公开实施例单独确定第一子评价值和第二子评价值，然后基于该两个子评价值来确定第一评价值，该第一评价值可以体现对象对第一资源和第二资源的偏好程度之间的估计差异，因此可以提高资源推荐模型的训练效果。

根据本公开另一实施例，上述根据第一评价值和第一标签之间的第一差异，第二评价值和第二标签之间的第二差异，以及第三评价值和第三标签之间的第三差异，训练第一子模型和第二子模型的方法可以包括以下操作：根据第一评价值和第一标签之间的第一差异，确定第一损失。根据第二评价值和第二标签之间的第二差异，确定第二损失。根据第三评价值和第三标签之间的第三差异，确定第三损失。根据第一损失、第二损失和第三损失，确定总损失。根据总损失，调整第一子模型的参数和第二子模型的参数。

例如，上述各损失可以为交叉熵损失、均方差损失等，本实施例对损失函数不做限定。

例如，可以将第一损失、第二损失和第三损失的加权和，作为总损失，其中，第一损失、第二损失和第三损失的权重可以相等。若总损失小于等于损失阈值，则表示资源推荐模型收敛，否则表示资源推荐模型未收敛，需要继续使用训练样本进行训练。例如，可以根据总损失计算网络梯度，采用梯度下降法调整资源推荐模型的参数，直至资源推荐模型收敛。

本公开实施例分别确定了第一损失、第二损失和第三损失，然后根据该三个损失确定总损失，来调整资源推荐模型的参数，可以确保资源推荐模型的训练效果。

图5是根据本公开实施例的资源推荐模型的训练方法的示意原理图。

如图5所示，本实施例资源推荐模型520可以包括两个第一子模型521、522和两个第二子模型523、524，两个第一子模型521、522的参数可以相同，两个第二子模型523、524的参数可以相同。以下对资源推荐模型520的训练过程进行说明。

可以将第一输入信息511(第一输入信息511包括对象特征u和第一资源特征i)输入第一个第一子模型521，第一个第一子模型521输出第一子评价值531。将第二输入信息512(第二输入信息512包括对象特征u和第二资源特征j)输入第二个第一子模型522，第二个第一子模型522输出第二子评价值532。根据第一子评价值531和第二子评价值532，确定第一评价值541。根据第一评价值541和第一标签之间的差异确定第一损失551。

可以将第一输入信息511输入第一个第二子模型523，第二个第一子模型522输出第二评价值542。根据第二评价值542和第二标签之间的差异确定第二损失552。

可以将第二输入信息512输入第二个第二子模型524，第二个第二子模型524输出第三评价值543。根据第三评价值543和第三标签之间的差异确定第三损失553。

根据上述第一损失551、第二损失552和第三损失553确定总损失560，然后根据总损失560调整两个第一子模型521、522和两个第二子模型523、524的参数。

需要说明的是，上述实施例中，第一子模型和第二子模型均采用双塔结构，即第一子模型和第二子模型的数量均为两个且参数相同。在其他实施例中，第一子模型数量也可以为一个，此时可以按顺序将第一输入信息511和第二输入信息512依次输入第一子模型。类似地，第二子模型的数量也可以为一个，此时可以按顺序将第一输入信息511和第二输入信息512依次输入第二子模型。

在其他实施例中，上述资源推荐模型520可以省略第二子模型，相应地，训练样本的标签可以省略第二标签和第三标签。

以下结合图6，对资源推荐模型的训练方法进行说明。

图6是根据本公开实施例的资源推荐方法的示意流程图。

如图6所示，该资源推荐方法600可以包括操作S610～操作S640。

在操作S610，确定目标对象和待推荐的多个候选资源。

例如，可以采用预定召回算法，从数据库中召回多个候选资源，本实施例对召回算法不做限定。

在操作S620，针对多个候选资源中的每个候选资源，利用资源推荐模型处理目标对象的目标对象特征和候选资源的候选资源特征，得到针对候选资源的推荐评价值。

例如，资源推荐模型是利用上述训练方法训练得到的，资源推荐模型可以包括第一子模型和第二子模型。

例如，可以利用第一子模型和第二子模型中的至少一个，来确定推荐评价值，推荐评价值表示目标对象对资源的整体偏好程度。

在操作S630，根据多个候选资源的多个推荐评价值，从多个候选资源中确定目标资源。

例如，按照推荐评价值的高低，对多个候选资源进行排序，然后将次序位于前预定数量的若干个候选资源确定为目标资源。

在操作S640，向目标对象推荐目标资源。

本公开实施例利用上述资源推荐模型来处理候选资源，因此可以准确评估目标对象对候选资源的整体偏好程度，进而确保目标对象对目标资源的整体偏好程度较高，提高推荐效果。

以下结合实施例，对确定候选资源的推荐评价值的方法进行说明。

在一种示例中，可以仅利用第一子模型来确定推荐评价值。例如，可以将目标对象特征和候选资源特征输入资源推荐模型中的第一子模型，第一子模型输出第一推荐子评价值，可以将第一推荐子评价值作为推荐评价值。本实施例仅基于第一子模型来确定推荐评价值，确定方式简单便捷，且经训练的第一子模型处理效果较高，进而确保推荐评价值准确体现用户对候选资源的偏好程度。

在另一种示例中，可以仅利用第二子模型来确定推荐评价值。例如，可以将目标对象特征和候选资源特征输入资源推荐模型中的第二子模型，第二子模型输出第二推荐子评价值，可以将第二推荐子评价值作为推荐评价值。本实施例仅基于第二子模型来确定推荐评价值，确定方式简单便捷，且经训练的第二子模型处理效果较高，进而确保推荐评价值准确体现用户对候选资源的偏好程度。

在另一种示例中，可以利用第一子模型和第二子模型来确定推荐评价值。例如，可以根据第一推荐子评价值和第二推荐子评价值，确定推荐评价值。例如可以将第一推荐子评价值和第二推荐子评价值的加权和作为推荐评价值，第一推荐子评价值和第二推荐子评价值的权重可以相等。本实施例基于第一子模型和第二子模型来确定推荐评价值，可以使推荐评价值准确体现用户对候选资源的偏好程度，进而确保推荐效果。

图7是根据本公开实施例的生成训练样本的装置的示意结构框图。

如图7所示，该生成训练样本的装置700可以包括划分模块710和生成模块720。

划分模块710用于根据对象针对多个资源产生的行为，将多个资源划分为多个资源集合；多个资源为已向对象展示的资源；

生成模块720用于根据多个资源集合中的至少一个资源集合，生成训练样本；其中，训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。

根据本公开另一实施例，划分模块包括：第一添加子模块、第二添加子模块、第三添加子模块和第四添加子模块。第一添加子模块用于响应于检测到对象未点击资源，将资源添加至展示集合；第二添加子模块用于响应于检测到对象点击资源，且对象产生针对资源的互动行为，将资源添加至互动集合；第三添加子模块用于响应于检测到对象点击资源，且对象未产生针对资源的互动行为，且对象针对资源的浏览时长大于等于预定时长，将资源添加至第一浏览集合；第四添加子模块用于响应于检测到对象点击资源，且对象未产生针对资源的互动行为，且对象针对资源的浏览时长小于预定时长，将资源添加至第二浏览集合。

根据本公开另一实施例，生成模块包括：第一确定子模块用于针对第一资源和第二资源中的每个资源：响应于检测到对象产生针对资源的互动行为，确定对象对资源满意；响应于检测到对象未产生针对资源的互动行为，且对象针对资源的完成率大于等于完成率阈值，确定对象对资源满意；响应于检测到对象未产生针对资源的互动行为，且对象针对资源的完成率小于完成率阈值，确定对象对资源不满意；其中，在资源为文本类别资源的情况下，完成率是根据浏览时长和资源的文本数量确定的；在资源为视频类别资源的情况下，完成率是根据浏览时长和资源的视频时长确定的。

根据本公开另一实施例，生成模块包括：第二确定子模块和第三确定子模块。第二确定子模块用于从多个资源集合中的任意两个资源集合中分别确定一个资源，作为第一资源和第二资源；第三确定子模块用于根据第一资源所属的资源集合和第二资源所属的资源集合，确定第一标签。

根据本公开另一实施例，多个资源集合包括浏览集合，浏览集合中的资源对应有浏览时长；生成模块包括：第四确定子模块和第五确定子模块。第四确定子模块用于从浏览集合中确定第一资源和第二资源；第五确定子模块用于根据第一资源对应的浏览时长和第二资源对应的浏览时长，确定第一标签。

图8是根据本公开实施例的资源推荐模型的训练装置的示意结构框图。

如图8所示，该资源推荐模型包括第一子模型和第二子模型，该资源推荐模型的训练装置800可以包括样本获取模块810、第一评价值确定模块820、第二评价值确定模块830、第三评价值确定模块840以及训练模块850。

样本获取模块810用于获取训练样本；训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，第一标签表征对象对第一资源的偏好程度与对象对第二资源的偏好程度之间的差异，第二标签表征对象对第一资源的偏好程度，第三标签表征对象对第二资源的偏好程度。

第一评价值确定模块820用于利用第一子模型处理对象特征、第一资源特征和第二资源特征，得到第一评价值。

第二评价值确定模块830用于将对象特征、第一资源特征输入第二子模型，得到第二评价值。

第三评价值确定模块840用于将对象特征、第二资源特征输入第二子模型，得到第三评价值。

训练模块850用于根据第一评价值和第一标签之间的第一差异，第二评价值和第二标签之间的第二差异，第三评价值和第三标签之间的第三差异，训练第一子模型和第二子模型。

根据本公开另一实施例，第一评价值确定模块包括：第一子评价值确定子模块、第二子评价值确定子模块和第一评价值确定子模块。第一子评价值确定子模块用于将对象特征、第一资源特征输入第一子模型，得到第一子评价值；第二子评价值确定子模块用于将对象特征、第二资源特征输入第一子模型，得到第二子评价值；第一评价值确定子模块用于根据第一子评价值和第二子评价值，确定第一评价值。

根据本公开另一实施例，训练模块包括：第一损失确定子模块、第二损失确定子模块、第三损失确定子模块、总损失确定子模块和参数调整子模块。第一损失确定子模块用于根据第一评价值和第一标签之间的第一差异，确定第一损失；第二损失确定子模块用于根据第二评价值和第二标签之间的第二差异，确定第二损失；第三损失确定子模块用于根据第三评价值和第三标签之间的第三差异，确定第三损失；总损失确定子模块用于根据第一损失、第二损失和第三损失，确定总损失；参数调整子模块用于根据总损失，调整第一子模型的参数和第二子模型的参数。

图9是根据本公开实施例的资源推荐装置的示意结构框图。

如图9所示，该资源推荐装置900可以包括信息确定模块910、推荐评价值确定模块920、目标资源确定模块930和推荐模块940。

信息确定模块910用于确定目标对象和待推荐的多个候选资源。

推荐评价值确定模块920用于针对多个候选资源中的每个候选资源，利用资源推荐模型处理目标对象的目标对象特征和候选资源的候选资源特征，得到针对候选资源的推荐评价值。

目标资源确定模块930用于根据多个候选资源的多个推荐评价值，从多个候选资源中确定目标资源。

推荐模块940用于向目标对象推荐目标资源；其中，资源推荐模型是上述资源推荐模型的训练装置训练得到的。

根据本公开另一实施例，推荐评价值确定模块包括：第一输入子模块、第二输入子模块和推荐评价值确定子模块。第一输入子模块用于将目标对象特征和候选资源的候选资源特征输入资源推荐模型中的第一子模型，得到第一推荐子评价值；第二输入子模块用于将目标对象特征和候选资源的候选资源特征输入资源推荐模型中的第二子模型，得到第二推荐子评价值；推荐评价值确定子模块用于根据第一推荐子评价值和第二推荐子评价值，确定推荐评价值。

根据本公开另一实施例，推荐评价值确定模块包括：第三输入子模块，用于将目标对象特征和候选资源的候选资源特征输入资源推荐模型中的第一子模型，得到第一推荐子评价值，并将第一推荐子评价值作为推荐评价值。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个。

图10是用来实施本公开实施例的生成训练样本的方法、资源推荐模型的训练方法、资源推荐方法的电子设备的结构框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个。例如，在一些实施例中，上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述生成训练样本的方法、资源推荐模型的训练方法和资源推荐方法中的至少一个。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种资源推荐模型的训练方法，所述资源推荐模型包括第一子模型和第二子模型，所述方法包括：

获取训练样本；所述训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，所述第一标签表征所述对象对所述第一资源的偏好程度与所述对象对所述第二资源的偏好程度之间的差异，所述第二标签表征所述对象对所述第一资源的偏好程度，所述第三标签表征所述对象对所述第二资源的偏好程度；

利用所述第一子模型处理所述对象特征、所述第一资源特征和所述第二资源特征，得到第一评价值；

将所述对象特征、所述第一资源特征输入所述第二子模型，得到第二评价值；

将所述对象特征、所述第二资源特征输入所述第二子模型，得到第三评价值；以及

根据所述第一评价值和所述第一标签之间的第一差异，所述第二评价值和所述第二标签之间的第二差异，以及所述第三评价值和所述第三标签之间的第三差异，训练所述第一子模型和所述第二子模型。

2.根据权利要求1所述的方法，其中，所述利用所述第一子模型处理所述对象特征、所述第一资源特征和所述第二资源特征，得到第一评价值包括：

将所述对象特征、所述第一资源特征输入所述第一子模型，得到第一子评价值；

将所述对象特征、所述第二资源特征输入所述第一子模型，得到第二子评价值；以及

根据所述第一子评价值和所述第二子评价值，确定所述第一评价值。

3.根据权利要求1所述的方法，其中，所述根据所述第一评价值和所述第一标签之间的第一差异，所述第二评价值和所述第二标签之间的第二差异，以及所述第三评价值和所述第三标签之间的第三差异，训练所述第一子模型和所述第二子模型包括：

根据所述第一评价值和所述第一标签之间的第一差异，确定第一损失；

根据所述第二评价值和所述第二标签之间的第二差异，确定第二损失；

根据所述第三评价值和所述第三标签之间的第三差异，确定第三损失；

根据所述第一损失、所述第二损失和所述第三损失，确定总损失；以及

根据所述总损失，调整所述第一子模型的参数和所述第二子模型的参数。

4.一种资源推荐方法，包括：

确定目标对象和待推荐的多个候选资源；

针对多个候选资源中的每个候选资源，利用资源推荐模型处理所述目标对象的目标对象特征和所述候选资源的候选资源特征，得到针对所述候选资源的推荐评价值；

根据所述多个候选资源的多个推荐评价值，从所述多个候选资源中确定目标资源；以及

向所述目标对象推荐所述目标资源；

其中，所述资源推荐模型是利用权利要求1～3中任意一项所述的方法训练得到的。

5.根据权利要求4所述的方法，其中，利用资源推荐模型处理所述目标对象的目标对象特征和所述候选资源的候选资源特征，得到针对所述候选资源的推荐评价值包括：

将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第一子模型，得到第一推荐子评价值；

将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第二子模型，得到第二推荐子评价值；以及

根据所述第一推荐子评价值和所述第二推荐子评价值，确定所述推荐评价值。

6.根据权利要求4所述的方法，其中，利用资源推荐模型处理所述目标对象的目标对象特征和所述候选资源的候选资源特征，得到针对所述候选资源的推荐评价值包括：

将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第一子模型，得到第一推荐子评价值，并将所述第一推荐子评价值作为所述推荐评价值。

7.一种生成训练样本的方法，包括：

根据对象针对多个资源产生的行为，将所述多个资源划分为多个资源集合；所述多个资源为已向对象展示的资源；以及

根据所述多个资源集合中的至少一个资源集合，生成训练样本；

其中，所述训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，所述第一标签表征所述对象对所述第一资源的偏好程度与所述对象对所述第二资源的偏好程度之间的差异，所述第二标签表征所述对象对所述第一资源的偏好程度，所述第三标签表征所述对象对所述第二资源的偏好程度。

8.根据权利要求7所述的方法，其中，所述根据对象针对多个资源产生的行为，将所述多个资源划分为多个资源集合包括：

响应于检测到所述对象未点击所述资源，将所述资源添加至展示集合；

响应于检测到所述对象点击所述资源，且所述对象产生针对所述资源的互动行为，将所述资源添加至互动集合；

响应于检测到所述对象点击所述资源，且所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的浏览时长大于等于预定时长，将所述资源添加至第一浏览集合；以及

响应于检测到所述对象点击所述资源，且所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的浏览时长小于所述预定时长，将所述资源添加至第二浏览集合。

9.根据权利要求7所述的方法，其中，所述根据所述多个资源集合中的至少一个资源集合，生成训练样本包括：

针对所述第一资源和所述第二资源中的每个资源：

响应于检测到所述对象产生针对所述资源的互动行为，确定所述对象对所述资源满意；

响应于检测到所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的完成率大于等于完成率阈值，确定所述对象对所述资源满意；以及

响应于检测到所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的完成率小于完成率阈值，确定所述对象对所述资源不满意；

其中，在所述资源为文本类别资源的情况下，所述完成率是根据浏览时长和所述资源的文本数量确定的；在所述资源为视频类别资源的情况下，所述完成率是根据浏览时长和所述资源的视频时长确定的。

10.根据权利要求7所述的方法，其中，所述根据所述多个资源集合中的至少一个资源集合，生成训练样本包括：

从所述多个资源集合中的任意两个资源集合中分别确定一个资源，作为所述第一资源和所述第二资源；以及

根据所述第一资源所属的资源集合和所述第二资源所属的资源集合，确定所述第一标签。

11.根据权利要求7所述的方法，其中，所述多个资源集合包括浏览集合，所述浏览集合中的资源对应有浏览时长；所述根据所述多个资源集合中的至少一个资源集合，生成训练样本包括：

从所述浏览集合中确定所述第一资源和所述第二资源；以及

根据所述第一资源对应的浏览时长和所述第二资源对应的浏览时长，确定所述第一标签。

12.一种资源推荐模型的训练装置，所述资源推荐模型包括第一子模型和第二子模型，所述装置包括：

样本获取模块，用于获取训练样本；所述训练样本包括对象的对象特征、第一资源的第一资源特征、第二资源的第二资源特征、第一标签、第二标签和第三标签，所述第一标签表征所述对象对所述第一资源的偏好程度与所述对象对所述第二资源的偏好程度之间的差异，所述第二标签表征所述对象对所述第一资源的偏好程度，所述第三标签表征所述对象对所述第二资源的偏好程度；

第一评价值确定模块，用于利用所述第一子模型处理所述对象特征、所述第一资源特征和所述第二资源特征，得到第一评价值；

第二评价值确定模块，用于将所述对象特征、所述第一资源特征输入所述第二子模型，得到第二评价值；

第三评价值确定模块，用于将所述对象特征、所述第二资源特征输入所述第二子模型，得到第三评价值；以及

训练模块，用于根据所述第一评价值和所述第一标签之间的第一差异，所述第二评价值和所述第二标签之间的第二差异，以及所述第三评价值和所述第三标签之间的第三差异，训练所述第一子模型和所述第二子模型。

13.根据权利要求12所述的装置，其中，所述第一评价值确定模块包括：

第一子评价值确定子模块，用于将所述对象特征、所述第一资源特征输入所述第一子模型，得到第一子评价值；

第二子评价值确定子模块，用于将所述对象特征、所述第二资源特征输入所述第一子模型，得到第二子评价值；以及

第一评价值确定子模块，用于根据所述第一子评价值和所述第二子评价值，确定所述第一评价值。

14.根据权利要求12所述的装置，其中，所述训练模块包括：

第一损失确定子模块，用于根据所述第一评价值和所述第一标签之间的第一差异，确定第一损失；

第二损失确定子模块，用于根据所述第二评价值和所述第二标签之间的第二差异，确定第二损失；

第三损失确定子模块，用于根据所述第三评价值和所述第三标签之间的第三差异，确定第三损失；

总损失确定子模块，用于根据所述第一损失、所述第二损失和所述第三损失，确定总损失；以及

参数调整子模块，用于根据所述总损失，调整所述第一子模型的参数和所述第二子模型的参数。

15.一种资源推荐装置，包括：

信息确定模块，用于确定目标对象和待推荐的多个候选资源；

推荐评价值确定模块，用于针对多个候选资源中的每个候选资源，利用资源推荐模型处理所述目标对象的目标对象特征和所述候选资源的候选资源特征，得到针对所述候选资源的推荐评价值；

目标资源确定模块，用于根据所述多个候选资源的多个推荐评价值，从所述多个候选资源中确定目标资源；以及

推荐模块，用于向所述目标对象推荐所述目标资源；

其中，所述资源推荐模型是利用权利要求12～14中任意一项所述的装置训练得到的。

16.根据权利要求15所述的装置，其中，推荐评价值确定模块包括：

第一输入子模块，用于将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第一子模型，得到第一推荐子评价值；

第二输入子模块，用于将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第二子模型，得到第二推荐子评价值；以及

推荐评价值确定子模块，用于根据所述第一推荐子评价值和所述第二推荐子评价值，确定所述推荐评价值。

17.根据权利要求15所述的装置，其中，推荐评价值确定模块包括：

第三输入子模块，用于将所述目标对象特征和所述候选资源的候选资源特征输入所述资源推荐模型中的第一子模型，得到第一推荐子评价值，并将所述第一推荐子评价值作为所述推荐评价值。

18.一种生成训练样本的装置，包括：

划分模块，用于根据对象针对多个资源产生的行为，将所述多个资源划分为多个资源集合；所述多个资源为已向对象展示的资源；以及

生成模块，用于根据所述多个资源集合中的至少一个资源集合，生成训练样本；

19.根据权利要求18所述的装置，其中，所述划分模块包括：

第一添加子模块，用于响应于检测到所述对象未点击所述资源，将所述资源添加至展示集合；

第二添加子模块，用于响应于检测到所述对象点击所述资源，且所述对象产生针对所述资源的互动行为，将所述资源添加至互动集合；

第三添加子模块，用于响应于检测到所述对象点击所述资源，且所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的浏览时长大于等于预定时长，将所述资源添加至第一浏览集合；以及

第四添加子模块，用于响应于检测到所述对象点击所述资源，且所述对象未产生针对所述资源的互动行为，且所述对象针对所述资源的浏览时长小于所述预定时长，将所述资源添加至第二浏览集合。

20.根据权利要求18所述的装置，其中，所述生成模块包括：

第一确定子模块，用于针对所述第一资源和所述第二资源中的每个资源：

21.根据权利要求18所述的装置，其中，所述生成模块包括：

第二确定子模块，用于从所述多个资源集合中的任意两个资源集合中分别确定一个资源，作为所述第一资源和所述第二资源；以及

第三确定子模块，用于根据所述第一资源所属的资源集合和所述第二资源所属的资源集合，确定所述第一标签。

22.根据权利要求18所述的装置，其中，所述多个资源集合包括浏览集合，所述浏览集合中的资源对应有浏览时长；所述生成模块包括：

第四确定子模块，用于从所述浏览集合中确定所述第一资源和所述第二资源；以及

第五确定子模块，用于根据所述第一资源对应的浏览时长和所述第二资源对应的浏览时长，确定所述第一标签。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法。