CN117573973A

CN117573973A - 资源推荐方法、装置、电子设备以及存储介质

Info

Publication number: CN117573973A
Application number: CN202311542158.7A
Authority: CN
Inventors: 钱若函; 刘文强; 唐潜; 李双龙; 国智; 刘林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-02-20

Abstract

本公开提供了资源推荐方法、装置、电子设备以及存储介质，涉及计算机技术领域，尤其涉及大数据技术领域、智能搜索技术领域和人工智能技术领域。具体实现方案为：响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；根据预训练的深度学习模型处理多个所述候选资源特征，从多个所述候选资源中得到至少一个第一推荐资源；根据与至少一个所述第一推荐资源相关的第一推荐资源特征，从多个所述候选资源中确定至少一个第二推荐资源；以及在交互页面中展示推荐资源集，其中，所述推荐资源集包括所述第一推荐资源和所述第二推荐资源。

Description

资源推荐方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及大数据技术领域、智能搜索技术领域和人工智能技术领域。

背景技术

随着互联网技术的快速发展，用户可以通过手机、平板电脑等终端设备便捷地浏览视频、图片等资源信息，相关互联网服务平台也会基于用户的需求来向用户推荐资源。例如会在终端设备的浏览页面中推荐广告等营销资源，或者还可以在浏览页面中推荐视频、文本等其他类型的资源，以满足用户的需求。

发明内容

本公开提供了一种资源推荐方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种资源推荐方法，包括：响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源；根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源；以及在交互页面中展示推荐资源集，其中，推荐资源集包括第一推荐资源和第二推荐资源。

根据本公开的另一方面，提供了一种资源推荐装置，包括：获取模块，用于响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；第一推荐资源获得模块，用于根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源；第二推荐资源获得模块，用于根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源；以及第一展示模块，用于在交互页面中展示推荐资源集，其中，推荐资源集包括第一推荐资源和第二推荐资源。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用资源推荐方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的资源推荐方法的流程图；

图3A示意性示出了根据本公开实施例的资源推荐方法的原理图；

图3B示意性示出了根据本公开另一实施例的资源推荐方法的原理图；

图4示意性示出了根据本公开又一实施例的资源推荐方法的原理图；

图5示意性示出了根据本公开实施例的交互页面的示意图；

图6示意性示出了根据本公开实施例的更新深度学习模型的原理图；

图7示意性示出了根据本公开实施例的资源推荐装置的框图；以及

图8示意性示出了根据本公开实施例的适于实现资源推荐方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

随着互联网技术的快速发展，相关互联网平台可以通过构建广告检索系统来从海量的广告资源库中选取适合于向用户推荐的广告资源，通过向用户推荐合适的广告资源可以使用户便捷地了解物品或服务的信息，并可以为相关物品或服务的经营方提供高效准确地营销策略，在满足用户的实际需求的同时提升经营方的交易效率。而通常的广告资源推荐方式难以准确地满足用户的需求，尤其在推荐多个广告资源的情况下推荐的准确性较低，计算开销较大，难以满足用户或经营方的实际需求。

本公开的实施例提供了一种资源推荐方法、装置、电子设备以及存储介质。该资源推荐方法包括：响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源；根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源；以及在交互页面中展示推荐资源集，其中，推荐资源集包括第一推荐资源和第二推荐资源。

根据本公开的实施例，根据预训练的深度学习模型来处理多个候选资源特征来生成第一推荐资源，并根据已经生成第一推荐资源的第一推荐资源特征来迭代地确定第二推荐资源，可以实现根据已经生成的推荐资源来进一步生成新的推荐资源，从而使得到的推荐资源集中的多个推荐资源之间的特征属性相适配，从而减少多个推荐资源之间的特征属性冲突，提升推荐资源之间的适配性，使推荐资源可以与推荐目标之间的相适配，通过在交互页面中展示推荐资源集可以提升用户的满意度。

图1示意性示出了根据本公开实施例的可以应用资源推荐方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用资源推荐方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的资源推荐方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的资源推荐方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的资源推荐装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的资源推荐方法一般也可以由服务器105执行。相应地，本公开实施例所提供的资源推荐装置一般可以设置于服务器105中。本公开实施例所提供的资源推荐方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的资源推荐装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的资源推荐方法的流程图。

如图2所示，该资源推荐方法包括操作S210～S240。

在操作S210，响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征。

在操作S220，根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源。

在操作S230，根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源。

在操作S240，在交互页面中展示推荐资源集，其中，推荐资源集包括第一推荐资源和第二推荐资源。

根据本公开的实施例，资源推荐请求可以基于用户的资源需求操作生成，例如可以基于用户的搜索操作、登录操作等任意类型的操作来得到资源推荐请求。但不仅限于此，还可以基于其他方式来确定资源推荐请求，例如还可以将其他终端或服务器等设备发送的请求作为资源推荐请求，本公开的实施例对资源推荐请求的确定方式不做限定，本领域技术人员可以根据实际需求进行选择。

根据本公开的实施例，预训练的深度学习模型可以是基于任意类型的深度学习算法构建得到的，例如可以基于卷积神经网络算法构建深度学习模型，或者还可以基于注意力网络算法来构建深度学习模型，本公开的实施例对构建深度学习模型的算法类型不做限定。预训练的深度学习模型可以基于任意的训练方式来训练得到，例如可以根据有监督方式来训练得到深度学习模型，但不仅限于此，还可以基于无监督方式、半监督方式或强化学习策略来训练得到预训练的深度学习模型。

根据本公开的实施例，本公开实施例中的候选资源可以包括任意类型的资源信息，例如视频资源、文本资源、图像资源、音频资源、页面资源、广告组件资源等等，本公开的实施例对候选资源的具体资源类型不做限定，只要能够在手机等终端设备上浏览，或者能够通过互联网链路传输即可。

根据本公开的实施例，候选资源特征可以包括任意类型的表征候选资源的资源属性的特征数据。例如可以包括候选资源的文本信息、图像信息等，本公开的实施例对候选资源特征表征的资源属性的具体属性类型不做限定，只要能够满足实际需求即可。

根据本公开的实施例，根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源可以包括根据预训练的深度学习模型来处理第一推荐资源特征，得到第二推荐资源。但不仅限于此，还可以包括根据预训练的深度学习模型来处理候选资源特征和第一推荐资源特征，进而得到第二推荐资源。

需要说明的是，第一推荐资源的生成时刻可以早于第二推荐资源的生成时刻，在生成第二推荐资源的情况下，可以将第二推荐资源确定为第一推荐资源，进而可以根据已经生成的至少一个第一推荐资源的第一推荐资源特征来迭代地确定第二推荐资源。

根据本公开的实施例，在交互页面中展示推荐资源集，可以包括在交互页面中展示推荐资源集中全部或部分的推荐资源。

根据本公开的实施例，在交互页面中展示推荐资源集，还可以包括按照推荐资源集中的多个推荐资源各自的属性排序来展示推荐资源，以便于满足个性化的推荐需求。

根据本公开的实施例，候选资源特征包括以下至少一项：与候选资源对应的搜索信息、候选资源的资源标题信息、候选资源的资源描述信息、候选资源的价值信息。

根据本公开的实施例，与候选资源对应的搜索信息可以包括与表征候选资源的资源描述文本相匹配的搜索关键词(或称Query)，或者还可以包括与候选资源具有映射关系的词或字段。

根据本公开的实施例，资源标题信息可以包括用于描述候选资源的主题信息，例如广告宣传语标题、文件资源的文件标题等等。

根据本公开的实施例，资源描述信息可以包括表征用于描述候选资源属性的文本信息，或者还可以包括候选资源中包含的文本，例如广告资源中的广告语句。

根据本公开的实施例，候选资源的价值信息可以包括候选资源的交易价值，例如推送广告资源的收益价值、用户浏览候选资源需要付出的价值等等。

根据本公开的实施例，候选资源特征可以通过任意类型的数据来表征，例如可以通过文本、图像、编码等类型的数据来表征，本公开的实施例对表征候选资源特征的数据类型不做限定。

根据本公开的实施例，深度学习模型包括特征融合网络和推荐资源生成网络。

根据本公开的实施例，特征融合网络和推荐资源生成网络可以基于注意力网络模型构建，例如特征融合网络可以基于Transformer模型的编码器构建得到，推荐资源生成网络可以基于Transformer模型的解码器构建得到。

根据本公开的实施例，根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源可以包括：将多个候选资源特征输入特征融合网络，输出融合特征；以及将融合特征输入推荐资源生成网络，输出至少一个第一推荐资源。

根据本公开的实施例，特征融合网络可以基于注意力机制融合多个候选资源特征，以便于使融合特征充分学习到多个候选资源各自的资源属性，以及学习到多个候选资源之间资源属性之间的依赖关系、排斥关系等属性关系，进而基于推荐资源生成网络来处理融合特征，可以在学习多个候选资源的全局的资源属性的情况下得到第一推荐资源，从而提升第一推荐资源的预测准确率。

图3A示意性示出了根据本公开实施例的资源推荐方法的原理图。

如图3A所示，本公开实施例提供的资源推荐方法可以基于预训练的深度学习模型300实现。深度学习模型300可以包括特征融合网络310和推荐资源生成网络320。特征融合网络310和推荐资源生成网络320可以分别基于Transiormer模型的编码器和解码器构建。多个候选资源特征可以包括第1候选资源特征T3011、第2候选资源特征T3012、第3候选资源特征T3013和第4候选资源特征T3014。

针对确定第一个第一推荐资源的预测任务，可以将第1候选资源特征T3011、第2候选资源特征T3012、第3候选资源特征T3013和第4候选资源特征T3014输入特征融合网络310，可以实现基于注意力机制融合多个候选资源特征，输出融合特征。融合特征可以输入至推荐资源生成网络320，输出预测得到的第一推荐资源3011。第一推荐资源3011例如可以是第1候选资源至第4候选资源中的第1候选资源。通过预训练的深度学习模型的端到端网络结构来得到第一推荐资源，可以降低预测推荐资源的计算复杂度，节省计算开销。

根据本公开的实施例，根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源可以包括：根据推荐资源生成网络处理第一推荐资源特征和融合特征，得到至少一个第二推荐资源。

根据本公开的实施例，推荐资源生成网络可以基于注意力机制来将已经生成的第一推荐资源的第一推荐资源特征和融合特征进行融合，可以使推荐资源生成网络在充分学习到多个候选资源各自的局部资源属性，多个候选资源的全局资源属性，以及已经生成的推荐资源的资源属性三者之间的依赖关系、互斥关系等关联属性的条件下来预测得到第二推荐资源，进而提升第二推荐资源与已经生成的第一推荐资源之间的匹配程度，减少推荐资源之间的矛盾程度，从而提升多个推荐资源与推荐需求的适配性。

图3B示意性示出了根据本公开另一实施例的资源推荐方法的原理图。

如图3B所示，在已经生成第一推荐资源3011的情况下，针对预测第二推荐资源的预测任务，深度学习模型300的推荐资源生成网络320可以处理特征融合网络310输出的融合特征和第1候选资源特征T3011，输出第二推荐资源3012。第二推荐资源3012例如可以是与第2候选资源特征对应的第2候选资源。

应该理解，第1候选资源特征T3011可以是与已经生成的第一推荐资源3011相对应的第一推荐资源特征。

需要说明的是，在生成第二推荐资源3012后，还可以将第二推荐资源3012确定为第一推荐资源，并根据已经生成的两个第一推荐资源来确定新的第二推荐资源。

根据本公开的实施例，推荐资源生成网络可以包括推荐资源评估层。

根据本公开的实施例，推荐资源评估层可以基于注意力网络算法构建得到，例如可以基于自注意力头构建推荐资源评估层。

根据本公开的实施例，根据推荐资源生成网络处理第一推荐资源特征和融合特征，得到至少一个第二推荐资源包括：根据推荐资源评估层处理第一推荐资源特征和融合特征，得到多个候选资源各自对应的中间资源融合特征；根据与互斥资源相对应的互斥资源属性，对多个中间资源融合特征中，与互斥资源相对应的互斥资源融合特征进行掩码处理，得到目标融合特征；以及根据目标资源融合特征，生成至少一个第二推荐资源。

根据本公开的实施例，互斥资源可以是基于预设的资源互斥规则从多个候选资源中确定的。互斥资源属性可以包括互斥资源的资源位置或资源标识等。

根据本公开的实施例，中间资源融合特征可以包括与多个候选资源各自对应的中间资源融合特征元素，可以通过互斥资源属性对于互斥资源对应的中间资源融合特征元素进行掩码处理，得到目标融合特征。

在本公开的一个实施例中，中间资源融合特征可以包括表征推荐概率的初始评估信息，例如多个中间资源融合特征可以表征为[1，2，-5，9]，其中，中间资源融合特征“1”、“2”、“-5”、“9”可以分别与第1候选资源至第4候选资源对应。在第1候选资源为互斥资源的情况下，可以对[1，2，-5，9]中的互斥资源融合特征“1”进行掩码处理，从而得到的目标融合特征可以表示为[mask，2，-5，9]，其中“2”、“-5”、“9”可以为未被掩码处理的目标融合特征。

根据本公开的实施例，根据目标资源融合特征，生成至少一个第二推荐资源可以包括基于激活函数层处理目标融合特征，进而得到归一化后的多个候选资源各自对应的推荐概率，从而根据推荐概率可以从多个候选资源中确定至少一个第二推荐资源

根据本公开的实施例，预设的资源互斥规则可以基于实际的推荐需求来确定，例如可以将对同一个型号的物品进行广告营销的多个候选资源之间设置互斥关系，从而可以得到针对多个候选资源的资源互斥规则。

图4示意性示出了根据本公开又一实施例的资源推荐方法的原理图。

如图4所示，推荐资源生成网络420可以包括推荐资源评估层421和推荐评估信息输出层422。在已经生成第一推荐资源4011的情况下，针对第二推荐资源的预测任务，可以将融合特征T410、第一推荐资源特征T4011和与第一推荐资源4011对应的位置信息w4011输入推荐资源评估层421。输出中间资源融合特征。位置信息w4011可以表征第一推荐资源4011在推荐资源集中的顺序属性为第1排序位置。

如图4所示，互斥关系矩阵430可以表征第1候选资源至第4候选资源之间的互斥关系，例如互斥关系矩阵430中的黑色元素可以表征第1候选资源和第3候选资源之间存在互斥关系。因此在已经生成的第一推荐资源4011为第1候选资源的情况下，第3候选资源可以是互斥关系。互斥资源属性可以通过互斥关系矩阵430确定，进而可以根据互斥资源属性表征第3候选资源与已经生成的第一推荐资源4011之间的互斥关系。此外，根据位置信息w4011确定的互斥资源属性，还可以表征中间资源融合特征中与第1候选资源对应的中间资源融合特征为互斥资源融合特征。

将互斥资源属性和中间资源融合特征输入推荐评估信息输出层422，可以实现对中间资源融合特征中的互斥资源融合特征进行掩码处理，从而推荐评估信息输出层422可以输出针对第二个推荐资源的推荐评估信息P402。推荐评估信息P402可以表征为[0.0，0.8，0.0，0.2]，其中推荐概率“0.0”、“0.8”、“0.0”和“0.2”分别与第1候选资源至第4候选资源对应。推荐评估信息P402中与第1候选资源和第3候选资源各自对应的推荐概率“0.0”为经过掩码处理后得到的。根据推荐评估信息P402可以从第1候选资源至第4候选资源中，确定第2候选资源为第二推荐资源。

针对已经生成的第一推荐资源4011，可以通过掩码处理来将候选资源中的互斥资源进行屏蔽，从而避免针对互斥规则来设置多目标优化求解问题，减少求解多目标优化问题产生的计算开销过大，梯度爆炸等问题，从而节省计算开销，提升计算效率。

根据本公开的实施例，可以基于强化学习方式来训练的得到预训练的深度学习模型。

根据本公开的实施例，推荐资源包括多个，多个推荐资源各自具有推荐顺序属性，交互页面多个待更新资源位置。

根据本公开的实施例，在交互页面中展示推荐资源集包括：根据多个推荐顺序属性，从多个待更新资源位置中确定与推荐资源相关的目标资源位置；以及在交互页面中的目标资源位置展示与目标资源位置对应的推荐资源。

根据本公开的实施例，推荐顺序属性可以表征多个推荐资源各自的排序位置，或者推荐顺序属性还可以表征多个推荐资源各自的推荐等级。推荐顺序属性可以基于推荐资源各自的生成时刻来确定，或者还可以基于预设的推荐等级规则来确定推荐顺序属性。

根据本公开的实施例，在交互页面中的目标资源位置展示与目标资源位置对应的推荐资源，可以包括在目标资源位置将与推荐资源对应的推荐资源组件进行渲染，从而在目标资源位置展示推荐资源。

图5示意性示出了根据本公开实施例的交互页面的示意图。

如图5所示，交互页面500可以在各个目标资源位置分别展示推荐资源510、520和530。交互页面500还可以包括页面展示内容540。

根据本公开的实施例，资源推荐方法还可以包括：根据针对交互页面的页面操作更新推荐资源，得到新的推荐资源；以及在交互页面中展示新的推荐资源。

根据本公开的实施例，页面操作可以包括用户针对交互页面的任意类型的操作，例如点击操作，滑动页面操作等等。

根据本公开的实施例，可以在检测到页面操作的情况下，更新交互页面中展示的多个推荐资源，从而在交互页面展示新的推荐资源，进而可以及时地满足用户的推荐需求。

根据本公开的实施例，根据针对交互页面的页面操作更新推荐资源包括：根据与页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果；以及在意图识别结果表征满足更新条件的情况下，更新推荐资源。

根据本公开的实施例，可以基于预训练的意图识别模型来处理页面操作属性，进而得到意图识别结果。意图识别模型可以基于神经网络算法构建得到，例如可以基于卷积神经网络算法构建得到。但不仅限于此，还可以基于其他类型的神经网络算法构建意图识别模型。

根据本公开的实施例，页面操作属性包括以下至少一项：页面操作时长、页面操作类型、与页面操作对应的操作输入信息。

根据本公开的实施例，页面操作时长可以包括页面操作持续的时长，例如滑动操作、浏览操作的持续时长等，或者还可以包括多个页面操作之间的操作间隔时长。

根据本公开的实施例，与页面操作对应的操作输入信息可以包括文本信息、音频信息等任意类型的信息。

根据本公开的实施例，根据与页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果还可以包括：将页面操作属性与预设更新条件进行比较，得到比较结果；以及根据比较结果，确定意图识别结果。

根据本公开的实施例，预设更新条件例如可以针对页面操作属性来确定，例如可以针对页面操作时长设置时长阈值，并通过页面操作时长与时长阈值之间的比较结果来确定比较结果是否满足更新条件。但不仅限于此，还可以基于预设的操作组合来设置预设更新条件，从而在页面操作属性与预设更新条件的比较结果表征满足更新条件的情况下，确定意图识别结果为满足更新条件。

根据本公开的实施例，根据针对交互页面的页面操作更新推荐资源，得到新的推荐资源包括：在页面操作满足更新条件的情况下，更新当前的深度学习模型，得到更新后的深度学习模型；以及根据更新后的深度学习模型处理至少一个候选资源特征，得到新的推荐资源。

根据本公开的实施例，通过更新当前的深度学习模型，并根据更新后的深度学习模型来从候选资源中确定新的推荐资源，可以实现及时地根据用户的页面操作来优化推荐资源，并实现对其他的用户也根据更新后的深度学习模型来确定新的推荐资源，从而便捷地提升资源推荐的准确性和推荐效率。

根据本公开的实施例，更新当前的深度学习模型可以包括：确定与当前的推荐资源集相对应的资源交互信息；根据资源交互信息，确定奖励信息；以及根据奖励信息更新当前的深度学习模型的模型参数。

根据本公开的实施例，资源交互信息可以是针对展示推荐资源集的交互页面的页面操作确定的，例如针对交互页面的浏览操作、推荐资源点击操作、购买操作等等。

根据本公开的实施例，资源交互信息包括与待推荐资源集相对应的以下至少一项指标：资源点击率指标、资源转化率指标、资源成交价值指标、资源浏览时长指标。

根据本公开的实施例，资源转化率指标可以包括与资源对应的商品购买率、复购率等。

根据本公开的实施例，资源成交价值指标可以包括根据推荐资源得到的交易成交的营收价值、利润价价值等等。

根据本公开的实施例，资源浏览时长指标可以包括针对展示推荐资源的交互页面的浏览时长，或者还可以包括点击推荐资源后跳转至推荐资源页面的浏览时长。

根据本公开的实施例，根据资源交互信息，确定奖励信息可以包括基于预训练的奖励信息预测模型来处理资源交互信息，生成对应的奖励信息。或者还可以包括基于奖励信息确定规则来处理资源交互信息，从而得到奖励信息，本公开的实施例对确定奖励信息地具体方式不做限定。

图6示意性示出了根据本公开实施例的更新深度学习模型的原理图。

如图6所示，当前的深度学习模型610可以通过处理多个候选资源特征，得到推荐资源集601。通过将推荐资源集601推送至环境模型620，可以实现在交互页面展示推荐资源集601，并根据目标对象针对推荐资源集的页面操作来采集资源点击率指标等资源交互信息。环境模型620可以将资源交互信息发送至奖励信息生成模块630，奖励信息生成模块630可以基于资源交互信息确定N个奖励影响因素t₁.....至t_N。并根据如下的公式(1)来确定奖励信息。

reward＝α₁*t₁+α₂*t₂+…+α_N*t_N (1)；

公式(1)中，reward表示生成的奖励信息，α₁.....至α_N表示N个奖励影响因素各自的超参数，该超参数用于用平衡不同奖励影响因素之间的权重。奖励影响因素可以包括推荐资源要实现的多个优化目标，例如广告传播范围因素、资源成交价值因素、广告检索预期等因素。通过计算得到的奖励信息来更新当前的深度学习模型610的模型参数，可以使更新后的深度学习模型能够更加准确地匹配推荐资源需要实现的优化目标，进而提升推荐资源的预测准确性，满足多个推荐资源之间复杂的非线性关系，提升推荐资源的适配性。

需要说明的是，本公开实施例中涉及的信息收集，包括但不限于于资源交互信息、页面操作信息的收集，均是在获得用户授权的条件下进行的，且在信息收集前对相关用户进行了用途告知，其目标为为用户提供满足实际需求的资源。同时在信息处理过程中采用了必要的加密措施和脱敏措施，避免个人信息泄露。

根据本公开的实施例，预训练的深度学习模型可以基于强化学习方式来训练的得到。例如可以获取历史时间段中已经生成的历史资源的历史资源特征，基于预训练的资源交互信息预测模型来处理历史资源特征，得到预测资源交互信息，根据奖励信息生成模块来处理预测资源交互信息，得到预测奖励信息，通过预测奖励信息来迭代地调整深度学习模型的模型参数，直至预测奖励信息收敛。

图7示意性示出了根据本公开实施例的资源推荐装置的框图。

如图7所示，资源推荐装置700包括：获取模块710、第一推荐资源获得模块720、第二推荐资源获得模块730和第一展示模块740。

获取模块710，用于响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征。

第一推荐资源获得模块720，用于根据预训练的深度学习模型处理多个候选资源特征，从多个候选资源中得到至少一个第一推荐资源。

第二推荐资源获得模块730，用于根据与至少一个第一推荐资源相关的第一推荐资源特征，从多个候选资源中确定至少一个第二推荐资源。

第一展示模块740，用于在交互页面中展示推荐资源集，其中，推荐资源集包括第一推荐资源和第二推荐资源。

根据本公开的实施例，资源推荐装置还包括：更新模块和第二展示模块。

更新模块，用于根据针对交互页面的页面操作更新推荐资源，得到新的推荐资源。

第二展示模块，用于在交互页面中展示新的推荐资源。

根据本公开的实施例，更新模块包括：意图识别子模块和第一更新子模块。

意图识别子模块，用于根据与页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果。

第一更新子模块，用于在意图识别结果表征满足更新条件的情况下，更新推荐资源。

根据本公开的实施例，意图识别子模块包括：比较单元和意图识别结果确定单元。

比较单元，用于将页面操作属性与预设更新条件进行比较，得到比较结果。

意图识别结果确定单元，用于根据比较结果，确定意图识别结果。

根据本公开的实施例，更新模块包括：第二更新子模块和推荐资源获得子模块。

第二更新子模块，用于在页面操作满足更新条件的情况下，更新当前的深度学习模型，得到更新后的深度学习模型。

推荐资源获得子模块，用于根据更新后的深度学习模型处理至少一个候选资源特征，得到新的推荐资源。

根据本公开的实施例，第二更新子模块包括：资源交互信息确定单元、奖励信息确定单元和模型参数更新单元。

资源交互信息确定单元，用于确定与当前的推荐资源集相对应的资源交互信息。

奖励信息确定单元，用于根据资源交互信息，确定奖励信息。

模型参数更新单元，用于根据奖励信息更新当前的深度学习模型的模型参数。

根据本公开的实施例，第一推荐资源获得模块包括：融合子模块和第一推荐资源获得子模块。

融合子模块，用于将多个候选资源特征输入特征融合网络，输出融合特征。

第一推荐资源获得子模块，用于将融合特征输入推荐资源生成网络，输出至少一个第一推荐资源。

根据本公开的实施例，第二推荐资源获得模块包括第二推荐资源获得子模块。

第二推荐资源获得子模块，用于根据推荐资源生成网络处理第一推荐资源特征和融合特征，得到至少一个第二推荐资源。

根据本公开的实施例，推荐资源生成网络包括推荐资源评估层。

根据本公开的实施例，第二推荐资源获得子模块包括：中间资源融合特征获得单元、目标资源融合特征获得单元和第二推荐资源获得单元。

中间资源融合特征获得单元，用于根据推荐资源评估层处理第一推荐资源特征和融合特征，得到多个候选资源各自对应的中间资源融合特征。

目标资源融合特征获得单元，用于根据与互斥资源相对应的互斥资源属性，对多个中间资源融合特征中，与互斥资源相对应的互斥资源融合特征进行掩码处理，得到目标融合特征，其中，互斥资源是基于预设的资源互斥规则从多个候选资源中确定的。

第二推荐资源获得单元，用于根据目标资源融合特征，生成至少一个第二推荐资源。

根据本公开的实施例，第一展示模块包括：目标资源位置确定子模块和展示子模块。

目标资源位置确定子模块，用于根据多个推荐顺序属性，从多个待更新资源位置中确定与推荐资源相关的目标资源位置。

展示子模块，用于在交互页面中的目标资源位置展示与目标资源位置对应的推荐资源。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图8示意性示出了根据本公开实施例的适于实现资源推荐方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如资源推荐方法。例如，在一些实施例中，资源推荐方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的资源推荐方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行资源推荐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种资源推荐方法，包括：

响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；

根据预训练的深度学习模型处理多个所述候选资源特征，从多个所述候选资源中得到至少一个第一推荐资源；

根据与至少一个所述第一推荐资源相关的第一推荐资源特征，从多个所述候选资源中确定至少一个第二推荐资源；以及

在交互页面中展示推荐资源集，其中，所述推荐资源集包括所述第一推荐资源和所述第二推荐资源。

2.根据权利要求1所述的方法，还包括：

根据针对所述交互页面的页面操作更新所述推荐资源，得到新的推荐资源；以及

在所述交互页面中展示所述新的推荐资源。

3.根据权利要求2所述的方法，其中，所述根据针对所述交互页面的页面操作更新所述推荐资源包括：

根据与所述页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果；以及

在所述意图识别结果表征满足更新条件的情况下，更新所述推荐资源。

4.根据权利要求3所述的方法，其中，所述根据与所述页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果包括：

将所述页面操作属性与预设更新条件进行比较，得到比较结果；以及

根据所述比较结果，确定所述意图识别结果。

5.根据权利要求3所述的方法，其中，所述页面操作属性包括以下至少一项：

页面操作时长、页面操作类型、与页面操作对应的操作输入信息。

6.根据权利要求2所述的方法，其中，所述根据针对所述交互页面的页面操作更新所述推荐资源，得到新的推荐资源包括：

在所述页面操作满足更新条件的情况下，更新当前的所述深度学习模型，得到更新后的深度学习模型；以及

根据所述更新后的深度学习模型处理至少一个所述候选资源特征，得到所述新的推荐资源。

7.根据权利要求6所述的方法，其中，所述更新当前的所述深度学习模型包括：

确定与当前的所述推荐资源集相对应的资源交互信息；

根据所述资源交互信息，确定奖励信息；以及

根据所述奖励信息更新当前的所述深度学习模型的模型参数。

8.根据权利要求7所述的方法，其中，所述资源交互信息包括与所述待推荐资源集相对应的以下至少一项指标：

资源点击率指标、资源转化率指标、资源成交价值指标、资源浏览时长指标。

9.根据权利要求1所述的方法，其中，所述深度学习模型包括特征融合网络和推荐资源生成网络；

其中，所述根据预训练的深度学习模型处理多个所述候选资源特征，从多个所述候选资源中得到至少一个第一推荐资源包括：

将多个所述候选资源特征输入所述特征融合网络，输出融合特征；以及

将所述融合特征输入所述推荐资源生成网络，输出所述至少一个第一推荐资源。

10.根据权利要求9所述的方法，其中，所述根据与至少一个所述第一推荐资源相关的第一推荐资源特征，从多个所述候选资源中确定至少一个第二推荐资源包括：

根据所述推荐资源生成网络处理所述第一推荐资源特征和所述融合特征，得到所述至少一个第二推荐资源。

11.根据权利要求10所述的方法，其中，所述推荐资源生成网络包括推荐资源评估层；

其中，所述根据所述推荐资源生成网络处理所述第一推荐资源特征和所述融合特征，得到所述至少一个第二推荐资源包括：

根据所述推荐资源评估层处理所述第一推荐资源特征和所述融合特征，得到多个所述候选资源各自对应的中间资源融合特征；

根据与互斥资源相对应的互斥资源属性，对多个所述中间资源融合特征中，与互斥资源相对应的互斥资源融合特征进行掩码处理，得到目标融合特征，其中，所述互斥资源是基于预设的资源互斥规则从多个所述候选资源中确定的；以及

根据所述目标资源融合特征，生成至少一个所述第二推荐资源。

12.根据权利要求1至11中任一项所述的方法，其中，所述候选资源特征包括以下至少一项：

与所述候选资源对应的搜索信息、所述候选资源的资源标题信息、所述候选资源的资源描述信息、所述候选资源的价值信息。

13.根据权利要求1至11中任一项所述的方法，其中，所述推荐资源包括多个，多个所述推荐资源各自具有推荐顺序属性，所述交互页面多个待更新资源位置；

其中，所述在交互页面中展示推荐资源集包括：

根据多个推荐顺序属性，从多个所述待更新资源位置中确定与所述推荐资源相关的目标资源位置；以及

在所述交互页面中的目标资源位置展示与所述目标资源位置对应的推荐资源。

14.一种资源推荐装置，包括：

获取模块，用于响应于资源推荐请求，获取多个候选资源各自相关的候选资源特征；

第一推荐资源获得模块，用于根据预训练的深度学习模型处理多个所述候选资源特征，从多个所述候选资源中得到至少一个第一推荐资源；

第二推荐资源获得模块，用于根据与至少一个所述第一推荐资源相关的第一推荐资源特征，从多个所述候选资源中确定至少一个第二推荐资源；以及

第一展示模块，用于在交互页面中展示推荐资源集，其中，所述推荐资源集包括所述第一推荐资源和所述第二推荐资源。

15.根据权利要求14所述的装置，还包括：

更新模块，用于根据针对所述交互页面的页面操作更新所述推荐资源，得到新的推荐资源；以及

第二展示模块，用于在所述交互页面中展示所述新的推荐资源。

16.根据权利要求15所述的装置，其中，所述更新模块包括：

意图识别子模块，用于根据与所述页面操作对应的页面操作属性进行操作意图识别，得到意图识别结果；以及

第一更新子模块，用于在所述意图识别结果表征满足更新条件的情况下，更新所述推荐资源。

17.根据权利要求16所述的装置，其中，所述意图识别子模块包括：

比较单元，用于将所述页面操作属性与预设更新条件进行比较，得到比较结果；以及

意图识别结果确定单元，用于根据所述比较结果，确定所述意图识别结果。

18.根据权利要求16所述的装置，其中，所述页面操作属性包括以下至少一项：

19.根据权利要求15所述的装置，其中，所述更新模块包括：

第二更新子模块，用于在所述页面操作满足更新条件的情况下，更新当前的所述深度学习模型，得到更新后的深度学习模型；以及

推荐资源获得子模块，用于根据所述更新后的深度学习模型处理至少一个所述候选资源特征，得到所述新的推荐资源。

20.根据权利要求19所述的装置，其中，所述第二更新子模块包括：

资源交互信息确定单元，用于确定与当前的所述推荐资源集相对应的资源交互信息；

奖励信息确定单元，用于根据所述资源交互信息，确定奖励信息；以及

模型参数更新单元，用于根据所述奖励信息更新当前的所述深度学习模型的模型参数。

21.根据权利要求20所述的装置，其中，所述资源交互信息包括与所述待推荐资源集相对应的以下至少一项指标：

22.根据权利要求14所述的装置，其中，所述深度学习模型包括特征融合网络和推荐资源生成网络；

其中，所述第一推荐资源获得模块包括：

融合子模块，用于将多个所述候选资源特征输入所述特征融合网络，输出融合特征；以及

第一推荐资源获得子模块，用于将所述融合特征输入所述推荐资源生成网络，输出所述至少一个第一推荐资源。

23.根据权利要求22所述的装置，其中，所述第二推荐资源获得模块包括：

第二推荐资源获得子模块，用于根据所述推荐资源生成网络处理所述第一推荐资源特征和所述融合特征，得到所述至少一个第二推荐资源。

24.根据权利要求23所述的装置，其中，所述推荐资源生成网络包括推荐资源评估层；

其中，所述第二推荐资源获得子模块包括：

中间资源融合特征获得单元，用于根据所述推荐资源评估层处理所述第一推荐资源特征和所述融合特征，得到多个所述候选资源各自对应的中间资源融合特征；

目标资源融合特征获得单元，用于根据与互斥资源相对应的互斥资源属性，对多个所述中间资源融合特征中，与互斥资源相对应的互斥资源融合特征进行掩码处理，得到目标融合特征，其中，所述互斥资源是基于预设的资源互斥规则从多个所述候选资源中确定的；以及

第二推荐资源获得单元，用于根据所述目标资源融合特征，生成至少一个所述第二推荐资源。

25.根据权利要求14至24中任一项所述的装置，其中，所述候选资源特征包括以下至少一项：

26.根据权利要求14至24中任一项所述的装置，其中，所述推荐资源包括多个，多个所述推荐资源各自具有推荐顺序属性，所述交互页面多个待更新资源位置；

其中，所述第一展示模块包括：

目标资源位置确定子模块，用于根据多个推荐顺序属性，从多个所述待更新资源位置中确定与所述推荐资源相关的目标资源位置；以及

展示子模块，用于在所述交互页面中的目标资源位置展示与所述目标资源位置对应的推荐资源。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至13中任一项所述的方法。