CN116823410A

CN116823410A - 数据处理方法、对象处理方法、推荐方法及计算设备

Info

Publication number: CN116823410A
Application number: CN202311102117.6A
Authority: CN
Inventors: 丁利芳; 孙胜杰; 史永平
Original assignee: Alibaba Chengdu Software and Technology Co Ltd
Current assignee: Alibaba Chengdu Software and Technology Co Ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-09-29
Anticipated expiration: 2043-08-29
Also published as: CN116823410B

Abstract

本申请实施例提供了一种数据处理方法、对象处理方法、推荐方法及计算设备。其中，确定样本用户的至少一个用户特征；确定与所述样本用户匹配的样本对象对应的第一类别标识；利用所述样本用户的至少一个用户特征及所述第一类别标识训练识别模型；其中，所述识别模型用以基于目标用户的至少一个用户特征，确定与所述目标用户匹配的至少一个第二类别标识；所述至少一个第二类别标识用以构建与所述目标用户相对应的召回候选集；所述召回候选集包括利用所述至少一个第二类别标识命中的至少一个对象，用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。本申请实施例提供的技术方案提高了召回效果。

Description

数据处理方法、对象处理方法、推荐方法及计算设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据处理方法、对象处理方法、推荐方法及计算设备。

背景技术

随着互联网技术和计算机技术的大力发展，线上用户的规模和数据的规模均呈现迅猛发展，一些线上系统可以提供诸如商品、内容、或网页等对象以供用户进行消费等。为了在海量对象中发现与用户匹配的对象，实现用户精准消费等，推荐系统应运而生，实际应用中，推荐系统例如可以为广告系统，用以将广告产品向用户进行推荐等。

推荐系统进行对象推荐通常主要涉及两个阶段：召回阶段及排序阶段，召回阶段是指首先从海量对象数据集中筛选出一部分对象作为召回候选集，排序阶段是指对所筛选出的召回候选集中的对象进行排序，以根据排序结果确定待推荐的目标对象，排序阶段根据实际需求又可以划分为粗排、精排、混排等。

由上文描述可知，召回阶段所筛选的对象质量会影响推荐系统后续操作从而影响推荐结果，因此，如何提升召回效果成为本领域技术人员需要解决的技术问题。

发明内容

本申请实施例提供一种数据处理方法、对象处理方法、推荐方法及计算设备，用以提升召回效果。

第一方面，本申请实施例中提供了一种数据处理方法，包括：

确定样本用户的至少一个用户特征；

确定与所述样本用户匹配的样本对象对应的第一类别标识；

利用所述样本用户的至少一个用户特征及所述第一类别标识训练识别模型；

其中，所述识别模型用以基于目标用户的至少一个用户特征，确定与所述目标用户匹配的至少一个第二类别标识；所述至少一个第二类别标识用以构建与所述目标用户相对应的召回候选集；所述召回候选集包括利用所述至少一个第二类别标识命中的至少一个对象，用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。

可选地，该方法还包括：

根据对象特征，将对象数据集中的多个对象划分为多个对象分组；

所述确定与所述样本用户匹配的样本对象对应的第一类别标识包括：

确定与所述样本用户匹配的样本对象所属的至少一个对象分组；

根据所述至少一个对象分组的分组标识，生成所述样本对象对应的第一类别标识；

其中，所述召回候选集包括利用所述至少一个第二类别标识命中一个或多个对象分组。

可选地，所述根据对象特征，将对象数据集中的多个对象划分为多个对象分组包括：

根据对象特征，将对象数据集中的多个对象进行分层聚类，形成树形聚类结构；

根据所述树形聚类结构，确定多个对象分组；

根据任一个对象分组在所述树形聚类结构中对应的路径所涉及的至少一个节点的节点标识，生成所述对象分组的分组标识。

根据对象特征，计算所述多个对象之间的对象相似度；

根据所述多个对象之间的对象相似度以及不同对象分组条件，将对象数据集中的多个对象划分为多个对象分组；

结合所述多个对象分组之间包含关系，生成所述多个对象分组分别对应的分组标识。

可选地，所述利用所述样本用户的至少一个用户特征以及所述类别标识训练识别模型包括：

选择预训练的大语言模型作为识别模型；

根据所述样本用户的至少一个用户特征的文本描述信息，生成输入序列；

根据所述第一类别标识，生成输出序列；

利用所述输入序列及所述输出序列训练所述识别模型。

可选地，该方法还包括：

获取所述样本对象的属性描述信息；所述属性描述信息为图片形式和/或文本形式；

利用特征提取模型从所述对象属性信息中提取所述样本对象的对象特征；

所述根据对象特征，将对象数据集中的多个对象划分为多个对象分组包括：

将对象数据集中至少包括冷对象、新对象以及热对象的多个对象，按照对象特征进行划分，获得多个对象分组；

建立所述对象数据集中不同对象与各自所属对象分组之间的索引关系；

所述确定与所述样本用户匹配的样本对象所属的至少一个对象分组包括：

根据所述样本用户匹配的样本对象，查找所述索引关系以确定所述样本对象所属的至少一个对象分组。

可选地，该方法还包括：

将用户数据集中至少包括新用户、冷用户及热用户的多个用户，根据用户属性和/或用户行为进行划分，获得多个用户分组；

生成所述多个用户分组分别对应的索引标识；

所述确定样本用户的至少一个用户特征包括：

确定所述样本用户所属的至少一个用户分组；

根据所述至少一个用户分组的索引标识，生成所述样本用户的用户特征。

可选地，所述对象包括推广产品对应的推广内容；

确定所述对象数据集中的多个推广内容分别对应的推广产品的产品特征；

根据所述产品特征，将对象数据集中的多个推广内容，划分为多个对象分组。

第二方面，本申请实施例提供了一种对象处理方法，包括：

获取目标用户的至少一个用户特征；

利用识别模型，基于所述目标用户的至少一个用户特征确定至少一个第二类别标识；所述识别模型利用样本用户的至少一个用户特征以及所述样本用户匹配的样本对象对应的第一类别标识训练获得；

确定所述至少一个第二类别标识命中的至少一个对象；

根据所述至少一个对象，构建与所述目标用户相对应的召回候选集；所述召回候选集用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。

可选地，所述第二类别标识由多个节点标识构成；

所述利用识别模型，基于所述目标用户的至少一个用户特征确定至少一个第二类别标识包括：

利用识别模型，基于所述目标用户的至少一个用户特征，确定所述目标用户与不同节点标识的匹配概率；

确定由组合概率满足匹配要求的多个节点标识所构成的第二类别标识；所述组合概率根据所述多个节点标识的匹配概率计算获得；

所述确定所述至少一个第二类别标识命中的至少一个对象包括：

确定所述至少一个第二类别标识命中的一个或多个对象分组；所述对象分组根据对象特征，将对象数据集中的多个对象进行分层聚类划分获得；

确定所述一个或多个对象分组中所包含的至少一个对象。

可选地，所述利用识别模型，基于所述目标用户的用户特征确定至少一个第二类别标识包括：

检测所述目标用户满足推荐条件的情况下，利用识别模型，基于所述目标用户的至少一个用户特征确定至少一个第二类别标识。

可选地，所述获取目标用户的至少一个用户特征包括：

根据所述目标用户的属性信息以及用户行为数据，生成所述目标用户的至少一个用户特征。

可选地，所述获取目标用户的至少一个用户特征包括：

响应于推荐事件，获取目标用户的至少一个用户特征。

可选地，所述获取目标用户的至少一个用户特征包括：

确定所述目标用户所属的至少一个用户分组；

基于所述至少一个用户分组分别对应的索引标识，生成所述目标用户对应的一个用户特征。

可选地，所述确定由配组合概率满足匹配要求的多个组标识所构成的第二类别标识；所述匹配组合概率根据所述至少一个分组标识的匹配概率计算获得包括：

按照组合概率从大到小的筛选规则，选择预定数量个由至少一个节点标识所构成的第二类别标识。

可选地，该方法还包括：

根据所述目标用户所满足的推荐要求，确定所述推荐要求对应的预定数量；

或者，

根据所述目标用户当前所在页面的页面类型，确定所述推荐场景对应的预定数量。

第三方面，本申请实施例提供了一种推荐方法，包括：

获取目标用户的至少一个用户特征；

确定所述至少一个第二类别标识命中的至少一个对象；

根据所述至少一个对象，构建目标用户对应的召回候选集；

对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象；

基于所述至少一个目标对象，向所述目标用户执行推荐操作。

可选地，所述对象包括推广产品或者所述推广产品对应的推广内容；

所述基于所述至少一个对象，向所述目标用户执行推荐操作包括：

生成所述至少一个目标推广产品的产品推荐信息，并将所述产品推荐信息发送至用户端，以供所述用户端输出所述产品推荐信息，以向所述目标用户推荐所述至少一个目标推广产品；

或者，将至少一个目标推广内容发送至用户端，以供用户端输出所述至少一个目标推广内容，以向所述目标用户推荐所述至少一个目标推广内容分别对应的推广产品。

可选地，所述对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象包括：

计算召回候选集中多个对象分别对应的推广价值；按照所述推广价值从大到小的顺序进行排序处理；按照推广价值从大到小的顺序从排序结果中选择至少一个目标对象；

或者，确定所述召回候选集中的多个第一类对象以及多个第二类对象；计算所述多个第一类对象以及所述多个第二类对象分别对应的推广价值；以召回候选集中多个对象对应的总推广价值满足价值要求为优化目标，从多个第一类对象和多个第二类对象中，确定至少一个目标对象。

第四方面，本申请实施例提供了一种计算设备，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如上述第一方面所述的数据处理方法或者如上述第二方面所述的对象处理方法或如上述第三方面所述的推荐方法。

第五方面，本申请实施例提供了一种计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时，实现如上述第一方面所述的数据处理方法或者如上述第二方面所述的对象处理方法或如上述第三方面所述的推荐方法。

本申请实施例中，确定样本用户的至少一个用户特征以及与样本用户匹配的样本对象对应的第一类别标识，从而利用至少一个用户特征以及所述第一类别标识训练识别模型；利用所述识别模型即可以基于目标用户的至少一个用户特征，确定与所述目标用户匹配的至少一个第二类别标识；其中，该至少一个第二类别标识用于构建与所述目标用户相对应的召回候选集；所述召回候选集包括利用所述至少一个第二类别标识命中的至少一个对象，用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。本申请实施例中，利用识别模型识别与用户匹配的至少一个第二类别标识，从而具备该至少一个第二类别标识的对象即可以被召回作为目标用户的召回候选集以便继续进行后续的推荐操作，利用识别模型进行对象召回，提高了召回效果，此外，通过类别标识可以将相同类别的对象进行关联，使得新对象、冷对象可以与热对象进行关联，因此，按照类别标识所召回的对象中可以既有新对象、冷对象，也可以有热对象，从而可以解决新对象的冷启动问题，以及冷对象召回率低的问题。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种数据处理方法一个实施例的流程图；

图2示出了本申请实施例在一个实际应用中分层聚类结构示意图；

图3示出了本申请提供的一种对象处理方法一个实施例的流程图；

图4示出了本申请实施例在一个实际应用中的场景交互示意图；

图5示出了本申请提供的一种数据处理装置一个实施例的结构示意图；

图6示出了本申请提供的一种对象处理装置一个实施例的结构示意图；

图7示出了本申请提供的一种计算设备一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以适用于对象推荐场景中，目前实现对象推荐的处理方式通常包括召回阶段以及排序阶段，本申请实施例的技术方案即提出了一种改进的对象召回方式，以提高召回效果。

本文中的对象可以是指商品、文章或者网页等类型的线上数据形式。

发明人在实现本申请的过程中发现，对象召回的传统方式通常包括倒排索引、协同过滤、向量检索等，而传统的这些实现方式通常是基于判别方式，也即用户与对象的匹配程度来进行对象召回，例如传统的一种召回方式中，可以利用打分模型来计算用户与对象的匹配分数，从而根据匹配分数来决定对象是否被召回等。然而，传统的这种实现方对于新对象的冷启动应对不足，存在数据马太问题，导致一些新对象可能无法被召回，且直接计算用户与对象的匹配分数，可能导致推荐结果多样性会有所欠缺，在泛化性上存在不足，因此，传统实现方式召回效果不够好。

为了提高召回效果，发明人经过一系列研究，提出了本申请实施例的技术方案，在本申请实施例中，利用识别模型识别与目标用户匹配的至少一个第二类别标识，从而具备该至少一个第二类别标识的对象即可以被召回作为召回候选集以继续进行后续推荐操作，利用识别模型进行对象召回，提高了召回效果，此外，通过类别标识可以将不同对象进行关联，使得新对象、冷对象可与热对象进行关联，按照类别标识所召回的对象中可以既有新对象、冷对象，也可以有热对象，从而可以解决新对象的冷启动问题以及冷对象召回率低的问题，避免了马太效应。此外结合通过确定类别标识的方式，可以适合在全对象空间进行推荐，可以灵活调整推荐结果，可以兼顾推荐结果的多样性和准确性等，提高了泛化性。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

需要说明的是，本申请实施例的技术方案适用于网络虚拟环境中，所描述的用户一般是指“虚拟用户”，真实用户可以通过注册方式在服务端中注册用户账号，以获得在网络环境中的用户身份。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种数据处理方法一个实施例的流程图，本申请实施例的技术方案可以应用于推荐系统中，具体可以由推荐系统的服务端执行，实际应用中，该推荐系统可以与提供对象的线上系统为同一个系统或者不同系统等。本申请对此不进行具体限制。在一个具体实现中，推荐系统可以为广告系统，对象可以为推广产品或者可以为推广产品对应的推广内容。其中，推广产品可以为商品，当然也可以是指文章或者网页等虚拟对象。

实际应用中，推荐系统可以由服务端以及用户端构成，用户端与服务端之间通过网络建立连接。网络为用户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户端通过网络可以与服务端交互以接收或发送消息等。

其中，用户端可以为浏览器、APP（Application，应用程序）、或网页应用如H5（HyperText Markup Language5，超文本标记语言第5版）应用、或轻应用（也被称为小程序，一种轻量级应用程序）或云应用等，用户端可以部署在电子设备中，需要依赖设备运行或者设备中的某些app而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机、台式计算机、智能音箱、智能手表等等，为了便于理解，图1中主要以设备形象表示用户端。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。电子设备可以是指用户使用的，具有用户所需计算、上网、通信等功能的设备，例如可以是手机、平板电脑、个人电脑、穿戴设备等。电子设备通常可以包括至少一个处理组件和至少一个存储组件。电子设备也可能包括网卡芯片、IO总线、音视频组件等基本配置，本申请对此不进行限定。可选地，根据电子设备实现形式，也可以包括一些外围设备，例如键盘、鼠标、输入笔、打印机等，本申请对此不进行限定。

服务端可以包括提供各种服务的服务器，例如用以进行模型训练的服务器，又如用以进行对象处理的服务器等。

需要说明的是，服务端可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

该方法可以包括以下几个步骤：

101：确定样本用户的至少一个用户特征。

102：确定与样本用户匹配的样本对象对应的第一类别标识。

本申请实施例中，样本用户的至少一个用户特征以及所匹配的样本对象的第一类别标识可以作为训练数据，用以训练识别模型。

其中，样本用户以及样本用户匹配的样本对象可以从线上系统的历史记录数据中确定等。线上系统提供对象供用户执行购买或浏览等一系列用户行为，可选地，样本用户可以选择线上系统中的热用户类型，热用户类型例如可以是指针对对象所执行的用户行为数量大于一定数量的用户类型等。其中，线上系统对应的所有用户可以构成用户数据集，可以理解的是，用户数据集可以跟随线上系统中的用户进入情况而进行更新等。

该至少一个用户特征例如可以包括用户行为、用户属性、搜索关键词中的一个或多个等，其中，用户属性例如可以包括国籍、年纪、用户来源、和/或性别等，用户来源例如可以包括第三方搜索系统、推荐系统、社交媒体或者线上系统自身等。搜索关键词可以是在搜索场景下，基于线上系统提供的对象搜索功能，样本用户所输入的。

此外，作为其它可选方式，也可以预先将用户数据集按照用户相似度等进行分组，从而获得多个用户分组，并可以生成多个用户分组分别对应的索引标识，可以根据样本用户所属的至少一个用户分组的索引标识，生成样本用户对应的用户特征，样本用户所属的每个用户分组的索引标识可以作为一个用户特征，当然，也可以是将样本用户所属的至少一个用户分组分别对应索引标识进行组合排序，作为一个用户特征。因此，至少一个用户特征可以包括根据样本用户所属至少一个用户分组的索引标识，而生成的用户特征，当然，也可以包括上述用户行为、用户属性、用户来源、搜索关键词中的一个或多个等。

其中，不同用户之间用户相似度例如可以根据不同用户的用户属性和/或用户行为来确定。

与样本用户匹配的样本对象例如可以是指样本用户执行目标行为的对象，该目标行为例如可以是指点击行为，收藏行为、浏览行为或者购买行为等，针对任一个对象执行目标行为可以表明样本用户偏好该对象等。因此，可选地，该方法还可以包括：结合样本用户的用户行为数据，将执行目标行为的对象作为与样本用户匹配的样本对象。可以是从历史记录数据中，确定样本用户执行目标行为的对象作为与样本用户匹配的样本对象。

其中，类别标识可以用以表示对象类别，对象类别比如可以是指对象类目、颜色、规格、或者价格区间等等。具有相同类别标识的不同对象，具有相同的对象特性，如所属类目相同、颜色相同、规格相同或者价格区间相同等等。

样本对象对应的第一类别标识的确定方式可以有多种实现方式，在下文会详细进行介绍等。

其中，可以是从对象数据集中，确定与样本用户所匹配的样本对象。该对象数据集可以例如可以是基于参与推广任务的多个对象提供方所提供的对象而构建获得。该推广任务可以是线上系统所设置等。对象数据集可以是动态更新的，根据参与推广任务的对象提供方所提供对象的变化而变化。一个实际应用中，该推广任务例如可以是广告任务。对象提供方可以有偿参与广告任务，以获得更好的广告推广服务等。

103：利用样本用户的至少一个用户特征以及第一类别标识训练识别模型。

其中，可以是将样本用户的至少一个用户特征作为模型输入数据，第一类别标识作为输出数据来训练识别模型；可选地，可以是样本用户与该第一类别标识的匹配概率（0或者1，0表示样本用户与样本对象不匹配，1表示样本用户与样本对象匹配），作为训练标签来训练识别模型。

其中，该识别模型可以是encoder（编码器）-decoder（解码器）的神经网络结构实现，例如，transformer模型（一种神经网络模型）实现等，因此识别模型的输入数据以及输出数据可以采用序列方式实现。

因此，可选地，可以是根据样本用户的至少一个用户特征的文本描述信息，生成输入序列；根据第一类别标识，生成输出序列；利用输入序列及输出序列训练识别模型。

其中，输入序列可以通过对文本描述信息进行分词处理、向量转化获得等，本申请对此不进行限定。输出序列例如由第一类别标识构成等，当然，也可以首先确定由多个类别标识构成的数据序列，并将第一类别标识所在位置更新为1，而其余类别标识所在位置更新为0来获得该输出序列等，当然，本申请对输出序列的具体实现形式也不进行限定。

通过训练获得的识别模型即可以用以基于目标用户的至少一个用户特征，确定与目标用户匹配的至少一个第二类别标识。所述至少一个第二类别标识用以构建与所述目标用户相对应的召回候选集；所述召回候选集包括利用所述至少一个第二类别标识命中的至少一个对象，用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。其中，目标用户可以是指任意一个待推荐的用户，比如在一个实现场景中，目标用户可以是指新用户或冷用户等，其中，新用户或冷用户可以是指用户行为数量小于一定数量的用户等，其中，新用户的用户行为数量小于冷用户对应的用户行为数据，或者新用户可以是指注册时长小于一定时长的用户等，当然，由于新用户注册时长较短，所产生的用户行为较少，因此，冷用户可以包括新用户。

其中，至少一个第二类别标识所命中的至少一个对象用以构建目标用户对应的召回候选集。其中，该至少一个对象可以包括新对象、冷对象和/或热对象等，新对象例如可以是指线上系统中上架时长小于一定时长的对象，冷对象可以是指线上系统中所对应的用户行为数量小于一定数量的对象，热对象可以是指线上系统中所对应的用户行为数量大于一定数量的对象等，当然，新对象由于最近上架，对应的用户行为数量较少，因此，冷对象可以包括新对象。冷对象或新对象同样对应有对象类别，具有类别标识，因此，通过至少一个第二类别标识可以召回相同对象类别的新对象、冷对象以及热对象，从而使得新对象以及冷对象也可以被召回，可以解决新对象的冷启动问题，解决冷对象的召回率低的问题。

其中，识别模型可以是基于目标用户的至少一个用户特征，而计算目标用户与不同类别标识的匹配概率，从而可以根据匹配概率来确定至少一个第二类别标识。

本实施例中，利用识别模型进行对象召回，提高了召回效果，此外，通过类别标识可以将不同对象进行关联，使得新对象、冷对象可与热对象进行关联，从而可以解决新对象的冷启动问题，以及冷对象召回率低的问题，避免了马太现象。此外，通过类别标识可以召回大量对象，提高了召回效率，所召回的对象可以同时有新对象、热对象等，满足召回多样性。

其中，第一类别标识可以代表对象所对应的对象类别，对象类别可以预先设定，或者为对象本身属性等，此外，也可以通过划分方式，将对象进行分组，从而不同对象分组可以代表不同对象类别等。

因此，一些实施例中，上述确定与样本用户匹配的样本对象对应的第一类别标识可以包括：

确定与样本用户匹配的样本对象所属的至少一个对象分组；根据至少一个对象分组的分组标识，生成样本对象对应的第一类别标识。

其中，所述召回候选集包括利用所述至少一个第二类别标识命中的一个或多个对象分组。

其中，可以将对象数据集划分为多个对象分组，一些实施例中，可以是根据对象特征，将对象数据集中的多个对象划分为多个对象分组。

对象数据集可以是由参与推广任务的对象提供方所提供的对象构成，例如电子商务场景中，可以是由参与商品推广活动的不同商家所提供的广告商品或者广告商品的推广内容而构成该对象数据集。样本用户所匹配的样本对象可以来自该对象数据集等。对象数据集可以动态更新。

作为一种可选方式，上述根据对象特征，将对象数据集中的多个对象划分为多个对象分组可以包括：

根据树形聚类结构，确定多个对象分组；

根据任一个对象分组在树形聚类结构中对应的路径所涉及的至少一个节点的节点标识，生成对象分组的分组标识。

也即可以通过分层聚类方式来将对象数据集中的多个对象划分为多个对象分组。

分层聚类可以在不同层次对对象数据集进行划分，从而形成树形聚类结构。其中，对象数据集划分可采用“自底向上”的聚合法，也可采用“自顶向下”的分拆法。聚合法可以是指首先每个对象作为一个单独的聚类，然后迭代合并，直到最后的聚类中包含所有的数据点。分裂法可以是指首先从一个拥有所有对象的单一聚类开始，迭代地将该聚类分割成更小的聚类，直到每个聚类包含一个对象等。

其中，可以是将对象分组在树形聚类结构中对应的路径所涉及的至少一个节点的节点标识按照从根节点至叶子节点路径顺序而排序组合在一起，从而形成分组标识。

为了便于理解，参见图2所示的树形聚类结构，该树形聚类结构包括多个层级，根节点1为第一个层次，根节点1可以对应整体对象数据集，其整体可以作为一个数据分组，对象数据集可以首先划分为两个数据分组作为第二层次，分别对应节点2和节点3，节点2所对应的数据组又可以划分为三个数据分组，分别对应节点4、节点5以及节点6，节点2所对应的数据组又可以划分为两个数据分组，分别对应的节点7以及节点8。

其中，可选地，可以是将树形聚类结构中最下层节点（也即叶子节点）对应的数据分组，作为对象分组。当然，也可以是将任一个数据分组作为对象分组等。每个对象分组也即为聚类获得的一个簇。

其中，可以根据对象特征，计算不同对象之间的对象相似度，不同层次对应不同对象分组条件，对象分组条件例如可以是指对象相似度小于相似度阈值等，不同对象分组条件例如可以是指不同相似度阈值等。对象特征为向量特征的情况下，对象相似度可以利用向量距离表示，相似度阈值也即是指向量距离阈值。

对于每一层次的聚类可以采用聚类算法实现，例如K-Means(K均值)算法等，本申请对此不进行限定。

其中，任一个对象分组在树形聚类结构中对应的路径可以是指从根节点至该对象分组所在节点的遍历路径，对象分组为最下层的簇的情况下，可以是将对象分组对应路径中所涉及的多个节点标识进行组合获得分组标识，例如，结合图2所示示意图，对于节点6所对应的对象分组，其在树形聚类结果中的路径涉及节点1、节点3、节点6等，假设节点1的节点标识即为1，节点3的节点标识即为3、节点6的节点标识即为6，则该节点6所对应的对象分组对应的分组标识可以表示为（1，3，6）。

其中，多个对象分组是指最下层节点对应的数据分组的情况下，该多个对象分组之间的对象互不交叉，因此，所确定的与样本用户匹配的样本对象仅属于一个对象分组，该对象分组的分组标识即可以作为第一类别标识。

当然，样本对象所属多个对象分组的情况下，可以是将多个对象分组的分组标识组合获得该第一类别标识。

作为另一种可选方式，上述根据对象特征，将对象数据集中的多个对象划分为多个对象分组可以包括：

根据对象特征，计算多个对象之间的对象相似度；根据多个对象之间的对象相似度以及不同对象分组条件，将对象数据集中的多个对象划分为多个对象分组；结合多个对象分组之间的包含关系，生成多个对象分组分别对应的分组标识。

也即本申请实施例也可以不采用聚类算法，通过计算方式实现对象分组的划分。

其中，对象分组条件例如可以是指对象相似度小于相似度阈值等，不同对象分组条件例如可以是指不同相似度阈值等。对象特征为向量特征的情况下，对象相似度可以利用向量距离表示，相似度阈值也即是指向量距离阈值。

其中，按照不同相似度阈值进行对象分组的划分，多个对象分组之间可能存在包含关系，每个对象分组的分组标识可以结合该包含关系所确定，例如每个对象分组可以由自身标识以及其归属的至少一个对象分组的分组标识构成。比如对象分组1包含对象分组2，对象分组2包含对象分组3，对象分组1的分组标识假设为1，对象分组2的分组标识为（1，2），对象分组3的分组标识为（1，2，3）.

此外，一些实施例中，上述根据对象特征，将对象数据集中的多个对象划分为多个对象分组可以包括：

将对象数据集中至少包括冷对象、新对象以及热对象的多个对象，按照对象特征进行划分，获得多个对象分组；建立所述对象数据集中不同对象与各自所属对象分组之间的索引关系；

上述确定与所述样本用户匹配的样本对象所属的至少一个对象分组可以包括：根据所述样本用户匹配的样本对象，查找所述索引关系以确定所述样本对象所属的至少一个对象分组。

也即可以将对象数据集按照自身对象特征对对象进行索引结果的刻画，可以是基于对象标识以及分组标识，建立不同对象与各自所属对象分组之间的索引关系，从而可以根据对象标识查找索引关系而确定所对应的分组标识。

对象数据集中既可以包括热对象，此外也可以包括冷对象以及新对象等，每个对象分组中可以既有热对象，也可以由冷对象以及新对象，从而将新对象、冷对象与热对象进行关联，从而可以解决新对象的冷启动问题，以及冷对象召回率低的问题。

可以按照上述两种可选方式，而按照对象特征划分获得多个对象分组，此处不再赘述。

此外，上述对象特征可以利用特征提取模型而提取获得等，一些实施例中，该方法还可以包括：

获取所述样本对象的属性描述信息；所述属性描述信息为图片形式和/或文本形式；利用特征提取模型从所述对象属性信息中提取所述样本对象的对象特征。

属性描述信息例如可以包括对象图片和/或对象描述信息等，因此特征提取模型例如可以基于对象图片和/或对象描述信息而提取获得对象特征，对象描述信息可以为文本形式。为了进一步保证对象特征准确度，特征提取模型例如可以采用预训练的大模型实现，如Clip（Contrastive Language-Image Pre-Training，基于对比语言-图像对的预训练）模型或者BLIP（Bootstrapping LanguageImage Pre-training，引导语言图像的预训练）模型实现等，可以同时处理文本以及图像，能够理解图像和文本之间的语义联系。当然，本申请并不限定于此，特征提取模型可以从对象数据集中所选取的样本对象的对象图片和/或对象描述信息以及样本对象对应的对象特征而训练获得等。

一些实施例中，为了进一步提高召回效果，上述利用至少一个用户特征以及类别标识训练识别模型可以包括：

选择预训练的大语言模型作为识别模型；利用样本用户的至少一个用户特征以及类别标识训练该识别模型。

其中，利用样本用户的至少一个用户特征以及类别标识训练该识别模型可以包括：

根据样本用户的至少一个用户特征的文本描述信息，生成输入序列；根据第一类别标识，生成输出序列；利用输入序列及输出序列训练识别模型。

其中，第一类别标识可以是指样本用户匹配的样本对象所属的对象分组的分组标识，该对象分组可以通过分层聚类方式所确定，每个对象属于一个对象分组的情况下，分组标识由多个节点标识组合获得，因此，将多个节点标识即可以构成输出序列。所训练获得识别模型可以用于计算目标用户分别与不同节点标识的匹配概率，进而可以根据匹配概率确定由多个节点标识所构成的第二类别标识。

其中，该预训练的大语言模型（英文：Large Language Model，简称：LLM）实现可以是指使用大量数据训练的深度学习模型，其可以采用transformer结构实现，可以生成自然语言文本或理解语言文本的含义，利用预训练的大语言模型，再结合上述训练数据，也即样本用户的至少一个用户特征和第一类别标识进行微调训练，即可以获得本申请实施例的识别模型。该识别模型例如可以采用ChatGPT （Chat Generative Pre-trainedTransformer，聊天生成预训练转化器）或者LLaMa（Large Language Model Meta AI，Meta开发的大语言模型）模型等实现。

由于大语言模型可以是基于海量数据进行预训练，因此大语言模型具备通用知识，从而利用大语言模型所获得的识别模型能将用户的画像信息理解得更为充分，对于新用户而言，可以理解新用户的偏好信息，从而可以解决新用户的冷启动问题，在数据泛化性上更强，能够更好的应对冷启动和马太效应。因此，采用大语言模型的情况下，在一个实际应用，目标用户可以是指新用户或冷用户，以可以解决新用户或冷用户的冷启动问题，新用户以及冷用户也可以获得召回对象，提高召回效果。

此外，基于大语言模型的特征表达能力，还可以将新对象、冷对象与热对象相关联，通过热对象与用户的交互数据，可以快速帮助新对象，冷对象得到更多的曝光机会，从而进一步解决了新对象由于数据缺失导致的冷启动问题。

此外，为了方便进行训练，实际应用中，还可以结合Lora（Low-Rank Adaptationof Large Language Models，大型语言模型的低阶自适应）和/或P-tuning（Prompttuning，提示调优）等方式进行模型训练，本申请对此不进行限定。

由上文描述可知，可以将用户数据集进行划分，从而得到多个用户分组，因此，一些实施例中，该方法还可以包括：

将用户数据集中至少包括新用户、冷用户及热用户的多个用户，根据用户属性和/或用户行为进行划分，获得多个用户分组；生成所述多个用户分组分别对应的索引标识；

上述确定样本用户的至少一个用户特征可以包括：确定所述样本用户所属的至少一个用户分组；根据所述至少一个用户分组的索引标识，生成所述样本用户的用户特征。

目标用户的至少一个用户特征可以包括根据目标用户所属的至少一个用户分组的索引标识而生成的用户特征。

用户数据集中既可以包括热用户，此外也可以包括冷用户以及新用户等，每个用户分组中可以既有热用户，也可以有冷用户以及新用户，从而通过用户分组，将用户分组的索引标识作为用户特征，可以将新用户、冷用户与热用户进行关联，无论样本用户或者目标用户为新用户或者冷用户，均可以实现模型训练或者对照召回等，从而可以解决新用户或冷用户的冷启动问题，新用户以及冷用户也可以获得召回对象，提高召回效果。

其中，根据用户属性和/或用户行为对用户数据集进行划分，可以是将用户属性和/或用户行为作为数据特征，可以根据数据特征计算用户之间的用户相似度，从而可以根据用户相似度以及不同用户分组条件，划分获得多个对象分组。

当然，也可以采用分层聚类方式，根据数据特征，将用户数据集中的多个用户进行分层聚类，形成树形聚类结构；根据所述树形聚类结构，确定多个用户分组；可以根据任一个用户分组在所述树形聚类结构中对应的路径所涉及的至少一个节点的节点标识，生成所述用户分组的索引标识。

其中，可以是将用户分组在树形聚类结构中对应的路径所涉及的至少一个节点的节点标识按照从根节点至叶子节点路径顺序而排序组合在一起，从而形成索引标识。

其中，可选地，可以是将树形聚类结构中最下层节点（也即叶子节点）对应的簇，作为对象分组。当然，也可以是将任一个簇作为用户分组等。

由上文描述可知，本申请实施例的技术方案可以应用于广告系统中，对象可以是指推广产品，或者可以是指推广产品所对应的推广内容。推广内容可以包括图片形式和/或文本形式等。

其中，对象为推广内容的情况下，对象特征可以是从推广内容提取获得，例如利用上述特征提取模型提取获得；也即可以根据推广内容自身特征而将多个推广内容进行划分。

此外，作为又一种可选方式和，由于推广内容对应有推广产品，上述根据对象特征，将对象数据集中的多个对象划分为多个对象分组可以包括：

确定所述对象数据集中的多个推广内容分别对应的推广产品的产品特征；根据所述产品特征，将对象数据集中的多个推广内容，划分为多个对象分组。

图3为本申请实施例提供的一种对象处理方法一个实施例的流程图，本实施例从对象召回角度对本申请实施例的技术方案进行描述，本实施例可以由服务端执行，该方法可以包括以下几个步骤：

301：获取目标用户的至少一个用户特征。

该目标用户可以是指任意一个用户，或者是满足推荐要求的用户。该推荐要求例如可以是执行特定行为例如进入特定页面或者执行购买行为等。

可选地，可以是响应于推荐事件，获取目标用户的至少一个用户特征。该推荐事件例如可以是指目标用户执行特定行为如进入特定页面，如首页页面或者对象推广页面或者执行购买行为等，又如可以是指目标用户注册时长大于指定时长，又如可以是指目标用户对应的用户端启动事件等等。

302：利用识别模型，基于目标用户的至少一个用户特征确定至少一个第二类别标识。

其中，该识别模型利用样本用户的至少一个用户特征以及样本用户匹配的样本对象对应的第一类别标识训练获得。

303：确定至少一个第二类别标识命中的至少一个对象。

可以是从对象数据集中确定至少一个第二类别标识命中的至少一个对象。

304：根据至少一个对象，构建与目标用户相对应的召回候选集。

也即由每个第二类别标识命中的对象集合在一起即构成了召回候选集。

其中，召回候选集用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。

本实施例中，利用识别模型进行对象召回，提高了召回效果，此外，通过类别标识可以将不同对象进行关联，使得新对象、冷对象可与热对象进行关联，从而可以解决新对象的冷启动问题，以及冷对象的避免了数据马太现象。

在一个实现场景中，该识别模型可以采用大语言模型实现，目标用户可以是指新用户或者冷用户等，从而利用识别模型只需要根据新用户或冷用户的至少一个用户特征，即可以确定新用户或冷用户匹配的至少一个第二类别标识，进而召回至少一个对象，为新用户或冷用户实现了对象召回。由于大语言模型可以是基于各个领域的海量数据进行预训练，因此大语言模型具备通用知识，从而利用大语言模型所获得的识别模型能将用户的画像信息理解得更为充分，对于新用户或冷用户而言，即便其所产出的用户行为较少，但是会利用本申请实施例的识别模型，基于至少一个用户特征，即可以获得理解新用户的偏好信息，从而能够准确确定所匹配的至少一个第二类别标识，实现对象召回，从而可以解决新用户的冷启动问题，在数据泛化性上更强，能够更好的应对冷启动和马太效应。

一些实施例中，该第一类别标识可以根据样本用户匹配的样本对象所属的至少一个对象分组的分组标识所生成。

则上述确定至少一个第二类别标识命中的至少一个对象可以包括：

确定至少一个第二类别标识命中的一个或多个对象分组；确定一个或多个对象分组中所包含的至少一个对象。

可以是将至少一个第二类别标识命中的每个对象分组中全部对象构成召回候选集。从而本申请实施例无需匹配单个对象，只需确定所匹配的第二类别标识，从而确定对象分组，对象分组中的去全部对象即可以作为目标对象进行召回，满足了泛化性要求。

其中，可以是根据对象特征，将对象数据集中的多个对象进行划分而获得多个对象分组。

一些实施例中，可以是根据对象特征对象数据集中的多个对象进行分层聚类，形成树形聚类结构，并根据树形聚类结构，而确定多个对象分组。

其中，每个对象分组在树形聚类结构中对应的路径所涉及的多个节点的节点标识，即可以组合构成该对象分组的分组标识。

其中，可以将树形聚类结构中的最下层的聚类结果获得的多个簇作为多个对象分组，因此，每个对象仅归属于一个对象分组，多个对象分组之间的对象互不交叉，因此，每个第二类别标识可以由多个节点标识构成，因此，一些实施例中，利用识别模型，基于目标用户的至少一个用户特征确定至少一个第二类别标识可以包括：

利用识别模型，基于目标用户的至少一个用户特征，确定目标用户与不同节点标识的匹配概率；

确定由组合概率满足匹配要求的多个节点标识所构成的第二类别标识；组合概率根据多个节点标识的匹配概率计算获得，例如组合概率可以是多个节点标识的匹配概率的和值或者平均值等。

该匹配要求例如可以是组合概率大于指定概率阈值等，或者，作为其它可选方式，该匹配要求可以是Top-K（前K个）组合概率。其中，K为预定数量，该预定数量可以结合实际需求而确定，例如对于精确度要求较高的场景，K可以设定的相对比较小，对于多样性要求较高的场景，K可以设定的相对大。因此，确定由配组合概率满足匹配要求的多个组标识所构成的第二类别标识；匹配组合概率根据至少一个分组标识的匹配概率计算获得可以包括：按照组合概率从大到小的筛选规则，选择预定数量个由多个节点标识所构成的第二类别标识。

此外，预定数量也可以根据目标用户当前所在的页面类型确定。

此外，预定数量也可以根据目标用户所满足的推荐要求而确定等。

预定数量可以决定所确定的第二类别标识数量，因此通过预定数量，可以灵活设定对象召回数量等。

可选地，可以采用beam search（束搜索）的方式，寻找组合概率Top-K的由多个节点标识所构成的第二类别标识，当然本申请并不限定于此。

此外，为了降低计算量等，一些实施例中，利用识别模型，基于目标用户的用户特征确定至少一个第二类别标识可以包括：

检测目标用户满足推荐条件的情况下，利用识别模型，基于目标用户的至少一个用户特征确定至少一个第二类别标识。

也即可以首先收集目标用户的至少一个用户特征，在目标用户满足推荐条件的情况下，再利用识别模型确定所对应的至少一个第二类别标识。

该推荐条件例如可以是指目标用户的注册时长大于第一时长，或者目标用户的用户等级大于指定等级；或者目标用户进入指定页面如对象详情页面或者对象推广页面或者订单详情页面或者购物车页面等；或者目标用户的浏览时长大于第二时长；或者，目标用户执行目标行为如购买、收藏、加购等，可以结合实际情况进行设定等。

一些实施例中，上述获取目标用户的至少一个用户特征可以包括：确定所述目标用户所属的至少一个用户分组；基于所述至少一个用户分组分别对应的索引标识，生成所述目标用户对应的一个用户特征。

可以是将目标用户所属的每个用户分组的索引标识可以作为一个用户特征，当然，也可以是将目标用户所属的至少一个用户分组分别对应索引标识进行组合排序，作为一个用户特征。因此，至少一个用户特征可以包括根据目标用户所属至少一个用户分组的索引标识，而生成的用户特征，当然，也可以包括用户行为、用户属性、用户来源、搜索关键词中的一个或多个等，本申请对此不进行限定。

此外，本申请实施例还提供了一种推荐方法，可以包括如下几个步骤：

A：获取目标用户的至少一个用户特征；

B：利用识别模型，基于所述目标用户的至少一个用户特征确定至少一个第二类别标识；所述识别模型利用样本用户的至少一个用户特征以及所述样本用户匹配的样本对象对应的第一类别标识训练获得；

C：确定所述至少一个第二类别标识命中的至少一个对象；

D：根据所述至少一个对象，构建目标用户对应的召回候选集；

E：对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象；

F：基于所述至少一个目标对象，向所述目标用户执行推荐操作。

上述A~D步骤可以详见图3所示实施例中步骤301~步骤304中所述，此处不再重复赘述。

在召回候选集包括多个对象的情况下，可以对所述召回候选集进行排序处理，从而确定至少一个目标对象。

一些实施例，对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象可以包括：

计算召回候选集中多个对象分别对应的推广价值；按照所述推广价值从大到小的顺序进行排序处理；按照推广价值从大到小的顺序从排序结果中选择至少一个目标对象。

作为一种可选方式，任意一个对象的推广价值可以是指对象与目标用户的匹配程度；

可以通过对象特征以及用户特征来计算匹配程度，例如对象特征以及用户特征采用向量表示的情况下，可以通过计算向量距离来确定匹配程度，匹配程度越大，推广价值越高。

当然，也可以利用匹配模型来计算对象与目标用户的匹配程度等。

作为又一种可选方式，由前文描述可知，对象数据集可以是由参与推广任务的个对象提供方所提供的对象而构建获得。对象提供方可以有偿参与推广任务。

因此，每个对象的推广价值可以是指对象提供方所提供的奖励资源，如推广费用等。

基于参与推广任务的多该推广任务可以是线上系统所设置等。对象数据集可以是动态更新的，根据参与推广任务的对象提供方所提供对象的变化而变化。一个实际应用中，该推广任务例如可以是广告任务。对象提供方可以有偿参与广告任务，以获得更好的广告推广服务等。

此外，作为又一种可选方式，对象数据集可以包括参与推广任务的个对象提供方所提供的第一类对象，此外也可以包括除第一类对象之外的第二类对象。

因此，对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象可以包括：

以召回候选集中多个对象对应的总推广价值满足价值要求为优化目标，从多个第一类对象和多个第二类对象中，确定至少一个目标对象。

第一类对象的推广价值以及第二类对象的推广价值例如可以是指与目标用户的匹配程度等。

当然，第一类对象的推广价格也可以是指对象提供方支付的奖励资源，如推广费用等。

该价值要求例如可以为总推广价值大于指定阈值等。其中，总推广价值可以是指至少一个目标对象的推广价值之和或者平均值等，本申请对此不进行限定。

当然，对于召回候选集也可以采用传统的粗排、以及精排的处理方式等进行排序处理，以最终获得至少一个目标对象，本申请对此不再赘述。

在一个实际应用中，本申请实施例的技术方案可以应用于电子商务场景中，下面以电子商务场景为例，结合图4所示的场景交互示意图，对本申请实施例的技术方案进行介绍。

在电子商务场景中，线上系统即是指提供商品购买的电子商务系统，为了方便用户了解商品并实现购买等，系统可以提供一些页面，如商品详情页面（如包括商品的价格、产地、性能、下单提示等详细信息）、商品推广页面（如包括多个商品推广信息，每个商品推广信息可以链接至商品详情页面等）、订单详情页面（如包括交易明细信息等）、购物车页面（如以列表形式显示用户选择的多个商品的提示信息，并可以针对任一个商品触发下单操作）等。

为了实现进行商品推荐时，提高召回效果，本申请实施例中，推荐系统中的服务端100可以首先训练识别模型。推荐系统可以即为上述电子商务系统，当然，也可以是独立于电子商务系统的另一个系统。一个实际应用中，该推荐系统可以是广告系统，商品提供方所提供的参与广告任务的推广商品可以作为广告商品，用以向用户进行推广等，下面主要以广告商品为例进行介绍。

其中，识别模型可以采用预训练的大语言模型。

服务端100可以根据商品特征将广告商品数据集所包含的多个广告商品进行分层聚类401，从而可以将树形聚类结构中最下层的簇作为商品分组。每个商品分组所在树形聚类结构中对应的路径所涉及的多个节点的节点标识，即组合为该商品分组的分组标识。该广告商品数据集可以是基于参与广告任务的商品提供方所提供的广告商品所构成，该商品数据集可以动态更新。通过将多个广告商品进行分层聚类，可以将具有相同类别的新品、冷品和/或热品而分为一组。

之后，服务端100可以从历史记录数据中，选择样本用户，例如样本用户可以为热用户等，之后将热用户的用户行为数据以及用户属性数据等信息转化为文本描述；确定热用户所执行点击行为的广告商品为样本商品，根据该样本商品所在商品分组，该商品分组的分组标识即可以作为第一类别标识，从而可以建立文本描述以及第一类别标识的映射关系，并作为训练数据402。

服务端100可以基于训练数据而训练识别模型403，文本描述可以经过分词处理等而形成输入序列，第一类别标识所包含的多个节点标识构成输出序列，利用输入序列以及输出序列即可以训练识别模型。在训练过程中，可以结合Lora、和/或P-tuning等进行。

此外，服务端还可以从历史记录数据中，选择测试用户，例如测试用户可以为热用户等，获得测试用户的至少一个用户特征，并生成测试用户对应的输入序列，以及基于测试用户的点击行为对应的广告商品所在商品分组的分组标识而生成输出序列，基于该输入序列，可以对识别模型进行验证，并根据模型预估结果和输出序列的差异信息可以对识别模型进行调整。

识别模型线上部署之后，服务端100对于目标用户，本实现场景以目标用户为新用户为例，可以在新用户启动用户端102，即开始收集该新用户的至少一个用户特征，并可以在新用户满足推荐条件的情况下，如进入指定页面等，可以基于所生成的识别模型而识别获得所匹配的至少一个第二类别标识404。

其中，识别模型可以计算与每一层节点对应的不同节点标识的匹配概率，服务端100可以采用beamsearch的方式根据组合概率，筛选由不同层的节点标识所组成的Top-k个第二类别标识。

之后，服务端100可以将至少一个第二类别标识所命中的商品分组中所包含的全部广告商品进行召回，而获得召回候选集。

服务端100针对召回候选集可以继续进行排序处理，并根据排序结果确定至少一个目标广告商品。服务端100可以将至少一个目标广告商品的商品推荐信息发送至用户端200，用户端200即可以展示该商品推荐信息，从而实现向新用户推荐至少一个目标广告商品的目的，以解决新用户冷启动问题，所召回的至少一个广告商品中包括新品或冷品，从而可以解决新品的冷启动问题，以及冷品的召回率较低的问题。

通过本申请实施例，可以基于大语言模型的世界知识，构建生成式的建模方案，能将用户的画像信息理解得更为充分，可以学习到通用知识，比如相同类型的用户偏好，因此新用户只需要以“文本描述”的形式将相关特征输入模型中，相当于可以获得相同类型的用户偏好信息，比如，不同国家的女性均偏好服饰商品等，从而能更好地应对新用户的冷启动以及数据马太的问题，在数据泛化性上更强，比如，新用户具有女性属性的情况下，利用大语言模型可以理解该新用户也具备对服饰商品的偏好信息，进而可以据此获得更为准确的识别结果；基于大语言模型的特征表征能力，能将新品、冷品与其他热品相关联，通过热品与用户的交互数据，能快速帮助新品，冷品得到更多的曝光机会，从而解决新品、冷品的冷启问题，同时满足召回多样性的要求，且基于商品标识可以召回商品分组，而无需单独一个一个商品进行召回，提高了召回效率。

基于生成式的召回方式，可以在在数据全空间上进行预测，更适合面向全部候选集的召回阶段，同时通过筛选预定数量的第二类别标识，还可以保证推荐结果的多样性等。

此外，采用分组标识的方式，可以节省训练的时间，提高了线上更新部署的效率；此外，本申请实施例的技术方案不需要额外的打分模型，在工程链路实现上复杂度更低，同时端到端的召回方式也避免了离线在线不一致的情况。

图5为本申请实施例提供的一种数据处理装置一个实施例的结构示意图，该装置可以包括：

第一确定模块501，用于确定样本用户的至少一个用户特征；

第二确定模块502，用于确定与样本用户匹配的样本对象对应的第一类别标识；

训练模块503，用于利用样本用户的至少一个用户特征及第一类别标识训练识别模型；

其中，识别模型用以基于目标用户的至少一个用户特征，确定与所述目标用户匹配的至少一个第二类别标识；所述至少一个第二类别标识用以构建与所述目标用户相对应的召回候选集；所述召回候选集包括利用所述至少一个第二类别标识命中的至少一个对象，用以从中确定向所述目标用户执行推荐操作的至少一个目标对象。

一些实施例中，第二确定模块可以具体是确定与样本用户匹配的样本对象所属的至少一个对象分组；根据至少一个对象分组的分组标识，生成所述样本用户对应的第一类别标识。

所述召回候选集包括利用所述至少一个第二类别标识命中的一个或多个对象分组。

一些实施例中，该装置还可以包括：

对象划分模块，用于根据对象特征，将对象数据集中的多个对象划分为多个对象分组。

一些实施例中，该对象划分模块可以具体是根据对象特征，将对象数据集中的多个对象进行分层聚类，形成树形聚类结构；根据树形聚类结构，确定多个对象分组；根据任一个对象分组在树形聚类结构中对应的路径所涉及的至少一个节点的节点标识，生成对象分组的分组标识。

一些实施例中，该对象划分模块可以具体是根据对象特征，计算多个对象之间的对象相似度；根据多个对象之间的对象相似度以及不同对象分组条件，将对象数据集中的多个对象划分为多个对象分组；结合多个对象分组之间包含关系，生成多个对象分组分别对应的分组标识。

一些实施例中，该训练模块可以具体是：选择预训练的大语言模型作为识别模型；根据样本用户的至少一个用户特征的文本描述信息，生成输入序列；根据第一类别标识，生成输出序列；利用输入序列及输出序列训练识别模型。

图5所述的数据处理装置可以执行图1所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6为本申请实施例提供的一种对象处理装置一个实施例的结构示意图，该装置可以包括：

第一获取模块601，用于获取目标用户的至少一个用户特征；

识别模块602，用于利用识别模型，基于目标用户的至少一个用户特征确定至少一个第二类别标识；识别模型利用样本用户的至少一个用户特征以及样本用户匹配的样本对象对应的第一类别标识训练获得；

第三确定模块603，用于确定至少一个第二类别标识命中的至少一个对象；

构建模块604，用于根据至少一个对象，构建与目标用户相对应的召回候选集。召回候选集用以确定目标对象，并基于所述目标对象向所述目标用户执行推荐操作。从中确定向所述目标用户执行推荐操作的至少一个目标对象。

一些实施例中，第二类别标识可以包括多个节点标识；

识别模块可以具体是利用识别模型，基于目标用户的至少一个用户特征，确定目标用户与不同节点标识的匹配概率；确定由组合概率满足匹配要求的多个节点标识所构成的第二类别标识；组合概率根据多个节点标识的匹配概率计算获得；例如组合概率可以是多个节点标识的匹配概率的和值或者平均值等。

其中，第三确定模块可以具体是确定至少一个第二类别标识命中的一个或多个对象分组；确定该一个或多个对象分组中所包含的至少一个对象；其中，对象分组根据对象特征，将对象数据集中的多个对象进行分层聚类划分获得。

一些实施例中，第三确定模块可以具体是按照组合概率从大到小的筛选规则，选择预定数量个由至少一个节点标识所构成的第二类别标识。

一些实施例中，该装置还可以包括：

数量确定模块，用于根据目标用户所满足的推荐要求，确定推荐要求对应的预定数量；或者根据目标用户当前所在页面的页面类型，确定对应的预定数量。

一些实施例中，该装置还可以包括：

推荐模块，用于对召回候选集进行排序处理，根据排序结果确定至少一个目标对象；基于所述至少一个目标对象，向所述目标用户执行推荐操作。

一些实施例中，对象包括推广产品或者所述推广产品对应的推广内容；推荐模块基于所述至少一个对象，向所述目标用户执行推荐操作包括：生成所述至少一个目标推广产品的产品推荐信息，并将所述产品推荐信息发送至用户端，以供所述用户端输出所述产品推荐信息，以向所述目标用户推荐所述至少一个目标推广产品；

一些实施例中，推荐模块对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象包括：计算召回候选集中多个对象分别对应的推广价值；按照所述推广价值从大到小的顺序进行排序处理；按照推广价值从大到小的顺序从排序结果中选择至少一个目标对象；

一些实施例中，识别模块可以具体是检测目标用户满足推荐条件的情况下，利用识别模型，基于目标用户的至少一个用户特征确定至少一个第二类别标识。

一些实施例中，第一获取模块可以具体是根据目标用户的属性信息以及用户行为数据，生成目标用户的至少一个用户特征。

一些实施例中，第一获取模块可以是响应于推荐事件，获取目标用户的至少一个用户特征。

图6所述的对象处理装置可以执行图3所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供了一种计算设备，如图7所示，该设备可以包括存储组件701以及处理组件702；

存储组件701存储一条或多条计算机指令，其中，一条或多条计算机指令供处理组件702调用并执行，以实现如图1所示的数据处理方法或者如图3所示的对象处理方法。

当然，计算设备必然还可以包括其他部件，例如输入/输出接口、显示组件、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

其中，处理组件可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。存储组件被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

需要说明的是，上述计算设备可以为物理设备或者云计算平台提供的弹性计算主机等。其可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被计算机执行时可以实现上述图1所示实施例的数据处理方法或者图3所示实施例的对象处理方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本申请实施例还提供了一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，计算机程序被计算机执行时可以实现如上述如图1所示实施例的数据处理方法或者图3所示实施例的对象处理方法。在这样的实施例中，计算机程序可以是从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被处理器执行时，执行本申请的系统中限定的各种功能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定样本用户的至少一个用户特征；

确定与所述样本用户匹配的样本对象对应的第一类别标识；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据对象特征，将对象数据集中的多个对象划分为多个对象分组包括：

根据对象特征，将对象数据集中的多个对象进行分层聚类，形成树形聚类结构；根据所述树形聚类结构，确定多个对象分组；根据任一个对象分组在所述树形聚类结构中对应的路径所涉及的至少一个节点的节点标识，生成所述对象分组的分组标识；

或者，

根据对象特征，计算所述多个对象之间的对象相似度；根据所述多个对象之间的对象相似度以及不同对象分组条件，将对象数据集中的多个对象划分为多个对象分组；结合多个对象分组之间的包含关系，生成所述多个对象分组分别对应的分组标识。

4.根据权利要求1所述的方法，其特征在于，所述利用所述样本用户的至少一个用户特征以及所述类别标识训练识别模型包括：

选择预训练的大语言模型作为识别模型；

根据所述第一类别标识，生成输出序列；

利用所述输入序列及所述输出序列训练所述识别模型。

5.根据权利要求2所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

生成所述多个用户分组分别对应的索引标识；

所述确定样本用户的至少一个用户特征包括：

确定所述样本用户所属的至少一个用户分组；

7.根据权利要求2所述的方法，其特征在于，所述对象包括推广产品对应的推广内容；

8.一种对象处理方法，其特征在于，包括：

获取目标用户的至少一个用户特征；

确定所述至少一个第二类别标识命中的至少一个对象；

9.根据权利要求8所述的方法，其特征在于，所述第二类别标识由多个节点标识构成；

确定所述一个或多个对象分组中包含的至少一个对象。

10.一种推荐方法，其特征在于，包括：

获取目标用户的至少一个用户特征；

确定所述至少一个第二类别标识命中的至少一个对象；

根据所述至少一个对象，构建目标用户对应的召回候选集；

11.根据权利要求10所述的方法，其特征在于，所述对象包括推广产品或者所述推广产品对应的推广内容；

12.根据权利要求10所述的方法，其特征在于，所述对所述召回候选集进行排序处理，根据排序结果确定至少一个目标对象包括：

13.一种计算设备，其特征在于，包括处理组件以及存储组件；

所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如权利要求1~7任一项所述的数据处理方法或者如权利要求8~9任一项所述的对象处理方法或者10~12任一项所述的推荐方法。

14.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被计算机执行时，实现如权利要求1~7任一项所述的数据处理方法或者如权利要求8~9任一项所述的对象处理方法或者10~12任一项所述的推荐方法。