CN117708428A

CN117708428A - 推荐信息预测方法、装置以及电子设备

Info

Publication number: CN117708428A
Application number: CN202311750134.0A
Authority: CN
Inventors: 袁裕清; 宋超; 林鹏
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-15

Abstract

本申请实施例公开了一种推荐信息预测方法、装置以及电子设备。所述方法包括：获取用户信息；基于用户画像信息、候选推荐信息和当前参考信息，得到提示词；将提示词输入大语言模型，得到用户信息对应的预测标签；将预测标签与多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为用户信息对应的目标推荐信息。通过上述方式使得，可以在得到预测标签后，判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，以便于得到更准确的目标推荐信息。

Description

推荐信息预测方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种推荐信息预测方法、装置以及电子设备。

背景技术

随着科技的进步，人们日常生活日益丰富多元，每时每刻都会做出不同的行为，并伴随着各类数据。这些数据可以包含并体现着用户的个性、偏好、倾向等。在相关方式中，可以通过这些数据和多分类模型预测用户感兴趣的推荐信息。但相关方式中，还存在预测的推荐信息不准确的问题。

发明内容

鉴于上述问题，本申请提出了一种推荐信息预测方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请提供了一种推荐信息预测方法，所述方法包括：获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到；基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

第二方面，本申请提供了一种推荐信息预测装置，所述装置包括：用户信息获取单元，用于获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到；提示词获取单元，用于基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；目标推荐信息获取单元，用于将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

第三方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请提供的一种推荐信息预测方法、装置、电子设备以及存储介质，在获取包括用户画像信息、多个候选推荐信息和当前参考信息的用户信息后，基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的兴趣确定方法的一种应用场景的示意图；

图2示出了本申请实施例提出的兴趣确定方法的另一种应用场景的示意图；

图3示出了本申请实施例提出的一种推荐信息预测方法的流程图；

图4示出了本申请实施例提出的一种提示词的示意图；

图5示出了本申请实施例提出的一种通过大语言模型获取预测标签的示意图；

图6示出了本申请另一实施例提出的一种推荐信息预测方法的流程图；

图7示出了本申请再一实施例提出的一种推荐信息预测方法的流程图；

图8示出了本申请实施例提出的一种构造多个样本序列的示意图；

图9示出了本申请图7中提出的一种实施方法的流程图；

图10示出了本申请实施例提出的一种推荐信息预测装置的结构框图；

图11示出了本申请提出的一种电子设备的结构框图；

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的推荐信息预测方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着科技的进步发展和人们生活水平的提高，人们的日常生活也越来越丰富，例如，网络购物、旅行、浏览短视频等，从而会基于日常生活中的种种行为产生大量数据，这些数据可以包含并体现着用户的个性、偏好、倾向等。在相关方式中，可以通过这些数据和多分类模型预测用户感兴趣的推荐信息。

发明人在对相关研究中发现，相关的推荐信息预测方式还存在推荐信息预测不准确的问题。例如，通过多分类模型预测目标推荐信息时，输出的目标推荐信息与模型实际可区分的推荐信息数量和类型有关，当多分类模型的应用范围的增大时，可能会导致推荐信息的类型和数量增多，此时多分类模型需要从更多的且不同类型的推荐信息中预测出目标推荐信息会更加困难，从而导致多分类模型预测的准确性降低。

因此，发明人提出了本申请中的一种推荐信息预测方法、装置以及电子设备，在获取包括用户画像信息、多个候选推荐信息和当前参考信息的用户信息后，基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。

为了更好地理解本申请实施例的方案，下面先对本申请实施例所使用的技术名词解释。

LLM(Large Language Model，大语言模型)：可以指使用大量文本数据训练的深度学习模型，LLM可以生成自然语言文本或理解语言文本的含义，通常用于处理多种自然语言任务，如文本分类、问答、对话等。示例性的，大语言模型可以为ChatGPT(Chat GenerativePre-trained Transformer)模型。

Prompt(提示词)可以指是一种基于自然语言格式的一种输入形式，通常将任务和数据构建成语言文本作为语言模型的输入。Prompt可以用于指示模型在进行特定任务时应该采取什么行动或生成什么输出。

Token：可以指文本切分的最小单位，通常是一个字、一个词或一个词组。

POI(Point of Interest，感兴趣点)：可以指地理空间中的地点，POI可以在一定程度上可以反应用户的兴趣，POI可以理解为与人们的生活、工作、娱乐等相关的“兴趣点”(例如：某个特定的餐厅、商铺、学校、医院、景点等)。POI可以既具有地理属性也具有兴趣类别属性，其中POI除了可以反映地点名称、地理坐标(经纬度)、行政区域、邮政编码等地点信息以外，还可以反映场所类别、经营时间等兴趣类别信息以描述在该POI发生的生产经营活动。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，主要涉及推荐信息预测和大语言模型训练两个阶段的内容，对应阶段所提供的推荐信息预测方法或者大语言模型训练方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的推荐信息预测方法或者大语言模型训练方法中所有步骤可以均由电子设备执行。例如，如图1所示，本申请实施例提供的推荐信息预测方法或者大语言模型训练方法中所有步骤可以均由电子设备执行的情况下，所有步骤均可以通过电子设备100处理器执行。

再者，本申请实施例提供的推荐信息预测方法或者大语言模型训练方法也可以由服务器进行执行。对应的，在由服务器执行的这种方式中，服务器可以响应于触发指令而开始执行本申请实施例提供的推荐信息预测方法或者大语言模型训练方法中的步骤。其中，该触发指令可以由用户使用的电子设备所发送，也可以由服务器响应于一些自动化事件而在本地触发。

另外，如图2所示，本申请实施例提供的推荐信息预测方法或者大语言模型训练方法还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的推荐信息预测方法或者大语言模型训练方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。示例性的，电子设备100可以执行推荐信息预测方法包括的：获取用户信息，然后将该用户信息传输给服务器200，然后由服务器200来执行后续的步骤以得到目标推荐信息，并将目标推荐信息再返回给电子设备100，以便于电子设备100基于该目标推荐信息为用户推荐与目标推荐信息相关的项目等。或者，也可以是由服务器200根据目标推荐信息确定推荐项目后，将推荐项目返回给电子设备100进行显示。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

需要说明的是，其中的电子设备100除了为图1和图2中所示的智能手机外，还可以为平板电脑、智能手表、智能语音助手等设备。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。其中，在本申请实施例提供的推荐信息预测方法或者大语言模型训练方法由多个物理服务器构成的服务器集群或者分布式系统执行的情况下，推荐信息预测方法或者大语言模型训练方法中的不同步骤可以分别由不同的物理服务器执行，或者可以由基于分布式系统构建的服务器基于分布式的方式执行。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种推荐信息预测方法，所述方法包括：

S110：获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到。

其中，用户画像信息可以指是根据用户社会属性、生活习惯和消费行为等信息而抽象出的对用户进行整体概括的信息。候选推荐信息可以指可能成为目标推荐信息的信息。当前参考信息可以指当前时刻下用于辅助得到目标推荐信息的信息。用户信息还可以包括补充候选推荐信息，补充候选推荐信息可以指除了候选推荐信息以外的可能成为目标推荐信息的信息。

在本申请实施例中，不同的推荐场景，可以有不同的候选推荐信息、当前参考信息和/或补充候选推荐信息。例如，当推荐场景为POI推荐时，候选推荐信息可以为基于用户历史POI轨迹得到的候选POI，当前参考信息可以为当前时刻、用户当前经纬度等，补充候选推荐信息可以指用户当前经纬度附近的POI。再例如，当推荐场景为商品推荐时，候选推荐信息可以为基于用户历史浏览记录得到的候选商品，当前参考信息可以为当前时刻、用户当前经纬度、用户当前经纬度的近期天气等，补充候选推荐信息可以指用户当前经纬度附近的销量排在前K(K为正整数)位的商品。

在本申请实施例中，候选推荐信息对应的标签可以由数字表示，且候选推荐信息对应的标签可以与用户使用候选推荐信息的时间先后顺序有关，数字越小表明时间越靠前。示例性的，当有3个候选推荐信息时，按照时间先后顺序排在第一个的候选推荐信息的标签可以为0，第一个的候选推荐信息的标签可以为1，第三个的候选推荐信息的标签可以为2。补充候选推荐信息也对应有标签，补充候选推荐信息对应的标签也可以由数字表示，且候选推荐信息对应的标签可以基于对应的候选推荐信息确定。示例性的，按照时间先后顺序排在最后一个的候选推荐信息的标签可以为2，则第一个补充候选推荐信息对应的标签可以为3。

同时，当存在多个补充候选推荐信息时，多个补充候选推荐信息各自对应的标签可以与时间先后顺序无关。例如，补充候选推荐信息为当前用户位置附近的POI时，多个补充候选推荐信息各自对应的标签可以与对应POI到当前用户位置的距离有关，距离越近，标签对应的数字越小。

作为一种方式，可以响应于接收到预测任务，获取用户画像信息、多个候选推荐信息、当前参考信息和/或补充候选推荐信息。

其中，预测任务可以指用于预测目标推荐场景下目标推荐信息的任务。

可选的，可以从指定存储位置获取用户画像信息，该指定存储位置的用户画像信息可以是电子设备自身基于日志信息总结得到并存储的，还可以是服务器或者云平台基于日志信息总结得到并存储的。

可选的，可以基于用户历史行为和预设召回策略得到多个候选推荐信息。可以基于用户历史行为得到与目标推荐信息相关的历史行为轨迹，基于历史行为轨迹和预设召回策略可以得到多个候选推荐信息，用户历史行为可以基于用户对电子设备中应用程序的使用记录、日志信息等得到。

其中，预设召回策略可以为LRU(Least Recently Used，最近最少使用)策略或MRU(Most Recently Used，最近最多使用)等。LRU策略可以用于将距当前时刻预设时间段内未使用或使用次数最少的历史行为轨迹筛除，以基于筛除后的历史行为轨迹得到多个候选推荐信息。MRU策略可以用于将距当前时刻预设时间段内最常使用或使用次数最多的历史行为轨迹筛除，以基于筛除后的历史行为轨迹得到多个候选推荐信息。

在本申请实施例中，可以基于实际需求确定预设召回策略。当出于用户在距当前时刻预设时间段内使用次数最多的历史行为轨迹，最有可能为下一时刻的推荐信息的角度考虑时，可以选择LRU策略作为预设召回策略。当出于用户在距当前时刻预设时间段内使用次数最少的历史行为轨迹，最有可能为下一时刻的推荐信息的角度考虑时，可以选择RMU策略作为预设召回策略。

可选的，可以基于预测任务的目标推荐场景和电子设备的应用程序(如导航应用程序、天气预报应用程序等)获取当前参考信息。

可选的，可以基于预测任务的目标推荐场景和当前时刻确定补充候选推荐信息。

可选的，可以基于用户对上一次预测任务得到的目标推荐信息的满意程度确认是否将补充候选推荐信息加入用户信息中，若满意程度大于或等于预设值，可以不加入补充候选推荐信息；若满意程度小于预设值，可以加入补充候选推荐信息。

在本申请实施例中，由于使用了提示词，在基于自身需求任意增加或删除或修改或替换预设召回策略，以得到不同候选推荐信息用于目标推荐信息预测时，可以无需更改大语言模型的网络结构，从而可以提高候选推荐信息的灵活可变性。

S120：基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词。

作为一种方式，可以获取预先配置的任务提示描述，任务提示描述可以包括任务提示模块和详细任务描述模块，任务提示模块可以用于通知大语言模型所需执行任务的概述、提示词中剩下模块的内容概述以及剩下模块的出现顺序，详细任务描述模块可以用于对提示词进行全文总结以及通知大模型所需执行任务的详细信息；基于用户画像信息，得到用户画像模块；基于多个候选推荐信息和多个候选推荐信息各自对应的标签，得到候选列表模块；基于当前参考信息，得到当前时刻信息模块；基于任务提示模块、详细任务描述模块、用户画像模块、候选列表模块和当前时刻信息模块，得到提示词。

其中，任务提示模块、详细任务描述模块、用户画像模块、候选列表模块和当前时刻信息模块分别可以指提示词中的一部分文本内容。

示例性的，如图4所示，任务提示模块可以为提示词中的“根据提供的<用户画像>、<历史poi轨迹>、<用户当前时刻POI信息>、<用户当前位置附近POI>(可选的)，预测下一个最有可能访问的poi。”；用户画像模块可以为提示词中的“有一个50岁以上的男性用户4。他收入等级是0级(收入等级为0-2，0级最低，2级最高)，他在餐饮级公司上班，他用2799.0块的手机，他手机行为是衰退期，他手机品牌是RENO5 K，他买了车，他还没小孩，他轻度爱玩游戏，他轻度爱购物，他疯狂爱旅游。”

可选的，可以将用户画像信息填充至第一预设prompt模板，得到用户画像模块。

其中，第一预设prompt模板可以指预先设置的用于表达用户画像信息中名词类特征和形容词类特征的模板，不同类型特征对应的模板也可以有多种。

在本申请实施例中，名词类特征模板可以为：

Template_{名词特征1}＝"{代词}的{特征名称}是{特征值}。"

Template_{名词特征2}＝"{代词}有{特征值}的{特征名称}。"

形容词类特征模板可以为：

Template_{形容词特征1}＝"{形容词}的{特征名称}。"

示例性的，图4所示提示词中的“50岁以上的男性用户4”可以为基于形容词特征1对应的模板得到；图4所示提示词中的“他的手机是OPPO Find 9”可以为基于名词特征1对应的模板得到。

在本申请实施例中，通过设置不同的模板，并基于不同的模板得到用户画像模块，可以使大语言模型学习到文本的多样性，从而提高大语言模型对文本的理解力，进而提高了大语言模型的鲁棒性。

可选的，可以多个候选推荐信息和多个候选推荐信息各自对应的标签，充至第二预设prompt模板，得到候选列表模块。

其中，第二预设prompt模板可以指预先设置的用于表达候选推荐信息的模板。第二预设prompt模板可以将每个候选推荐信息的特征描述及属性信息转化为一行以逗号分隔的文本(csv格式)。第二预设prompt模板可以为：

其中，在每个候选推荐信息描述文本前，可以按照时间顺序给该候选推荐信息赋以下标。以召回N个候选POI的列表为例，列表中最先(第一个)访问的POI下标可以置为0，第i个访问的POI下标为i-1，最后访问的POI下标则置为N-1，可以按照下标先后顺序按行拼接上所有候选POI描述文本并组成候选列表模块的文本。同时，对每一个候选POI(记作POI_i)对应的经纬度信息，通过{经度i,纬度i}元组进行表示，并在提示文本中对应列显示经纬度元组的信息。其余POI特征(如地点类别等)可以单独占据csv格式中一列。

可选的，在候选列表模块中，为了进一步强调多个候选推荐信息的时间先后顺序，可以在候选列表模块部分增加时间强调信息。示例性的，如图4所示，时间强调信息可以为“其中，29,2022年12月06号,星期二,03时57分,(116.37492,39.85206),丰台区,快餐厅是用户最近访问的poi”。

作为另一种方式，当用户信息还包括补充候选推荐信息时，可以获取预先配置的任务提示描述，任务提示描述可以包括任务提示模块和详细任务描述模块，任务提示模块可以用于通知大语言模型所需执行任务的概述、提示词中剩下模块的内容概述以及剩下模块的出现顺序，详细任务描述模块可以用于对提示词进行全文总结以及通知大模型所需执行任务的详细信息；基于用户画像信息，得到用户画像模块；基于多个候选推荐信息和多个候选推荐信息各自对应的标签，得到候选列表模块；基于当前参考信息，得到当前时刻信息模块；基于补充候选推荐信息和补充候选推荐信息对应的标签，得到补充候选列表模块；基于任务提示模块、详细任务描述模块、用户画像模块、候选列表模块、当前时刻信息模块和补充候选列表模块，得到提示词。

示例性的，图4中的<用户当前位置附近POI>对应的文本内容可以为补充候选列表模块。

S130：将所述提示词输入大语言模型，得到所述用户信息对应的预测标签。

其中，预测标签可以用于表征目标推荐信息。预测标签的取值范围可以与多个候选推荐信息和补充候选推荐信息的总数相关。示例性的，当有N(N为大于1的整数)个候选推荐信息和P(P为非负整数)个补充候选推荐信息时，预测标签的取值范围可以为[-1，N+P-1]，其中，第一个候选推荐信息的标签可以为0，第N个候选推荐信息的标签可以为N-1。

作为一种方式，可以将提示词输入大语言模型，得到多个参考预测标签和参考预测标签的概率值，将概率值最大的参考预测标签作为用户信息对应的预测标签。

示例性的，如图5所示，在POI预测任务中，可以基于用户画像信息、候选POI数据、用户当前时刻POI信息得到提示词，并将提示词输入大语言模型，得到对应的预测标签。

在本申请实施例中，通过直接基于用户信息对应的文本内容组成提示词，相当于不对用户信息进行特征变换，直接将对应的文本内容作为特征，可以充分利用大语言模型的文本理解与特征选择能力大大减少特征工程的数量。同时，通过文本的形式可以适配各种特征的输入，可以增强特征的可扩展性，减少新增特征的工程开发工作，从而使得本申请所提供的推荐信息预测方法在增加特征和模型迁移上具有更好的适应性，进而可以缓解推荐信息稀疏性和冷启动问题。

S140：将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

作为一种方式，可以将预测标签与多个候选推荐信息各自对应的标签匹配，若匹配成功，可以将匹配成功的标签对应的候选推荐信息作为用户信息对应的目标推荐信息。

示例性的，多个候选推荐信息各自对应的标签可以为0～29，预测标签可以为2，从而可以匹配成功，多个候选推荐信息中标签为2的POI地点可以为：“(116.38251,39.85021),丰台区,商务写字楼”，则可以将“(116.38251,39.85021),丰台区,商务写字楼”作为目标推荐信息。

可选的，由于多个候选推荐信息各自对应的标签仅与时间先后顺序相关，则可以会出现不同标签对应的候选推荐信息的内容相同的情况，在这种情况下，预测标签为相同内容的候选推荐信息中任一一个标签都可以得到对应的目标推荐信息。

示例性的，标签为2和标签8的POI地点可以为：“(116.38251,39.85021),丰台区,商务写字楼”，当预测标签为2或者8时，目标推荐信息均可以为“(116.38251,39.85021),丰台区,商务写字楼”。

本实施例提供的一种推荐信息预测方法，在获取包括用户画像信息、多个候选推荐信息和当前参考信息的用户信息后，基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。

请参阅图6，本申请实施例提供的一种推荐信息预测方法，所述方法包括：

S210：获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到。

S220：基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词。

S230：将所述提示词输入大语言模型，得到所述用户信息对应的预测标签。

S240：将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

S250：若匹配失败，基于预设映射关系，得到所述目标推荐信息。

其中，预设映射关系可以表征预测标签与预设推荐信息相匹配。

作为一种方式，若匹配失败，可以基于预设映射关系得到预设推荐信息，并将预设推荐信息作为目标推荐信息，预设推荐信息可以为基于用户历史行为得到的访问次数最多的推荐信息。

可选的，若预测标签为-1可以确定匹配失败。

作为另一种方式，若匹配失败，可以基于预设映射关系得到预设推荐信息，并将预设推荐信息作为目标推荐信息，预设推荐信息可以为基于大数据获得的用户社交圈中被提及最多的推荐信息。

在本申请实施例中，当大语言模型确定目标推荐信息不在多个候选推荐信息内时，可以基于预设映射关系得到目标推荐信息，从而提高了目标推荐信息预测的灵活性，同时该方式也相当于一种对目标推荐信息预测的兜底策略，可以提高本申请所提供的推荐信息预测方法的稳健性。

S260：响应于接收到所述用户信息对应的预测任务，基于所述目标推荐信息和所述提示词，得到输入信息。

作为一种方式，响应于接收到与步骤S210中的用户信息对应的预测任务，可以将目标推荐信息和提示词进行拼接，得到输入信息。

可选的，可以基于用户ID确定相邻两次预测任务是否为同一用户。

S270：将所述输入信息输入所述大语言模型，得到所述预测任务对应的目标推荐信息。

作为一种方式，可以将输入信息输入大语言模型，得到预测任务对应的目标推荐信息。

可选的，在对于同一个用户进行目标推荐信息预测时，可以每次在预测时都基于提示词和当前时刻之前所有预测得到的目标推荐信息，得到当前预测的目标推荐信息。对应的表达式可以为：

T_i+1＝LLM(T_input+T₀+T₁+T₂+...+T_i)

其中，T_input可以表示提示词，T₀可以表示第一次得到的目标推荐信息，T_i可以表示第i+1次得到的目标推荐信息。

可选的，在向用户推荐了预测得到的目标推荐信息后，还可以获取用户对该目标推荐信息的访问或使用情况，并基于对该目标推荐信息的访问或使用情况更新大语言模型，以使大语言模型实时与用户行为相贴合。

本实施例提供的一种推荐信息预测方法，通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。并且，在本实施例中，通过将提示词与目标推荐信息进行拼接后再次输入大语言模型，得到新的目标推荐信息，可以实现对用户对应的推荐信息的持续追踪，紧跟用户的行为，从而提高了目标推荐信息的准确性。

请参阅图7，本申请实施例提供的一种推荐信息预测方法，所述方法包括：

S310：获取训练数据集。

其中，训练数据集可以包括多个样本序列、多个样本序列各自对应的真实标签、用户画像信息、候选推荐信息。每个样本序列可以包含多个样本，多个样本可以各自对应有预测标签和真实标签，每个样本的真实标签可以表征对应样本序列中的下一样本。

示例性的，当样本序列为{(候选推荐信息1,标签0)，(候选推荐信息2,标签1)，(候选推荐信息3,标签2)，(候选推荐信息4,标签3)}时，样本候选推荐信息1对应的目标推荐信息的真实标签可以为1，即候选推荐信息2。

作为一种方式，可以基于用户的历史推荐信息访问或使用情况得到历史样本序列，并基于滑动时间窗口和历史样本序列构造多个样本序列，同时，基于步骤S110的方法得到多个样本序列各自对应的真实标签、用户画像信息、候选推荐信息。

可选的，如图8所示，可以先基于历史样本序列的长度、滑动时间窗口的长度和步幅生成多个样本序列，然后按照时间先后顺序以及预设比例将多个样本序列分为训练集、验证集和测试集。

可选的，历史样本子序列的数量可以为：

其中，L可以表示历史样本序列的长度；W可以表示滑动时间窗口的长度，也就是每个样本序列的长度；S可以表示滑动时间窗口的步幅。

示例性的，预设比例可以为：{0.6:0.2:02}，则可以将按时间顺序排在前60％的样本序列作为训练集，前60％～80％的样本序列作为验证集，后20％的样本序列作为测试集。

可选的，若用户的历史样本序列的长度小于滑动时间窗口的长度，可以直接将该用户的历史样本序列作为一个样本序列。

可选的，在得到训练集、验证集和测试集后，可以将训练集和验证集作为训练数据集以训练待训练大语言模型，通过测试集对训练好的大语言模型进行预测准确性评估，以基于评估结果调整模型参数，如：初始学习率、优化器、单批数据量大小(batchSize)等，并将评估结果最好的训练好的大语言模型作为用于生成目标推荐信息的大语言模型。

可选的，可以基于模型预测的准确率确认是否将补充候选推荐信息加入训练数据集中，若准确率大于或等于预设值，可以不加入补充候选推荐信息；若准确率小于预设值，可以加入补充候选推荐信息。

S320：基于所述训练数据集对待训练大语言模型进行训练，得到所述大语言模型。

作为一种方式，可以基于训练数据集得到多个训练子集；在当前轮次训练过程中，基于当前轮次对应的训练子集和损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型；若当次轮次对应的大语言模型满足目标条件，将当次轮次对应的大语言模型作为大语言模型，并结束训练；若当次轮次对应的大语言模型不满足目标条件，继续基于下一轮次对应的训练子集进行下一轮次训练，并将当次轮次对应的大语言模型作为下一轮次对应的待训练大语言模型。

其中，目标条件可以为训练轮次达到预设轮次或损失函数达到极小值或预测准确率达到目标值等。

可选的，可以将训练数据集中的训练集按照batchSize划分为多个训练子集。

其中，每个训练子集可以包括多个样本序列、多个样本序列各自对应的真实标签、用户画像信息、候选推荐信息，每个样本序列可以包含多个样本，多个样本各自对应有预测标签和真实标签，每个样本的真实标签表征对应样本序列中的下一样本。当前轮次训练过程可以包含多个样本序列训练过程。

可选的，如图9所示，在当前轮次训练过程中，基于当前轮次对应的训练子集和损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型，包括：

S321：基于所述多个样本序列、所述多个样本序列各自对应的所述用户画像信息和候选推荐信息，得到所述多个样本序列各自对应的提示词。

作为一种方式，可以基于步骤S120的方式得到多个样本序列各自对应的提示词。

S322：在所述当前轮次训练过程中，将所述多个样本序列各自对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述多个样本序列各自对应的预测标签。

作为一种方式，在当前样本序列训练过程中，可以将当前样本序列对应的提示词输入当前轮次对应的待训练大语言模型，得到当前样本序列中第一个样本对应的预测标签；继续将当前样本序列中第一个样本对应的预测标签与当前样本序列对应的提示词进行拼接，得到当前样本序列中下一样本的输入信息，将下一样本的输入信息输入当前轮次对应的待训练大语言模型，得到当前样本序列中下一个样本对应的预测标签，直到得到当前样本序列中所有样本的预测标签，继续进行下一样本序列训练，直到得到多个样本序列各自对应的预测标签。

可选的，一个样本序列训练的表达式可以为：

T_i+1＝train_LLM(T_input+T₀+T₁+T₂+...+T_i)

其中，T_input可以表示样本序列的提示词，T₀可以表示样本序列中第一个样本(第一时间步)的预测标签，T_i可以表示样本序列中第i-1个样本(第i-1时间步)的预测标签。

S323：基于所述多个样本序列各自对应的预测标签、真实标签和所述损失函数，对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型。

作为一种方式，可以基于多个样本序列各自对应的预测标签和真实标签，得到第一损失函数，第一损失函数可以用于缩小样本序列的预测标签与真实标签之间的差距；基于多个样本序列各自对应的预测标签，得到第二损失函数，第二损失函数可以用于降低所述预测标签的噪声；基于第一损失函数和第二损失函数得到损失函数；基于损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型。

可选的，可以基于每个样本序列中多个样本各自对应的预测标签和真实标签，得到每个样本的标签损失函数，以得到多个标签损失函数，标签损失函数可以表征样本的真实标签与预测标签的差距；基于多个标签损失函数，得到第一损失函数。

其中，标签损失函数的计算公式可以为：

其中，vocabSise可以表示提示词中Token的总量，j可以表示提示词中第j个Token；n可以表示一个训练轮次中第n个样本序列，i可以表示一个样本序列中第i个样本；可以指一个训练轮次中第n个样本序列中第i个样本的的真实标签是否为提示词中第j个Token，若是则/>可以为1，若不是则/>可以为0；/>可以指一个训练轮次中第n个样本序列中第i个样本的的预测标签为提示词中第j个Token的概率值。/>

第一损失函数可以为交叉熵损失(Cross Entropy Loss)函数，计算公式可以为：

其中，batchSize可以表示一个训练轮次中样本序列的总量，n可以表示一个训练轮次中第n个样本序列，stepSize可以表示一个样本序列的长度，i可以表示一个样本序列中第i个样本，loss_ni可以表示一个训练轮次中第n个样本序列中第i个样本的标签损失函数。

第二损失函数可以为标签平滑损失(AvgLoss)函数，计算公式可以为：

损失函数的计算公式可以为：

LabelSmootherLoss＝(1-ε)CELoss+εAvgLoss

其中，ε可以表示第二损失函数的权重参数，ε的值可以为人工设置。

S330：获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到。

S340：基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词。

S350：将所述提示词输入大语言模型，得到所述用户信息对应的预测标签。

S360：将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

本实施例提供的一种推荐信息预测方法，通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。并且，在本实施例中，通过第一损失函数和第二损失函数得到损失函数，可以削弱基于样本得到的预测标签的极值对整个模型训练过程的影响，从而缓解噪声、减小噪声在梯度更新时的影响程度，增大正确预测标签在梯度更新时的影响程度，从而提高模型训练精度。

请参阅图10，本申请提供的一种推荐信息预测装置600，所述装置600包括：

用户信息获取单元610，用于获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到；

提示词获取单元620，用于基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；

目标推荐信息获取单元630，用于将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

作为一种方式，提示词获取单元620具体用于获取预先配置的任务提示描述，所述任务提示描述包括任务提示模块和详细任务描述模块，所述任务提示模块用于通知所述大语言模型所需执行任务的概述、所述提示词中剩下模块的内容概述以及剩下模块的出现顺序，所述详细任务描述模块用于对所述提示词进行全文总结以及通知所述大模型所需执行任务的详细信息；基于所述用户画像信息，得到用户画像模块；基于所述多个候选推荐信息和所述多个候选推荐信息各自对应的标签，得到候选列表模块；基于所述当前参考信息，得到当前时刻信息模块；基于所述任务提示模块、所述详细任务描述模块、所述用户画像模块、所述候选列表模块和所述当前时刻信息模块，得到所述提示词。

作为另一种方式，所述用户信息还包括补充候选推荐信息，所述补充候选推荐信息对应有标签，提示词获取单元620具体用于获取预先配置的任务提示描述，所述任务提示描述包括任务提示模块和详细任务描述模块，所述任务提示模块用于通知所述大语言模型所需执行任务的概述、所述提示词中剩下模块的内容概述以及剩下模块的出现顺序，所述详细任务描述模块用于对所述提示词进行全文总结以及通知所述大模型所需执行任务的详细信息；基于所述用户画像信息，得到用户画像模块；基于所述多个候选推荐信息和所述多个候选推荐信息各自对应的标签，得到候选列表模块；基于所述当前参考信息，得到当前时刻信息模块；基于所述补充候选推荐信息和所述补充候选推荐信息对应的标签，得到补充候选列表模块；基于所述任务提示模块、所述详细任务描述模块、所述用户画像模块、所述候选列表模块、所述当前时刻信息模块和所述补充候选列表模块，得到所述提示词。

作为一种方式，目标推荐信息获取单元630具体用于若匹配失败，基于预设映射关系，得到所述目标推荐信息。

作为一种方式，目标推荐信息获取单元630具体用于响应于接收到所述用户信息对应的预测任务，基于所述目标推荐信息和所述提示词，得到输入信息；将所述输入信息输入所述大语言模型，得到所述预测任务对应的目标推荐信息。

可选的，所述候选推荐信息基于所述用户历史行为和预设召回策略得到。

其中，所述装置600还包括：

模型训练单元640，用于获取训练数据集；基于所述训练数据集对待训练大语言模型进行训练，得到所述大语言模型。

作为一种方式，模型训练单元640具体用于基于所述训练数据集得到多个训练子集；在当前轮次训练过程中，基于当前轮次对应的训练子集和损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型；若所述当次轮次对应的大语言模型满足目标条件，将所述当次轮次对应的大语言模型作为所述大语言模型，并结束训练；若所述当次轮次对应的大语言模型不满足所述目标条件，继续基于下一轮次对应的训练子集进行下一轮次训练，并将所述当次轮次对应的大语言模型作为下一轮次对应的待训练大语言模型。

可选的，所述训练子集包括多个样本序列、所述多个样本序列各自对应的真实标签、用户画像信息、候选推荐信息，模型训练单元640具体用于基于所述多个样本序列、所述多个样本序列各自对应的所述用户画像信息和候选推荐信息，得到所述多个样本序列各自对应的提示词；在所述当前轮次训练过程中，将所述多个样本序列各自对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述多个样本序列各自对应的预测标签；基于所述多个样本序列各自对应的预测标签、真实标签和所述损失函数，对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型。

可选的，模型训练单元640具体用于基于所述多个样本序列各自对应的预测标签和真实标签，得到第一损失函数，所述第一损失函数用于缩小样本序列的预测标签与真实标签之间的差距；基于所述多个样本序列各自对应的预测标签，得到第二损失函数，所述第二损失函数用于降低所述预测标签的噪声；基于所述第一损失函数和所述第二损失函数得到所述损失函数；基于所述损失函数对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型。

可选的，每个所述样本序列包含多个样本，所述多个样本各自对应有预测标签和真实标签，每个所述样本的真实标签表征对应样本序列中的下一样本，模型训练单元640具体用于基于每个所述样本序列中多个样本各自对应的预测标签和真实标签，得到每个样本的标签损失函数，以得到多个标签损失函数，所述标签损失函数表征样本的真实标签与预测标签的差距；基于所述多个标签损失函数，得到所述第一损失函数。

可选的，每个所述样本序列包含多个样本，所述多个样本各自对应有预测标签和真实标签，每个所述样本的真实标签表征对应样本序列中的下一样本，模型训练单元640具体用于在当前样本序列训练过程中，将当前样本序列对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述当前样本序列中第一个样本对应的预测标签；继续将所述当前样本序列中第一个样本对应的预测标签与所述当前样本序列对应的提示词进行拼接，得到所述当前样本序列中下一样本的输入信息，将所述下一样本的输入信息输入所述当前轮次对应的待训练大语言模型，得到所述当前样本序列中下一个样本对应的预测标签，直到得到所述当前样本序列中所有样本的预测标签，继续进行下一样本序列训练，直到得到所述多个样本序列各自对应的预测标签。

下面将结合图11对本申请提供的一种电子设备进行说明。

请参阅图11，基于上述的推荐信息预测方法、装置，本申请实施例还提供的另一种可以执行前述推荐信息预测方法的电子设备100。电子设备100包括处理器102、存储器104和网络模块106，其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用网络处理器(Neural network Processing Unit，NPU)、数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、网络处理器(Neural networkProcessing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；NPU负责处理视频、图像类的多媒体数据；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)以及双倍速率同步动态随机存储器(Double DataRate，DDR)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种推荐信息预测方法、装置以及电子设备，在获取包括用户画像信息、多个候选推荐信息和当前参考信息的用户信息后，基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。通过上述方式使得，可以基于用户画像信息、多个候选推荐信息和当前参考信息，得到提示词，并将提示词输入大语言模型，得到预测标签，再判断预测标签是否与候选推荐信息匹配，基于匹配结果得到对应的目标推荐信息，从而实现将目标推荐信息限定在多个候选推荐信息或者除了多个候选推荐信息以外的一个推荐信息中，从而降低了模型的预测难度，并且候选推荐信息与用户历史行为相关，从而为模型预测提供了更符合用户习惯的信息，进而提高了模型预测的准确性并得到更准确的目标推荐信息。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种推荐信息预测方法，其特征在于，所述方法包括：

获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到；

基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；

将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；

将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若匹配失败，基于预设映射关系，得到所述目标推荐信息。

3.根据权利要求2所述的方法，其特征在于，所述预设映射关系表征预测标签与预设推荐信息相匹配，所述若匹配失败，基于预设映射关系，得到所述目标推荐信息，包括：

若匹配失败，基于所述预设映射关系得到所述预设推荐信息，并将所述预设推荐信息作为所述目标推荐信息，所述预设推荐信息为基于所述用户历史行为得到的访问次数最多的推荐信息。

4.根据权利要求1所述的方法，其特征在于，所述基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词，包括：

获取预先配置的任务提示描述，所述任务提示描述包括任务提示模块和详细任务描述模块，所述任务提示模块用于通知所述大语言模型所需执行任务的概述、所述提示词中剩下模块的内容概述以及剩下模块的出现顺序，所述详细任务描述模块用于对所述提示词进行全文总结以及通知所述大模型所需执行任务的详细信息；

基于所述用户画像信息，得到用户画像模块；

基于所述多个候选推荐信息和所述多个候选推荐信息各自对应的标签，得到候选列表模块；

基于所述当前参考信息，得到当前时刻信息模块；

基于所述任务提示模块、所述详细任务描述模块、所述用户画像模块、所述候选列表模块和所述当前时刻信息模块，得到所述提示词。

5.根据权利要求1所述的方法，其特征在于，所述用户信息还包括补充候选推荐信息，所述补充候选推荐信息对应有标签，所述基于所述用户画像信息、所述多个候选推荐信息和所述当前参考信息，得到提示词，包括：

基于所述用户画像信息，得到用户画像模块；

基于所述当前参考信息，得到当前时刻信息模块；

基于所述补充候选推荐信息和所述补充候选推荐信息对应的标签，得到补充候选列表模块；

基于所述任务提示模块、所述详细任务描述模块、所述用户画像模块、所述候选列表模块、所述当前时刻信息模块和所述补充候选列表模块，得到所述提示词_。

6.根据权利要求1-5任一所述的方法，其特征在于，所述若匹配失败，基于预设映射关系，得到所述目标推荐信息之后，还包括：

响应于接收到所述用户信息对应的预测任务，基于所述目标推荐信息和所述提示词，得到输入信息；

将所述输入信息输入所述大语言模型，得到所述预测任务对应的目标推荐信息。

7.根据权利要求1-5任一所述的方法，其特征在于，所述多个候选推荐信息基于所述用户历史行为和预设召回策略得到。

8.根据权利要求1-5任一所述的方法，其特征在于，所述获取用户信息之前，还包括：

获取训练数据集；

基于所述训练数据集对待训练大语言模型进行训练，得到所述大语言模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述训练数据集对待训练大语言模型进行训练，得到所述大语言模型，包括：

基于所述训练数据集得到多个训练子集；

在当前轮次训练过程中，基于当前轮次对应的训练子集和损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型；

若所述当次轮次对应的大语言模型满足目标条件，将所述当次轮次对应的大语言模型作为所述大语言模型，并结束训练；若所述当次轮次对应的大语言模型不满足所述目标条件，继续基于下一轮次对应的训练子集进行下一轮次训练，并将所述当次轮次对应的大语言模型作为下一轮次对应的待训练大语言模型。

10.根据权利要求9所述的方法，其特征在于，所述训练子集包括多个样本序列、所述多个样本序列各自对应的真实标签、用户画像信息、候选推荐信息，所述在当前轮次训练过程中，基于当前轮次对应的训练子集和损失函数对当前轮次对应的待训练大语言模型进行训练，得到当前轮次对应的大语言模型，包括：

基于所述多个样本序列、所述多个样本序列各自对应的所述用户画像信息和候选推荐信息，得到所述多个样本序列各自对应的提示词；

在所述当前轮次训练过程中，将所述多个样本序列各自对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述多个样本序列各自对应的预测标签；

基于所述多个样本序列各自对应的预测标签、真实标签和所述损失函数，对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型。

11.根据权利要求10所述的方法，其特征在于，所述基于所述多个样本序列各自对应的预测标签、真实标签和所述损失函数，对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型，包括：

基于所述多个样本序列各自对应的预测标签和真实标签，得到第一损失函数，所述第一损失函数用于缩小样本序列的预测标签与真实标签之间的差距；

基于所述多个样本序列各自对应的预测标签，得到第二损失函数，所述第二损失函数用于降低所述预测标签的噪声；

基于所述第一损失函数和所述第二损失函数得到所述损失函数；

基于所述损失函数对所述当前轮次对应的待训练大语言模型进行训练，得到所述当前轮次对应的大语言模型。

12.根据权利要求11所述的方法，其特征在于，每个所述样本序列包含多个样本，所述多个样本各自对应有预测标签和真实标签，每个所述样本的真实标签表征对应样本序列中的下一样本，所述基于所述多个样本序列各自对应的预测标签和真实标签，得到第一损失函数，包括：

基于每个所述样本序列中多个样本各自对应的预测标签和真实标签，得到每个样本的标签损失函数，以得到多个标签损失函数，所述标签损失函数表征样本的真实标签与预测标签的差距；

基于所述多个标签损失函数，得到所述第一损失函数。

13.根据权利要求10所述的方法，其特征在于，每个所述样本序列包含多个样本，所述多个样本各自对应有预测标签和真实标签，每个所述样本的真实标签表征对应样本序列中的下一样本，所述当前轮次训练过程包含多个样本序列训练过程，所述在所述当前轮次训练过程中，将所述多个样本序列各自对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述多个样本序列各自对应的预测标签，包括：

在当前样本序列训练过程中，将当前样本序列对应的提示词输入所述当前轮次对应的待训练大语言模型，得到所述当前样本序列中第一个样本对应的预测标签；

继续将所述当前样本序列中第一个样本对应的预测标签与所述当前样本序列对应的提示词进行拼接，得到所述当前样本序列中下一样本的输入信息，将所述下一样本的输入信息输入所述当前轮次对应的待训练大语言模型，得到所述当前样本序列中下一个样本对应的预测标签，直到得到所述当前样本序列中所有样本的预测标签，继续进行下一样本序列训练，直到得到所述多个样本序列各自对应的预测标签。

14.一种推荐信息预测装置，其特征在于，所述装置包括：

用户信息获取单元，用于获取用户信息，所述用户信息包括用户画像信息、多个候选推荐信息和当前参考信息，所述多个候选推荐信息对应有标签，且所述多个候选推荐信息基于用户历史行为得到；

提示词获取单元，用于基于所述用户画像信息、所述候选推荐信息和所述当前参考信息，得到提示词；

目标推荐信息获取单元，用于将所述提示词输入大语言模型，得到所述用户信息对应的预测标签；将所述预测标签与所述多个候选推荐信息各自对应的标签匹配，若匹配成功，将匹配成功的标签对应的候选推荐信息作为所述用户信息对应的目标推荐信息。

15.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-13任一所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-13任一所述的方法。