CN117076660B

CN117076660B - 一种信息推荐方法、装置、设备及存储介质

Info

Publication number: CN117076660B
Application number: CN202311329952.3A
Authority: CN
Inventors: 王路路; 高岩
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-26
Anticipated expiration: 2043-10-16
Also published as: CN117076660A

Abstract

本申请公开了一种信息推荐方法、装置、设备及存储介质，涉及计算机技术领域，包括：基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。本申请能够有效提高信息推荐结果的可信度以及可解释性。

Description

一种信息推荐方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种信息推荐方法、装置、设备及存储介质。

背景技术

当前，主要是利用了语言模型的文本生成能力，基于额外的信息生成解释性文本（例如基于标签匹配的规则或知识图谱上的某条连接路径），这种方案给推荐语言提供的信息只筛选了用户信息的一部分，而没有考虑到用户的全面特征，导致其个性化表达能力较弱。并且，另一方面，在金融领域中，对用户分析、归因、得出结论的思路这一链路是很重要的，而目前多数方案是基于单一或有限论据给出结论的，并未充分利用语言模型所的思维链（Chain of Thought，CoT）特性所带来的逻辑推理能力，使得最终提供的文本可信度较低。

发明内容

有鉴于此，本发明的目的在于提供一种信息推荐方法、装置、设备及存储介质，能够有效提高信息推荐结果的可信度以及可解释性。其具体方案如下：

第一方面，本申请提供了一种信息推荐方法，包括：

基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；

通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；

当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。

可选的，所述信息推荐方法，还包括：

基于预设前置训练任务进行用户画像信息采集，并对得到的用户画像信息进行向量表征，得到与所述用户画像信息对应的向量信息；

相应的，所述基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板，包括：

基于所述向量信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板。

可选的，所述通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，包括：

基于所述待训练提示模板以及与所述待训练提示模板对应的初始推荐信息对预设语言模型执行相应的第一模型微调操作，得到第一语言模型；

通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，以基于得到的排序结果构建相应的奖励模型；

利用预设近端策略优化算法得到与所述第一语言模型对应的建议信息，并通过所述奖励模型对所述建议信息进行评估，得到相应的评估信息；

基于所述评估信息以及所述建议信息对所述第一语言模型执行相应的第二模型微调操作，以得到目标语言模型。

可选的，所述通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，包括：

在确定与所述待训练提示模板对应的各推荐结果的满意度信息之后，基于得到的与各所述推荐结果分别对应的所述满意度信息对各所述推荐结果进行排序，以得到相应的排序结果。

可选的，所述基于得到的排序结果构建相应的奖励模型，包括：

基于得到的排序结果构建相应的训练样本，并根据所述训练样本得到相应的奖励模型。

可选的，还包括：

通过执行相应的第二提示模板设计操作，得到用于补全用户画像信息和/或生成投资建议的目标提示模板。

可选的，所述基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果，包括：

基于所述目标语言模型以及所述信息推荐请求中的目标提示模板和相应的用户描述信息进行信息推荐，以基于得到的满足预设字数条件的文本信息确定与所述信息推荐请求对应的信息推荐结果。

第二方面，本申请提供了一种信息推荐装置，包括：

待训练模板获取模块，用于基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；

模型微调模块，用于通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；

信息推荐模块，用于当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的信息推荐方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的信息推荐方法的步骤。

可见，本申请中，先基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；然后通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；然后当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。本申请先通过利用基于采集到的用户画像信息得到的待训练提示模板进行模型微调，以当接收到相应的信息推荐请求时基于得到的目标语言模型进行信息推荐，以完成响应。这样一来，能够有效提高模型的可靠性，进而提高信息推荐结果的可信度以及可解释性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种信息推荐方法流程图；

图2为本申请提供的一种信息推荐方法流程示意图；

图3为本申请提供的一种具体的信息推荐方法流程图；

图4为本申请提供的一种信息推荐装置结构示意图；

图5为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，主要是利用了语言模型的文本生成能力，基于额外的信息生成解释性文本（例如基于标签匹配的规则或知识图谱上的某条连接路径），这种方案给推荐语言提供的信息只筛选了用户信息的一部分，而没有考虑到用户的全面特征，导致其个性化表达能力较弱。另一方面，在金融领域中对用户分析、归因、得出结论的思路这一链路是很重要的，而目前多数方案是基于单一或有限论据给出结论的，并未充分利用语言模型所的思维链特性所带来的逻辑推理能力，使得最终提供的文本可信度较低。为此，本申请提供了一种信息推荐方案，能够有效提高信息推荐结果的可信度以及可解释性。

参见图1所示，本发明实施例公开了一种信息推荐方法，包括：

步骤S11、基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板。

本实施例中，需要理解的是，在基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板之前，具体还可以包括：基于预设前置训练任务进行用户画像信息采集，并对得到的用户画像信息进行向量表征，得到与所述用户画像信息对应的向量信息。故相应的，所述基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板，具体可以包括：基于所述向量信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板。也就是说，本申请通过前置训练任务（如transfomer，seq2vec等）将采集到的用户画像信息转换成高位稠密的向量表征来进行模型训练，以便预设语言模型生成相应的个性化的信息推荐逻辑。其中，Transformer为一种采用自注意力机制的深度学习模型；seq2vec 是一种将序列数据转换为固定长度向量的方法。

步骤S12、通过利用待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型。

本实施例中，结合图2所示，在当前的领域内，不同群体的用户进入推荐场景，需借由对应的用户大模型对用户画像的信息提炼能力，将全面的用户信息直接输入到所述预设语言模型中。具体的，所述用户大模型在得到相应的用户标识之后，还需要通过一个多层感知机（Multi-layer Perceptron，MLP）网络将用户表征的长度缩放到和词表征一样的长度后，替换掉字符[UEMB]位置的词表征参数，再与其他令牌信息（Token₁、Token₂等）一同转换成相应的向量以输入到所述预设语言模型中。其中，图中的[EOS]为用来标记一个序列结束的特殊符号。

与此同时，需要理解的是，本实施例中的所述预设语言模型可以是本地训练的模型，也可以是GPT-2（Generative Pretrained Transformer 2，生成式预训练变换器2）、GPT-3（Generative Pretrained Transformer 3，生成式预训练变换器3），也可以是使用非Transformer架构的模型如GRU（Gated Recurrent Unit，门循环单元）、LSTM（Long ShortTerm Memory，具有记忆长短期信息的能力的神经网络）。

需要理解的是，在通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调（Fine-tune）的过程中，先基于所述待训练提示模板以及与所述待训练提示模板对应的初始推荐信息对预设语言模型执行相应的第一模型微调操作，得到第一语言模型。然后通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，以基于得到的排序结果构建相应的奖励模型（Reward Model）。然后利用预设近端策略优化算法得到与所述第一语言模型对应的建议信息，并通过所述奖励模型对所述建议信息进行评估，得到相应的评估信息。然后基于所述评估信息以及所述建议信息对所述第一语言模型执行相应的第二模型微调操作，以得到目标语言模型。其中，所述预设近端策略优化算法具体为PPO（即Proximal Policy Optimization）。

需要理解的是，所述通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，包括：在确定与所述待训练提示模板对应的各推荐结果的满意度信息之后，基于得到的与各所述推荐结果分别对应的所述满意度信息对各所述推荐结果进行排序，以得到相应的排序结果。并且，所述基于得到的排序结果构建相应的奖励模型，包括：基于得到的排序结果构建相应的训练样本，并根据所述训练样本得到相应的奖励模型。在进行排序时，针对各所述推荐结果，将由相关运营人员按满意度进行排序，具体先确定任一个所述推荐结果的满意度，然后以此为基准确定下一个所述推荐结果的满意度，这样一来得到相应的所述排序结果。然后再构建奖励模型时，按照满意度的相对高低构建训练样本，以基于所述训练样本得到奖励模型。

步骤S13、当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。

进一步可以理解的是，本实施例中，还包括通过执行相应的第二提示模板设计操作，得到用于补全用户画像信息和/或生成投资建议的目标提示模板。其中，针对用于补全用户画像信息的目标提示模板，具体也可以为模型微调时用到的所述待训练提示模板，在目标提示目标的使用过程中，在前缀“我希望你能够扮演一个用户特征解码器。我会提供给你一个特殊的字符[UEMB]，它能够代表具体的用户。你需要将这个字符解码成该用户的资料，并用自然语言表述出来。由于[UEMB]包含了该用户的所有必要信息，从其中获取用户的KYC（know-your-customer，了解你的客户）标签是非常容易的。我的问题是：”后衔接如下表一所示的内容。

表一

提示模板样例	针对问题
		用户[UEMB]整体可以概括为是一个[解释文本，也即信息推荐的结果]	提供个性化用户画像描述能力
从投资风格来看，用户[UEMB]应该是[解释文本]；从交易偏好（超短线、短线、中线、长线）来看，用户[UEMB]应该是[解释文本]	提升个性化用户标签的信息解码、补全能力
		一个低风险、长线投资用户，他的投资风格应该属于[解释文本]	针对用户群体的标签补全和理解

与此同时，针对用于基于用户画像生成投资建议的目标提示模板，在前缀“ 我希望你能够扮演一个智能投顾机器人。我会提供给你一个特殊的字符[UEMB]，它能够代表具体的用户。你需要将这个字符解码成该用户的资料，并用自然语言表述出来，并基于该用户的资料给出合理的投资建议。由于[UEMB]包含了该用户的所有必要信息，从其中获取用户的KYC标签是非常容易的。我的问题是：”后衔接如下表二所示的内容：

表二

提示模板样例	针对问题
		低风险、长线投资用户，应该适合推荐[解释文本]	针对用户群体的建议
用户[UEMB]是一个[解释文本]的用户，因此在投资过程中，他更适合[解释文本]	针对单个用户的建议

其中，用户画像补全用到的微调数据来源于现有的部分用户画像。推荐投资建议的数据为了提高结果的专业性，来源于历史的金融销售对话数据和专业的金融从业运营人员标注数据，这样一来，利用语言模型的逻辑推理能力能够生成单用户/用户群体的专业性的投资建议。

需要理解的是，所述基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果，包括：基于所述目标语言模型以及所述信息推荐请求中的目标提示模板和相应的用户描述信息进行信息推荐，以基于得到的满足预设字数条件的文本信息确定与所述信息推荐请求对应的信息推荐结果。其中，所述用户描述信息具体可以为一个用户的ID（Identity document，身份标识号）信息或者是针对某一用户人群的描述内容。最终得到的所述信息推荐结果作为相关运营人员进一步完成人群圈选或制定投放策略的辅助参考。

此外，所述信息推荐请求中可以额外增加待推荐物品的描述，并且所述信息推荐结果建议可以直接作为推荐解释文本展示给用户。

由此可见，本申请实施例中，先基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；然后通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；然后当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。本申请先通过利用基于采集到的用户画像信息得到的待训练提示模板进行模型微调，以当接收到相应的信息推荐请求时基于得到的目标语言模型进行信息推荐，以完成响应。这样一来，能够有效提高模型的可靠性，进而提高信息推荐结果的可信度以及可解释性。

参见图3所示，本发明实施例公开了一种信息推荐方法，包括：

步骤S21、基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板。

步骤S22、基于所述待训练提示模板以及与所述待训练提示模板对应的初始推荐信息对预设语言模型执行相应的第一模型微调操作，得到第一语言模型。

步骤S23、通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，以基于得到的排序结果构建相应的奖励模型。

步骤S24、利用预设近端策略优化算法得到与所述第一语言模型对应的建议信息，并通过所述奖励模型对所述建议信息进行评估，得到相应的评估信息。

步骤S25、基于所述评估信息以及所述建议信息对所述第一语言模型执行相应的第二模型微调操作，以完成相应的模型训练操作，并得到相应的目标语言模型。

步骤S26、当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。

其中，关于上述步骤S21至步骤S26 的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

由此可见，本申请实施例中，在基于得到的待训练提示模板进行模型训练的过程中，进行两次微调，以补全用户画像信息，避免遗漏。这样一来，在基于信息推荐请求进行推荐时，更加能够保障结果的可靠性。

参见图4所示，本申请实施例还相应公开了一种信息推荐装置，包括：

待训练模板获取模块11，用于基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；

模型微调模块12，用于通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；

信息推荐模块13，用于当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。

其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

由此可见，本申请中，先基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；然后通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，完成相应的模型训练操作，并得到相应的目标语言模型；然后当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果。本申请先通过利用基于采集到的用户画像信息得到的待训练提示模板进行模型微调，以当接收到相应的信息推荐请求时基于得到的目标语言模型进行信息推荐，以完成响应。这样一来，能够有效提高模型的可靠性，进而提高信息推荐结果的可信度以及可解释性。

在一些具体实施例中，所述待训练模板获取模块11，具体可以包括：

用户画像信息采集单元，用于基于预设前置训练任务进行用户画像信息采集，并对得到的用户画像信息进行向量表征，得到与所述用户画像信息对应的向量信息；

相应的，所述待训练模板获取模块11，包括：

待训练模板获取单元，用于基于所述向量信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板。

在一些具体实施例中，所述模型微调模块12，具体可以包括：

第一模型微调单元，用于基于所述待训练提示模板以及与所述待训练提示模板对应的初始推荐信息对预设语言模型执行相应的第一模型微调操作，得到第一语言模型；

奖励模型构建子模块，用于通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，以基于得到的排序结果构建相应的奖励模型；

信息评估单元，用于利用预设近端策略优化算法得到与所述第一语言模型对应的建议信息，并通过所述奖励模型对所述建议信息进行评估，得到相应的评估信息；

第二模型微调单元，用于基于所述评估信息以及所述建议信息对所述第一语言模型执行相应的第二模型微调操作，以得到目标语言模型。

在一些具体实施例中，所述奖励模型构建子模块，具体可以包括：

结果排序单元，用于在确定与所述待训练提示模板对应的各推荐结果的满意度信息之后，基于得到的与各所述推荐结果分别对应的所述满意度信息对各所述推荐结果进行排序，以得到相应的排序结果。

奖励模型构建单元，用于基于得到的排序结果构建相应的训练样本，并根据所述训练样本得到相应的奖励模型。

在一些具体实施例中，所述信息推荐装置，具体还可以包括：

目标题述模板获取模块，用于通过执行相应的第二提示模板设计操作，得到用于补全用户画像信息和/或生成投资建议的目标提示模板。

在一些具体实施例中，所述信息推荐模块13，具体还可以包括：

信息推荐单元，用于基于所述目标语言模型以及所述信息推荐请求中的目标提示模板和相应的用户描述信息进行信息推荐，以基于得到的满足预设字数条件的文本信息确定与所述信息推荐请求对应的信息推荐结果。

进一步的，本申请实施例还公开了一种电子设备，图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的信息推荐方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的信息推荐方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的信息推荐方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息推荐方法，其特征在于，包括：

当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果；

其中，所述通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调，包括：

2.根据权利要求1所述的信息推荐方法，其特征在于，还包括：

3.根据权利要求1所述的信息推荐方法，其特征在于，所述通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作，包括：

4.根据权利要求1所述的信息推荐方法，其特征在于，所述基于得到的排序结果构建相应的奖励模型，包括：

5.根据权利要求1所述的信息推荐方法，其特征在于，还包括：

6.根据权利要求1至5任一项所述的信息推荐方法，其特征在于，所述基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果，包括：

7.一种信息推荐装置，其特征在于，包括：

预设模板获取模块，用于基于采集到的用户画像信息执行相应的第一提示模板设计操作，得到用于补全用户画像信息的待训练提示模板；

信息推荐模块，用于当获取到相应的信息推荐请求时，基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐，以得到与所述信息推荐请求对应的信息推荐结果；

其中，所述模型微调模块，包括：

8.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至6任一项所述的信息推荐方法。

9.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息推荐方法。