CN117034921A

CN117034921A - 一种基于用户数据的提示学习训练方法、装置和介质

Info

Publication number: CN117034921A
Application number: CN202310928067.0A
Authority: CN
Inventors: 杨永全; 管佩琪; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-10
Anticipated expiration: 2043-07-26
Also published as: CN117034921B

Abstract

本发明涉及提示学习训练方法的技术领域，特别是涉及一种基于用户数据的提示学习训练方法、装置和介质，其通过进行自动化标签词构建，从输入信息中提取关键词k；接着，通过设计自注意力机制计算用户模板中用户原始信息和用户前期交互信息的权重参数，基于迁移学习方法生成模板并拼接用户模板，然后结合模板与用户模板形成最终的Prompt输入到LLM，最后实现利用原始预训练参数完成新的下游任务；包括以下步骤：关键词抽取、用户原始信息和用户前期交互信息复用、模板生成与拼接和输出。本发明还包括运行所述方法的装置和介质。本发明能能够提升输出内容精确度的同时实现对于不同用户的个性化内容输出。

Description

一种基于用户数据的提示学习训练方法、装置和介质

技术领域

本发明涉及提示学习训练方法的技术领域，特别是涉及一种基于用户数据的提示学习训练方法、装置和介质。

背景技术

随着信息技术的发展，深度学习模型向着越做越大的方向阔步迈进，近年来，不断有新的大模型甚至超大模型被推出，通过预训练的方式使得模型具有超凡的性能。对于大模型的训练方法，目前比较主流的方式是预训练-微调(Fine-tuning)，如公开号为CN115047423A的发明专利中公开的基于对比学习无监督预训练-微调式的雷达目标识别方法和公开号为CN115099321A的发明专利中公开的双向自回归无监督预训练微调式排污异常监控方法及应用等。Fine-tuning的本质是根据不同的下游任务，迫使预训练模型做出改变，这种改变能够让模型迁就下游任务，以完成特定的任务。对不同的下游任务，可以通过设计对应的损失函数或者额外的网络结构，让预训练模型贴近下游任务的领域。但是，这种预训练-微调的方式也存在非常致命的缺点——随着模型规模逐渐增大，Fine-tuning也不再是一个容易的任务，同时，每次针对某一个特定的任务进行Fine-tuning，都需要对原有的预训练模型进行再次训练，时间和计算资源消耗巨大。

提示学习的提出大幅度降低了传统预训练-微调方法在超大模型领域微调参数所耗费的时间和计算成本，但是现有提示学习中常见的Prompt方法包括硬模板方法(PET、LM-BBF等)和软模版方法(P-tuning、Prefixtuning、Softprompttuning等)。这些方法都可以为广泛的下游任务生成适用于LLM的模板，Prompt的工作流主要包括四部分：(1)Prompt答案空间映射(Verbalizer)的构造；(2)Prompt模版的构造；(3)文本代入模板，并且使用预训练语言模型进行预测；(4)将预测的结果映射回label。由于提示学习基于少样本学习甚至是零样本学习，且大量的数据表明，虽然提示学习基于庞大的生语料来获得良好的文本表示，但在模板生成任务中不同的标签词及不同的模板类型甚至细微的生成词位置差别都会对生成结果造成很大影响。当前的提示学习，并没有考虑用户的个性化信息和前期的输入，无法根据用户的个性化数据给出定制化答案，导致实用性较差，因此亟需一种基于用户数据的提示学习训练方法。

发明内容

为解决上述技术问题，本发明提供一种基于用户数据的提示学习训练方法、装置和介质，从输入信息中提取关键词k；接着，通过设计自注意力机制计算用户模板中用户原始信息和用户前期交互信息的权重参数，基于迁移学习方法生成模板并拼接用户模板，然后结合模板与用户模板形成最终的Prompt输入到LLM，最后实现利用原始预训练参数完成新的下游任务的一种基于用户数据的提示学习训练方法。

本发明的一种基于用户数据的提示学习训练方法，包括以下步骤：

S1、抽取文本关键词；

S2、用户原始信息和用户前期交互信息复用：获取用户原始信息和用户前期交互信息，通过自注意力机制计算用户原始信息S＝{s₁,s₂,...}和用户与LLM前期交互信息M＝{m₁,m₂,...}权重，即构造输入序列X＝{K,S,M}＝{x₁,x₂,...}，计算K与S、M序列中不同位置之间的关联程度；

S3、模板生成与拼接：由于输入信息的模板生成是在迁移学习的基础上，所以构建有代表性源prompt的prompt库，从许多有代表性的源生成任务中学习源prompt，然后将这些prompt作为目标提示传输，以执行目标生成任务，其不是为新任务使用固定的prompt，而是能够有效地从特定数据实例的源prompt中学习最合适的prompt表示，然后将适用于特定任务的新prompt即Template与userTemplate拼接，作为LLM的输入；

S4、输出：将userTemplate与Template拼接作为LLM输入。实现将用户原始信息和用户与LLM前期交互信息作为“内容提示”生成的用户模板与用户当前输入信息生成的模板结合，增强信息提示，提高文本生成质量，并考虑到不同用户数据间的差异性为预期输出结果差异性的影响，实现了个性化输出。

优先的，所述抽取文本关键词：使用关键词提取和摘要算法TextRank抽取关键词，用于构建顶点集的文本单元是句子中的一个或多个字；根据这些字之间的关系构建边；TextRank将文本数据看作是图的节点，利用文本与文本之间的关系建立邻接矩阵，从而实现关键词提取。

优选的，所述TextRank算法的流程如下：

(1)明确任务目标，并将与任务相对应的文本单元添加为图的节点；

(2)将文本单元之间的关系，添加为图中连接节点的边，边的构建依赖于节点之间的关系，例如，在固定长度的框中两节点同时出现的次数，由此完成邻接矩阵的建立；

(3)迭代TextRank算法，直至收敛，计算每个节点的得分；

(4)根据最终得到的得分，对节点进行排序，根据排序结果提取top-k作为关键词或关键句子。

优选的，所述对于文本单元为句子分词后的每个单词，邻接矩阵是单词与单词在相邻位置出现的次数。

优选的，所述计算K与S、M序列中不同位置之间的关联程度，过程如下：

(1)查询、键、值映射：使用三个可学习的参数矩阵Wq，Wk，Wv将输入序列中的每个元素映射为三个向量qi，ki，vi，其中qi，ki分别为查询向量和键向量，vi为值向量；

q_i＝W_qx_i

k_i＝W_kx_i

v_i＝W_vx_i；

(2)相似度计算：对于每个查询向量q_i，计算它与所有键向量k_j之间的相似度得分score_ij，通过计算q_i和k_j的点积或余弦相似度方式实现，得分表示查询向量q_i和键向量k_j之间的相关性；

s_ij表示相似度得分score_ij；

(3)加权求和：最后，使用softmax函数对相似度得分进行归一化，并将每个值向量v_j乘以相应的归一化得分，然后将这些加权的值向量求和，得到输入序列中位置i的输出向量O_i；

优选的，所述基于PTG(Prompt Transfer for Text Generation)构建了一个存储源提示和提示簇的多键记忆网络来查找键值提示将prompt库与特定输入进行关联度匹配，即通过高度相关的源prompt来学习特定任务输入的目标prompt。

优选的，在生成userTemplate时，在对用户原始信息和用户与LLM前期交互信息复用时，计算用户原始信息和用户与LLM前期交互信息与用户当前输入信息的关键词关联度较高的单词及其权重，即userTemplate(s,w)，其中s为用户原始信息和用户与LLM前期交互信息中用户当前输入的关键词关联度较高的单词、w为单词对应的权重，userTemplate是对与关键词K(y)关联度最高的top-k个单词生成的用户模板，由于用户原始信息内容有限且形式固定，且为用户与LLM前期交互信息生成模板的方式也较为固定，因此可为prompt库添加有限个数的与用户原始信息和用户与LLM前期交互信息高度相关的prompt，通过与输入信息的模板相同的生成方式进行userTemplate的生成，然后根据s选择合适的userTemplate。

本发明还提供一种基于用户数据的提示学习训练的装置，所述装置包括抽取文本关键词模块、用户原始信息和用户前期交互信息复用模块、模板生成与拼接模块和输出模块；

所述抽取文本关键词模块运行S1的步骤；

所述用户原始信息和用户前期交互信息复用模块运行S2的步骤；

所述模板生成与拼接模板运行S3的步骤；

所述输出模块运行S4的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述一种基于用户数据的提示学习训练的方法。

与现有技术相比本发明的有益效果为：通过进行自动化标签词构建，从输入信息中提取关键词k；接着，通过设计自注意力机制计算用户模板中用户原始信息和用户前期交互信息的权重参数，基于迁移学习方法生成模板并拼接用户模板，然后结合模板与用户模板形成最终的Prompt输入到LLM，最后实现利用原始预训练参数完成新的下游任务，充分利用现有信息，将用户原始信息与用户前期与模型的交互信息作为“内容提示”结合到现有“结构提示”模板中，加强模板对目标生成词的提示量，提升输出内容精确度的同时实现对于不同用户的个性化内容输出。

附图说明

图1是本发明的流程结构示意图；

图2是本发明模板的生成与拼接示意图；

图3是本发明userTemplate生成过程示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

实施例1：一种基于用户数据的提示学习训练方法，如图1所示，所述方法包括以下步骤：

S1、关键词抽取

关键词抽取是从文本中确定一些能够描述文档含义的术语的过程，使用关键词提取和摘要算法TextRank抽取关键词，用于构建顶点集的文本单元；

根据这些字之间的关系构建边，TextRank将文本数据看作是图的节点，利用文本与文本之间的关系建立邻接矩阵，实现关键词提取(Keyword Extraction)；

作为优选的示例，TextRank算法的流程分为以下几步：

(1)明确任务目标，并将与任务相对应的文本单元添加为图的节点(vertice)；

(2)将文本单元之间的关系，添加为图中连接节点的边(edge)，边的构建依赖于节点之间的关系，例如，在固定长度的框中两节点同时出现的次数。此时，完成邻接矩阵的建立；

(3)迭代TextRank算法，直至收敛，计算每个节点的得分；

对于关键词提取任务，文本单元为句子分词后的每个单词，邻接矩阵是单词与单词在相邻位置出现的次数进行归一化处理。

S2、用户原始信息和用户前期交互信息复用。

在之前的工作中，都将prompt改进的方向集中于对prompt结构和算法的改进，而忽略了用户原始信息和用户与LLM前期交互信息的利用，但由于不同用户对相同问题所期望的回答会不相同，而同一用户连续的输入信息之间也会包含密切的关联，所以通过一种自注意力机制来同时考虑用户原始信息、用户与LLM前期交互信息的“内容提示”，与现有prompt的“结构提示”相结合，最大化prompt携带的提示信息量，增强prompt提示准确度，更好地处理不同用户针对相同输入信息的期望差异性问题；

获取用户原始信息和用户前期交互信息，通过自注意力机制计算用户原始信息S＝{s₁,s₂,...}和用户与LLM前期交互信息M＝{m₁,m₂,...}权重，即构造输入序列X＝{K,S,M}＝{x₁,x₂,...}，计算K与S、M序列中不同位置之间的关联程度；

作为一示例，所述计算K与S、M序列中不同位置之间的关联程度过程如下：

1)查询、键、值映射：使用三个可学习的参数矩阵Wq，Wk，Wv将输入序列中的每个元素映射为三个向量q_i，k_i，v_i，其中q_i，k_i分别为查询向量和键向量，v_i为值向量。

q_i＝W_qx_i (1)

k_i＝W_kx_i (2)

v_i＝W_vx_i (3)

2)相似度计算：对于每个查询向量q_i，计算它与所有键向量k_j之间的相似度得分score_ij，可以通过计算q_i和k_j的点积或余弦相似度等方式实现。得分表示查询向量q_i和键向量k_j之间的相关性。

3)加权求和：最后，使用softmax函数对得分进行归一化，并将每个值向量v_j乘以相应的归一化得分，然后将这些加权的值向量求和，得到输入序列中位置i的输出向量O_i。

最后根据softmax函数对得分进行归一化，并将每个值向量乘以相应的归一化得分。这样，就可以使用自注意力机制计算输入序列中不同位置之间的关联程度。由此确定不同的用户原始信息和用户与LLM前期交互信息的“内容提示”在文本生成的下游任务所占权重值。

S3、模板生成与拼接：由于输入信息的模板生成是在迁移学习的基础上，所以构建有代表性源prompt的prompt库，从许多有代表性的源生成任务中学习源prompt，然后将这些prompt作为目标提示传输，以执行目标生成任务，其不是为新任务使用固定的prompt，而是能够有效地从特定数据实例的源prompt中学习最合适的prompt表示，然后将适用于特定任务的新prompt即Template与userTemplate拼接，作为LLM的输入，如图2所示；

其中，本实施例基于PTG(Prompt Transfer for TextGeneration)构建了一个存储源提示和提示簇的多键记忆网络来查找键值提示将prompt库与特定输入进行关联度匹配，即通过高度相关的源prompt来学习特定任务输入的目标prompt。

在生成userTemplate时，由于用户原始信息和用户与LLM前期交互信息内容较为固定，例如用户原始信息中大多包含年龄、性别、所在地区和兴趣爱好等，在对用户与LLM前期交互信息复用时的输出结果为与用户当前输入信息的关键词关联度较高的单词及其权重，即userTemplate(s,w)，其中s为用户原始信息和用户与LLM前期交互信息中用户当前输入的关键词关联度较高的单词、w为单词对应的权重，userTemplate是对与关键词K(y)关联度最高的top-k个单词生成的用户模板。然后为prompt库添加有限个数的与用户原始信息和用户与LLM前期交互信息高度相关的prompt，便可通过与输入信息的模板相同的生成方式进行userTemplate的生成，如图3所示。

S4、输出：将userTemplate与Template拼接作为LLM输入，实现将用户原始信息和用户与LLM前期交互信息作为“内容提示”生成的用户模板与旧用户当前输入信息生成的模板结合，增强信息提示，提高文本生成质量，并考虑到不同用户数据间的差异性为预期输出结果差异性的影响，实现了个性化输出；

应用：用户原始信息和用户前期交互信息分别为S＝{s1{年龄：20岁}；s2{性别：男}；s3{籍贯：广东}}，M＝{m1{海淀区租房价格}；m2{北京近期天气预报}；m3{中国的首都在哪里}}。用户输入为x＝{北京有哪些美食推荐？}，通过抽取x中的关键词K{北京，美食}，利用自注意力机制计算关键词K与S、M中关联度最高的Top-k个单词，并生成userTemplate，例如，当k＝2时，计算最关联的单词为【广东】、【海淀区】及其权重，则在prompt库中为最关联单词选取userTemplate为“我是广东人，我最近对【海淀区】感兴趣。”，为x在prompt库中选取Template“【北京有哪些美食推荐？】，北京的热门餐厅有

【MASK】”，然后拼接userTemplate与Template获得最终模板“我是广东人，我最近对【海淀区】感兴趣。【北京有哪些美食推荐？】，北京的热门餐厅有【MASK】”，以此作为大模型输入，根据大模型自身特点，【MASK】部分的输出将会联系与参考【广东人】、【海淀区】等单词，实现个性化输出。

Claims

1.一种基于用户数据的提示学习训练方法，其特征在于，所述方法包括以下步骤：

S1、抽取文本关键词；

S3、模板生成与拼接：构建有代表性源prompt的prompt库，从有代表性的源生成任务中学习源prompt，然后将这些prompt作为目标提示传输，以执行目标生成任务，并能够有效地从特定数据实例的源prompt中学习最合适的prompt表示，然后将适用于特定任务的新prompt即Template与userTemplate拼接，作为LLM的输入；

S4、输出：将userTemplate与Template拼接作为LLM输入。

2.根据权利要求1所述的一种基于用户数据的提示学习训练方法，其特征在于，所述S1抽取文本关键词：使用关键词提取和摘要算法TextRank抽取关键词，用于构建顶点集的文本单元是句子中的一个或多个字；根据这些字之间的关系构建边；TextRank将文本数据看作是图的节点，利用文本与文本之间的关系建立邻接矩阵，从而实现关键词提取。

3.根据权利要求2所述的一种基于用户数据的提示学习训练方法，其特征在于，所述TextRank算法的流程如下：

(3)迭代TextRank算法，直至收敛，计算每个节点的得分；

4.根据权利要求3所述的一种基于用户数据的提示学习训练方法，其特征在于，，所述对于文本单元为句子分词后的每个单词，邻接矩阵是单词与单词在相邻位置出现的次数。

5.根据权利要求1所述的一种基于用户数据的提示学习训练方法，其特征在于，所述S2中计算K与S、M序列中不同位置之间的关联程度，过程如下：

q_i＝W_qx_i，

k_i＝W_kx_i，

v_i＝W_vx_i；

s_ij表示相似度得分score_ij；

6.根据权利要求1所述的一种基于用户数据的提示学习训练方法，其特征在于，在生成userTemplate时，在对用户原始信息和用户与LLM前期交互信息复用时，计算用户原始信息和用户与LLM前期交互信息与用户当前输入信息的关键词关联度较高的单词及其权重，即userTemplate(s,w)，其中s为用户原始信息和用户与LLM前期交互信息中用户当前输入的关键词关联度较高的单词、w为单词对应的权重，userTemplate是对与关键词K(y)关联度最高的top-k个单词生成的用户模板，由于用户原始信息内容有限且形式固定，且为用户与LLM前期交互信息生成模板的方式也较为固定，因此可为prompt库添加有限个数的与用户原始信息和用户与LLM前期交互信息高度相关的prompt，通过与输入信息的模板相同的生成方式进行userTemplate的生成，然后根据s选择合适的userTemplate。

7.一种基于用户数据的提示学习训练的装置，其特征在于，所述装置包括抽取文本关键词模块、用户原始信息和用户前期交互信息复用模块、模板生成与拼接模块和输出模块；

所述抽取文本关键词模块运行权利要求1所述S1的步骤；

所述用户原始信息和用户前期交互信息复用模块运行权利要求1所述S2的步骤；

所述模板生成与拼接模板运行权利要求1所述S3的步骤；

所述输出模块运行权利要求1所述S4的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述一种基于用户数据的提示学习训练的方法。