CN117093696A

CN117093696A - 一种大语言模型的提问文本生成方法、装置、设备及介质

Info

Publication number: CN117093696A
Application number: CN202311330003.7A
Authority: CN
Inventors: 王强; 王国栋; 郑伟
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-21
Anticipated expiration: 2043-10-16
Also published as: CN117093696B

Abstract

本发明公开了一种大语言模型的提问文本生成方法、装置、设备及介质，涉及计算机技术领域，包括：利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合；利用预设策略梯度算法对策略网络进行训练；利用训练好的策略网络从相似文本集合中确定与初始提问文本对应的语义最相关的目标提问文本；将目标提问文本输入至大语言模型得到大语言模型根据目标提问文本对应的语义生成的符合用户意图的答复信息。本发明通过优化prompt的选择过程及其生成质量，从而能够有效缓解大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，使得大语言模型能够更准确地生成符合用户意图的答复信息。

Description

一种大语言模型的提问文本生成方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，特别涉及一种大语言模型的提问文本生成方法、装置、设备及介质。

背景技术

随着语言模型技术的发展，语言模型的应用已经非常广泛，例如，OpenAI推出的GPT-2（Generative Pre-trained Transformer-2，第二代生成式预训练Transformer）等模型已经广泛实现语言生成、文本摘要、对话系统等多种任务中，其中，Transformer，即一个基于自注意力机制的一个深度学习模型，已经得到了广泛的应用。目前语言模型参数量已经增至千亿级别乃至万亿级别，如OpenAI推出的GPT-3（Generative Pre-trainedTransformer-3，第三代生成式预训练Transformer）等大语言模型的出现，极大地促进了NLP（Natural Language Processing，自然语言处理）领域的技术进步。GPT-3等千亿级大语言模型只需进行小样本或者零样本学习，而无需利用标注数据进行精调，即可达到非常好的效果，其主要通过prompt的提示方式，引导提示大模型，从而输出想要的结果，但是，由于其参数量较大，训练、部署及推理成本较高等原因，目前尚未在机器人投顾对话场景下得到广泛应用，其中，投顾表示投资顾问，而且对于大语言模型，不同的prompt对其输出结果有显著的影响，导致大语言模型在其他一些应用场景下，可能对prompt的选择非常敏感，这种敏感性可能导致模型的输出不稳定，尤其是在使用不精确或不适合的prompt的情况下。因此，这种不稳定性可能会导致预测的结果出现较大的偏差，从而影响其在实际应用中的性能。

综上可知，如何提供一种解决大语言模型对于不同prompt的输出敏感性和性能不稳定的问题的方案，已经是本领域技术人员所亟需关注和解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种大语言模型的提问文本生成方法、装置、设备及介质，能够提高prompt的选择和生成质量。其具体方案如下：

第一方面，本发明公开了一种大语言模型的提问文本生成方法，包括：

利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合；

利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络；

利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本；

将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。

可选的，所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合，包括：

利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本，得到相应的相似文本集合。

可选的，所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络，包括：

利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。

利用随机选取到的样本提问文本构建相应的相似文本训练集；

利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量，并将所述语义向量作为当前待训练状态；

通过策略网络产生与所述当前待训练状态对应的动作；

将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励；

利用预设策略梯度算法，并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络；

将所述当前输出的状态确定为新的所述当前待训练状态，重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤，直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。

可选的，所述利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本，包括：

根据用户输入的所述初始提问文本确定当前目标状态，并基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。

可选的，所述大语言模型的提问文本生成方法，还包括：

在每一次训练前，随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；

或，记录训练次数得到当前训练次数，并判断当前训练次数是否达到预设训练次数；

如果当前训练次数达到所述预设训练次数，则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；

如果当前训练次数未达到所述预设训练次数，则继续利用当前相似文本训练集训练所述策略网络。

可选的，所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后，还包括：

接收用户针对所述答复信息输入的新的初始提问文本，并重新跳转至所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合的步骤。

第二方面，本发明公开了一种大语言模型的提问文本生成装置，包括：

相似文本检索模块，用于利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合；

网络训练模块，用于利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络；

目标提问文本确定模块，用于利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本；

答复信息生成模块，用于将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。

第三方面，本发明公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的大语言模型的提问文本生成方法的步骤。

第四方面，本发明公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的大语言模型的提问文本生成方法的步骤。

可见，本发明提供了一种大语言模型的提问文本生成方法，包括：利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合；利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络；利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本；将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。由此可知，本发明通过利用预设语义相似性检索算法进行相似文本的检索，以及通过利用预设策略梯度算法训练策略网络，使其在不同的对话场景下，能够根据用户输入的初始提问文本，从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好地服务用户。也即本发明的技术方案优化了prompt的选择过程及其生成质量，能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，从而通过大语言模型生成最符合用户意图的回答，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种大语言模型的提问文本生成方法流程图；

图2为本发明公开的一种具体的大语言模型的提问文本生成方法流程图；

图3为本发明公开的一种机器人对话系统框架示意图；

图4为本发明公开的一种大语言模型的提问文本生成装置结构示意图；

图5为本发明公开的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，在一些应用场景中，如机器人投顾对话场景，大语言模型对不同的prompt的输出敏感性可能无法生成准确或有用的回复。特别地，给定不同的prompt，模型的输出质量可能会有显著的波动，导致其性能不稳定和预测结果偏差较大。为此，本发明提供了一种大语言模型的提问文本生成方案，能够有效解决大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，并优化了prompt的选择过程及生成质量。

本发明实施例公开了一种大语言模型的提问文本生成方法，参见图1所示，该方法包括：

步骤S11：利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合。

本实施例中，利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索，以检索出与用户输入的初始提问文本相似的其他文本，得到相似文本集合。例如，用户对机器人对话系统发出一个初始提问，进而该机器人对话系统利用预设语义相似度检索算法对用户输入的问句进行相似句检索，以便后续根据检索结果，并基于策略梯度算法选择出最合适的prompt，以提高大语言模型的性能表现及其稳定性，提升用户体验。其中，在语言模型中prompt指的是一个起始文本，用于生成后续的文本，也即用于指导大语言模型生成自然语言文本的文本片段，策略梯度（Policy Gradient）算法指的是强化学习中一种基于概率策略的优化方法，它直接对策略进行学习和优化，而不需要显式地计算值函数。策略梯度算法通过优化策略的参数来提高策略的表现，更新策略的参数需要计算损失函数的梯度，通过梯度上升的方式更新策略参数，使得策略在期望奖励最大化的条件下得到不断优化。例如，用户输入的初始提问文本为“请问你有什么投资需求吗？”，然后利用预设语义相似检索算法对该初始prompt进行相似句检索以检索出与该初始prompt相似的一批句子，作为初始prompt集合，即相似文本集合，如检索出“您希望以什么方式进行投资？”、“请问您对投资收益率有什么期望？”等句子。

步骤S12：利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。

可以理解的是，利用预设策略梯度算法对策略网络进行训练，使其在不同的对话场景下，能够根据用户输入的初始提问文本，从相似文本集合中选择出最优的prompt，以便后续将该最优的prompt输入到大语言模型中生成符合用户意图的回答，从而提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好的服务用户。

本实施例中，所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络，具体可以包括：利用随机选取到的样本提问文本构建相应的相似文本训练集；利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量，并将所述语义向量作为当前待训练状态；通过策略网络产生与所述当前待训练状态对应的动作；将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励；利用预设策略梯度算法，并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络；将所述当前输出的状态确定为新的所述当前待训练状态，重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤，直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。

需要指出的是，在每一次训练前，随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；或，记录训练次数得到当前训练次数，并判断当前训练次数是否达到预设训练次数；如果当前训练次数达到所述预设训练次数，则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；如果当前训练次数未达到所述预设训练次数，则继续利用当前相似文本训练集训练所述策略网络。也就是说，预设语义相似度检索算法的检索过程和强化学习模型的训练过程可以交替进行，即每次训练前都重新选取一组候选prompt集合，或者每隔一定的训练次数重新选择一次候选prompt集合，以确保模型的泛化能力和效果，并且对策略网络进行训练所采用的预设策略梯度算法可以为基于蒙特卡罗的策略梯度算法，即利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络，其中，在训练过程中，每次更新的梯度是采样的多条对话中的平均梯度，因此可以降低梯度估计的方差。

例如，在策略梯度算法中，目的是要最大化一个目标函数，其中/>为参数向量，参数向量θ代表策略函数的参数，决定了在给定状态下采取特定行动的概率。在策略梯度算法中，通过不断调整θ来优化策略，使得该策略下的期望奖励最大化。若策略函数由神经网络表示，则θ就包括神经网络的所有权重和偏置。本实施例中，目的是要找到最佳的prompt来最大化机器人对话系统的回报，因此可以将目标函数定义为系统回报的期望值，即：

；

其中，表示在参数向量/>下的策略，R表示一个对话的回报。由于R是一个随机变量，导致无法直接求解/>的梯度。因此，采用策略梯度方法，通过采样对话来估计/>的梯度。具体的，采样N个对话，每个对话的回报为R_i，对应的prompt为p_i，则目标函数/>的梯度可以估计为：

；

其中，可以通过策略的梯度公式来计算，具体公式如下：

；

其中，为在状态/>下采取的动作，将p_i作为状态，将选取的prompt作为动作，通过策略梯度方法，不断调整参数向量/>，直到找到最佳的prompt，即与所述初始提问文本对应的语义最相关的目标提问文本。

又例如，基于投顾对话的应用场景，结合预设策略梯度算法，具体阐述强化学习模型的训练过程，并且为了完整地呈现该过程，将预设语义相似度检索算法检索相似prompt的过程其整合到强化学习模型的训练中，即首先初始化大语言模型，以及策略网络/>的参数/>，并设置超参数/>（学习率）、/>（折扣因子）和/>（探索率），然后随机选取一个投顾对话的提问样本/>，并用预设语义相似度检索算法从历史对话中选取/>个与/>语义相似的相似prompt，构成候选prompt集合/>，对于候选prompt集合中的每个候选prompt，即，使用大语言模型/>计算/>对应的embedding向量，并将其作为状态表示，并且对于每个状态表示/>，通过策略网络/>生成一个动作/>，即根据当前状态从候选prompt集合选择下一步要执行的一个目标prompt，使用选中的目标prompt和当前状态作为输入，利用大语言模型/>执行该选中的prompt，并得到相应的回复，并将该回复作为当前对话的新状态的一部分。从而得到下一个状态/>和对应的即时奖励reward />，利用策略梯度算法优化策略网络/>的参数，使得期望的奖励最大化，也即通过最大化回报函数/>的方式来优化策略网络的参数：

；

其中，表示一条采样轨迹，T为对话的长度，/>表示策略网络在参数/>下生成该轨迹的概率，/>表示策略网络的目标函数，也即系统回报的期望值，/>表示在状态/>下，采取行动/>的概率，/>表示在状态/>下，采取行动/>所获得的回报。

需要指出的是，上述embedding向量通常指的是将离散型数据，如单词、句子或段落等转化为连续型的低维度向量，这些向量捕捉了数据的语义信息，且相似的数据项在向量空间中彼此接近。例如，在投顾对话场景中，上述提及的“使用大语言模型计算/>对应的embedding向量”，表示将用户的提问或某个prompt转化为一个连续的向量表示，该向量不仅仅是简单的数字组合，它在多维空间中的位置代表了原始文本的语义含义。

并且，计算回报，一般使用折扣累计回报的方式，即

；

其中为折扣因子，用于降低未来回报的重要性，T为对话的结束时刻，/>为时刻时的即时奖励。在投顾对话场景中，回报可以定义为当前选择的prompt是否能够有效地推进对话，以及对话的质量是否得到提高。因此，可以将回报定义为当前选择的prompt在GPT-3，及Meta推出的OPT（Open Pre-trained Transformer，开放式预训练Transformer）等大语言模型中输出的期望奖励，即：

；

其中，为GPT-3模型给出的在执行目标prompt />后生成的回复的概率分布，/>为生成的回复，/>为对话样本/>中的真实回复，/>为对生成回复和真实回复/>的相似度评估。

根据策略梯度更新策略网络的参数，能够提高算法的收敛速度和稳定性。并根据目标网络的更新策略进行调整，可以使用如下公式进行更新：

；

其中，是学习率。

重复上述过程，学习最佳的prompt选择策略，直到优化后的策略网络收敛或达到预设的最大训练次数，得到训练好的策略网络，以便后续使用训练好的策略网络进行实际对话，也即对于每一个新的对话状态，训练好的策略网络选择出与该新的对话状态对应的一个prompt，即产生与状态/>对应的动作/>，然后计算机器人对话系统的回复/>，将/>、/>、/>分别存储到经验池中。

在测试及部署阶段，利用训练好的策略网络和预设语义相似性检索算法，可以根据当前对话的状态选择最佳的prompt作为输入，然后在GPT-3中执行最佳的prompt并得到对应的回复。具体流程：给定当前对话样本，预设语义相似性检索算法从历史对话中检索出中/>个与/>语义相似的prompt，得到候选prompt集合，对于候选prompt集合中的每个候选prompt，即/>，使用大语言模型/>计算/>对应的embedding向量/>，并将其作为状态/>的一部分，并且如果当前对话存在上下文内容，状态/>还可以包括当前对话的上下文，然后输入状态/>到训练好的策略网络中，生成下一个要执行的prompt的概率分布，使用该概率分布采样选择出一个目标prompt，然后在GPT-3等大模型中执行该目标prompt，并得到相应的回复，可以将该回复作为当前对话的新状态，重复上述步骤直到对话结束，并且在测试阶段，可以采用不同的评价指标评估生成的回复质量。

需要指出的是，在训练过程中，需要使用经验回放机制来缓解样本的相关性和稳定训练过程，使用经验回放（experience replay）技术，将强化学习模型在历史对话中的交互数据存储在回放缓冲区中，并从中随机采样一部分数据进行训练，也就是说，从回放缓冲区中采样一个batch的数据，使用这些数据来优化策略网络的参数，从而减少训练过程中的方差，提高模型的稳定性和效率。

步骤S13：利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。

本实施例中，利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合，并利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络之后，利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。具体的，根据用户输入的所述初始提问文本确定当前目标状态，并基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。可以理解的是，根据用户输入的问题及上下文信息定义当前目标状态，基于当前状态，利用训练好的策略网络从相似文本集合中选择最佳的prompt作为回答用户问题的基础，并且训练好的策略网络输出的最佳的prompt可以最大化reward（回报），其中，reward可以根据机器人对话系统的目标而定，例如用户满意度、完成交易量等。

步骤S14：将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。

本实施例中，利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本之后，将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。可以理解的是，根据训练好的策略网络选择到的最佳prompt，机器人对话系统生成一个回答。例如，当用户提问“近期有哪些值得关注的科技股？”，训练好的策略网络可能选择最佳的prompt，即“你对科技股的投资趋势有何看法？”，然后，机器人对话系统可能回答：“近期，苹果和特斯拉都表现出色，您或许可以关注下这两家公司的股票”。

本实施中，所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后，还可以包括：接收用户针对所述答复信息输入的新的初始提问文本，并重新跳转至所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合的步骤。也就是说，系统的回答用户的提问后，会等待用户的进一步问题或反馈，然后再次进入交互循环。

需要指出的是，所述大语言模型，如GPT-3或者OPT等语言模型可以作为投顾对话场景应用的基座模型，若对这几个千亿级模型尚未有条件使用的话，还可以使用相关开源的百亿参数级的大语言模型，如清华大学推出的GLM（General Language Model，通用语言模型）系列开源模型等。例如，在实际应用中，机器人对话系统能够根据用户的提问，通过预设语义相似检索算法构建出候选prompts，并利用训练好的强化学习模型从候选prompts中选择最佳的prompt，进一步将最佳的prompt输入到投顾场景下的大型语言基座模型中，该大型语言基座模型根据最佳的prompt生成符合用户意图的回答。

可见，本发明实施例中，通过利用预设语义相似性检索算法进行相似文本的检索，以及通过利用预设策略梯度算法训练策略网络，使其在不同的对话场景下，能够根据用户输入的初始提问文本，从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好的服务用户。也即本发明的技术方案优化了prompt的选择过程及其生成质量，能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，从而通过大语言模型生成最符合用户意图的回答。

参见图2所示，本发明实施例公开了一种具体的大语言模型的提问文本生成方法，相较于上一实施例，本实施例对技术方案作了进一步的说明和优化。

步骤S21：利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本，得到相应的相似文本集合。

本实施例中，使用SimCSE（Simple Contrastive Learning of SentenceEmbeddings，句子嵌入的简单对比学习）算法进行相似句检索，对语料库中的句子进行相似句检索，以基于相似度找到与用户输入的初始提问文本对应语义最相似的语句，得到相应的相似文本集合，然后利用训练好的策略网络选择出最合适的prompt语句作为输入，输入到大语言模型中进行答复信息的生成。可以理解的是，通过这种方式，找到与用户输入的问题最相关的prompt，以提高大语言模型的提示质量。

例如，在用户与机器人对话系统对话的应用场景中，用户发起一个提问，即初始prompt为“我有一些闲置资金，怎样投资比较合适？”，然后利用SimCSE算法对该初始prompt进行相似句检索，目的是从语料库中检索出与该初始prompt语义相似的其他句子作为初始prompt集合。假如利用SimCSE算法从语料库中检索到了与初始prompt相似的其他句子，如“我手头有10万，想要投资，有什么建议？”、“考虑到当前的市场情况，我应该怎么配置我的投资组合？”、“我是投资新手，不知道应该从哪里开始，能给点建议吗？”等句子，检索这些句子，与初始prompt都关注于如何进行投资或寻求投资建议，因此可以作为初始prompt集合，也就是说，为机器人对话系统构建了一个与“如何投资”相关的初始prompt集合，为后续的用户交互提供了一个起始点。

步骤S22：利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。

步骤S23：利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。

步骤S24：将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。

关于上述步骤S22至步骤S24的具体内容可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本发明实施例中，通过利用预设SimCSE算法进行相似文本的检索，以及通过利用预设策略梯度算法训练策略网络，使其在不同的对话场景下，能够根据用户输入的初始提问文本，从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好的服务用户，然后通过大语言模型生成最符合用户意图的回答，也即本发明的技术方案优化了prompt的选择过程及其生成质量，能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，从而通过大语言模型生成最符合用户意图的回答。

例如，参见图3所示，针对用户输入的提问，使用SimCSE算法进行相似句检索，对语料库中的句子进行相似句检索，以基于相似度找到与提问对应语义最相似的top k个相似问句，然后利用基于策略梯度算法训练好的策略网络从k个相似问句中选择最佳的prompt，用于更好的给大语言模型进行引导提示，将该最佳的prompt输入到大语言模型中生成符合用户意图的回答，从而提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好的服务用户。也就是说，构建的机器人对话系统引入强化学习技术，使用策略梯度算法来训练模型，使其在不同的对话场景下，能够根据用户的提问，选择出最佳的prompt，并生成符合用户意图的回答。由此可知，本发明的技术方案通过将强化学习算法和语义相似检索算法相结合，找到最优的prompt，提高了机器人对话系统的准确性和可靠性，从而实现了在投顾对话场景下更加高效的机器人投顾服务，其中，本发明的技术方案除了应用于投顾对话场景中，还能够广泛应用于各种搜索引擎、聊天机器人等人工智能场景中。例如，在搜索引擎中，用户的查询可能与已有的索引内容存在语义相似性而不是完全的文本匹配，如用户搜索“如何高效学习”和“最佳的学习方法”在语义上是相似的，但文本不完全匹配，通过使用SimCSE算法可以帮助搜索引擎找到与用户查询语义相似的内容，从而提供更加相关的搜索结果，搜索引擎进一步可以利用策略网络预测哪些搜索结果更可能满足用户的需求，从而对搜索结果进行排序。又例如，聊天机器人需要理解用户的意图并作出响应，当用户提问时，机器人可以使用SimCSE算法检索出与用户问题语义相似的已知问题，并基于此提供答案，并且在多个可能的回答中，策略网络可以帮助机器人选择最合适的回复，从而更好地满足用户的期望。

相应的，本发明实施例还公开了一种大语言模型的提问文本生成装置，参见图4所示，该装置包括：

相似文本检索模块11，用于利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合；

网络训练模块12，用于利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络；

目标提问文本确定模块13，用于利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本；

答复信息生成模块14，用于将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。

由上可见，本发明实施例中，通过利用预设语义相似性检索算法进行相似文本的检索，以及通过利用预设策略梯度算法训练策略网络，使其在不同的对话场景下，能够根据用户输入的初始提问文本，从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量，进而提高大模型的输出效果，从而更好的服务用户，然后通过大语言模型生成最符合用户意图的回答，也即本发明的技术方案优化了prompt的选择过程及其生成质量，能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题，从而通过大语言模型生成最符合用户意图的回答。

在一些具体的实施例中，所述相似文本检索模块11，具体可以包括：

相似文本检索单元，用于利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本，得到相应的相似文本集合。

在一些具体的实施例中，所述网络训练模块12，具体可以包括：

网络训练单元，用于利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。

训练集构建单元，用于利用随机选取到的样本提问文本构建相应的相似文本训练集；

语义向量计算单元，用于利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量，并将所述语义向量作为当前待训练状态；

动作产生单元，用于通过策略网络产生与所述当前待训练状态对应的动作；

第一处理单元，用于将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励；

参数优化单元，用于利用预设策略梯度算法，并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络；

第二处理单元，用于将所述当前输出的状态确定为新的所述当前待训练状态，重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤，直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。

在一些具体的实施例中，所述目标提问文本确定模块13，具体可以包括：

目标状态确定单元，用于根据用户输入的所述初始提问文本确定当前目标状态；

目标提问文本确定单元，用于基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。

在一些具体的实施例中，所述大语言模型的提问文本生成装置，具体还可以包括：

第一训练集构建模块，用于在每一次训练前，随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；

或，记录模块，用于记录训练次数得到当前训练次数；

判断模块，用于判断当前训练次数是否达到预设训练次数；

第二训练集构建模块，用于在当前训练次数达到所述预设训练次数时，则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集；

处理模块，用于在当前训练次数未达到所述预设训练次数时，则继续利用当前相似文本训练集训练所述策略网络。

进一步的，本发明实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本发明的使用范围的任何限制。

图5为本发明实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的大语言模型的提问文本生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的大语言模型的提问文本生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的大语言模型的提问文本生成方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种大语言模型的提问文本生成方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种大语言模型的提问文本生成方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型的提问文本生成方法，其特征在于，所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合，包括：

3.根据权利要求1所述的大语言模型的提问文本生成方法，其特征在于，所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络，包括：

4.根据权利要求1所述的大语言模型的提问文本生成方法，其特征在于，所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络，包括：

通过策略网络产生与所述当前待训练状态对应的动作；

5.根据权利要求4所述的大语言模型的提问文本生成方法，其特征在于，所述利用所述训练好的策略网络，从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本，包括：

6.根据权利要求1所述的大语言模型的提问文本生成方法，其特征在于，还包括：

7.根据权利要求1至6任一项所述的大语言模型的提问文本生成方法，其特征在于，所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后，还包括：

8.一种大语言模型的提问文本生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的大语言模型的提问文本生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的大语言模型的提问文本生成方法的步骤。