CN117093684A

CN117093684A - 企业服务领域预训练对话式大语言模型的构建方法及系统

Info

Publication number: CN117093684A
Application number: CN202310929824.6A
Authority: CN
Inventors: 左小雷; 蔡青山
Original assignee: Qizhi Technology Co ltd
Current assignee: Qizhi Technology Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-21

Abstract

一种企业服务领域预训练对话式大语言模型的构建方法及系统，涉及人工智能技术领域。在该方法中，基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型；基于预设的问答分数数据集对第二语义预测模型进行训练，得到奖励模型；将第二语义预测模型作为强化学习算法的策略网络，将奖励模型作为强化学习算法的价值网络，并基于策略网络和价值网络，计算得到时间差误差，并更新策略网络的参数，得到预训练对话式大语言模型。实施本申请提供的技术方案，可以在企业服务领域的问答模型构建的过程中提高模型回答问题的准确程度和自然程度。

Description

企业服务领域预训练对话式大语言模型的构建方法及系统

技术领域

本申请涉及人工智能技术领域，具体涉及一种企业服务领域预训练对话式大语言模型的构建方法及系统。

背景技术

随着人工智能技术的不断发展，机器对话系统也在不断地升级和改进。机器对话系统可以运用于生活的方方面面，其中在企业服务领域这种复杂的对话场景中则尤为重要。

在传统的企业服务领域的问答模型构建的过程中，传统的问答模型往往是基于预定义的知识库或规则集构建的，从而导致问答模型在回答某些复杂或特殊情况下的问题时的准确程度和自然程度较低。因此，如何在企业服务领域的问答模型构建的过程中提高模型回答问题的准确程度和自然程度，成为亟需解决的问题。

因此，亟需一种企业服务领域预训练对话式大语言模型的构建方法来解决当前技术存在的问题。

发明内容

本申请提供了一种企业服务领域预训练对话式大语言模型的构建方法及系统，可以在企业服务领域的问答模型构建的过程中提高模型回答问题的准确程度和自然程度。

第一方面，本申请提供了一种企业服务领域预训练对话式大语言模型的构建方法，所述方法包括：获取企业信息数据集；基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；获取预设的企业服务领域的指令集；基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型；获取预设的问答分数数据集；基于所述预设的问答分数数据集和pairwise算法，对所述第二语义预测模型进行训练，得到奖励模型；将所述第二语义预测模型作为强化学习算法的策略网络，将所述奖励模型作为强化学习算法的价值网络，并基于所述策略网络和所述价值网络，计算得到时间差误差；基于所述时间差误差更新所述策略网络的参数，得到预训练对话式大语言模型。

通过采用上述技术方案，通过基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型，以提升模型的语义理解能力和语义生成能力，从而使得得到的第一语义预测模型具备理解用户输入的问题语句并对应生成回答语句的能力；再基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型，以提高第二语义预测模型的回答的多样性，即使得第二语义预测模型具有生成多种多样的回答语句的能力；再基于预设的问答分数数据集和pairwise算法，对第二语义预测模型进行训练，得到奖励模型，并基于强化学习算法对第二语义预测模型进行训练，从而使得最终得到的预训练对话式大语言模型可以在不断地学习中改进自己的回答能力，并且可以根据多轮对话上下文情况自动调整答案的分数，使得模型回答问题更加准确和自然流畅。

可选的，所述企业信息数据集包括多个企业相关文本；每个所述企业相关文本包括多个企业相关语句；所述预设的基座模型包括文本屏蔽子模型和自回归训练子模型；所述基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型，具体包括：将多个所述企业相关语句逐一输入至所述文本屏蔽子模型，得到每个所述企业相关语句对应的文本跨度和第一损坏文本；基于所述文本跨度和所述第一损坏文本对所述文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型；将多个所述企业相关文本输入至所述自回归训练子模型，得到第二损坏文本和第三损坏文本；基于所述第二损坏文本和所述第三损坏文本对所述自回归训练子模型进行语义预测训练，得到第二语义预测子模型；基于所述第一语义预测子模型和所述第二语义预测子模型，得到第一语义预测模型。

通过采用上述技术方案，通过将多个企业相关语句逐一输入至文本屏蔽子模型，得到每个企业相关语句对应的文本跨度和第一损坏文本；基于文本跨度和第一损坏文本对文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型，从而使得第一语义预测子模型具有更强的每个句子语义的理解能力；将多个企业相关文本输入至自回归训练子模型，得到第二损坏文本和第三损坏文本；基于第二损坏文本和第三损坏文本对自回归训练子模型进行语义预测训练，得到第二语义预测子模型，从而使得得到的第二语义预测子模型能够更好地理解文本和前后语句的含义，进而使得第一语义预测模型能够更加准确地得到用户输入语句的含义。

可选的，所述将多个所述企业相关语句逐一输入至所述文本屏蔽子模型，得到每个所述企业相关语句对应的文本跨度和第一损坏文本，具体包括：基于所述文本屏蔽子模型，从每个所述企业相关语句中随机选取预设第一比例的第一空白区域；所述第一空白区域包括多个连续跨度的空白文本；获取所述空白文本的文本跨度；将所述第一空白区域从每个所述企业相关语句中进行屏蔽处理，得到第一损坏文本。

可选的，所述基于所述文本跨度和所述损坏文本对所述文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型，具体包括：基于所述文本跨度和所述损坏文本，计算生成每个所述空白文本的预测概率；当多个所述空白文本的预测概率的乘积达到最大时，获取此时的模型参数；基于所述模型参数对所述文本屏蔽子模型的参数进行更新，得到第一语义预测子模型。

可选的，所述将多个所述企业相关文本输入至所述自回归训练子模型，得到第二损坏文本和第三损坏文本，具体包括：基于所述自回归训练子模型，从每个所述企业相关文本中选取预设比例范围的第二空白区域；将所述第二空白区域从多个所述企业相关文本中进行屏蔽处理，得到第二损坏文本；基于所述自回归训练子模型，从多个所述企业相关语句中选取预设第二比例的第三空白区域；将所述第三空白区域从多个所述企业相关语句中进行屏蔽处理，得到第三损坏文本。

可选的，所述获取预设的企业服务领域的指令集，具体包括：获取初始企业服务领域的指令集；所述初始企业服务领域的指令集包括多个初始指令序列，每个所述初始指令序列包括初始指令字段、初始输入字段以及初始输出字段；从所述初始企业服务领域的指令集中随机挑选预设的第一数量的初始指令序列；将所述预设的第一数量的初始指令序列输入至预设架构的大语言模型中，得到当前续写指令序列；所述当前续写指令序列包括当前续写指令字段、当前续写输入字段以及当前续写输出字段；其中，所述当前续写指令字段、所述当前续写输入字段以及所述当前续写输出字段对应的动词与所述初始指令字段、所述初始输入字段以及所述初始输出字段对应的动词均不相同；计算所述当前续写指令序列与多个所述初始指令序列的文本相似度；判断所述文本相似度是否大于预设的相似度阈值；若是，则删除所述当前续写指令序列；若否，则将所述当前续写指令序列存至所述预设的企业服务领域的指令集；生成下一续写指令序列，将所述下一续写指令序列作为当前续写指令序列并重复执行计算所述当前续写指令序列与多个所述初始指令序列的文本相似度的步骤，直至所述续写指令序列的数量大于预设的第二数量，得到所述预设的企业服务领域的指令集。

通过采用上述技术方案，通过将预设的第一数量的初始指令序列输入至预设架构的大语言模型中，得到当前续写指令序列，并直至续写指令序列的数量大于预设的第二数量，得到预设的企业服务领域的指令集，从而使得构建得到的预设的企业服务领域的指令集中包含有更多样的指令序列。

可选的，所述基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型，具体包括：将所述第一语义预测模型的网络的学习率调整至预设数值，并将所述第一语义预测模型的训练轮次设置为预设轮次；基于所述第一语义预测模型，遍历所述预设的企业服务领域的指令集中的每个所述续写指令序列，并基于反向传播算法对所述第一语义预测模型的参数进行更新；对所述第一语义预测模型进行所述预设轮次的参数更新，得到所述第二语义预测模型。

通过采用上述技术方案，通过第一语义预测模型，遍历预设的企业服务领域的指令集中的每个续写指令序列，并基于反向传播算法对第一语义预测模型的参数进行更新，以使得生成的第二语义预测模型以最大限度地提高生成答案的多样性。

在本申请的第二方面提供了一种企业服务领域预训练对话式大语言模型的构建系统，所述系统包括：获取模块、语义预测训练模块、模型微调模块、强化学习模块以及处理模块；所述获取模块，用于获取企业信息数据集；所述语义预测训练模块，用于基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；所述获取模块，还用于获取预设的企业服务领域的指令集；所述模型微调模块，用于基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型；所述获取模块，还用于获取预设的问答分数数据集；所述强化学习模块，用于基于所述预设的问答分数数据集和pairwise算法，对所述第二语义预测模型进行训练，得到奖励模型；所述强化学习模块，还用于将所述第二语义预测模型作为预设的强化学习模型的策略网络，将所述训练后的奖励模型作为预设的强化学习模型的价值网络，并基于所述策略网络和所述价值网络，计算得到时间差误差；所述处理模块，用于基于所述时间差误差更新所述策略网络的参数，得到预训练对话式大语言模型。

在本申请的第三方面提供了一种电子设备，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行如本申请第一方面任意一项所述的方法。

在本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有能够被处理器加载并执行如本申请第一方面任意一项所述的方法的计算机程序。

综上所述，本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、通过基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型，以提升模型的语义理解能力和语义生成能力，从而使得得到的第一语义预测模型具备理解用户输入的问题语句并对应生成回答语句的能力；再基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型，以提高第二语义预测模型的回答的多样性，即使得第二语义预测模型具有生成多种多样的回答语句的能力；再基于预设的问答分数数据集和pairwise算法，对第二语义预测模型进行训练，得到奖励模型，并基于强化学习算法对第二语义预测模型进行训练，从而使得最终得到的预训练对话式大语言模型可以在不断地学习中改进自己的回答能力，并且可以根据多轮对话上下文情况自动调整答案的分数，使得模型回答问题更加准确和自然流畅。

2、通过将多个企业相关语句逐一输入至文本屏蔽子模型，得到每个企业相关语句对应的文本跨度和第一损坏文本；基于文本跨度和第一损坏文本对文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型，从而使得第一语义预测子模型具有更强的每个句子语义的理解能力；将多个企业相关文本输入至自回归训练子模型，得到第二损坏文本和第三损坏文本；基于第二损坏文本和第三损坏文本对自回归训练子模型进行语义预测训练，得到第二语义预测子模型，从而使得得到的第二语义预测子模型能够更好地理解文本和前后语句的含义，进而使得第一语义预测模型能够更加准确地得到用户输入语句的含义。

3、通过将预设的第一数量的初始指令序列输入至预设架构的大语言模型中，得到当前续写指令序列，并直至续写指令序列的数量大于预设的第二数量，得到预设的企业服务领域的指令集，从而使得构建得到的预设的企业服务领域的指令集中包含有更多样的指令序列。

附图说明

图1是本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建方法的流程示意图之一；

图2是本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建方法的流程示意图之二；

图3是本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建系统的结构示意图；

图4是本申请实施例公开的一种电子设备的结构示意图。

附图标记说明：1、获取模块；2、语义预测训练模块；3、模型微调模块；4、强化学习模块；5、处理模块；400、电子设备；401、处理器；402、通信总线；403、用户接口；404、网络接口；405、存储器。

具体实施方式

为了使本领域的技术人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

在本申请实施例的描述中，“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请提供了一种企业服务领域预训练对话式大语言模型的构建方法，参照图1，其示出了本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建方法的流程示意图之一。该方法包括步骤S11-S18，上述步骤如下：

步骤S11：获取企业信息数据集。

在上述步骤中，服务器获取企业信息数据集。

具体来说，在本技术方案中，服务器首先收集大量的与企业服务相关的数据，企业服务相关的数据包括但不限于企业注册信息、企业简介、企业的专利信息、企业招聘、客户咨询、问题解答、客户反馈等。服务器再通过对企业服务相关的数据采用脱敏预处理；去除网页标签内容、无效的描述文本；对文本进行分段和分句；用word2vec算法计算文本之间的相似性，过滤相似的段落等一系列操作得到企业信息数据集。

步骤S12：基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型。

在上述步骤中，服务器基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型。

具体来说，在本技术方案中，预设的基座模型优选采用的是Transformer模型，服务器基于企业信息数据集对Transformer模型进行语义预测训练，以提升模型的语义理解能力和语义生成能力，从而使得得到的第一语义预测模型具备理解用户输入的问题语句并对应生成回答语句的能力。基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S13：获取预设的企业服务领域的指令集。

在上述步骤中，服务器获取预设的企业服务领域的指令集。

具体来说，在本技术方案中，预设的企业服务领域的指令集包含大量且多种多样的指令序列。构建预设的企业服务领域的指令集的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S14：基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型。

在上述步骤中，服务器基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型。

具体来说，在本技术方案中，服务器基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，以提高第一语义预测模型的回答的多样性。即使得得到的第二语义预测模型具有生成多种多样的回答语句的能力。基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S15：获取预设的问答分数数据集。

在上述步骤中，服务器获取预设的问答分数数据集。

具体来说，在本技术方案中，预设的问答分数数据集即本方案技术人员标注的“问题-答案-答案分数”数据集，该数据集中包含问题、候选答案和相关的答案分数的数据集。对于每个问题，至少包含两个候选答案和对应的答案分数。

步骤S16：基于预设的问答分数数据集和pairwise算法对第二语义预测模型进行训练，得到奖励模型。

在上述步骤中，服务器基于预设的问答分数数据集和pairwise算法对第二语义预测模型进行训练，得到奖励模型。

具体来说，在本技术方案中，服务器首先从问题和答案中提取相关的特征，这些特征可以包括词语、句法结构、上下文信息、实体识别等。特征提取的目的是将文本表示为机器学习算法可以处理的向量形式。再使用pairwise算法对第二语义预测模型进行训练。对于每个问题，从候选答案集合中选择一对答案，比较它们的质量或相关性，并使用预设的问答分数作为标签来指导模型的训练。你可以使用一些评估指标(如均方误差或交叉熵)来度量预测值与标签之间的差异，并使用梯度下降等优化算法来最小化损失函数。训练完成后，使用第二语义预测模型来生成奖励模型。奖励模型根据问题和候选答案之间的语义关系为每个答案分配一个奖励分数。

步骤S17：将第二语义预测模型作为强化学习算法的策略网络，将奖励模型作为强化学习算法的价值网络，并基于策略网络和价值网络，计算得到时间差误差。

在上述步骤中，服务器将第二语义预测模型作为强化学习算法的策略网络，将奖励模型作为强化学习算法的价值网络，并基于策略网络和价值网络，计算得到时间差误差。

具体来说，在本技术方案中，服务器将第二语义预测模型作为策略网络，与环境进行交互。在每个交互步骤中，根据当前状态(例如，对话的上下文)，使用策略网络选择一个动作(例如，生成回复)。然后，将动作应用于环境，并观察奖励信号和下一个状态(例如，用户的反馈)。将奖励模型作为价值网络来评估当前状态的价值。根据奖励模型的预测值，计算当前状态的预期奖励。再根据当前状态的预期奖励和策略网络对当前状态选择的动作的预测奖励值，计算时间差误差。时间差误差(TD误差)定义为预期奖励与实际奖励之间的差异。它表示策略网络在当前状态下对动作价值的预测与价值网络的评估之间的差异。计算时间差误差的方法可以为策略网络根据当前的状态计算出采取动作的概率分布，价值网络根据当前状态和动作估计状态的得分期望，计算时间差误差。通过加入强化学习过程可以让模型回答问题更加自然，并让模型在不断地学习中改进自己的回答能力，并且可以根据多轮对话上下文情况自动调整答案的分数，使得模型回答问题更加准确和自然流畅。

步骤S18：基于时间差误差更新策略网络的参数，得到预训练对话式大语言模型。

在上述步骤中，服务器基于时间差误差更新策略网络的参数，得到预训练对话式大语言模型。

具体来说，在本技术方案中，服务器使用时间差误差来更新策略网络的参数，从而使得得到预训练对话式大语言模型能够快速学习到最优的问答表达方式。

在一种可能的实施方式中，参照图2，其示出了本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建方法的流程示意图之二。步骤S12具体包括步骤S121-S125，上述步骤如下：

步骤S121：将多个企业相关语句逐一输入至文本屏蔽子模型，得到每个企业相关语句对应的文本跨度和第一损坏文本。

具体来说，在本技术方案中，企业信息数据集包括多个企业相关文本；每个企业相关文本包括多个企业相关语句；预设的基座模型包括文本屏蔽子模型和自回归训练子模型。服务器将将多个企业相关语句逐一输入至文本屏蔽子模型，得到每个企业相关语句对应的文本跨度和第一损坏文本。得到每个企业相关语句对应的文本跨度和第一损坏文本的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S122：基于文本跨度和第一损坏文本对文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型。

具体来说，在本技术方案中，在得到文本跨度和第一损坏文本之后，服务器再基于文本跨度和第一损坏文本对文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型。得到第一语义预测子模型的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S123：将多个企业相关文本输入至自回归训练子模型，得到第二损坏文本和第三损坏文本。

具体来说，在本技术方案中，服务器将多个企业相关文本输入至自回归训练子模型，得到第二损坏文本和第三损坏文本。得到第二损坏文本和第三损坏文本的步骤将在后续实施例中进行详细说明，故在此不做过多赘述。

步骤S124：基于第二损坏文本和第三损坏文本对自回归训练子模型进行语义预测训练，得到第二语义预测子模型。

具体来说，在本技术方案中，服务器将第二损坏文本和第三损坏文本输入至自回归训练子模型进行语义预测训练，自回归训练子模型将预测第二损坏文本和第三损坏文本的内容。在自回归训练子模型前向传播过程中，输入数据会通过神经网络的各个层，逐层进行计算，最终得到输出结果。在前向传播过程中，得到的输出结果会与真实标签进行比较，从而计算出交叉熵损失。并通过链式法则将损失沿着网络反向传播，计算每个参数对损失的贡献。从输出层开始，根据损失函数的梯度，计算输出层的梯度。然后，将梯度向后传播到前一层，依次计算每一层的梯度。并根据得到的每个参数的梯度，对自回归训练子模型的参数进行更新，得到第二语义预测子模型。

步骤S125：基于第一语义预测子模型和第二语义预测子模型，得到第一语义预测模型。

具体来说，在本技术方案中，第一语义预测模型即包括第一语义预测子模型和第二语义预测子模型。

在一种可能的实施方式中，步骤S121具体包括如下步骤：基于文本屏蔽子模型，从每个企业相关语句中随机选取预设第一比例的第一空白区域；第一空白区域包括多个连续跨度的空白文本；获取空白文本的文本跨度；将第一空白区域从每个企业相关语句中进行屏蔽处理，得到第一损坏文本。

具体来说，在本技术方案中，服务器基于文本屏蔽子模型，从每个企业相关语句中随机选取预设第一比例的第一空白区域。其中每个企业相关语句包括多个最小文字单元。对于中文语句而言，最小文字单元即每一个汉字；对于英文语句而言，最小文字单元即根据行业规则设定的经常出现的字母作为最小文字单元。预设第一比例优选为15％，即从每个企业相关语句中选取15％的最小文字单元作为第一空白区域。第一空白区域包括多个连续跨度的空白文本，且每个连续跨度的空白文本包括至少一个最小文字单元。举例来说，某一个语句x包括100个最小文字单元，即[x₁,x₂,…,x_i,…,x₁₀₀]；从100个最小文字单元中选取15个最小文字单元作为第一空白区域，第一空白区域中的连续跨度的空白文本可以为[x₂,x₃,…,x₇]，[x₁₅,x₁₆,…,x₁₉]，[x₈₂,…,x₈₅]。获取空白文本的文本跨度即根据选取的空白区域，得到每个空白文本的跨度{s₁,s₂,…,s_m}。在上述举例中，空白文本的跨度分别为6、5、4。服务器再将第一空白区域从每个企业相关语句中进行屏蔽处理，即采用多个[MASK]替代第一空白区域中的多个空白文本，得到第一损坏文本。因此在上述举例中，得到的第一损坏文本即为[x₁,[MASK],x₈,…,x₁₄,[MASK],x₂₀,…,x₈₁,[MASK],x₈₆,…,x₁₀₀]。

在一种可能的实施方式中，步骤S122具体包括如下步骤：基于文本跨度和损坏文本，计算生成每个空白文本的预测概率；当多个空白文本的预测概率的乘积达到最大时，获取此时的模型参数；基于模型参数对文本屏蔽子模型的参数进行更新，得到第一语义预测子模型。

具体来说，在本技术方案中，服务器将文本跨度和损坏文本输入文本屏蔽子模型，计算生成每个空白文本的预测概率。使得多个空白文本的预测概率的乘积达到最大为训练第一语义预测子模型的训练目标，训练目标可以用以下公式进行表示：

其中，θ为模型参数；Z_m为索引长度为m序列的所有可能的排列组合；E为期望；p_θ为空白文本的预测概率；为第i个空白文本的跨度；X_corrupt为第一损坏文本；S_z<i为其代表的含义为使用已预测出的[MASK]的词来预测还未被预测出的[MASK]的词。需要说明的是，为了充分捕捉不同文本跨度之间的相互依存关系，可以随机排列文本跨度的顺序并输入至文本屏蔽子模型。当计算得到多个空白文本的预测概率的乘积达到最大时，获取此时的模型参数θ，并对文本屏蔽子模型的参数进行更新，得到第一语义预测子模型。

在一种可能的实施方式中，步骤S123具体包括如下步骤：基于自回归训练子模型，从每个企业相关文本中选取预设比例范围的第二空白区域；将第二空白区域从多个企业相关文本中进行屏蔽处理，得到第二损坏文本；基于自回归训练子模型，从多个企业相关语句中选取预设第二比例的第三空白区域；将第三空白区域从多个企业相关语句中进行屏蔽处理，得到第三损坏文本。

具体来说，在本技术方案中，服务器基于自回归训练子模型，从每个企业相关文本中选取预设比例范围的第二空白区域；预设比例范围优选为50％-100％。将第二空白区域从多个企业相关文本中进行屏蔽处理，得到第二损坏文本，即域从多个企业相关文本中屏蔽50％-100％的企业相关文本，得到第二损坏文本。基于自回归训练子模型，从多个企业相关语句中选取预设第二比例的第三空白区域；预设第二比例可根据实际情况进行具体设定，但第三空白区域必须为完整的企业相关语句。将第三空白区域从多个企业相关语句中进行屏蔽处理，得到第三损坏文本，即将预设第二比例的完整的业相关语句从多个企业相关语句中进行屏蔽处理，得到第三损坏文本。

在一种可能的实施方式中，步骤S13具体包括如下步骤：

获取初始企业服务领域的指令集；初始企业服务领域的指令集包括多个初始指令序列，每个初始指令序列包括初始指令字段、初始输入字段以及初始输出字段。

具体来说，在本技术方案中，服务器获取初始企业服务领域的指令集，初始企业服务领域的指令集为本方案技术人员构建得到，其中初始企业服务领域的指令集包括多个初始指令序列，每个初始指令序列包括初始指令字段(instruction)、初始输入字段(input)以及初始输出字段(output)。

从初始企业服务领域的指令集中随机挑选预设的第一数量的初始指令序列。

具体来说，在本技术方案中，服务器从初始企业服务领域的指令集中随机挑选预设的第一数量的初始指令序列。预设的第一数量优选为3条，挑选的初始指令序列的数量还可以根据实际情况进行具体设定。

将预设的第一数量的初始指令序列输入至预设架构的大语言模型中，得到当前续写指令序列；当前续写指令序列包括当前续写指令字段、当前续写输入字段以及当前续写输出字段；其中，当前续写指令字段、当前续写输入字段以及当前续写输出字段对应的动词与初始指令字段、初始输入字段以及初始输出字段对应的动词均不相同。

具体来说，在本技术方案中，服务器将预设的第一数量的初始指令序列输入至预设架构的大语言模型中，大语言模型将生成当前续写指令序列。预设架构的大语言模型优选为基于GPT-4.0模型架构的大语言模型。并要求大语言模型生成的当前续写指令序列中的当前续写指令字段、当前续写输入字段以及当前续写输出字段与初始指令序列中的初始指令字段、初始输入字段以及初始输出字段对应的动词均不相同。

计算当前续写指令序列与多个初始指令序列的文本相似度。

具体来说，在本技术方案中，服务器在生成一条当前续写指令序列后，将计算当前续写指令序列与多个初始指令序列的文本相似度。计算文本相似度的方法在本申请中不做过多限定。

判断文本相似度是否大于预设的相似度阈值。

具体来说，在本技术方案中，服务器判断文本相似度是否大于预设的相似度阈值。预设的相似度阈值优选为0.7，预设的相似度阈值还可根据实际情况进行具体设定。

若是，则删除当前续写指令序列。

具体来说，在本技术方案中，若服务器判断文本相似度大于0.7，则删除当前续写指令序列。

若否，则将当前续写指令序列存至预设的企业服务领域的指令集。

具体来说，在本技术方案中，若服务器判断文本相似度不大于0.7，则将当前续写指令序列存至预设的企业服务领域的指令集。

生成下一续写指令序列，将下一续写指令序列作为当前续写指令序列并重复执行计算当前续写指令序列与多个初始指令序列的文本相似度的步骤，直至续写指令序列的数量大于预设的第二数量，得到预设的企业服务领域的指令集。

具体来说，在本技术方案中，服务器控制大语言模型生成下一续写指令序列，将下一续写指令序列作为当前续写指令序列并重复执行计算当前续写指令序列与多个初始指令序列的文本相似度的步骤，直至续写指令序列的数量大于预设的第二数量，得到预设的企业服务领域的指令集。预设的第二数量优选为100万。

在一种可能的实施方式中，步骤S14具体包括如下步骤：将第一语义预测模型的网络的学习率调整至预设数值，并将第一语义预测模型的训练轮次设置为预设轮次；基于第一语义预测模型，遍历预设的企业服务领域的指令集中的每个续写指令序列，并基于反向传播算法对第一语义预测模型的参数进行更新；对第一语义预测模型进行预设轮次的参数更新，得到第二语义预测模型。

具体来说，在本技术方案中，服务器将第一语义预测模型的网络的学习率调整至预设数值，预设数值需基于预设的企业服务领域的指令集的数据大小进行具体设定。将第一语义预测模型的训练轮次设置为预设轮次，预设轮次优选为5轮，在经历5轮训练后使得模型达到收敛状态，同样的预设轮次可根据实际情况进行具体设定。再基于第一语义预测模型，遍历预设的企业服务领域的指令集中的每个续写指令序列，并基于反向传播算法对第一语义预测模型的参数进行更新，以使得生成的第二语义预测模型以最大限度地提高生成答案的多样性。

参照图3，其示出了本申请实施例提供的一种企业服务领域预训练对话式大语言模型的构建系统的结构示意图。系统包括：获取模块1、语义预测训练模块2、模型微调模块3、强化学习模块4以及处理模块5；获取模块1，用于获取企业信息数据集；语义预测训练模块2，用于基于企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；获取模块1，还用于获取预设的企业服务领域的指令集；模型微调模块3，用于基于预设的企业服务领域的指令集，对第一语义预测模型进行微调，得到第二语义预测模型；获取模块，还用于获取预设的问答分数数据集；强化学习模块4，用于基于预设的问答分数数据集和pairwise算法，对第二语义预测模型进行训练，得到奖励模型；强化学习模块4，还用于将第二语义预测模型作为预设的强化学习模型的策略网络，将训练后的奖励模型作为预设的强化学习模型的价值网络，并基于策略网络和价值网络，计算得到时间差误差；处理模块5，用于基于时间差误差更新策略网络的参数，得到预训练对话式大语言模型。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还公开一种电子设备。参照图4，图4是本申请实施例的公开的一种电子设备的结构示意图。该电子设备400可以包括：至少一个处理器401，至少一个网络接口404，用户接口403，存储器405，至少一个通信总线402。

其中，通信总线402用于实现这些组件之间的连接通信。

其中，用户接口403可以包括显示屏(Display)、摄像头(Camera)，可选用户接口403还可以包括标准的有线接口、无线接口。

其中，网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器405内的指令、程序、代码集或指令集，以及调用存储在存储器405内的数据，执行服务器的各种功能和处理数据。可选的，处理器401可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器401中，单独通过一块芯片进行实现。

其中，存储器405可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。参照图4，作为一种计算机可读存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及一种应用程序。

在图4所示的电子设备400中，用户接口403主要用于为用户提供输入的接口，获取用户输入的数据；而处理器401可以用于调用存储器405中存储一种应用程序，当由一个或多个处理器401执行时，使得电子设备400执行如上述实施例中一个或多个的方法。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后，将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种企业服务领域预训练对话式大语言模型的构建方法，其特征在于，所述方法包括：

获取企业信息数据集；

基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；

获取预设的企业服务领域的指令集；

基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型；

获取预设的问答分数数据集；

基于所述预设的问答分数数据集和pairwise算法，对所述第二语义预测模型进行训练，得到奖励模型；

将所述第二语义预测模型作为强化学习算法的策略网络，将所述奖励模型作为强化学习算法的价值网络，并基于所述策略网络和所述价值网络，计算得到时间差误差；

基于所述时间差误差更新所述策略网络的参数，得到预训练对话式大语言模型。

2.根据权利要求1所述的方法，其特征在于，所述企业信息数据集包括多个企业相关文本；每个所述企业相关文本包括多个企业相关语句；所述预设的基座模型包括文本屏蔽子模型和自回归训练子模型；所述基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型，具体包括：

将多个所述企业相关语句逐一输入至所述文本屏蔽子模型，得到每个所述企业相关语句对应的文本跨度和第一损坏文本；

基于所述文本跨度和所述第一损坏文本对所述文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型；

将多个所述企业相关文本输入至所述自回归训练子模型，得到第二损坏文本和第三损坏文本；

基于所述第二损坏文本和所述第三损坏文本对所述自回归训练子模型进行语义预测训练，得到第二语义预测子模型；

基于所述第一语义预测子模型和所述第二语义预测子模型，得到第一语义预测模型。

3.根据权利要求2所述的方法，其特征在于，所述将多个所述企业相关语句逐一输入至所述文本屏蔽子模型，得到每个所述企业相关语句对应的文本跨度和第一损坏文本，具体包括：

基于所述文本屏蔽子模型，从每个所述企业相关语句中随机选取预设第一比例的第一空白区域；所述第一空白区域包括多个连续跨度的空白文本；

获取所述空白文本的文本跨度；

将所述第一空白区域从每个所述企业相关语句中进行屏蔽处理，得到第一损坏文本。

4.根据权利要求3所述的方法，其特征在于，所述基于所述文本跨度和所述损坏文本对所述文本屏蔽子模型进行语义预测训练，得到第一语义预测子模型，具体包括：

基于所述文本跨度和所述损坏文本，计算生成每个所述空白文本的预测概率；

当多个所述空白文本的预测概率的乘积达到最大时，获取此时的模型参数；

基于所述模型参数对所述文本屏蔽子模型的参数进行更新，得到第一语义预测子模型。

5.根据权利要求2所述的方法，其特征在于，所述将多个所述企业相关文本输入至所述自回归训练子模型，得到第二损坏文本和第三损坏文本，具体包括：

基于所述自回归训练子模型，从每个所述企业相关文本中选取预设比例范围的第二空白区域；

将所述第二空白区域从多个所述企业相关文本中进行屏蔽处理，得到第二损坏文本；

基于所述自回归训练子模型，从多个所述企业相关语句中选取预设第二比例的第三空白区域；

将所述第三空白区域从多个所述企业相关语句中进行屏蔽处理，得到第三损坏文本。

6.根据权利要求1所述的方法，其特征在于，所述获取预设的企业服务领域的指令集，具体包括：

获取初始企业服务领域的指令集；所述初始企业服务领域的指令集包括多个初始指令序列，每个所述初始指令序列包括初始指令字段、初始输入字段以及初始输出字段；

从所述初始企业服务领域的指令集中随机挑选预设的第一数量的初始指令序列；

将所述预设的第一数量的初始指令序列输入至预设架构的大语言模型中，得到当前续写指令序列；所述当前续写指令序列包括当前续写指令字段、当前续写输入字段以及当前续写输出字段；其中，所述当前续写指令字段、所述当前续写输入字段以及所述当前续写输出字段对应的动词与所述初始指令字段、所述初始输入字段以及所述初始输出字段对应的动词均不相同；

计算所述当前续写指令序列与多个所述初始指令序列的文本相似度；

判断所述文本相似度是否大于预设的相似度阈值；

若是，则删除所述当前续写指令序列；

若否，则将所述当前续写指令序列存至所述预设的企业服务领域的指令集；

生成下一续写指令序列，将所述下一续写指令序列作为当前续写指令序列并重复执行计算所述当前续写指令序列与多个所述初始指令序列的文本相似度的步骤，直至所述续写指令序列的数量大于预设的第二数量，得到所述预设的企业服务领域的指令集。

7.根据权利要求6所述的方法，其特征在于，所述基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型，具体包括：

将所述第一语义预测模型的网络的学习率调整至预设数值，并将所述第一语义预测模型的训练轮次设置为预设轮次；

基于所述第一语义预测模型，遍历所述预设的企业服务领域的指令集中的每个所述续写指令序列，并基于反向传播算法对所述第一语义预测模型的参数进行更新；

对所述第一语义预测模型进行所述预设轮次的参数更新，得到所述第二语义预测模型。

8.一种企业服务领域预训练对话式大语言模型的构建系统，其特征在于，所述系统包括：获取模块、语义预测训练模块、模型微调模块、强化学习模块以及处理模块；

所述获取模块，用于获取企业信息数据集；

所述语义预测训练模块，用于基于所述企业信息数据集对预设的基座模型进行语义预测训练，得到第一语义预测模型；

所述获取模块，还用于获取预设的企业服务领域的指令集；

所述模型微调模块，用于基于所述预设的企业服务领域的指令集，对所述第一语义预测模型进行微调，得到第二语义预测模型；

所述获取模块，还用于获取预设的问答分数数据集；

所述强化学习模块，用于基于所述预设的问答分数数据集和pairwise算法，对所述第二语义预测模型进行训练，得到奖励模型；

所述强化学习模块，还用于将所述第二语义预测模型作为预设的强化学习模型的策略网络，将所述训练后的奖励模型作为预设的强化学习模型的价值网络，并基于所述策略网络和所述价值网络，计算得到时间差误差；

所述处理模块，用于基于所述时间差误差更新所述策略网络的参数，得到预训练对话式大语言模型。

9.一种电子设备，其特征在于，包括处理器(401)、存储器(405)、用户接口(403)及网络接口(404)，所述存储器(405)用于存储指令，所述用户接口(403)和网络接口(404)用于给其他设备通信，所述处理器(401)用于执行所述存储器(405)中存储的指令，以使所述电子设备(400)执行如权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被执行时，执行如权利要求1-7任意一项所述的方法步骤。