CN116798428A

CN116798428A - 一种基于私域管理的大语言智能模型系统

Info

Publication number: CN116798428A
Application number: CN202310761687.XA
Authority: CN
Inventors: 陈君洪; 蔡礼斌
Original assignee: Shenzhen Zhongxi Heli Technology Co ltd
Current assignee: Shenzhen Zhongxi Heli Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-22

Abstract

本发明公开了一种基于私域管理的大语言智能模型系统，涉及智能模型技术领域。本发明包括：第一训练集构建单元，被配置成基于私域用户输入文本与匹配的服务接口调用序列，构建第一训练集；第二训练集构建单元，被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；强化学习训练单元，被配置成将将第二生成式大语言模型，基于奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大语言模型。本发明通过私域用户输入文本与匹配的服务接口，训练第二生成式大语言模型，基于奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大语言模型，方便人机语音交互，提升了人机语音交互体验。

Description

一种基于私域管理的大语言智能模型系统

技术领域

本发明属于智能模型技术领域，特别是涉及一种基于私域管理的大语言智能模型系统。

背景技术

私域就是指品牌自有的、可开展个性化运营的用户资产。是能够长期、免费、反复触达消费者。私域的获客成本，是免费的、可反复触达的，当我们的用户进入私域流量池时，也需要对其进行管理和维护，避免用户流失。例如，当您通过多个渠道添加好友时，当好友列表达到某个难以统计的数量时，我们将如何了解每个好友的意图和诉求，以便更好地帮助他们解决问题。

大型语言模型(LLM，Large Language Mode l，其本质是生成式模型)，如ChatGPT(Chat Generat ive Pre-trained Transformer，是OpenAI机构研发的聊天机器人程序)，能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。

然而，将LLM应用于现实世界中的任务解决型应用仍然具有挑战性，主要原因是它们可能会产生与实际不符的回复，以及无法使用外部知识作为参考进行回复的生成。

发明内容

本发明的目的在于提供一种基于私域管理的大语言智能模型系统，通过私域用户输入文本与匹配的服务接口，训练得到的目标生成式大语言模型，解决了现有的模型回复不够精准，无法使用外部只是作为参考进行回复的生成问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于私域管理的大语言智能模型系统，包括第一训练集构建单元、监督微调训练单元、第二训练集构建单元、奖励模型训练单元和强化学习训练单元；

所述第一训练集构建单元，被配置成基于私域用户输入文本与匹配的服务接口调用序列，构建第一训练集；其中，所述私域用户输入文本由私域用户输入语音转换得到，构成所述服务接口调用序列的服务接口对应于所述私域用户输入文本表达出的功能使用意图；

所述监督微调训练单元，被配置成利用所述第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练，得到第二生成式大语言模型；

所述第二训练集构建单元，被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；

所述奖励模型训练单元，被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练，得到奖励模型；

所述强化学习训练单元，被配置成将将所述第二生成式大语言模型，基于所述奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大语言模型。

作为一种优选的技术方案，所述第一训练集构建单元包括：

功能使用意图确定子单元，被配置成获取私域用户以语音形式发出的用户输入语音，并将所述私域用户输入语音转换为所述私域用户输入文本，且确定所述私域用户输入文本所表达的功能使用意图；

目标接口及接口参数确定子单元，被配置成根据所述功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数；

服务接口调用序列构建子单元，被配置成根据所述目标服务接口和所述具体接口参数，构建得到所述服务接口调用序列；

第一训练集构建子单元，被配置成基于由所述私域用户输入文本与匹配的服务接口调用序列构成的样本对，构建所述第一训练集。

作为一种优选的技术方案，所述目标接口及接口参数确定子单元被进一步配置成：

所述服务接口调用序列构建子单元被进一步配置成；

响应于所述私域用户输入文本的表达中包含有至少两个所述功能使用意图，分别确定与每个所述功能使用意图对应的目标服务接口和具体接口参数；

所述服务接口调用序列构建子单元被进一步配置成：

根据与每个所述功能使用意图对应的目标服务接口和具体接口参数，生成相应的接口调用指令；

根据不同的功能使用意图之间的执行依赖关系，确定不同的接口调用指令的执行顺序；

按所述执行顺序组织不同的接口调用指令，得到所述服务接口调用序列。

作为一种优选的技术方案，所述监督微调训练单元对所述第一生成式大语言模型中未出现的代表服务接口的新语言单元，按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。

作为一种优选的技术方案，所述第二训练集构建单元被进一步配置成：

从检索日志中获取检索词；

从检索日志中确认对相同所述检索词返回过的所有检索结果，并确定每个所述检索结果在一个时间窗口内的累计点击次数；

将相同检索词分别与各检索结果生成多个样本对，并根据不同检索结果分别对应的累计点击次数的大小，确定相应的不同样本对之间的排序信息；

基于按所述排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板，共同构建第二训练集；其中，所述预设模板集合由各所述预设模板构成。

作为一种优选的技术方案，所述强化学习训练单元具体强化学习方式进行训练流程如下：

步骤S1：将奖励模型返回的得分进行标注；

步骤S2：采用分词工具对每条文本进行分词，得到每条文本的分词后文本；

步骤S3：每条分词后文本输入Word2vec模型训练，得到包含有每个词的词向量信息的词库；

步骤S4：在每条分词后文本的前面和后面分别添加开始标记符和第一结束标记符；

步骤S5：在每条分词后文本的第一结束标记符后面添加该条文本的类别标签，并在类别标签的后面添加第二结束标记符，得到每条文本的含标签文本；

步骤S6：对每条含标签文本，以设定概率值随机地选择词进行遮蔽，并通过Word2vec模型从所述词库中抽取每个被遮蔽词的相似词进行相似词替换，获得每条文本的遮蔽替换文本；

步骤S7：将每条文本和该文本的遮蔽替换文本转换成数字ID；

步骤S8：将所述数字ID及每条文本的类别标签输入预训练语言模型进行监督训练，得到含有标签信息的大语言模型。

作为一种优选的技术方案，所述步骤S6中，对每条含标签文本，以设定概率值随机地选择词进行遮蔽，并通过Word2vec模型从所述词库中抽取每个被遮蔽词的相似词进行相似词替换，获得每条文本的遮蔽替换文本包括：

采用N-gram模型的方式连续的遮蔽每条含标签文本的m个词；其中，m＝[所述设定概率值*该分词后文本包含的总词数]；

当目前词为所述开始标记符、第一结束标记符或第二结束标记符时，跳过目前词；

当目前词需要遮蔽时，以P1的概率将目前词替换为[mask]，以P2的概率将目前词保持不变，以(1-P1-P2)的概率通过Word2vec模型从所述词库中抽取所述目前词的相似词进行相似词替换，获得每条文本的遮蔽替换文本；且所述相似词长度与所述当前词长度相同。

作为一种优选的技术方案，所述步骤S8中，将每条文本和该文本的遮蔽替换文本转换成数字ID包括：

将每条文本按照BPE切词，并依据Vocab.txt文本转换成所述数字ID；

将每条文本的遮蔽替换文本按照BPE切词，并依据Vocab.txt文本转换成所述数字ID。

本发明具有以下有益效果：

本发明通过私域用户输入文本与匹配的服务接口，训练第二生成式大语言模型，基于所述奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大语言模型，方便人机语音交互，提升了人机语音交互体验。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于私域管理的大语言智能模型系统结构示意图；

图2为强化学习训练单元具体强化学习方式进行训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于私域管理的大语言智能模型系统，包括第一训练集构建单元、监督微调训练单元、第二训练集构建单元、奖励模型训练单元和强化学习训练单元；

第一训练集构建单元，被配置成基于私域用户输入文本与匹配的服务接口调用序列，构建第一训练集；其中，私域用户输入文本由私域用户输入语音转换得到，构成服务接口调用序列的服务接口对应于私域用户输入文本表达出的功能使用意图；

监督微调训练单元，被配置成利用第一训练集对预训练好的第一生成式大语言模型进行有监督微调训练，得到第二生成式大语言模型；

第二训练集构建单元，被配置成基于相同用户输入文本与不同候选输出之间的用户偏好排序和预设模板集合，构建第二训练集；

奖励模型训练单元，被配置成利用第二训练集对预训练好的第三生成式大语言模型进行有监督训练，得到奖励模型；

强化学习训练单元，被配置成将将第二生成式大语言模型，基于奖励模型返回的得分，以强化学习方式进行训练，得到目标生成式大语言模型。

第一训练集构建单元包括：

功能使用意图确定子单元，被配置成获取私域用户以语音形式发出的用户输入语音，并将私域用户输入语音转换为私域用户输入文本，且确定私域用户输入文本所表达的功能使用意图；

目标接口及接口参数确定子单元，被配置成根据功能使用意图确定用于实现相应意图的目标服务接口和具体接口参数；

服务接口调用序列构建子单元，被配置成根据目标服务接口和具体接口参数，构建得到服务接口调用序列；

第一训练集构建子单元，被配置成基于由私域用户输入文本与匹配的服务接口调用序列构成的样本对，构建第一训练集。

目标接口及接口参数确定子单元被进一步配置成：

服务接口调用序列构建子单元被进一步配置成；

响应于私域用户输入文本的表达中包含有至少两个功能使用意图，分别确定与每个功能使用意图对应的目标服务接口和具体接口参数；

服务接口调用序列构建子单元被进一步配置成：

根据与每个功能使用意图对应的目标服务接口和具体接口参数，生成相应的接口调用指令；

按执行顺序组织不同的接口调用指令，得到服务接口调用序列。

监督微调训练单元对第一生成式大语言模型中未出现的代表服务接口的新语言单元，按照已有语言单元的特征的多元正态分布对新语言单元的特征进行参数采样的初始化。

第二训练集构建单元被进一步配置成：

从检索日志中获取检索词；

从检索日志中确认对相同检索词返回过的所有检索结果，并确定每个检索结果在一个时间窗口内的累计点击次数；

基于按排序信息进行用户偏好排序的各样本对和记录有输入文本与相应的接口调用指令之间对应关系的各预设模板，共同构建第二训练集；其中，预设模板集合由各预设模板构成。

请参阅图2所示，强化学习训练单元具体强化学习方式进行训练流程如下：

步骤S1：将奖励模型返回的得分进行标注；

步骤S6：对每条含标签文本，以设定概率值随机地选择词进行遮蔽，并通过Word2vec模型从词库中抽取每个被遮蔽词的相似词进行相似词替换，获得每条文本的遮蔽替换文本；

步骤S7：将每条文本和该文本的遮蔽替换文本转换成数字ID；

步骤S8：将数字ID及每条文本的类别标签输入预训练语言模型进行监督训练，得到含有标签信息的大语言模型。

步骤S6中，对每条含标签文本，以设定概率值随机地选择词进行遮蔽，并通过Word2vec模型从词库中抽取每个被遮蔽词的相似词进行相似词替换，获得每条文本的遮蔽替换文本包括：

采用N-gram模型的方式连续的遮蔽每条含标签文本的m个词；其中，m＝[设定概率值*该分词后文本包含的总词数]；

当目前词为开始标记符、第一结束标记符或第二结束标记符时，跳过目前词；

当目前词需要遮蔽时，以P1的概率将目前词替换为[mask]，以P2的概率将目前词保持不变，以(1-P1-P2)的概率通过Word2vec模型从词库中抽取目前词的相似词进行相似词替换，获得每条文本的遮蔽替换文本；且相似词长度与当前词长度相同。

步骤S8中，将每条文本和该文本的遮蔽替换文本转换成数字ID包括：

将每条文本按照BPE切词，并依据Vocab.txt文本转换成数字ID；

将每条文本的遮蔽替换文本按照BPE切词，并依据Vocab.txt文本转换成数字ID。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于私域管理的大语言智能模型系统，包括第一训练集构建单元、监督微调训练单元、第二训练集构建单元、奖励模型训练单元和强化学习训练单元，其特征在于：

2.根据权利要求1所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述第一训练集构建单元包括：

3.根据权利要求2所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述目标接口及接口参数确定子单元被进一步配置成：

所述服务接口调用序列构建子单元被进一步配置成；

所述服务接口调用序列构建子单元被进一步配置成：

4.根据权利要求1所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述监督微调训练单元对所述第一生成式大语言模型中未出现的代表服务接口的新语言单元，按照已有语言单元的特征的多元正态分布对所述新语言单元的特征进行参数采样的初始化。

5.根据权利要求1所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述第二训练集构建单元被进一步配置成：

从检索日志中获取检索词；

6.根据权利要求1所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述强化学习训练单元具体强化学习方式进行训练流程如下：

步骤S1：将奖励模型返回的得分进行标注；

步骤S7：将每条文本和该文本的遮蔽替换文本转换成数字ID；

7.根据权利要求6所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述步骤S6中，对每条含标签文本，以设定概率值随机地选择词进行遮蔽，并通过Word2vec模型从所述词库中抽取每个被遮蔽词的相似词进行相似词替换，获得每条文本的遮蔽替换文本包括：

8.根据权利要求1所述的一种基于私域管理的大语言智能模型系统，其特征在于，所述步骤S8中，将每条文本和该文本的遮蔽替换文本转换成数字ID包括：