CN116991985B

CN116991985B - 基于生成式预训练模型的实时信息响应方法及其系统

Info

Publication number: CN116991985B
Application number: CN202311265296.5A
Authority: CN
Inventors: 丁双安; 刘林; 刘洋
Original assignee: Areson Technology Corp
Current assignee: Areson Technology Corp
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-19
Anticipated expiration: 2043-09-28
Also published as: CN116991985A

Abstract

本申请涉及计算机技术领域，提供一种基于生成式预训练模型的实时信息响应方法及其系统，该方法包括：加载具备通用知识生成能力的生成式预训练模型；通过目标服务应用领域的微调数据集对生成式预训练模型进行微调处理，得到目标服务应用领域的微调领域模型；在微调领域模型中开启领域模型服务和实时信息服务；若侦测到用户终端向领域模型服务发起知识请求，则基于领域模型服务根据知识请求返回服务应用领域模式下的文本；以文本为请求参数对实时信息服务发起请求，并获取实时信息服务返回的实时信息；利用Prompt将实时信息下达至生成式预训练模型，并获取生成式预训练模型返回融合后实时信息。本申请提高了信息获取的实时性。

Description

基于生成式预训练模型的实时信息响应方法及其系统

技术领域

本申请涉及计算机技术领域，尤其涉及实时信息处理技术，具体涉及一种基于生成式预训练模型的实时信息响应方法及其系统。

背景技术

当前使用的生成式预训练模型一般是基于互联网大量的文本数据训练得到的。这种模型对于通用的知识领域可以有较好的表现，但是由于训练数据集的时效性，其并不能为人们提供最新的知识。在某些应用领域，除了需要满足人们对于通用知识的需求之外，对于特定领域知识的实时性也有很高的要求，然而现有的模型并不能达到要求。

发明内容

本申请实施例提供一种基于生成式预训练模型的实时信息响应方法及其系统，旨在提高信息获取的实时性。

第一方面，本申请实施例提供一种基于生成式预训练模型的实时信息响应方法，包括：

加载具备通用知识生成能力的生成式预训练模型；

通过目标服务应用领域的微调数据集对所述生成式预训练模型进行微调处理，得到所述目标服务应用领域的微调领域模型；

在所述微调领域模型中开启领域模型服务和实时信息服务；

若侦测到用户终端向所述领域模型服务发起知识请求，则基于所述领域模型服务根据所述知识请求返回服务应用领域模式下的文本；

以所述文本为请求参数对所述实时信息服务发起请求，并获取所述实时信息服务返回的实时信息；所述实时信息是所述实时信息服务基于请求对所述文本进行关键字检索后得到；

利用Prompt将所述实时信息下达至所述生成式预训练模型，并获取所述生成式预训练模型返回融合后实时信息；

所述服务应用领域模式是通过所述微调数据集微调后的生成式预训练模型返回的模式；所述微调数据集是以jsonl文本格式构造出的所述目标服务应用领域的问答对话数据集。

在一个实施例中，所述方法还包括：

若确定所述知识请求存在上下文的相关性，则通过所述生成式预训练模型的推理能力循环执行步骤：基于所述领域模型服务根据所述知识请求返回服务应用领域模式下的文本，直至步骤：获取所述实时信息服务返回的实时信息，以持续得到实时信息。

在一个实施例中，所述上下文是基于大语言模型的自身能力构建和判断；所述上下文为大语言模型中的context，以提供至生成式预训练模型建立对话历史和生成回应的上下文信息。

在一个实施例中，所述上下文由一系列消息对象组成，每个消息对象具有两个属性：角色属性和内容属性。

在一个实施例中，所述角色属性表征消息在对话中的角色或身份，以使得生成式预训练模型确定出发送信息方和接收消息方。

在一个实施例中，所述内容属性表征消息的实际文本，所述实际文本包括用户的输入文本或生成式预训练模型的前面回应文本。

在一个实施例中，所述实时信息服务为通用爬虫服务。

第二方面，本申请实施例提供一种基于生成式预训练模型的实时信息响应系统，包括：

加载模块，用于加载具备通用知识生成能力的生成式预训练模型；

模型微调模块，用于通过目标服务应用领域的微调数据集对所述生成式预训练模型进行微调处理，得到所述目标服务应用领域的微调领域模型；

服务开启模块，用于在所述微调领域模型中开启领域模型服务和实时信息服务；

数据处理模块，用于若侦测到用户终端向所述领域模型服务发起知识请求，则基于所述领域模型服务根据所述知识请求返回服务应用领域模式下的文本；

实时信息获取模块，用于以所述文本为请求参数对所述实时信息服务发起请求，获取所述实时信息服务返回的实时信息；所述实时信息是所述实时信息服务基于请求对所述文本进行关键字检索后得到；

实时信息响应模块，用于利用Prompt将实时信息下达至所述生成式预训练模型，并获取所述生成式预训练模型返回融合后实时信息；

第三方面，本申请实施例提供一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的基于生成式预训练模型的实时信息响应方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的基于生成式预训练模型的实时信息响应方法。

本申请实施例提供的基于生成式预训练模型的实时信息响应方法及其系统，加载具备通用知识生成能力的生成式预训练模型；通过目标服务应用领域的微调数据集对生成式预训练模型进行微调处理，得到目标服务应用领域的微调领域模型；在微调领域模型中开启领域模型服务和实时信息服务；若侦测到用户终端向领域模型服务发起知识请求，则基于领域模型服务根据知识请求返回服务应用领域模式下的文本；以文本为请求参数对实时信息服务发起请求，并获取实时信息服务返回的实时信息；利用Prompt将实时信息下达至生成式预训练模型，并获取生成式预训练模型返回融合后实时信息。在基于生成式预训练模型的实时信息响应的过程中，通过目标服务应用领域的微调数据集微调出微调领域模型，同时开启领域模型服务和实时信息服务，使得微调领域模型能够返回实时信息，提高了信息获取的实时性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于生成式预训练模型的实时信息响应方法的流程示意图之一；

图2是本申请实施例提供的基于生成式预训练模型的实时信息响应方法的流程示意图之二；

图3是本申请实施例提供的基于生成式预训练模型的实时信息响应系统的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，图1是本申请实施例提供的基于生成式预训练模型的实时信息响应方法的流程示意图之一。本申请实施例提供一种基于生成式预训练模型的实时信息响应方法，包括：

步骤101，加载具备通用知识生成能力的生成式预训练模型；

在所述微调领域模型中开启领域模型服务和实时信息服务；

以所述文本为请求参数对所述实时信息服务发起请求，并获取所述实时信息服务返回的实时信息；

利用Prompt将所述实时信息下达至所述生成式预训练模型，并获取所述生成式预训练模型返回融合后实时信息。

需要说明的是，本申请实施例提供的基于生成式预训练模型的实时信息响应方法以实时信息响应系统为执行主体举例说明。

1、准备具备通用知识生成能力的生成式预训练模型。

其中，生成式预训练模型可以理解为一类基于大规模语料库进行预训练的自然语言处理模型。这些模型的目标是通过学习大量文本数据中的语言模式和语义信息，从而获得广泛的语言理解和生成能力。在一实施例中，生成式预训练模型为GPT模型（GenerativePretrained Transformer），GPT模型基于Transformer架构，使用自监督学习方法进行预训练。预训练阶段中，模型会通过自动编码和解码文本来学习上下文理解、语言模型建模、词汇预测等任务。预训练完成后，可以通过微调该模型来适应特定任务或应用领域。GPT模型在各种自然语言处理任务中展现出强大的表现，如文本生成、机器翻译、问答系统、摘要生成等。它们能够理解上下文、推理语义、生成连贯的回复，并在许多情况下产生与人类相似甚至更好的文本输出。

2、准备用于目标服务应用领域的微调数据集，目标服务应用领域可以理解为某一特定应用领域，微调数据集的格式需要满足系统实时性的特点，微调数据集是以jsonl文本格式构造出的目标服务应用领域的问答对话数据集。

3、通过目标服务应用领域的微调数据集对GPT模型进行微调处理，得到目标服务应用领域的微调领域模型。

4、开启一个加载微调领域模型的领域模型服务，领域模型服务为特定领域模型服务，可以理解为开启一个加载微调领域模型的特定领域模型服务，用于监听用户的知识请求。

5、在微调领域模型中开启一个实时信息服务，不失一般性，实时信息服务可以是一个通用爬虫服务。

6、对特定领域模型服务发起知识请求，特定领域模型服务可以返回服务应用领域模式的文本，服务应用领域模式是通过微调数据集微调后的GPT模型返回的模式，服务应用领域模式为特定模式，因此可以理解为，对特定领域模型服务发起知识请求，特定领域模型服务可以返回特定模式的文本。

7、以6中的文本为请求参数对所述实时信息服务发起请求，并获取实时信息服务返回的实时信息，实时信息是实时信息服务基于请求对文本进行关键字检索后得到。因此可以理解为，将6中的文本作为请求参数对实时信息服务发起请求，实时信息服务可以对文本进行关键字检索，并将检索后得到的结果作为实时信息返回。

8、利用Prompt将实时信息下达至GPT模型，并获取GPT模型返回融合后实时信息，因此可以理解为，将7中得到的实时信息，再利用Prompt对GPT模型下达指令的方式返回融合后的实时信息。

9、若确定所述知识请求存在上下文的相关性，则通过GPT模型的推理能力循环执行步骤：基于领域模型服务根据知识请求返回服务应用领域模式下的文本，直至步骤：获取实时信息服务返回的实时信息，以持续得到实时信息。因此可以理解为，如果6的知识请求中有上下文的相关性，利用GPT模型的推理能力循环执行6-7，持续得到想要的实时信息。

上述1-9的整体理解可以参照图2，图2是本申请实施例提供的基于生成式预训练模型的实时信息响应方法的流程示意图之二。

进一步地，上述提到的上下文是基于大语言模型的自身能力构建和判断，上下文为大语言模型中的context，以提供至GPT模型建立对话历史和生成回应的上下文信息。因此可以理解为，对于上述步骤中提到的上下文，构建和判断上下文是大语言模型的自身能力。上下文对应大语言模型中的context，是提供给GPT模型以建立对话历史和生成回应的上下文信息。上下文包括GPT模型用于理解当前对话并产生连贯且相关回复的前面消息或对话历史。

进一步地，上下文由一系列消息对象组成，每个消息对象具有两个属性：角色属性和内容属性。

角色属性表征消息在对话中的角色或身份，以使得GPT模型确定出发送信息方和接收消息方。可以理解为，角色指定消息在对话中的角色或身份，可以是系统、用户或助手，角色帮助GPT模型理解谁在发送消息或接收消息。

内容属性表征消息的实际文本，实际文本包括用户的输入文本或GPT模型的前面回应文本。可以理解为，内容代表消息的实际文本，它包含来自用户的输入文本或GPT模型的前面回应。

因此，通过提供一个消息对象列表的上下文，用户可以引导GPT模型的回应并塑造对话。GPT模型基于其所得到的信息，考虑当前为止的整个对话历史来生成连贯的回复。因此，需要注意保持对话的连贯性和一致性。

下面以实时天气信息领域为例，说明如何构建微调数据集及其示例，以及期望的GPT领域模型输出示例，具体为：

1、由于GPT训练数据的时效性问题，其并不能回答实时性或者未来时间的问题。因此，一般在对GPT提问时，响应一般类似如下：

因此，要利用GPT的文本生成能力，得到实时信息，有必要构造该领域相关的微调数据集，修改GPT对于该类问题的响应方式。

2、修改GPT对于该类问题所进行的微调数据集的构建方式如下：

{"instruction":"下面我将对你进行天气信息方面的提问。请注意，尽管这个问题的答案有可能是一个实时的或者未来时间的信息，但是请不回答回答说’我只是一个语言模型，我不能对于实时的或者未来时间的事实进行回答’，你必须精确地抽取出我提问中的时间、城市等关键词，并以下面这种{‘task_type’:’weather’，’city’:城市名，’date’:日期}json格式进行回答。请把其中的city和date字段修改为你提取到的关键词。以下是提问："，

"input":"请问广州明天的天气怎样?"，

"output":"{‘task_type’:’weather’，’city’:’广州’，’date’:’明天’}"}

构建类似上述的微调数据，对GPT进行微调，是充分利用的GPT的自然语言理解能力，并且事实上确实能得到预期的结果，如下所示：

3、上述流程中的实时信息服务，在本实施例说明中，可以理解为一个实时天气数据爬虫服务。在得到经过微调的GPT输出后，可以以此为请求参数，对该实时天气数据爬虫服务发起请求。一般来说，请求得到的数据可能是各种形式的数据，并不满足自然语言阅读体验，可以利用GPT的文本生成能力，对请求结果进行优化，得到自然流畅的天气信息。

如请求数据是如下json格式，

{"city":"广州市"，"weather":"晴"，"temperature":"33°"，"winddirection":"北"，"windpower":"2级"，"humidity":"55%"}

经过下面的Prompt，利用GPT优化可得到如下输出：

Prompt:请将下面数据输出为阅读友好的文本输出。{"city":"广州市"，"weather":"晴"，"temperature":"33"，"winddirection":"北"，"windpower":"2级"，"humidity":"55%"}

最终输出：

广州市天气预报:明天广州将是晴天。气温将达到33°。风向为北风，风力2级。相对湿度为55%。

本申请实施例提供的基于生成式预训练模型的实时信息响应方法，加载具备通用知识生成能力的生成式预训练模型；通过目标服务应用领域的微调数据集对生成式预训练模型进行微调处理，得到目标服务应用领域的微调领域模型；在微调领域模型中开启领域模型服务和实时信息服务；若侦测到用户终端向领域模型服务发起知识请求，则基于领域模型服务根据知识请求返回服务应用领域模式下的文本；以文本为请求参数对实时信息服务发起请求，并获取实时信息服务返回的实时信息；利用Prompt将实时信息下达至生成式预训练模型，并获取生成式预训练模型返回融合后实时信息。在基于生成式预训练模型的实时信息响应的过程中，通过目标服务应用领域的微调数据集微调出微调领域模型，同时开启领域模型服务和实时信息服务，使得微调领域模型能够返回实时信息，提高了信息获取的实时性。

下面对本申请实施例提供的基于生成式预训练模型的实时信息响应系统进行描述，下文描述的基于生成式预训练模型的实时信息响应系统与上文描述的基于生成式预训练模型的实时信息响应方法可相互对应参照。

参考图3，图3是本申请实施例提供的基于生成式预训练模型的实时信息响应系统的结构示意图，本申请实施例提供的基于生成式预训练模型的实时信息响应系统包括：

加载模块301，用于加载具备通用知识生成能力的生成式预训练模型；

模型微调模块302，用于通过目标服务应用领域的微调数据集对所述生成式预训练模型进行微调处理，得到所述目标服务应用领域的微调领域模型；

服务开启模块303，用于在所述微调领域模型中开启领域模型服务和实时信息服务；

数据处理模块304，用于若侦测到用户终端向所述领域模型服务发起知识请求，则基于所述领域模型服务根据所述知识请求返回服务应用领域模式下的文本；

实时信息获取模块305，用于以所述文本为请求参数对所述实时信息服务发起请求，获取所述实时信息服务返回的实时信息；

实时信息响应模块306，用于利用Prompt将实时信息下达至所述生成式预训练模型，并获取所述生成式预训练模型返回融合后实时信息。

本申请实施例提供的基于生成式预训练模型的实时信息响应系统，加载具备通用知识生成能力的生成式预训练模型；通过目标服务应用领域的微调数据集对生成式预训练模型进行微调处理，得到目标服务应用领域的微调领域模型；在微调领域模型中开启领域模型服务和实时信息服务；若侦测到用户终端向领域模型服务发起知识请求，则基于领域模型服务根据知识请求返回服务应用领域模式下的文本；以文本为请求参数对实时信息服务发起请求，并获取实时信息服务返回的实时信息；利用Prompt将实时信息下达至生成式预训练模型，并获取生成式预训练模型返回融合后实时信息。在基于生成式预训练模型的实时信息响应的过程中，通过目标服务应用领域的微调数据集微调出微调领域模型，同时开启领域模型服务和实时信息服务，使得微调领域模型能够返回实时信息，提高了信息获取的实时性。

本申请提供的基于生成式预训练模型的实时信息响应系统的具体实施例与基于生成式预训练模型的实时信息响应方法各实施例基本相同，在此不作赘述。

图4示例了一种电子设备的实体结构图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communication Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序，以执行基于生成式预训练模型的实时信息响应方法的步骤，例如包括：

加载具备通用知识生成能力的生成式预训练模型；

在所述微调领域模型中开启领域模型服务和实时信息服务；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的基于生成式预训练模型的实时信息响应方法的步骤，例如包括：

加载具备通用知识生成能力的生成式预训练模型；

在所述微调领域模型中开启领域模型服务和实时信息服务；

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于生成式预训练模型的实时信息响应方法，其特征在于，包括：

加载具备通用知识生成能力的生成式预训练模型；

在所述微调领域模型中开启领域模型服务和实时信息服务；

2.根据权利要求1所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述上下文是基于大语言模型的自身能力构建和判断；所述上下文为大语言模型中的context，以提供至生成式预训练模型建立对话历史和生成回应的上下文信息。

4.根据权利要求2所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述上下文由一系列消息对象组成，每个消息对象具有两个属性：角色属性和内容属性。

5.根据权利要求4所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述角色属性表征消息在对话中的角色或身份，以使得生成式预训练模型确定出发送信息方和接收消息方。

6.根据权利要求4所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述内容属性表征消息的实际文本，所述实际文本包括用户的输入文本或生成式预训练模型的前面回应文本。

7.根据权利要求1至6任一项所述的基于生成式预训练模型的实时信息响应方法，其特征在于，所述实时信息服务为通用爬虫服务。

8.一种基于生成式预训练模型的实时信息响应系统，其特征在于，包括：

9.一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于生成式预训练模型的实时信息响应方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于生成式预训练模型的实时信息响应方法。