CN116955578B

CN116955578B - 一种预训练语言模型的信息处理方法、装置、设备及介质

Info

Publication number: CN116955578B
Application number: CN202311221189.2A
Authority: CN
Inventors: 范宝余; 郭振华; 王立; 王棣; 张润泽
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-19
Anticipated expiration: 2043-09-21
Also published as: CN116955578A

Abstract

本发明公开了一种预训练语言模型的信息处理方法、装置、设备及介质，应用于人工智能技术领域，为解决现有的预训练语言模型不能更好地满足用户需求的问题，提出通过本地预训练语言模型在循环生成待回复文本的下一个词时，生成当前词典概率表；根据当前词典概率表中的各词判断是否存在最优词；若是，则将最优词作为下一个词进行生成；若否，则基于当前已生成文本生成对应的自然语言问题及问题类型；基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复；从各个答复中选择出最优答复，并将最优答复作为下一个词进行生成；从而可以使基于本地预训练语言模型智能体能更好满足用户需求，提高用户使用体验。

Description

一种预训练语言模型的信息处理方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能技术领域，特别是涉及一种预训练语言模型的信息处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科技的发展，以ChatGPT(Chat Generative Pre-trained Transformer，聊天机器人程序)为代表的大规模语言模型的突破成为了人工智能方向最引人瞩目的进展，在自然语言处理（NLP，natural language processing）领域的重要任务如问答、对话系统、文本总结、文本生成等上展现出了大一统的SOTA（State of the arts，最先进的技术）能力。然而，现有的预训练大语言模型由于训练方式的限制，其知识库仅局限于预训练数据所包含的内容，在结束中心式训练后，大规模语言模型便固定、无法更新。这使得当前预训练大规模语言模型面临训练后即过时的问题，以ChatGPT为例，当用户询问22年或更新的内容时，其会回答：“很抱歉，作为ChatGPT模型，我的知识截至于2021年9月，无法提供2021年9月或以后的实时数据。”这使得当前的大规模语言模型无法处理任何其训练时间点之后发生的相关内容，不能够很好地满足用户需求，影响用户使用体验。

鉴于此，如何提供一种能够更好满足用户需求的预训练语言模型的信息处理方法、装置、电子设备及计算机课程存储介质成为本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种预训练语言模型的信息处理方法、装置、电子设备及计算机课程存储介质，在使用过程中使基于该本地预训练语言模型的智能体能够为用户提供更高质量的答复。

为解决上述技术问题，本发明实施例提供了一种预训练语言模型的信息处理方法，应用于本地预训练语言模型，包括：

在循环生成待回复文本的下一个词时，生成当前词典概率表；

根据所述当前词典概率表中的各词判断是否存在最优词；若是，则将所述最优词作为所述下一个词进行生成；若否，则基于当前已生成文本生成对应的自然语言问题及问题类型；

基于所述问题类型将所述自然语言问题发送至其他相应的预训练语言模型，并接收各个所述预训练语言模型返回的答复；

从各个所述答复中选择出最优答复，并将所述最优答复作为所述下一个词进行生成。

在一种实施例中，所述根据所述当前词典概率表中的各词判断是否存在最优词，包括：

从所述当前词典概率表中选择概率最大的词；

判断所述概率最大的词是否为停止词；若是，则将所述概率最大的词作为最优词；若否，获取所述当前词典概率表中概率最高的前预设数量的备选词；

针对每个所述备选词，分别与所述当前已生成文本组成对应的短句；

采用预先建立的合理性判断网络对每个所述短句进行合理性分析，得到与每个所述短句各自对应的合理性指标；

针对每个所述备选词，根据所述备选词的概率及对应句子的合理性指标，得到与所述备选词对应的可信度值；

根据每个所述备选词的可信度值，判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求，若是，则确定所述概率最高的备选词为最优词，若否，则确定不存在最优词。

在一种实施例中，所述第一计算关系式为，其中，d表示差异值，/>表示概率最高的备选词的可信度值，/>表示第i个备选词的可信度值，/>和均表示可调节的参数，n表示备选词的总数量。

在一种实施例中，所述基于所述问题类型将所述自然语言问题发送至其他相应的预训练语言模型，并接收各个所述预训练语言模型返回的答复，包括：

基于所述问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型；

将所述自然语言问题发送至每个所述目标可信预训练语言模型，以便所述目标可信预训练语言模型对所述自然语言问题进行处理并作出答复；

接收每个所述目标可信预训练语言模型各自返回的答复；

将所述自然语言问题和所述问题类型发送至预训练语言模型交互平台，以便所述预训练语言模型交互平台中与所述问题类型对应的预训练语言模型对所述自然语言问题进行处理并作出答复；

接收所述预训练语言模型交互平台返回的各个答复；

相应的，所述从各个所述答复中选择出最优答复，包括：

基于各个所述目标可信预训练语言模型返回的答复及所述预训练语言模型交互平台返回的各个答复，选择出最优答复。

在一种实施例中，所述基于所述问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型，包括：

根据所述问题类型确定出目标领域；

根据所述目标领域从预先建立的可信预训练语言模型词典中匹配出擅长领域为所述目标领域的各个目标可信预训练语言模型。

在一种实施例中，所述基于各个所述目标可信预训练语言模型返回的答复及所述预训练语言模型交互平台返回的各个答复，选择出最优答复，包括：

根据每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复，对每种答复进行评分；

将评分最高的答复作为最优答复。

在一种实施例中，所述根据每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复，对每种答复进行评分，包括：

将每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复中相同的答复分为一组，得到多组答复；

针对每组答复，确定出组内的每个所述答复分别对应的新增评分；

将所述组内的各个所述答复的新增评分进行求和，得到对应的答复最终的评分。

在一种实施例中，所述确定出组内的每个所述答复分别对应的新增评分，包括：

针对组内的每个所述答复，根据所述答复的出处确定所述答复的新增评分。

在一种实施例中，所述根据所述答复的出处确定所述答复的新增评分，包括：

在所述答复的出处为所述预训练语言模型交互平台的情况下，所述答复的新增评分为A；其中，A不小于1；

在所述答复的出处为所述目标可信预训练语言模型的情况下，所述答复的新增评分为A+，其中，/>表示所述目标可信预训练语言模型在所述目标领域的可信值。

在一种实施例中，该方法还包括：

在所述目标可信预训练语言模型的答复为最优答复的情况下，对所述目标可信预训练语言模型在所述目标领域的可信值进行加1更新；

在所述目标可信预训练语言模型的答复不是最优答复的情况下，对所述目标可信预训练语言模型在所述目标领域的可信值进行减1更新。

在一种实施例中，该方法还包括：

针对所述可信预训练语言模型词典中的每个可信预训练语言模型，在所述可信预训练语言模型的各擅长领域中存在可信值为0的擅长领域时，将所述可信值为0的擅长领域从所述可信预训练语言模型的擅长领域中删除。

在一种实施例中，该方法还包括：

针对所述预训练语言模型交互平台中对所述自然语言问题进行处理并作出答复的各个预训练语言模型，在所述预训练语言模型给出的答复为最优答复时，将所述预训练语言模型作为备选预训练语言模型加入至备选预训练语言模型库内与所述自然语言问题对应的领域中。

在一种实施例中，该方法还包括：

针对所述备选预训练语言模型库中的各个备选预训练语言模型，在所述备选预训练语言模型在同一个领域连续预设次数给出答复均为最优答复时，将所述备选预训练语言模型添加至可信预训练语言模型字典，并标记所述备选预训练语言模型的擅长领域。

在一种实施例中，该方法还包括：

在所述备选预训练语言模型库中的备选预训练语言模型给出的答复不是最优答复时，将所述备选预训练语言模型从所述备选预训练语言模型库中对应的领域中删除。

在一种实施例中，该方法还包括：

基于所述自然语言问题及所述最优答复，对所述本地预训练语言模型进行参数优化；

将参数优化后的模型作为新的本地预训练语言模型。

在一种实施例中，所述基于所述自然语言问题及所述最优答复，对所述本地预训练语言模型进行参数优化，包括：

采用预先训练的模型参数选择网络对所述自然语言问题及对应的目标领域进行处理，确定出待更新的模型参数；

通过所述本地预训练语言模型对所述自然语言问题进行处理，生成回复；

基于生成的所述回复及所述最优答复进行损失计算，得到损失值；

采用所述损失值对所述待更新的模型参数进行更新。

在一种实施例中，该方法还包括：

将所述自然语言问题及所述最优答复加入至记忆数据库。

在一种实施例中，该方法还包括：

每间隔预设时间，采用所述记忆数据库中当前存储的所有自然语言问题及对应的最优答复对所述本地预训练语言模型进行训练；

将训练后的模型作为新的本地预训练语言模型。

本发明实施例还提供了一种预训练语言模型的信息处理装置，应用于本地预训练语言模型，包括：

第一生成模块，用于在循环生成待回复文本的下一个词时，生成当前词典概率表；

第一判断模块，用于根据所述当前词典概率表中的各词判断是否存在最优词；若是，则触发输出模块；若否，则触发第二生成模块；

所述输出模块，用于将所述最优词作为所述下一个词进行生成；

所述第二生成模块，用于基于当前已生成文本生成对应的自然语言问题及问题类型；

交互模块，用于基于所述问题类型将所述自然语言问题发送至其他相应的预训练语言模型，并接收各个所述预训练语言模型返回的答复；

选择模块，用于从各个所述答复中选择出最优答复，并将所述最优答复作为所述下一个词进行生成。

在一种实施例中，所述第一判断模块，包括：

第一选择单元，用于从所述当前词典概率表中选择概率最大的词；

第一判断单元，用于判断所述概率最大的词是否为停止词；若是，则触发第一确定单元；若否，触发第一获取单元；

所述第一确定单元，用于将所述概率最大的词作为最优词；

所述第一获取单元，用于获取所述当前词典概率表中概率最高的前预设数量的备选词；

第一生成单元，用于针对每个所述备选词，分别与所述当前已生成文本组成对应的短句；

第一分析单元，用于采用预先建立的合理性判断网络对每个所述短句进行合理性分析，得到与每个所述短句各自对应的合理性指标；

第一计算单元，用于针对每个所述备选词，根据所述备选词的概率及对应句子的合理性指标，得到与所述备选词对应的可信度值；

第二判断单元，用于根据每个所述备选词的可信度值，判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求，若是，则触发第二确定单元；若否，则触发第三确定单元；

所述第二确定单元，用于确定所述概率最高的备选词为最优词；

所述第三确定单元，用于确定不存在最优词。

在一种实施例中，所述第二判断单元，包括：

第一计算子单元，用于根据概率最高的备选词的可信度值与其他备选词的可信度值，结合第一计算关系式计算出差异值；

第一判断子单元，用于判断所述差异值是否大于等于0，若是，则触发第一确定子单元；若否，则触发第二确定子单元；

所述第一确定子单元，用于确定满足预设要求，确定所述概率最高的备选词为最优词；

所述第二确定子单元，用于确定不满足预设要求，确定不存在最优词。

在一种实施例中，所述交互模块，包括：

第二选择单元，用于基于所述问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型；

第一发送单元，用于将所述自然语言问题发送至每个所述目标可信预训练语言模型，以便所述目标可信预训练语言模型对所述自然语言问题进行处理并作出答复；

第一接收单元，用于接收每个所述目标可信预训练语言模型各自返回的答复；

第二发送单元，用于将所述自然语言问题和所述问题类型发送至预训练语言模型交互平台，以便所述预训练语言模型交互平台中与所述问题类型对应的预训练语言模型对所述自然语言问题进行处理并作出答复；

第二接收单元，用于接收所述预训练语言模型交互平台返回的各个答复；

相应的，所述选择模块，用于：

在一种实施例中，所述第二选择单元，包括：

第三确定子单元，用于根据所述问题类型确定出目标领域；

第一匹配子单元，用于根据所述目标领域从预先建立的可信预训练语言模型词典中匹配出擅长领域为所述目标领域的各个目标可信预训练语言模型。

在一种实施例中，所述选择模块，包括：

评分单元，用于根据每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复，对每种答复进行评分；

第二选择单元，用于将评分最高的答复作为最优答复。

在一种实施例中，所述评分单元，包括：

分组子单元，用于将每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复中相同的答复分为一组，得到多组答复；

第一评分子单元，用于针对每组答复，确定出组内的每个所述答复分别对应的新增评分；

求和子单元，用于将所述组内的各个所述答复的新增评分进行求和，得到对应的答复最终的评分。

在一种实施例中，所述第一评分子单元，用于：

在一种实施例中，所述第一评分子单元，包括：

第二评分子单元，用于在所述答复的出处为所述预训练语言模型交互平台的情况下，所述答复的新增评分为A；其中，A不小于1；

第三评分子单元，用于在所述答复的出处为所述目标可信预训练语言模型的情况下，所述答复的新增评分为A+τ，其中，τ表示所述目标可信预训练语言模型在所述目标领域的可信值。

在一种实施例中，该装置还包括：

第一更新模块，用于在所述目标可信预训练语言模型的答复为最优答复的情况下，对所述目标可信预训练语言模型在所述目标领域的可信值进行加1更新；

第二更新模块，用于在所述目标可信预训练语言模型的答复不是最优答复的情况下，对所述目标可信预训练语言模型在所述目标领域的可信值进行减1更新。

在一种实施例中，该装置还包括：

第一删除模块，用于针对所述可信预训练语言模型词典中的每个可信预训练语言模型，在所述可信预训练语言模型的各擅长领域中存在可信值为0的擅长领域时，将所述可信值为0的擅长领域从所述可信预训练语言模型的擅长领域中删除。

在一种实施例中，该装置还包括：

第一添加模块，用于针对所述预训练语言模型交互平台中对所述自然语言问题进行处理并作出答复的各个预训练语言模型，在所述预训练语言模型给出的答复为最优答复时，将所述预训练语言模型作为备选预训练语言模型加入至备选预训练语言模型库内与所述自然语言问题对应的领域中。

在一种实施例中，该装置还包括：

第二添加模块，用于针对所述备选预训练语言模型库中的各个备选预训练语言模型，在所述备选预训练语言模型在同一个领域连续预设次数给出答复均为最优答复时，将所述备选预训练语言模型添加至可信预训练语言模型字典，并标记所述备选预训练语言模型的擅长领域。

在一种实施例中，该装置还包括：

第二删除模块，用于在所述备选预训练语言模型库中的备选预训练语言模型给出的答复不是最优答复时，将所述备选预训练语言模型从所述备选预训练语言模型库中对应的领域中删除。

在一种实施例中，该装置还包括：

优化模块，用于基于所述自然语言问题及所述最优答复，对所述本地预训练语言模型进行参数优化；

第一确定模块，用于将参数优化后的模型作为新的本地预训练语言模型。

在一种实施例中，所述优化模块，包括：

第一处理单元，用于采用预先训练的模型参数选择网络对所述自然语言问题及对应的目标领域进行处理，确定出待更新的模型参数；

第二处理单元，用于通过所述本地预训练语言模型对所述自然语言问题进行处理，生成回复；

第二计算单元，用于基于生成的所述回复及所述最优答复进行损失计算，得到损失值；

更新单元，用于采用所述损失值对所述待更新的模型参数进行更新。

在一种实施例中，该装置还包括：

第三添加模块，用于将所述自然语言问题及所述最优答复加入至记忆数据库。

在一种实施例中，该装置还包括：

训练模块，用于每间隔预设时间，采用所述记忆数据库中当前存储的所有自然语言问题及对应的最优答复对所述本地预训练语言模型进行训练；

第二确定模块，用于将训练后的模型作为新的本地预训练语言模型。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述预训练语言模型的信息处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述预训练语言模型的信息处理方法的步骤。

本发明实施例中提供了一种预训练语言模型的信息处理方法、装置、电子设备及计算机可读存储介质，应用于本地预训练语言模型，该方法包括：在循环生成待回复文本的下一个词时，生成当前词典概率表；根据当前词典概率表中的各词判断是否存在最优词；若是，则将最优词作为下一个词进行生成；若否，则基于当前已生成文本生成对应的自然语言问题及问题类型；基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复；从各个答复中选择出最优答复，并将最优答复作为下一个词进行生成。

可见，本发明中在本地预训练语言模型进行信息处理过程中，在循环生成待回复文本的下一个词时生成当前词典概率表，然后根据该当前词典概率表中的各个词确定最优词，在确定出最优词后将该最优词作为待回复文本的下一个词进行生成，在没有确定出最优词的情况下，根据当前已生成文本生成自然语言问题及对应的问题类型，然后通过其他与该问题类型对应的大预言模型对该自然语言问题进行处理，并接收其他对应的大预言模型返回的答复，然后从这些答复中选择出最优答复作为待回复文本的下一个词进行生成，从而可以使基于该本地预训练语言模型的智能体能够为用户提供更高质量的答复，以更好满足用户需求，提高用户使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种预训练语言模型的信息处理方法的流程示意图；

图2为本发明实施例提供的另一种预训练语言模型的信息处理方法的流程示意图；

图3为本发明实施例提供的一种合理性分析过程示意图；

图4为本发明实施例提供的一种预训练语言模型的信息处理架构示意图；

图5为本发明实施例提供的一种预训练语言模型的信息处理装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图；

图7为本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

本发明实施例提供了一种预训练语言模型的信息处理方法、装置、电子设备及计算机课程存储介质，在使用过程中使基于该本地预训练语言模型的智能体能够为用户提供更高质量的答复，以更好满足用户需求，提高用户使用体验。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种预训练语言模型的信息处理方法的流程示意图。该方法应用于本地预训练语言模型，包括：

S110：在循环生成待回复文本的下一个词时，生成当前词典概率表；

需要说明的是，针对本地预训练语言模型在基于用户的提示词生成回复文本的过程中，会逐个生成待回复文本的各个词，具体的，在本地预训练语音模型针对用户的提示词循环生成待回复文本的下一个词时，会生成对应的字典概率表，本发明中将生成待回复文本的下一个词时所生成的字典概率表称之为当前词典概率表。

其中，预训练语言模型指的是机器在预训练中根据大型语料库进行了大量的单词接龙或者单词完形填空，捕捉到由单词组成句子的各种模式，由句子组成文章，并在模型中表达和记忆了这些模型。

S120：根据当前词典概率表中的各词判断是否存在最优词；若是，则进入S130；若否，则进入S140；

需要说明的是，当前词典概率表中的每个词对应一个概率，通过当前词典概率表中的各个词及对应的概率，进一步判断当前词典概率表中的各个词中是否存在最优词。

S130：将最优词作为下一个词进行生成；

具体的，在当前词典概率表中存在最优词的情况下，则将该最优词作为下一个词进行生成，也即直接生成该最优词，并且在生成最优后该最优词可与先前已生成文本构成新的已生成文本。

S140：基于当前已生成文本生成对应的自然语言问题及问题类型；

具体的，在当前词典概率表中不存在最优词的情况下，说明本地预训练语言模型不能够给出可靠答复词，此时可以向其他的预训练语言模型进行求助，具体的可以将当前已生成文本作为提示词再次输入至本地预训练语言模型中，本地预训练语言模型根据该当前已生成文本生成对应的自然语言问题及与该自然语言问题对应的问题类型。

S150：基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复；

可以理解的是，不同的预训练语言模型所处理的问题类型可能不同，因此本发明实施例中在确定出问题类型后，可以根据该问题类型其他的预训练语言模型中确定出与该问题类型对应的预训练语言模型，然后将该自然语言问题发送至这些预训练语言模型，这些预训练语言模型分别对该自然语言问题进行处理并给出答复，本地预训练语言模型接收其他各个预训练语言模型返回的答复。

S160：从各个答复中选择出最优答复，并将最优答复作为下一个词进行生成。

具体的，在接收到其他各个预训练语言模型返回的答复，从各个答复中选择出最优答复，然后将该最优答复作为下一个词进行生成，从而可以在本地预训练语言模型无法给出可靠答复的情况下，可以与外界其他相应的预训练语言模型进行交互，由其他预训练语言模型对自然语言问题进行处理并给出答复，然后从这些答复中选择出最优答复以便生成待回复文本的下一个词，提高生成回复文本的准确可靠性。

需要说明的是，本地预训练语言模型可以应用于智能体，其中，智能体是独立的能够思考并可以同环境交互的实体，在智能体与用户进行交互时，就可以基于用户的提示词给出更准确的答复。

可见，本发明中在本地预训练语言模型进行信息处理过程中，在循环生成待回复文本的下一个词时生成当前词典概率表，然后根据该当前词典概率表中的各个词确定最优词，在确定出最优词后将该最优词作为待回复文本的下一个词进行生成，在没有确定出最优词的情况下，根据当前已生成文本生成自然语言问题及对应的问题类型，然后通过其他与该问题类型对应的预训练语言模型对该自然语言问题进行处理，并接收其他对应的预训练语言模型返回的答复，然后从这些答复中选择出最优答复作为待回复文本的下一个词进行生成，从而可以使基于该本地预训练语言模型的智能体能够为用户提供更高质量的答复，以更好满足用户需求，提高用户使用体验。

在上述实施例的基础上，下面对本技术方案进行详细的说明，具体的请参照图2至图4：

S201：在循环生成待回复文本的下一个词时，生成当前词典概率表；

S202：从当前词典概率表中选择概率最大的词；

具体的，当前词典概率表中展示了各个词及每个词的概率，因此可以从当前词典概率表中选择出概率最大的词，如图3所示，本地预训练语言模型生成的当前词典概率表中“阿根廷”一词的概率最大。

S203：判断概率最大的词是否为停止词；若是，则进入S204；若否，则进入S205；

具体的，为了避免无意义的检测，提高检测效率，本发明中在确定出概率最大的词后，可以进一步判断该概率最大的词是否为停止词，具体的可以将该概率最大的词与预先建立的停止词库（如图3所示的S_停止词）中的各个停止词进行匹配，在停止词库中存在该词的情况下，说明该概率最大的词为停止词，在停止词库中不存在该概率最大的词的情况下，说明该概率最大的词不是停止词。其中，停止词为没有实际意义的词，例如“是”、“了”、“的”等词为停止词。

S204：将概率最大的词作为最优词，并进入S212；

具体的，在确定出该概率最大的词为停止词的情况下，则直接将该概率最大的词作为最优词，然后可以进入S212将该概率最大的词直接作为下一个词进行生成。

S205：获取当前词典概率表中概率最高的前预设数量的备选词；

具体的，在该概率最大的词不是停止词的情况下，则从该当前词典概率表中获取概率最高的前预设数量的备选词，例如可以获取概率最高的前5个词作为备选词。具体的，如图4所示，在实际与应用中可以设置检测器，并且将该检测器集成在本地预测语言模型（也即，图4中的LLM）中，在确定出概率最大的词不是停止词的情况下，则可以启动检测器，通过检测器获取当前词典概率表中概率最高的前预设数量的备选词。

S206：针对每个备选词，分别与当前已生成文本组成对应的短句；

具体的，在获取到当前词典概率表中概率最高的前预设数量的备选词后，使每个备选词分别与当前已生成文本进行组合，形成各个短句，具体的为了节约计算资源，可以选择概率最高的前5个备选词，具体如图3所示，概率最高的前5个备选词分别为“阿根廷”、“法国”、“德国”、“巴西”、“荷兰”，当前已生成文本为“2022年世界杯的冠军是”，则各个备选词与该当前已生成文本分别组成的短句分别为：“2022年世界杯的冠军是阿根廷”、“2022年世界杯的冠军是法国”、“2022年世界杯的冠军是德国”、“2022年世界杯的冠军是巴西”、“2022年世界杯的冠军是荷兰”。在实际应用中，该过程也可以由检测器执行。

S207：采用预先建立的合理性判断网络对每个短句进行合理性分析，得到与每个短句各自对应的合理性指标；

需要说明的是，在得到与每个备选词各自对应的短句后，可以采用预先建立的合理性分析判断网络对每个短句进行合理性分析，得到与每个短句各自对应的合理性指标，也即每个备选词对应一个合理性指标，其中，合理性指标可以代表了短句是否合理。

具体的，本发明实施例中的合理性判断网络为是一个前馈神经网络，输入短句先由自然语言处理大模型(SentenceBert)转换为512维的向量形式，然后输入进入一个双层前馈神经网络，第一层输入为512维，输出为1000维；第二层输入为1000维，输出为1维标量。每层间的激活函数可以采用Relu，最终模型输出为一个非负标量（也即合理性指标），也即模型对输入句子的合理性判断。其中，合理性判断网络在训练时，是基于开源的wiki数据集进行训练的，数据集中的原句作为正样本，通过对原句随机进行词移距离为一的变化得到的句子作为负样本，然后再基于各个正样本和各个负样本训练得到合理性判断网络。

S208：针对每个备选词，根据备选词的概率及对应句子的合理性指标，得到与备选词对应的可信度值；

具体的，由于备选词与句子对应，因此备选词也与合理性指标对应，也即，每个备选词对应一个概率和一个合理性指标，因此可以根据每个备选词的概率及对应的合理性指标得到备选词的可信度值。

备选词的可信度值可以由概率与合理性指标的乘积得到，例如，在当前词典概率表中概率最高的前五的备选词分别对应的句子的合理性指标为r₁-r₅（按照概率从大至小排序），各个备选词的概率分别为p₁-p₅，则，针对每个备选词将其对应的合理性指标与对应的概率相乘，即可得到各个备选词的可信度值至/>，也即，，其中，p₁为概率最高的备选词的概率，p₂-p₅当前词典概率表中概率第二至第五大的各备选词的概率，其中，p₁越大则代表本地预训练语言模型对该备选词的信心越大，相应的p₂-p₅越小则代表本地预训练语言模型对相应的备选词的信心越小，因此，概率和合理性指标的乘积表示对应的备选词的可信程度（也即可信度值）。

S209：根据每个备选词的可信度值，判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求，若是，则进入S210；若否，则进入S211；

可以理解的是，当概率最高的备选词的可信度值显著大于其他概率次之的备选词的可信度值时，说明本地预训练语言模型当前选择的输出的可信程度明显优于次优的其他备选词，此时可以至接将该概率最高的备选词作为最优词，也即此时无需与外界其他的预训练语言模型进行交互。反之，则需要与外界其他的预训练语言模型进行交互。

进一步的，S209中判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求的过程，具体可以包括：

根据概率最高的备选词的可信度值与其他备选词的可信度值，结合第一计算关系式计算出差异值；

判断差异值是否大于等于0，若是，则满足预设要求，确定概率最高的备选词为最优词，若否，则不满足预设要求，确定不存在最优词。

其中，第一计算关系式为，其中，d表示差异值，/>表示概率最高的备选词的可信度值，/>表示第i个备选词的可信度值，/>和/>均表示可调节的参数，n表示备选词的总数量。

也即，在实际应用中可以根据上述第一计算关系式计算出差异值d，当d＜0时，则确定不存在最优词，此时需要与外界其他的预训练语言模型进行交互；当d≥0使，则说明存在最优词，也即概率最高的备选词为最优词，此时无需与外界其他的预训练语言模型进行交互。

在实际应用中，上述S208至S209的过程均可由检测器执行，具体的本发明实施例不做特殊限定。

还需要说明的是，本发明实施例中的的值可以为5，其作用是对概率进行调节从而放大当概率接近0时的大小区别，缩小当概率接近1时的大小区别。主要是由于词典概率表很大，单个单词的概率普遍较小，因此需要放大以增大区别的显著程度，而当最优词的概率接近1时，其他词概率会接近0，因此需要减小最优单词的显著程度。另外，/>是一个非负数，作用是调整检测器敏感度，以1为界调节越大则检测器越敏感，越小则越不敏感。

S210：确定概率最高的备选词为最优词，并进入S212；

具体的，在确定出最优词后，将该最优词作为下一个词进行生成。

S211：确定不存在最优词，并进入S213；

S212：将最优词作为下一个词进行生成；

具体的，在当前词典概率表中存在最优词的情况下，则将该最优词作为下一个词进行生成，也即直接生成该最优词，并且在生成最优后该最优词可先前已生成文本构成新的已生成文本，并基于该新的已生成文本进行后续的循环生成待回复文本的下一个词的过程。当然，在生成下一个词后，还可以根据所生成的下一个词进一步判断该下一个词是否为终止词，若是终止词，则停止循环生成，并得到已生成的回复文本。

S213：基于当前已生成文本生成对应的自然语言问题及问题类型；

需要说明的是在，确定出不存在最优词的情况下，则可以将当前已生成文本（如图4所示的“2022年世界杯的冠军是__”）作为提示词再次输入至本地预训练语言模型中，本地预训练语言模型根据该当前已生成文本生成对应的自然语言问题（如图4中的2022年世界杯的冠军是哪支球队？）及与该自然语言问题对应的问题类型。其中，问题类型包括多种类型，例如医学、新闻、代码、通用等，具体可以根据实际情况进行确定，本发明实施例对此不做特殊限定。

S214：基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复；

可以理解的是，本发明实施例中在确定出问题类型后，可以根据该问题类型其他的预训练语言模型中确定出与该问题类型对应的预训练语言模型，然后将该自然语言问题发送至这些预训练语言模型，这些预训练语言模型分别对该自然语言问题进行处理并给出答复，本地预训练语言模型接收其他各个预训练语言模型返回的答复。具体的，在实际应用中可以通过检测器将自然语言问题及问题类型发送至传播器，以便传播器根据问题类型确定出其他相应的预训练语言模型，然后将自然语言问题发送至其他相应的预训练语言模型。

S215：从各个答复中选择出最优答复，并将最优答复作为下一个词进行生成。

具体的，在实际应用中可以由筛选器接收各个预训练语言模型返回的各个答复，并从各个答复中选择出最优答复，以便本地预训练语言模型将该最优答复作为下一个词进行生成。需要说明的是，在实际应用中如图4所示的检测器、传播器和筛选器均可以集成在本地预训练语言模型内部，当然，也可以在本地预训练语言模型外部独立设置，具体实现方式本发明实施例不做特殊限定。

在一种实施例中，上述S214中基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复的过程，具体可以包括：

基于问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型；

将自然语言问题发送至每个目标可信预训练语言模型，以便目标可信预训练语言模型对自然语言问题进行处理并作出答复；

接收每个目标可信预训练语言模型各自返回的答复；

将自然语言问题和问题类型发送至预训练语言模型交互平台，以便预训练语言模型交互平台中与问题类型对应的预训练语言模型对自然语言问题进行处理并作出答复；

接收预训练语言模型交互平台返回的各个答复；

需要说明的是，在实际应用中可以通过两种途径使与问题类型对应的其他预训练语言模型对自然语言问题进行处理，一种途径是通过预先建立的可信预训练语言模型词典。另一种途径是通过预训练语言模型交互平台。

具体的，在实际应用中可以预先设置可信预训练语言模型词典，该可信预训练语言模型词典中包括多个当前已知的可信预训练语言模型及其API（Application ProgramInterface，应用程序接口）连接的字典，并且每个可信预训练语言模型设置有擅长的领域，一个可信预训练语言模型的擅长领域可以为多个，具体可以预先根据实际情况进行设置，可以人工设置也可以自动进行设置，本发明实施例对此不做特殊限定。另外，每个可信预训练语言模型的每个领域分别对应一个可信值，用以衡量对每个可信预训练语言模型在该领域可信度的评价。

具体的，传播器可以根据接收到的问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型，具体可以先根据问题类型确定出目标领域，然后再根据该目标领域从可信预训练语言模型词典中匹配出擅长领域为该目标领域的各个目标可信预训练语言模型。在确定出各个目标可信预训练语言模型后，将该自然语言问题发送至每个目标可信预训练语言模型，目标可信预训练语言模型在接收到资源语言问题后，对该自然语言问题进行处理，并作出答复。如图4所示，具体可以通过筛选器接收每个目标可信预训练语言模型（LLM1至LLMn）各自返回的答复，其中，LLM1表示第一个目标可信预训练语言模型，LLMn表示第n个目标可信预训练语言模型。

还需要说明的是，预训练语言模型交互平台是一个对所有预训练语言模型开放链接的网络服务，每个预训练语言模型可以自行注册该预训练语言模型交互平台，注册时应声明自身的预训练语言模型擅长的领域，在该预训练语言模型交互平台上每个预训练语言模型能够进行问题提交和问题回答两项操作，提交的问题会由平台根据类别分发给各个在平台注册的预训练语言模型进行回答。

具体的，传播器再将自然语言问题发送至各个目标可信预训练语言模型的同时，还可以将自然语言问题及问题类型发送至预训练语言模型交互平台，由预训练语言模型交互平台根据该问题类型，将自然语言问题发送至相应的预训练语言模型对该自然语言问题进行答复，并且将给出的答复返回至预训练语言模型交互平台，以便预训练语言模型交互平台将答复返回至本地预训练语言模型，具体的，由筛选器接收接收预训练语言模型交互平台返回的各个答复。

相应的，上述从各个答复中选择出最优答复的过程，具体可以包括：

基于各个目标可信预训练语言模型返回的答复及预训练语言模型交互平台返回的各个答复，选择出最优答复。

可以理解的是，可以从各个目标可信预训练语言模型返回的答复及预训练语言模型交互平台返回的各个答复中筛选出最优答复。

在一种实施例中，上述基于各个目标可信预训练语言模型返回的答复及预训练语言模型交互平台返回的各个答复，选择出最优答复的过程，具体可以包括：

根据每个目标可信预训练语言模型的答复及预训练语言模型交互平台返回的各个答复，对每种答复进行评分；

将评分最高的答复作为最优答复。

需要说明的是，为了提高筛选准确性，可以根据给出答复的预训练语言模型的权重对答复进行评分，具体的，每个目标可信预训练语言模型的答复及预训练语言模型交互平台返回的各个答复中，可能存在相同的答复，也即，所有的答复可以分为多种答复，对每种答复分别进行评分，然后将评分最高的那种答复作为最优答复。

具体的，可以先将每个目标可信预训练语言模型的答复及预训练语言模型交互平台返回的各个答复中相同的答复分为一组，得到多组答复；例如，各个答复中有两个答复均为“阿根廷”，两个答复为“法国”，一个答复为“德国”，则将答复为“阿根廷”的所有答复分为第一组，答复为“法国”的所有答复分为第二组，答复为“德国”的答复分为第三组；然后，再针对每组答复，确定出组内的每个答复分别对应的新增评分；例如，第一组的各个答复中，分别确定出第一个“阿根廷”的新增评分及第二个“阿根廷”的新增评分等。然后再将将组内的各个答复的新增评分进行求和，得到对应的答复最终的评分，例如针对第一组，将第一个“阿根廷”的新增评分及第二个“阿根廷”的新增评分相加，即可得到答复为“阿根廷”的评分。

在一种实施例中，上述确定出组内的每个答复分别对应的新增评分的过程，可以包括：

针对组内的每个答复，根据答复的出处确定答复的新增评分。

需要说明的是，可以根据给出该答复的预训练语言模型对该答复进行新增评分的确定。具体的：

在答复的出处为预训练语言模型交互平台的情况下，答复的新增评分为A；其中，A不小于1；具体的，A可以为1，也即，该答复为预训练语言模型交互平台给出的，则该答复的新增评分为1。

在答复的出处为目标可信预训练语言模型的情况下，答复的新增评分为A+，其中，/>表示目标可信预训练语言模型在目标领域的可信值。也即，该答复为目标可信预训练语言模型给出的，则该答复的新增评分为A+/>，例如1+/>，从而确定出各个答复的新增评分，然后再将相同答复的新增评分相加即可得到该种答复的最终的评分。

例如，针对第一组，第一个“阿根廷”是由可信预训练语言模型给出的，并且该可信预训练语言模型的可信值例如，针对第一组，第一个“阿根廷”是由可信预训练语言模型给出的，并且该可信预训练语言模型的可信值例如，针对第一组，第一个“阿根廷”是由可信预训练语言模型给出的，并且该可信预训练语言模型的可信值

为50，则第一个“阿根廷”的新增评分为50+1=51；第二个“阿根廷”是由预训练语言模型交互平台给出的，则该第二个“阿根廷”的新增评分为1，两个相加即可得到答复为“阿根廷”的评分为52。为50，则第一个“阿根廷”的新增评分为50+1=51；第二个“阿根廷”是由预训练语言模型交互平台给出的，则该第二个“阿根廷”的新增评分为1，两个相加即可得到答复为“阿根廷”的评分为52。为50，则第一个“阿根廷”的新增评分为50+1=51；第二个“阿根廷”是由预训练语言模型交互平台给出的，则该第二个“阿根廷”的新增评分为1，两个相加即可得到答复为“阿根廷”的评分为52。

按照上述方法可以计算出每种答复的评分，然后再从各种答复中选择评分最高的答复作为最优答复。

在一种实施例中，该方法还可以根据目标可信预训练语言模型给出的答复对该目标可信预训练语言模型在每个领域的可信值进行更新，以使目标可信预训练语言模型的可信值更为准确。具体的，可以在目标可信预训练语言模型的答复为最优答复的情况下，对目标可信预训练语言模型在该目标领域的可信值进行加1更新；在目标可信预训练语言模型的答复不是最优答复的情况下，对目标可信预训练语言模型在目标领域的可信值进行减1更新。

在一种实施例中，该方法还包括：

针对可信预训练语言模型词典中的每个可信预训练语言模型，在可信预训练语言模型的各擅长领域中存在可信值为0的擅长领域时，将可信值为0的擅长领域从可信预训练语言模型的擅长领域中删除。

需要说明的是，在可信预训练语言模型词典中的某个可信预训练语言模型的各个擅长邻域中有某个或某几个擅长领域的可信值为0时，则说明该可信预训练语言模型在该领域已不再擅长，此时可以将可信值为0的擅长领域从该可信预训练语言模型的擅长领域中删除。另外，在该可信预训练语言模型的所有擅长领域均被删除后，则将该可信预训练语言模型从该可信预训练语言模型词典删除。

在一种实施例中，该方法还包括：

针对预训练语言模型交互平台中对自然语言问题进行处理并作出答复的各个预训练语言模型，在预训练语言模型给出的答复为最优答复时，将预训练语言模型作为备选预训练语言模型加入至备选预训练语言模型库内与自然语言问题对应的领域中。

需要说明的是，可以在预训练语言模型交互平台中给出最优答复的各个预训练语言模型添加至备选预训练语言模型库中，具体可以添加至与其给出最优答复的领域对应的领域中，从而可以更好地对预训练语言模型交互平台中较优的预训练语言模型进行管理。

在一种实施例中，该方法还包括：

针对备选预训练语言模型库中的各个备选预训练语言模型，在备选预训练语言模型在同一个领域连续预设次数给出答复均为最优答复时，将备选预训练语言模型添加至可信预训练语言模型字典，并标记备选预训练语言模型的擅长领域。

具体的，本发明实施例中为了进一步完善可信预训练语言模型词典，可以对备选预训练语言模型中的各个备选预训练语言模型在每次给出答复后，对其给出的答复进行记录，在某个备选预训练语言模型在某个领域连续预设次数（例如10次）给出的答复均为最优答复时，说明该备选预训练语言模型在该领域比较擅长，此时可以将该备选预训练语言模型添加至可信预训练语言模型字典，并标记备选预训练语言模型的擅长领域，同时还可以对该备选预训练语言模型在该领域进行可信值进行更新。

另外，在备选预训练语言模型库中的备选预训练语言模型给出的答复不是最优答复时，则说明该备选预训练语言模型在该领域不可信，则可以将备选预训练语言模型从备选预训练语言模型库中对应的领域中删除。

还需要说明的是，在实际应用中对可信预训练语言模型词典和备选预训练语言模型库的管理均可以又筛选器来实现，具体的本发明实施例中对此不做特性限定。

在一种实施例中，该方法还包括：

基于自然语言问题及最优答复，对本地预训练语言模型进行参数优化；

将参数优化后的模型作为新的本地预训练语言模型。

需要说明的是，本发明实施例中可以根据每次得到的自然语言问题及相应的最优答复对本地预训练语言模型的知识库进行持续更新，从而可以使本地预训练语言模型的知识库不断完善，并且避免了使用大量数据对本地预训练语言继模型进行更新导致的资源和成本的浪费。

具体的，本发明实施例中可以根据本轮得到的自然语言问题及最优答复，对本地预训练语言模型进行参数优化，然后将参数优化后的模型作为新的本地预训练语言模型。

在一种实施例中，上述基于自然语言问题及最优答复，对本地预训练语言模型进行参数优化的过程，具体可以包括：

采用预先训练的模型参数选择网络对自然语言问题及对应的目标领域进行处理，确定出待更新的模型参数；

通过本地预训练语言模型对自然语言问题进行处理，生成回复；

基于生成的回复及最优答复进行损失计算，得到损失值；

采用损失值对待更新的模型参数进行更新。

可以理解的是，由于预训练语言模型的参数量巨大，因此对预训练语言模型的所有参数进行更新会带来较高的在线学习成本。本发明实施例中为了降低在线学习成本，可以先确定出需要更新的模型参数，然后只需要对这些需要更新的模型参数进行更新即可，从而减少学习成本。

具体的，本发明实施例中可以先采用预先训练的模型参数选择网络对自然语言问题及对应的目标领域进行处理，从而确定出待更新的模型参数，然后再通过本地预训练语言模型对自然语言问题进行处理，生成回复，并根据生成的回复及最优答复进行损失计算，得到损失值，然后再采用损失值反向传播到待更新的模型参数在的模型层上对待更新的模型参数进行更新，从而可以得到更新后的本地预训练语言模型。也即，通过使用该模型参数选择网络进行参数的筛选，可以使得每次单步更新时仅需要更新大模型特定层的参数而不需要全局更新，从而减少成本。

需要说明的是，模型参数选择网络是一个双层前馈神经网络，第一层输入为512维，输出为1000维；第二层输入为1000维，输出为一个k维的向量，k是大模型参数分块数量，一般选择为10。模型参数选择网络的输入是上一步传输进来的自然语言问题以及目标领域，经过SentenceBert转换为一个512维的向量，输出的k维向量每一维度的值域为0或者1，分别代表该部分模型参数是否需要进行更新。其中，该模型参数选择网络在训练时，可以与大模型的预训练同时完成，也可以后期在一个小规模的数据集上进行训练，作为插件使用，具体以哪种方式进行训练和使用，本发明实施例中不做特殊限定。

在一种实施例中，该方法还包括：

将自然语言问题及最优答复加入至记忆数据库。

需要说明的是，本发明实施例中在每次得到自然语言问题和最优答复后，可以将该自然语言问题可最优答复添加至记忆数据库中，以便后续基于该记忆数据库中存储的数据信息对本地预训练语言模型进行训练更新。

具体的，可以每间隔预设时间，采用记忆数据库中当前存储的所有自然语言问题及对应的最优答复对本地预训练语言模型进行训练，然后将训练后的模型作为新的本地预训练语言模型。

可以理解的是，在实际应用中可以实时对本地预训练语言模型进行参数优化，也可以基于记忆回溯（Memory recap）的中心式训练对本地预训练语言模型进行训练优化，具体的，每次筛选器输出问题和回答二元组时将其放入记忆数据库中，并每隔一段时间进行集中的训练。这种架构避免了在线学习的范式会造成模型在运行时的时延增加，尤其在处理高并发请求时。最后，在完成单步训练或基于记忆回溯的集中训练后将线上运行模型更换为训练后的模型。

需要说明的是，在实际应用中上述对本地预训练语言模型参数的更新和优化，可以由图4中的学习器来执行。

在上述实施例的基础上，本发明实施例还提供了一种预训练语言模型的信息处理装置，应用于本地预训练语言模型，具体请参照图5。该装置包括：

第一生成模块11，用于在循环生成待回复文本的下一个词时，生成当前词典概率表；

第一判断模块12，用于根据当前词典概率表中的各词判断是否存在最优词；若是，则触发输出模块13；若否，则触发第二生成模块14；

输出模块13，用于将最优词作为下一个词进行生成；

第二生成模块14，用于基于当前已生成文本生成对应的自然语言问题及问题类型；

交互模块15，用于基于问题类型将自然语言问题发送至其他相应的预训练语言模型，并接收各个预训练语言模型返回的答复；

选择模块16，用于从各个答复中选择出最优答复，并将最优答复作为下一个词进行生成。

在一种实施例中，第一判断模块12，包括：

第一选择单元，用于从当前词典概率表中选择概率最大的词；

第一判断单元，用于判断概率最大的词是否为停止词；若是，则触发第一确定单元；若否，触发第一获取单元；

第一确定单元，用于将概率最大的词作为最优词；

第一获取单元，用于获取词典概率表中概率最高的前预设数量的备选词；

第一生成单元，用于针对每个备选词，分别与当前已生成文本组成对应的短句；

第一分析单元，用于采用预先建立的合理性判断网络对每个短句进行合理性分析，得到与每个短句各自对应的合理性指标；

第一计算单元，用于针对每个备选词，根据备选词的概率及对应句子的合理性指标，得到与备选词对应的可信度值；

第二判断单元，用于根据每个备选词的可信度值，判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求，若是，则触发第二确定单元；若否，则触发第三确定单元；

第二确定单元，用于确定概率最高的备选词为最优词；

第三确定单元，用于确定不存在最优词。

在一种实施例中，第二判断单元，包括：

第一判断子单元，用于判断差异值是否大于等于0，若是，则触发第一确定子单元；若否，则触发第二确定子单元；

第一确定子单元，用于确定满足预设要求，确定概率最高的备选词为最优词；

第二确定子单元，用于确定不满足预设要求，确定不存在最优词。

在一种实施例中，第一计算关系式为，其中，d表示差异值，/>表示概率最高的备选词的可信度值，/>表示第i个备选词的可信度值，/>和/>均表示可调节的参数，n表示备选词的总数量。

在一种实施例中，交互模块15，包括：

第二选择单元，用于基于问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型；

第一发送单元，用于将自然语言问题发送至每个目标可信预训练语言模型，以便目标可信预训练语言模型对自然语言问题进行处理并作出答复；

第一接收单元，用于接收每个目标可信预训练语言模型各自返回的答复；

第二发送单元，用于将自然语言问题和问题类型发送至预训练语言模型交互平台，以便预训练语言模型交互平台中与问题类型对应的预训练语言模型对自然语言问题进行处理并作出答复；

第二接收单元，用于接收预训练语言模型交互平台返回的各个答复；

相应的，选择模块16，用于：

在一种实施例中，第二选择单元，包括：

第三确定子单元，用于根据问题类型确定出目标领域；

第一匹配子单元，用于根据目标领域从预先建立的可信预训练语言模型词典中匹配出擅长领域为目标领域的各个目标可信预训练语言模型。

在一种实施例中，选择模块16，包括：

评分单元，用于根据每个目标可信预训练语言模型的答复及预训练语言模型交互平台返回的各个答复，对每种答复进行评分；

第二选择单元，用于将评分最高的答复作为最优答复。

在一种实施例中，评分单元，包括：

分组子单元，用于将每个目标可信预训练语言模型的答复及预训练语言模型交互平台返回的各个答复中相同的答复分为一组，得到多组答复；

第一评分子单元，用于针对每组答复，确定出组内的每个答复分别对应的新增评分；

求和子单元，用于将组内的各个答复的新增评分进行求和，得到对应的答复最终的评分。

在一种实施例中，第一评分子单元，用于：

在一种实施例中，第一评分子单元，包括：

第二评分子单元，用于在答复的出处为预训练语言模型交互平台的情况下，答复的新增评分为A；其中，A不小于1；

第三评分子单元，用于在答复的出处为目标可信预训练语言模型的情况下，答复的新增评分为A+，其中，/>表示目标可信预训练语言模型在目标领域的可信值。

在一种实施例中，该装置还包括：

第一更新模块，用于在目标可信预训练语言模型的答复为最优答复的情况下，对目标可信预训练语言模型在目标领域的可信值进行加1更新；

第二更新模块，用于在目标可信预训练语言模型的答复不是最优答复的情况下，对目标可信预训练语言模型在目标领域的可信值进行减1更新。

在一种实施例中，该装置还包括：

第一删除模块，用于针对可信预训练语言模型词典中的每个可信预训练语言模型，在可信预训练语言模型的各擅长领域中存在可信值为0的擅长领域时，将可信值为0的擅长领域从可信预训练语言模型的擅长领域中删除。

在一种实施例中，该装置还包括：

第一添加模块，用于针对预训练语言模型交互平台中对自然语言问题进行处理并作出答复的各个预训练语言模型，在预训练语言模型给出的答复为最优答复时，将预训练语言模型作为备选预训练语言模型加入至备选预训练语言模型库内与自然语言问题对应的领域中。

在一种实施例中，该装置还包括：

第二添加模块，用于针对备选预训练语言模型库中的各个备选预训练语言模型，在备选预训练语言模型在同一个领域连续预设次数给出答复均为最优答复时，将备选预训练语言模型添加至可信预训练语言模型字典，并标记备选预训练语言模型的擅长领域。

在一种实施例中，该装置还包括：

第二删除模块，用于在备选预训练语言模型库中的备选预训练语言模型给出的答复不是最优答复时，将备选预训练语言模型从备选预训练语言模型库中对应的领域中删除。

在一种实施例中，该装置还包括：

优化模块，用于基于自然语言问题及最优答复，对本地预训练语言模型进行参数优化；

在一种实施例中，优化模块，包括：

第一处理单元，用于采用预先训练的模型参数选择网络对自然语言问题及对应的目标领域进行处理，确定出待更新的模型参数；

第二处理单元，用于通过本地预训练语言模型对自然语言问题进行处理，生成回复；

第二计算单元，用于基于生成的回复及最优答复进行损失计算，得到损失值；

更新单元，用于采用损失值对待更新的模型参数进行更新。

在一种实施例中，该装置还包括：

第三添加模块，用于将自然语言问题及最优答复加入至记忆数据库。

在一种实施例中，该装置还包括：

训练模块，用于每间隔预设时间，采用记忆数据库中当前存储的所有自然语言问题及对应的最优答复对本地预训练语言模型进行训练；

需要说明的是，本发明实施例中提供的预训练语言模型的信息处理装置，具有与上述实施例中所提供的预训练语言模型的信息处理方法相同的有益效果，并且对于本发明实施例中所涉及到的预训练语言模型的信息处理方法的具体介绍请参照上述实施例，本发明在此不再赘述。

图6为本发明实施例提供的一种电子设备的结构图，如图6所示，电子设备包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例预训练语言模型的信息处理方法的步骤。

本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的预训练语言模型的信息处理方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于设定的偏移量等。

在一些实施例中，电子设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图6中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的组件。

可以理解的是，如果上述实施例中的预训练语言模型的信息处理方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，如图7所示，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质30上存储有计算机程序31，计算机程序31被处理器执行时实现如上述预训练语言模型的信息处理方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种预训练语言模型的信息处理方法，其特征在于，应用于本地预训练语言模型，包括：

2.根据权利要求1所述的预训练语言模型的信息处理方法，其特征在于，所述根据所述当前词典概率表中的各词判断是否存在最优词，包括：

从所述当前词典概率表中选择概率最大的词；

3.根据权利要求2所述的预训练语言模型的信息处理方法，其特征在于，所述判断概率最高的备选词的可信度值与其他备选词的可信度值是否满足预设要求，包括：

判断所述差异值是否大于等于0，若是，则满足预设要求，确定所述概率最高的备选词为最优词，若否，则不满足预设要求，确定不存在最优词。

4.根据权利要求3所述的预训练语言模型的信息处理方法，其特征在于，所述第一计算关系式为，其中，d表示差异值，/>表示概率最高的备选词的可信度值，/>表示第i个备选词的可信度值，/>和/>均表示可调节的参数，n表示备选词的总数量。

5.根据权利要求1所述的预训练语言模型的信息处理方法，其特征在于，所述基于所述问题类型将所述自然语言问题发送至其他相应的预训练语言模型，并接收各个所述预训练语言模型返回的答复，包括：

接收每个所述目标可信预训练语言模型各自返回的答复；

接收所述预训练语言模型交互平台返回的各个答复；

相应的，所述从各个所述答复中选择出最优答复，包括：

6.根据权利要求5所述的预训练语言模型的信息处理方法，其特征在于，所述基于所述问题类型从预先建立的可信预训练语言模型词典中选择出各个目标可信预训练语言模型，包括：

根据所述问题类型确定出目标领域；

7.根据权利要求6所述的预训练语言模型的信息处理方法，其特征在于，所述基于各个所述目标可信预训练语言模型返回的答复及所述预训练语言模型交互平台返回的各个答复，选择出最优答复，包括：

将评分最高的答复作为最优答复。

8.根据权利要求7所述的预训练语言模型的信息处理方法，其特征在于，所述根据每个所述目标可信预训练语言模型的答复及所述预训练语言模型交互平台返回的各个答复，对每种答复进行评分，包括：

9.根据权利要求8所述的预训练语言模型的信息处理方法，其特征在于，所述确定出组内的每个所述答复分别对应的新增评分，包括：

10.根据权利要求9所述的预训练语言模型的信息处理方法，其特征在于，所述根据所述答复的出处确定所述答复的新增评分，包括：

11.根据权利要求10所述的预训练语言模型的信息处理方法，其特征在于，还包括：

12.根据权利要求11所述的预训练语言模型的信息处理方法，其特征在于，还包括：

13.根据权利要求5所述的预训练语言模型的信息处理方法，其特征在于，还包括：

14.根据权利要求13所述的预训练语言模型的信息处理方法，其特征在于，还包括：

15.根据权利要求13所述的预训练语言模型的信息处理方法，其特征在于，还包括：

16.根据权利要求1至15任意一项所述的预训练语言模型的信息处理方法，其特征在于，还包括：

将参数优化后的模型作为新的本地预训练语言模型。

17.根据权利要求16所述的预训练语言模型的信息处理方法，其特征在于，所述基于所述自然语言问题及所述最优答复，对所述本地预训练语言模型进行参数优化，包括：

采用所述损失值对所述待更新的模型参数进行更新。

18.根据权利要求1至15任意一项所述的预训练语言模型的信息处理方法，其特征在于，还包括：

将所述自然语言问题及所述最优答复加入至记忆数据库。

19.根据权利要求18所述的预训练语言模型的信息处理方法，其特征在于，还包括：

将训练后的模型作为新的本地预训练语言模型。

20.一种预训练语言模型的信息处理装置，其特征在于，应用于本地预训练语言模型，包括：

发送模块，用于基于所述问题类型将所述自然语言问题发送至其他相应的预训练语言模型，并接收各个所述预训练语言模型返回的答复；

21.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至19任一项所述预训练语言模型的信息处理方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至19任一项所述预训练语言模型的信息处理方法的步骤。