CN117544508A

CN117544508A - 网络设备配置查询方法、装置、终端设备以及存储介质

Info

Publication number: CN117544508A
Application number: CN202311328253.7A
Authority: CN
Inventors: 王智民; 安韬; 王高杰; 田海波; 刘志刚; 武中力
Original assignee: Beijing 6Cloud Technology Co Ltd; Beijing 6Cloud Information Technology Co Ltd
Current assignee: Beijing 6Cloud Technology Co Ltd; Beijing 6Cloud Information Technology Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-09
Anticipated expiration: 2043-10-13
Also published as: CN117544508B

Abstract

本发明公开了一种网络设备配置查询方法、装置、终端设备以及存储介质，涉及语言模型构建训练技术领域，其方法包括：获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。本发明能够降低配置网络设备的学习成本。

Description

网络设备配置查询方法、装置、终端设备以及存储介质

技术领域

本发明涉及语言模型构建训练技术领域，尤其涉及一种网络设备配置查询方法、装置、终端设备以及存储介质。

背景技术

网络设备是指用于建立、管理和维护计算机网络的硬件设备，例如路由器、交换机、防火墙等等，这些网络设备根据具体需求来提供特定的网络动能，不同的网络设备共同构建了一个完整的网络基础设备，以满足企业或个人的通信或数据传输需求。在使用网络设备之前需要对网络设备进行配置。

当前对网络设备进行配置，主要通过相关技术人员学习各个厂商的网络设备配置手册、操作指南和相关文档，了解每个厂商设备的命令语言、配置选项和操作流程，再根据具体网络环境和需求，手动输入配置命令或者通过特定的界面进行配置操作。然而，不同厂商在界面形式、操作逻辑流程、配置格式等方面都存在较大的差异，即使同一厂商的不同型号的网络设备配置都可能存在差异，从而使得配置网络设备的学习成本很高。

发明内容

本发明的主要目的在于提供一种网络设备配置查询方法、装置、终端设备以及存储介质，旨在解决目前配置网络设备的学习成本很高的问题。

为实现上述目的，本发明提供一种网络设备配置查询方法，所述方法包括：

获取用户输入的第一网络设备配置问题；

将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。

可选地，所述获取用户输入的第一网络设备配置问题的步骤之前包括：

创建基于机器学习训练和微调优化的所述网络设备配置问答模型。

可选地，所述创建基于机器学习训练和微调优化的所述网络设备配置问答模型的步骤包括：

收集网络设备配置的相关数据；

基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；

收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；

基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；

对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

可选地，所述基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型的步骤包括：

基于所述网络设备配置的相关数据构建得到网络设备配置问答；

对所述网络设备配置问答进行序列到序列形式的数据整理，得到监督微调训练数据；

基于所述监督微调训练数据对所述预先获取的预训练模型进行语言模型监督微调训练，得到所述第一问答模型。

可选地，所述对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤包括：

收集第二网络设备配置问题；

针对所述第二网络设备配置问题，使用所述第二问答模型生成第二网络设备配置回答；

收集专家对所述第二网络设备配置回答的打分数据；

基于所述第二网络设备配置回答和所述打分数据训练奖励模型；

基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

可选地，所述强化学习算法包括近端策略优化算法，所述基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤包括：

通过所述近端策略优化算法确定所述第二问答模型的权重梯度；

基于所述权重梯度和所述奖励模型对所述第二问答模型进行多步优化，得到所述网络设备配置问答模型。

可选地，所述对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤之后包括：

基于推理性能优化方法对所述网络设备问答模型进行优化。

本发明实施例还提出一种网络设备配置查询装置，所述装置包括：

问题获取模块，获取用户输入的第一网络设备配置问题；

配置查询模块，将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。

本发明实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络设备配置查询程序，所述网络设备配置查询程序被所述处理器执行时实现如上所述的网络设备配置查询方法。

本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有网络设备配置查询程序，所述网络设备配置查询程序被处理器执行时实现如上所述的网络设备配置查询方法。

本发明实施例提出的网络设备配置查询方法、装置、终端设备以及存储介质，获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。

附图说明

图1为本发明网络设备配置查询装置所属终端设备的功能模块示意图；

图2为本发明网络设备配置查询方法一示例性实施例的流程示意图；

图3为本发明网络设备配置查询方法另一示例性实施例的流程示意图；

图4为本发明网络设备配置查询方法另一示例性实施例的流程示意图；

图5为本发明网络设备配置查询方法另一示例性实施例的流程示意图；

图6为本发明网络设备配置查询方法另一示例性实施例的流程示意图；

图7为本发明网络设备配置查询方法另一示例性实施例的流程示意图；

图8为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。

本发明实施例涉及的技术术语：

序列到序列：序列到序列是一种模型架构，用于将一个序列转换成另一个序列。它是一种深度学习模型，通常基于循环神经网络（RNN）或者变种（如长短期记忆网络LSTM）来实现，常用于机器翻译、对话生成、文本摘要等任务。

预训练模型：预训练模型是指在大规模无监督数据上进行预训练学习的模型。预训练模型通过从大量的未标记文本数据中学习语言模式和上下文信息，来捕捉自然语言的普遍规律。预训练模型通常使用大型神经网络，如Transformer模型，通过自动回归的方式进行训练。模型通过预测给定上下文中缺失或部分被掩盖的词语，来学习单词之间的关系和上下文的语义信息。这种方式使得预训练模型能够理解句子的结构、语法和语义，以及词语之间的关联。一旦预训练模型完成了在大规模数据上的预训练，它可以被用于多个下游自然语言处理任务。在这些任务中，预训练模型的参数可以进一步微调和优化，以适应特定的任务要求。微调阶段通常会使用有标注的任务特定数据集，例如问答、文本分类或机器翻译数据集，对模型进行针对性的训练调整。

监督学习：监督学习是一种机器学习方法，其中模型从带有标签（已知答案）的训练数据中学习建立输入和输出之间的映射关系。

微调：微调是一种迁移学习技术，通过在一个预训练模型的基础上进行额外的训练以适应特定任务或领域，从而提高模型性能。

基于人类反馈的强化学习：基于人类反馈的强化学习是一种结合人类专家知识和强化学习的方法来训练机器学习模型的算法。传统的强化学习方法通常通过与环境的交互进行自主学习，但在某些情况下，人类专家的经验和指导可以加速学习过程，减少不必要的试错。在基于人类反馈的强化学习中，机器学习模型通过与人类专家进行互动，接收来自专家的反馈和指导。这种反馈可以以多种形式呈现，例如人类专家提供的演示样本、对机器学习模型决策的评估或者直接的指令。机器学习模型将专家的反馈作为额外的学习信号，辅助其优化决策策略。

奖励模型：奖励模型是一种常见的强化学习方法，用于改进生成文本模型的质量和准确性。可以使用收集到的人类偏好得分数据，训练一个奖励模型。奖励模型的目标是根据输入的生成文本，预测出相应的偏好得分。常见的奖励模型可以使用深度学习模型，如神经网络、强化学习模型等，进行训练和优化。

近端策略优化算法：近端策略优化算法是一种用于强化学习的策略优化算法。它被广泛应用于训练能够在环境中自主决策和学习的模型，例如机器人控制、游戏玩法和交易策略等领域。近端策略优化算法是一个基于策略梯度方法的算法，旨在通过优化策略函数以最大化预期的累积奖励来提升模型的决策能力。相比于其他策略梯度方法，近端策略优化算法在训练过程中更加稳定，并且具有较好的收敛性能。近端策略优化算法的核心思想是通过限制策略更新的幅度，从而保证每次更新都在一个较小的范围内，避免策略在训练过程中发生剧烈变化而导致不稳定的情况。这种限制是通过引入“近端政策优化”的机制来实现的。

多步优化：多步优化是一种用于监督学习和强化学习中的训练方法，主要用于处理时序数据。它的思想是利用多个连续的状态和动作序列来更新模型的参数，从而增强模型的泛化能力。简单来说，就是将多个连续的时刻作为一个整体来进行训练，以优化模型的表现。在强化学习中，多步优化则通常被用于更新模型的价值函数和策略网络。它使用多个连续的状态和动作序列来计算回报，并将其用于更新模型的参数。这种方法能够帮助模型更好地捕捉长期奖励信号，从而提高其决策效率和泛化能力。

优化方法：优化方法指通过对计算模型、算法或者系统进行调整和改进，以提高其性能和效率的方法。在部署强化学习得到的模型时，可以采用以下一些常见的优化方法来加速模型推理性能：硬件优化、模型剪枝、模型量化、模型缩减等等。

chatGPT的出现让人们认识到大语言模型的“涌现”能力。chatGPT背后的大语言模型是通过训练海量的文本数据来获取自然语言的语义和规律，并能够生成新的文本内容。所谓“涌现”，在大模型领域指的是当模型突破某个规模时，性能显著提升，表现出让人惊艳、意想不到的能力，比如语言理解能力、生成能力、逻辑推理能力等。一般来说，模型在100亿到1000亿参数区间，可能产生能力涌现。

那么如何理解大模型为什么会出现“涌现”能力呢？基于量子化假设推导大模型的尺度定律可知，完美模型还是应该具有无穷多个能力量子，但人类对智能的“分辨力”只有有限个量子（人类本身未必是完美的），所以当大模型学到一定数目的能量量子后，在人类的视角中就是完美的“涌现”了。

所以，可以将大语言模型与网络设备配置相结合，大语言模型的涌现能力可以为网络设备配置提供更加智能和自动化的解决方案。

本发明实施例考虑到：当前对网络设备进行配置，主要通过相关技术人员学习各个厂商的网络设备配置手册、操作指南和相关文档，了解每个厂商设备的命令语言、配置选项和操作流程，再根据具体网络环境和需求，手动输入配置命令或者通过特定的界面进行配置操作。然而，不同厂商在界面形式、操作逻辑流程、配置格式等方面都存在较大的差异，即使同一厂商的不同型号的网络设备配置都可能存在差异，从而使得配置网络设备的学习成本很高。

由此，本发明实施例提出解决方案，通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。

具体地，参照图1，图1是本发明网络设备配置查询装置所属终端设备的功能模块示意图。该网络设备配置查询装置可以为独立于设备的、能够进行数据处理的装置，其可以通过硬件或软件的形式承载于设备上。该设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定设备或服务器等。

在本实施例中，该网络设备配置查询装置所属设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及网络设备配置查询程序；输出模块110可为显示屏等。通信模块140可以包括WIFI模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的网络设备配置查询程序被处理器执行时实现以下步骤：

获取用户输入的第一网络设备配置问题；

进一步地，存储器130中的网络设备配置查询程序被处理器执行时还实现以下步骤：

收集网络设备配置的相关数据；

收集第二网络设备配置问题；

收集专家对所述第二网络设备配置回答的打分数据；

基于推理性能优化方法对所述网络设备问答模型进行优化。

本实施例通过上述方案，具体通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。

基于上述设备架构但不限于上述架构，提出本发明方法实施例。

本实施例方法的执行主体可以是一种网络设备配置查询装置，该网络设备配置查询装置可以为独立于设备的、能够进行数据处理的装置，其可以通过硬件或软件的形式承载于设备上。

参照图2，图2为本发明网络设备配置查询方法一示例性实施例的流程示意图。所述网络设备配置查询方法包括：

步骤S20，获取用户输入的第一网络设备配置问题。

其中，作为一种实施方式，网络设备配置查询装置承载的设备存在一个人机交互界面，用户可以在该人机交互界面中输入第一网络设备配置问题。并且，网络设备配置查询装置承载的设备需要预留一定资源用来进行后续模型的计算和推理。

其中，作为另一种实施方式，为了降低网络设备配置复杂度，用户除了在网络设备配置查询装置承载的设备上的人机交互界面输入第一网络设备配置问题之外，还可以基于剧本的可视化配置方式对网络设备配置进行查询，具体步骤如下：

1、剧本编写：用户根据自身需求和目标，编写一个网络设备配置的剧本。剧本描述了网络设备的组织结构、功能要求、连接关系等信息，并以人类可读的形式呈现。

2、可视化界面：网络设备配置查询装置承载的设备提供一个可视化界面，以图形化的方式展示网络设备的拓扑结构和配置参数。这个界面通常采用图形、图表或拓扑图等形式，使用户能够更直观地理解和操作网络设备。

3、交互式配置：用户在可视化界面上进行交互操作，通过拖拽、点击等方式设置网络设备的参数。用户可以根据剧本的要求，逐步配置每个设备的属性、端口连接、协议选择等。

4、即时反馈：网络设备配置查询装置会根据用户的配置操作，实时反馈结果。这包括验证配置的合法性、检查配置冲突、提供错误提示等。用户可以根据反馈信息及时调整配置，确保设备之间的连接和功能符合预期。

5、自动生成配置脚本：在用户完成配置后，网络设备配置查询装置可以自动生成相应的配置脚本或命令，以便将配置应用到实际的网络设备中。这样可以节省手动编写配置的时间和精力，提高配置的准确性和可靠性。

步骤S20，获取用户输入的第一网络设备配置问题。

其中，所述第一网络设备配置问题是对某一网络设备进行配置时产生的疑问。

步骤S30，将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。

其中，机器学习通过计算机系统从数据和经验中自动学习并改进性能。在机器学习领域，有多种不同的学习方法，其中包括监督学习、强化学习以及其他类型的学习方法。

其中，微调优化是一种模型优化策略，用于改进模型在实际应用中的性能和表现。

其中，作为一种实施方式，可以在获取用户输入的第一网络设备配置问题之前创建基于机器学习训练和微调优化的网络设备配置问答模型。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。

参照图3，图3为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

基于上述图2所示的实施例，所述步骤S20，获取用户输入的第一网络设备配置问题之前包括：

步骤S10，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。

其中，作为一种实施方式，可以通过以下步骤创建基于机器学习训练和微调优化的所述网络设备配置问答模型：收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。

参照图4，图4为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

基于上述图3所示的实施例，所述步骤S10，创建基于机器学习训练和微调优化的所述网络设备配置问答模型包括：

步骤S11，收集网络设备配置的相关数据。

具体地，作为一种实施方式，可以对目前不同厂商的网络设备以及同一厂商的不同类型的网络设备的配置进行穷举，并进行收集，得到网络设备配置的相关数据。

步骤S12，基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型。

其中，预训练模型是指在大规模无监督数据上进行预训练学习的模型。预训练模型通过从大量的未标记文本数据中学习语言模式和上下文信息，来捕捉自然语言的普遍规律。预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。

其中，预训练模型包括BERT、GPT、RoBERTa、XLNet、ELECTRA等，可以根据实际的任务需求，选择合适的预训练模型进行语言模型监督微调训练。

其中，语言模型监督微调训练包括了监督学习和微调优化。

其中，对预训练模型进行语言模型监督微调训练是在监督学习的框架下，对预训练模型进行微调以适应特定的任务或场景。在本实施例中，对预训练模型进行语言模型监督微调训练是为了让预训练模型适应网络设备配置的问答场景。

步骤S13，收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷。

其中，在得到第一问答模型之后，向用户开放第一问答模型，并收集用户基于第一问答模型的反馈数据。

步骤S14，基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型。

其中，以下通过举例来阐述这一步骤：用户反馈第一问答模型在路由配置方面存在缺陷，无法提供准确和详细的答案，那么基于这个缺陷，可以重新穷举收集路由配置方面的相关数据，基于这些数据对第一问答模型进行微调，微调后得到的第二问答模型可以给出更具体和全面的回答。

由此，通过对第一问答模型进行微调，可以根据用户反馈和特定场景的需求，改进第一问答模型在特定领域的性能，向用户提供更准确和详细的答案。这种微调方法有助于满足用户的具体需求，并提高问答模型的实用性和可靠性。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。

步骤S15，对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

其中，由于第二问答模型是为人类服务，针对人类提出的问题给出相应的回答，所以有必要让第二问答模型接受来自人类专家的反馈和指导，人类专家的经验和指导可以加速第二问答模型的学习过程，减少不必要的试错。

其中，基于人类反馈的强化学习训练是一种结合人类专家知识和强化学习的方法来训练模型的算法。基于人类反馈的强化学习训练可以通过以下两种方式实现：

1、通过演示学习：模型通过观察人类专家提供的演示样本，学习从输入状态到输出动作的映射关系。演示样本可以是专家在相同任务上的动作轨迹记录，模型通过模仿这些样本来学习优化自己的策略。

2、通过增强学习和评估：模型在与环境的交互中进行增强学习，并将人类专家的反馈用作额外的奖励信号。例如，当模型采取动作后，专家可以对其性能进行评估并提供相应的奖励值（正值或负值），以指导模型的决策策略更新。

其中，通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。其中，收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。其中，本发明实施例通过对预先获取的预训练模型进行语言模型监督微调训练，预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。并且，在语言模型监督微调训练的微调阶段，基于网络设备配置的相关数据对预训练模型进行针对性的训练，使得预训练模型能够进一步理解网络设备配置的规律。并且，本发明实施例通过基于用户的反馈数据中反映的第一问答模型的缺陷对第一问答模型进行微调，可以快速发现和纠正模型的缺陷，这有助于提高问答模型的适应性，使其能够更好地满足用户的需求和偏好。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。并且，本发明实施例通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。

参照图5，图5为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

基于上述图4所示的实施例，所述步骤S12，基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型包括：

步骤S121，基于所述网络设备配置的相关数据构建得到网络设备配置问答。

其中，将网络设备配置的相关数据以问答形式进行构建。

其中，以下通过举例来说明网络设备配置问答的形式：

问：内网的IP地址范围为192.168.2.1到192.168.2.200，要通过网关1.1.1.1上互联网

答：acl aclname1 src-ip range 192.168.2.1 192.168.2.200 permit;nataclname1 snat ip 1.1.1.1 no-port-transfer

步骤S122，对所述网络设备配置问答进行序列到序列形式的数据整理，得到监督微调训练数据。

其中，对网络设备配置问答进行序列到序列形式的数据整理，包括对文本进行预处理（如分词、标准化等），然后将预处理后的问题和答案配对形成序列对，得到监督微调训练数据。

其中，通过将网络设备配置问答整理为序列到序列形式的数据，可以获得更准确和规范的训练数据，有助于提高监督微调训练数据的质量和可用性，进而提升问答模型的准确性和效果。

步骤S123，基于所述监督微调训练数据对所述预先获取的预训练模型进行语言模型监督微调训练，得到所述第一问答模型。

其中，通过使用预训练模型进行语言模型监督微调训练，可以在已有知识的基础上进行优化，这种方法以大规模通用语料库训练得到的预训练模型作为第一问答模型的基础，从而能够提高第一问答模型的语言理解和生成能力。并且，基于预训练模型的迁移学习能力，第一问答模型可以在较小的数据集上进行微调训练，同时仍然保持较高的性能。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。其中，收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。其中，基于所述网络设备配置的相关数据构建得到网络设备配置问答；对所述网络设备配置问答进行序列到序列形式的数据整理，得到监督微调训练数据；基于所述监督微调训练数据对所述预先获取的预训练模型进行语言模型监督微调训练，得到所述第一问答模型。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。其中，本发明实施例通过对预先获取的预训练模型进行语言模型监督微调训练，预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。并且，在语言模型监督微调训练的微调阶段，基于网络设备配置的相关数据对预训练模型进行针对性的训练，使得预训练模型能够进一步理解网络设备配置的规律。并且，本发明实施例通过基于用户的反馈数据中反映的第一问答模型的缺陷对第一问答模型进行微调，可以快速发现和纠正模型的缺陷，这有助于提高问答模型的适应性，使其能够更好地满足用户的需求和偏好。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。并且，本发明实施例通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。其中，本发明实施例通过将网络设备配置问答整理为序列到序列形式的数据，可以获得更准确和规范的训练数据，有助于提高监督微调训练数据的质量和可用性，进而提升问答模型的准确性和效果。并且，本发明实施例通过使用预训练模型进行语言模型监督微调训练，可以在已有知识的基础上进行优化，这种方法以大规模通用语料库训练得到的预训练模型作为第一问答模型的基础，从而能够提高第一问答模型的语言理解和生成能力。并且，基于预训练模型的迁移学习能力，第一问答模型可以在较小的数据集上进行微调训练，同时仍然保持较高的性能。

参照图6，图6为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

基于上述图4所示的实施例，所述步骤S15，对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型包括：

步骤S151，收集第二网络设备配置问题。

步骤S152，针对所述第二网络设备配置问题，使用所述第二问答模型生成第二网络设备配置回答。

步骤S153，收集专家对所述第二网络设备配置回答的打分数据。

其中，专家会对第二网络配置回答进行打分。

步骤S154，基于所述第二网络设备配置回答和所述打分数据训练奖励模型。

其中，基于第二网络设备配置回答和打分数据训练奖励模型，使得奖励模型主要关注回答的得分，并根据得分的高低评估回答的质量。

其中，作为另一种实施方式，还可以基于第二网络设备配置问题、第二网络设备配置回答和打分数据训练奖励模型，使得奖励模型可以考虑到问题的特定需求，以及回答是否与问题相关，并且，可以通过得分的高低更准确地评估回答的质量和合理性，从而提供更有针对性的奖励信号。

步骤S155，基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

其中，强化学习算法包括近端策略优化算法、基于值函数的算法、策略搜索算法、价值迭代算法等，可以根据具体的任务需求选择不同的算法。

其中，作为一种实施方式，可以通过所述近端策略优化算法确定所述第二问答模型的权重梯度；基于所述权重梯度和所述奖励模型对所述第二问答模型进行多步优化，得到所述网络设备配置问答模型。

其中，通过基于第二问答模型生成的回答和专家对于回答的打分数据训练奖励模型，并且基于奖励模型和强化学习算法对第二问答模型进行训练，可以帮助第二问答模型更好地理解和满足人类的需求，生成更高质量的文本，还能够避免第二问答模型出现错误的推断、不准确的假设或倾向性等问题。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。其中，收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。其中，收集第二网络设备配置问题；针对所述第二网络设备配置问题，使用所述第二问答模型生成第二网络设备配置回答；收集专家对所述第二网络设备配置回答的打分数据；基于所述第二网络设备配置回答和所述打分数据训练奖励模型；基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。其中，本发明实施例通过对预先获取的预训练模型进行语言模型监督微调训练，预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。并且，在语言模型监督微调训练的微调阶段，基于网络设备配置的相关数据对预训练模型进行针对性的训练，使得预训练模型能够进一步理解网络设备配置的规律。并且，本发明实施例通过基于用户的反馈数据中反映的第一问答模型的缺陷对第一问答模型进行微调，可以快速发现和纠正模型的缺陷，这有助于提高问答模型的适应性，使其能够更好地满足用户的需求和偏好。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。并且，本发明实施例通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。其中，本发明实施例通过基于第二问答模型生成的回答和专家对于回答的打分数据训练奖励模型，并且基于奖励模型和强化学习算法对第二问答模型进行训练，可以帮助第二问答模型更好地理解和满足人类的需求，生成更高质量的文本，还能够避免第二问答模型出现错误的推断、不准确的假设或倾向性等问题。

参照图7，图7为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

基于上述图6所示的实施例，所述步骤S155，基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型包括：

步骤S1551，通过所述近端策略优化算法确定所述第二问答模型的权重梯度。

其中，近端策略优化算法是一种用于强化学习的策略优化算法，并且近端策略优化算法是一个基于策略梯度方法的算法，相比于其他策略梯度方法，近端策略优化算法在训练过程中更加稳定，并且具有较好的收敛性能，使得网络设备配置问答模型的训练过程更加稳定，避免网络设备配置问答模型在训练过程中出现梯度爆炸或梯度消失的问题。

作为一种实施方式，首先，再次收集网络设备配置问题和对应的答案，作为样本数据。

然后，利用收集的样本数据计算第二问答模型中每个时间步的优势函数，并将这些样本数据和优势函数用于计算权重梯度。

然后，将样本数据输入之前训练得到的奖励模型，来预测当前状态和动作的奖励。

步骤S1552，基于所述权重梯度和所述奖励模型对所述第二问答模型进行多步优化，得到所述网络设备配置问答模型。

其中，在多步优化过程中，可以引入折扣因子，通过奖励模型和折扣因子计算出未来多步的累积奖励，并将其与优势函数、权重梯度和比值（新策略与旧策略之间的比值）结合起来，计算修剪后的权重梯度，由此可以更准确地反映当前策略的优劣，并对第二问答模型的参数进行修正。

然后，重复执行上述步骤，在多步优化的过程中，不断优化第二问答模型的参数，使其逐渐适应目标环境，同时考虑到未来奖励和优势函数的影响。最终可以得到一个经过多步优化的网络设备配置问答模型，它在回答网络设备配置的问题时表现得更加出色。

其中，对第二问答模型进行多步优化，多步优化使用多个连续的状态和动作序列来计算回报，并将其用于更新模型的参数，多步优化能够帮助模型更好地捕捉长期奖励信号，从而提高其决策效率和泛化能力。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。其中，收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。其中，收集第二网络设备配置问题；针对所述第二网络设备配置问题，使用所述第二问答模型生成第二网络设备配置回答；收集专家对所述第二网络设备配置回答的打分数据；基于所述第二网络设备配置回答和所述打分数据训练奖励模型；基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。其中，通过所述近端策略优化算法确定所述第二问答模型的权重梯度；基于所述权重梯度和所述奖励模型对所述第二问答模型进行多步优化，得到所述网络设备配置问答模型。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。其中，本发明实施例通过对预先获取的预训练模型进行语言模型监督微调训练，预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。并且，在语言模型监督微调训练的微调阶段，基于网络设备配置的相关数据对预训练模型进行针对性的训练，使得预训练模型能够进一步理解网络设备配置的规律。并且，本发明实施例通过基于用户的反馈数据中反映的第一问答模型的缺陷对第一问答模型进行微调，可以快速发现和纠正模型的缺陷，这有助于提高问答模型的适应性，使其能够更好地满足用户的需求和偏好。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。并且，本发明实施例通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。其中，本发明实施例通过基于第二问答模型生成的回答和专家对于回答的打分数据训练奖励模型，并且基于奖励模型和强化学习算法对第二问答模型进行训练，可以帮助第二问答模型更好地理解和满足人类的需求，生成更高质量的文本，还能够避免第二问答模型出现错误的推断、不准确的假设或倾向性等问题。其中，近端策略优化算法是一种用于强化学习的策略优化算法，并且近端策略优化算法是一个基于策略梯度方法的算法，相比于其他策略梯度方法，近端策略优化算法在训练过程中更加稳定，并且具有较好的收敛性能，使得网络设备配置问答模型的训练过程更加稳定，避免网络设备配置问答模型在训练过程中出现梯度爆炸或梯度消失的问题。并且，本发明实施例对第二问答模型进行多步优化，多步优化使用多个连续的状态和动作序列来计算回报，并将其用于更新模型的参数，多步优化能够帮助模型更好地捕捉长期奖励信号，从而提高其决策效率和泛化能力。

参照图8，图8为本发明网络设备配置查询方法另一示例性实施例的流程示意图。

步骤S16，基于推理性能优化方法对所述网络设备问答模型进行优化。

其中，推理性能优化方法是指通过对计算模型、算法或者系统进行调整和改进，以提高其性能和效率的方法。在部署网络设备问答模型时，可以采用以下一些常见的推理性能优化方法来加速模型推理性能：

1、硬件优化：选择适当的硬件设备，如使用高性能的CPU、GPU或者专用的加速器（如TPU）等，以提高模型推理的速度和效率。

2、模型剪枝：通过剪枝无关或冗余的模型参数和连接，减小模型的大小和复杂度，从而降低推理的计算量和时间。

3、模型量化：将浮点型的模型参数转换为定点型或者低精度的表示形式，以减少内存占用和计算量，从而提高推理的速度。

4、模型缩减：使用压缩算法（如哈夫曼编码、矩阵分解等）对模型进行压缩，降低存储需求和计算开销。

5、并行计算：通过将计算任务划分为多个子任务，并行执行，充分利用多核处理器、分布式系统等资源，以提高推理的并发性和整体性能。

6、缓存优化：通过合理利用缓存来减少数据的读写次数，提高数据的访问效率，从而加速模型推理过程。

其中，不同的模型和应用场景可能适用不同的优化方法，应该根据实际情况选择适合的优化方法。此外，还可以结合多个优化方法来进一步提高模型推理性能。

本实施例通过上述方案，通过获取用户输入的第一网络设备配置问题；将所述第一网络设备配置问题输入预先创建的网络设备配置问答模型，得到第一网络设备配置回答，所述网络设备配置问答模型是基于机器学习训练和微调优化得到。其中，创建基于机器学习训练和微调优化的所述网络设备配置问答模型。其中，收集网络设备配置的相关数据；基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型；收集用户基于所述第一问答模型的反馈数据，所述反馈数据包含第一问答模型的缺陷；基于所述缺陷对所述第一问答模型进行微调，得到第二问答模型；对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型。另外，基于推理性能优化方法对所述网络设备问答模型进行优化。

本发明实施例通过将配置网络设备时遇到的问题输入到预先创建的网络设备配置问答模型，即可得到网络设备配置答复，然后根据该网络设备配置答复去进行网络设备的配置，不需要相关技术人员学习不同网络设备的配置规则，从而降低了配置网络设备的学习成本。其中，本发明实施通过创建基于机器学习训练和微调优化的所述网络设备配置问答模型，能够使得相关技术人员直接与网络设备问答模型进行交互，获取网络设备配置方法，不需要人为记忆不同网络设备的配置规则，从而避免了人为疏忽导致的网络设备配置错误。并且基于机器学习训练和微调优化创建的网络设备配置问答模型具有很高的回答准确率、鲁棒性和泛化能力。其中，本发明实施例通过对预先获取的预训练模型进行语言模型监督微调训练，预训练模型具有很强的自然语言理解和生成能力，并且预训练模型对多种自然语言处理任务都具有较强的迁移性，可以从网络设备配置的相关数据中理解句子的结构、语法和语义，以及词语之间的关联。并且，在语言模型监督微调训练的微调阶段，基于网络设备配置的相关数据对预训练模型进行针对性的训练，使得预训练模型能够进一步理解网络设备配置的规律。并且，本发明实施例通过基于用户的反馈数据中反映的第一问答模型的缺陷对第一问答模型进行微调，可以快速发现和纠正模型的缺陷，这有助于提高问答模型的适应性，使其能够更好地满足用户的需求和偏好。并且，通过不断的微调优化，可以增加问答模型的鲁棒性和泛化能力，这使得模型能够在各种场景下进行准确的问答，不受数据变化或噪声的影响。并且，本发明实施例通过对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型，可以进一步提升问答模型的表现，问答模型可以通过学习和优化自己的决策策略来不断提高问答的准确性和效率。另外，本发明实施例基于推理性能优化方法对所述网络设备问答模型进行优化，可以提升网络设备问答模型的推理速度，减少模型的推理延迟，在实际应用中，网络设备问答模型能够更快地响应用户的问题并生成答案，提高用户体验和效率。并且，推理性能优化方法可能涉及对模型进行简化，使得模型的参数量减少或者使用更高效的算法，从而可以有效地减少模型在推理过程中所需的计算资源。

此外，本申请实施例还提出一种网络设备配置查询装置，所述网络设备配置查询装置包括：

问题获取模块，获取用户输入的第一网络设备配置问题；

本实施例实现网络设备配置查询的原理及实施过程，请参照上述各实施例，在此不再赘述。

此外，本申请实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络设备配置查询程序，所述网络设备配置查询程序被所述处理器执行时实现如上所述的网络设备配置查询方法的步骤。

由于本网络设备配置查询程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有网络设备配置查询程序，所述网络设备配置查询程序被处理器执行时实现如上所述的网络设备配置查询方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网络设备配置查询方法，其特征在于，所述方法包括以下步骤：

获取用户输入的第一网络设备配置问题；

2.根据权利要求1所述的方法，其特征在于，所述获取用户输入的第一网络设备配置问题的步骤之前包括：

3.根据权利要求2所述的方法，其特征在于，所述创建基于机器学习训练和微调优化的所述网络设备配置问答模型的步骤包括：

收集网络设备配置的相关数据；

4.根据权利要求3所述的方法，其特征在于，所述基于所述网络设备配置的相关数据对预先获取的预训练模型进行语言模型监督微调训练，得到第一问答模型的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤包括：

收集第二网络设备配置问题；

收集专家对所述第二网络设备配置回答的打分数据；

6.根据权利要求5所述的方法，其特征在于，所述强化学习算法包括近端策略优化算法，所述基于所述奖励模型和强化学习算法对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述第二问答模型进行基于人类反馈的强化学习训练，得到所述网络设备配置问答模型的步骤之后包括：

基于推理性能优化方法对所述网络设备问答模型进行优化。

8.一种网络设备配置查询装置，其特征在于，所述装置包括：

问题获取模块，获取用户输入的第一网络设备配置问题；

9.一种网络设备配置查询终端设备，其特征在于，所述网络设备配置查询终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的网络设备配置查询方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的网络设备配置查询方法。