CN117610667A

CN117610667A - 基于开源大模型的故障处置专家系统、方法和计算机设备

Info

Publication number: CN117610667A
Application number: CN202410067988.7A
Authority: CN
Inventors: 徐添; 彭丙聪; 马俊; 张宏杰; 王亮
Original assignee: Hunan Aosi Software Co ltd
Current assignee: Hunan Aosi Software Co ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-27
Anticipated expiration: 2044-01-17
Also published as: CN117610667B

Abstract

本申请涉及一种基于开源大模型的故障处置专家系统、方法和计算机设备。所述专家系统包括：数据处理模块，用于从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据，训练模块，用于利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段数据推理得到告警处置结果。采用本专家系统能够实现对多样化告警的处置方式进行自动生成。

Description

基于开源大模型的故障处置专家系统、方法和计算机设备

技术领域

本申请涉及智能运维技术领域，特别是涉及一种基于开源大模型的故障处置专家系统、方法和计算机设备。

背景技术

在一个企业进行IT 运维排除故障的时候，一般会依赖告警系统提供的告警信息来判断故障发生的原因，随着 IT 规模的增大，部分企业会基于已经发生的故障信息以及排障的日志记录信息来建立自己的排障知识库，然后在后续发生故障的时候，排障人员会去根据关键字信息来获取相关故障的知识信息以辅助后续的故障排除。在这方面已经有很多关于知识库建立的方法。由于故障发生后相关的特征关键字信息是不确定的，是否可以找到相关的历史告警也是不确定的，所以排障人员一般要进行多次的尝试，而且很大概率都找不到（也许存在）相关的可以辅助排除故障的有用信息。

生成式大模型是近期发展起来的一种机器学习技术，目前已经有很多成熟的开源大模型涌现出来了，并广泛应用于客户服务、医疗、知识问答等领域。目前基于生成式大模型来进行智能运维的有一些应用，但是目前仅停留于进行智能运维的问答式，无法对多样化且复杂的智能运维告警进行自动生成。

发明内容

基于此，有必要针对上述技术问题，提供一种能够应对复杂智能运维告警生成问题的基于开源大模型的故障处置专家系统、方法和计算机设备。

一种基于开源大模型的故障处置专家系统，所述系统包括：

数据处理模块，用于从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据；其中，处置任务包括：字段增补任务和处置推理任务；字段增补任务的训练数据是根据汇总信息字段和增补字段构建对应的第一训练数据，处置推理任务的训练数据是根据汇总信息字段、增补字段以及告警处置信息构建对应的第二训练数据；

训练模块，用于利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段推理得到告警处置结果。

在其中一个实施例中，数据处理模块还用于识别告警数据表和工单数据表中是否包括告警信息，若否，则抽取告警数据表中的汇总信息字段，以及将告警处置信息设置为不处置；若是，则抽取告警数据表中的汇总信息字段，以及从工单数据表提取告警处置信息。

在其中一个实施例中，数据处理模块还用于通过交互方式校验增补字段与告警处置信息的错误信息以及同因异果数据；其中，对于是相同原因造成的告警，最终判断得到不同结果的同因异果数据，校验时对出现错误的新增必要字段进行修正。

在其中一个实施例中，增补字段是以key-value方式存储，key表示字段名称，value表示一条告警中该字段的值；第一训练数据是根据汇总信息字段和key-value中key数据组成的问题答案对，问题答案对中的问题为汇总信息字段，问题答案对中的答案为key-value中key数据。

在其中一个实施例中，第二训练数据是汇总信息字段和增补字段拼接后与告警处置信息组成的问题答案对，问题答案对中问题为汇总信息字段和增补字段以及其对应的值的拼接结果，问题答案对中的答案为告警处置信息。

在其中一个实施例中，key-value中的value值为，key-value中的key值的集合为/>，汇总信息字段与增补字段以及其对应的值进行拼接形成问题答案对之后，问题答案对中的问题由拼接字段/>构成，其中，summary表示汇总信息字段。

在其中一个实施例中，训练模块的训练过程具体为：

读取预训练的开源大模型；

基于开源大模型对第一训练数据和第二训练数据进行训练；

基于训练过程输出训练状态；训练状态包括：正在训练、训练结束以及训练出错；

将训练后的模型参数上传至服务器，以优化推导模块的参数。

在其中一个实施例中，训练模块还包括定时模块，定时模块用于设置开源大模型的定时训练任务。

一种基于开源大模型的故障处置方法，应用于上述基于开源大模型的故障处置专家系统中，所述方法包括：

从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据；其中，处置任务包括：字段增补任务和处置推理任务；字段增补任务的训练数据是根据汇总信息字段和增补字段构建对应的第一训练数据，处置推理任务的训练数据是根据汇总信息字段、增补字段以及告警处置信息构建对应的第二训练数据；

利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段推理得到告警处置结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

上述基于开源大模型的故障处置专家系统、方法和计算机设备，为了解决告警的内容多样化，且各种告警包含信息不同，导致无法通过特征工程来进行推理的问题，采用从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，然后根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据，处置任务包括：字段增补任务和处置推理任务；字段增补任务的训练数据是根据汇总信息字段和增补字段构建对应的第一训练数据，处置推理任务的训练数据是根据汇总信息字段、增补字段以及告警处置信息构建对应的第二训练数据，在进行训练时，利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段推理得到告警处置结果，从而在产生新的告警时，推导模块也能够通过汇总信息字段推理增补字段，从而在汇总信息字段和增补字段拼接后，可以推导生成准确的告警处置结果。

附图说明

图1为一个实施例中基于开源大模型的故障处置专家系统的结构框图；

图2为一个实施例中两个推导范式的应用流程图；

图3为一个实施例中基于开源大模型的故障处置方法的流程示意图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了基于开源大模型的故障处置专家系统，包括：

数据处理模块100，从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据。

处置任务包括：字段增补任务和处置推理任务，字段增补任务的训练数据是根据汇总信息字段和增补字段构建对应的第一训练数据，处置推理任务的训练数据是根据汇总信息字段、字段增补任务推理得到的增补字段以及告警处置信息构建对应的第二训练数据。

具体的，在故障处置专家系统中，告警数据表中有多达上百个字段，其中包括了汇总信息字段，对告警进行信息的汇总，工单系统也会产生针对上述告警数据表中的工单处理的工单数据表，因此可以从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息。

训练模块200，用于利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段推理得到告警处置结果。

本申请并没有直接将汇总信息字段和告警处置信息直接构成训练样本，而是设置了两类任务，其中一类是字段增补任务，另一类是处置推理任务。对于第一类任务，实际上属于本申请的信息交互编辑，在这个过程中，汇总信息字段一般对应有一些基础的增补字段，也就是说，在训练之初，字段增补任务中，通过汇总信息字段形成问题进行提问时，输出的是基础的增补字段，随着推导效果，来确定是否需要重新训练，以此来提升推导效果，这方面最直接的影响是原有的基础字段不足以满足故障处置的推理，因此设置的字段增补任务可以通过大模型来调整对应汇总信息字段的问题的输出结果。通过上述设置，可以应对各类复杂的告警，从而为故障处置推理提供基础。

另外，对于字段增补任务而言，如果仅以汇总信息字段进行推理，信息是不充分的，其原因是汇总信息字段并没有包含生成故障报告所需要的必要信息，例如：应用系统、IP等信息。因此，字段增补任务可以根据汇总信息字段，来推理得到需要进行增补的内容，从而得到增补字段，另外一方面是汇总信息字段可能包含大量的冗余信息与无用信息，因此需要针对上述信息，来设置必要的增补字段，例如：node、alertkey、alertgroup等，因此可以根据汇总信息字段和增补字段构建对应的第一训练数据。对于处置推理任务，结合上一任务推理得到的增补字段以及汇总信息字段中包含的信息、告警处置信息，可以构建第二训练数据。

另外，为了使得数据达到训练的要求，可以对上述汇总信息字段和告警处置信息进行预处理，包括但不限于数据清洗、校验、整理、增补、删除等。

值得说明的是，开源大模型可以是LLAMA、ALPACE、Dolly、Bloom、MiniGPT等。

第一训练数据和第二训练数据具体是采用问题答案对形式出现，其中，对于第一训练数据，其问题是汇总信息字段，而答案是增补字段名称组成的字符串，对于第二训练数据，其问题是汇总信息字段和所有增补字段以及其对应的值拼接得到的，而答案是告警处置信息。基于上述问题对的信息，可以对开源大模型进行训练，从而使得推导模块可以根据汇总信息字段形成的问题，推导得到对应的增补字段，以及根据汇总信息字段和所有增补字段以及其对应的值拼接形成的问题，推导得到对应的告警处置结果。

上述基于开源大模型的故障处置专家系统中，为了解决告警的内容多样化，且各种告警包含信息不同，导致无法通过特征工程来进行推理的问题，采用从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，然后根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据，处置任务包括：字段增补任务和处置推理任务；字段增补任务的所述训练数据是根据汇总信息字段和增补字段构建对应的第一训练数据，处置推理任务的训练数据是根据汇总信息字段、增补字段以及告警处置信息构建对应的第二训练数据，在进行训练时，利用开源大模型对输入的第一训练数据和第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据第二训练数据的训练结果对增量告警数据的汇总信息字段和增补字段推理得到告警处置结果，从而在产生新的告警时，推导模块也能够通过汇总信息字段推理增补字段，从而在汇总信息字段和增补字段拼接后，可以推导生成准确的告警处置结果。

在其中一个实施例中，数据处理模块100还用于识别告警数据表和工单数据表中是否包括告警信息，若否，则抽取告警数据表中的汇总信息字段，以及将告警处置信息设置为不处置；若是，则抽取告警数据表中的汇总信息字段，以及从工单数据表提取告警处置信息。

在本实施例中，可以定期导入告警系统和工单信息中的信息至告警数据表和工单数据表，从而在从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息时，首先需要识别告警数据表和工单数据表中是否包括告警信息，若否，则说明该增量告警数据并没有具体的告警处置措施以及告警原因描述，从而将告警处置信息设置为不处置，若是，则说明针对该增量告警数据具有告警处置措施以及告警原因说明，值得说明的是，无论是具有告警处置措施，还是不处置，都将作为训练数据，不同的是，如果告警处置信息为不处理，对应在生成处置报告时，也将会在处置措施部分生成不处理的信息。从而在面对所有告警时，面临可以不处理的告警也可以生成对应的处置报告。

在其中一个实施例中，数据处理模块100还用于通过交互方式校验增补字段与告警处置信息的错误信息以及同因异果数据。

在本实施例中，无论是错误信息以及同因异果数据的校验，都是信息交互编辑的过程，同时，上文已经给出了信息交互编辑的意义，那么，本实施例给出了一种评估推导效果的方式，具体是通过错误信息以及同因异果数据的校验来实现，如果出现上述错误，通过人工调整的方式，再次进行训练，可以提升字段增补任务的准确性，也就是说，整个信息交互编辑，实现了增补字段在基础设置下动态调整，从而保证有足够信息实现处置结果的推导。

针对于错误编辑问题，可以通过人工编辑的方式直接修改错误，保证后续训练的精度，对于同因异果问题，是相同原因造成的告警，最终判断得到不同结果，一般而言是由于新增必要字段的特征选择不当造成的，因此处置方式是对出现错误的新增必要字段进行修正。

在一个实施例中，增补字段是以key-value方式存储，key表示字段名称，value表示一条告警中该字段的值；第一训练数据是根据汇总信息字段和key-value中key数据组成的问题答案对，问题答案对中的问题为汇总信息字段，问题答案对中的答案为key-value中key数据。第二训练数据是汇总信息字段和增补字段拼接后与告警处置信息组成的问题答案对，问题答案对中问题为汇总信息字段和增补字段以及其对应的值的拼接结果，问题答案对中的答案为告警处置信息。

本实施例中，构建了两个问题答案对，也就是说对于一个增量告警数据需要设置两条训练数据，其中一条数据是对训练数据进行字段增补，第二条是为了在第一条的基础上，生成告警处置结果，因此，可以知道，第一训练数据中训练的是汇总信息字段与增补字段的对应关系，而第二训练数据训练的是对汇总信息字段和增补字段以及其对应的值拼接后与告警处置信息的对应关系。值得说明的是，key数据是增补字段，而value值是增补字段的值，value值可以从告警数据表中得到。

具体的，key-value中的value值为，key-value中的key值的集合为，汇总信息字段与增补字段以及其对应的值进行拼接形成问题答案对之后，问题答案对中的问题由拼接字段/>构成，其中，summary表示汇总信息字段。

在其中一个实施例中，训练模块的训练过程具体为：读取预训练的开源大模型；基于开源大模型对第一训练数据和第二训练数据进行训练；基于训练过程输出训练状态；训练状态包括：正在训练、训练结束以及训练出错；将训练后的模型参数上传至服务器，以优化推导模块的参数。本实施例中，首先将前一阶段训练的模型参数到入至训练模块，然后通过增量告警数据进行增量学习，以此对模型的参数进行微调，训练完成后提供给推导模块进行使用。

值得说明的是，训练完成后的推导模块，可以根据问题中提到的汇总信息字段，得到对应的增补字段，也即key-value值中的key值，另外，在将汇总信息字段与value值与key值进行拼接后形成新的问题后，推导模块可以根据新的问题来得到对于告警的推荐处置结果，以供排障人员参考。

在其中一个实施例中，训练模块还包括定时模块，定时模块用于设置开源大模型的定时训练任务。如每天一次或每周一次，且同一时刻确保有且只有一个训练任务。

具体的，本发明还构建了两个推导范式，对应与上述两个推导任务，具体如下：

a.问题为summary，答案为key-value集合中key组成的集合k1，k2，k3…；

b.问题为summary与key-value集合的拼接，如：summary k1=v1, k2=v2, k3=v3，答案为 result。

上述两个推导范式，应用到两种模式：

问题推导k1，k2，k3…时，应用范式a，还可以应用至信息交互编辑过程，在信息交互编辑中，会设置基础的增补字段例如k1，k2，k3…，从而通过上述推导效果来调整大模型，以推导得到合适的增补字段。

问题推导答案时，需要应用范式a和范式b，两个推导范式的应用流程具体如图2所示。

值得说明的是，在第一个推导模式中，是将汇总信息字段关联必要的增补字段，而对于增补字段，是存在于告警数据表中的，告警数据表中多达上百条增补字段，如何将汇总信息字段关联必要的增补字段，不仅可以减少数据冗余还可以解决汇总信息字段信息不充分的问题，在汇总信息字段关联时，是通过信息交互编辑方式实现的。更为普通的，可以设置基础增补字段来关联汇总信息字段，实际上也可以解决大部分的告警处置推导，但是为了应对大量的复杂告警时，无法达到预定的推导精度要求，因此是采用信息交互编辑方式和大模型训练微调来实现汇总信息字段关联必要的增补字段。

另外，关于告警数据表，是通过收集告警信息生成的，告警数据表中的每一条告警信息实际上包含了很多字段，例如：

alarm_id，告警唯一标识；

summary，汇总信息字段，对告警的一段综述，可能包含其他字段的信息；

node_name，告警发生的主机名；

app_name，告警发生的应用系统；

alter_group，告警类型；

不同的系统，告警信息的字段命名会有所不同，但大体上都有汇总信息字段，以及描述告警发生的时间、地点、类型等相关信息字段，有的系统有200多个描述字段。

而工单系统中，能就是将需要后续处理的告警发送一个工单给相关的人进行处理，然后经过处理后，得到工单表，一般而言工单表中每条信息包含如下字段：

alarm_id，告警唯一标识；

symton，症状描述；

root_cause，故障根源原因分析；

prescribe，处置方法；

不同的工单系统，可能有不同的命名来描述这些信息。

值得说明的是，告警系统中可以集成本发明的告警模块，通过两次推导得到推荐的处置结果，另外，由于采用大模型进行训练，可以采用具有订阅功能的大模型，在训练完成后，发布最新的模型参数，从而实现主机的分布式部署。

关于基于开源大模型的故障处置专家系统的具体限定可以参见上文中对于基于开源大模型的故障处置专家系统的限定，在此不再赘述。上述基于开源大模型的故障处置专家系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

还提供一种基于开源大模型的故障处置方法，如图3所示，应用于上述基于开源大模型的故障处置专家系统中，步骤包括：

步骤302，从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据；

其中，所述处置任务包括：字段增补任务和处置推理任务；所述字段增补任务的所述训练数据是根据所述汇总信息字段和增补字段构建对应的第一训练数据，所述处置推理任务的所述训练数据是根据所述汇总信息字段、所述增补字段以及所述告警处置信息构建对应的第二训练数据。

步骤304，利用开源大模型对输入的第一训练数据和所述第二训练数据进行训练，以使推导模块能够依据第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据所述第二训练数据的训练结果对增量告警数据的汇总信息字段和所述增补字段推理得到告警处置结果。

在其中一个实施例中，识别所述告警数据表和工单数据表中是否包括告警信息，若否，则抽取所述告警数据表中的汇总信息字段，以及将告警处置信息设置为不处置；若是，则抽取所述告警数据表中的汇总信息字段，以及从工单数据表提取告警处置信息。

在其中一个实施例中，数据处理模块还用于通过交互方式校验所述增补字段与所述告警处置信息的错误信息以及同因异果数据。

在其中一个实施例中，增补字段是以key-value方式存储，key表示字段名称，value表示一条告警中该字段的值；所述第一训练数据是根据所述汇总信息字段和key-value中key数据组成的问题答案对，所述问题答案对中的问题为所述汇总信息字段，所述问题答案对中的答案为所述key-value中key数据。

在其中一个实施例中，所述第二训练数据是所述汇总信息字段和所述增补字段拼接后与所述告警处置信息组成的问题答案对，所述问题答案对中问题为汇总信息字段和所述增补字段以及其对应的值的拼接结果，所述问题答案对中的答案为所述告警处置信息。

在其中一个实施例中，所述key-value中的value值为，所述key-value中的key值的集合为/>，所述汇总信息字段与所述增补字段以及其对应的值进行拼接形成问题答案对之后，问题答案对中的问题由拼接字段构成，其中，summary表示汇总信息字段。

在其中一个实施例中，还包括：读取预训练的开源大模型；基于所述开源大模型对所述第一训练数据和所述第二训练数据进行训练；基于训练过程输出训练状态；所述训练状态包括：正在训练、训练结束以及训练出错；将训练后的模型参数上传至服务器，以优化推导模块的参数。

在其中一个实施例中，设置开源大模型的定时训练任务。

应该理解的是，虽然图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于开源大模型的故障处置方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于开源大模型的故障处置专家系统，其特征在于，所述系统包括：

数据处理模块，用于从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据；其中，所述处置任务包括：字段增补任务和处置推理任务；所述字段增补任务的所述训练数据是根据所述汇总信息字段和增补字段构建对应的第一训练数据，所述处置推理任务的所述训练数据是根据所述汇总信息字段、所述增补字段以及所述告警处置信息构建对应的第二训练数据；

训练模块，用于利用开源大模型对输入的所述第一训练数据和所述第二训练数据进行训练，以使推导模块能够依据所述第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据所述第二训练数据的训练结果对增量告警数据的汇总信息字段和所述增补字段推理得到告警处置结果。

2.根据权利要求1所述的基于开源大模型的故障处置专家系统，其特征在于，数据处理模块还用于识别所述告警数据表和工单数据表中是否包括告警信息，若否，则抽取所述告警数据表中的汇总信息字段，以及将告警处置信息设置为不处置；若是，则抽取所述告警数据表中的汇总信息字段，以及从工单数据表提取告警处置信息。

3.根据权利要求2所述的基于开源大模型的故障处置专家系统，其特征在于，所述数据处理模块还用于通过交互方式校验所述增补字段与所述告警处置信息的错误信息以及同因异果数据；其中，对于是相同原因造成的告警，最终判断得到不同结果的同因异果数据，校验时对出现错误的新增必要字段进行修正。

4.根据权利要求1所述的基于开源大模型的故障处置专家系统，其特征在于，所述增补字段是以key-value方式存储，key表示字段名称，value表示一条告警中该字段的值；所述第一训练数据是根据所述汇总信息字段和key-value中key数据组成的问题答案对，所述问题答案对中的问题为所述汇总信息字段，所述问题答案对中的答案为所述key-value中key数据。

5.根据权利要求1所述的基于开源大模型的故障处置专家系统，其特征在于，所述第二训练数据是所述汇总信息字段和所述增补字段拼接后与所述告警处置信息组成的问题答案对，所述问题答案对中问题为汇总信息字段和所述增补字段以及其对应的值的拼接结果，所述问题答案对中的答案为所述告警处置信息。

6.根据权利要求4所述的基于开源大模型的故障处置专家系统，其特征在于，所述key-value中的value值为，所述key-value中的key值的集合为/>，所述汇总信息字段与所述增补字段以及其对应的值进行拼接形成问题答案对之后，问题答案对中的问题由拼接字段/>构成，其中，summary表示汇总信息字段。

7.根据权利要求1所述的基于开源大模型的故障处置专家系统，其特征在于，所述训练模块的训练过程具体为：

读取预训练的开源大模型；

基于所述开源大模型对所述第一训练数据和所述第二训练数据进行训练；

基于训练过程输出训练状态；所述训练状态包括：正在训练、训练结束以及训练出错；

8.根据权利要求7所述的基于开源大模型的故障处置专家系统，其特征在于，所述训练模块还包括定时模块，所述定时模块用于设置开源大模型的定时训练任务。

9.一种基于开源大模型的故障处置方法，其特征在于，应用于权利要求1至8任一项所述的基于开源大模型的故障处置专家系统中，所述方法包括：

从告警数据表和工单数据表中提取对增量告警数据的汇总信息字段和告警处置信息，根据预先设置的数据处理规则处理增量告警数据，得到处置任务对应的训练数据；其中，所述处置任务包括：字段增补任务和处置推理任务；所述字段增补任务的所述训练数据是根据所述汇总信息字段和增补字段构建对应的第一训练数据，所述处置推理任务的所述训练数据是根据所述汇总信息字段、所述增补字段以及所述告警处置信息构建对应的第二训练数据；

利用开源大模型对输入的所述第一训练数据和所述第二训练数据进行训练，以使推导模块能够依据所述第一训练数据的训练结果对输入的增量告警数据的汇总信息字段推理得到增补字段，以及依据所述第二训练数据的训练结果对增量告警数据的汇总信息字段和所述增补字段推理得到告警处置结果。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求9中所述方法的步骤。