CN112363465A

CN112363465A - 一种专家规则集训练方法、训练器和工业设备预警系统

Info

Publication number: CN112363465A
Application number: CN202011131385.7A
Authority: CN
Inventors: 田春华; 李闯; 刘家扬; 曾庆勇
Original assignee: Beijing Innovation Center For Industrial Big Data Co ltd
Current assignee: Beijing Innovation Center For Industrial Big Data Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-02-12
Anticipated expiration: 2040-10-21
Also published as: CN112363465B

Abstract

本方案公开了一种专家规则集训练方法、训练器和工业设备预警系统，其中，该方法的步骤包括：对实际标记样本和专家规则集标记样本进行权重分配；基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据；将所述专家规则参数更新至专家规则集中，形成优化后的专家规则集。本方案能够根据资深专家手动标记的实际标记样本，对专家规则集进行模型训练，提升专家规则集的精准度，从而降低资深专家对样本进行手动标记的疲劳度和产生的人工成本；本方案能够使专家规则集能够直接应用于设备智能运维，从而使资深专家的宝贵经验能够应用于设备的智能运维当中，大幅度提高设备智能运维的可靠性和精准性。

Description

一种专家规则集训练方法、训练器和工业设备预警系统

技术领域

本发明涉及工业设备运维领域。更具体地，涉及一种专家规则集训练方法、训练器、电子设备、存储介质和工业设备预警系统。

背景技术

随着工业智能运维的飞速发展，人工故障检测的工作已经逐渐被自动化的故障排查和预警所替代。但是，很多资深专家的宝贵经验，对于工业运维依然具有很大的指导和帮助作用。

目前，在行业应用中，资深专家能够手动标记的样本数量通常非常有限(标记工作本身也是有代价的)，很难支持全样本的监督学习。而专家规则(即资深专家给出的经验判断规则)在设备自动化故障排查和语境中还不够精准，可能会出现专家规则的虚假预警，分析不完备等问题。因此，目前资深专家直接给出的专家规则还无法应用于工业智能运维当中。

发明内容

本发明的目的在于提供一种专家规则集训练方法、训练器、电子设备、存储介质和工业设备预警系统。

为达到上述目的，本方案采用下述技术方案：

第一方面，本方案提供一种专家规则集训练方法，该方法将资深专家手动标记的实际标记样本和利用专家规则集标记的专家规则集标记样本汇总后，对两种标记样本进行权重分配。在分配好权重的实际标记样本和专家规则集标记样本的基础上，对专家规则集进行模型训练，得到专家规则参数和/或易混淆样本数据；

为了是专家规则集的精准度更高，可以基于专家规则参数和/或易混淆样本数据，继续对专家规则集进行模型训练，直至达到预定训练次数或易混淆样本数据的量小于预定阈值。将训练结束时的专家规则参数添加至专家规则集中，形成最终优化后的专家规则集。将优化后的专家规则集应用于工业设备的自动化运维。

第二方面，本方案提供一种规则训练器，该模型训练器包括：

分配模块，对实际标记样本和专家规则集标记样本进行权重分配；

训练模块，基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据；

输出模块，将所述专家规则参数更新至专家规则集中，形成优化后的专家规则集。

第三方面，本方案提供一种设备，包括：存储器，一个或多个处理器；存储器与处理器通过通信总线相连；处理器被配置为执行存储器中的指令；所述存储介质中存储有用于执行如上所述专家规则集训练方法中各个步骤的指令。

第四方面，本方案提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述专家规则集训练方法的步骤。

第五方面，本方案提供一种工业设备预警系统，该系统包括：

数据获取单元，获取设备运行数据；

识别单元，基于上述的专家规则集训练器，对设备运行数据进行识别，获得识别结果；

排查单元，根据数据的识别结果，对设备故障进行预警。

本发明的有益效果如下：

本方案能够根据资深专家手动标记的实际标记样本，对资深专家根据经验提供的专家规则集进行模型训练，优化专家规则集的精准度，从而降低资深专家对样本进行手动标记的疲劳度和产生的人工成本；

本方案能够使专家规则集能够直接应用于设备智能运维，从而使资深专家的宝贵经验能够应用于设备的智能运维当中，大幅度提高设备智能运维的可靠性和精准性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本方案所述专家规则集训练方法的示意图；

图2示出本方案所述专家规则集训练器的示意图；

图3示出本方案所述一种电子设备的示意图；

图4示出本方案所述工业设备预警系统的示意图；

图5示出本方案实例中一组真实数据分布的示意图；

图6示出本方案实例中真实分类边界、专家规则分类边界和资深专家手动标记点的示意图；

图7-1示出本方案实例中以权重1：10进行决策树训练的示意图；

图7-2示出本方案实例中以权重1：10训练后分类机构的示意图；

图8-1示出本方案实例中以权重1：100进行决策树训练的示意图；

图8-2示出本方案实例中以权重1：100训练后分类机构的示意图；

图9-1示出本方案实例中以权重1：500进行决策树训练的示意图；

图9-2示出本方案实例中以权重1：500训练后分类机构的示意图。

具体实施方式

为使本发明的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

经过对现有技术的分析和研究，目前，对于设备运维过程中出现的突发情况预警并不及时，处理并不得当，需要资深专家到场进行技术支持，或者，将数据提供给资深专家进行手动标记识别，这种传统的方式，不但会延误设备故障排查的进度，还会对资深专家带来繁重的工作量，使企业产生更多运营成本。

然而，资深专家所积累的经验，仅能靠人对设备运行的数据进行识别，无法直接应用于设备自动化运维当中。资深专家给出的一些专家规则，往往是一种粗略的经验值，对于现在设备智能运维的精准度要求，还有一定的差距。

因此，本方案意在提供一种专家规则集训练方法，训练器，以及应用所属训练器的工业设备预警系统。该方案能够结合专家标记的少量样本和专家规则集在大量样本集上的预测结果，通过决策树学习等算法进行主动学习，发现专家规则集中的不足之处，从而优化专家规则集，使其满足现在设备智能运维精度的需求，提高设备运维预警准确度。

以下，结合附图对本方案提出的一种专家规则集训练方法进行详细描述。如图1所示，该方法可以包括如下步骤：

步骤S1、对实际标记样本和专家规则集标记样本进行权重分配；

步骤S2、基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据；

步骤S3、将所述专家规则参数更新至专家规则集中，形成优化后的专家规则集。

在本方案步骤S1中，实际标记样本是资深专家通过手动方式标记的少量样本。在实际设备运行过程中，通过一些检测装置能够采集设备的运行数据；在众多数据中，会有一些数据，无法通过专家给出的经验阈值或普通工作人员的工作经验进行识别，从而无法确定设备是否存在故障风险。因此，需要将这些数据进行汇总，邀请一些资深的专家对这些数据进行标记，从而为后续设备运行的故障排查提供依据。

但是，手动标记样本数据的工作既辛苦，成本又高，而且资深专家标记的样本数量相对获得的大量运行数据来说是很少的，作为后续设备运行的故障排查依据还略有不足。因此，还是要结合专家给出的经验阈值一同作为后续设备运行的故障排查依据。

在本方案步骤S1中，可以将资深专家提供的多个经验阈值(即研判阈值或研判参数)形成专家规则集，利用专家规则集对样本进行标记。

具体地，对于很多故障诊断等业务场景，资深专家可以给出多条专家规则，每条专家规则之间是“或”的关系。每条专家规则(Rule)的条件部分(Condition)可以转化表达为多个研判表达(Expression)的“和”的关系。即，

一个研判表达的可以抽象为：f(data frame,op_parameters)>exp_threshold

其中，f(.)是研判函数，data_frame是数据输入，op_parameters是计算中的参数，exp_threshold是研判阈值参数。用数学表达式来描述研判表达可以为：

f_i(x；θ_i)≥α_i

或则简写为

F_i≥α_i

基于上述表达式可以看出，可以通过优化研判阈值(研判参数)来提高专家规则集的精度。

在一种实施例中，专家规则可以如表1所示，以“动平衡不良”指标为例的研判表达如表2所示：

表1专家规则示例

表2研判表达示例

在本方案步骤S1中，需要对实际标记样本和专家规则集标记样本进行权重分配。本方案中，由于实际标记样本是资深专家通过手动标记的样本数据，然而专家规则集标记样本是根据专家规则的计算，获取的标记结果；因此，实际标记样本的准确度和可信度要高于专家规则集标记的样本，在权重分配时，实际标记样本的权重要高于专家规则标记样本。实际标记样本的权重可以高于专家规则集标记样本的十倍及以上，这样在后续训练时，就可以以实际标记样本为核心，快速的优化专家规则集的研判参数。

在一种实施例中，专家规则集标记样本的权重可以采用核函数，即距离分界面越远，权重越高(代表结果越确定)；接近规则分界面的结果，专家也不是特别确定，权重越低。例如，可以给多组权重对比，例如专家规则集标记样本的权重为1，实际标记样本的权重分别为10、100、500、1000等。

在本方案步骤S2中，在分配好权重后，利用分类模型对专家规则集进行训练，得到专家规则参数(即研判阈值或研判参数)，以及易混淆样本数据。本方案中，可以采用决策树、随机森林模型或支持向量机模型等分类模型，对专家规则集进行训练。但是，各种类型的分类模型均会有优缺点，如果仅仅采用一种分类模型进行训练，优化速度慢，且准确度不高，因此，可以选择多分类模型结合的方式对专家规则集进行训练，即同时采用决策树、随机森林模型或支持向量机模型等分类模型中的至少两个，来进行模型训练，从而提高模型的训练速度和提高专家规则参数的准确性。

在本方案步骤S3中，可以直接将训练的到的专家规则参数更新到专家规则集当中，形成优化后的专家规则集。后续可以直接利用专家规则集进行设备运行数据的分类，实现设备故障的自动排查和预警。

不过，对于模型训练来说，仅一次的训练就能得到合适的专家规则参数是比较难的。因此，可以采用模型多次训练的方式，进一步优化专家规则参数。

本方案中，可以将专家规则参数添加至专家规则集中，形成新的专家规则集，利用新的专家规则集进行全样本数据集的标记，形成更新的专家规则集标记样本。将获得的易混淆样本提供给资深专家，利用手动标记的方式对易混淆样本进行标记，并将标记的结果添加到实际标记样本中，形成更新的实际标记样本。

若在上一次训练后，仅获得了易混淆样本数据，则可以将获得的易混淆样本提供给资深专家，利用手动标记的方式对易混淆样本进行标记，并将标记的结果添加到实际标记样本中，形成更新的实际标记样本。之后，根据权重分配的策略，对更新的实际标记样本和专家规则集标记样本(此时专家规则集并未作新的专家规则参数添加)进行权重分配，利用单个分类模型或多个分类模型组合训练的方式，继续对专家训练集进行训练，得到新的专家规则参数和/或易混淆样本数据。

若在上一次训练后，仅获得了专家规则参数，则可以将专家规则参数添加至专家规则集中，形成新的专家规则集，利用新的专家规则集进行全样本数据集的标记，形成更新的专家规则集标记样本。之后，根据权重分配的策略，对实际标记样本(此时实际标记样本并未作新的样本添加)和更新的专家规则集标记样本进行权重分配，利用单个分类模型或多个分类模型组合训练的方式，继续对专家训练集进行训练，得到新的专家规则参数和/或易混淆样本数据。

若在上一次训练后，同时获得了易混淆样本数据和专家规则参数，则可以同时更新更新实际标记样本和专家规则集标记样本。根据权重分配的策略，对更新的实际标记样本和更新的专家规则集标记样本进行权重分配后，利用单个分类模型或多个分类模型组合训练的方式，继续对专家训练集进行训练，得到新的专家规则参数和/或易混淆样本数据。

不断根据上述三种情况的重复模型训练步骤，可以使专家规则参数得到更精准的优化。此处需要注意的是，上述重复训练的过程不能无限循环，因此，可以通过预定训练次数，来结束训练的过程，训练的次数可以根据对专家规则参数的精准度预期来决定。此外，还可以利用获得的易混淆样本数据的量，作为结束训练的截至点，即若易混淆样本数据的量达到预定阈值时，则训练结束。例如，当易混淆样本数据的量小于全体样本数量的5％时，则停止训练。将最终专家规则参数更新到专家规则集中，形成优化后的专家规则集。

本方案中，易混淆样本数据可以为混淆区域数据、结构复杂度达到预定阈值的数据等无法通过分类进行标记的或混淆度达到预定阈值的数据。

在一种实施例中，可以基于单个模型或多个模型组合，利用不同样本的权重对全提样本进行预测，计算每个样本标记的纯度(例如，基尼系数)，选择纯度低于预定值得部分样本作为混淆区域数据。

在另一种实施例中，对于一个决策树的每个叶子结点，假设落入该节点的样本为N，则落入该节点的每个样本的权重为1/N；每个样本点，针对多个决策树，进行权重平均，获得该节点的结构复杂度指数；选择结构复杂度指数高于预定阈值的部分节点作为结构复杂度高的数据。

本方案中，专家规则集标记的样本来源可以采用实际采集的设备运行数据作为未标记的全体岩本数据集，也可以采用预先准备的历史运行数据作为全体样本数据集。为了保证训练的稳定性，在当前轮专家规则参数训练过程中，全体样本数据集尽量不更换。待进一步需要通过其他数据训练或验证专家规则集准确度时，再更换全体样本数据集。

如图2所示，本方案进一步提供了配合上述专家规则集训练方法实施的专家规则集训练器101，该专家规则集训练器包括：分配模块102、训练模块103和输出模块104。该装置在工作时，首先，分配模块102对实际标记样本和专家规则集标记样本进行权重分配；然后，训练模块103基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据；再后，利用输出模块104将所述专家规则参数更新至专家规则集中，形成优化后的专家规则集。

本方案中，分配模块102通过预置的权重分配规则，对实际标记样本和专家规则集标记样本进行权重分配。例如，可以采用核函数，对专家规则集标记样本进行权重配置，随后，基于专家规则集的权重，对实际标记样本的权重配置。

本方案中，训练模块103还可以执行重复模型训练的步骤，即基于专家规则参数和/或易混淆样本数据，继续对专家规则集进行模型训练，直至达到预定训练次数或易混淆样本数据的量小于预定阈值。具体地，训练模块103可以将实际标记的易混淆样本数据，添加到实际标记样本中，形成新的实际标记样本。将添加有新的专家规则参数的专家规则集，对全体样本数据集进行标记，形成新的专家规则集标记样本。随后，按照上一次训练时的权重(也可以调整权重)，基于新的实际标记样本和新的专家规则集标记样本，进行模型训练，获得新的专家规则参数和/或易混淆样本数据。重复训练，直至达到预定训练次数，或，获取的易混淆样本数据的量小于预定阈值为止。在模型训练结束后，将最终获得专家训练参数添加到专家规则集中，形成最终优化后的专家规则集。

本方案还可以在该装置中配置数据获取模块105和标记模块106，通过数据获取模块105获取未标记的全体样本数据集；利用标记模块106对全体样本数据集进行标记，获得专家规则集标记样本。

应当理解，本方案中各模块或单元可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable GateArray，PGA)，现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在上述专家规则集训练方法实施方式的基础上，本方案进一步提供一种计算机可读存储介质。该计算机可读存储介质用于实现上述专家规则集训练方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本方案的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本方案操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在上述专家规则集训练方法实施方式的基础上，本方案进一步提供一种电子设备。图3所示电子设备仅仅是一个示例，不应对本方案实施例的功能和使用范围带来任何限制。

如图3所示，电子设备201以通用计算设备的形式表现。电子设备201的组件可以包括但不限于：至少一个存储单元202、至少一个处理单元203、显示单元204和用于连接不同系统组件的总线205。

其中，所述存储单元202存储有程序代码，所述程序代码可以被所述处理单元203执行，使得所述处理单元203执行上述设备征兆信息获取方法中描述的各种示例性实施方式的步骤。例如，所述处理单元203可以执行如图1中所示的步骤。

存储单元202可以包括易失性存储单元，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

存储单元202还可以包括具有程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线205可以包括数据总线、地址总线和控制总线。

电子设备201也可以与一个或多个外部设备207(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口206进行。应当明白，尽管图中未示出，可以结合电子设备201使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在上述专家规则集规则训练器101实施方式的基础上，本方案进一步提供一种将上述专家规则集规则训练器101应用于工业设备预警系统。

如图4所示，该系统作为为用户提供检索设备运维信息的工具，可以包括如下几个部分：数据获取单元401、识别单元402和排查单元403。

本方案中，数据获取单元401能够实时获取设备运行的数据，在未被识别单元调取时，可以将获取的设备运行数据进行存储。识别单元402可以直接嵌入由专家规则训练器训练好的专家规则集，利用训练好的专家规则集对设备运行数据进行识别，得到标记的数据结果。最后，利用排查单元，根据数据的识别结果。对设备故障进行预警或排查。

本方案中，工业设备预警系统可以安装在客户的设备运营平台上，也可以预装在服务器上，客户可以通过远程登录，随时了解设备运行状态。专家规则集训练器可以作为模型的训练装置，独立于工业设备预警系统使用，即专家规则集训练器仅进行模型训练，将训练好的专家规则集嵌入工业设备预警系统即可。也可以，将专家规则集训练器配置到工业设备预警系统内，支持用户按照实际需求自行调整模型，适应工业设备预警系统使用。

下面通过实例对本方案作进一步说明。

本实例以图5所示的数据为例，对专家规则集训练方法进行描述。目前，图5给出了背后真实的数据分布(假定工作人员并不知晓)，其中包含4096个点，“x”表示类别1，“·”表示类别2，灰色的线条表示两个类别的分界面，x1代表特征变量1，x2是特征变量2。图5中左上角(X₁<0.2,X₂>0.5)、左下角(X₁ ²+X₂ ²<0.09)和右侧(X₁>0.8)的区域是目标类别，便于后续训练的对比。

假设初始版本的专家规则是X₁<0.2或X₁>0.75，分界线如图6中的绿色直线所示。为了优化专家规则参数，假定第一轮专家对44个点进行了标记(假设专家手工标记的结构是正确的)，在图6中用Δ符号表示。图6中分别展示了真实分类边界、专家规则的边界和资深专家手动标记的点。根据上数据，开始对实际标记样本(资深专家手动标记的点)和专家规则集标记样本(专家规则集边界)进行权重分配。

例如，专家规则集标记样本的权重(weight)为1，实际标记样本的权重(weight)为10，基于决策树算法的模型结果，如图7-1，在顶级节点上采用X₁在0.75附近分割，X₁<0.7553成立的走左边研判分支，X₁<0.7553不成立的走右边分支(对应的叶子节点的预测结果是TRUE,即“目标类别”)。X₁<0.7553的左分支，根据X₁>＝0.2条件是否成立决定走哪个分支，X₁>＝0.2条件成立的走左分支，该分支对应的叶子节点的类别是FALSE(即“其他类别”，左分支FALSE在数据样本集上有2391个其他类别，只有135个是目标类别，故该分支的预测结果是“其他类别”)；X₁>＝0.2条件不成立的走右分支，该分支对应的叶子节点的类别是TRUE(即“目标类别”)。如图7-2所示，决策树模型的预测结果中，颜色深浅表示属于目标类别的概率(概率越大，颜色越浅)。通过模型训练能够看出，专家规则集标记样本与实际标记样本权重比为1：10的情况下，数据分类结果与实际相差较大。

例如，专家规则集标记样本的权重为1，实际标记样本的权重为100，基于决策树算法的模型结果，如图8-1所示，在顶级节点上采用X₁在0.79附近分割，X₁<0.7972成立的走左边研判分支，X₁<0.7963不成立的走右边分支。X₁<0.7972的左分支，根据X₁在0.2左右进一步分割，X₁>＝0.2756成立的走左分支，X₁>＝0.2756不成立的走右分支。X₁>＝0.2756不成立的右分支，根据X₂>＝0.2596条件是否成立进一步分割，其左分支(即X₂>＝0.2596成立)，根据X₁>＝0.1997继续分割，它的右分支需要根据X₂<0.4869最终分割。如图8-2所示，决策树模型的预测结果中，颜色深浅表示属于目标类别的概率(概率越大，颜色越浅)。明显看出右侧的分类结果的准确性有很大程度的提升，分类结果的准确性很好，与标记样本吻合，但模型也有些过度复杂(切割过细)。继续加大权重，可以让模型训练结果与标记样本吻合度进一步提高，但模型复杂度也在不断增加。

在一个具体的应用领域，专家通常可以提供一个潜在的重要但不在当前专家规则中的特征变量，融入这些变量，有可能将训练模型的复杂度降低。下面，假设专家给出了领域特征变量

但该特征变量没有出现在初始的专家规则中，将其引入模型训练

例如，专家规则集标记样本的权重为1，实际标记样本的权重为500，引入领域特征变量F₁，基于决策树算法的模型结果，如图9-1所示，在顶级节点上采用X₁在0.79附近分割，X₁<0.7972成立的走左边研判分支，X₁<0.7972不成立的走右边分支。X₁<0.7972的左分支，根据F₁在0.86左右进一步分割，F₁>＝0.08631成立的走左分支，F₁>＝0.08631不成立的走右分支。右分支(F₁<0.08631)与离线的分界条件

比较接近。如图9-2所示，决策树模型的预测结果中，颜色深浅表示属于目标类别的概率(概率越大，颜色越浅)。通过进一步的主动样本标记，可以获得更加吻合理想情形且结构复杂度适中的模型。

本方案训练的目的在于结合资深专家提供的经验，将资深专家提供的大致专家规则参数进行优化，使专家规则参数组成的专家规则集的分类结果更加接近真实情况，因此，在训练过程中，可以设定若报警率达到1％至％5时，即可停止训练，将最终更新后的专家训练集作为工业设备预警的分类模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种专家规则集训练方法，其特征在于，该方法的步骤包括：

对实际标记样本和专家规则集标记样本进行权重分配；

基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据；

将所述专家规则参数更新至专家规则集中，形成优化后的专家规则集。

2.根据权利要求1所述的方法，其特征在于，所述基于分配权重的实际标记样本和专家规则集标记样本进行模型训练，获得专家规则参数和/或易混淆样本数据的步骤之后还包括：

基于专家规则参数和/或易混淆样本数据，继续对专家规则集进行模型训练，直至达到预定训练次数或易混淆样本数据的量小于预定阈值。

3.根据权利要求2所述的方法，其特征在于，所述基于专家规则参数和/或易混淆样本数据，继续对专家规则集进行模型训练，直至达到预定训练次数或易混淆样本数据的量小于预定阈值的步骤包括：

对易混淆样本数据进行实际标记，并添加到实际标记样本中，更新实际标记样本；和/或，

将专家规则参数添加至专家规则集中，更新专家规则集标记样本；

基于更新的实际标记样本和/或更新的规则标记样本，继续分配权重进行模型训练，获得新的专家规则参数和/或新的易混淆样本数据；

重复上述模型训练步骤，直至达到预定训练次数，或，获取的易混淆样本数据的量小于预定阈值，则停止训练。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述对实际标记样本和专家规则集标记样本进行权重分配步骤的前一步包括：

获取未标记的全体样本数据集；

所述专家规则集对全体样本数据集进行标记，获得专家规则集标记样本。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述对实际标记样本和专家规则集标记样本进行权重分配的步骤包括：

采用核函数，确定专家规则集标记样本的权重；

实际标记样本的权重大于或等于十倍的规则标记样本的权重。

6.一种专家规则集规则训练器，其特征在于，该模型训练器包括：

7.根据权利要求6所述的规则训练器，其特征在于，所述训练模块还执行如下步骤：

8.一种设备，其特征在于，包括：存储器，一个或多个处理器；存储器与处理器通过通信总线相连；处理器被配置为执行存储器中的指令；所述存储介质中存储有用于执行如权利要求1至5任一项所述方法中各个步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。

10.一种工业设备预警系统，其特征在于，该系统包括：

数据获取单元，获取设备运行数据；

识别单元，基于权利要求6或7所述的专家规则集训练器，对设备运行数据进行识别，获得识别结果；

排查单元，根据数据的识别结果，对设备故障进行预警。