CN112131516A

CN112131516A - 一种基于特征权值混合朴素贝叶斯模型的异常检测方法

Info

Publication number: CN112131516A
Application number: CN202010902478.9A
Authority: CN
Inventors: 周东华; 陈茂银; 王敏; 纪洪泉; 高明
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-25
Anticipated expiration: 2040-09-01
Also published as: CN112131516B

Abstract

本发明提出了一种基于特征权值混合朴素贝叶斯模型的异常检测方法，属于故障检测领域。本发明通过对连续变量构建辅助二值变量将混合变量的相关性刻画进行统一，给与类别相关程度越大的变量分配越大的权值，构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型。本发明与传统方法相比，因与类别相关程度更大的变量具有更大的特征权值，使得更具判别能力的变量对异常检测的贡献越大，从而对过程工业中异常的检测具有更高的性能。

Description

一种基于特征权值混合朴素贝叶斯模型的异常检测方法

技术领域

本发明属于故障诊断领域，具体涉及一种基于特征权值混合朴素贝叶斯模型的异常检测方法。

背景技术

随着设备不断的智能化、集成化，大规模工业系统中存在大量的二值变量(存储值为0或者1)。与此同时为了保证工业过程的高可靠性和安全性，异常监测问题变得越来越重要。及时准确的异常监测可以有效减少资源浪费、经济损失甚至人员伤亡。

传统的故障检测方法大都基于连续变量进行，而在数据预处理阶段将二值变量删除。二值变量可以有效的反应过程状态以及部分变量数值范围，其从一种状态切换到另一种状态受到过程波动噪声的影响较小。因此合理高效的同时利用连续变量和二值变量进行工业过程的异常监测就显得尤为重要。

发明内容

针对工业过程中现有技术基本只能处理连续变量的现状，本发明提出了一种基于特征权值混合朴素贝叶斯模型的异常检测方法，该方法给与类别关联越大的变量分配越大的权值，并可以同时有效的利用连续变量和二值变量来进行异常检测分析，因其克服了现有技术的不足，具有良好的效果。

为了实现上述目的，本发明采用如下技术方案：

包括离线建模阶段和在线检测阶段；

离线建模阶段：将历史数据划分为连续变量集和二值变量集，对连续变量构建辅助二值变量，将混合变量的相关性刻画进行统一，给与类别相关程度越大的变量分配越大的权值，构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型；

在线检测阶段：对新采样数据构造

获得新采样数据的预测工况类别，将预测工况类别与数据标签比较，判断是否发生故障。

优选地，离线建模阶段包括如下步骤：

步骤1.1：包含n个采样样本的历史数据集

其中i表示采样时间，X为历史数据，y为对应的数据标签，X_i为X第i时刻的值，y_i为y第i时刻的值，y_i∈{1,2,...,K}，K为X的总类别数，X_i包含p维特征，

表示实数域，将X根据连续变量和二值变量的特征划分为X_c和X_t。连续变量集X_c包含p₁个特征，二值变量集X_t包含p₂个特征；

步骤1.2：当x_j∈X_c时假设其服从高斯分布：

其中x_j表示X_c的第j个变量，k为y_i的具体取值，P_c(x_j|y＝k)为连续变量的条件概率密度函数，μ_kj为第j个变量标签为k的所有历史数据的均值，σ_kj为第j个变量标签为k的所有历史数据的标准差；

步骤1.3：当x_j∈X_t时假设其服从伯努利分布：

其中x_j为X_t的第j个变量，P_t(x_j|y＝k)为二值变量的条件概率，θ_kj为第j个变量在k标签下的响应函数；

步骤1.4：计算连续变量的均值：

其中π_ik＝1{y_i＝k}，x_ij为x_j的第i时刻的值；

步骤1.5：计算连续变量的标准差：

步骤1.6：计算先验概率

步骤1.7：计算响应函数

步骤1.8：假设

对1≤k≤K-1按公式(7)进行处理：

其中ξ为一很小的正数，通常取ξ＝0.000001，k表示类别数，取值为{1,2,...,K}，当k＝K时，

步骤1.9：假设

对1≤k≤K-1按公式(9)进行处理：

当k＝K时，

步骤1.10：当x_j∈X_c时，针对x_j:{x_1j,x_2j,...,x_ij,...,x_nj}构造辅助二值变量x′_j:{x′_1j,x′_2j,...,x′_ij,...,x′_nj}

其中x′_ij为x′_j第i个时刻的值，x_ij为x_j第i个时刻的值，

步骤1.11：对变量x_j计算如下的概率，若x_j为连续变量则用其对应的辅助二值变量代替：

其中

为x_ij的取非运算，即

步骤1.12：对变量x_j和x_j′计算如下的中间参数

和

若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替：

步骤1.13：对变量x_j和x_j′计算如下的概率，若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替：

步骤1.14：计算变量x_j和x_j′之间的互信息MI(x_j,x_j′)，若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替：

步骤1.15：计算变量x_j和类别y之间的互信息MI(x_j,y)，若x_j为连续变量则用其对应的辅助二值变量代替：

步骤1.16：计算第j个变量的相关指数CI_j：

步骤1.17：对相关指数CI_j进行如下处理得到第j个变量的特征权值FW_j，对特征权值FW_j进行归一化处理使其满足(24)：

步骤1.18：建立如下的模型，得到数据标签：

其中P(y＝k|X)为已知X的条件下y＝k的概率，y为P(y＝k|X)取最大值时k的值，

为采样数据的增广向量，

为由响应函数、先验概率和特征权值构造的向量，φ_k为由连续变量的分布概率和权值的构造值；

其中[·]^T表示转置运算；

优选地，在线检测阶段包括如下步骤：

步骤2.1：对于新采样数据X_new构造

步骤2.2：对每一个k计算

代入步骤1中建立的模型

即为新采样数据的预测工况类别；

步骤2.3：将预测工况类别与步骤1得到的数据标签比较，若预测工况类别与正常数据标签相同则认定为正常，若预测工况类别与故障数据标签一致，则认为发生故障。

本发明所带来的有益技术效果：

本发明提出一种称为基于特征权值混合朴素贝叶斯模型的异常检测方法，通过对连续变量构建辅助二值变量将混合变量的相关性刻画进行统一，给与类别相关程度越大的变量分配越大的权值，构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型。本发明与传统方法相比，因与类别相关程度更大的变量具有更大的特征权值，使得更具判别能力的变量对异常检测的贡献越大，从而对过程工业中异常的检测具有更高的性能。可以显著的减少故障误报率并有效的提高故障检测率。

附图说明

图1为仿真研究结果图；

其中，图(a)为仅应用连续变量时高斯朴素贝叶斯模型(GNBM)对测试数据的标签指示图；图(b)为仅应用二值变量时伯努利素贝叶斯模型(BNBM)对测试数据的标签指示图，图(c)为应用连续变量和二值变量时混合隐朴素贝叶斯模型(MHNBM)对测试数据的标签指示图；图(d)为应用连续变量和二值变量时特征权值混合朴素贝叶斯模型(FWMNBM)对测试数据的标签指示图。

图2为本发明基于特征权值混合朴素贝叶斯模型的异常检测方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

一种基于特征权值混合朴素贝叶斯模型的异常检测方法，其流程如图2所示，包括离线建模阶段和在线检测阶段。

离线建模阶段包括如下步骤：

步骤1.1：包含n个采样样本的历史数据集

其中i表示采样时间，X为历史数据，y为对应的标签，X_i为X第i时刻的值，y_i为y第i时刻的值，y_i∈{1,2,...,K}，K为X的总类别数，X_i包含p维特征，

步骤1.2：当x_j∈X_c时假设其服从高斯分布：

步骤1.3：当x_j∈X_t时假设其服从伯努利分布：

步骤1.4：计算连续变量的均值：

其中π_ik＝1{y_i＝k}，x_ij为x_j的第i时刻的值；

步骤1.5：计算连续变量的标准差：

步骤1.6：计算先验概率

步骤1.7：计算响应函数

步骤1.8：假设

对1≤k≤K-1按公式(7)进行处理：

步骤1.9：假设

对1≤k≤K-1按公式(9)进行处理：

当k＝K时，

其中x′_ij为x′_j第i个时刻的值，x_ij为x_j第i个时刻的值，

步骤1.11：对变量x_j计算如下的概率(若x_j为连续变量则用其对应的辅助二值变量代替)：

其中

为x_ij的取非运算，即

步骤1.12：对变量x_j和x_j′计算如下的中间参数

和

(若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替)：

步骤1.13：对变量x_j和x_j′计算如下的概率(若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替)：

步骤1.14：计算变量x_j和x_j′之间的互信息MI(x_j,x_j′)(若x_j或者x_j′为连续变量则用其对应的辅助二值变量代替)：

步骤1.15：计算变量x_j和类别y之间的互信息MI(x_j,y)(若x_j为连续变量则用其对应的辅助二值变量代替)(MI(x_j,y)的计算所需的中间参数与MI(x_j,x_j′)计算过程相同)：

步骤1.16：计算第j个变量的相关指数CI_j：

步骤1.18：建立如下的模型，得到数据标签：

为采样数据的增广向量，

其中[·]^T表示转置运算；

在线检测阶段包括如下步骤：

步骤2.1：对于新采样数据X_new构造

步骤2.2：对每一个k计算

代入步骤1中建立的模型

即为新采样数据的预测工况类别；

接下来用仿真实例来验证此发明方法的可行性：

仿真实例包含10个变量，其中5个连续变量x₁,x₂,x₃,x₄,x₅，5个二值变量x₆,x₇,x₈,x₉,x₁₀。连续变量服从高斯分布，不同工况下的均值和标准差分别如表1和表2所示。二值变量在不同工况下的数值如表3所示。为了适应更一般的情况，对不同工况下二值变量进行随机数值翻转，调整比例如表3所示。按照预设参数分别产生3000个训练数据和3000个测试数据，即每一个工况产生1500个数据。训练数据中前1500个数据为正常工况1的数据，后1500个为故障工况1的数据。测试数据中前一半的数据为正常工况2的数据，后一半为故障工况2的数据。

表1连续变量均值

表2连续变量标准差

表3二值变量参数

仅用连续数据时测试数据的标签如图1(a)所示，仅用二值数据时测试数据的标签(即预测工况类别)如图1(b)所示，混合隐朴素贝叶斯模型对测试数据输出的标签如图1(c)所示，特征权值混合朴素贝叶斯模型对测试数据输出的标签如图1(d)所示。从图1可以看出，当仅用连续变量或者二值变量时，输出测试数据标签存在大量的误报和漏报。当将连续变量和二值变量同时输入所提出的模型时，很明显的减少了正常工况下的误报和异常工况下的漏报。与混合隐朴素贝叶斯模型，特征权值混合朴素贝叶斯模型具有更好的测试结果。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。