CN112131516A - 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 - Google Patents
一种基于特征权值混合朴素贝叶斯模型的异常检测方法 Download PDFInfo
- Publication number
- CN112131516A CN112131516A CN202010902478.9A CN202010902478A CN112131516A CN 112131516 A CN112131516 A CN 112131516A CN 202010902478 A CN202010902478 A CN 202010902478A CN 112131516 A CN112131516 A CN 112131516A
- Authority
- CN
- China
- Prior art keywords
- variable
- data
- continuous
- variables
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于特征权值混合朴素贝叶斯模型的异常检测方法,属于故障检测领域。本发明通过对连续变量构建辅助二值变量将混合变量的相关性刻画进行统一,给与类别相关程度越大的变量分配越大的权值,构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型。本发明与传统方法相比,因与类别相关程度更大的变量具有更大的特征权值,使得更具判别能力的变量对异常检测的贡献越大,从而对过程工业中异常的检测具有更高的性能。
Description
技术领域
本发明属于故障诊断领域,具体涉及一种基于特征权值混合朴素贝叶斯模型的异常检测方法。
背景技术
随着设备不断的智能化、集成化,大规模工业系统中存在大量的二值变量(存储值为0或者1)。与此同时为了保证工业过程的高可靠性和安全性,异常监测问题变得越来越重要。及时准确的异常监测可以有效减少资源浪费、经济损失甚至人员伤亡。
传统的故障检测方法大都基于连续变量进行,而在数据预处理阶段将二值变量删除。二值变量可以有效的反应过程状态以及部分变量数值范围,其从一种状态切换到另一种状态受到过程波动噪声的影响较小。因此合理高效的同时利用连续变量和二值变量进行工业过程的异常监测就显得尤为重要。
发明内容
针对工业过程中现有技术基本只能处理连续变量的现状,本发明提出了一种基于特征权值混合朴素贝叶斯模型的异常检测方法,该方法给与类别关联越大的变量分配越大的权值,并可以同时有效的利用连续变量和二值变量来进行异常检测分析,因其克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
包括离线建模阶段和在线检测阶段;
离线建模阶段:将历史数据划分为连续变量集和二值变量集,对连续变量构建辅助二值变量,将混合变量的相关性刻画进行统一,给与类别相关程度越大的变量分配越大的权值,构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型;
优选地,离线建模阶段包括如下步骤:
步骤1.1:包含n个采样样本的历史数据集其中i表示采样时间,X为历史数据,y为对应的数据标签,Xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,...,K},K为X的总类别数,Xi包含p维特征,表示实数域,将X根据连续变量和二值变量的特征划分为Xc和Xt。连续变量集Xc包含p1个特征,二值变量集Xt包含p2个特征;
步骤1.2:当xj∈Xc时假设其服从高斯分布:
其中xj表示Xc的第j个变量,k为yi的具体取值,Pc(xj|y=k)为连续变量的条件概率密度函数,μkj为第j个变量标签为k的所有历史数据的均值,σkj为第j个变量标签为k的所有历史数据的标准差;
步骤1.3:当xj∈Xt时假设其服从伯努利分布:
其中xj为Xt的第j个变量,Pt(xj|y=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.4:计算连续变量的均值:
其中πik=1{yi=k},xij为xj的第i时刻的值;
步骤1.5:计算连续变量的标准差:
其中ξ为一很小的正数,通常取ξ=0.000001,k表示类别数,取值为{1,2,...,K},当k=K时,
当k=K时,
步骤1.10:当xj∈Xc时,针对xj:{x1j,x2j,...,xij,...,xnj}构造辅助二值变量x′j:{x′1j,x′2j,...,x′ij,...,x′nj}
步骤1.11:对变量xj计算如下的概率,若xj为连续变量则用其对应的辅助二值变量代替:
步骤1.13:对变量xj和xj′计算如下的概率,若xj或者xj′为连续变量则用其对应的辅助二值变量代替:
步骤1.14:计算变量xj和xj′之间的互信息MI(xj,xj′),若xj或者xj′为连续变量则用其对应的辅助二值变量代替:
步骤1.15:计算变量xj和类别y之间的互信息MI(xj,y),若xj为连续变量则用其对应的辅助二值变量代替:
步骤1.16:计算第j个变量的相关指数CIj:
步骤1.17:对相关指数CIj进行如下处理得到第j个变量的特征权值FWj,对特征权值FWj进行归一化处理使其满足(24):
步骤1.18:建立如下的模型,得到数据标签:
其中[·]T表示转置运算;
优选地,在线检测阶段包括如下步骤:
步骤2.3:将预测工况类别与步骤1得到的数据标签比较,若预测工况类别与正常数据标签相同则认定为正常,若预测工况类别与故障数据标签一致,则认为发生故障。
本发明所带来的有益技术效果:
本发明提出一种称为基于特征权值混合朴素贝叶斯模型的异常检测方法,通过对连续变量构建辅助二值变量将混合变量的相关性刻画进行统一,给与类别相关程度越大的变量分配越大的权值,构建能同时挖掘连续变量和二值变量信息的特征权值混合朴素贝叶斯模型。本发明与传统方法相比,因与类别相关程度更大的变量具有更大的特征权值,使得更具判别能力的变量对异常检测的贡献越大,从而对过程工业中异常的检测具有更高的性能。可以显著的减少故障误报率并有效的提高故障检测率。
附图说明
图1为仿真研究结果图;
其中,图(a)为仅应用连续变量时高斯朴素贝叶斯模型(GNBM)对测试数据的标签指示图;图(b)为仅应用二值变量时伯努利素贝叶斯模型(BNBM)对测试数据的标签指示图,图(c)为应用连续变量和二值变量时混合隐朴素贝叶斯模型(MHNBM)对测试数据的标签指示图;图(d)为应用连续变量和二值变量时特征权值混合朴素贝叶斯模型(FWMNBM)对测试数据的标签指示图。
图2为本发明基于特征权值混合朴素贝叶斯模型的异常检测方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
一种基于特征权值混合朴素贝叶斯模型的异常检测方法,其流程如图2所示,包括离线建模阶段和在线检测阶段。
离线建模阶段包括如下步骤:
步骤1.1:包含n个采样样本的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,Xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,...,K},K为X的总类别数,Xi包含p维特征,表示实数域,将X根据连续变量和二值变量的特征划分为Xc和Xt。连续变量集Xc包含p1个特征,二值变量集Xt包含p2个特征;
步骤1.2:当xj∈Xc时假设其服从高斯分布:
其中xj表示Xc的第j个变量,k为yi的具体取值,Pc(xj|y=k)为连续变量的条件概率密度函数,μkj为第j个变量标签为k的所有历史数据的均值,σkj为第j个变量标签为k的所有历史数据的标准差;
步骤1.3:当xj∈Xt时假设其服从伯努利分布:
其中xj为Xt的第j个变量,Pt(xj|y=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.4:计算连续变量的均值:
其中πik=1{yi=k},xij为xj的第i时刻的值;
步骤1.5:计算连续变量的标准差:
其中ξ为一很小的正数,通常取ξ=0.000001,k表示类别数,取值为{1,2,...,K},当k=K时,
当k=K时,
步骤1.10:当xj∈Xc时,针对xj:{x1j,x2j,...,xij,...,xnj}构造辅助二值变量x′j:{x′1j,x′2j,...,x′ij,...,x′nj}
步骤1.11:对变量xj计算如下的概率(若xj为连续变量则用其对应的辅助二值变量代替):
步骤1.13:对变量xj和xj′计算如下的概率(若xj或者xj′为连续变量则用其对应的辅助二值变量代替):
步骤1.14:计算变量xj和xj′之间的互信息MI(xj,xj′)(若xj或者xj′为连续变量则用其对应的辅助二值变量代替):
步骤1.15:计算变量xj和类别y之间的互信息MI(xj,y)(若xj为连续变量则用其对应的辅助二值变量代替)(MI(xj,y)的计算所需的中间参数与MI(xj,xj′)计算过程相同):
步骤1.16:计算第j个变量的相关指数CIj:
步骤1.17:对相关指数CIj进行如下处理得到第j个变量的特征权值FWj,对特征权值FWj进行归一化处理使其满足(24):
步骤1.18:建立如下的模型,得到数据标签:
其中[·]T表示转置运算;
在线检测阶段包括如下步骤:
步骤2.3:将预测工况类别与步骤1得到的数据标签比较,若预测工况类别与正常数据标签相同则认定为正常,若预测工况类别与故障数据标签一致,则认为发生故障。
接下来用仿真实例来验证此发明方法的可行性:
仿真实例包含10个变量,其中5个连续变量x1,x2,x3,x4,x5,5个二值变量x6,x7,x8,x9,x10。连续变量服从高斯分布,不同工况下的均值和标准差分别如表1和表2所示。二值变量在不同工况下的数值如表3所示。为了适应更一般的情况,对不同工况下二值变量进行随机数值翻转,调整比例如表3所示。按照预设参数分别产生3000个训练数据和3000个测试数据,即每一个工况产生1500个数据。训练数据中前1500个数据为正常工况1的数据,后1500个为故障工况1的数据。测试数据中前一半的数据为正常工况2的数据,后一半为故障工况2的数据。
表1连续变量均值
表2连续变量标准差
表3二值变量参数
仅用连续数据时测试数据的标签如图1(a)所示,仅用二值数据时测试数据的标签(即预测工况类别)如图1(b)所示,混合隐朴素贝叶斯模型对测试数据输出的标签如图1(c)所示,特征权值混合朴素贝叶斯模型对测试数据输出的标签如图1(d)所示。从图1可以看出,当仅用连续变量或者二值变量时,输出测试数据标签存在大量的误报和漏报。当将连续变量和二值变量同时输入所提出的模型时,很明显的减少了正常工况下的误报和异常工况下的漏报。与混合隐朴素贝叶斯模型,特征权值混合朴素贝叶斯模型具有更好的测试结果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (3)
2.如权利要求1所述的一种基于特征权值混合朴素贝叶斯模型的异常检测方法,其特征在于,离线建模阶段包括如下步骤:
步骤1.1:包含n个采样样本的历史数据集其中i表示采样时间,X为历史数据,y为对应的数据标签,Xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,...,K},K为X的总类别数,Xi包含p维特征,表示实数域,将X根据连续变量和二值变量的特征划分为Xc和Xt,连续变量集Xc包含p1个特征,二值变量集Xt包含p2个特征;
步骤1.2:当xj∈Xc时假设其服从高斯分布:
其中xj表示Xc的第j个变量,k为yi的具体取值,Pc(xj|y=k)为连续变量的条件概率密度函数,μkj为第j个变量标签为k的所有历史数据的均值,σkj为第j个变量标签为k的所有历史数据的标准差;
步骤1.3:当xj∈Xt时假设其服从伯努利分布:
其中xj为Xt的第j个变量,Pt(xj|y=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.4:计算连续变量的均值:
其中πik=1{yi=k},xij为xj的第i时刻的值;
步骤1.5:计算连续变量的标准差:
其中ξ为一很小的正数,通常取ξ=0.000001,k表示类别数,取值为{1,2,...,K},当k=K时,
当k=K时,
步骤1.10:当xj∈Xc时,针对xj:{x1j,x2j,...,xij,...,xnj}构造辅助二值变量x′j:{x′1j,x′2j,...,x′ij,...,x′nj},
步骤1.11:对变量xj计算如下的概率,若xj为连续变量则用其对应的辅助二值变量代替:
步骤1.13:对变量xj和xj′计算如下的概率,若xj或者xj′为连续变量则用其对应的辅助二值变量代替:
步骤1.14:计算变量xj和xj′之间的互信息MI(xj,xj′),若xj或者xj′为连续变量则用其对应的辅助二值变量代替:
步骤1.15:计算变量xj和类别y之间的互信息MI(xj,y),若xj为连续变量则用其对应的辅助二值变量代替:
步骤1.16:计算第j个变量的相关指数CIj:
步骤1.17:对相关指数CIj进行如下处理得到第j个变量的特征权值FWj,对特征权值FWj进行归一化处理使其满足(24):
步骤1.18:建立如下的模型,得到数据标签:
其中[·]T表示转置运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010902478.9A CN112131516B (zh) | 2020-09-01 | 2020-09-01 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010902478.9A CN112131516B (zh) | 2020-09-01 | 2020-09-01 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131516A true CN112131516A (zh) | 2020-12-25 |
CN112131516B CN112131516B (zh) | 2022-11-11 |
Family
ID=73848454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010902478.9A Active CN112131516B (zh) | 2020-09-01 | 2020-09-01 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131516B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN113885371A (zh) * | 2021-09-18 | 2022-01-04 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198119A1 (en) * | 2012-01-09 | 2013-08-01 | DecisionQ Corporation | Application of machine learned bayesian networks to detection of anomalies in complex systems |
CN107169515A (zh) * | 2017-05-10 | 2017-09-15 | 杭州电子科技大学 | 一种基于改进朴素贝叶斯的个人收入分类方法 |
US20190188212A1 (en) * | 2016-07-27 | 2019-06-20 | Anomalee Inc. | Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces |
CN111414943A (zh) * | 2020-03-11 | 2020-07-14 | 山东科技大学 | 一种基于混合隐朴素贝叶斯模型的异常检测方法 |
-
2020
- 2020-09-01 CN CN202010902478.9A patent/CN112131516B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198119A1 (en) * | 2012-01-09 | 2013-08-01 | DecisionQ Corporation | Application of machine learned bayesian networks to detection of anomalies in complex systems |
US20190188212A1 (en) * | 2016-07-27 | 2019-06-20 | Anomalee Inc. | Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces |
CN107169515A (zh) * | 2017-05-10 | 2017-09-15 | 杭州电子科技大学 | 一种基于改进朴素贝叶斯的个人收入分类方法 |
CN111414943A (zh) * | 2020-03-11 | 2020-07-14 | 山东科技大学 | 一种基于混合隐朴素贝叶斯模型的异常检测方法 |
Non-Patent Citations (1)
Title |
---|
闫戈: ""基于大数据的频谱分析算法的研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN112651444B (zh) * | 2020-12-29 | 2022-08-02 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN113885371A (zh) * | 2021-09-18 | 2022-01-04 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
CN113885371B (zh) * | 2021-09-18 | 2024-01-19 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112131516B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | LSTM-based analysis of industrial IoT equipment | |
Jiang et al. | Data-driven two-dimensional deep correlated representation learning for nonlinear batch process monitoring | |
CN112906764B (zh) | 基于改进bp神经网络的通信安全设备智能诊断方法及系统 | |
CN111340110B (zh) | 一种基于工业过程运行状态趋势分析的故障预警方法 | |
CN112131516B (zh) | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 | |
CN109871002B (zh) | 基于张量标签学习的并发异常状态识别与定位系统 | |
Wei et al. | A novel deep learning model based on target transformer for fault diagnosis of chemical process | |
Wang et al. | Data-driven optimized distributed dynamic PCA for efficient monitoring of large-scale dynamic processes | |
CN111414943B (zh) | 一种基于混合隐朴素贝叶斯模型的异常检测方法 | |
CN111122811A (zh) | 一种oica和rnn融合模型的污水处理过程故障监测方法 | |
Joung et al. | Development and application of a method for real time motor fault detection | |
CN111367253B (zh) | 基于局部自适应标准化的化工系统多工况故障检测方法 | |
Ahmadi et al. | Fault detection Automation in Distributed Control Systems using Data-driven methods: SVM and KNN | |
CN112904810B (zh) | 基于有效特征选择的流程工业非线性过程监测方法 | |
Xu et al. | Global attention mechanism based deep learning for remaining useful life prediction of aero-engine | |
Jiang et al. | Optimal variable transmission for distributed local fault detection incorporating RA and evolutionary optimization | |
Song et al. | Telemetry data-based spacecraft anomaly detection using generative adversarial networks | |
CN116109039A (zh) | 一种数据驱动异常检测与预警系统 | |
Zheng et al. | Between-class difference analysis based multidimensional RBC for multivariate fault isolation of industrial processes | |
CN116011982A (zh) | 一种磨煤机磨辊断裂在线监测方法及系统 | |
CN112651444B (zh) | 一种基于自学习的非平稳过程异常检测方法 | |
Yu et al. | Knowledge reasoning of transmission line component detection using CRITIC and TOPSIS approaches | |
Ma et al. | Process monitoring of the pneumatic control valve using canonical variate analysis | |
Yang et al. | Anomaly detection of automobile welding workstation based on stacked autoencoders and long short-term memory network | |
Tan et al. | Research on Fault Prediction Model Based on 5G Data Center |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |