CN111414943A - 一种基于混合隐朴素贝叶斯模型的异常检测方法 - Google Patents
一种基于混合隐朴素贝叶斯模型的异常检测方法 Download PDFInfo
- Publication number
- CN111414943A CN111414943A CN202010164039.2A CN202010164039A CN111414943A CN 111414943 A CN111414943 A CN 111414943A CN 202010164039 A CN202010164039 A CN 202010164039A CN 111414943 A CN111414943 A CN 111414943A
- Authority
- CN
- China
- Prior art keywords
- label
- variables
- variable
- probability
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于混合隐朴素贝叶斯模型的异常检测方法,属于故障诊断领域。本发明通过对连续变量和二值变量的选择,考虑连续变量与连续变量、二值变量与二值变量、二值变量与连续变量之间的相关性,构建同时包含连续变量和二值变量信息的混合隐朴素贝叶斯模型。本发明与传统方法相比,因加入二值变量的信息,对过程工业中异常的检测具有更高的性能,可以显著的减少故障误报率并有效的提高故障检测率。
Description
技术领域
本发明属于故障诊断领域,具体涉及一种基于混合隐朴素贝叶斯模型的异常检测方法。
背景技术
随着大数据时代的到来,呈指数增长的大量工业数据为故障检测带来了新的巨大挑战。挑战之一就是如何高效的利用不同类型的数据进行故障检测。工业过程中存在大量的表示状态或者数值范围的变量,其通常储存为0和1两种数值的形式,我们称这一类变量为二值变量(或者开关变量)。传统的故障检测方法基本都是基于连续变量进行的,而二值变量在数据预处理阶段就被清除掉。显然,二值变量也包含一定的工业过程信息,在数据预处理阶段直接被删除必然会导致部分信息的丢失。
发明内容
针对工业过程中现有技术基本只能处理连续变量的现状,本发明提出了一种基于混合隐朴素贝叶斯模型的异常检测方法,该方法同时利用连续变量和二值变量来进行异常检测分析,因其克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
一种基于混合隐朴素贝叶斯模型的异常检测方法,包括如下步骤:
步骤1:变量选择,具体包括如下步骤:
步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,…,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;
步骤1.2:当xj∈xc时假设
其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;
当xj∈xb时假设
其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.3:通过公式(3)和(4)对连续变量参数进行估计:
当k=c时,
当k=c时,
其中,ξ为大于零的小正数;
步骤1.8:根据公式(13),计算每一个连续变量的不同两工况之间的KL散度DKL:
步骤2:离线建模,具体包括如下步骤:
步骤2.1:当xj,xj′∈xb,根据公式(14),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.2:当xj,xj′∈xc,根据公式(15),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.3:当xj∈xb,xj′∈xc,根据公式(16),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
步骤2.4:根据公式(17),计算权值系数wj′j,并对权值系数进行归一化处理;
步骤2.5:根据历史数据计算条件概率P(xj|xj′,yi=k);
步骤2.6:根据公式(18),计算考虑了变量之间相关性的条件概率P′(xj|yi=k):
步骤3:在线故障检测,具体包括如下步骤:
步骤3.1:根据公式(19),计算采样数据隶属于各个标签的概率:
步骤3.2:取各个标签概率中概率最大的标签作为采样数据的预测标签;
若:预测标签与正常数据标签相同,则认定为正常,预测标签与故障数据标签一致,否则认为发生故障。
本发明所带来的有益技术效果:
本发明提出一种称为基于混合隐朴素贝叶斯模型的异常检测方法,通过对连续变量和二值变量的选择,考虑连续变量与连续变量、二值变量与二值变量、二值变量与连续变量之间的相关性,构建同时包含连续变量和二值变量信息的混合隐朴素贝叶斯模型。本发明与传统方法相比,因加入二值变量的信息,对过程工业中异常的检测具有更高的性能,可以显著的减少故障误报率并有效的提高故障检测率。
附图说明
图1为仿真研究结果图;其中,图(a)为仿真原始数据图;图(b)为仅应用连续变量时测试数据的标签指示图,图(c)为仅应用二值变量时测试数据的标签指示图;图(d)为应用连续变量和二值变量时测试数据的标签指示图。
图2为本发明基于混合隐朴素贝叶斯模型的异常检测方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
一种基于混合隐朴素贝叶斯模型的异常检测方法,其流程如图2所示,包括如下步骤:
步骤1:变量选择,具体包括如下步骤:
步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,…,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;
步骤1.2:当xj∈xc时假设
其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;
当xj∈xb时假设
其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.3:通过公式(3)和(4)对连续变量参数进行估计:
当k=c时,
当k=c时,
其中,ξ为大于零的小正数;
步骤1.8:根据公式(13),计算每一个连续变量的不同两工况之间的KL散度DKL:
步骤2:离线建模,具体包括如下步骤:
步骤2.1:当xj,xj′∈xb,根据公式(14),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.2:当xj,xj′∈xc,根据公式(15),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.3:当xj∈xb,xj′∈xc,根据公式(16),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
步骤2.4:根据公式(17),计算权值系数wj′j,并对权值系数进行归一化处理;
步骤2.5:根据历史数据计算条件概率P(xj|xj′,yi=k);
步骤2.6:根据公式(18),计算考虑了变量之间相关性的条件概率P′(xj|yi=k):
步骤3:在线故障检测,具体包括如下步骤:
步骤3.1:根据公式(19),计算采样数据隶属于各个标签的概率:
步骤3.2:取各个标签概率中概率最大的标签作为采样数据的预测标签;
若:预测标签与正常数据标签相同,则认定为正常,预测标签与故障数据标签一致,否则认为发生故障。
仿真研究
仿真实例包含6个变量,其中3个连续变量x1,x2,x3,3个二值变量x4,x5,x6。连续变量服从高斯分布,不同工况下的均值和标准差分别如表1所示。二值变量在不同工况下的数值如表2所示。为了适应更一般的情况,对不同工况下二值变量进行随机数值翻转,调整比例如表2所示。按照预设参数分别产生2000个训练数据和2000个测试数据。测试数据中前1000个数据为正常工况数据,后1000个为故障数据。测试数据中前一半的数据为正常数据,后一半为测试数据。训练数据和测试数据如图1(a)所示,前2000个采样为训练数据,后2000个采样为测试数据。
表1:连续变量参数
表2:二值变量参数
仅用连续数据时测试数据的标签如图1(b)所示,仅用二值数据时测试数据的标签如图1(c)所示,混合隐朴素贝叶斯模型对测试数据输出的标签如图1(d)所示。从图1可以看出,当仅用连续变量或者二值变量时,输出测试数据标签存在大量的误报和漏报。当将连续变量和二值变量同时输入所提出的模型时,很明显的减少了正常工况下的误报和异常工况下的漏报。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种基于混合隐朴素贝叶斯模型的异常检测方法,其特征在于:包括如下步骤:
步骤1:变量选择,具体包括如下步骤:
步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,...,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;
步骤1.2:当xj∈xc时假设
其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;
当xj∈xb时假设
其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.3:通过公式(3)和(4)对连续变量参数进行估计:
当k=c时,
其中,ξ为大于零的小正数;
步骤1.8:根据公式(13),计算每一个连续变量的不同两工况之间的KL散度DKL:
步骤2:离线建模,具体包括如下步骤:
步骤2.1:当xj,xj′∈xb,根据公式(14),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.2:当xj,xj′∈xc,根据公式(15),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;
步骤2.3:当xj∈xb,xj′∈xc,根据公式(16),计算条件互信息:
其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;
步骤2.4:根据公式(17),计算权值系数wj′j,并对权值系数进行归一化处理;
步骤2.5:根据历史数据计算条件概率P(xj|xj′,yi=k);
步骤2.6:根据公式(18),计算考虑了变量之间相关性的条件概率P′(xj|yi=k):
步骤3:在线故障检测,具体包括如下步骤:
步骤3.1:根据公式(19),计算采样数据隶属于各个标签的概率:
步骤3.2:取各个标签概率中概率最大的标签作为采样数据的预测标签;
若:预测标签与正常数据标签相同,则认定为正常,预测标签与故障数据标签一致,否则认为发生故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164039.2A CN111414943B (zh) | 2020-03-11 | 2020-03-11 | 一种基于混合隐朴素贝叶斯模型的异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010164039.2A CN111414943B (zh) | 2020-03-11 | 2020-03-11 | 一种基于混合隐朴素贝叶斯模型的异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414943A true CN111414943A (zh) | 2020-07-14 |
CN111414943B CN111414943B (zh) | 2022-05-13 |
Family
ID=71492849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010164039.2A Active CN111414943B (zh) | 2020-03-11 | 2020-03-11 | 一种基于混合隐朴素贝叶斯模型的异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414943B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131516A (zh) * | 2020-09-01 | 2020-12-25 | 山东科技大学 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN113885371A (zh) * | 2021-09-18 | 2022-01-04 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279633A (zh) * | 2013-03-26 | 2013-09-04 | 浙江工业大学 | 基于扩散加权磁共振数据的脑纤维三维显示方法 |
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
CN104134010A (zh) * | 2014-08-12 | 2014-11-05 | 哈尔滨工业大学 | 一种基于朴素贝叶斯算法面向离散型数据的卫星故障诊断方法 |
CN104535905A (zh) * | 2014-12-11 | 2015-04-22 | 国家电网公司 | 基于朴素贝叶斯分类的局部放电诊断方法 |
CN105530122A (zh) * | 2015-12-03 | 2016-04-27 | 国网江西省电力公司信息通信分公司 | 一种基于选择性隐朴素贝叶斯分类器的网络故障诊断方法 |
CN106677761A (zh) * | 2016-12-27 | 2017-05-17 | 东软集团股份有限公司 | 一种故障预测方法及装置 |
US20180127823A1 (en) * | 2016-08-17 | 2018-05-10 | The Broad Institute, Inc. | Method for determination and identification of cell signatures and cell markers |
CN108742513A (zh) * | 2018-02-09 | 2018-11-06 | 上海长江科技发展有限公司 | 脑卒中患者康复预测方法及系统 |
-
2020
- 2020-03-11 CN CN202010164039.2A patent/CN111414943B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279633A (zh) * | 2013-03-26 | 2013-09-04 | 浙江工业大学 | 基于扩散加权磁共振数据的脑纤维三维显示方法 |
CN103955703A (zh) * | 2014-04-25 | 2014-07-30 | 杭州电子科技大学 | 一种基于朴素贝叶斯的医疗影像疾病分类方法 |
CN104134010A (zh) * | 2014-08-12 | 2014-11-05 | 哈尔滨工业大学 | 一种基于朴素贝叶斯算法面向离散型数据的卫星故障诊断方法 |
CN104535905A (zh) * | 2014-12-11 | 2015-04-22 | 国家电网公司 | 基于朴素贝叶斯分类的局部放电诊断方法 |
CN105530122A (zh) * | 2015-12-03 | 2016-04-27 | 国网江西省电力公司信息通信分公司 | 一种基于选择性隐朴素贝叶斯分类器的网络故障诊断方法 |
US20180127823A1 (en) * | 2016-08-17 | 2018-05-10 | The Broad Institute, Inc. | Method for determination and identification of cell signatures and cell markers |
CN106677761A (zh) * | 2016-12-27 | 2017-05-17 | 东软集团股份有限公司 | 一种故障预测方法及装置 |
CN108742513A (zh) * | 2018-02-09 | 2018-11-06 | 上海长江科技发展有限公司 | 脑卒中患者康复预测方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131516A (zh) * | 2020-09-01 | 2020-12-25 | 山东科技大学 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
CN112131516B (zh) * | 2020-09-01 | 2022-11-11 | 山东科技大学 | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 |
CN112651444A (zh) * | 2020-12-29 | 2021-04-13 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN112651444B (zh) * | 2020-12-29 | 2022-08-02 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN113885371A (zh) * | 2021-09-18 | 2022-01-04 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
CN113885371B (zh) * | 2021-09-18 | 2024-01-19 | 山东科技大学 | 一种基于健康状态数据的混合变量过程监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111414943B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414943B (zh) | 一种基于混合隐朴素贝叶斯模型的异常检测方法 | |
CN107480440B (zh) | 一种基于两阶段随机退化建模的剩余寿命预测方法 | |
CN109657945B (zh) | 一种基于数据驱动的工业生产过程故障诊断方法 | |
Huang et al. | Structure dictionary learning-based multimode process monitoring and its application to aluminum electrolysis process | |
Guh | A hybrid learning-based model for on-line detection and analysis of control chart patterns | |
Lin et al. | Effective recognition of control chart patterns in autocorrelated data using a support vector machine based approach | |
CN112904810B (zh) | 基于有效特征选择的流程工业非线性过程监测方法 | |
CN109740859A (zh) | 基于主成分分析法和支持向量机的变压器状态评估方法及系统 | |
CN114492826A (zh) | 一种基于多元时序流数据的无监督异常检测分析解决方法 | |
Mansouri et al. | Improved statistical fault detection technique and application to biological phenomena modeled by s-systems | |
CN110687895B (zh) | 一种基于自适应核主成分分析的化工过程故障检测方法 | |
CN110084301B (zh) | 一种基于隐马尔可夫模型的多工况过程工况辨识方法 | |
CN112947649B (zh) | 一种基于互信息矩阵投影的多变量过程监控方法 | |
Wang et al. | DiffLoad: uncertainty quantification in load forecasting with diffusion model | |
Bator et al. | Feature extraction and reduction applied to sensorless drive diagnosis | |
CN112131516B (zh) | 一种基于特征权值混合朴素贝叶斯模型的异常检测方法 | |
CN110244690B (zh) | 一种多变量工业过程故障辨识方法及系统 | |
CN112748331A (zh) | 一种基于ds证据融合的断路器机械故障识别方法及装置 | |
CN109635008B (zh) | 一种基于机器学习的设备故障检测方法 | |
Liu et al. | Causality-based PCA Methods for Condition Modeling of Mechatronic Systems | |
Kabiri et al. | A bayesian approach for recognition of control chart patterns | |
CN110674461B (zh) | 基于多块投影非负矩阵分解的化工生产过程监控方法 | |
Niaki et al. | Decision-making in detecting and diagnosing faults of multivariate statistical quality control systems | |
Kundu et al. | PCA-ANN based approach for remaining useful life prediction for roller ball bearings | |
US6931363B2 (en) | EDR direction estimating method, system, and program, and memory medium for storing the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |