CN111538759A - 一种基于分布式字典学习的工业过程智能监测方法与系统 - Google Patents

一种基于分布式字典学习的工业过程智能监测方法与系统 Download PDF

Info

Publication number
CN111538759A
CN111538759A CN202010311145.9A CN202010311145A CN111538759A CN 111538759 A CN111538759 A CN 111538759A CN 202010311145 A CN202010311145 A CN 202010311145A CN 111538759 A CN111538759 A CN 111538759A
Authority
CN
China
Prior art keywords
dictionary
data
distributed
node
industrial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010311145.9A
Other languages
English (en)
Other versions
CN111538759B (zh
Inventor
黄科科
阳春华
韦可
朱红求
李勇刚
周灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010311145.9A priority Critical patent/CN111538759B/zh
Publication of CN111538759A publication Critical patent/CN111538759A/zh
Application granted granted Critical
Publication of CN111538759B publication Critical patent/CN111538759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0428Safety, monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分布式字典学习的工业过程智能监测方法与系统,其方法包括:工业系统的各分布式节点均利用自身采集的数据建立本地字典;对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;融合计算中心在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。本发明通过分布式字典学习以减轻整合中心的负荷,提高计算效率,从而实现准确监测工业过程的运行状态。

Description

一种基于分布式字典学习的工业过程智能监测方法与系统
技术领域
本发明涉及工业过程监测领域,具体是指一种基于分布式字典学习的工业过程智能监测方法与系统。
背景技术
随着传感器技术、通信技术和先进集散控制系统的不断发展,工业系统中积累了越来越多的数据,这些数据为工业系统的监测提供了很大的便利,数据驱动的过程监测受到了广泛的关注。一般而言,数据驱动的方法主要包括两大类:基于信号处理的过程监测方法和基于机器学习的过程监测方法。其中,基于信号处理的方法以多元统计分析理论为基础,其将高维的观测数据进行投影提取数据中的主要信息,然后分别对主元子空间和残差子空间进行建模和监测,典型的方法包括PCA,KPCA等方法。除此之外,PLS,CCA等方法作为典型的信号处理方法也受到了大量的关注。而机器学习方法通过自适应的从数据中提取特征,然后基于提取的特征进行过程监测越来越被研究人员所关注。目前,支持向量机方法、隐马尔可夫模型、自动编码器等方法作为典型的机器学习方法,目前已被应用于过程监测,并取得了良好的监测效果。
然而,目前大量数据驱动的方法主要采用集中式的计算框架实现过程监测。在工业系统应用过程中,典型的监测过程包括:数据采集、数据离线分析、在线监测三个主要步骤。数据通过DCS系统采集后集中在融合计算中心进行存储和分析。然而,随着工业系统的逐渐增大,融合计算中心的存储和计算负荷会随着数据量的增加而不断增大,最终造成计算需求资源超过系统可用资源的情况。另一方面,集中式计算缺乏鲁棒性,一旦DCS系统中部分节点失效或者融合计算中心发生故障,便会导致整个监测系统的瘫痪。因此,通过分布式的方法实现大规模工业过程的鲁棒监测是一项值得研究的问题。而要解决该问题,面临以下几个难点:(1)通信存在延迟和丢包。采用分布式计算框架涉及每个节点的数据交互,在不同的计算阶段,每个节点要不断的发送或收取数据信息。而这样频繁的信息交互,势必会给通信带来一定问题。(2)分布式计算框架难以选择。针对不同的场合,要选择合适分布式计算框架才能发挥分布式的优势。否则,很有可能会造成分布式监测的效果劣于原本集中式监测的效果。(3)算法设计与移植工作复杂。并不是所有的现有过程监测算法都适合采用分布式计算的框架。要采用分布式算法,需要对算法机理进行重新研究,提出一套适合分布式的算法构架并进行代码移植。(4)调试过程繁杂。不像集中式监测可以直接在本地进行性能测试,对于设计好的分布式监测方案,需要搭建一个完整的实验平台才能测试分布式算法的真实性能。而在搭建实验平台的过程中势必要克服很多技术上的问题。正是因为部署一套分布式监测系统需要克服如此多的技术难题,所以现实中很多企业选择增强工控机计算能力而非考虑分布式方案。
Ge等人提出了一种分布式并行PCA(dpPCA),该方法受到PCA处理高维数据的启发,将汇总而来的大量数据进行分块,对每个数据块进行PCA计算,从而有效减少了计算负荷。然而,PCA在降维过程中确定主成分特征向量时必定会造成其他次要特征向量的丢失,这会使得监测过程中产生虚报和误报现象。同时,PCA中参数对于监测过程影响很大,大部分情况下只能通过经验进行参数调整,使得监测过程的鲁棒性大幅下降。
字典学习是一种高效的数据表示方式,该方法假设信号能进行稀疏表示,即表示为一个字典和其稀疏编码的乘积形式,通过学习并存储一个小数据量的字典,便能还原高维信号数据,这对于高维数据的处理是卓有成效的。由于能够减少高维数据的计算与存储负荷,字典学习受到了越来越多关注。近年来,该方法已逐渐被应用于过程监测。Zhou等人通过字典学习找到一种检测轴承故障的方法,Han等人提出了一种基于同样方法的旋转机械监测方法。但是,上述所有工作都使用集中式计算框架,该框架不适用于大数据案例。
发明内容
本发明所要解决的技术问题在于,提供一种基于分布式字典学习的工业过程智能监测方法与系统,通过分布式字典学习以减轻整合中心的负荷,提高计算效率,从而实现准确监测工业过程的运行状态。
为实现上述技术目的,本发明采用如下技术方案:
一种基于分布式字典学习的工业过程智能监测方法,包括以下步骤:
步骤S10,工业系统的各分布式节点,均利用自身采集的数据建立本地字典;
步骤S20,对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
步骤S30,融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
步骤S40,融合计算中心在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
在更优的技术方案中,为提高算法运行效率,工业系统采用的分布式框架为Hadoop,所述Hadoop包括分布式存储模块和分布式计算模块;所述分布式存储模块,用于将各分布式节点采集的数据进行分布式存储;所述分布式计算模块为MapReduce,用于为各分布式节点分发实现步骤S10和步骤S20的计算任务。
在更优的技术方案中,每个分布式节点计算建立本地字典的方法为:
步骤S11,设节点k采集的N个数据为
Figure BDA0002457887320000031
其中每个数据包括工业监测过程中的多个变量维度;
步骤S12,根据稀疏表示原理,通过引入稀疏因子矩阵Xk和字典Dk,将节点k采集的N个数据Yk表示为Yk=DkXk,然后通过以下优化问题优化更新稀疏因子矩阵Xk和字典Dk
Figure BDA0002457887320000032
Subject to||Xk(·)||0≤T0
式中,||Xk(·)||0表示计算稀疏因子矩阵Xk中的非零元素的个数,T0为有关于稀疏因子矩阵中的非零元素个数的预设阈值。
在更优的技术方案中,字典Dk包括N个字典原子,表示为
Figure BDA0002457887320000033
Figure BDA0002457887320000034
表示字典Dk中的第n个字典原子;稀疏因子矩阵Xk包括N行向量,表示为
Figure BDA0002457887320000035
Figure BDA0002457887320000036
表示稀疏因子矩阵Xk的第n行向量;
步骤S12中使用K-SVD方法优化更新稀疏因子矩阵Xk和字典Dk,具体过程为:
步骤a1,随机初始化字典Dk,根据初始化的字典Dk计算初始化的稀疏因子矩阵Xk
步骤a2,按照字典原子的顺序依次更新每个字典原子和稀疏因子矩阵的每一行;
其中,第m个字典原子
Figure BDA0002457887320000037
和第m行向量
Figure BDA0002457887320000038
的更新过程为:
步骤a2.1,计算节点k对于字典原子
Figure BDA0002457887320000039
的残差矩阵
Figure BDA00024578873200000310
Figure BDA00024578873200000311
步骤a2.2,提取稀疏因子矩阵Xk的第m行向量
Figure BDA00024578873200000312
中的非零项因子
Figure BDA00024578873200000313
并构建非零项因子矩阵
Figure BDA00024578873200000314
非零项因子
Figure BDA00024578873200000315
的提取方式:
Figure BDA00024578873200000316
其中,
Figure BDA00024578873200000317
代表
Figure BDA00024578873200000318
的第i个元素,L表示
Figure BDA00024578873200000319
中的元素个数,i=1,2,…,L,
Figure BDA00024578873200000320
代表
Figure BDA00024578873200000321
的元素个数;再由非零项因子
Figure BDA00024578873200000322
构建维度为
Figure BDA00024578873200000323
的非零项因子矩阵
Figure BDA00024578873200000324
矩阵
Figure BDA00024578873200000325
位于
Figure BDA00024578873200000326
的元素为1,其余的元素为0;
步骤a2.3,使用K-SVD方法对步骤a2.1得到的残差矩阵
Figure BDA00024578873200000327
进行分解,得到的分解结果为:
Figure BDA00024578873200000328
步骤a2.4,使用左奇异矩阵U的第一列更新字典
Figure BDA00024578873200000329
使用右奇异矩阵V的第一列和第一个特征向量△(1,1)的乘积更新稀疏因子
Figure BDA00024578873200000330
步骤a3,重复步骤a2,直到满足步骤S12中的优化问题。
在更优的技术方案中,定义节点k在i时刻采集到的N个监测数据为
Figure BDA0002457887320000041
得到的对应字典为Dk,i,按步骤S20对所有分布节点的本地字典进行扩散加和处理的计算方法为:
Figure BDA0002457887320000042
Wk,i为节点k在i时刻包含邻居节点信息的新的本地字典,Nn代表包括本地节点k和所有邻居节点的集合,l表示集合Nn中的元素,al,k代表集合Nn中所有节点l相对于本地节点k的权值,且有:
Figure BDA0002457887320000043
其中vl代表节点l的连接度,即集合Nn中与节点l相连的节点个数;
Figure BDA0002457887320000044
代表邻居节点l采集的数据方差;
当节点k的字典完成扩散加和后,需要重新对字典进行归一化的操作,即:
Figure BDA0002457887320000045
式中,
Figure BDA0002457887320000046
表示新的本地字典Wk,i的第n列,
Figure BDA0002457887320000047
表示计算
Figure BDA0002457887320000048
的2范数,
Figure BDA0002457887320000049
表示归一化得到的字典Dk,i的第n列;
通过多次扩散加和处理,所有节点得到字典Dk,i相同,将该相同的字典作为工业系统的全局字典DG
在更优的技术方案中,训练样本和待监测数据的重构误差的计算方法相同,将所有训练样本的集合表示为Ys,采用以下公计算集合Ys的重构误差Es
Figure BDA00024578873200000410
其中,Xs表示集合Ys的稀疏因子矩阵。
在更优的技术方案中,采用核密度估计方法以根据所有训练样本的重构误差计算控制限,具体为:使用E1,E2,...,EM分别表示集合Ys中每个数据对应的重构误差,则按以下公式计算重构误差的概率密度:
Figure BDA00024578873200000411
式中,f(E)为以重构误差为自变量E的概率密度函数,K()为高斯核密度函数,M表示训练样本的个数,h表示高斯核密度函数K()的带宽,Ej表示第j个训练样本的重构误差;
然后通过预定义的置信度α计算控制限Elimit为:Elimit=αf(E)。
在更优的技术方案中,所述工业过程具体是指铝电解工业过程,从节点采集的待分析数据具体是指铝电解的阳极电流数据。
本发明还提供一种基于分布式字典学习的工业过程智能监测系统,包括:
本地字典建立模块,用于:工业系统的分布式节点利用自身采集的数据建立本地字典;
全局字典建立模块,用于:对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
控制限生成模块,用于:融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
工业系统异常判断模块,用于:融合计算中心在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
有益效果
基于分布式计算的需要和字典强大的表示能力的启发,结合工业系统高维度高容量数据的特点,本发明提出了一种基于分布式字典学习的工业过程智能监测方法与系统,无需将所有节点的数据汇总求解字典,而是通过分散的计算各分布式节点便能完成求解过程,极大减轻了融合中心的负荷,可以有效提高计算效率,能够准确地监测工业过程的运行状态,以便对异常数据进行分析,为工业过程的安全生产提供了保证。
同时,本发明的步骤S10和步骤S20采用Hadoop中分布式和并行计算架构MapReduce来实现:一方面,Hadoop分布式文件系统(HDFS)将工业系统的大数据按节点进行分布式存储,节省存储空间;另一方面,MapReduce可以通过计算节点集群计算处理大数据,大大降低了计算所需要的资源,有效提高了计算效率。
附图说明
图1为本发明实施例所述方法的流程图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
工业过程监测需要从工业现场采集各个监测数据,通过对不同数据的分析,从而判断工况设备是否运作正常。以铝电解过程为例,为保证高效生产,工业铝电解工艺需要进行过程监测确保系统正常运作。在此过程中,可以选择很多变量,例如电解质水平、冰晶石比率、电池电压和阳极电流。根据目前的传感器应用技术,在铝电解过程中更多的的监测变量是电解槽的阳极电流。当发生电解质水平降低、冰晶石比率异常或是电解槽短路等故障情况时,都可以通过阳极电流的变化来判断异常的发生情况。
因此,本发明以铝电解这一工业过程为具体实施例,通过在铝电解的工业现场对阳极电流数据进行采集,且每个分布式节点根据采集到的数据建立本地字典,进而所有本地字典通过MapReduce分布式计算框架得到有关于铝电解工业现场的阳极电流数据的全局字典,再而根据训练样本的重构误差分布情况设置铝电解工业过程监测的控制限,最终根据控制限和待监测数据的重构误差对待监测数据进行比较分析,实现实时监测工况设备情况。
本实施例提供一种基于分布式字典学习的工业过程智能监测方法,主要包括两个过程部分:分布式字典学习过程和在线过程监测。
在第一部分的分布式字典学习过程中,工业系统的各分布式节点分别计算它们各自的本地字典,结合MapReduce分布式计算框架使各节点与它们的邻居节点相互合作。MapReduce分布式计算框架如附图1所示,主要由两大部分构成:Map函数和Reduce函数。
本实施例公开的工业过程监测方法,具体包括以下步骤:
步骤S10,工业系统的各分布式节点,均利用自身采集的数据建立本地字典。
在本实施例中,工业系统采用的分布式框架为Hadoop,所述Hadoop包括分布式存储模块和分布式计算模块等;所述分布式存储模块,用于将各分布式节点采集的数据进行分布式存储,以便于各分布式节点获取自身采集的数据;所述分布式计算模块为MapReduce,通过自身调制机制,使用Map函数为各分布式节点分发实现本步骤S10的任务,另外使用Reduce函数为各分布式节点分发实现以下步骤S20的任务。。
其中,每个分布式节点计算建立本地字典包括以下步骤:
步骤S11,设节点k采集的N个数据为
Figure BDA0002457887320000061
其中每个数据包括工业监测过程中的多个变量维度;
由于工业监测原始采集到的数据一般数据量大,维度较高,不方便直接使用,为了方便使用原始采集数据信息,减少计算负荷,故本实施设置步骤S12将原始采集的数据进行稀疏表示。
步骤S12,根据稀疏表示原理,通过引入稀疏因子矩阵Xk和字典Dk,将节点k采集的N个数据Yk表示为Yk=DkXk,然后通过以下优化问题优化更新稀疏因子矩阵Xk和字典Dk,以让稀疏表示能更为准确地反映原始采集的数据:
Figure BDA0002457887320000071
Subject to||Xk(·)||0≤T0
式中,||Xk(·)||0表示计算稀疏因子矩阵Xk中的非零元素的个数,T0为有关于稀疏因子矩阵中的非零元素个数的预设阈值,以保证稀疏因子足够稀疏;字典Dk包括N个字典原子,表示为
Figure BDA0002457887320000072
Figure BDA0002457887320000073
表示字典Dk中的第n个字典原子;稀疏因子矩阵Xk包括N行向量,表示为
Figure BDA0002457887320000074
Figure BDA0002457887320000075
表示稀疏因子矩阵Xk的第n行向量。
在步骤S12中,使用K-SVD方法优化更新稀疏因子矩阵Xk和字典Dk,具体过程为:
步骤a1,随机初始化字典Dk,根据初始化的字典Dk计算初始化的稀疏因子矩阵Xk
步骤a2,按照字典原子的顺序依次更新每个字典原子和稀疏因子矩阵的每一行;
其中,第m个字典原子
Figure BDA0002457887320000076
和第m行向量
Figure BDA0002457887320000077
的更新过程为:
步骤a2.1,计算节点k对于字典原子
Figure BDA0002457887320000078
的残差矩阵
Figure BDA0002457887320000079
Figure BDA00024578873200000710
步骤a2.2,提取稀疏因子矩阵Xk的第m行向量
Figure BDA00024578873200000711
中的非零项因子
Figure BDA00024578873200000712
并构建非零项因子矩阵
Figure BDA00024578873200000713
非零项因子
Figure BDA00024578873200000714
的提取方式:
Figure BDA00024578873200000715
其中,
Figure BDA00024578873200000716
代表
Figure BDA00024578873200000717
的第i个元素,L表示
Figure BDA00024578873200000718
中的元素个数,i=1,2,…,L,
Figure BDA00024578873200000719
代表
Figure BDA00024578873200000720
的元素个数;再由非零项因子
Figure BDA00024578873200000721
构建维度为
Figure BDA00024578873200000722
的非零项因子矩阵
Figure BDA00024578873200000723
矩阵
Figure BDA00024578873200000724
位于
Figure BDA00024578873200000725
的元素为1,其余的元素为0;
步骤a2.3,使用K-SVD方法对步骤a2.1得到的残差矩阵
Figure BDA00024578873200000726
进行分解,得到的分解结果为:
Figure BDA00024578873200000727
步骤a2.4,使用左奇异矩阵U的第一列更新字典
Figure BDA00024578873200000728
使用右奇异矩阵V的第一列和第一个特征向量Δ(1,1)的乘积更新稀疏因子
Figure BDA00024578873200000729
步骤a3,重复步骤a2,直到满足步骤S12中的优化问题。
步骤S20,对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
当每个子节点都得到自身的本地字典后,使用Reduce函数对所有分布式节点的本地字典结合节点权重进行扩散加和处理,最终在所有分布式节点均得到一个一致的字典,以这个本地字典近似替代全局字典。
本实施例的多次扩散加和处理的过程,实际为一个与时间相关的过程,为更清楚地模拟实际情况,定义节点k在i时刻采集到的N个监测数据为
Figure BDA0002457887320000081
得到的对应字典为Dk,i,使用Reduce函数对所有分布节点的本地字典进行扩散加和处理的计算方法为:
Figure BDA0002457887320000082
Wk,i为节点k在i时刻包含邻居节点信息的新的本地字典,Nn代表包括本地节点k和所有邻居节点的集合,l表示集合Nn中的元素,al,k代表集合Nn中所有节点l相对于本地节点k的权值,且有:
Figure BDA0002457887320000083
其中vl代表邻居节点l的连接度,即集合Nn中与节点l相连的节点个数;
Figure BDA0002457887320000084
代表邻居节点l采集的数据方差;
当节点k的字典完成扩散加和后,需要重新对字典进行归一化的操作,即:
Figure BDA0002457887320000085
式中,
Figure BDA0002457887320000086
表示新的本地字典Wk,i的第n列,
Figure BDA0002457887320000087
表示计算
Figure BDA0002457887320000088
的2范数,
Figure BDA0002457887320000089
表示归一化得到的字典Dk,i的第n列;
通过多次扩散加和处理,所有节点得到字典Dk,i相同,将该相同的字典作为工业系统的全局字典DG
以上步骤S10和步骤S20所涉及到的算法,均是在MapReduce框架下进行,可以提高算法的运行效率。具体地,MapReduce框架下最重要的便是两个显式函数:Map与Reduce函数。Map函数以一系列键值对作为输入,然后在每个键值对上进行单独运算。在对输入数据执行了一些分析变化之后,Map函数输出多个键值对,如下所示:
Map:<key1,value1>→list<key2,value2>
而Reduce函数以一个键和一个值列表作为输入,通过对值列表中的数值进行组合、聚合等操作,最后输出多个键值对。如下所示:
Reduce:<key2,list(value2)>→list<key2,value3>
对于送入的高维数据,要根据现场的传感器网络节点数将数据进行分块处理。在Map函数中,将根据送入数据的序号将数据划分为相应的数据块。具体的方法见下表所示:
表1:分布式字典学习Map函数
Figure BDA0002457887320000091
当数据块划分好后,根据上文所述可知,要进行分布式计算两步操作:适应与合并(ATC)。针对这两个过程,分别设计对应的Reduce函数,再确保每步的传输的键值相同即可完成一个连续分布计算过程。在“适应”计算阶段,主要是更新各个节点字典直到合适;在“合并”计算阶段,主要讲前一步计算的各个节点字典进行扩散加和处理。具体方法如表2、表3所示:
表2:分布式字典学习“适应”步骤
Figure BDA0002457887320000092
表3:分布式字典学习“合并”步骤
Figure BDA0002457887320000101
通过这样一系列的计算,最终得到可以近似全局字典的字典DG,一个基于MapReduce框架下的分布式字典学习方法也最终完成部署。将该学好的字典发送至融合计算中心,即可按以下步骤S30和步骤S40对工业过程新来的测试数据实行实时监测。
步骤S30,融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
工业系统的节点k采集的N个数据表示为
Figure BDA0002457887320000102
将每个节点采集的每个数据均作为1个训练样本,则所有训练样本表示为训练样本集
Figure BDA0002457887320000103
然后按以下表达式计算训练样本集Ys的重构误差Es
Figure BDA0002457887320000104
式中,Xs表示Ys的稀疏因子矩阵且稀疏因子矩阵Xs可以按以下优化问题求解:
Figure BDA0002457887320000105
Subject to||Xs(·)||0≤T0
由于此时的全局字典已通过前述步骤确定得到,因此使用下次匹配追踪算法即可求解得到稀疏因子矩阵Xs
然后,再按以下公式采用核密度估计(KDE)方法来计算工业过程监测的控制限Elimit
Figure BDA0002457887320000106
Elimit=αf(E);
式中,f(E)为以重构误差为自变量E的概率密度函数,K()为高斯核密度函数,M表示训练样本的个数,h表示高斯核密度函数K()的带宽,Ej表示第j个训练样本的重构误差;α为预定义的置信度。带宽表示用来估计误差分布的核函数的宽度。例如,本实施例使用的是高斯核密度函数进行相关估计,那么带宽就表示该高斯函数曲线的宽窄程度,带宽越大,则高斯函数曲线就显得又宽又矮;反之,带宽越小,高斯函数曲线就显得又窄又高。
步骤S40,在线获取待监测数据,融合计算中心根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
通过获取待监测数据,与训练样本重构误差的计算方法相同,融合计算中心根据全局字典计算待监测数据的重构误差Etest,与控制限进行比较,以此区分正常和异常类别C,即:
Figure BDA0002457887320000111
其中C=0表示根据待监测数据诊断得到工业过程处于正常运行状态,C=1表示根据待监测数据诊断得到工业过程处于异常运行状态,以此完成工业过程监测相关需求。
本发明还提供与上述方法实施例对应的装置实施例,是指一种基于分布式字典学习的工业过程智能监测系统,包括:
本地字典建立模块,用于:工业系统的分布式节点利用自身采集的数据建立本地字典;
全局字典建立模块,用于:对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
控制限生成模块,用于:从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
工业系统异常判断模块,用于:在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (9)

1.一种基于分布式字典学习的工业过程智能监测方法,其特征在于,包括以下步骤:
步骤S10,工业系统的各分布式节点,均利用自身采集的数据建立本地字典;
步骤S20,对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
步骤S30,融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
步骤S40,融合计算中心在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
2.根据权利要求1所述的方法,其特征在于,工业系统采用的分布式框架为Hadoop,所述Hadoop包括分布式存储模块和分布式计算模块;所述分布式存储模块,用于将各分布式节点采集的数据进行分布式存储;所述分布式计算模块为MapReduce,用于为各分布式节点分发实现步骤S10和步骤S20的计算任务。
3.根据权利要求1所述的方法,其特征在于,每个分布式节点计算建立本地字典的方法为:
步骤S11,设节点k采集的N个数据为
Figure FDA00024578873100000110
其中每个数据包括工业监测过程中的多个变量维度;
步骤S12,根据稀疏表示原理,通过引入稀疏因子矩阵Xk和字典Dk,将节点k采集的N个数据Yk表示为Yk=DkXk,然后通过以下优化问题优化更新稀疏因子矩阵Xk和字典Dk
Figure FDA0002457887310000011
Subject to||Xk(·)||0≤T0
式中,||Xk(·)||0表示计算稀疏因子矩阵Xk中的非零元素的个数,T0为有关于稀疏因子矩阵中的非零元素个数的预设阈值。
4.根据权利要求3所述的方法,其特征在于,字典Dk包括N个字典原子,表示为
Figure FDA0002457887310000012
Figure FDA0002457887310000013
表示字典Dk中的第n个字典原子;稀疏因子矩阵Xk包括N行向量,表示为
Figure FDA0002457887310000014
Figure FDA0002457887310000015
表示稀疏因子矩阵Xk的第n行向量;
步骤S12中使用K-SVD方法优化更新稀疏因子矩阵Xk和字典Dk,具体过程为:
步骤a1,随机初始化字典Dk,根据初始化的字典Dk计算初始化的稀疏因子矩阵Xk
步骤a2,按照字典原子的顺序依次更新每个字典原子和稀疏因子矩阵的每一行;
其中,第m个字典原子
Figure FDA0002457887310000016
和第m行向量
Figure FDA0002457887310000017
的更新过程为:
步骤a2.1,计算节点k对于字典原子
Figure FDA0002457887310000018
的残差矩阵
Figure FDA0002457887310000019
Figure FDA0002457887310000021
步骤a2.2,提取稀疏因子矩阵Xk的第m行向量
Figure FDA00024578873100000231
中的非零项因子
Figure FDA0002457887310000023
并构建非零项因子矩阵
Figure FDA0002457887310000024
非零项因子
Figure FDA0002457887310000025
的提取方式:
Figure FDA0002457887310000026
其中,
Figure FDA0002457887310000027
代表
Figure FDA0002457887310000028
的第i个元素,L表示
Figure FDA0002457887310000029
中的元素个数,i=1,2,…,L,
Figure FDA00024578873100000210
代表
Figure FDA00024578873100000211
的元素个数;再由非零项因子
Figure FDA00024578873100000212
构建维度为
Figure FDA00024578873100000213
的非零项因子矩阵
Figure FDA00024578873100000214
矩阵
Figure FDA00024578873100000215
位于
Figure FDA00024578873100000216
的元素为1,其余的元素为0;
步骤a2.3,使用K-SVD方法对步骤a2.1得到的残差矩阵
Figure FDA00024578873100000217
进行分解,得到的分解结果为:
Figure FDA00024578873100000218
步骤a2.4,使用左奇异矩阵U的第一列更新字典
Figure FDA00024578873100000219
使用右奇异矩阵V的第一列和第一个特征向量△(1,1)的乘积更新稀疏因子
Figure FDA00024578873100000220
步骤a3,重复步骤a2,直到满足步骤S12中的优化问题。
5.根据权利要求1所述的方法,其特征在于,定义节点k在i时刻采集到的N个监测数据为
Figure FDA00024578873100000221
得到的对应字典为Dk,i,按步骤S20对所有分布节点的本地字典进行扩散加和处理的计算方法为:
Figure FDA00024578873100000222
Wk,i为节点k在i时刻包含邻居节点信息的新的本地字典,Nn代表包括本地节点k和所有邻居节点的集合,l表示集合Nn中的元素,al,k代表集合Nn中所有节点l相对于本地节点k的权值,且有:
Figure FDA00024578873100000223
其中vl代表节点l的连接度,即集合Nn中与节点l相连的节点个数;
Figure FDA00024578873100000224
代表邻居节点l采集的数据方差;
当节点k的字典完成扩散加和后,需要重新对字典进行归一化的操作,即:
Figure FDA00024578873100000225
Figure FDA00024578873100000226
式中,
Figure FDA00024578873100000227
表示新的本地字典Wk,i的第n列,
Figure FDA00024578873100000228
表示计算
Figure FDA00024578873100000229
的2范数,
Figure FDA00024578873100000230
表示归一化得到的字典Dk,i的第n列;
通过多次扩散加和处理,所有节点得到字典Dk,i相同,将该相同的字典作为工业系统的全局字典DG
6.根据权利要求1所述的方法,其特征在于,训练样本和待监测数据的重构误差的计算方法相同,将所有训练样本的集合表示为Ys,采用以下公计算集合Ys的重构误差Es
Figure FDA0002457887310000031
其中,Xs表示集合Ys的稀疏因子矩阵。
7.根据权利要求1所述的方法,其特征在于,采用核密度估计方法以根据所有训练样本的重构误差计算控制限,具体为:使用E1,E2,...,EM分别表示集合Ys中每个数据对应的重构误差,则按以下公式计算重构误差的概率密度:
Figure FDA0002457887310000032
式中,f(E)为以重构误差为自变量E的概率密度函数,K()为高斯核密度函数,M表示训练样本的个数,h表示高斯核密度函数K()的带宽,Ej表示第j个训练样本的重构误差;
然后通过预定义的置信度α计算控制限Elimit为:Elimit=αf(E)。
8.根据权利要求1所述的方法,其特征在于,所述工业过程具体是指铝电解工业过程,从节点采集的待分析数据具体是指铝电解的阳极电流数据。
9.一种基于分布式字典学习的工业过程智能监测系统,其特征在于,包括:
本地字典建立模块,用于:工业系统的分布式节点利用自身采集的数据建立本地字典;
全局字典建立模块,用于:对所有分布节点的本地字典进行扩散加和处理,得到工业系统的全局字典;
控制限生成模块,用于:融合计算中心从工业系统获取若干数据作为训练样本,根据全局字典计算每个训练样本的重构误差,并采用核密度估计方法以根据所有训练样本的重构误差计算工业过程监测的控制限;
工业系统异常判断模块,用于:融合计算中心在线获取待监测数据,根据全局字典计算待监测数据的重构误差,并将待监测数据的重构误差与控制限比较,根据比较结果判断工业系统是否异常。
CN202010311145.9A 2020-04-20 2020-04-20 一种基于分布式字典学习的工业过程智能监测方法与系统 Active CN111538759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311145.9A CN111538759B (zh) 2020-04-20 2020-04-20 一种基于分布式字典学习的工业过程智能监测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311145.9A CN111538759B (zh) 2020-04-20 2020-04-20 一种基于分布式字典学习的工业过程智能监测方法与系统

Publications (2)

Publication Number Publication Date
CN111538759A true CN111538759A (zh) 2020-08-14
CN111538759B CN111538759B (zh) 2023-09-12

Family

ID=71976779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311145.9A Active CN111538759B (zh) 2020-04-20 2020-04-20 一种基于分布式字典学习的工业过程智能监测方法与系统

Country Status (1)

Country Link
CN (1) CN111538759B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112326246A (zh) * 2020-11-02 2021-02-05 北京航空航天大学 基于周期数据及核密度估计的轴承安全状态在线监测方法
CN113011321A (zh) * 2021-03-17 2021-06-22 中南大学 一种基于联合字典的光谱信号去噪方法、系统、终端及可读存储介质
CN113033683A (zh) * 2021-03-31 2021-06-25 中南大学 一种基于静态与动态联合分析的工业系统工况监测方法和系统
CN113110403A (zh) * 2021-05-25 2021-07-13 中南大学 一种基于稀疏约束的工业过程离群点检测与故障诊断方法和系统
CN113468760A (zh) * 2021-07-21 2021-10-01 中南大学 基于字典学习的电机微弱故障检测方法及系统
CN114115098A (zh) * 2021-11-02 2022-03-01 浙江尔格科技股份有限公司 一种基于字典学习的冷却系统性能预警方法
CN115329032A (zh) * 2022-10-14 2022-11-11 杭州海康威视数字技术股份有限公司 基于联邦字典学习数据传输方法、装置、设备及存储介质
CN116125922A (zh) * 2023-01-09 2023-05-16 中南大学 一种基于平行式字典学习的复杂工业过程监测方法和系统
CN117851752A (zh) * 2023-12-04 2024-04-09 广州市广软物联网科技有限公司 目标物重量监测方法、系统及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
CN104182642A (zh) * 2014-08-28 2014-12-03 清华大学 一种基于稀疏表示的故障检测方法
EP2833277A1 (en) * 2013-07-31 2015-02-04 Sap Se Global dictionary for database management systems
CN104537288A (zh) * 2015-01-30 2015-04-22 武汉虹旭信息技术有限责任公司 智能反馈式生成高频字典的分布式系统及其方法
US20160012334A1 (en) * 2014-07-08 2016-01-14 Nec Laboratories America, Inc. Hierarchical Sparse Dictionary Learning (HiSDL) for Heterogeneous High-Dimensional Time Series
CN105825200A (zh) * 2016-03-31 2016-08-03 西北工业大学 基于背景字典学习和结构稀疏表示的高光谱异常目标检测方法
US20170091964A1 (en) * 2015-09-29 2017-03-30 General Electric Company Dictionary learning based image reconstruction
CN106874368A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种rtb竞价广告位价值分析方法及系统
US20190205446A1 (en) * 2018-01-03 2019-07-04 Oracle International Corporation Distributed relational dictionaries
CN110135488A (zh) * 2019-05-10 2019-08-16 南京邮电大学 融合字典训练与观测矩阵优化的数据高质压缩方法
CN110222738A (zh) * 2019-05-22 2019-09-10 重庆邮电大学 面向混合采样工业大数据的基于多视图字典学习分类方法
CN110580488A (zh) * 2018-06-08 2019-12-17 中南大学 基于字典学习的多工况工业监测方法、装置、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
EP2833277A1 (en) * 2013-07-31 2015-02-04 Sap Se Global dictionary for database management systems
US20160012334A1 (en) * 2014-07-08 2016-01-14 Nec Laboratories America, Inc. Hierarchical Sparse Dictionary Learning (HiSDL) for Heterogeneous High-Dimensional Time Series
CN104182642A (zh) * 2014-08-28 2014-12-03 清华大学 一种基于稀疏表示的故障检测方法
CN104537288A (zh) * 2015-01-30 2015-04-22 武汉虹旭信息技术有限责任公司 智能反馈式生成高频字典的分布式系统及其方法
US20170091964A1 (en) * 2015-09-29 2017-03-30 General Electric Company Dictionary learning based image reconstruction
CN105825200A (zh) * 2016-03-31 2016-08-03 西北工业大学 基于背景字典学习和结构稀疏表示的高光谱异常目标检测方法
CN106874368A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种rtb竞价广告位价值分析方法及系统
US20190205446A1 (en) * 2018-01-03 2019-07-04 Oracle International Corporation Distributed relational dictionaries
CN110580488A (zh) * 2018-06-08 2019-12-17 中南大学 基于字典学习的多工况工业监测方法、装置、设备及介质
CN110135488A (zh) * 2019-05-10 2019-08-16 南京邮电大学 融合字典训练与观测矩阵优化的数据高质压缩方法
CN110222738A (zh) * 2019-05-22 2019-09-10 重庆邮电大学 面向混合采样工业大数据的基于多视图字典学习分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
胡正平;白帆;王蒙;孙哲;赵淑欢;: "原子-分子字典结合的联合扩展加权稀疏表示人脸识别算法", 信号处理, no. 07 *
蒲国林;邱玉辉;: "基于稀疏表示全局字典学习的图像分类方法", 计算机应用, vol. 35, no. 02, pages 499 - 501 *
蒲国林等: "基于稀疏表示全局字典学习的图像分类方法" *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112326246A (zh) * 2020-11-02 2021-02-05 北京航空航天大学 基于周期数据及核密度估计的轴承安全状态在线监测方法
CN113011321A (zh) * 2021-03-17 2021-06-22 中南大学 一种基于联合字典的光谱信号去噪方法、系统、终端及可读存储介质
CN113011321B (zh) * 2021-03-17 2022-05-06 中南大学 一种基于联合字典的光谱信号去噪方法、系统、终端及可读存储介质
CN113033683A (zh) * 2021-03-31 2021-06-25 中南大学 一种基于静态与动态联合分析的工业系统工况监测方法和系统
CN113110403A (zh) * 2021-05-25 2021-07-13 中南大学 一种基于稀疏约束的工业过程离群点检测与故障诊断方法和系统
CN113110403B (zh) * 2021-05-25 2022-05-17 中南大学 一种基于稀疏约束的工业过程离群点检测与故障诊断方法和系统
CN113468760A (zh) * 2021-07-21 2021-10-01 中南大学 基于字典学习的电机微弱故障检测方法及系统
CN114115098A (zh) * 2021-11-02 2022-03-01 浙江尔格科技股份有限公司 一种基于字典学习的冷却系统性能预警方法
CN115329032A (zh) * 2022-10-14 2022-11-11 杭州海康威视数字技术股份有限公司 基于联邦字典学习数据传输方法、装置、设备及存储介质
CN116125922A (zh) * 2023-01-09 2023-05-16 中南大学 一种基于平行式字典学习的复杂工业过程监测方法和系统
CN117851752A (zh) * 2023-12-04 2024-04-09 广州市广软物联网科技有限公司 目标物重量监测方法、系统及存储介质

Also Published As

Publication number Publication date
CN111538759B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN111538759B (zh) 一种基于分布式字典学习的工业过程智能监测方法与系统
CN111967343B (zh) 基于简单神经网络和极端梯度提升模型融合的检测方法
Yan et al. Design teacher and supervised dual stacked auto-encoders for quality-relevant fault detection in industrial process
CN110929765A (zh) 一种基于批次图像化的卷积自编码故障监测方法
CN115983087B (zh) 一种注意力机制与lstm结合检测时序数据异常方法及终端机
CN110580488B (zh) 基于字典学习的多工况工业监测方法、装置、设备及介质
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN117156442B (zh) 基于5g网络的云数据安全保护方法及系统
CN111447217A (zh) 一种稀疏编码下的基于htm的流数据异常检测方法及系统
CN111738348B (zh) 一种电力数据异常检测方法和装置
CN111881159A (zh) 一种基于代价敏感极端随机森林的故障检测方法及装置
Wang et al. Decentralized plant-wide monitoring based on mutual information-Louvain decomposition and support vector data description diagnosis
CN115185804A (zh) 服务器性能预测方法、系统、终端及存储介质
Xu et al. Industrial process fault detection and diagnosis framework based on enhanced supervised kernel entropy component analysis
CN111639304A (zh) 基于Xgboost回归模型的CSTR故障定位方法
Collier et al. Transfer and marginalize: Explaining away label noise with privileged information
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质
CN113151842A (zh) 风光互补电解水制氢的转化效率的确定方法和确定装置
CN116706907A (zh) 基于模糊推理的光伏发电预测方法和相关设备
Wu et al. Custom machine learning architectures: towards realtime anomaly detection for flight testing
CN116720095A (zh) 一种基于遗传算法优化模糊c均值的电特性信号聚类方法
CN115470838A (zh) 一种基于鲁棒动态变分贝叶斯字典学习的过程监测方法
CN114510871A (zh) 基于思维进化和lstm的云服务器性能衰退预测方法
CN114861759A (zh) 一种线性动态系统模型的分布式训练方法
Hua et al. A novel sampled-data asynchronous CatBoost model with knowledge-based guidance for product quality estimation in the industrial processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant