CN108107729A - 基于类脑分层记忆机制的实时数据流智能化处理平台 - Google Patents
基于类脑分层记忆机制的实时数据流智能化处理平台 Download PDFInfo
- Publication number
- CN108107729A CN108107729A CN201711352760.9A CN201711352760A CN108107729A CN 108107729 A CN108107729 A CN 108107729A CN 201711352760 A CN201711352760 A CN 201711352760A CN 108107729 A CN108107729 A CN 108107729A
- Authority
- CN
- China
- Prior art keywords
- data
- data sample
- sample
- memory layer
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于类脑分层记忆机制的实时数据流智能化处理平台,包括数据预处理模块、分层记忆网络模块、在线监测与故障诊断模块、数据有效性复核模块、数据库模块及实时生产系统;其中分层记忆网络模块用于分层存储经数据预处理模块预处理后的用于构建平台的数据样本、接收数据预处理模块发送的正常数据样本、检索与正常数据样本最接近的数据样本并将其发送至数据库模块;数据库模块用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本、接收分层记忆网络模块发送的最接近的数据样本并提取与该数据样本ID一致的原始数据样本反馈到实时生产系统。本发明能实时反馈,并对数据进行简化,缓解了数据处理及存储压力。
Description
技术领域
本发明属于类脑智能及工业大数据领域,涉及一种基于类脑分层记忆机制的实时数据流智能化处理平台。
背景技术
在当前工业大数据的时代背景下,工业企业在向现代化与智能化的转型过程中,越来越多的工业企业认识到数据的价值,并注重对实时生产数据采集、存储和检索等。要实现生产过程的智能化,数据驱动控制方式成为必不可少的环节,如何保证每次输入数据驱动控制器中的数据足够可信与优质,是决定产品质量的关键。然而,在工业现场数据采集过程中往往存在各种各样的干扰,如数据缺失、噪声干扰、数据异常、数据冗余等,这些干扰对后续的自动化控制带了一定的困难。另外,工业企业的大规模生产过程中针对同一产品的生产数据往往较为稳定,因而对于大量重复、冗余的数据并不需要全部存储,从而节省企业没必要的开支。
以纤维拉伸环节的自动化控制为例,目前针对纤维拉伸环节采用的方法是分别对拉伸环节过程中的各受变量利用PID控制器形成若干个独立的闭环回路进行控制,虽然该方法能够对纤维拉伸环节进行控制,在一定程度上提高了纤维的性能,但该方法没有考虑变量之间的相互影响对综合控制效果的影响,调节手段单一,局限性较强,纤维产品的性能不高。
为了克服现有方法局限性较强的缺陷,研究人员采用数据驱动控制方法对聚酯纤维拉伸过程进行控制。数据驱动控制是一种利用受控系统的在线和离线I/O数据以及经过数据处理而得到的知识来设计控制器的一种控制方法,有收敛性、稳定性保障和鲁棒性结论。虽然该方法稳定性较好,但是用于支持决策的实时数据流的不确定因素对生产控制系统具有较大的影响,而且传感器扰动、环境干扰以及数据自身发生的变化可能造成热棍之间的拉伸速度出现偏差,速度过大造成丝束崩断或者速度过小而无法达到规定的生产要求,降低了产品的生产质量,其实时生产数据在无干扰或不同类型干扰下的示意图如图1所示,其中图1(a)为无异常干扰下单个数据属性的实时生产数据曲线图,可以看出在成熟化的生产环境下,同一数据属性的数值较为平稳,偏差幅值在可接受范围内;图1(b)为缺失干扰下的实时生产数据曲线图,数据缺失可能来自传感器异常或者网络传输时发生数据丢包现象,该干扰下缺失数据属性将被设为0,如图中虚线部分所示;图1(c)为噪声干扰下的实时生产数据曲线图,工业环境下的电磁干扰及其常见,图中以高斯噪声模拟电磁干扰,如虚线部分所示;图1(d)为异常值干扰下的实时生产数据曲线图,异常值的干扰源往往来自于传感器采集数据时发生错误,其数值远远高出或者低于正常数据值,如图中虚线所示。当前针对这几类异常问题的处理方法都是从数据本身出发,采用填补、插值、替换、删除等等多种方法,但是均未考虑采用系统中已有的特征最相似的历史生产数据进行替换问题。传统的方法在异常数据处理上往往要耗费大量的时间,不能满足实时生产的需求,尤其是在实时数据驱动的环境下。
近年来随着人工智能领域研究与应用的持续火热,与脑科学相关的研究也越来越多的得到学术界和工业界的关注。具有记忆功能的大脑可以记住感兴趣的信息丰富大脑的信息量,并且可以遗忘无关紧要的信息来减少大脑被繁杂琐事所困扰而影响工作效率的弊端;人类的大脑可以深刻的记住对自身影响极其重大的事件,即便很多年以后依旧记忆如新,这样的功能被称作永久记忆,例如我们会永远记住一生中影响最为深刻的一次交谈、会面或者面试等等;然而,大部分时间中存储在大脑中的信息会发生遗忘的现象,存在大脑中的信息痕迹量的多少以及该类信息被使用的频次决定了信息在大脑中的存在时间,因而,可以进一步划分为长时记忆、短时记忆以及瞬时记忆。
类脑的分层记忆机制是依赖于大脑中针对不同事件或者信息产生的不同记忆功能,同一事件或者信息经过多次重复会逐渐增加其在大脑中的存在,进而划分出不同的记忆层次;对系统影响程度最大的信息可以存储在永久性记忆层中,其次存储于长时、短时和瞬时记忆层;信息检索的过程是从按照大脑中的信息痕迹量对上述四层进行依次检索,因此保证了最重要的信息能够在最快的事件中被检索到。
目前基于记忆机制的智能化应用比较广泛,一系列智能化设备和系统的核心单元都朝着类脑智能方向发展,如基于记忆的智能聊天机器人、可穿戴设备以及智能化的物联网系统等;当前工业大数据在我国迅猛发展,企业注重采集并存储相关生产数据。然而工业现场的数据过程往往存在多种类型的干扰,使得基于数据驱动的生产过程受到很大的困扰,如何在超大容量的生产数据存储服务器中快速检索到匹配的有效数据是一个十分值得关注的问题。
因此,开发一种将类脑分层记忆机制应用于处理实时数据流的智能化处理平台极具现实意义。
发明内容
本发明的目的是为了克服上述现有技术中存在局限性强、抗干扰性弱及数据存储压力大的问题,提供了一种抗干扰性较强且数据存储量小的基于类脑分层记忆机制的实时数据流智能化处理平台。
本发明针对运行稳定的实时工业生产过程,在数据样本采集和传输过程中存在外界诸多不确定因素的干扰,如数据缺失、噪声干扰、数据异常、数据冗余等,以及工业大数据环境下简化海量实时生产数据存储问题,设计了基于类脑分层记忆机制的实时生产数据流智能化处理平台,该平台不但可以实现异常数据的自动检测与报警,而且可以通过分析非异常但具有不确定因素的数据,并从数据库中快速提取相匹配的数据反馈到实时生产系统,另外,该平台通过简化数据库存储以缩减数据存储成本。
基于类脑分层记忆机制的实时数据流智能化处理平台,包括:
数据预处理模块,用于对原始数据样本进行预处理,原始数据样本包括构建平台时输入的数据样本和在线测试时输入的新到来的数据样本即实时不确定数据流样本,预处理为PCA降维处理或者为PCA降维处理和K-means聚类;同时用于对预处理后的新到来的数据样本进行异常值检测,并将检测到的异常数据样本发送至在线监测与故障诊断模块,将正常数据样本发送至分层记忆网络模块,异常值检测是指判断数据样本是否来自于同一数据源,异常数据样本为未知数据源数据样本或病毒数据样本;还用于向数据有效性复核模块发送正常数据样本及其对应的原始数据样本;
分层记忆网络模块,是平台的核心,用于分层存储经数据预处理模块预处理后的构建平台时输入的数据样本,分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中;同时用于接收数据预处理模块发送的正常数据样本,检索与正常数据样本最接近的数据样本,并将最接近的数据样本发送至数据库模块,所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本;
在线监测与故障诊断模块,用于接收数据预处理模块发送的异常数据样本并进行故障预警;
数据有效性复核模块,用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本,并对数据样本的有效性进行复核,将有效的正常数据样本对应的原始数据样本发送至数据库模块中;设置该模块是因为一些原始数据样本本身存在很严重的数据特征的变化,在经过数据预处理后表现出来的特征往往不存在异常,所以在决定原始数据样本能否被存储到数据库中前,需要对其进行有效性复核;
数据库模块,用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本;同时用于接收分层记忆网络模块发送的最接近的数据样本,并提取与最接近的数据样本ID一致的原始数据样本反馈到实时生产系统;还用于接收和存储数据有效性复核模块发送的有效的正常数据样本对应的原始数据样本;
实时生产系统,为数据驱动控制器的集合,用于接收数据库模块发送的原始数据样本并对生产进行控制,实时生产系统的控制精度由数据库中反馈的原始数据样本的质量直接决定。
实时数据流智能化处理平台在进行在线数据测试或者使用前,需要经过离线训练,即该平台的构建过程具有离线训练和在线测试两个阶段:
离线训练阶段主要为使用已采集存储的原始数据集构建分层记忆网络和与其相对应的数据库;
在线测试阶段主要为采集新的实时不确定数据流样本,对该样本进行处理,在数据复核有效性后存入离线训练阶段构建的分层记忆网络和与其相对应的数据库,并刷新其顺序。
作为优选的技术方案:
如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,所述异常值检测的方法为:
首先,定义新到来的数据样本为Ds1×n,Ds1×n经过数据预处理模块PCA降维处理后的数据样本为ds1×p,PCA中累计贡献率cv=0.95;
然后,计算并取出最小值所对应的聚类类别k,k={1,2,3,4,5},其中,dis(·)表示计算数据样本间的欧式距离,为聚类中心;
最后,比较和的数值大小,如果则新到来的数据样本为异常数据样本,反之,则为正常数据样本,其中是指记忆库中的数据样本与所选的聚类中心间欧式距离的最大值,为所选的聚类中心,为归属k类并经过预处理的新数据样本。如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,所述分层记忆网络主要由永久记忆层、长时记忆层和短时记忆层构成,永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。平台在分层记忆网络模块中检索的顺序依次从永久记忆层、长时记忆层到短时记忆层按信息痕迹量的大小进行降序检索,这主要是因为对于印象最为深刻的数据往往最先被检索到,类似于人脑对印象最深刻的事情往往反映最快;
如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,所述分层记忆网络的构建步骤如下:
(1)确定基本原始数据样本集Ra和训练原始数据样本集Rt;
从生产过程中已保存的原始数据集中分别选取不同数据得到基本原始数据集Ra和训练原始数据集Rt;
其中,Ra记为[Ra]b×n,即Ra具有b条原始数据样本,每条数据样本含有n维数据特征,Rt记为[Rt]l×n,即Rt具有l条原始数据样本,每条数据样本含有n维数据特征,b,l∈{1000,1001,1002,…,10000},n∈{10,11,12,…1000}且
(2)采用数据预处理模块对Ra和Rt进行预处理对应得到Sb×(p+1)和Tl×p;
为了降低数据样本的计算复杂度,提升计算效率,采用数据预处理模块分别对Ra和Rt进行处理;
对Ra同时进行PCA降维处理和K-means聚类,PCA中的累积贡献率cv=0.95,K-means的聚类数量cl=5,处理后的数据集为其中,p为经过PCA降维后的数据维度,p<n,p+1是指Ra在经过PCA后又进行K-means聚类时出现的类别标号,如每一个子聚类数据集的上标所示;
对Rt进行PCA降维处理,为保证降维后的数据样本维度一致,本步骤中的PCA累积贡献率不变,PCA中的累积贡献率cv=0.95,Tl×p为Rt经过PCA降维处理后的数据集;
Sb×(p+1)进入分层记忆网络中的短时记忆层,用于训练分层记忆网络;Ra进入数据库;Sb×(p+1)和Ra通过一致的ID实现彼此间的相互调用,形如:(ID,Sb×(p+1))与(ID,Ra);
(3)将Sb×(p+1)存储到短时记忆层中并对其进行处理;
由于分层记忆库需要初始化训练,因而需要对预处理后的数据样本Sb×(p+1)进行处理即加入及type数据特征,Sb×(p+1)处理后的数据集H中的一条数据样本Hi,i∈{1,2,…,b},如下所示:
其中,为该条数据样本被记忆的次数,k∈{1,2,…,cl},初始值为1;
为该条数据样本被回忆起的次数,初始值为1;
为该条数据样本最近一次被记忆或者回忆起的时间,初始值为系统当前时间now;
为该条数据样本在系统中的信息痕迹量,初始值为0;
type为该条数据样本目前所在的分层类别,type={1,2,3},type=1表示处于短时记忆层,type=2表示处于长时记忆层,type=3表示处于永久记忆层,初始值type=1;
(4)采用Tl×p训练Sb×(p+1)将其划分到分层记忆网络的不同层中完成分层记忆网络的构建。
如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,采用Tl×p训练Sb×(p+1)的具体步骤如下:
(4.1)提取Tl×p中的一个数据样本Tj×p;
由训练数据集Tl×p中提取一个数据样本Tj×p,j={1,2,…,l};
(4.2)计算
dis(·)表示计算数据样本间的欧式距离,并取出dis(·)最小值所对应的聚类类别k,此时最匹配的聚类中心数据样本为
(4.3)判断Tj×p能否与长时记忆层中的数据样本完全匹配,如果能,则更新分层记忆网络后返回步骤(4.1);反之,则进入下一步;
完全匹配是指:将该数据样本与分层记忆库中长时记忆层(type=2)中聚类类别为k的数据样本进行匹配计算,在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层(type=2)且聚类类别为k的数据集中的第v条数据样本,v={1,2,…,b};两数据样本间的欧式距离其中为中的数据部分;
更新分层记忆网络的方法为:
首先,将该被查找的数据样本的被记忆特征更新该条数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算该条数据样本在系统中的信息痕迹量其中为该条数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的10%数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4.4)判断Tj×p是否存在于长时记忆层中,如果否,则进入下一步;反之,则更新分层记忆网络后返回步骤(4.1);
判断方法为:判断是否大于其中是指k类聚类中心到长时记忆层中所有属于聚类类别为k的数据样本中欧式距离的最大值,即:
上式成立则该数据样本存在于长时记忆层中;
更新分层记忆网络的方法为:
首先,计算离线阶段长时记忆层回忆率θfl和回忆量numfl:
numfl←θfl×size(H2k,1)
其中,size(H2k,1)表示长时记忆层k类数据样本集中的数据样本量;
然后,根据数据样本信息痕迹量数值从高到低进行排序,选取前num条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取信息痕迹量数值最低的numfl条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4.5)进入短时记忆层中更新分层记忆网络后返回步骤(4.1),更新分层记忆网络的方法为:
短时记忆层(type=1)检索与长时记忆层检索类似,首先,计算离线阶段短时记忆层回忆率θfs和检索量numfs:
numfs←θfs×size(H1k,1)
其中H1k为短时记忆层(type=1)且聚类类别为k的数据集,size(H1k,1)表示短时记忆层k类数据样本集中的数据样本量,是指k类聚类中心到短时记忆层中所有k类数据样本的最大值;
然后,根据层内各数据样本信息痕迹量数值从高到低进行排序,选取前numfs条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值排序前numfs数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2,其中为H1k中的第v条数据样本,为被记忆的次数;
当Tl×p中的每一个数据样本都经过上述过程后,训练结束,分层记忆网络构建完成。
如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,所述检索与正常数据样本最接近的数据样本的步骤如下:
(1)在永久记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新永久记忆层;反之,则进入下一步;
完全匹配是指:在永久记忆层k类中存在完全匹配的数据样本表示永久记忆层(type=3)且聚类类别为k的数据集中的第ip条数据样本,ip={1,2,…,np},其中np为永久记忆层中最大样本数量,两数据样本间的欧式距离其中为中的数据部分;
如上式成立,则在数据库中提取与数据样本的ID相一致的原始数据样本反馈到实时生产系统;
更新永久记忆层的方法为:
首先,将被查找的数据样本的被记忆特征更新数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算数据样本在系统中的信息痕迹量其中为数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,更新永久记忆层;
(2)进入长时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新长时记忆层;反之,则进入下一步;
完全匹配的含义及更新长时记忆层的方法同步骤(1);
(3)判断正常数据样本是否存在于长时记忆层中,如果是,则回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;反之,则进入下一步;
判断方法为:判断是否大于即:
如上式成立则说明该数据样本存在于长时记忆层中;
回忆相关数据样本并确定一个数据样本的方法为:
在没有直接匹配的情况下需要进行回忆操作,先计算在线阶段长时记忆层回忆率θol和检索量numol:
numol←θol×size(H2k,1);
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numol条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,其中,il是指该条数据样本的顺序标号,il={1,2,…,numol};
更新分层记忆网络的方法为:
首先,将选定的该条数据样本被回忆起的次数其中,il={1,2,…,num},更新该条数据样本最近一次被记忆或者回忆起的时间特征
然后,计算该条数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的numol条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4)进入短时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新短时记忆层;反之,则进入下一步;
完全匹配的含义及更新短时记忆层的方法同步骤(1);
(5)在短时记忆层中回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;
回忆相关数据样本和确定一个数据样本的方法为:
短时记忆层(type=1)检索与长时记忆层检索类似,先计算在线阶段短时记忆层回忆率θos和检索量numos:
numos←θ×size(H1k,1)
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numos条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,表示短时记忆层(type=1)且聚类类别为k的数据集中的第is条数据样本,is={1,2,…,ns},其中ns为短时记忆层中最大样本数量;
更新分层记忆网络的方法为:
首先,将数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征
然后,计算数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前numos条数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2。
如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台,所述对数据样本的有效性进行复核的公式如下:
0<dis(DS,Rbh)<2×dis(ds,Sbh)
式中,DS为正常数据样本对应的原始数据样本,ds为正常数据样本,Rbh为数据库模块中与DS最接近的数据样本,Sbh为分层记忆网络模块中与Rbh具有相同ID的数据样本;
如果公式不成立,则ds非有效的正常数据样本,不对DS进行存储;反之,则ds为有效的正常数据样本,将DS发送至数据库模块进行存储,存储规则为:
提取数据库模块中现有数据样本的ID最大值,将其加1作为DS的ID。
有益效果:
(1)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台,能进行实时反馈,实时处理生产数据中的不确定因素,抗干扰能力强;
(2)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台,采用类脑分层记忆机制,对实时数据进行简化处理,大大降低了数据处理及存储压力;
(3)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台,方法简单,经济效益好,极具应用前景。
附图说明
图1是本发明所涉及的工业实时生产数据在无干扰或不同类型干扰下的示意图;
其中,图1(a)为不存在干扰下较平稳的数据示意图,图1(b)为存在缺失数据下的示意图,图1(c)为存在噪声干扰下的数据示意图,图1(d)为存在异常值干扰下数据示意图;
图2是本发明的基于类脑分层记忆机制的实时数据流智能化处理平台的模块示意图;
图3是本发明中各数据样本间的关系图;
图4是本发明的Ebbinghaus遗忘曲线图。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明在针对运行稳定的实时工业生产过程,在数据样本采集和传输过程中存在外界诸多不确定因素的干扰,如数据缺失、噪声干扰、数据异常、数据冗余等,以及工业大数据环境下简化海量实时生产数据存储问题,设计了基于类脑分层记忆机制的实时数据流智能化处理平台,如图2所示,包括:
(1)数据预处理模块(DP),用于对原始数据样本进行预处理,原始数据样本包括构建平台时输入的数据样本和在线测试时输入的新到来的数据样本即实时不确定数据流样本,预处理为PCA降维处理或者为PCA降维处理和K-means聚类;同时用于对预处理后的新到来的数据样本进行异常值检测,并将检测到的异常数据样本发送至在线监测与故障诊断模块,将正常数据样本发送至分层记忆网络模块,异常值检测是指判断数据样本是否来自于同一数据源,异常数据样本为未知数据源数据样本或病毒数据样本;还用于向数据有效性复核模块发送正常数据样本及其对应的原始数据样本;
异常值检测的方法为:
首先,定义新到来的数据样本为Ds1×n,Ds1×n经过数据预处理模块PCA降维处理后的数据样本为ds1×p,PCA中累计贡献率cv=0.95;
然后,计算并取出最小值所对应的聚类类别k,k={1,2,3,4,5},其中,dis(·)表示计算数据样本间的欧式距离,为聚类中心;
最后,比较和的数值大小,如果则新到来的数据样本为异常数据样本,反之,则为正常数据样本,其中是指记忆库中的数据样本与所选的聚类中心间欧式距离的最大值,为所选的聚类中心,为归属k类并经过预处理的新数据样本。
(2)分层记忆网络模块(HMN),用于分层存储经数据预处理模块(DP)预处理后的构建平台时输入的数据样本,分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中;同时用于接收数据预处理模块(DP)发送的正常数据样本,检索与正常数据样本最接近的数据样本,并将最接近的数据样本发送至数据库模块(PVD),所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本;分层记忆网络模块(HMN)主要由永久记忆层、长时记忆层和短时记忆层构成,永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。
其中,分层记忆网络模块(HMN)的构建步骤如下:
(2.1)确定基本原始数据样本集Ra和训练原始数据样本集Rt,关系图如图3所示(请确认是否正确);
从生产过程中已保存的原始数据集中分别选取不同数据得到基本原始数据集Ra和训练原始数据集Rt;
其中,Ra记为[Ra]b×n,即Ra具有b条原始数据样本,每条数据样本含有n维数据特征,Rt记为[Rt]l×n,即Rt具有l条原始数据样本,每条数据样本含有n维数据特征,b,l∈{1000,1001,1002,…,10000},n∈{10,11,12,…1000}且
(2.2)采用数据预处理模块(DP)对Ra和Rt进行预处理对应得到Sb×(p+1)和Tl×p;
为了降低数据样本的计算复杂度,提升计算效率,采用数据预处理模块(DP)分别对Ra和Rt进行处理;
对Ra同时进行PCA降维处理和K-means聚类,PCA中的累积贡献率cv=0.95,K-means的聚类数量cl=5,处理后的数据集为其中,p为经过PCA降维后的数据维度,p<n,p+1是指Ra在经过PCA后又进行K-means聚类时出现的类别标号,如每一个子聚类数据集的上标所示,另外聚类中心为
对Rt进行PCA降维处理,为保证降维后的数据样本维度一致,本步骤中的PCA累积贡献率不变,PCA中的累积贡献率cv=0.95,Tl×p为Rt经过PCA降维处理后的数据集;
Sb×(p+1)进入分层记忆网络中的短时记忆层,用于训练分层记忆网络;Ra进入数据库;
Sb×(p+1)和Ra通过一致的ID实现彼此间的相互调用,形如:(ID,Sb×(p+1))与(ID,Ra);
(2.3)将Sb×(p+1)存储到短时记忆层中并对其进行处理;
由于分层记忆库需要初始化训练,因而需要对预处理后的数据样本Sb×(p+1)进行处理即加入及type数据特征,Sb×(p+1)处理后的数据集H中的一条数据样本Hi,i∈{1,2,…,b},如下所示:
其中,为该条数据样本被记忆的次数,k∈{1,2,…,cl},初始值为1;
为该条数据样本被回忆起的次数,初始值为1;
为该条数据样本最近一次被记忆或者回忆起的时间,初始值为系统当前时间now;
为该条数据样本在系统中的信息痕迹量,初始值为0;
type为该条数据样本目前所在的分层类别,type={1,2,3},type=1表示处于短时记忆层,type=2表示处于长时记忆层,type=3表示处于永久记忆层,初始值type=1;
(2.4)采用Tl×p训练Sb×(p+1)将其划分到分层记忆网络的不同层中完成分层记忆网络的构建。采用Tl×p训练Sb×(p+1)的具体步骤如下:
(2.4.1)提取Tl×p中的一个数据样本Tj×p;
由训练数据集Tl×p中提取一个数据样本Tj×p,j={1,2,…,l};
(2.4.2)计算
dis(·)表示计算数据样本间的欧式距离,并取出dis(·)最小值所对应的聚类类别k,相对应的聚类中心数据样本为
(2.4.3)判断Tj×p能否与长时记忆层中的数据样本完全匹配,如果能,则更新分层记忆网络后返回步骤(2.4.1);反之,则进入下一步;
其中完全匹配是指:将该数据样本与分层记忆库中长时记忆层(type=2)中聚类类别为k的数据样本进行匹配计算,在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层(type=2)且聚类类别为k的数据集中的第v条数据样本,v={1,2,…,b};两数据样本间的欧式距离其中为中的数据部分;
更新分层记忆网络的方法为:
首先,将该被查找的数据样本的被记忆特征更新该条数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算该条数据样本在系统中的信息痕迹量其中为该条数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的10%数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(2.4.4)判断Tj×p是否存在于长时记忆层中,如果否,则进入下一步;反之,则更新分层记忆网络后返回步骤(2.4.1);
判断方法为:判断是否大于其中是指k类聚类中心到长时记忆层中所有k类数据样本的最大值,即:
上式成立则该数据样本存在于长时记忆层中;
更新分层记忆网络的方法为:
首先,计算离线阶段长时记忆层回忆率θfl和回忆量numfl:
numfl←θfl×size(H2k,1)
其中,size(H2k,1)表示长时记忆层k类数据样本集中的数据样本量;
然后,根据数据样本信息痕迹量数值从高到低进行排序,选取前num条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取信息痕迹量数值最低的numfl条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;如图4所示为本发明方法获得的Ebbinghaus遗忘曲线图,从图中可看出信息在脑中的痕迹量随着记忆次数的增加将会从迅速遗忘转为永久记忆;
(2.4.5)进入短时记忆层中更新分层记忆网络后返回步骤(4.1),更新分层记忆网络的方法为:
短时记忆层(type=1)检索与长时记忆层检索类似,首先,计算离线阶段短时记忆层回忆率θfs和检索量numfs:
numfs←θfs×size(H1k,1)
其中H1k为短时记忆层(type=1)且聚类类别为k的数据集,size(H1k,1)表示短时记忆层k类数据样本集中的数据样本量,是指k类聚类中心到短时记忆层中所有k类数据样本的最大值;
然后,根据层内各数据样本信息痕迹量数值从高到低进行排序,选取前numfs条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值排序前numfs数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2,其中为H1k中的第v条数据样本,为被记忆的次数;
当Tl×p中的每一个数据样本都经过上述过程后,训练结束,分层记忆网络构建完成。
检索与正常数据样本最接近的数据样本的步骤如下:
(a)在永久记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新永久记忆层;反之,则进入下一步;
完全匹配是指:在永久记忆层k类中存在完全匹配的数据样本表示永久记忆层(type=3)且聚类类别为k的数据集中的第ip条数据样本,ip={1,2,…,np},其中np为永久记忆层中最大样本数量,两数据样本间的欧式距离其中为中的数据部分;
如上式成立,则在数据库中提取与数据样本的ID相一致的原始数据样本反馈到实时生产系统;
更新永久记忆层的方法为:
首先,将被查找的数据样本的被记忆特征更新数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算数据样本在系统中的信息痕迹量其中为数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,更新永久记忆层;
(b)进入长时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新长时记忆层;反之,则进入下一步;
完全匹配的含义及更新长时记忆层的方法同步骤(a);
(c)判断正常数据样本是否存在于长时记忆层中,如果是,则回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;反之,则进入下一步;
判断方法为:判断是否大于其中是指k类聚类中心到长时记忆层中所有k类数据样本的最大值,即:
如上式成立则说明该数据样本存在于长时记忆层中;
回忆相关数据样本并确定一个数据样本的方法为:
在没有直接匹配的情况下需要进行回忆操作,先计算在线阶段长时记忆层回忆率θol和检索量numol:
numol←θol×size(H2k,1)
其中,size(H2k,1)表示长时记忆层k类数据样本集中的数据样本量;
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numol条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,其中,il为被选中的第il条数据样本,il={1,2,…,numol};
更新分层记忆网络的方法为:
首先,将选定的该条数据样本被回忆起的次数其中,il={1,2,…,num},更新该条数据样本最近一次被记忆或者回忆起的时间特征
然后,计算该条数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的numol条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(d)进入短时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新短时记忆层;反之,则进入下一步;
完全匹配的含义及更新短时记忆层的方法同步骤(a);
(e)在短时记忆层中回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;
回忆相关数据样本和确定一个数据样本的方法为:
短时记忆层(type=1)检索与长时记忆层检索类似,先计算在线阶段短时记忆层回忆率θos和检索量numos:
numos←θ×size(H1k,1)
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numos条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,表示短时记忆层(type=1)且聚类类别为k的数据集中的第is条数据样本,is={1,2,…,ns},其中ns为短时记忆层中最大样本数量;
更新分层记忆网络的方法为:
首先,将数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征
然后,计算数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前numos条数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2。
(3)在线监测与故障诊断模块(MFDP),用于接收数据预处理模块发送的异常数据样本并进行故障预警。
(4)数据有效性复核模块(VC),用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本,并对数据样本的有效性进行复核,将有效的正常数据样本对应的原始数据样本发送至数据库模块中;
对数据样本的有效性进行复核的公式如下:
0<dis(DS,Rbh)<2×dis(ds,Sbh)
式中,DS为正常数据样本对应的原始数据样本,ds为正常数据样本,Rbh为数据库模块中与DS最接近的数据样本,Sbh为分层记忆网络模块中与Rbh具有相同ID的数据样本;
如果公式不成立,则ds非有效的正常数据样本,不对DS进行存储;反之,则ds为有效的正常数据样本,将DS发送至数据库模块进行存储,存储规则为:
提取数据库模块中现有数据样本的ID最大值,将其加1作为DS的ID;
(5)数据库模块(RVD),用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本;同时用于接收分层记忆网络模块发送的最接近的数据样本,并提取与最接近的数据样本ID一致的原始数据样本反馈到实时生产系统;还用于接收和存储数据有效性复核模块发送的有效的正常数据样本对应的原始数据样本;
(6)实时生产系统(RPS),为数据驱动控制器的集合,用于接收数据库模块发送的原始数据样本并对生产进行控制。
综上所述,本发明的平台不但可以实现异常数据即非同一生产过程中的数据或者是病毒数据、特征损坏严重的数据等的自动检测与报警,而且可以通过分析非恶意但具有不确定因素的数据,并从数据库中快速提取相匹配的数据反馈到实时生产系统,应用前景十分可观。
Claims (7)
1.基于类脑分层记忆机制的实时数据流智能化处理平台,其特征是,包括:
数据预处理模块,用于对原始数据样本进行预处理,原始数据样本包括构建平台时输入的数据样本和在线测试时输入的新到来的数据样本即实时不确定数据流样本,预处理为PCA降维处理或者为PCA降维处理和K-means聚类;同时用于对预处理后的新到来的数据样本进行异常值检测,并将检测到的异常数据样本发送至在线监测与故障诊断模块,将正常数据样本发送至分层记忆网络模块,异常值检测是指判断数据样本是否来自于同一数据源,异常数据样本为未知数据源数据样本或病毒数据样本;还用于向数据有效性复核模块发送正常数据样本及其对应的原始数据样本;
分层记忆网络模块,用于分层存储经数据预处理模块预处理后的构建平台时输入的数据样本,分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中;同时用于接收数据预处理模块发送的正常数据样本,检索与正常数据样本最接近的数据样本,并将最接近的数据样本发送至数据库模块,所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本;
在线监测与故障诊断模块,用于接收数据预处理模块发送的异常数据样本并进行故障预警;
数据有效性复核模块,用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本,并对数据样本的有效性进行复核,将有效的正常数据样本对应的原始数据样本发送至数据库模块中;
数据库模块,用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本;同时用于接收分层记忆网络模块发送的最接近的数据样本,并提取与最接近的数据样本ID一致的原始数据样本反馈到实时生产系统;还用于接收和存储数据有效性复核模块发送的有效的正常数据样本对应的原始数据样本;
实时生产系统,为数据驱动控制器的集合,用于接收数据库模块发送的原始数据样本并对生产进行控制。
2.根据权利要求1所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,所述异常值检测的方法为:
首先,定义新到来的数据样本为Ds1×n,Ds1×n经过数据预处理模块PCA降维处理后的数据样本为ds1×p,PCA中累计贡献率cv=0.95;
然后,计算并取出最小值所对应的聚类类别k,k={1,2,3,4,5},其中,dis(·)表示计算数据样本间的欧式距离,为聚类中心;
最后,比较和的数值大小,如果则新到来的数据样本为异常数据样本,反之,则为正常数据样本,其中是指记忆库中的数据样本与所选的聚类中心间欧式距离的最大值,为所选的聚类中心,为归属k类并经过预处理的新数据样本。
3.根据权利要求2所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,所述分层记忆网络主要由永久记忆层、长时记忆层和短时记忆层构成,永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。
4.根据权利要求3所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,所述分层记忆网络的构建步骤如下:
(1)确定基本原始数据样本集Ra和训练原始数据样本集Rt;
从生产过程中已保存的原始数据集中分别选取不同数据得到基本原始数据集Ra和训练原始数据集Rt;
其中,Ra记为[Ra]b×n,即Ra具有b条原始数据样本,每条数据样本含有n维数据特征,Rt记为[Rt]l×n,即Rt具有l条原始数据样本,每条数据样本含有n维数据特征,b,l∈{1000,1001,1002,…,10000},n∈{10,11,12,…1000}且
(2)采用数据预处理模块对Ra和Rt进行预处理对应得到Sb×(p+1)和Tl×p;
对Ra同时进行PCA降维处理和K-means聚类,PCA中的累积贡献率cv=0.95,K-means的聚类数量cl=5,处理后的数据集为其中,p为经过PCA降维后的数据维度,p<n,p+1是指Ra在经过PCA后又进行K-means聚类时出现的类别标号,如每一个子聚类数据集的上标所示;
对Rt进行PCA降维处理,PCA中的累积贡献率cv=0.95,Tl×p为Rt经过PCA降维处理后的数据集;
(3)将Sb×(p+1)存储到短时记忆层中并对其进行处理;
对预处理后的数据样本Sb×(p+1)进行处理即加入及type数据特征,Sb×(p+1)处理后的数据集H中的一条数据样本Hi,i∈{1,2,…,b},如下所示:
其中,为该条数据样本被记忆的次数,k∈{1,2,…,cl},初始值为1;
为该条数据样本被回忆起的次数,初始值为1;
为该条数据样本最近一次被记忆或者回忆起的时间,初始值为系统当前时间now;
为该条数据样本在系统中的信息痕迹量,初始值为0;
type为该条数据样本目前所在的分层类别,type={1,2,3},type=1表示处于短时记忆层,type=2表示处于长时记忆层,type=3表示处于永久记忆层,初始值type=1;
(4)采用Tl×p训练Sb×(p+1)将其划分到分层记忆网络的不同层中完成分层记忆网络的构建。
5.根据权利要求4所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,采用Tl×p训练Sb×(p+1)的具体步骤如下:
(4.1)提取Tl×p中的一个数据样本Tj×p;
由训练数据集Tl×p中提取一个数据样本Tj×p,j={1,2,…,l};
(4.2)计算
dis(·)表示计算数据样本间的欧式距离,并取出dis(·)最小值所对应的聚类类别k,此时最匹配的聚类中心数据样本为
(4.3)判断Tj×p能否与长时记忆层中的数据样本完全匹配,如果能,则更新分层记忆网络后返回步骤(4.1);反之,则进入下一步;
完全匹配是指:将该数据样本与分层记忆库中长时记忆层中聚类类别为k的数据样本进行匹配计算,在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层且聚类类别为k的数据集中的第v条数据样本,v={1,2,…,b};两数据样本间的欧式距离其中为中的数据部分;
更新分层记忆网络的方法为:
首先,将该被查找的数据样本的被记忆特征更新该条数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算该条数据样本在系统中的信息痕迹量其中为该条数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的10%数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4.4)判断Tj×p是否存在于长时记忆层中,如果否,则进入下一步;反之,则更新分层记忆网络后返回步骤(4.1);
判断方法为:判断是否大于其中是指k类聚类中心到长时记忆层中所有k类数据样本的最大值,即:
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>T</mi>
<mrow>
<mi>j</mi>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
上式成立则该数据样本存在于长时记忆层中;
更新分层记忆网络的方法为:
首先,计算离线阶段长时记忆层回忆率θfl和回忆量numfl:
<mrow>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>f</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&LeftArrow;</mo>
<mfrac>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>T</mi>
<mrow>
<mi>j</mi>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>max</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>f</mi>
<mi>l</mi>
</mrow>
</msub>
<mo><</mo>
<mn>1</mn>
</mrow>
numfl←θfl×size(H2k,1)
其中,size(H2k,1)表示长时记忆层k类数据样本集中的数据样本量;
然后,根据数据样本信息痕迹量数值从高到低进行排序,选取前num条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取信息痕迹量数值最低的numfl条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4.5)进入短时记忆层中更新分层记忆网络后返回步骤(4.1),更新分层记忆网络的方法为:
首先,计算离线阶段短时记忆层回忆率θfs和检索量numfs:
<mrow>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>f</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>&LeftArrow;</mo>
<mfrac>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>T</mi>
<mrow>
<mi>j</mi>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>max</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>H</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>f</mi>
<mi>s</mi>
</mrow>
</msub>
<mo><</mo>
<mn>1</mn>
</mrow>
numfs←θfs×size(H1k,1)
其中H1k为短时记忆层且聚类类别为k的数据集,size(H1k,1)表示短时记忆层k类数据样本集中的数据样本量,是指k类聚类中心到短时记忆层中所有k类数据样本的最大值;
然后,根据层内各数据样本信息痕迹量数值从高到低进行排序,选取前numfs条数据样本,将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量
最后,取信息痕迹量数值排序前numfs数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2,其中为H1k中的第v条数据样本,为被记忆的次数;
当Tl×p中的每一个数据样本都经过上述过程后,训练结束,分层记忆网络构建完成。
6.根据权利要求5所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,所述检索与正常数据样本最接近的数据样本的步骤如下:
(1)在永久记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新永久记忆层;反之,则进入下一步;
完全匹配是指:在永久记忆层k类中存在完全匹配的数据样本表示永久记忆层且聚类类别为k的数据集中的第ip条数据样本,ip={1,2,…,np},其中np为永久记忆层中最大样本数量,两数据样本间的欧式距离其中为中的数据部分;
如上式成立,则在数据库中提取与数据样本的ID相一致的原始数据样本反馈到实时生产系统;
更新永久记忆层的方法为:
首先,将被查找的数据样本的被记忆特征更新数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间;
然后,计算数据样本在系统中的信息痕迹量其中为数据样本被回忆起的次数;
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,更新永久记忆层;
(2)进入长时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新长时记忆层;反之,则进入下一步;
完全匹配的含义及更新长时记忆层的方法同步骤(1);
(3)判断正常数据样本是否存在于长时记忆层中,如果是,则回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;反之,则进入下一步;
判断方法为:判断是否大于即:
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>ds</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
如上式成立则说明该数据样本存在于长时记忆层中;
回忆相关数据样本并确定一个数据样本的方法为:
先计算在线阶段长时记忆层回忆率θol和检索量numol:
<mrow>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>o</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&LeftArrow;</mo>
<mfrac>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>ds</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>max</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>o</mi>
<mi>l</mi>
</mrow>
</msub>
<mo><</mo>
<mn>1</mn>
</mrow>
numol←θol×size(H2k,1);
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numol条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,其中,il是指该条数据样本的顺序标号,il={1,2,…,numol};
更新分层记忆网络的方法为:
首先,将选定的该条数据样本被回忆起的次数其中,il={1,2,…,num},更新该条数据样本最近一次被记忆或者回忆起的时间特征
然后,计算该条数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前1%的数据样本加入永久记忆层,将这部分数据样本的分层特征改为type=3,取最低的numol条数据样本加入短时记忆层,将这部分数据样本的分层特征改为type=1;
(4)进入短时记忆层中检索完全匹配的数据样本,如果检索成功,则向数据库模块发送检索到的数据样本即最接近的数据样本,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新短时记忆层;反之,则进入下一步;
完全匹配的含义及更新短时记忆层的方法同步骤(1);
(5)在短时记忆层中回忆相关数据样本,并确定一个数据样本即最接近的数据样本发送至数据库模块,数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统,同时更新分层记忆网络;
回忆相关数据样本和确定一个数据样本的方法为:
先计算在线阶段短时记忆层回忆率θos和检索量numos:
<mrow>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>&LeftArrow;</mo>
<mfrac>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msub>
<mi>ds</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>center</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mi>p</mi>
</mrow>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msup>
<mi>S</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msup>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>o</mi>
<mi>s</mi>
</mrow>
</msub>
<mo><</mo>
<mn>1</mn>
</mrow>
numos←θ×size(H1k,1)
后根据数据样本信息痕迹量数值从高到低进行排序,选取前numos条数据样本,取其中信息痕迹量最大的数据样本的ID,并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统,表示短时记忆层且聚类类别为k的数据集中的第is条数据样本,is={1,2,…,ns},其中ns为短时记忆层中最大样本数量;
更新分层记忆网络的方法为:
首先,将数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征
然后,计算数据样本在系统中的信息痕迹量
最后,根据层内各数据样本信息痕迹量数值从高到低进行排序,取前numos条数据样本加入长时记忆层,将这部分数据样本的分层特征改为type=2。
7.根据权利要求1所述的基于类脑分层记忆机制的实时数据流智能化处理平台,其特征在于,所述对数据样本的有效性进行复核的公式如下:
0<dis(DS,Rbh)<2×dis(ds,Sbh)
式中,DS为正常数据样本对应的原始数据样本,ds为正常数据样本,Rbh为数据库模块中与DS最接近的数据样本,Sbh为分层记忆网络模块中与Rbh具有相同ID的数据样本;
如果公式不成立,则ds非有效的正常数据样本,不对DS进行存储;反之,则ds为有效的正常数据样本,将DS发送至数据库模块进行存储,存储规则为:
提取数据库模块中现有数据样本的ID最大值,将其加1作为DS的ID。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711352760.9A CN108107729B (zh) | 2017-12-15 | 2017-12-15 | 基于类脑分层记忆机制的实时数据流智能化处理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711352760.9A CN108107729B (zh) | 2017-12-15 | 2017-12-15 | 基于类脑分层记忆机制的实时数据流智能化处理平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108107729A true CN108107729A (zh) | 2018-06-01 |
CN108107729B CN108107729B (zh) | 2019-11-08 |
Family
ID=62217405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711352760.9A Active CN108107729B (zh) | 2017-12-15 | 2017-12-15 | 基于类脑分层记忆机制的实时数据流智能化处理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108107729B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1453723A (zh) * | 2002-04-26 | 2003-11-05 | 刘新方 | 价值分类的人工智能软件方法与计算机体系结构的装置 |
US20060184462A1 (en) * | 2004-12-10 | 2006-08-17 | Hawkins Jeffrey C | Methods, architecture, and apparatus for implementing machine intelligence and hierarchical memory systems |
CN101819408A (zh) * | 2010-04-16 | 2010-09-01 | 东华大学 | 一种基于数据驱动的差别化纤维纺丝工艺交互式设计方法 |
CN105786903A (zh) * | 2014-12-25 | 2016-07-20 | 国家电网公司 | 一种对电能质量扰动事件分类的方法 |
CN105867323A (zh) * | 2016-03-31 | 2016-08-17 | 东华大学 | 基于动态克隆选择算法的工业云数据安全自动化生产线 |
CN106209821A (zh) * | 2016-07-07 | 2016-12-07 | 何钟柱 | 基于可信云计算的信息安全大数据管理系统 |
WO2017177128A1 (en) * | 2016-04-08 | 2017-10-12 | The Trustees Of Columbia University In The City Of New York | Systems and methods for deep reinforcement learning using a brain-artificial intelligence interface |
-
2017
- 2017-12-15 CN CN201711352760.9A patent/CN108107729B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1453723A (zh) * | 2002-04-26 | 2003-11-05 | 刘新方 | 价值分类的人工智能软件方法与计算机体系结构的装置 |
US20060184462A1 (en) * | 2004-12-10 | 2006-08-17 | Hawkins Jeffrey C | Methods, architecture, and apparatus for implementing machine intelligence and hierarchical memory systems |
CN101819408A (zh) * | 2010-04-16 | 2010-09-01 | 东华大学 | 一种基于数据驱动的差别化纤维纺丝工艺交互式设计方法 |
CN105786903A (zh) * | 2014-12-25 | 2016-07-20 | 国家电网公司 | 一种对电能质量扰动事件分类的方法 |
CN105867323A (zh) * | 2016-03-31 | 2016-08-17 | 东华大学 | 基于动态克隆选择算法的工业云数据安全自动化生产线 |
WO2017177128A1 (en) * | 2016-04-08 | 2017-10-12 | The Trustees Of Columbia University In The City Of New York | Systems and methods for deep reinforcement learning using a brain-artificial intelligence interface |
CN106209821A (zh) * | 2016-07-07 | 2016-12-07 | 何钟柱 | 基于可信云计算的信息安全大数据管理系统 |
Non-Patent Citations (1)
Title |
---|
宋小芹 等: "基于机会认知的类脑智能数据挖掘机制", 《计算机仿真》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108107729B (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | An automatic identification framework for complex power quality disturbances based on multifusion convolutional neural network | |
CN111832647A (zh) | 异常流量检测系统及方法 | |
CN113723632A (zh) | 一种基于知识图谱的工业设备故障诊断方法 | |
CN110929847A (zh) | 一种基于深度卷积神经网络的换流变压器故障诊断方法 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN106980761A (zh) | 一种滚动轴承运行状态退化趋势预测方法 | |
CN112307153A (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN115115090A (zh) | 一种基于改进lstm-cnn的风功率短期预测方法 | |
Ding et al. | A convolutional transformer architecture for remaining useful life estimation | |
CN113608952B (zh) | 一种基于日志构建支持环境的系统故障处理方法及系统 | |
CN109359664A (zh) | 自我学习更新训练样本的高效质检模型构建方法及系统 | |
CN113052302A (zh) | 基于循环神经网络的机器健康监控方法、装置及终端设备 | |
CN108107729A (zh) | 基于类脑分层记忆机制的实时数据流智能化处理平台 | |
CN112422546A (zh) | 一种基于变邻域算法和模糊聚类的网络异常检测方法 | |
Lin et al. | A method of satellite network fault synthetic diagnosis based on C4. 5 algorithm and expert knowledge database | |
CN112269778B (zh) | 一种设备故障诊断方法 | |
CN109726286B (zh) | 一种基于lda主题模型的图书自动分类方法 | |
Lan et al. | Mining semantic variation in time series for rumor detection via recurrent neural networks | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 | |
CN111191826A (zh) | 一种基于余弦相似度分类的负荷预测方法 | |
CN116304110B (zh) | 使用英语词汇数据构建知识图谱的工作方法 | |
CN115270780B (zh) | 一种术语识别方法 | |
CN109508735A (zh) | 一种基于神经动力学的软间隔支持向量机分类方法 | |
CN108107855A (zh) | 类脑分层记忆机制下纤维拉伸环节的智能化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |