CN108107729A

CN108107729A - 基于类脑分层记忆机制的实时数据流智能化处理平台

Info

Publication number: CN108107729A
Application number: CN201711352760.9A
Authority: CN
Inventors: 丁永生; 王伟凯; 陈磊; 郝矿荣; 任立红
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-01
Anticipated expiration: 2037-12-15
Also published as: CN108107729B

Abstract

本发明提出一种基于类脑分层记忆机制的实时数据流智能化处理平台，包括数据预处理模块、分层记忆网络模块、在线监测与故障诊断模块、数据有效性复核模块、数据库模块及实时生产系统；其中分层记忆网络模块用于分层存储经数据预处理模块预处理后的用于构建平台的数据样本、接收数据预处理模块发送的正常数据样本、检索与正常数据样本最接近的数据样本并将其发送至数据库模块；数据库模块用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本、接收分层记忆网络模块发送的最接近的数据样本并提取与该数据样本ID一致的原始数据样本反馈到实时生产系统。本发明能实时反馈，并对数据进行简化，缓解了数据处理及存储压力。

Description

基于类脑分层记忆机制的实时数据流智能化处理平台

技术领域

本发明属于类脑智能及工业大数据领域，涉及一种基于类脑分层记忆机制的实时数据流智能化处理平台。

背景技术

在当前工业大数据的时代背景下，工业企业在向现代化与智能化的转型过程中，越来越多的工业企业认识到数据的价值，并注重对实时生产数据采集、存储和检索等。要实现生产过程的智能化，数据驱动控制方式成为必不可少的环节，如何保证每次输入数据驱动控制器中的数据足够可信与优质，是决定产品质量的关键。然而，在工业现场数据采集过程中往往存在各种各样的干扰，如数据缺失、噪声干扰、数据异常、数据冗余等，这些干扰对后续的自动化控制带了一定的困难。另外，工业企业的大规模生产过程中针对同一产品的生产数据往往较为稳定，因而对于大量重复、冗余的数据并不需要全部存储，从而节省企业没必要的开支。

以纤维拉伸环节的自动化控制为例，目前针对纤维拉伸环节采用的方法是分别对拉伸环节过程中的各受变量利用PID控制器形成若干个独立的闭环回路进行控制，虽然该方法能够对纤维拉伸环节进行控制，在一定程度上提高了纤维的性能，但该方法没有考虑变量之间的相互影响对综合控制效果的影响，调节手段单一，局限性较强，纤维产品的性能不高。

为了克服现有方法局限性较强的缺陷，研究人员采用数据驱动控制方法对聚酯纤维拉伸过程进行控制。数据驱动控制是一种利用受控系统的在线和离线I/O数据以及经过数据处理而得到的知识来设计控制器的一种控制方法，有收敛性、稳定性保障和鲁棒性结论。虽然该方法稳定性较好，但是用于支持决策的实时数据流的不确定因素对生产控制系统具有较大的影响，而且传感器扰动、环境干扰以及数据自身发生的变化可能造成热棍之间的拉伸速度出现偏差，速度过大造成丝束崩断或者速度过小而无法达到规定的生产要求，降低了产品的生产质量，其实时生产数据在无干扰或不同类型干扰下的示意图如图1所示，其中图1(a)为无异常干扰下单个数据属性的实时生产数据曲线图，可以看出在成熟化的生产环境下，同一数据属性的数值较为平稳，偏差幅值在可接受范围内；图1(b)为缺失干扰下的实时生产数据曲线图，数据缺失可能来自传感器异常或者网络传输时发生数据丢包现象，该干扰下缺失数据属性将被设为0，如图中虚线部分所示；图1(c)为噪声干扰下的实时生产数据曲线图，工业环境下的电磁干扰及其常见，图中以高斯噪声模拟电磁干扰，如虚线部分所示；图1(d)为异常值干扰下的实时生产数据曲线图，异常值的干扰源往往来自于传感器采集数据时发生错误，其数值远远高出或者低于正常数据值，如图中虚线所示。当前针对这几类异常问题的处理方法都是从数据本身出发，采用填补、插值、替换、删除等等多种方法，但是均未考虑采用系统中已有的特征最相似的历史生产数据进行替换问题。传统的方法在异常数据处理上往往要耗费大量的时间，不能满足实时生产的需求，尤其是在实时数据驱动的环境下。

近年来随着人工智能领域研究与应用的持续火热，与脑科学相关的研究也越来越多的得到学术界和工业界的关注。具有记忆功能的大脑可以记住感兴趣的信息丰富大脑的信息量，并且可以遗忘无关紧要的信息来减少大脑被繁杂琐事所困扰而影响工作效率的弊端；人类的大脑可以深刻的记住对自身影响极其重大的事件，即便很多年以后依旧记忆如新，这样的功能被称作永久记忆，例如我们会永远记住一生中影响最为深刻的一次交谈、会面或者面试等等；然而，大部分时间中存储在大脑中的信息会发生遗忘的现象，存在大脑中的信息痕迹量的多少以及该类信息被使用的频次决定了信息在大脑中的存在时间，因而，可以进一步划分为长时记忆、短时记忆以及瞬时记忆。

类脑的分层记忆机制是依赖于大脑中针对不同事件或者信息产生的不同记忆功能，同一事件或者信息经过多次重复会逐渐增加其在大脑中的存在，进而划分出不同的记忆层次；对系统影响程度最大的信息可以存储在永久性记忆层中，其次存储于长时、短时和瞬时记忆层；信息检索的过程是从按照大脑中的信息痕迹量对上述四层进行依次检索，因此保证了最重要的信息能够在最快的事件中被检索到。

目前基于记忆机制的智能化应用比较广泛，一系列智能化设备和系统的核心单元都朝着类脑智能方向发展，如基于记忆的智能聊天机器人、可穿戴设备以及智能化的物联网系统等；当前工业大数据在我国迅猛发展，企业注重采集并存储相关生产数据。然而工业现场的数据过程往往存在多种类型的干扰，使得基于数据驱动的生产过程受到很大的困扰，如何在超大容量的生产数据存储服务器中快速检索到匹配的有效数据是一个十分值得关注的问题。

因此，开发一种将类脑分层记忆机制应用于处理实时数据流的智能化处理平台极具现实意义。

发明内容

本发明的目的是为了克服上述现有技术中存在局限性强、抗干扰性弱及数据存储压力大的问题，提供了一种抗干扰性较强且数据存储量小的基于类脑分层记忆机制的实时数据流智能化处理平台。

本发明针对运行稳定的实时工业生产过程，在数据样本采集和传输过程中存在外界诸多不确定因素的干扰，如数据缺失、噪声干扰、数据异常、数据冗余等，以及工业大数据环境下简化海量实时生产数据存储问题，设计了基于类脑分层记忆机制的实时生产数据流智能化处理平台，该平台不但可以实现异常数据的自动检测与报警，而且可以通过分析非异常但具有不确定因素的数据，并从数据库中快速提取相匹配的数据反馈到实时生产系统，另外，该平台通过简化数据库存储以缩减数据存储成本。

基于类脑分层记忆机制的实时数据流智能化处理平台，包括：

数据预处理模块，用于对原始数据样本进行预处理，原始数据样本包括构建平台时输入的数据样本和在线测试时输入的新到来的数据样本即实时不确定数据流样本，预处理为PCA降维处理或者为PCA降维处理和K-means聚类；同时用于对预处理后的新到来的数据样本进行异常值检测，并将检测到的异常数据样本发送至在线监测与故障诊断模块，将正常数据样本发送至分层记忆网络模块，异常值检测是指判断数据样本是否来自于同一数据源，异常数据样本为未知数据源数据样本或病毒数据样本；还用于向数据有效性复核模块发送正常数据样本及其对应的原始数据样本；

分层记忆网络模块，是平台的核心，用于分层存储经数据预处理模块预处理后的构建平台时输入的数据样本，分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中；同时用于接收数据预处理模块发送的正常数据样本，检索与正常数据样本最接近的数据样本，并将最接近的数据样本发送至数据库模块，所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本；

在线监测与故障诊断模块，用于接收数据预处理模块发送的异常数据样本并进行故障预警；

数据有效性复核模块，用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本，并对数据样本的有效性进行复核，将有效的正常数据样本对应的原始数据样本发送至数据库模块中；设置该模块是因为一些原始数据样本本身存在很严重的数据特征的变化，在经过数据预处理后表现出来的特征往往不存在异常，所以在决定原始数据样本能否被存储到数据库中前，需要对其进行有效性复核；

数据库模块，用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本；同时用于接收分层记忆网络模块发送的最接近的数据样本，并提取与最接近的数据样本ID一致的原始数据样本反馈到实时生产系统；还用于接收和存储数据有效性复核模块发送的有效的正常数据样本对应的原始数据样本；

实时生产系统，为数据驱动控制器的集合，用于接收数据库模块发送的原始数据样本并对生产进行控制，实时生产系统的控制精度由数据库中反馈的原始数据样本的质量直接决定。

实时数据流智能化处理平台在进行在线数据测试或者使用前，需要经过离线训练，即该平台的构建过程具有离线训练和在线测试两个阶段：

离线训练阶段主要为使用已采集存储的原始数据集构建分层记忆网络和与其相对应的数据库；

在线测试阶段主要为采集新的实时不确定数据流样本，对该样本进行处理，在数据复核有效性后存入离线训练阶段构建的分层记忆网络和与其相对应的数据库，并刷新其顺序。

作为优选的技术方案：

如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，所述异常值检测的方法为：

首先，定义新到来的数据样本为Ds_1×n，Ds_1×n经过数据预处理模块PCA降维处理后的数据样本为ds_1×p，PCA中累计贡献率cv＝0.95；

然后，计算并取出最小值所对应的聚类类别k，k＝{1,2,3,4,5}，其中，dis(·)表示计算数据样本间的欧式距离，为聚类中心；

最后，比较和的数值大小，如果则新到来的数据样本为异常数据样本，反之，则为正常数据样本，其中是指记忆库中的数据样本与所选的聚类中心间欧式距离的最大值，为所选的聚类中心，为归属k类并经过预处理的新数据样本。如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，所述分层记忆网络主要由永久记忆层、长时记忆层和短时记忆层构成，永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。平台在分层记忆网络模块中检索的顺序依次从永久记忆层、长时记忆层到短时记忆层按信息痕迹量的大小进行降序检索，这主要是因为对于印象最为深刻的数据往往最先被检索到，类似于人脑对印象最深刻的事情往往反映最快；

如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，所述分层记忆网络的构建步骤如下：

(1)确定基本原始数据样本集R_a和训练原始数据样本集R_t；

从生产过程中已保存的原始数据集中分别选取不同数据得到基本原始数据集R_a和训练原始数据集R_t；

其中，R_a记为[R_a]_b×n，即R_a具有b条原始数据样本，每条数据样本含有n维数据特征，R_t记为[R_t]_l×n，即R_t具有l条原始数据样本，每条数据样本含有n维数据特征，b,l∈{1000,1001,1002,…,10000},n∈{10,11,12,…1000}且

(2)采用数据预处理模块对R_a和R_t进行预处理对应得到S_b×(p+1)和T_l×p；

为了降低数据样本的计算复杂度，提升计算效率，采用数据预处理模块分别对R_a和R_t进行处理；

对R_a同时进行PCA降维处理和K-means聚类，PCA中的累积贡献率cv＝0.95，K-means的聚类数量cl＝5，处理后的数据集为其中，p为经过PCA降维后的数据维度，p<n，p+1是指R_a在经过PCA后又进行K-means聚类时出现的类别标号，如每一个子聚类数据集的上标所示；

对R_t进行PCA降维处理，为保证降维后的数据样本维度一致，本步骤中的PCA累积贡献率不变，PCA中的累积贡献率cv＝0.95，T_l×p为R_t经过PCA降维处理后的数据集；

S_b×(p+1)进入分层记忆网络中的短时记忆层，用于训练分层记忆网络；R_a进入数据库；S_b×(p+1)和R_a通过一致的ID实现彼此间的相互调用，形如：(ID,S_b×(p+1))与(ID,Ra)；

(3)将S_b×(p+1)存储到短时记忆层中并对其进行处理；

由于分层记忆库需要初始化训练，因而需要对预处理后的数据样本S_b×(p+1)进行处理即加入及type数据特征，S_b×(p+1)处理后的数据集H中的一条数据样本H_i,i∈{1,2,…,b}，如下所示：

其中，为该条数据样本被记忆的次数，k∈{1,2,…,cl}，初始值为1；

为该条数据样本被回忆起的次数，初始值为1；

为该条数据样本最近一次被记忆或者回忆起的时间，初始值为系统当前时间now；

为该条数据样本在系统中的信息痕迹量，初始值为0；

type为该条数据样本目前所在的分层类别，type＝{1,2,3}，type＝1表示处于短时记忆层，type＝2表示处于长时记忆层，type＝3表示处于永久记忆层，初始值type＝1；

(4)采用T_l×p训练S_b×(p+1)将其划分到分层记忆网络的不同层中完成分层记忆网络的构建。

如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，采用T_l×p训练S_b×(p+1)的具体步骤如下：

(4.1)提取T_l×p中的一个数据样本T_j×p；

由训练数据集T_l×p中提取一个数据样本T_j×p，j＝{1,2,…,l}；

(4.2)计算

dis(·)表示计算数据样本间的欧式距离，并取出dis(·)最小值所对应的聚类类别k，此时最匹配的聚类中心数据样本为

(4.3)判断T_j×p能否与长时记忆层中的数据样本完全匹配，如果能，则更新分层记忆网络后返回步骤(4.1)；反之，则进入下一步；

完全匹配是指：将该数据样本与分层记忆库中长时记忆层(type＝2)中聚类类别为k的数据样本进行匹配计算，在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层(type＝2)且聚类类别为k的数据集中的第v条数据样本，v＝{1,2,…,b}；两数据样本间的欧式距离其中为中的数据部分；

更新分层记忆网络的方法为：

首先，将该被查找的数据样本的被记忆特征更新该条数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间；

然后，计算该条数据样本在系统中的信息痕迹量其中为该条数据样本被回忆起的次数；

最后，根据层内各数据样本信息痕迹量数值从高到低进行排序，取前1％的数据样本加入永久记忆层，将这部分数据样本的分层特征改为type＝3，取最低的10％数据样本加入短时记忆层，将这部分数据样本的分层特征改为type＝1；

(4.4)判断T_j×p是否存在于长时记忆层中，如果否，则进入下一步；反之，则更新分层记忆网络后返回步骤(4.1)；

判断方法为：判断是否大于其中是指k类聚类中心到长时记忆层中所有属于聚类类别为k的数据样本中欧式距离的最大值，即：

上式成立则该数据样本存在于长时记忆层中；

更新分层记忆网络的方法为：

首先，计算离线阶段长时记忆层回忆率θ_fl和回忆量num_fl：

num_fl←θ_fl×size(H^2k,1)

其中，size(H^2k,1)表示长时记忆层k类数据样本集中的数据样本量；

然后，根据数据样本信息痕迹量数值从高到低进行排序，选取前num条数据样本，将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量

最后，取信息痕迹量数值前1％的数据样本加入永久记忆层，将这部分数据样本的分层特征改为type＝3，取信息痕迹量数值最低的num_fl条数据样本加入短时记忆层，将这部分数据样本的分层特征改为type＝1；

(4.5)进入短时记忆层中更新分层记忆网络后返回步骤(4.1)，更新分层记忆网络的方法为：

短时记忆层(type＝1)检索与长时记忆层检索类似，首先，计算离线阶段短时记忆层回忆率θ_fs和检索量num_fs：

num_fs←θ_fs×size(H^1k,1)

其中H^1k为短时记忆层(type＝1)且聚类类别为k的数据集，size(H^1k,1)表示短时记忆层k类数据样本集中的数据样本量，是指k类聚类中心到短时记忆层中所有k类数据样本的最大值；

然后，根据层内各数据样本信息痕迹量数值从高到低进行排序，选取前num_fs条数据样本，将选定的数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征再计算数据样本在系统中的信息痕迹量

最后，取信息痕迹量数值排序前num_fs数据样本加入长时记忆层，将这部分数据样本的分层特征改为type＝2，其中为H^1k中的第v条数据样本，为被记忆的次数；

当T_l×p中的每一个数据样本都经过上述过程后，训练结束，分层记忆网络构建完成。

如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，所述检索与正常数据样本最接近的数据样本的步骤如下：

(1)在永久记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新永久记忆层；反之，则进入下一步；

完全匹配是指：在永久记忆层k类中存在完全匹配的数据样本表示永久记忆层(type＝3)且聚类类别为k的数据集中的第ip条数据样本，ip＝{1,2,…,np}，其中np为永久记忆层中最大样本数量，两数据样本间的欧式距离其中为中的数据部分；

如上式成立，则在数据库中提取与数据样本的ID相一致的原始数据样本反馈到实时生产系统；

更新永久记忆层的方法为：

首先，将被查找的数据样本的被记忆特征更新数据样本最近一次被记忆或者回忆起的时间特征其中now为系统当前时间；

然后，计算数据样本在系统中的信息痕迹量其中为数据样本被回忆起的次数；

最后，根据层内各数据样本信息痕迹量数值从高到低进行排序，更新永久记忆层；

(2)进入长时记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新长时记忆层；反之，则进入下一步；

完全匹配的含义及更新长时记忆层的方法同步骤(1)；

(3)判断正常数据样本是否存在于长时记忆层中，如果是，则回忆相关数据样本，并确定一个数据样本即最接近的数据样本发送至数据库模块，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新分层记忆网络；反之，则进入下一步；

判断方法为：判断是否大于即：

如上式成立则说明该数据样本存在于长时记忆层中；

回忆相关数据样本并确定一个数据样本的方法为：

在没有直接匹配的情况下需要进行回忆操作，先计算在线阶段长时记忆层回忆率θ_ol和检索量num_ol：

num_ol←θ_ol×size(H^2k,1)；

后根据数据样本信息痕迹量数值从高到低进行排序，选取前num_ol条数据样本，取其中信息痕迹量最大的数据样本的ID，并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统，其中，il是指该条数据样本的顺序标号，il＝{1,2,…,num_ol}；

更新分层记忆网络的方法为：

首先，将选定的该条数据样本被回忆起的次数其中，il＝{1,2,…,num}，更新该条数据样本最近一次被记忆或者回忆起的时间特征

然后，计算该条数据样本在系统中的信息痕迹量

最后，根据层内各数据样本信息痕迹量数值从高到低进行排序，取前1％的数据样本加入永久记忆层，将这部分数据样本的分层特征改为type＝3，取最低的num_ol条数据样本加入短时记忆层，将这部分数据样本的分层特征改为type＝1；

(4)进入短时记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新短时记忆层；反之，则进入下一步；

完全匹配的含义及更新短时记忆层的方法同步骤(1)；

(5)在短时记忆层中回忆相关数据样本，并确定一个数据样本即最接近的数据样本发送至数据库模块，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新分层记忆网络；

回忆相关数据样本和确定一个数据样本的方法为：

短时记忆层(type＝1)检索与长时记忆层检索类似，先计算在线阶段短时记忆层回忆率θ_os和检索量num_os：

num_os←θ×size(H^1k,1)

后根据数据样本信息痕迹量数值从高到低进行排序，选取前num_os条数据样本，取其中信息痕迹量最大的数据样本的ID，并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统，表示短时记忆层(type＝1)且聚类类别为k的数据集中的第is条数据样本，is＝{1,2,…,ns}，其中ns为短时记忆层中最大样本数量；

更新分层记忆网络的方法为：

首先，将数据样本被回忆起的次数更新数据样本最近一次被记忆或者回忆起的时间特征

然后，计算数据样本在系统中的信息痕迹量

最后，根据层内各数据样本信息痕迹量数值从高到低进行排序，取前num_os条数据样本加入长时记忆层，将这部分数据样本的分层特征改为type＝2。

如上所述的基于类脑分层记忆机制的实时数据流智能化处理平台，所述对数据样本的有效性进行复核的公式如下：

0<dis(DS,R_bh)<2×dis(ds,S_bh)

式中，DS为正常数据样本对应的原始数据样本，ds为正常数据样本，R_bh为数据库模块中与DS最接近的数据样本，S_bh为分层记忆网络模块中与R_bh具有相同ID的数据样本；

如果公式不成立，则ds非有效的正常数据样本，不对DS进行存储；反之，则ds为有效的正常数据样本，将DS发送至数据库模块进行存储，存储规则为：

提取数据库模块中现有数据样本的ID最大值，将其加1作为DS的ID。

有益效果：

(1)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台，能进行实时反馈，实时处理生产数据中的不确定因素，抗干扰能力强；

(2)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台，采用类脑分层记忆机制，对实时数据进行简化处理，大大降低了数据处理及存储压力；

(3)本发明的基于类脑分层记忆机制的实时数据流智能化处理平台，方法简单，经济效益好，极具应用前景。

附图说明

图1是本发明所涉及的工业实时生产数据在无干扰或不同类型干扰下的示意图；

其中，图1(a)为不存在干扰下较平稳的数据示意图，图1(b)为存在缺失数据下的示意图，图1(c)为存在噪声干扰下的数据示意图，图1(d)为存在异常值干扰下数据示意图；

图2是本发明的基于类脑分层记忆机制的实时数据流智能化处理平台的模块示意图；

图3是本发明中各数据样本间的关系图；

图4是本发明的Ebbinghaus遗忘曲线图。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明在针对运行稳定的实时工业生产过程，在数据样本采集和传输过程中存在外界诸多不确定因素的干扰，如数据缺失、噪声干扰、数据异常、数据冗余等，以及工业大数据环境下简化海量实时生产数据存储问题，设计了基于类脑分层记忆机制的实时数据流智能化处理平台，如图2所示，包括：

(1)数据预处理模块(DP)，用于对原始数据样本进行预处理，原始数据样本包括构建平台时输入的数据样本和在线测试时输入的新到来的数据样本即实时不确定数据流样本，预处理为PCA降维处理或者为PCA降维处理和K-means聚类；同时用于对预处理后的新到来的数据样本进行异常值检测，并将检测到的异常数据样本发送至在线监测与故障诊断模块，将正常数据样本发送至分层记忆网络模块，异常值检测是指判断数据样本是否来自于同一数据源，异常数据样本为未知数据源数据样本或病毒数据样本；还用于向数据有效性复核模块发送正常数据样本及其对应的原始数据样本；

异常值检测的方法为：

最后，比较和的数值大小，如果则新到来的数据样本为异常数据样本，反之，则为正常数据样本，其中是指记忆库中的数据样本与所选的聚类中心间欧式距离的最大值，为所选的聚类中心，为归属k类并经过预处理的新数据样本。

(2)分层记忆网络模块(HMN)，用于分层存储经数据预处理模块(DP)预处理后的构建平台时输入的数据样本，分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中；同时用于接收数据预处理模块(DP)发送的正常数据样本，检索与正常数据样本最接近的数据样本，并将最接近的数据样本发送至数据库模块(PVD)，所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本；分层记忆网络模块(HMN)主要由永久记忆层、长时记忆层和短时记忆层构成，永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。

其中，分层记忆网络模块(HMN)的构建步骤如下：

(2.1)确定基本原始数据样本集R_a和训练原始数据样本集R_t，关系图如图3所示(请确认是否正确)；

(2.2)采用数据预处理模块(DP)对R_a和R_t进行预处理对应得到S_b×(p+1)和T_l×p；

为了降低数据样本的计算复杂度，提升计算效率，采用数据预处理模块(DP)分别对R_a和R_t进行处理；

对R_a同时进行PCA降维处理和K-means聚类，PCA中的累积贡献率cv＝0.95，K-means的聚类数量cl＝5，处理后的数据集为其中，p为经过PCA降维后的数据维度，p<n，p+1是指R_a在经过PCA后又进行K-means聚类时出现的类别标号，如每一个子聚类数据集的上标所示，另外聚类中心为

S_b×(p+1)进入分层记忆网络中的短时记忆层，用于训练分层记忆网络；R_a进入数据库；

S_b×(p+1)和R_a通过一致的ID实现彼此间的相互调用，形如：(ID,S_b×(p+1))与(ID,R_a)；

(2.3)将S_b×(p+1)存储到短时记忆层中并对其进行处理；

为该条数据样本被回忆起的次数，初始值为1；

为该条数据样本在系统中的信息痕迹量，初始值为0；

(2.4)采用T_l×p训练S_b×(p+1)将其划分到分层记忆网络的不同层中完成分层记忆网络的构建。采用T_l×p训练S_b×(p+1)的具体步骤如下：

(2.4.1)提取T_l×p中的一个数据样本T_j×p；

由训练数据集T_l×p中提取一个数据样本T_j×p，j＝{1,2,…,l}；

(2.4.2)计算

dis(·)表示计算数据样本间的欧式距离，并取出dis(·)最小值所对应的聚类类别k，相对应的聚类中心数据样本为

(2.4.3)判断T_j×p能否与长时记忆层中的数据样本完全匹配，如果能，则更新分层记忆网络后返回步骤(2.4.1)；反之，则进入下一步；

其中完全匹配是指：将该数据样本与分层记忆库中长时记忆层(type＝2)中聚类类别为k的数据样本进行匹配计算，在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层(type＝2)且聚类类别为k的数据集中的第v条数据样本，v＝{1,2,…,b}；两数据样本间的欧式距离其中为中的数据部分；

更新分层记忆网络的方法为：

(2.4.4)判断T_j×p是否存在于长时记忆层中，如果否，则进入下一步；反之，则更新分层记忆网络后返回步骤(2.4.1)；

判断方法为：判断是否大于其中是指k类聚类中心到长时记忆层中所有k类数据样本的最大值，即：

上式成立则该数据样本存在于长时记忆层中；

更新分层记忆网络的方法为：

首先，计算离线阶段长时记忆层回忆率θ_fl和回忆量num_fl：

num_fl←θ_fl×size(H^2k,1)

最后，取信息痕迹量数值前1％的数据样本加入永久记忆层，将这部分数据样本的分层特征改为type＝3，取信息痕迹量数值最低的num_fl条数据样本加入短时记忆层，将这部分数据样本的分层特征改为type＝1；如图4所示为本发明方法获得的Ebbinghaus遗忘曲线图，从图中可看出信息在脑中的痕迹量随着记忆次数的增加将会从迅速遗忘转为永久记忆；

(2.4.5)进入短时记忆层中更新分层记忆网络后返回步骤(4.1)，更新分层记忆网络的方法为：

num_fs←θ_fs×size(H^1k,1)

检索与正常数据样本最接近的数据样本的步骤如下：

(a)在永久记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新永久记忆层；反之，则进入下一步；

更新永久记忆层的方法为：

(b)进入长时记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新长时记忆层；反之，则进入下一步；

完全匹配的含义及更新长时记忆层的方法同步骤(a)；

(c)判断正常数据样本是否存在于长时记忆层中，如果是，则回忆相关数据样本，并确定一个数据样本即最接近的数据样本发送至数据库模块，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新分层记忆网络；反之，则进入下一步；

如上式成立则说明该数据样本存在于长时记忆层中；

回忆相关数据样本并确定一个数据样本的方法为：

num_ol←θ_ol×size(H^2k,1)

后根据数据样本信息痕迹量数值从高到低进行排序，选取前num_ol条数据样本，取其中信息痕迹量最大的数据样本的ID，并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统，其中，il为被选中的第il条数据样本，il＝{1,2,…,num_ol}；

更新分层记忆网络的方法为：

然后，计算该条数据样本在系统中的信息痕迹量

(d)进入短时记忆层中检索完全匹配的数据样本，如果检索成功，则向数据库模块发送检索到的数据样本即最接近的数据样本，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新短时记忆层；反之，则进入下一步；

完全匹配的含义及更新短时记忆层的方法同步骤(a)；

(e)在短时记忆层中回忆相关数据样本，并确定一个数据样本即最接近的数据样本发送至数据库模块，数据库模块提取与其ID相一致的原始数据样本反馈到实时生产系统，同时更新分层记忆网络；

回忆相关数据样本和确定一个数据样本的方法为：

num_os←θ×size(H^1k,1)

更新分层记忆网络的方法为：

然后，计算数据样本在系统中的信息痕迹量

(3)在线监测与故障诊断模块(MFDP)，用于接收数据预处理模块发送的异常数据样本并进行故障预警。

(4)数据有效性复核模块(VC)，用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本，并对数据样本的有效性进行复核，将有效的正常数据样本对应的原始数据样本发送至数据库模块中；

对数据样本的有效性进行复核的公式如下：

0<dis(DS,R_bh)<2×dis(ds,S_bh)

提取数据库模块中现有数据样本的ID最大值，将其加1作为DS的ID；

(5)数据库模块(RVD)，用于存储与分层记忆网络模块存储的预处理后的数据样本ID一致的原始数据样本；同时用于接收分层记忆网络模块发送的最接近的数据样本，并提取与最接近的数据样本ID一致的原始数据样本反馈到实时生产系统；还用于接收和存储数据有效性复核模块发送的有效的正常数据样本对应的原始数据样本；

(6)实时生产系统(RPS)，为数据驱动控制器的集合，用于接收数据库模块发送的原始数据样本并对生产进行控制。

综上所述，本发明的平台不但可以实现异常数据即非同一生产过程中的数据或者是病毒数据、特征损坏严重的数据等的自动检测与报警，而且可以通过分析非恶意但具有不确定因素的数据，并从数据库中快速提取相匹配的数据反馈到实时生产系统，应用前景十分可观。

Claims

1.基于类脑分层记忆机制的实时数据流智能化处理平台，其特征是，包括：

分层记忆网络模块，用于分层存储经数据预处理模块预处理后的构建平台时输入的数据样本，分层存储是指将数据样本按信息痕迹量的数值由大到小的顺序划分为不同的部分存储到不同层中；同时用于接收数据预处理模块发送的正常数据样本，检索与正常数据样本最接近的数据样本，并将最接近的数据样本发送至数据库模块，所述最接近的数据样本是指与正常数据样本具有最小欧氏距离的数据样本；

数据有效性复核模块，用于接收数据预处理模块发送的正常数据样本及其对应的原始数据样本，并对数据样本的有效性进行复核，将有效的正常数据样本对应的原始数据样本发送至数据库模块中；

实时生产系统，为数据驱动控制器的集合，用于接收数据库模块发送的原始数据样本并对生产进行控制。

2.根据权利要求1所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，所述异常值检测的方法为：

3.根据权利要求2所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，所述分层记忆网络主要由永久记忆层、长时记忆层和短时记忆层构成，永久记忆层、长时记忆层和短时记忆层中数据样本的信息痕迹量的数值依次递减。

4.根据权利要求3所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，所述分层记忆网络的构建步骤如下：

(1)确定基本原始数据样本集R_a和训练原始数据样本集R_t；

其中，R_a记为[R_a]_b×n，即R_a具有b条原始数据样本，每条数据样本含有n维数据特征，R_t记为[R_t]_l×n，即Rt具有l条原始数据样本，每条数据样本含有n维数据特征，b,l∈{1000,1001,1002,…,10000},n∈{10,11,12,…1000}且

对R_t进行PCA降维处理，PCA中的累积贡献率cv＝0.95，T_l×p为R_t经过PCA降维处理后的数据集；

(3)将S_b×(p+1)存储到短时记忆层中并对其进行处理；

对预处理后的数据样本S_b×(p+1)进行处理即加入及type数据特征，S_b×(p+1)处理后的数据集H中的一条数据样本H_i,i∈{1,2,…,b}，如下所示：

为该条数据样本被回忆起的次数，初始值为1；

为该条数据样本在系统中的信息痕迹量，初始值为0；

5.根据权利要求4所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，采用T_l×p训练S_b×(p+1)的具体步骤如下：

(4.1)提取T_l×p中的一个数据样本T_j×p；

由训练数据集T_l×p中提取一个数据样本T_j×p，j＝{1,2,…,l}；

(4.2)计算

完全匹配是指：将该数据样本与分层记忆库中长时记忆层中聚类类别为k的数据样本进行匹配计算，在长时记忆层k类中存在完全匹配的数据样本表示长时记忆层且聚类类别为k的数据集中的第v条数据样本，v＝{1,2,…,b}；两数据样本间的欧式距离其中为中的数据部分；

更新分层记忆网络的方法为：

<mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>S</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>></mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

上式成立则该数据样本存在于长时记忆层中；

更新分层记忆网络的方法为：

首先，计算离线阶段长时记忆层回忆率θ_fl和回忆量num_fl：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>f</mi> <mi>l</mi> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>S</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mn>0</mn> <mo><</mo> <msub> <mi>&theta;</mi> <mrow> <mi>f</mi> <mi>l</mi> </mrow> </msub> <mo><</mo> <mn>1</mn> </mrow>

num_fl←θ_fl×size(H^2k,1)

首先，计算离线阶段短时记忆层回忆率θ_fs和检索量num_fs：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>f</mi> <mi>s</mi> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>H</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mn>0</mn> <mo><</mo> <msub> <mi>&theta;</mi> <mrow> <mi>f</mi> <mi>s</mi> </mrow> </msub> <mo><</mo> <mn>1</mn> </mrow>

num_fs←θ_fs×size(H^1k,1)

其中H^1k为短时记忆层且聚类类别为k的数据集，size(H^1k,1)表示短时记忆层k类数据样本集中的数据样本量，是指k类聚类中心到短时记忆层中所有k类数据样本的最大值；

6.根据权利要求5所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，所述检索与正常数据样本最接近的数据样本的步骤如下：

完全匹配是指：在永久记忆层k类中存在完全匹配的数据样本表示永久记忆层且聚类类别为k的数据集中的第ip条数据样本，ip＝{1,2,…,np}，其中np为永久记忆层中最大样本数量，两数据样本间的欧式距离其中为中的数据部分；

更新永久记忆层的方法为：

完全匹配的含义及更新长时记忆层的方法同步骤(1)；

判断方法为：判断是否大于即：

<mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>S</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>></mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>ds</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

如上式成立则说明该数据样本存在于长时记忆层中；

回忆相关数据样本并确定一个数据样本的方法为：

先计算在线阶段长时记忆层回忆率θ_ol和检索量num_ol：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>ds</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>S</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mn>0</mn> <mo><</mo> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>l</mi> </mrow> </msub> <mo><</mo> <mn>1</mn> </mrow>

num_ol←θ_ol×size(H^2k,1)；

更新分层记忆网络的方法为：

然后，计算该条数据样本在系统中的信息痕迹量

完全匹配的含义及更新短时记忆层的方法同步骤(1)；

回忆相关数据样本和确定一个数据样本的方法为：

先计算在线阶段短时记忆层回忆率θ_os和检索量num_os：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>s</mi> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msub> <mi>ds</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mo>(</mo> <mrow> <msubsup> <mi>center</mi> <mrow> <mn>1</mn> <mo>&times;</mo> <mi>p</mi> </mrow> <mi>k</mi> </msubsup> <mo>,</mo> <msup> <mi>S</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mn>0</mn> <mo><</mo> <msub> <mi>&theta;</mi> <mrow> <mi>o</mi> <mi>s</mi> </mrow> </msub> <mo><</mo> <mn>1</mn> </mrow>

num_os←θ×size(H^1k,1)

后根据数据样本信息痕迹量数值从高到低进行排序，选取前num_os条数据样本，取其中信息痕迹量最大的数据样本的ID，并在数据库中提取与该数据样本的ID相一致的原始数据样本反馈到实时生产系统，表示短时记忆层且聚类类别为k的数据集中的第is条数据样本，is＝{1,2,…,ns}，其中ns为短时记忆层中最大样本数量；

更新分层记忆网络的方法为：

然后，计算数据样本在系统中的信息痕迹量

7.根据权利要求1所述的基于类脑分层记忆机制的实时数据流智能化处理平台，其特征在于，所述对数据样本的有效性进行复核的公式如下：

0<dis(DS,R_bh)<2×dis(ds,S_bh)