CN109063752B

CN109063752B - 基于神经网络的多源高维多尺度实时数据流的分拣方法

Info

Publication number: CN109063752B
Application number: CN201810785098.4A
Authority: CN
Inventors: 王合闯; 白娟
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2022-06-17
Anticipated expiration: 2038-07-17
Also published as: CN109063752A

Abstract

本发明公开了基于神经网络的多源高维多尺度实时数据流的分拣方法，涉及计算机高维数据分类技术领域，设计一个管道式的信息处理模型，该模型使用抽象工厂方式忽略了设备间数据格式的差异，然后使用消息泵机制将不同信道采集的多通道异构数据泵入数据处理管道，采用协处理器中间件方式完成异构消息的协同处理，在协处理器内部采用神经网络结构对多源高维数据进行分类处理，从而有效地解决了多通道信号分类融合处理问题。本发明通过研究现有分类器的优缺点，提出了一种改进的分拣方法，该方案融入人工智能的神经网络算法，通过对分类器的优化设计，满足了高维多尺度高速实时数据流的分拣。

Description

基于神经网络的多源高维多尺度实时数据流的分拣方法

技术领域

本发明涉及计算机高维数据分类技术领域，特别涉及基于神经网络的多源高维多尺度实时数据流的分拣方法。

背景技术

随着计算机技术的快速发展以及互联互通的网络普及数据采集和传输变得越来越快速、便捷，从而形成了日益庞大而复杂的数据集。面对海量数据，我们需要从中挖掘出一般信息来指导各种各样决策。然而，海量数据的维度可以达到成百上千维，由于维度的影响，在高维数据集聚类时，许多在低纬度数据集中表现良好的聚类方法无法取得良好的聚类结果。因此，对高维数据的分类聚合是数据挖掘中的比较困难的问题，高维数据聚类引起了学术界的广泛关注。

数据聚类是对具有共同趋势的数据元组进行分组，数据聚类的逻辑处理过程，就是依据该类数据集划分标准，采用某种算法使得数据集被划分为多个子数据集。其中，分组数据集之间没有关联关系，而同一个分组子集中具有属性相似性。数据分类方法是判定数据是否正确分类的关键，神经网络就是常用的一种数据分类方法。多源数据聚合是将来自多路信息采集设备汇入的数据信息加以组合，以便获取到更为精确的数据。多源数据融合起源于军事领域中多源传感器的应用，模仿了人通过自身感官系统获取到信息，然后经大脑分析提取出有用信息，以便产生决策来认识世界和改造世界。如今，多源数据融合技术广泛应用于生态监测、医学研发等相当多的领域。

众多学者在多源数据融合领域做出了巨大的努力。例如，杨月平提出了一种基于K-anonymizat ion的多源数据融合算法，降低了数据融合过程中的成本，提高多源数据融合的精度。李盛阳等人提出的多源分辨率遥感图像的智能融合方法，利用Curvelet-HCS算法提高HCS算法的频谱失真，实现多光谱图像多谱段的同时融合，完成不同的分辨率和不同的相位高分辨率多源遥感图像数据融合。惠国保的基于深度学习的多源异构数据融合方法是基于深度学习的多源异构数据融合模型，具有很强的泛化能力。虽然前人在多源数据分类聚合领域做了相当多的研究，但是将这些方法引入高维多尺度高速实时数据流的分类上的研究工作仍然有限。

在超大规模仿真科学计算时，输入的多元数据通过耦合器被送入仿真器，在数据运算之前，需要一个分类器，对输入的数据进行归纳处理。当输入的数据流比较小或者速率不是太高的情况下，运行于单机的分类器可以满足仿真器的需求；当输入的数据流是一种高速的、多尺度高维数据时，高维多尺度的数据特征使得算法复杂，庞大复杂的算法使得运行分类器的节点易于过载，高速数据的输入使得分类器必须在限定时间内完成数据的分类，过时的数据将被遗弃。当仿真器在高负载情况下易于失去响应而无法满足实时要求，因此常用的分离器无法满足超大规模仿真科学计算时仿真器的输入要求,所以就需要基于神经网络的多源高维多尺度实时数据流的分拣方法。

发明内容

本发明实施例提供了基于神经网络的多源高维多尺度实时数据流的分拣方法，用以解决现有技术中存在的问题。

具体步骤包括：

步骤一、将多源设备采集的数据泵入多个消息泵

将采集设备1-n采集的数据通过不同的数据通道泵入到多个消息泵中，具有相同泵入消息方式的采集设备之间共享一个数据通道，或者选用不同的数据通道；

步骤二、多个消息泵分别接收具有相同传输协议的数据

利用消息泵组件接收采集设备的数据，消息泵组件由消息泵1-n组成，采集设备1-n根据自身的需要，接入不同的消息泵进行数据传输，消息泵提供多个消息传输器接口，信号源相同的采集设备共用一个传输器接口；

步骤三、消息泵将数据传递给中间件组件进行类别分拣处理

利用中间件组件处理消息泵传递的数据，中间件组件由消息中间件1-n组成，每个消息中间件处理消息泵发送的相同类别的消息请求数据，并及时响应决定是否传递请求给管道模型中的下一个组件，以便及时分发指令给处理器，处理器确定是否拦截管道请求转移给其他的消息中间件处理，并在传递请求之前或回传响应消息之前执行特定操作；

步骤四、中间件组将分拣完毕的数据传输给协处理器集合处理

利用协处理器集合处理中间件组件传输的数据，协处理器集合由协处理器1-n组成，处理不同设备、不同协议格式采集的同类数据，处理后的结果被持久化保存在数据库中，同时如果某设备i订阅了本类消息，协处理器将处理后数据的结果再发布给订阅者。

本发明有益效果：本发明通过研究现有分类器的优缺点，提出了一种改进的分拣方法，该方案融入人工智能的神经网络算法，通过对分类器的优化设计，满足了高维多尺度高速实时数据流的分拣。

附图说明

图1为本发明实施例提供的多融合处理器架构图；

图2为消息泵的结构示意图；

图3为消息中间件管道模型；

图4为管道流程图；

图5为信号处理流程图；

图6为中间件调用协处理器的工作原理图；

图7为Autoencoder算法网络拓扑；

图8为Autoencoder算法的工作过程；

图9为FCFS信号处理模型；

图10为测试过程中系统各资源的使用情况；

图11为测试中各资源利用情况比较。

具体实施方式

下面结合发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

随着计算机的飞速发展，各个领域、行业的数据集也在成倍的增长，在海量大数据的数据挖掘中可以获取到有用信息，因此，对高维数据集的聚类问题就成为了众多学者研究的对象。由于高维数据集的维度效应，通常适用于低维数据集的聚类方法在应用到高维数据集聚类时无法得到良好的效果。由于神经网络在高维数据分类中可以得到良好的分类效果，因此，基于神经网络的高维数据分类研究也成为研究热点。

本发明提出了基于神经网络的多源高维多尺度实时数据流的分拣方法，该方法利用.Net Core MVC处理HttpContext数据流的思想，设计了一个多源数据处理管道，在管道内部采用数据协处理器的方法对数据进行分类处理。该协处理器组件是利用Autoencoder算法训练出一个最优的神经网络结构，然后利用该神经网络结构对高维数据集进行分拣。该分类方法可以解决大规模高维多尺度高速实时数据集难以分类的问题。

参照图1,为来自多个通道的空间地理信息数据的集成与融合处理器的架构模型，本发明提出的基于神经网络的多源高维多尺度实时数据流的分拣方法，设计了一个管道式的信息处理模型，该模型使用抽象工厂方式忽略了设备间数据格式的差异，然后使用消息泵机制将不同信道采集的多通道异构数据泵入数据处理管道，采用协处理器中间件方式完成异构消息的协同处理，在协处理器内部采用神经网络结构对多源高维数据进行分类处理，从而有效地解决了多通道信号分类融合处理问题。

多通道信号融合处理器就是将不同来源、不同格式和协议的地理空间信息在逻辑上和物理上进行有机的集中处理，按照一定的原则，对数据属性进行重新组合，改善了实体的集合精度。通过融合最终生成质量更高的数据，从而实现了地理信息的异构同质化处理。

本发明提出的基于神经网络的多源高维多尺度实时数据流的分拣方法，具体步骤包括：

步骤一、将采集设备1-n的采集数据泵入到消息管道中的不同数据通道，数据通道传输数据信号的方式有两种：采用网络的方式或者采用总线的方式。具有相同泵入消息方式的设备之间可以共享数据通道，也可以采用不同的数据通道，因此处理器需要给各类设备提供多种泵入消息的通道。

参照图2，为消息泵的结构示意图，在系统管道模型中提供了一个消息泵的组件，消息泵组件由实现了设备抽象类的实例对象列表设备1-n组成，这个实例列表提供了处理器能够提供给各类设备服务的不同消息泵泵源，设备1-n可以根据自身的需要，接入不同的泵源，进行数据等信号消息的传输。

对于处理器而言，接入的外部设备类型并不确定，即信号源的种类和数量并不确定。而处理器需要提供信道来接收这些信号数据，并将数据转发给相应的中间件进行处理，信号源也需要知道处理器提供的信号输入通道，这需要一个协定机制，用于处理器和信号源之间的匹配。在数据处理器中，提供了一个消息泵，用于接入多源输入设备接入的信号数据，

步骤二、消息泵提供了多个消息传输器接口，信号源相同的数据采集设备共用一个传输器接口，传输器接口只处理具有相同传输协议的设备数据信号，而不区分数据的类别。数据消息类别与处理器之间对应的处理关系将在数据协处理器中完成。

在这个消息泵中，定义了一个消息泵字典集合，该集合是消息泵中所有消息传输器的一个字典集合，记录消息传输器名字及传输实例。在实例中，提供了两个传输器接口，一个基于UDP传输协议的传输器和一个基于RS232接口的传输器，这两个传输器都必须完成设备抽象类提供的抽象方法。通过抽象类，完成了异构传输方法的同质化问题。当设备提供RS232接口时，对接RS232接口传输器；当设备提供网络接口时，对接UDP传输协议的传输器。由于RS232接口传输器只能侦听设定的唯一个序列端口，其他设备的接入必须通过总线的方式接入，如可采用Can总线或485总线等。UDP传输协议的传输器在服务器段实现了单个端口的侦听，在本例中是8080端口，其他设备可以向这个端口发送数据。由于UDP使用的是无链接协议，因此，就需要有其他机制来保证数据传输的安全和完整性。也可以添加一个继承设备抽象类的TCP传输器进行传输。消息泵可以容纳一切实现设备抽象类的传输器，也可以从集合中移除，这为多通道信号处理器提供了良好的扩展机制。

步骤三、消息泵将数据传递给中间件组件进行类别分拣处理

在系统管道模型中设置一个中间件组件，中间件组件由消息中间件1-n组成，组件中的消息中间件的数量决定了处理器能够解译信号类别的能力，每一个消息中间件处理消息泵发送的相同类别的消息请求数据，并及时响应决定是否传递请求给管道模型中的下一个组件，以便及时分发指令给处理器，让处理器执行是否拦截管道请求转移给其他的消息中间件处理，并能在传递请求之前或回传响应消息之前执行特定操作；

消息泵中的泵源在接收信号数据之后，通过对采集信号类别的初步判定筛选，由其类别特性决定信号数据后期处理的中间件消息i，最后将信号数据转发至对应的协处理器。

多源数据集成融合处理器的信号数据处理中间件是被组装成的一个应用程序管道，即软件组件。该中间件组件可以用来处理设备消息请求以及响应消息设备，每个组件都可以决定是否传递请求给管道中的下一个组件，并能在传递请求之前或回传响应消息之前执行特定操作。本发明中的时空数据集成融合框架可以把设备请求封装进管道中，各种请求都是经过管道的一系列处理，最后才到达数据持久化器。

信号数据处理中间件就是管道模型当中的一个组件模块，信号数据处理中间件的作用就是对请求过程进行及时处理，响应请求消息。管道中可以有许多中间件。信号数据处理中间件可以及时响应管道中的请求消息，以便及时分发指令给处理器，让处理器执行是否拦截管道请求转移给其他的信号数据处理中间件。

参照图3，为消息中间件管道模型，消息中间件一般是在请求的整个生命过程前后进行相应的操作，并依据表达式请求处理完成之后判定是传递给下一个请求还是返回结果。

参照图4，为管道流程图，在信号组件处理管道初始化时,首先初始化处理器消息泵和装载能够接收消息的泵源，接着装载信号采集源设备；设备装载完成后，将设备的信号收发器与信号处理器的消息泵进行绑定，以确定设备信号流入流出处理器的端口；接着装载数据信号处理中间件，用于处理设备采集到的不同类别的数据信号；最后装载信号协处理器，用于对信号最终的处理和融合。

参照图5，为信号处理流程图，信号流经的途径为：信源->消息泵->中间件->协处理器->持久化归档数据，与此同时，协处理器可以向订阅设备发送消息，其转发由消息泵完成。

在对同类数据信号处理上，设计一个消息处理中间件来处理汇入的所有类别数据的方法是不现实的，且当数据类别增加时需要改写消息中间件类，这在设计模式上是不科学的。因此，需要构造几个数据协处理中间件集合。为此，在管道中设计了协处理器集合协处理器1-n，用于针对不同设备、不同协议格式采集的同类数据进行处理。处理后的结果将被持久化保存在数据库中，同时如果某设备i订阅了本类消息，协处理器将处理后数据的结果再发布给订阅者。

消息泵将设备的信息泵入了处理器，而信息的分类则在各个对应的消息中间件中进行，消息中间件只对相同传输器的信息进行分拣，分拣完毕的信息则送入相应的信号协处理器进行处理。中间件调用协处理器的工作原理如图5所示。

参照图6，为中间件调用协处理器的工作原理图，每一个中间件对应一类信道，这类信道中传输的数据信号种类并不相同。中间件将接收的消息按照类别进行分拣，分拣后将同一类的信号送入相应的信号协处理器。同一种类的信号可能通过不同的途径或信道进行传输，但他们最终都在同一个协处理器中进行处理。协处理器具有强大的数据处理和分析能力。由于输入协处理器的信号具有时空特征，因此协处理器需要对输入的数据进行融合处理，处理完成后一方面进行存储，另一方面对订阅该消息的设备进行发布消息。

参照图7，为Autoencoder算法网络拓扑，协处理器中间件内部的数据分拣基于Autoencoder算法训练出来的最优神经网络结构。Autoencoder算法的基本原理是将采集到的多维数据集进行多重的维度分析，并利用多层网络的自适应性根据数据维度的分析结果进行适当的降维，然后再将低维的数据集经过多个隐藏层的处理操作后重构，使得重构后的数据集与原数据集合的维度相同，这源于它使用的是对称性的网络结构。

Autoencoder算法的工作过程可分为两步：首先初始化编码和解码部分的权重和阈值，在对网络结构进行过初始设置后，就可以按照神经网络模型对高维数据集进行训练，

参照图8，为Autoencoder算法的工作过程，本文的神经网络结构采用N-N-N/3结构，N(1000)是网络结构中第一层神经元节点层的处理单元结构，第一层有1000个神经元节点，也代表着原始的高维数据集及重构后的数据集维数，N/3是从上层隐藏层汇入的数据维数经过该层处理后输出的高维数据结构，中间层的30是低维空间的数据维数。

在该神经网络结构的训练模型中，我们用变量

表示重构误差，变量中的x_i是原始数据集输入到神经处理单元的输入数据，而x_i’是从神经处理单元输出的数据，m是训练数据集中的样本数量。如果RE在神经网络训练完之后较小，那么就可以认为该模型对高维数据的降维有良好的效果。这也能够假设若在低纬数据空间中保留许多高维数据集的属性，那么，在从低维数据空间重构回高维数据集时，重构后的数据集结果也一定和原始的高维数据集类似。

在该算法中，我们把x设置为N，算法中的迭代步长step初始值可以设置为N/5，之所以设置为N/5是由于神经网络训练过程很慢，初始步长为了能够快速定位需要设置的大点。然后分别计算RE_old和RE_new，RE_old表示前一次训练后的重构结构误差，RE_new指重构后的当前训练结构误差，如果RE_new<RE_old，则令x＝x_new-step，然后接着比较RE_new、RE_old；如果RE_new>RE_old，则x的值是依然为x＝x_new-step，否则，则令step＝step/2，x＝x_new+step。在模型训练中该过程会一直反复执行到strp<＝1。

则令step＝step/2，x＝x_new+step。在模型训练中该过程会一直反复执行到strp<＝1。

算法的伪代码如下：

算法解决了精确解的求解问题，但也仍存在着局部极小值问题。对于极小值问题我们可以通过扩大初始参数step来解决，也可以随机选取几个在(0，N)区间的值作为初始迭代值。本发明在该算法的基础上来对神经网络进行训练，通过多次重复试验就可以找到具有最好效果的神经网络结构，接着使用该结构来结合常用的聚类算法实现对高维多尺度高速实时数据集进行分类处理。

具体实施例，本发明设计了一个管道式的信息处理模型，该模型使用抽象工厂方式忽略了设备间数据格式的差异，在管道内部结合神经网络算法使用中间件技术对多源设备高维数据进行分类处理，该模式具有较好的分类效果。

参照图9，为FCFS信号处理模型，设计的信号处理器采用线性处理方式，由于没有采用多线程并发的方式处理信号，因此对输入的信号采用先来先服务(First Come FirstService，FCFS)方式进行处理。设每一个设备为一个顾客，是信号的生产者，多信号处理器为信号的消费者，因此系统是一个典型的生产消费者模型，各个设备产生的信号到达处理器后，按照FCFS的方式排队享受处理器服务。

这里假定系统中只有一个信号处理器，设各个设备信号到达等待队列的时间与信号处理器的状态无关，设备间信号到达的时间也无关，即各个设备信号到达处理器的时间符合泊松分布。设λ为到达率,则在单位时间内x个设备信号到达的概率为:

则

单位时间内信号到达的期望值,即算术平均值为:

令(y＝x-1)，则

也即单位时间内信号到达的平均值等于其到达率。

同理，设μ为信号集成融合率，则单位时间内x个信号被信号处理器Processor集成融合的概率是

同理可证，被信号处理器Processor集成融合的信号个数的平均值也等于其服务率。

将上述单位时间换成任意时间t，可得到在已知时间t内x个信号到达的概率是

被处理器Processor处理的信号个数的平均值也等于其服务率.

在t时间内，一个信号也不到达的概率为:

从而,t时间内至少到达一个信号的概率为:

P(x(t)＞0)＝1-P(0)＝1-e^-λt (8)

给定固定的时间间隔τ，由马尔可夫性质或无记忆特性可知，在任何时间间隔τ内至少有一个信号到达发生的概率和上一次信号到达的时刻无关，其概率仍然为1-e-λt。

由于信号处理器的信号集成融合发生的概率也服从泊松分布，也满足马尔可夫性质，因此，它任何时间间隔τ内至少集成融合一个信号发生的概率也为1-e-μt。且与以前集成融合的服务过程无关。

对公式(8)求导，可求得t时间内信号的密度函数为：

p′(x(t)＞0)＝(1-e^-λt)′＝λe^-λt (9)

t的期望值等于

即两个连续到达信号之间的平均时间间隔为1/λ。同理，可得处理器集成融合信号的服务时间平均值为1/μ。显然，只有当1/μ<1/λ，也就是λ<μ时系统才是稳定的，否则，等待信号处理队列将无限增长。

为了测试多通道信号集成融合处理器的性能和处理能力，一个计算实例被设计。在系统中，处理器宿主在一台高性能计算机上，该宿主单节点采用两颗Intel Xeon 5620CPU,主频2.4G，睿频至2.66G四核八线程CPU；8G高频内存；X58主板；拥有裸容量8T的高速并行文件存储系统。具体的参数指标见表1

Table 1测试宿主配置

为了追求计算的高效率的同时节省计算资源,就必须进行最优化调试。模式的最优化意味着模式的输出量和消耗量达到最优化。对于一定的CPU核数而言,最优化意味着输出量最大。但是模式的最优化是相对的,对于不同的CPU核数,就需要找到一个最优化的平衡点，模式具有高输出量的同时具有低能耗。跟其他大多数模式一样,增加处理器的CPU核数会同时增加模式的输出量和消耗量。由于模式的运算不是线性的,因此核数的增加会导致模式的消耗量增加。因此在进行较长时间的模拟实验之前,非常有必要进行CPU的最优化配置。为此,我们设计了一系列实验来测试多通道信号集成融合处理器的性能和处理能力。试验中共有16路信号输入，测试共分为10个时间间隔，每路在各个时间间隔内信号到达的规模见表2所示。

Table 2固定时间间隔各通道信号到达统计

上表中，T1-10的时间间隔为固定时间间隔，每个的时间间隔均为1分钟。系统测试过程中信号到达率的分布也服从泊松分布。

参照图10，为测试过程中系统各资源的使用情况；

参照图11，为测试中各资源利用情况比较；

从实验得知，在1-16路信号的输入过程中，CPU的损耗和内存的利用率逐渐增加，但未出现消息队列溢出情况，这说明处理器能够实时对输入信号进行集成融合处理，系统处于稳态。通过长时间的测试发现，输入信号的抵达也基本能够拟合泊松分布曲线，与系统预测评估的结果相符。

综上所述，本发明通过研究现有分类器的优缺点，提出了一种改进的分拣方法，该方案融入人工智能的神经网络算法，通过对分类器的优化设计，满足了高维多尺度高速实时数据流的分拣。

以上公开的仅为本发明的一个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.基于神经网络的多源高维多尺度实时数据流的分拣方法，其特征在于，

具体步骤包括：

步骤一、将采集设备采集的数据泵入多个消息泵

步骤二、多个消息泵分别接收具有相同传输协议的数据

步骤三、消息泵将数据传递给中间件组件进行类别分拣处理

步骤四、中间件组将分拣完毕的数据传输给协处理器集合处理利用协处理器集合处理中间件组件传输的数据，协处理器集合由协处理器1-n组成，处理不同设备、不同协议格式采集的同类数据，处理后的结果被持久化保存在数据库中，同时如果某设备i订阅了本类消息，协处理器将处理后数据的结果再发布给订阅者；

所述协处理器中间件内部的数据分拣基于Autoencoder算法训练出来的神经网络结构；

消息泵中定义了一个消息泵字典集合，消息泵字典集合是消息泵中所有消息传输器的一个字典集合，记录消息传输器名字及传输实例，传输器都用于完成设备抽象类提供的抽象方法，通过抽象类，完成异构传输方法的同质化，消息泵可以容纳一切实现设备抽象类的传输器，也可以从集合中移除；

Autoencoder算法训练出来的最优神经网络结构的网络构架为N-N-N/3结构，N是网络结构中第一层神经元节点层的处理单元结构，第一层有1000个神经元节点，代表着原始的高维数据集及重构后的数据集维数，N/3是从上层隐藏层汇入的数据维数经过该层处理后输出的高维数据结构，中间层的30是低维空间的数据维数；

神经网络的训练方法中使用变量

表示重构误差，变量中的x_i是原始数据集输入到神经处理单元的输入数据，而x_i’是从神经处理单元输出的数据，m是训练数据集中的样本数量，x设置为N，算法中的迭代步长step初始值可以设置为N/5，分别计算RE_old和RE_new，RE_old表示前一次训练后的重构结构误差，RE_new指重构后的当前训练结构误差，如果RE_new<RE_old，则令x＝x_new-step，然后接着比较RE_new、RE_old；如果RE_new>RE_old，则x的值是依然为x＝x_new-step，否则，则令step＝step/2，x＝x_new+step；在模型训练中该过程会一直反复执行到step<＝1，则令step＝step/2，x＝x_new+step，在模型训练中该过程会一直反复执行到step<＝1。