CN109086370A

CN109086370A - 一种互联网数据流处理系统

Info

Publication number: CN109086370A
Application number: CN201810804366.2A
Authority: CN
Inventors: 杨林
Original assignee: Guangzhou Anxing Star Network Technology Co Ltd
Current assignee: Guangzhou Anxing Star Network Technology Co Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2018-12-25

Abstract

本发明提供一种互联网数据流处理系统，包括采样单元、预处理单元、处理单元、预测单元和链式可重写窗口，采样单元对网络中的数据流定时采样，形成时间序列流数据，预处理单元对时间序列流数据进行分割，形成N个子数据集，用链式可重写窗口去扫描子数据集，处理单元利用Online‑HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，得出若干个本征模型函数IMF分量，预测单元预先构造并训练好预测用的RBF网络结构，把处理单元得出的每一个IMF分量输入网络进行预测，生成数据流的未来趋势结果，并对结果合并，得到最后的预测结果；该互联网数据流处理系统在链式可重写窗口的基础上，将Online‑HHT和RBF网络结构融合，组合实现时间序列数据流的在线趋势预测。

Description

一种互联网数据流处理系统

技术领域

本发明涉及一种互联网数据流处理系统，其包括采样单元、预处理单元、处理单元、预测单元和链式可重写窗口。

背景技术

在信息处理技术、互联网技术和通信技术的飞速发展进步过程中，军事和民用的各个领域不断实时产生大量的数量，例如网络交换数据的流、环境监测与报告数据的实时流、卫星通讯传输的实时数据等，一般数据库的数据是静态数据，而这些数据都是动态实时的信息流，称为数据流。数据流中蕴含着丰富的知识和规律，研究各个领域的数据流，从中发现信息知识合规律，可以提高科学评判和决策，从而知道和产生更大的未来价值。

时间序列数据是数据流的一种形态，而目前的数据流处理系统，还不能对时间序列数据流执行在线自适应的预测。

发明内容

针对上述现有技术所存在的问题，本发明的目的是提供一种互联网数据流处理系统。

为达到上述目的，本发明所采用的技术方案是：

一种互联网数据流处理系统，包括采样单元、预处理单元、处理单元、预测单元和链式可重写窗口，所述采样单元对网络中的数据流定时采样，形成时间序列流数据，所述预处理单元对时间序列流数据进行分割，形成数据数量一致的N个子数据集，所述处理单元用所述链式可重写窗口去扫描子数据集，利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，处理完一个子数据集再加载新的子数据集，得出若干个本征模型函数IMF分量，所述预测单元预先构造并训练好预测用的RBF网络结构，把处理单元得出的每一个IMF分量输入网络进行预测，生成数据流的未来趋势结果，并对结果合并，得到最后的预测结果。

作为优选，所述链式可重写窗口在新旧数据的流入流出时，不对全部数据进行移动，将新数据重写到旧数据的位置。

作为优选，所述处理单元利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，包括步骤a和步骤b，其中，

步骤a：将链式可重写窗口中的当前时间序列流数据根据具体应用分段，每段数据长度相同。

步骤b：对每段数据分别用HHT方法进行分析，每一段在分解得到第一个IMF分量后，停下不再进行筛选，所有分段分解产生的相应IMF分量进行连接合成，得到联合IMF分量，同时把所有各段的剩余部分也连接合并，生成数据的联合剩余量，然后对生成的联合IMF分量进一步做EMD的分解，得到分解后的新数据分量和数据剩余量，把这一次获得的剩余量再合到联合剩余量上，连续对合并后的联合剩余上述处理流程，得到新的IMF分量和新的剩余量，一直到获得的联合剩余量比设定的阈值要小，这时候剩余量就成了单调函数不能呢再分解出本征模函数，筛选终止为止。

本发明的有益效果是：本发明的互联网数据流处理系统在链式可重写窗口的基础上，将Online-HHT和RBF网络结构融合，组合实现时间序列数据流的在线趋势预测。

一、本发明的处理单元利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，能够对将来趋势在线自适应预测，同时及时地识别数据流中与当前数据不一致的元素。

二、本发明采用链式可重写窗口，在实际中可以不用移动数据或者窗口，对当前窗口的数据循环重写，更新新旧数据，加快数据处理。

下面结合附图和实施例对本发明作进一步说明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例中一种互联网数据流处理系统的处理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面以具体实施例详细阐述本发明更多的技术细节。

如图1所示，本实施例的互联网数据流处理系统，包括采样单元、预处理单元、处理单元、预测单元和链式可重写窗口，

采样单元对网络中的数据流定时采样，形成时间序列流数据。

预处理单元对时间序列流数据进行分割，形成数据数量一致的N个子数据集，用链式可重写窗口去扫描子数据集。

处理单元利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，处理完一个子数据集再加载新的子数据集，得出若干个本征模型函数IMF分量，其包括步骤a和步骤b，具体如下，步骤a：将链式可重写窗口中的当前时间序列流数据根据具体应用分段，每段数据长度相同。步骤b：对每段数据分别用HHT方法进行分析，每一段在分解得到第一个IMF分量后，停下不再进行筛选，所有分段分解产生的相应IMF分量进行连接合成，得到联合IMF分量，同时把所有各段的剩余部分也连接合并，生成数据的联合剩余量，然后对生成的联合IMF分量进一步做EMD的分解，得到分解后的新数据分量和数据剩余量，把这一次获得的剩余量再合到联合剩余量上，连续对合并后的联合剩余上述处理流程，得到新的IMF分量和新的剩余量，一直到获得的联合剩余量比设定的阈值要小，这时候剩余量就成了单调函数不能呢再分解出本征模函数，筛选终止为止。利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，能够对将来趋势在线自适应预测，同时及时地识别数据流中与当前数据不一致的元素。

预测单元预先构造并训练好预测用的RBF网络结构，把处理单元得出的每一个IMF分量输入网络进行预测，生成数据流的未来趋势结果，并对结果合并，得到最后的预测结果。

链式可重写窗口在新旧数据的流入流出时，不对全部数据进行移动，将新数据重写到旧数据的位置，即在实际中可以不用移动数据或者窗口，对当前窗口的数据循环重写，更新新旧数据，加快数据处理。

本实施例的互联网数据流处理系统在链式可重写窗口的基础上，将Online-HHT和RBF网络结构融合，组合实现时间序列数据流的在线趋势预测。

尽管本发明是参照具体实施例来描述，但这种描述并不意味着对本发明构成限制。参照本发明的描述，所公开的实施例的其他变化，对于本领域技术人员都是可以预料的，这样的变化应属于所属权利要求所限定的范围内。

Claims

1.一种互联网数据流处理系统，其特征在于，包括采样单元、预处理单元、处理单元、预测单元和链式可重写窗口，所述采样单元对网络中的数据流定时采样，形成时间序列流数据，所述预处理单元对时间序列流数据进行分割，形成数据数量一致的N个子数据集，用所述链式可重写窗口去扫描子数据集，所述处理单元利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，处理完一个子数据集再加载新的子数据集，得出若干个本征模型函数IMF分量，所述预测单元预先构造并训练好预测用的RBF网络结构，把处理单元得出的每一个IMF分量输入网络进行预测，生成数据流的未来趋势结果，并对结果合并，得到最后的预测结果。

2.根据权利要求1所述的互联网数据流处理系统，其特征在于，所述链式可重写窗口在新旧数据的流入流出时，不对全部数据进行移动，将新数据重写到旧数据的位置。

3.根据权利要求1所述的互联网数据流处理系统，其特征在于，所述处理单元利用Online-HHT方法对链式可重写窗口中的当前时间序列流数据进行分析，包括步骤a和步骤b，其中，