CN103353883A

CN103353883A - 一种按需聚类的大数据流式聚类处理系统及方法

Info

Publication number: CN103353883A
Application number: CN2013102559311A
Authority: CN
Inventors: 赵淦森; 虞海; 王维栋; 卓超
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2013-10-16
Anticipated expiration: 2033-06-19
Also published as: CN103353883B

Abstract

本发明公开了一种按需聚类的大数据流式聚类处理系统，该系统包括有快速计算模块、数据概念漂移检测模块和聚类模块，所述快速计算模块的输出端通过数据概念漂移检测模块连接至聚类模块的第一输入端，所述聚类模块连接至快速计算模块。本发明针对大数据的大量、相似以及重复的特性，基于数据概念漂移检测的按需聚类模型使用触发型的聚类处理模式，保障精确度，提供按需聚类、实时性聚类结果服务；其次，其提供资源监控模块和独立的模块用于聚类处理，有效利用已有的传统聚类算法，且能增强系统的扩展性和敏感度，高效解决大数据环境下数据流的快速处理的问题。本发明作为一种按需聚类的大数据流式聚类处理系统可广泛应用于数据处理领域。

Description

一种按需聚类的大数据流式聚类处理系统及方法

技术领域

本发明涉及数据处理领域，尤其是一种按需聚类的大数据流式聚类处理系统及方法。

背景技术

术语解释：

大数据（Big Data）：指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。

数据流（Data Streams）：数据流是一种只添加的带有时间戳标记的按照某一顺序到达的序列数据。对于一个有序的数据点(x1,x2,…,xn)必须是按顺序被一次性访问或者是极少次数的读取，数据序列数据的依次读取又被称作是线性扫描或一次处理。

数据挖掘：指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。。

聚类：聚类是指根据物体间的相似性（基于距离的方法如欧氏距离、曼哈顿距离、切比雪夫距离等）确定有限数量的类别来描述一个数据集。通过使用静态的分类方法将相似的数据对象划分到相应的分组或子集，从而使得具有相似属性的数据能被划分到同一个子集中，以实现将数据集进行类别划分的目的。

数据流聚类：指的是针对数据流形式的数据进行聚类处理的技术和方案。

数据概念漂移：针对数据流中的两个数据段d1和d2，从数据段d1到d2的演变过程中数据概念发生演变。其中，数据概念可以简单理解成数据的体现的一些特性和特征。

大数据的特点是4V，即数据量巨大、数据类型多样、单位数据价值密度低、处理速度要快。但传统的聚类算法和聚类框架都主要是针对待处理的全部数据进行的，这些算法大多数不能只针对部分数据进行聚类操作。然而，在大数据时代，数据的规模已经从TB级飙升到PB级，故传统的聚类算法无法直接处理大数据下对数据的聚类处理，数据只能以数据流的形式呈现，正是由于数据的表现形式的改变，传统数据挖掘的方法已经无法适应这种新的需求。

首先，在现有技术中，基于CluStream的扩展算法的缺点是它们的优化工作主要在两个方面：在线组件对数据进行储存的优化（如锥体时间窗口、滑动窗口等）和离线组件的聚类方法特定应用问题的改进和拓展（如处理高维数据的HP-Stream）。在大数据环境下，会有很多数据比较相近或重复，尤其是时间上相近的数据。其次，现有的框架对数据的处理是基本都是持续进行的，即是针对每个滑动窗口的数据（也可以称作数据段）均采用聚类的处理，不能很有效的地提升资源利用效率。再次，现有的框架没有对资源很好地感知，并有效地、及时地进行相关策略的调整。

发明内容

为了解决上述技术问题，本发明的目的是：提供一种保证精度前提下对数据量大、数据相似或重复的特性的数据实现高效数据处理的按需聚类的大数据流式聚类处理系统。

为了解决上述技术问题，本发明的另一目的是：提供一种保证精度前提下对数据量大、数据相似或重复的特性的数据实现高效数据处理的按需聚类的大数据流式聚类处理方法。

本发明所采用的技术方案是：一种按需聚类的大数据流式聚类处理系统，该系统包括有快速计算模块、数据概念漂移检测模块和聚类模块，所述快速计算模块的输出端通过数据概念漂移检测模块连接至聚类模块的第一输入端，所述聚类模块连接至快速计算模块。

进一步，该系统还包括有资源监控模块，所述资源监控模块的第一输出端连接至快速计算模块的输入端，所述资源监控模块的第二输出端连接至聚类模块的第二输入端。

进一步，所述快速计算模块包括有数据过滤策略模块、数据过滤执行模块、数据摘要模块和聚类结果实时服务模块，所述资源监控模块的第一输出端依次通过数据过滤策略模块、数据过滤执行模块、数据摘要模块连接至数据概念漂移检测模块的输入端，所述聚类结果实时服务模块连接至聚类模块。

进一步，所述数据概念漂移检测模块包括有数据概念漂移定义模块，所述数据概念漂移定义模块分别连接有数据概念漂移计算模块和数据概念漂移识别模块，所述数据摘要模块的输出端依次通过数据概念漂移计算模块、数据概念漂移识别模块连接至聚类模块的第一输入端。

进一步，所述聚类模块包括有聚类触发模块、聚类策略模块、聚类执行模块和聚类结果提供模块，所述数据概念漂移识别模块的输出端连接至聚类触发模块的输入端，所述聚类触发模块的第一输出端连接至聚类结果提供模块的第一输入端，所述聚类触发模块的第二输出端依次通过聚类策略模块和聚类执行模块连接至聚类结果提供模块的第二输入端，所述聚类结果实时服务模块的输出端连接至聚类执行模块的输入端，所述聚类结果提供模块的输出端连接至聚类结果实时服务模块的输入端。

进一步，所述聚类结果提供模块的输出端还连接至数据概念漂移计算模块的输入端。

进一步，所述资源监控模块包括有数据流速监控模块、计算服务资源监控模块和聚类资源消耗监控模块，所述数据流速监控模块的输出端和计算服务资源监控模块的第一输出端均连接至数据过滤策略模块的输入端，所述计算服务资源监控模块的第二输出端和聚类资源消耗监控模块的输出端均连接至聚类策略模块的输入端。

本发明所采用的另一技术方案是：一种按需聚类的大数据流式聚类处理方法，该聚类处理方法包括以下步骤：

A、将输入的数据流数据进行过滤操作和数据特征抽取，获得中间处理结果；

B、对上述中间处理结果进行概念漂移的分析和检测，然后根据分析和检测的结果对中间处理结果进行计算，从而判断数据是否发生概念漂移，并产生相应的数据参数；

C、若上述数据参数符合触发聚类处理的触发条件，则利用上述中间处理结果和数据参数进行精细化聚类处理计算，并返回合适的聚类结果。

进一步，所述步骤A中的过滤操作为将输入的数据流根据数据流速参数和计算服务资源参数执行相应的数据过滤操作。

进一步，所述步骤C中精细化聚类处理计算的过程为利用上述中间处理结果和数据参数，并根据计算服务资源参数和聚类资源消耗参数动态自适应地选取相应的聚类方法执行计算。

本发明的有益效果是：本发明针对大数据的数据量大、数据相似或重复的特性，基于数据概念漂移检测的按需聚类模型使用触发型的聚类处理模式，在保障精确度的前提下提供按需聚类、实时性聚类结果服务；其次，其提供独立的模块用于聚类处理以及独立的资源监控模块，不仅能有效利用已有的传统聚类算法，且能增强系统的扩展性和敏感度，高效地解决大数据环境下数据流的快速处理的问题。

本发明的另一有益效果是：本发明针对大数据的数据量大、数据相似或重复的特性，基于数据概念漂移检测的按需聚类模型使用触发型的聚类处理模式，在保障精确度的前提下提供按需聚类、实时性聚类结果服务；其次，其利用独立的资源监控参数，不仅能有效利用已有的传统聚类算法，且能增强系统的扩展性和敏感度，高效地解决大数据环境下数据流的快速处理的问题。

附图说明

图1为本发明聚类处理系统的系统框架图；

图2为图1的具体模块结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参照图1，本发明的第一具体实施方式，一种按需聚类的大数据流式聚类处理系统，该系统包括有快速计算模块、数据概念漂移检测模块和聚类模块，所述快速计算模块的输出端通过数据概念漂移检测模块连接至聚类模块的第一输入端，所述聚类模块连接至快速计算模块。

所述快速计算模块用于接收数据输入和提供聚类结果输出，该模块负责对数据流做快速简单的处理，并获得快速的计算中间处理结果，以便用于其他模块的后续处理。其中应用于快速处理的主要有两方案：数据流数据的过滤和数据特征的抽取。前者通过减低数据流中数据的量，如数据过滤、数据采样、卸载等计算；而后者是通过减低单个数据的存储量，通过摘取数据的特征而不用直接对原始数据进行处理，从而减少空间的压力，并且通过特征提取提高聚类效果。该模块支持类似CluStream的在线微聚类操作。

所述数据概念漂移检测模块负责对数据进行概念漂移的分析和检测，通过对快速计算层提供的中间数据进行相关计算，进而判断数据是否发生概念漂移，进而触发聚类层的聚类操作并提供相应的数据参数。

所述聚类模块为该系统中处理聚类的一个核心模块，其实质是一个被动式触发型聚类模块，只有在必要（也即是被触发）时候，利用前面的中间的结果和相关的参数信息进行精细化的正式聚类计算，并在执行聚类后返回合适的聚类结果。

参照图1，进一步作为优选的实施方式，该系统还包括有资源监控模块，所述资源监控模块的第一输出端连接至快速计算模块的输入端，所述资源监控模块的第二输出端连接至聚类模块的第二输入端。

所述资源监控模块是该系统中一个辅助型模块，负责对各个层的资源进行监控，并且根据每个模块的情况，提供相应的策略输入参数，以便相关的策略模块做相应的处理策略的调整。

参照图2，进一步作为优选的实施方式，所述快速计算模块包括有数据过滤策略模块、数据过滤执行模块、数据摘要模块和聚类结果实时服务模块，所述资源监控模块的第一输出端依次通过数据过滤策略模块、数据过滤执行模块、数据摘要模块连接至数据概念漂移检测模块的输入端，所述聚类结果实时服务模块连接至聚类模块。

其中，数据过滤策略模块负责对数据过滤策略的制定和管理，其接受监控模块反馈的数据流速数据以及其他相关参数。指整个计算系统的其他计算资源的信息，包括CPU利用率、内存占用率、网络IO、存储负载，并更新相应的策略。数据过滤执行模块根据数据过滤策略模块提供的策略，执行相应的数据过滤操作。数据摘要模块（也称作特征抽取模块）负责对数据进行摘要抽取的工作；数据流中的数据是复杂的，每个数据点的大小有可能很大，为了更好的获得聚类的结果，因此需要针对这些数据抽取其重要的摘要信息。聚类结果实时服务模块将最新的合适的聚类结果信息提供给其他应用进行使用。

参照图2，进一步作为优选的实施方式，所述数据概念漂移检测模块包括有数据概念漂移定义模块，所述数据概念漂移定义模块分别连接有数据概念漂移计算模块和数据概念漂移识别模块，所述数据摘要模块的输出端依次通过数据概念漂移计算模块、数据概念漂移识别模块连接至聚类模块的第一输入端。

数据概念漂移定义模块的工作是对数据概念漂移进行相关的定义，因为不同的应用对数据的漂移的定义或设定并不尽相同，因此该模块可以提供不同应用特定的定义。此外，针对数据概念漂移的相关判定参数也是有该模块进行管理。而数据概念漂移计算模块则是根据数据概念漂移定义进行数据概念漂移的计算，对概念漂移进行量化，从而获得待检测的数据段与上次用于聚类的数据段之间的偏移值。数据概念漂移的识别模块基于数据概念漂移计算模块计算的数据偏移值，结合数据概念漂移定义提供的参数和信息，综合去识别新的数据段是否已经发生了数据概念漂移，并输出数据概念漂移级别值。

参照图2，进一步作为优选的实施方式，所述聚类模块包括有聚类触发模块、聚类策略模块、聚类执行模块和聚类结果提供模块，所述数据概念漂移识别模块的输出端连接至聚类触发模块的输入端，所述聚类触发模块的第一输出端连接至聚类结果提供模块的第一输入端，所述聚类触发模块的第二输出端依次通过聚类策略模块和聚类执行模块连接至聚类结果提供模块的第二输入端，所述聚类结果实时服务模块的输出端连接至聚类执行模块的输入端，所述聚类结果提供模块的输出端连接至聚类结果实时服务模块的输入端。

该模块是一个触发型模块，在触发时才进行新的聚类操作，以此方案代替传统的持续地聚类方法，减少不必要的重复计算，有效利用资源并提升数据处理速度。其中，聚类触发模块接收数据概念漂移检测模块的触发事件，并且获取需要的演变检测参数，用于策略模块的输入。聚类策略模块接收聚类触发模块传送过来的参数，同时也从监控模块中获取相关资源的信息，最后综合这些信息定制聚类的策略；甚至该模块获取待聚类数据段的特性，然后动态自适应地选取相应的聚类方法等。聚类执行模块根据聚类策略，选择合适的聚类方法，执行精细化的聚类计算。聚类结果提供模块根据聚类执行模块的结果，输出聚类后的簇信息。

参照图2，进一步作为优选的实施方式，所述聚类结果提供模块的输出端还连接至数据概念漂移计算模块的输入端。

参照图2，进一步作为优选的实施方式，所述资源监控模块包括有数据流速监控模块、计算服务资源监控模块和聚类资源消耗监控模块，所述数据流速监控模块的输出端和计算服务资源监控模块的第一输出端均连接至数据过滤策略模块的输入端，所述计算服务资源监控模块的第二输出端和聚类资源消耗监控模块的输出端均连接至聚类策略模块的输入端。

其中，数据流速监控模块负责监控数据流流速信息，以及流速变化的情况，甚至根据流速的历史数据对数据流速预测，以便为相关策略提供相应的参考信息。聚类的资源消耗监控模块监控聚类操作的资源消耗情况并获取这些信息，以提供给相关模块进行相应的策略调整。譬如：监控不同的聚类算法的聚类资源消耗情况，在资源紧张的情况下进行相关的权衡选择合适的算法。计算服务资源监控模块负责监控整个系统的其他资源的信息，比如CPU利用率、内存占用率、网络IO和存储负载等。

本发明的第二具体实施例，一种按需聚类的大数据流式聚类处理方法，该聚类处理方法包括以下步骤：

该方法根据数据过滤策略执行相应的数据过滤操作，通过数据过滤、数据采样、卸载等计算过程数据流中数据的量。数据特征抽取则是据进行摘要抽取的工，数据流中的数据是复杂的，每个数据点的大小有可能很大，为了更好的获得聚类的结果，因此需要针对这些数据抽取其重要的摘要信息，通过减低单个数据的存储量，通过摘取数据的特征使得后续处理过程不用直接对原始数据进行处理，从而减少空间的压力，并且通过特征提取提高聚类效果。

根据对数据概念漂移进行相关的定义进行数据概念漂移的分析和检测。对概念漂移进行量化，从而获得待检测的数据段与上次用于聚类的数据段之间的偏移值，基于该数据偏移值，结合数据概念漂移定义提供的参数和信息，综合识别新的数据段是否已经发生了数据概念漂移，并输出相应的数据参数，即数据概念漂移级别的值。

该方法仅在触发时，进行新的聚类操作，以此方案代替传统的持续地聚类方法，减少不必要的重复计算，有效利用资源并提升数据处理速度。聚类结果为精细化聚类处理计算的结果，即输出聚类后的簇信息。

所述计算服务资源参数包括有CPU利用率、内存占用率、网络IO、存储负载。

在资源紧张的情况下，监控聚类资源消耗参数，即监控不同的聚类算法的聚类资源消耗情况，进行相关的权衡选择合适的算法是的计算速度和效果达到最佳的平衡。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可以作出种种的等同变换或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种按需聚类的大数据流式聚类处理系统，其特征在于：该系统包括有快速计算模块、数据概念漂移检测模块和聚类模块，所述快速计算模块的输出端通过数据概念漂移检测模块连接至聚类模块的第一输入端，所述聚类模块连接至快速计算模块。

2.根据权利要求1所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：该系统还包括有资源监控模块，所述资源监控模块的第一输出端连接至快速计算模块的输入端，所述资源监控模块的第二输出端连接至聚类模块的第二输入端。

3.根据权利要求2所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：所述快速计算模块包括有数据过滤策略模块、数据过滤执行模块、数据摘要模块和聚类结果实时服务模块，所述资源监控模块的第一输出端依次通过数据过滤策略模块、数据过滤执行模块、数据摘要模块连接至数据概念漂移检测模块的输入端，所述聚类结果实时服务模块连接至聚类模块。

4.根据权利要求3所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：所述数据概念漂移检测模块包括有数据概念漂移定义模块，所述数据概念漂移定义模块分别连接有数据概念漂移计算模块和数据概念漂移识别模块，所述数据摘要模块的输出端依次通过数据概念漂移计算模块、数据概念漂移识别模块连接至聚类模块的第一输入端。

5.根据权利要求4所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：所述聚类模块包括有聚类触发模块、聚类策略模块、聚类执行模块和聚类结果提供模块，所述数据概念漂移识别模块的输出端连接至聚类触发模块的输入端，所述聚类触发模块的第一输出端连接至聚类结果提供模块的第一输入端，所述聚类触发模块的第二输出端依次通过聚类策略模块和聚类执行模块连接至聚类结果提供模块的第二输入端，所述聚类结果实时服务模块的输出端连接至聚类执行模块的输入端，所述聚类结果提供模块的输出端连接至聚类结果实时服务模块的输入端。

6.根据权利要求5所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：所述聚类结果提供模块的输出端还连接至数据概念漂移计算模块的输入端。

7.根据权利要求5所述的一种按需聚类的大数据流式聚类处理系统，其特征在于：所述资源监控模块包括有数据流速监控模块、计算服务资源监控模块和聚类资源消耗监控模块，所述数据流速监控模块的输出端和计算服务资源监控模块的第一输出端均连接至数据过滤策略模块的输入端，所述计算服务资源监控模块的第二输出端和聚类资源消耗监控模块的输出端均连接至聚类策略模块的输入端。

8.一种按需聚类的大数据流式聚类处理方法，其特征在于：该聚类处理方法包括以下步骤：

9.根据权利要求8所述的一种按需聚类的大数据流式聚类处理方法，其特征在于：所述步骤A中的过滤操作为将输入的数据流根据数据流速参数和计算服务资源参数执行相应的数据过滤操作。

10.根据权利要求8或9所述的一种按需聚类的大数据流式聚类处理方法，其特征在于：所述步骤C中精细化聚类处理计算的过程为利用上述中间处理结果和数据参数，并根据计算服务资源参数和聚类资源消耗参数动态自适应地选取相应的聚类方法执行计算。