CN110019370B

CN110019370B - 流式大数据处理方法

Info

Publication number: CN110019370B
Application number: CN201810749635.XA
Authority: CN
Inventors: 吴振宇; 陈佳颖; 张一诺
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2022-09-20
Anticipated expiration: 2038-07-10
Also published as: CN110019370A

Abstract

本发明揭示了一种流式大数据处理方法，包括：S1、对流式大数据进行预处理，得到待处理流式数据；S2、划分[0,t₀]时间段内的待处理流式数据构建出初始化数据集，计算得到R(t)；S3、依据差异变量从待处理流式数据中划分Δt时间段内的数据作为增量数据集，计算得到R(Δt)；S4、将R(t)与R(Δt)进行合并，得到R(t+Δt)；S5、重复S3~S4步骤直至待处理流式数据全部处理完成，得到最终处理结果。本发明的方法，可以根据不同用户需要的满意解，在考虑时间复杂度的效率上和考虑数据更新的准确率之间进行平衡处理，既提升了数据处理过程的效率，又保证数据处理结果的准确性。

Description

流式大数据处理方法

技术领域

本发明涉及一种数据处理方法，具体而言，涉及一种流式大数据处理方法，属于人工智能和大数据处理技术领域。

背景技术

随着互联网、信息化的飞速发展，大数据凭借其高度动态性、实时性等特征，已经逐渐渗透到人们的日常生活和经济活动等各个领域中并扮演着日渐重要的角色。与传统的数据库技术相比，大数据能够为用户提供满意解而非精确解。由于人类认知的层次和粒度的差异，也为大数据处理带来了不确定性。因此，大数据技术应该在价值密度低的海量数据处理中作出应对。用户需要的满意解需要实时、有效地处理数据。通常在进行数据处理时，都会使用数据流的形式对数据建模，但这样的处理方式无疑给传统的数据处理技术带来了挑战。

传统的面向静态数据的处理方法需要进行改进，从而满足高效大数据处理的需求。针对流式大数据处理的背景，可以将相应的技术分为以下两类：

其中一种方法是基于时间片的方法。在该类方法中流式大数据在时间维度上被划分为连续的时间片，在每一个时间片中，重复应用静态数据处理方法，从而可以得到每个时间片内的结果。通过连续时间片上结果的分析，可以研究流式数据中的规律及其演化趋势。然而，这种技术存在明显的缺点，本质上这种技术仍然是静态数据处理方法，当数据规模大时，会导致较大的时间复杂度。

另外一种方法是增量式的方法。在该类方法中，在某个时间点得到数据处理的结果，然后针对新到达的数据，依次更新已有的结果。这种方法无需重复应用数据处理方法，提升了获取结果的效率。然而，大量新数据的到来会导致频繁的结果更新。影响数据处理的准确率。

由上述方法介绍可知，在流式大数据的处理过程中，亟需在考虑时间复杂度的效率上和考虑数据更新的准确率上找到一个平衡点。这个平衡点反映了人类针对具体的大数据处理中的认知差异，主要体现为个体差异和数据自身差异等。个体差异指不同的用户看待同一份数据的需求粒度不同。有些用户关注较细粒度上的变化，有些用户关注较粗粒度上的趋势。数据自身差异指数据在时间周期上的不同阶段具有的规模、价值密度不同。例如，工作日中的工作时间产生的数据要比休息时间产生的数据需要获得更多的关注。而大多数静态数据处理方法在处理小规模数据的时候具有较高的效率，并且，效率值随着数据规模的增加指数级别增加。数据规模导致的效率值的大小因不同处理方法各异，因不同用户的满意度各异。

综上所述，如何提出一种全新的数据处理方法，提升数据处理过程的高效性、准确性和规律性，也就成为了目前本领域内技术人员所亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种流式大数据处理方法，包括如下步骤：

S1、数据准备步骤，对流式大数据进行预处理，得到待处理流式数据；

S2、数据集初始化步骤，针对待处理流式数据，划分[0, t₀]时间段内的数据构建出初始化数据集，对初始化数据集应用算法进行处理，得到输出R(t₀)；

S3、数据集增量划分步骤，依据差异变量，从待处理流式数据中划分Δt时间段内的数据作为增量数据集，对增量数据集进行算法处理，得到结果集合R(Δt)；

S4、增量结果集合合并步骤，将集合R(t)与R(Δt)进行合并，得到更新后的结果集合R(t+Δt) ；

S5、循环处理步骤，重复S3~S4步骤直至待处理流式数据全部处理完成，得到最终处理结果。

优选地，S1所述数据准备步骤包括：按照时间戳顺序对流式大数据进行升序排序，得到待处理流式数据。

优选地，S2所述对初始化数据集进行算法处理，包括：在所述初始化数据集上应用机器学习算法。

优选地，在S2数据集初始化步骤中，初始化更新时，t= t₀，对初始化数据集进行算法处理能够得到的结果集合为R(t₀)。

优选地，S3中所述差异变量包括人类认知差异以及数据自身特性，所述人类认知差异代表不同个体对同一事物的认识的粒度，所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化。

优选地，S3中所述对增量数据集进行算法处理，包括：在所述增量数据集上应用机器学习算法。

优选地，S4所述增量结果合并步骤，还包括：在更新过程中，使用哈希算法对结果集合中的结果进行索引，提升查找和检索效率。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明的流式大数据处理方法，提出使用增量来更新结果，不仅克服了基于时间片的方法中效率随数据规模的增加而下降的问题，也克服了增量式的方法中针对每一个数据点更新导致操作过于频繁的问题，显著地提升了数据处理的效率，节省了操作步骤，节约了数据处理时间。本发明可以根据用户需要的满意解，在考虑时间复杂度的效率上和考虑数据更新的准确率之间进行平衡处理，既提升了数据处理过程的效率，又保证数据处理结果的准确性。同时，本发明在进行流式大数据处理时还考虑了数据分布的特点和人类认知的差异，处理过程与处理结果符合人类对大数据认知的规律。此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于领域内其他数据处理方法的技术方案中，具有十分广阔的应用前景。

总体而言，本发明所提出的流式大数据处理方法，兼顾了效率和准确性，使用效果良好，具有很高的使用及推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的流程示意图；

图2为本发明的原理示意图；

图3为本发明的效率评估图之一；

图4为本发明的效率评估图之二；

图5为本发明的效率评估图之三；

图6为本发明的效率评估图之四；

图7为本发明的准确率评估图。

具体实施方式

如图1~图2所示，本发明揭示了一种流式大数据处理方法，包括如下步骤：

S2、数据集初始化步骤，针对待处理流式数据，划分[0, t₀]时间段内的数据构建出初始化数据集，对初始化数据集进行算法处理，得到输出R(t₀)；

其中，R(t₀)表示时刻t₀上的结果集合，可以描述为R(t₀)={R₁,R₂,…,R_n}，R_i（1≤i≤n）表示单个结果；

其中，针对初始数据集更新时t= t₀，其它情况下t= t+Δt；

具体而言，S1所述数据准备步骤包括：按照时间戳顺序对流式大数据进行升序排序，得到待处理流式数据。

S2所述对初始化数据集进行算法处理，包括：在所述初始化数据集上应用机器学习算法。

在S2数据集初始化步骤中，初始化更新时，t= t₀，对初始化数据集进行算法处理能够得到的结果集合为R(t₀)。

在本方案中，S3中所述差异变量包括人类认知差异以及数据自身特性，操作者还可以根据实际的使用需要，对所述差异变量的具体项目进行增减处理。所述人类认知差异代表不同个体对同一事物的认识从细粒度到粗粒度的变化，所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化。在实际的方法使用过程中，依据所述差异变量的变化，Δt每次的取值均可以不同。

此处以流式大数据为新浪微博一天的数据为例，进一步说明上述差异变量的具体含义与Δt的具体取值，用户对9点到11点之间的数据比较关注，因此，在选择增量数据集的时候，Δt的选择可以为5分钟，这样，用户可以在较细的粒度上观察结果；用户对11点到13点之间的数据不是很关注，因此，Δt可以选择为30分钟，在较粗的粒度上观察结果。到了晚上11点之后，一直到第二天凌晨5点，这一个时间段的数据比较稀疏，Δt可以设置为1小时，此时间段的数据较为稀疏，可以在较粗的粒度上观察结果。

S3中所述对增量数据集进行算法处理，包括：在所述增量数据集上应用机器学习算法。

S4所述增量结果合并步骤，还包括：在更新过程中，使用哈希算法对结果集合中的结果进行索引，提升查找和检索效率。

本发明提出使用未来可变时间段内流式数据处理的结果来更新当前数据处理的结果。其中，使用不确定性知识表示的方法度量用户认知的差异，使用哈希方法提升更新的效率。

以下结合实施例，具体说明本发明的处理方法。

本实施例关于一种流式大数据处理的方法，在该方法中，给定流式大数据集为DBLP（论文合作者数据集），在其中检测社区（具有共同科研兴趣的人群）。

首先，划分初始数据集，并在该数据集上应用k-clique算法，得到初始的社区R(t)。其次，增量划分数据集，在本实施例中，增量时间Δt设定为1年，在增量数据集中应用静态机器学习算法，得到增量社区R(Δt)。最后，将R(t)与R(Δt)合并，得到更新的社区R(t+Δt)。

对于上述结果，分别在效率和准确率上进行了评估，效率是指采用本发明中的增量流式大数据处理方法所用的时间，准确率是指采用本发明中的增量流式处理方法得到的正确结果比例。

图3~图6是效率评估图，该图说明本发明中提出的增量式流式处理方法在不同的时间点使用的时间更少，因此，具有更高的效率。

图7是准确率评估图，该图说明本发明中提出的增量式流式大数据处理方法检测的社区与k-clique算法基本匹配，具有较高的准确率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种流式大数据处理方法，其特征在于，包括如下步骤：

所述差异变量包括人类认知差异以及数据自身特性，所述人类认知差异代表不同个体对同一事物的认识的粒度，所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化；

S4、增量结果合并步骤，将集合R(t)与R(Δt)进行合并，得到更新后的结果集合R(t+Δt)；

2.根据权利要求1所述的流式大数据处理方法，其特征在于，S1所述数据准备步骤包括：按照时间戳顺序对流式大数据进行升序排序，得到待处理流式数据。

3.根据权利要求1所述的流式大数据处理方法，其特征在于，S2所述对初始化数据集进行算法处理，包括：在所述初始化数据集上应用机器学习算法。

4.根据权利要求1所述的流式大数据处理方法，其特征在于：在S2数据集初始化步骤中，初始化更新时，t= t₀，对初始化数据集进行算法处理能够得到的结果集合为R(t₀)。

5.根据权利要求1所述的流式大数据处理方法，其特征在于，S3中所述对增量数据集进行算法处理，包括：在所述增量数据集上应用机器学习算法。

6.根据权利要求1所述的流式大数据处理方法，其特征在于，S4所述增量结果合并步骤，还包括：在更新过程中，应用哈希算法对结果进行索引，提升结果合并中的查找和检索效率。