CN110019370B - 流式大数据处理方法 - Google Patents
流式大数据处理方法 Download PDFInfo
- Publication number
- CN110019370B CN110019370B CN201810749635.XA CN201810749635A CN110019370B CN 110019370 B CN110019370 B CN 110019370B CN 201810749635 A CN201810749635 A CN 201810749635A CN 110019370 B CN110019370 B CN 110019370B
- Authority
- CN
- China
- Prior art keywords
- data
- streaming
- processed
- result
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明揭示了一种流式大数据处理方法,包括:S1、对流式大数据进行预处理,得到待处理流式数据;S2、划分[0,t0]时间段内的待处理流式数据构建出初始化数据集,计算得到R(t);S3、依据差异变量从待处理流式数据中划分Δt时间段内的数据作为增量数据集,计算得到R(Δt);S4、将R(t)与R(Δt)进行合并,得到R(t+Δt);S5、重复S3~S4步骤直至待处理流式数据全部处理完成,得到最终处理结果。本发明的方法,可以根据不同用户需要的满意解,在考虑时间复杂度的效率上和考虑数据更新的准确率之间进行平衡处理,既提升了数据处理过程的效率,又保证数据处理结果的准确性。
Description
技术领域
本发明涉及一种数据处理方法,具体而言,涉及一种流式大数据处理方法,属于人工智能和大数据处理技术领域。
背景技术
随着互联网、信息化的飞速发展,大数据凭借其高度动态性、实时性等特征,已经逐渐渗透到人们的日常生活和经济活动等各个领域中并扮演着日渐重要的角色。与传统的数据库技术相比,大数据能够为用户提供满意解而非精确解。由于人类认知的层次和粒度的差异,也为大数据处理带来了不确定性。因此,大数据技术应该在价值密度低的海量数据处理中作出应对。用户需要的满意解需要实时、有效地处理数据。通常在进行数据处理时,都会使用数据流的形式对数据建模,但这样的处理方式无疑给传统的数据处理技术带来了挑战。
传统的面向静态数据的处理方法需要进行改进,从而满足高效大数据处理的需求。针对流式大数据处理的背景,可以将相应的技术分为以下两类:
其中一种方法是基于时间片的方法。在该类方法中流式大数据在时间维度上被划分为连续的时间片,在每一个时间片中,重复应用静态数据处理方法,从而可以得到每个时间片内的结果。通过连续时间片上结果的分析,可以研究流式数据中的规律及其演化趋势。然而,这种技术存在明显的缺点,本质上这种技术仍然是静态数据处理方法,当数据规模大时,会导致较大的时间复杂度。
另外一种方法是增量式的方法。在该类方法中,在某个时间点得到数据处理的结果,然后针对新到达的数据,依次更新已有的结果。这种方法无需重复应用数据处理方法,提升了获取结果的效率。然而,大量新数据的到来会导致频繁的结果更新。影响数据处理的准确率。
由上述方法介绍可知,在流式大数据的处理过程中,亟需在考虑时间复杂度的效率上和考虑数据更新的准确率上找到一个平衡点。这个平衡点反映了人类针对具体的大数据处理中的认知差异,主要体现为个体差异和数据自身差异等。个体差异指不同的用户看待同一份数据的需求粒度不同。有些用户关注较细粒度上的变化,有些用户关注较粗粒度上的趋势。数据自身差异指数据在时间周期上的不同阶段具有的规模、价值密度不同。例如,工作日中的工作时间产生的数据要比休息时间产生的数据需要获得更多的关注。而大多数静态数据处理方法在处理小规模数据的时候具有较高的效率,并且,效率值随着数据规模的增加指数级别增加。数据规模导致的效率值的大小因不同处理方法各异,因不同用户的满意度各异。
综上所述,如何提出一种全新的数据处理方法,提升数据处理过程的高效性、准确性和规律性,也就成为了目前本领域内技术人员所亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种流式大数据处理方法,包括如下步骤:
S1、数据准备步骤,对流式大数据进行预处理,得到待处理流式数据;
S2、数据集初始化步骤,针对待处理流式数据,划分[0, t0]时间段内的数据构建出初始化数据集,对初始化数据集应用算法进行处理,得到输出R(t0);
S3、数据集增量划分步骤,依据差异变量,从待处理流式数据中划分Δt时间段内的数据作为增量数据集,对增量数据集进行算法处理,得到结果集合R(Δt);
S4、增量结果集合合并步骤,将集合R(t)与R(Δt)进行合并,得到更新后的结果集合R(t+Δt) ;
S5、循环处理步骤,重复S3~S4步骤直至待处理流式数据全部处理完成,得到最终处理结果。
优选地,S1所述数据准备步骤包括:按照时间戳顺序对流式大数据进行升序排序,得到待处理流式数据。
优选地,S2所述对初始化数据集进行算法处理,包括:在所述初始化数据集上应用机器学习算法。
优选地,在S2数据集初始化步骤中,初始化更新时,t= t0,对初始化数据集进行算法处理能够得到的结果集合为R(t0)。
优选地,S3中所述差异变量包括人类认知差异以及数据自身特性,所述人类认知差异代表不同个体对同一事物的认识的粒度,所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化。
优选地,S3中所述对增量数据集进行算法处理,包括:在所述增量数据集上应用机器学习算法。
优选地,S4所述增量结果合并步骤,还包括:在更新过程中,使用哈希算法对结果集合中的结果进行索引,提升查找和检索效率。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明的流式大数据处理方法,提出使用增量来更新结果,不仅克服了基于时间片的方法中效率随数据规模的增加而下降的问题,也克服了增量式的方法中针对每一个数据点更新导致操作过于频繁的问题,显著地提升了数据处理的效率,节省了操作步骤,节约了数据处理时间。本发明可以根据用户需要的满意解,在考虑时间复杂度的效率上和考虑数据更新的准确率之间进行平衡处理,既提升了数据处理过程的效率,又保证数据处理结果的准确性。同时,本发明在进行流式大数据处理时还考虑了数据分布的特点和人类认知的差异,处理过程与处理结果符合人类对大数据认知的规律。此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于领域内其他数据处理方法的技术方案中,具有十分广阔的应用前景。
总体而言,本发明所提出的流式大数据处理方法,兼顾了效率和准确性,使用效果良好,具有很高的使用及推广价值。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的流程示意图;
图2为本发明的原理示意图;
图3为本发明的效率评估图之一;
图4为本发明的效率评估图之二;
图5为本发明的效率评估图之三;
图6为本发明的效率评估图之四;
图7为本发明的准确率评估图。
具体实施方式
如图1~图2所示,本发明揭示了一种流式大数据处理方法,包括如下步骤:
S1、数据准备步骤,对流式大数据进行预处理,得到待处理流式数据;
S2、数据集初始化步骤,针对待处理流式数据,划分[0, t0]时间段内的数据构建出初始化数据集,对初始化数据集进行算法处理,得到输出R(t0);
其中,R(t0)表示时刻t0上的结果集合,可以描述为R(t0)={R1,R2,…,Rn},Ri(1≤i≤n)表示单个结果;
S3、数据集增量划分步骤,依据差异变量,从待处理流式数据中划分Δt时间段内的数据作为增量数据集,对增量数据集进行算法处理,得到结果集合R(Δt);
S4、增量结果集合合并步骤,将集合R(t)与R(Δt)进行合并,得到更新后的结果集合R(t+Δt) ;
其中,针对初始数据集更新时t= t0,其它情况下t= t+Δt;
S5、循环处理步骤,重复S3~S4步骤直至待处理流式数据全部处理完成,得到最终处理结果。
具体而言,S1所述数据准备步骤包括:按照时间戳顺序对流式大数据进行升序排序,得到待处理流式数据。
S2所述对初始化数据集进行算法处理,包括:在所述初始化数据集上应用机器学习算法。
在S2数据集初始化步骤中,初始化更新时,t= t0,对初始化数据集进行算法处理能够得到的结果集合为R(t0)。
在本方案中,S3中所述差异变量包括人类认知差异以及数据自身特性,操作者还可以根据实际的使用需要,对所述差异变量的具体项目进行增减处理。所述人类认知差异代表不同个体对同一事物的认识从细粒度到粗粒度的变化,所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化。在实际的方法使用过程中,依据所述差异变量的变化,Δt每次的取值均可以不同。
此处以流式大数据为新浪微博一天的数据为例,进一步说明上述差异变量的具体含义与Δt的具体取值,用户对9点到11点之间的数据比较关注,因此,在选择增量数据集的时候,Δt的选择可以为5分钟,这样,用户可以在较细的粒度上观察结果;用户对11点到13点之间的数据不是很关注,因此,Δt可以选择为30分钟,在较粗的粒度上观察结果。到了晚上11点之后,一直到第二天凌晨5点,这一个时间段的数据比较稀疏,Δt可以设置为1小时,此时间段的数据较为稀疏,可以在较粗的粒度上观察结果。
S3中所述对增量数据集进行算法处理,包括:在所述增量数据集上应用机器学习算法。
S4所述增量结果合并步骤,还包括:在更新过程中,使用哈希算法对结果集合中的结果进行索引,提升查找和检索效率。
本发明提出使用未来可变时间段内流式数据处理的结果来更新当前数据处理的结果。其中,使用不确定性知识表示的方法度量用户认知的差异,使用哈希方法提升更新的效率。
以下结合实施例,具体说明本发明的处理方法。
本实施例关于一种流式大数据处理的方法,在该方法中,给定流式大数据集为DBLP(论文合作者数据集),在其中检测社区(具有共同科研兴趣的人群)。
首先,划分初始数据集,并在该数据集上应用k-clique算法,得到初始的社区R(t)。其次,增量划分数据集,在本实施例中,增量时间Δt设定为1年,在增量数据集中应用静态机器学习算法,得到增量社区R(Δt)。最后,将R(t)与R(Δt)合并,得到更新的社区R(t+Δt)。
对于上述结果,分别在效率和准确率上进行了评估,效率是指采用本发明中的增量流式大数据处理方法所用的时间,准确率是指采用本发明中的增量流式处理方法得到的正确结果比例。
图3~图6是效率评估图,该图说明本发明中提出的增量式流式处理方法在不同的时间点使用的时间更少,因此,具有更高的效率。
图7是准确率评估图,该图说明本发明中提出的增量式流式大数据处理方法检测的社区与k-clique算法基本匹配,具有较高的准确率。
本发明的流式大数据处理方法,提出使用增量来更新结果,不仅克服了基于时间片的方法中效率随数据规模的增加而下降的问题,也克服了增量式的方法中针对每一个数据点更新导致操作过于频繁的问题,显著地提升了数据处理的效率,节省了操作步骤,节约了数据处理时间。本发明可以根据用户需要的满意解,在考虑时间复杂度的效率上和考虑数据更新的准确率之间进行平衡处理,既提升了数据处理过程的效率,又保证数据处理结果的准确性。同时,本发明在进行流式大数据处理时还考虑了数据分布的特点和人类认知的差异,处理过程与处理结果符合人类对大数据认知的规律。此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于领域内其他数据处理方法的技术方案中,具有十分广阔的应用前景。
总体而言,本发明所提出的流式大数据处理方法,兼顾了效率和准确性,使用效果良好,具有很高的使用及推广价值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (6)
1.一种流式大数据处理方法,其特征在于,包括如下步骤:
S1、数据准备步骤,对流式大数据进行预处理,得到待处理流式数据;
S2、数据集初始化步骤,针对待处理流式数据,划分[0, t0]时间段内的数据构建出初始化数据集,对初始化数据集应用算法进行处理,得到输出R(t0);
S3、数据集增量划分步骤,依据差异变量,从待处理流式数据中划分Δt时间段内的数据作为增量数据集,对增量数据集进行算法处理,得到结果集合R(Δt);
所述差异变量包括人类认知差异以及数据自身特性,所述人类认知差异代表不同个体对同一事物的认识的粒度,所述数据自身特性代表流式数据在时间维度上体现出的价值密度的变化;
S4、增量结果合并步骤,将集合R(t)与R(Δt)进行合并,得到更新后的结果集合R(t+Δt);
S5、循环处理步骤,重复S3~S4步骤直至待处理流式数据全部处理完成,得到最终处理结果。
2.根据权利要求1所述的流式大数据处理方法,其特征在于,S1所述数据准备步骤包括:按照时间戳顺序对流式大数据进行升序排序,得到待处理流式数据。
3.根据权利要求1所述的流式大数据处理方法,其特征在于,S2所述对初始化数据集进行算法处理,包括:在所述初始化数据集上应用机器学习算法。
4.根据权利要求1所述的流式大数据处理方法,其特征在于:在S2数据集初始化步骤中,初始化更新时,t= t0,对初始化数据集进行算法处理能够得到的结果集合为R(t0)。
5.根据权利要求1所述的流式大数据处理方法,其特征在于,S3中所述对增量数据集进行算法处理,包括:在所述增量数据集上应用机器学习算法。
6.根据权利要求1所述的流式大数据处理方法,其特征在于,S4所述增量结果合并步骤,还包括:在更新过程中,应用哈希算法对结果进行索引,提升结果合并中的查找和检索效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810749635.XA CN110019370B (zh) | 2018-07-10 | 2018-07-10 | 流式大数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810749635.XA CN110019370B (zh) | 2018-07-10 | 2018-07-10 | 流式大数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019370A CN110019370A (zh) | 2019-07-16 |
CN110019370B true CN110019370B (zh) | 2022-09-20 |
Family
ID=67188336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810749635.XA Active CN110019370B (zh) | 2018-07-10 | 2018-07-10 | 流式大数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019370B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061711B (zh) * | 2019-11-28 | 2023-09-01 | 同济大学 | 一种基于数据处理行为的大数据流卸载方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
US20170161105A1 (en) * | 2015-12-02 | 2017-06-08 | Ryan Barrett | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
-
2018
- 2018-07-10 CN CN201810749635.XA patent/CN110019370B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090889A (zh) * | 2013-12-12 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 数据处理方法及系统 |
US20170161105A1 (en) * | 2015-12-02 | 2017-06-08 | Ryan Barrett | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
Non-Patent Citations (1)
Title |
---|
社交媒体事件检测研究综述;王冰玉 等;《计算机技术与发展》;20180428;第28卷(第9期);第105-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110019370A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Way et al. | The misleading narrative of the canonical faculty productivity trajectory | |
WO2016101628A1 (zh) | 一种数据建模中的数据处理方法及装置 | |
CN111061962A (zh) | 一种基于用户评分分析的推荐方法 | |
de Arruda et al. | A complex networks approach for data clustering | |
Sapaat et al. | A data mining approach to construct graduates employability model in Malaysia | |
CN116028829B (zh) | 基于传递步长调整的修正聚类处理方法、设备及存储介质 | |
Matuszny | Building decision trees based on production knowledge as support in decision-making process | |
Shingari et al. | A review of applications of data mining techniques for prediction of students’ performance in higher education | |
CN108427756A (zh) | 基于同类用户模型的个性化查询词补全推荐方法和装置 | |
Duan et al. | Parallel clustering of single cell transcriptomic data with split-merge sampling on Dirichlet process mixtures | |
Baggio et al. | Agent-based simulations of subjective well-being | |
CN110019370B (zh) | 流式大数据处理方法 | |
CN114491084A (zh) | 基于自编码器的关系网络信息挖掘方法、装置及设备 | |
Mazumder | Discussion of" Best Subset, Forward Stepwise or Lasso? Analysis and Recommendations Based on Extensive Comparisons" | |
Lamirel et al. | An overview of the history of Science of Science in China based on the use of bibliographic and citation data: a new method of analysis based on clustering with feature maximization and contrast graphs | |
Lin et al. | Combining forecasts for technology forecasting and decision making | |
CN110399382A (zh) | 基于云模型及粗糙集的民航主数据识别方法及系统 | |
Lin et al. | OPEC: Daily load data analysis based on optimized evolutionary clustering | |
CN108647189B (zh) | 一种识别用户人群属性的方法及装置 | |
CN110750572A (zh) | 一种科技成果启发式评价的自适应方法和装置 | |
CN114610308A (zh) | 应用功能布局的调整方法及装置、电子设备、存储介质 | |
CN108920692B (zh) | 一种基于论文引用关系的作者排序方法 | |
CN102043784A (zh) | 一种融合成对约束和属性排序信息的半监督聚类方法 | |
Kim | Past and future of the labor force in emerging Asian economies | |
CN109886313A (zh) | 一种基于密度峰的动态图聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |