CN114416785A

CN114416785A - 一种流式企业大数据处理方法和存储介质

Info

Publication number: CN114416785A
Application number: CN202111394307.0A
Authority: CN
Inventors: 刘子曜; 白峻峰; 张文战
Original assignee: Beijing Jizhi Technology Co ltd
Current assignee: Beijing Jizhi Technology Co ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-04-29

Abstract

本发明涉及大数据处理技术领域，且公开了一种流式企业大数据处理方法和存储介质，述方法包含以下步骤：步骤一，对流式数据进行预处理1)处理累积的大数据即历史数据生成中间结果集，划分该结果集并进行缓存到各计算节点；2)实时监听数据源，并按照时间前后顺序对流式大数据进行升序排序。该种流式企业大数据处理方法和存储介质，通过预先对累积的历史大数据生成结果积，并对结果集进行划分，便于对上次的结果集进行承接，通过对数据源进行实时监听，使得自动对数据源进行监控，无需进行手动触发，而对数据的流式读取方式，大大的降低了对内存的占用，使得数据处理速度大大提升，当数据源的实时数据有更新时可以实时得到处理结果。

Description

一种流式企业大数据处理方法和存储介质

技术领域

本发明涉及大数据处理技术领域，具体为一种流式企业大数据处理方法和存储介质。

背景技术

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，大数据技术的广泛应用使其成为引领众多行业技术进步、促进效益增长的关键支撑技术，根据数据处理的时效性，大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类，其中，批式大数据又被称为历史大数据，流式大数据又被称为实时大数据。

为了满足用户的实时服务需求，网络应用不仅需要对大量的历史数据进行分析处理，还需要进一步对实时流式数据做出快速的处理，而每次手动触发程序运行，两次触发时间点之间的数据，不会立即处理，常规的批处理存在严重的滞后性，同时在每一个时间片中，当数据源发生更新时，将会重复应用静态数据处理方法，从而可以得到每个时间片内的结果，当读取超大文件，需要消耗大量内存，运行速度大大降低，当数据库中的数据过多时，批处理查询性能会大幅下降，无法满足用户需要实时、有效地处理数据。

发明内容

针对现有技术的不足，本发明提供了一种流式企业大数据处理方法和存储介质，具备可以准确实时、有效地处理数据的优点，解决了背景技术中提出的问题。

本发明提供如下技术方案：一种流式企业大数据处理方法和存储介质，所述方法包含以下步骤：

步骤一，对流式数据进行预处理

1)处理累积的大数据即历史数据生成中间结果集，划分该结果集并进行缓存到各计算节点；

2)实时监听数据源，并按照时间前后顺序对流式大数据进行升序排序；

3)针对待处理流式数据，划分设定时间段内的数据构建出初始化数据集,处理设定时间内指定的大数据，指定的大数据为历史数据生成中间结果集，并划分该结果集并分布缓存到各计算节点；

步骤二，对流式数据进行初始化处理

1)每个计算节点定时的接收全部的流式数据，并可通过Map处理得到中间结果；

2)通过中间结果划分方法过滤得到该节点的中间结果，并将其缓存到本地节点上，对本地节点设定阀值，在达到阀值后可形成一个分片，发送该分片；

3)将多路、多个企业数据汇集放入分片并存入至数据库中；

步骤三，将多组数据进行分类存储

1)当数据源的实时数据有更新时，将更新数据接收进第一分片节点消息队列里，并将更新数据及对应的标签发送到第二分片节点消息队列，其中，标签用于标识数据的关键信息，对流式大数据进行预处理以减少数据错误，得到待处理流式数据；

2)将更新后的待处理流式数据及对应将预设时间范围内的第二分片节点消息队列里的数据及对应的标签存储到第一数据库；

3)基于标签对第二分片节点消息队列里的数据过滤，将与标签一致的对应数据存放到第二数据库；

4)将第二数据库里的数据按照主题分类，筛选主题与预设主题一致的数据，并将其储存至第三数据库；

步骤四，建立基于企业数据的算法模型，对多个数据库并行数据分析和运算

1)当中间结果分片到达后，可根据流水线调度算法，把历史数据中间结果与该中间结果共同作为Reduce输入；

2)数据集增量划分步骤，依据差异变量，从待处理流式数据中划分时间段内的数据作为增量数据集，对增量数据集进行算法处理，得到结果集；

3)增量结果合并步骤，将集合流式数据进行合并，得到更新后的结果集。

其中，所述步骤一中数据源的数据可以是文本数据、音频数据、视频数据中任一种，同时数据还包括数据的事件时间属性和数据的处理时间属性。

其中，所述步骤一中的累积大数据即为历史数据，均备份在分布式文件系统上，在系统启动或者开始计算任务之前，均需要对这部分数据进行读取作预处理，且分布式地存储到各个相对应的计算节点，便于对上次的结果集进行承接。

其中，所述步骤三中的第一数据库为全量数据库，用于存储在预设时间范围内的全部数据及该数据对应的标签，所述全量数据库对其内部存储的数据设有数据存储周期，将会基于数据存储周期定期清除超出数据存储周期的数据，所述第二数据库是现行数据库，现行数据库用于存储基于标签过滤所述第二分片节点消息队列内后的数据，且现行数据库对应的上层应用可显示或查询现行数据库，所述第三数据库是存档数据库，所述存档数据库用于存储与人工筛选的数据，所述第三数据库中的数据为永久保存。

其中，所述步骤四中在更新过程中，应用哈希算法对结果进行索引，提升结果合并中的查找和检索效率。

其中，所述用于数据存储的数据库均通过存储介质实现。

与现有技术对比，本发明具备以下有益效果：

1、该种流式企业大数据处理方法和存储介质，通过预先对累积的历史大数据生成结果集，并对结果集进行划分，便于对上次的结果集进行承接，同过对数据源进行实时监听，使得自动对数据源进项监控，无需进行手动触发，而对数据的流式读取方式，大大的降低了对内存的占用，使得数据处理速度大大提升，当数据源的实时数据有更新时可以实时得到处理结果，并且通过存储介质提供了三种数据库，分别存储全量数据、现行处理的数据和永久存档的数据，保证数据存储后不易丢失，同时保证高效的查询数据性能，使得数据分批存储，细化了数据处理的粒度，加快了计算速度，符合高响应比的任务需要，解决了常规的批处理存在严重的滞后性，当读取超大文件时需要消耗大量内存，运行速度大大降低的问题。

2、该种流式企业大数据处理方法和存储介质，通过数据集增量划分步骤，依据差异变量，从待处理流式数据中划分时间段内的数据作为增量数据集，对增量数据集进行算法处理，克服了基于时间的增加而处理的效率随数据储存内存的增大而下降，解决了由于增量式中会对每一个数据点反复多次更新使得操作过于频繁，避免重复操作对数据的处理效率大大提升，简捷了操作步骤，避免了对已处理的数据进行反复刷新处理，提高了数据处理过程的效率，同时保证数据处理结果的准确性，通过运用流式大数据处理方法，兼顾了效率和准确性，方便对数据库进行索引，同时可适用于倒排索引以及外排序。

附图说明

图1为本发明方法步骤结构示意图；

图2为本发明增量划分步骤结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，一种流式企业大数据处理方法和存储介质，包括以下步骤：

步骤一，对流式数据进行预处理

数据源的数据可以是文本数据、音频数据、视频数据中任一种，同时数据还包括数据的事件时间属性和数据的处理时间属性，累积大数据即为历史数据，均备份在分布式文件系统上，在系统启动或者开始计算任务之前，均需要对这部分数据进行读取作预处理，且分布式地存储到各个相对应的计算节点，便于对上次的结果集进行承接。

步骤二，对流式数据进行初始化处理

3)将多路、多个企业数据汇集放入分片并存入至数据库中；

步骤三，将多组数据进行分类存储

第一数据库为全量数据库，用于存储在预设时间范围内的全部数据及该数据对应的标签，所述全量数据库对其内部存储的数据设有数据存储周期，将会基于数据存储周期定期清除超出数据存储周期的数据，所述第二数据库是现行数据库，现行数据库用于存储基于标签过滤所述第二分片节点消息队列内后的数据，且现行数据库对应的上层应用可显示或查询现行数据库，所述第三数据库是存档数据库，所述存档数据库用于存储与人工筛选的数据，所述第三数据库中的数据为永久保存，预先对累积的历史大数据生成结果集，并对结果集进行划分，便于对上次的结果集进行承接，同过对数据源进行实时监听，使得自动对数据源进项监控，无需进行手动触发，而对数据的流式读取方式，大大的降低了对内存的占用，使得数据处理速度大大提升，当数据源的实时数据有更新时可以实时得到处理结果，并且通过存储介质提供了三种数据库，分别存储全量数据、现行处理的数据和永久存档的数据，保证数据存储后不易丢失，同时保证高效的查询数据性能，使得数据分批存储。

在更新过程中，应用哈希算法对结果进行索引，提升结果合并中的查找和检索效率，用于数据存储的数据库均通过存储介质实现，通过数据集增量划分步骤，依据差异变量，从待处理流式数据中划分时间段内的数据作为增量数据集，对增量数据集进行算法处理，克服了基于时间的增加而处理的效率随数据储存内存的增大而下降，解决了由于增量式中会对每一个数据点反复多次更新使得操作过于频繁，避免重复操作对数据的处理效率大大提升，简捷了操作步骤，避免了对已处理的数据进行反复刷新处理，提高了数据处理过程的效率，同时保证数据处理结果的准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种流式企业大数据处理方法和存储介质，其特征在于，所述方法包含以下步骤：

步骤一，对流式数据进行预处理

3)针对待处理流式数据，划分设定时间段内的数据构建出初始化数据集，处理设定时间内指定的大数据，指定的大数据为历史数据生成中间结果集，并划分该结果集并分布缓存到各计算节点；

步骤二，对流式数据进行初始化处理

3)将多路、多个企业数据汇集放入分片并存入至数据库中；

步骤三，将多组数据进行分类存储

2.根据权利要求1所述的一种流式企业大数据处理方法和存储介质，其特征在于：所述步骤一中数据源的数据可以是文本数据、音频数据、视频数据中任一种，同时数据还包括数据的事件时间属性和数据的处理时间属性。

3.根据权利要求1所述的一种流式企业大数据处理方法和存储介质，其特征在于：所述步骤一中的累积大数据即为历史数据，均备份在分布式文件系统上，在系统启动或者开始计算任务之前，均需要对这部分数据进行读取作预处理，且分布式地存储到各个相对应的计算节点，便于对上次的结果集进行承接。

4.根据权利要求1所述的一种流式企业大数据处理方法和存储介质，其特征在于：所述步骤三中的第一数据库为全量数据库，用于存储在预设时间范围内的全部数据及该数据对应的标签，所述全量数据库对其内部存储的数据设有数据存储周期，将会基于数据存储周期定期清除超出数据存储周期的数据，所述第二数据库是现行数据库，现行数据库用于存储基于标签过滤所述第二分片节点消息队列内后的数据，且现行数据库对应的上层应用可显示或查询现行数据库，所述第三数据库是存档数据库，所述存档数据库用于存储与人工筛选的数据，所述第三数据库中的数据为永久保存。

5.根据权利要求1所述的一种流式企业大数据处理方法和存储介质，其特征在于：所述步骤四中在更新过程中，应用哈希算法对结果进行索引，提升结果合并中的查找和检索效率。

6.根据权利要求1所述的一种流式企业大数据处理方法和存储介质，其特征在于：所述用于数据存储的数据库均通过存储介质实现。