CN109241007B

CN109241007B - 一种网络环境下email大数据的预处理系统及方法

Info

Publication number: CN109241007B
Application number: CN201810796149.3A
Authority: CN
Inventors: 王红升; 赵杰; 邢波; 李小江
Original assignee: Beijing Esafenet Science & Technology Co ltd
Current assignee: Beijing Esafenet Science & Technology Co ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2021-08-13
Anticipated expiration: 2038-07-19
Also published as: CN109241007A

Abstract

本发明公开了一种网络环境下email大数据的预处理系统及方法，系统包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群。本发明所提供的系统及方法，通过消息队列传递数据，减少了因数据落地而带来的输入输出，同时降低了各系统之间的耦合；结构化数据和全文数据单独缓存，避免了不需要进行合并的全文数据在合并处理过程中的无用传递，降低结构化数据合并涉及的各个环节的压力；通过预处理降低了入库的压力和查询压力，同时保证了数据的一致性和完整性。

Description

一种网络环境下email大数据的预处理系统及方法

技术领域

本发明涉及大数据处理技术领域，具体涉及一种网络环境下email大数据的预处理系统及方法。

背景技术

由于近些年智能生活的普及，特别是互联网及通信技术的高速发展，使得网络环境下产生了庞大的、繁杂的各种信息数据，email数据就是这些数据的一种。不管现在还是将来这些庞大的数据都将以线性增量增长，但是在这些数据中真正能为我们所用的确很少。因此，如何快速的定位挖掘出那些有用的数据，并迅速的对数据做出正确的处理及分析成为了现今环境下急需解决的问题。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种网络环境下email大数据的预处理系统及方法，通过预处理降低了入库的压力和查询压力，同时保证了数据的一致性和完整性。

为实现上述目的，本发明采用的技术方案如下：

一种网络环境下email大数据的预处理系统，包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群，

所述第一服务器集群用于对网络环境下的email结构化数据和全文数据进行解析和关联，还用于从所述全文数据中抽取文本数据和附件数据，将所述文本数据存入所述缓存数据库集群，将所述附件数据存入所述分布式文件存储集群，将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中，并将更新后的所述结构化数据推送到所述消息队列集群；

所述第二服务器集群用于从所述消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到所述缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，将合并后的结构化数据写回到所述消息队列集群中；

所述第三服务器集群用于从所述消息队列集群中获取合并后的结构化数据，从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。

进一步，如上所述的一种网络环境下email大数据的预处理系统，所述第一服务器集群具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件，解压所述全文数据压缩文件得到全文数据，建立从所述结构化数据到所述全文数据的映射。

进一步，如上所述的一种网络环境下email大数据的预处理系统，所述第二服务器集群具体用于通过流处理程序从所述消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到所述缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，通过流处理程序将合并后的结构化数据写回到所述消息队列集群中。

进一步，如上所述的一种网络环境下email大数据的预处理系统，所述第三服务器集群具体用于从所述消息队列集群中获取合并后的结构化数据，根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。

进一步，如上所述的一种网络环境下email大数据的预处理系统，所述第一服务器集群在存储数据时采用队列形式进行存储。

进一步，如上所述的一种网络环境下email大数据的预处理系统，所述第一服务器集群、所述第二服务器集群、所述第三服务器集群、所述缓存数据库集群、所述消息队列集群、所述分布式文件存储集群和所述分布式存储集群还用于自动收集各自集群中每台服务器的运行状况和服务器状态，并根据所述运行状况和所述服务器状态对各自集群中每台服务器进行负载分配。

本发明实施例中还提供了一种网络环境下email大数据的预处理方法，包括：

S1、第一服务器集群对网络环境下的email结构化数据和全文数据进行解析和关联；

S2、所述第一服务器集群从所述全文数据中抽取文本数据和附件数据，将所述文本数据存入缓存数据库集群，将所述附件数据存入分布式文件存储集群，将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中，并将更新后的所述结构化数据推送到消息队列集群；

S3、第二服务器集群从所述消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到所述缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，将合并后的结构化数据写回到所述消息队列集群中；

S4、第三服务器集群从所述消息队列集群中获取合并后的结构化数据，从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。

进一步，如上所述的一种网络环境下email大数据的预处理方法，步骤S1具体包括：

第一服务器集群根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件，解压所述全文数据压缩文件得到全文数据，建立从所述结构化数据到所述全文数据的映射。

进一步，如上所述的一种网络环境下email大数据的预处理方法，步骤S4具体包括：

第三服务器集群从所述消息队列集群中获取合并后的结构化数据，根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。

进一步，如上所述的一种网络环境下email大数据的预处理方法，所述第一服务器集群在存储数据时采用队列形式进行存储。

本发明的有益效果在于：本发明所提供的系统及方法，通过消息队列传递数据，减少了因数据落地而带来的输入输出，同时降低了各系统之间的耦合；结构化数据和全文数据单独缓存，避免了不需要进行合并的全文数据在合并处理过程中的无用传递，降低结构化数据合并涉及的各个环节的压力；通过预处理降低了入库的压力和查询压力，同时保证了数据的一致性和完整性。

附图说明

图1为本发明实施例中提供的一种网络环境下email大数据的预处理系统的结构示意图；

图2为本发明实施例中提供的一种网络环境下email大数据的预处理方法的流程示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

如图1所示，一种网络环境下email大数据的预处理系统，包括：第一服务器集群10、第二服务器集群20、第三服务器集群30、缓存数据库集群40、消息队列集群50、分布式文件存储集群60和分布式存储集群70，

第一服务器集群10用于对网络环境下的email结构化数据和全文数据进行解析和关联，还用于从全文数据中抽取文本数据和附件数据，将文本数据存入缓存数据库集群40，将附件数据存入分布式文件存储集群60，将附件数据在分布式文件存储集群中的位置信息保存到关联后的结构化数据中，并将更新后的结构化数据推送到消息队列集群50；

第二服务器集群20用于从消息队列集群50中获取未合并的结构化数据，将获取到的结构化数据缓存到缓存数据库集群40中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，将合并后的结构化数据写回到消息队列集群50中；

第三服务器集群30用于从消息队列集群50中获取合并后的结构化数据，从缓存数据库集群40中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到分布式存储集群70中。

第一服务器集群10具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件，解压全文数据压缩文件得到全文数据，建立从结构化数据到全文数据的映射。

第二服务器集群20具体用于通过流处理程序从消息队列集群50中获取未合并的结构化数据，将获取到的结构化数据缓存到缓存数据库集群40中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，通过流处理程序将合并后的结构化数据写回到消息队列集群50中。

第三服务器集群30具体用于从消息队列集群50中获取合并后的结构化数据，根据获取到的结构化数据中用于映射的键值从缓存数据库集群40获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据并存储到分布式存储集群70中。

第一服务器集群10在存储数据时采用队列形式进行存储。

第一服务器集群10、第二服务器集群20、第三服务器集群30、缓存数据库集群40、消息队列集群50、分布式文件存储集群60和分布式存储集群70还用于自动收集各自集群中每台服务器的运行状况和服务器状态，并根据运行状况和服务器状态对各自集群中每台服务器进行负载分配。

首先部署第一服务器集群、第二服务器集群、第三服务器集群、消息队列集群、缓存数据库集群、分布式文件存储集群、分布式存储集群，各集群会自动收集集群中每台服务器的运行状况及服务器状态，从而有效地分配各集群服务器的负载，保证系统正常运行，提高系统效率。

数据处理步骤为：

步骤一：建立网络环境下产生的email结构化数据和全文数据的关联。

第一服务器集群解析网络环境下产生的email结构化数据和全文数据，建立二者之间的关联。

根据结构化数据的文件名获取该文件对应的全文数据压缩文件。

解压全文数据压缩文件。

建立一条结构化数据到一个全文数据文件的映射。

步骤二：抽取全文数据和附件。

第一服务器集群从全文数据中抽取文本和附件。文本存入缓存数据库集群，附件存入分布式文件存储集群，并把保存位置保存到结构化数据中。更新后的结构化数据保存到消息队列集群。

使用队列存储数据，安全起见同一条数据会有多条备份存储，同时多条备份也可提供多个程序读取提高效率。

步骤三：分布式流处理集群合并结构化数据。

第二服务器集群主动抓取步骤二存储的数据，然后实现session数据合并。

流处理程序获取步骤二中保存到消息队列的结构化数据，数据先在本地缓存，预定时间内，新获取的结构化数据反复与缓存中的数据进行合并，将同一个session的多条数据合成一条数据。

流处理程序定时把没有合并行为的结构化数据写回到消息队列中。

步骤四：结构化数据和全文数据入库

第三服务器集群主动抓取步骤三存储的数据，同时获取该数据在缓存中的全文数据，形成完整的数据存储到分布式存储集群中。

缓存数据库集群中的全文数据并没有参与到步骤三数据合并过程中，减少了消息队列、缓存和合并过程中的数据量，降低了系统的消耗。

第一服务器集群、第二服务器集群、第三服务器集群之间没有直接的联系，系统的耦合性低。

通过消息队列传递数据，减少了因数据落地而带来的输入输出，同时降低了各系统之间的耦合；结构化数据和全文数据单独缓存，避免了不需要进行合并的全文数据在合并处理过程中的无用传递，降低结构化数据合并涉及的各个环节的压力；通过预处理，同一个session的多条数据合成一条数据，降低了入库的压力和查询压力，同时保证了数据的一致性和完整性。

与图1中所示的方法相对应，如图2所示，本发明实施例中还提供了一种网络环境下email大数据的预处理方法，包括：

S2、第一服务器集群从全文数据中抽取文本数据和附件数据，将文本数据存入缓存数据库集群，将附件数据存入分布式文件存储集群，将附件数据在分布式文件存储集群中的位置信息保存到关联后的结构化数据中，并将更新后的结构化数据推送到消息队列集群；

S3、第二服务器集群从消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，将合并后的结构化数据写回到消息队列集群中；

S4、第三服务器集群从消息队列集群中获取合并后的结构化数据，从缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到分布式存储集群中。

步骤S1具体包括：

第一服务器集群根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件，解压全文数据压缩文件得到全文数据，建立从结构化数据到全文数据的映射。

步骤S4具体包括：

第三服务器集群从消息队列集群中获取合并后的结构化数据，根据获取到的结构化数据中用于映射的键值从缓存数据库集群获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据并存储到分布式存储集群中。

第一服务器集群在存储数据时采用队列形式进行存储。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网络环境下email大数据的预处理系统，其特征在于，包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群，

所述第三服务器集群用于从所述消息队列集群中获取合并后的结构化数据，从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中；

所述第二服务器集群具体用于通过流处理程序从所述消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到所述缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，通过流处理程序将合并后的结构化数据写回到所述消息队列集群中；

其中，第一服务器集群、第二服务器集群、第三服务器集群之间不存在直接连接。

2.根据权利要求1所述的一种网络环境下email大数据的预处理系统，其特征在于，所述第一服务器集群具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件，解压所述全文数据压缩文件得到全文数据，建立从所述结构化数据到所述全文数据的映射。

3.根据权利要求2所述的一种网络环境下email大数据的预处理系统，其特征在于，所述第三服务器集群具体用于从所述消息队列集群中获取合并后的结构化数据，根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。

4.根据权利要求1所述的一种网络环境下email大数据的预处理系统，其特征在于，所述第一服务器集群在存储数据时采用队列形式进行存储。

5.根据权利要求1-4任一项所述的一种网络环境下email大数据的预处理系统，其特征在于，所述第一服务器集群、所述第二服务器集群、所述第三服务器集群、所述缓存数据库集群、所述消息队列集群、所述分布式文件存储集群和所述分布式存储集群还用于自动收集各自集群中每台服务器的运行状况和服务器状态，并根据所述运行状况和所述服务器状态对各自集群中每台服务器进行负载分配。

6.一种网络环境下email大数据的预处理方法，其特征在于，包括：

S3、第二服务器集群通过流处理程序从所述消息队列集群中获取未合并的结构化数据，将获取到的结构化数据缓存到所述缓存数据库集群中，循环将新获取到的结构化数据与缓存的结构化数据进行合并，预设时间后，通过流处理程序将合并后的结构化数据写回到所述消息队列集群中；

S4、第三服务器集群从所述消息队列集群中获取合并后的结构化数据，从所述缓存数据库集群中获取与之相关联的全文数据，将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中；

7.根据权利要求6所述的一种网络环境下email大数据的预处理方法，其特征在于，步骤S1具体包括：

8.根据权利要求7所述的一种网络环境下email大数据的预处理方法，其特征在于，步骤S4具体包括：

9.根据权利要求6-8任一项所述的一种网络环境下email大数据的预处理方法，其特征在于，所述第一服务器集群在存储数据时采用队列形式进行存储。