CN109241007B - 一种网络环境下email大数据的预处理系统及方法 - Google Patents
一种网络环境下email大数据的预处理系统及方法 Download PDFInfo
- Publication number
- CN109241007B CN109241007B CN201810796149.3A CN201810796149A CN109241007B CN 109241007 B CN109241007 B CN 109241007B CN 201810796149 A CN201810796149 A CN 201810796149A CN 109241007 B CN109241007 B CN 109241007B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- full
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络环境下email大数据的预处理系统及方法,系统包括:第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群。本发明所提供的系统及方法,通过消息队列传递数据,减少了因数据落地而带来的输入输出,同时降低了各系统之间的耦合;结构化数据和全文数据单独缓存,避免了不需要进行合并的全文数据在合并处理过程中的无用传递,降低结构化数据合并涉及的各个环节的压力;通过预处理降低了入库的压力和查询压力,同时保证了数据的一致性和完整性。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种网络环境下email大数据的预处理系统及方法。
背景技术
由于近些年智能生活的普及,特别是互联网及通信技术的高速发展,使得网络环境下产生了庞大的、繁杂的各种信息数据,email数据就是这些数据的一种。不管现在还是将来这些庞大的数据都将以线性增量增长,但是在这些数据中真正能为我们所用的确很少。因此,如何快速的定位挖掘出那些有用的数据,并迅速的对数据做出正确的处理及分析成为了现今环境下急需解决的问题。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种网络环境下email大数据的预处理系统及方法,通过预处理降低了入库的压力和查询压力,同时保证了数据的一致性和完整性。
为实现上述目的,本发明采用的技术方案如下:
一种网络环境下email大数据的预处理系统,包括:第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群,
所述第一服务器集群用于对网络环境下的email结构化数据和全文数据进行解析和关联,还用于从所述全文数据中抽取文本数据和附件数据,将所述文本数据存入所述缓存数据库集群,将所述附件数据存入所述分布式文件存储集群,将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中,并将更新后的所述结构化数据推送到所述消息队列集群;
所述第二服务器集群用于从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,将合并后的结构化数据写回到所述消息队列集群中;
所述第三服务器集群用于从所述消息队列集群中获取合并后的结构化数据,从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
进一步,如上所述的一种网络环境下email大数据的预处理系统,所述第一服务器集群具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压所述全文数据压缩文件得到全文数据,建立从所述结构化数据到所述全文数据的映射。
进一步,如上所述的一种网络环境下email大数据的预处理系统,所述第二服务器集群具体用于通过流处理程序从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,通过流处理程序将合并后的结构化数据写回到所述消息队列集群中。
进一步,如上所述的一种网络环境下email大数据的预处理系统,所述第三服务器集群具体用于从所述消息队列集群中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
进一步,如上所述的一种网络环境下email大数据的预处理系统,所述第一服务器集群在存储数据时采用队列形式进行存储。
进一步,如上所述的一种网络环境下email大数据的预处理系统,所述第一服务器集群、所述第二服务器集群、所述第三服务器集群、所述缓存数据库集群、所述消息队列集群、所述分布式文件存储集群和所述分布式存储集群还用于自动收集各自集群中每台服务器的运行状况和服务器状态,并根据所述运行状况和所述服务器状态对各自集群中每台服务器进行负载分配。
本发明实施例中还提供了一种网络环境下email大数据的预处理方法,包括:
S1、第一服务器集群对网络环境下的email结构化数据和全文数据进行解析和关联;
S2、所述第一服务器集群从所述全文数据中抽取文本数据和附件数据,将所述文本数据存入缓存数据库集群,将所述附件数据存入分布式文件存储集群,将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中,并将更新后的所述结构化数据推送到消息队列集群;
S3、第二服务器集群从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,将合并后的结构化数据写回到所述消息队列集群中;
S4、第三服务器集群从所述消息队列集群中获取合并后的结构化数据,从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
进一步,如上所述的一种网络环境下email大数据的预处理方法,步骤S1具体包括:
第一服务器集群根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压所述全文数据压缩文件得到全文数据,建立从所述结构化数据到所述全文数据的映射。
进一步,如上所述的一种网络环境下email大数据的预处理方法,步骤S4具体包括:
第三服务器集群从所述消息队列集群中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
进一步,如上所述的一种网络环境下email大数据的预处理方法,所述第一服务器集群在存储数据时采用队列形式进行存储。
本发明的有益效果在于:本发明所提供的系统及方法,通过消息队列传递数据,减少了因数据落地而带来的输入输出,同时降低了各系统之间的耦合;结构化数据和全文数据单独缓存,避免了不需要进行合并的全文数据在合并处理过程中的无用传递,降低结构化数据合并涉及的各个环节的压力;通过预处理降低了入库的压力和查询压力,同时保证了数据的一致性和完整性。
附图说明
图1为本发明实施例中提供的一种网络环境下email大数据的预处理系统的结构示意图;
图2为本发明实施例中提供的一种网络环境下email大数据的预处理方法的流程示意图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
如图1所示,一种网络环境下email大数据的预处理系统,包括:第一服务器集群10、第二服务器集群20、第三服务器集群30、缓存数据库集群40、消息队列集群50、分布式文件存储集群60和分布式存储集群70,
第一服务器集群10用于对网络环境下的email结构化数据和全文数据进行解析和关联,还用于从全文数据中抽取文本数据和附件数据,将文本数据存入缓存数据库集群40,将附件数据存入分布式文件存储集群60,将附件数据在分布式文件存储集群中的位置信息保存到关联后的结构化数据中,并将更新后的结构化数据推送到消息队列集群50;
第二服务器集群20用于从消息队列集群50中获取未合并的结构化数据,将获取到的结构化数据缓存到缓存数据库集群40中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,将合并后的结构化数据写回到消息队列集群50中;
第三服务器集群30用于从消息队列集群50中获取合并后的结构化数据,从缓存数据库集群40中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到分布式存储集群70中。
第一服务器集群10具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压全文数据压缩文件得到全文数据,建立从结构化数据到全文数据的映射。
第二服务器集群20具体用于通过流处理程序从消息队列集群50中获取未合并的结构化数据,将获取到的结构化数据缓存到缓存数据库集群40中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,通过流处理程序将合并后的结构化数据写回到消息队列集群50中。
第三服务器集群30具体用于从消息队列集群50中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从缓存数据库集群40获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据并存储到分布式存储集群70中。
第一服务器集群10在存储数据时采用队列形式进行存储。
第一服务器集群10、第二服务器集群20、第三服务器集群30、缓存数据库集群40、消息队列集群50、分布式文件存储集群60和分布式存储集群70还用于自动收集各自集群中每台服务器的运行状况和服务器状态,并根据运行状况和服务器状态对各自集群中每台服务器进行负载分配。
首先部署第一服务器集群、第二服务器集群、第三服务器集群、消息队列集群、缓存数据库集群、分布式文件存储集群、分布式存储集群,各集群会自动收集集群中每台服务器的运行状况及服务器状态,从而有效地分配各集群服务器的负载,保证系统正常运行,提高系统效率。
数据处理步骤为:
步骤一:建立网络环境下产生的email结构化数据和全文数据的关联。
第一服务器集群解析网络环境下产生的email结构化数据和全文数据,建立二者之间的关联。
根据结构化数据的文件名获取该文件对应的全文数据压缩文件。
解压全文数据压缩文件。
建立一条结构化数据到一个全文数据文件的映射。
步骤二:抽取全文数据和附件。
第一服务器集群从全文数据中抽取文本和附件。文本存入缓存数据库集群,附件存入分布式文件存储集群,并把保存位置保存到结构化数据中。更新后的结构化数据保存到消息队列集群。
使用队列存储数据,安全起见同一条数据会有多条备份存储,同时多条备份也可提供多个程序读取提高效率。
步骤三:分布式流处理集群合并结构化数据。
第二服务器集群主动抓取步骤二存储的数据,然后实现session数据合并。
流处理程序获取步骤二中保存到消息队列的结构化数据,数据先在本地缓存,预定时间内,新获取的结构化数据反复与缓存中的数据进行合并,将同一个session的多条数据合成一条数据。
流处理程序定时把没有合并行为的结构化数据写回到消息队列中。
步骤四:结构化数据和全文数据入库
第三服务器集群主动抓取步骤三存储的数据,同时获取该数据在缓存中的全文数据,形成完整的数据存储到分布式存储集群中。
缓存数据库集群中的全文数据并没有参与到步骤三数据合并过程中,减少了消息队列、缓存和合并过程中的数据量,降低了系统的消耗。
第一服务器集群、第二服务器集群、第三服务器集群之间没有直接的联系,系统的耦合性低。
通过消息队列传递数据,减少了因数据落地而带来的输入输出,同时降低了各系统之间的耦合;结构化数据和全文数据单独缓存,避免了不需要进行合并的全文数据在合并处理过程中的无用传递,降低结构化数据合并涉及的各个环节的压力;通过预处理,同一个session的多条数据合成一条数据,降低了入库的压力和查询压力,同时保证了数据的一致性和完整性。
与图1中所示的方法相对应,如图2所示,本发明实施例中还提供了一种网络环境下email大数据的预处理方法,包括:
S1、第一服务器集群对网络环境下的email结构化数据和全文数据进行解析和关联;
S2、第一服务器集群从全文数据中抽取文本数据和附件数据,将文本数据存入缓存数据库集群,将附件数据存入分布式文件存储集群,将附件数据在分布式文件存储集群中的位置信息保存到关联后的结构化数据中,并将更新后的结构化数据推送到消息队列集群;
S3、第二服务器集群从消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,将合并后的结构化数据写回到消息队列集群中;
S4、第三服务器集群从消息队列集群中获取合并后的结构化数据,从缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到分布式存储集群中。
步骤S1具体包括:
第一服务器集群根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压全文数据压缩文件得到全文数据,建立从结构化数据到全文数据的映射。
步骤S4具体包括:
第三服务器集群从消息队列集群中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从缓存数据库集群获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据并存储到分布式存储集群中。
第一服务器集群在存储数据时采用队列形式进行存储。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种网络环境下email大数据的预处理系统,其特征在于,包括:第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群、消息队列集群、分布式文件存储集群和分布式存储集群,
所述第一服务器集群用于对网络环境下的email结构化数据和全文数据进行解析和关联,还用于从所述全文数据中抽取文本数据和附件数据,将所述文本数据存入所述缓存数据库集群,将所述附件数据存入所述分布式文件存储集群,将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中,并将更新后的所述结构化数据推送到所述消息队列集群;
所述第二服务器集群用于从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,将合并后的结构化数据写回到所述消息队列集群中;
所述第三服务器集群用于从所述消息队列集群中获取合并后的结构化数据,从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中;
所述第二服务器集群具体用于通过流处理程序从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,通过流处理程序将合并后的结构化数据写回到所述消息队列集群中;
其中,第一服务器集群、第二服务器集群、第三服务器集群之间不存在直接连接。
2.根据权利要求1所述的一种网络环境下email大数据的预处理系统,其特征在于,所述第一服务器集群具体用于根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压所述全文数据压缩文件得到全文数据,建立从所述结构化数据到所述全文数据的映射。
3.根据权利要求2所述的一种网络环境下email大数据的预处理系统,其特征在于,所述第三服务器集群具体用于从所述消息队列集群中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
4.根据权利要求1所述的一种网络环境下email大数据的预处理系统,其特征在于,所述第一服务器集群在存储数据时采用队列形式进行存储。
5.根据权利要求1-4任一项所述的一种网络环境下email大数据的预处理系统,其特征在于,所述第一服务器集群、所述第二服务器集群、所述第三服务器集群、所述缓存数据库集群、所述消息队列集群、所述分布式文件存储集群和所述分布式存储集群还用于自动收集各自集群中每台服务器的运行状况和服务器状态,并根据所述运行状况和所述服务器状态对各自集群中每台服务器进行负载分配。
6.一种网络环境下email大数据的预处理方法,其特征在于,包括:
S1、第一服务器集群对网络环境下的email结构化数据和全文数据进行解析和关联;
S2、所述第一服务器集群从所述全文数据中抽取文本数据和附件数据,将所述文本数据存入缓存数据库集群,将所述附件数据存入分布式文件存储集群,将所述附件数据在所述分布式文件存储集群中的位置信息保存到关联后的所述结构化数据中,并将更新后的所述结构化数据推送到消息队列集群;
S3、第二服务器集群通过流处理程序从所述消息队列集群中获取未合并的结构化数据,将获取到的结构化数据缓存到所述缓存数据库集群中,循环将新获取到的结构化数据与缓存的结构化数据进行合并,预设时间后,通过流处理程序将合并后的结构化数据写回到所述消息队列集群中;
S4、第三服务器集群从所述消息队列集群中获取合并后的结构化数据,从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中;
其中,第一服务器集群、第二服务器集群、第三服务器集群之间不存在直接连接。
7.根据权利要求6所述的一种网络环境下email大数据的预处理方法,其特征在于,步骤S1具体包括:
第一服务器集群根据网络环境下的email结构化数据的文件名获取该文件对应的全文数据压缩文件,解压所述全文数据压缩文件得到全文数据,建立从所述结构化数据到所述全文数据的映射。
8.根据权利要求7所述的一种网络环境下email大数据的预处理方法,其特征在于,步骤S4具体包括:
第三服务器集群从所述消息队列集群中获取合并后的结构化数据,根据获取到的结构化数据中用于映射的键值从所述缓存数据库集群中获取与之相关联的全文数据,将获取到的结构化数据和获取到的全文数据合成完整的数据存储到所述分布式存储集群中。
9.根据权利要求6-8任一项所述的一种网络环境下email大数据的预处理方法,其特征在于,所述第一服务器集群在存储数据时采用队列形式进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796149.3A CN109241007B (zh) | 2018-07-19 | 2018-07-19 | 一种网络环境下email大数据的预处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796149.3A CN109241007B (zh) | 2018-07-19 | 2018-07-19 | 一种网络环境下email大数据的预处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241007A CN109241007A (zh) | 2019-01-18 |
CN109241007B true CN109241007B (zh) | 2021-08-13 |
Family
ID=65072116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810796149.3A Active CN109241007B (zh) | 2018-07-19 | 2018-07-19 | 一种网络环境下email大数据的预处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241007B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775689B1 (en) * | 2000-06-07 | 2004-08-10 | International Business Machines Corporation | System for restructuring selected parts of email messages prior to transmission to plurality of recipients |
CN1971595A (zh) * | 2005-11-23 | 2007-05-30 | 腾讯科技(深圳)有限公司 | 一种合并电子邮件的方法和系统 |
CN101098313A (zh) * | 2006-06-30 | 2008-01-02 | 华为技术有限公司 | 一种邮件转发方法及系统 |
CN105138674A (zh) * | 2015-09-08 | 2015-12-09 | 成都博元科技有限公司 | 一种数据库访问方法 |
CN105468735A (zh) * | 2015-11-23 | 2016-04-06 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量信息的流式预处理系统及其方法 |
CN107402980A (zh) * | 2017-07-06 | 2017-11-28 | 北京亿赛通网络安全技术有限公司 | 一种基于网络环境下的大数据的处理方法和系统 |
-
2018
- 2018-07-19 CN CN201810796149.3A patent/CN109241007B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775689B1 (en) * | 2000-06-07 | 2004-08-10 | International Business Machines Corporation | System for restructuring selected parts of email messages prior to transmission to plurality of recipients |
CN1971595A (zh) * | 2005-11-23 | 2007-05-30 | 腾讯科技(深圳)有限公司 | 一种合并电子邮件的方法和系统 |
CN101098313A (zh) * | 2006-06-30 | 2008-01-02 | 华为技术有限公司 | 一种邮件转发方法及系统 |
CN105138674A (zh) * | 2015-09-08 | 2015-12-09 | 成都博元科技有限公司 | 一种数据库访问方法 |
CN105468735A (zh) * | 2015-11-23 | 2016-04-06 | 武汉虹旭信息技术有限责任公司 | 基于移动互联网海量信息的流式预处理系统及其方法 |
CN107402980A (zh) * | 2017-07-06 | 2017-11-28 | 北京亿赛通网络安全技术有限公司 | 一种基于网络环境下的大数据的处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109241007A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914485B (zh) | 一种远程收集和检索展示应用系统日志的系统及方法 | |
CN112445863B (zh) | 一种数据实时同步方法及系统 | |
CN109933505A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN110502583B (zh) | 分布式数据同步方法、装置、设备及可读存储介质 | |
CN113360554B (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
US8489694B2 (en) | Peer-to-peer collaboration of publishers in a publish-subscription environment | |
CN108228743A (zh) | 一种实时大数据搜索引擎系统 | |
CN103678694A (zh) | 视频资源的倒排索引文件建立方法及其系统 | |
CN108255621A (zh) | 一种基于binlog的MySQL增量消息解析方法 | |
CN110688382A (zh) | 数据存储查询方法、装置、计算机设备及存储介质 | |
CN112069264A (zh) | 异构数据源采集方法、装置、电子设备及存储介质 | |
CN114968953A (zh) | 日志的存储检索方法、系统、终端设备及介质 | |
CN111209278A (zh) | 流式实时处理线上生产数据的装置和方法 | |
CN111913949B (zh) | 数据处理方法、系统、装置和计算机可读存储介质 | |
CN103365987A (zh) | 一种基于共享磁盘架构的集群数据库系统及数据处理方法 | |
CN115017159A (zh) | 数据处理方法及装置、存储介质及电子设备 | |
CN109491988B (zh) | 一种支持全量更新的数据实时关联方法 | |
CN109241007B (zh) | 一种网络环境下email大数据的预处理系统及方法 | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN116383207A (zh) | 一种数据标签管理方法、装置、电子设备和存储介质 | |
CN111209314A (zh) | 一种电力信息系统海量日志数据实时处理系统 | |
KR101656011B1 (ko) | 빅데이터 기반 고장 모니터링 시스템 및 방법 | |
CN114297211A (zh) | 一种数据在线分析系统、方法、设备及存储介质 | |
CN108280790A (zh) | 基于大数据分析的政策信息服务系统 | |
CN114553970A (zh) | 一种基于Kafka分布式消息处理方法及数据总线系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |