CN111010336A

CN111010336A - 一种海量邮件解析方法及装置

Info

Publication number: CN111010336A
Application number: CN201911309802.XA
Authority: CN
Inventors: 程俊; 李文飞
Original assignee: Write Easy Network Technology Shanghai Co Ltd
Current assignee: Write Easy Network Technology Shanghai Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-14

Abstract

本发明提供了一种海量邮件解析方法及装置，其方法包括：对海量邮件按照邮件格式进行归类；对归类后的海量邮件进行数据筛选得到海量邮件数据；利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中。本发明的海量邮件解析方法首先对海量邮件进行格式归类，之后进行数据筛选，剔除垃圾数据，最后利用大数据引擎解析程序解析海量邮件数据。本发明中通过大数据引擎（Spark）解析程序处理邮件，把原有的邮件解析插件和解析代码接入到spark程序中，分布式处理，提高了邮件处理速度，解决了在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢的问题。

Description

一种海量邮件解析方法及装置

技术领域

本发明属于大数据处理技术领域，尤其涉及一种海量邮件解析方法及装置。

背景技术

电子邮件作为人们日常办公的一种通信方式，具有以下优点：

1、发送速度快。电子邮件通常在数秒钟内即可送达至全球任意位置的收件人信箱中，其速度比电话通信更为高效快捷。如果接收者在收到电子邮件后的短时间内作出回复，往往发送者仍在计算机旁工作的时候就可以收到回复的电子邮件，接收双方交换一系列简短的电子邮件就像一次次简短的会话；

2、信息多样化。电子邮件发送的信件内容除普通文字内容外，还可以是软件、数据，甚至是录音、动画、电视或各类多媒体信息；

3、收发方便。与电话通信或邮政信件发送不同，E-mail采取的是异步工作方式，它在高速传输的同时允许收信人自由决定在什么时候、什么地点接收和回复，发送电子邮件时不会因“占线”或接收方不在而耽误时间，收件人无需固定守候在线路另一端，可以在用户方便的任意时间、任意地点，甚至是在旅途中收取E-mail，从而跨越了时间和空间的限制；

4、成本低廉。E-mail最大的优点还在于其低廉的通信价格，用户花费极少的市内电话费用即可将重要的信息发送到远在地球另一端的用户手中；

5、更为广泛的交流对象。同一个信件可以通过网络极快地发送给网上指定的一个或多个成员，甚至召开网上会议进行互相讨论，这些成员可以分布在世界各地，但发送速度则与地域无关。与任何一种其他的Internet服务相比，使用电子邮件可以与更多的人进行通信；

6、安全。E-mail软件是高效可靠的，如果目的地的计算机正好关机或暂时从Internet断开，E-mail软件会每隔一段时间自动重发；如果电子邮件在一段时间之内无法递交，电子邮件会自动通知发信人。作为一种高质量的服务，电子邮件是安全可靠的高速信件递送机制，Internet用户一般只通过E-mail方式发送信件。

目前随着互联网技术的高速发展，云时代的来临，大数据（Big data）也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱，且在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢。

发明内容

本发明提供一种海量邮件解析方法及装置，以解决在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢的问题。

为解决上述技术问题，本发明实施例提供了一种海量邮件解析方法，包括：

对海量邮件按照邮件格式进行归类；

对归类后的海量邮件进行数据筛选得到海量邮件数据；

利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中。

根据本发明的一实施方式，所述邮件格式包括.dbx、.pst、.ost、.nsf以及.eml。

根据本发明的另一实施方式，所述对归类后的海量邮件进行数据筛选得到海量邮件数据的步骤包括：

对归类后的所述海量邮件的IP地址进行过滤；

将过滤后的所述海量邮件存入相应的大数据引擎存储程序中；

在大数据引擎存储程序中提取所述海量邮件包含的海量邮件数据。

根据本发明的另一实施方式，所述海量邮件数据包括：邮件类型、邮件主题、发件人、收件人、抄送人、密送人、主要内容、内嵌图片、表格、附件、未读标记、星标标记以及时间。

根据本发明的另一实施方式，所述利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中的步骤包括：

读取所述大数据引擎存储程序中的海量邮件数据；

集群执行所述大数据引擎解析程序以解析得到所述海量邮件数据的各个数据节点和邮件元数据；

将所述海量邮件数据的各个数据节点和邮件元数据分库分表存入相应数据库中。

根据本发明的另一实施方式，所述利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中的步骤之后还包括：

在所述数据库中分布式查询邮件数据。

根据本发明的另一实施方式，所述在所述数据库中分布式查询邮件数据的步骤包括：

数据库第一节点接收客户端发送的获取请求；

根据数据文档的编号确定所属集群并将所述获取请求指向数据库第二节点；

所述数据库第二节点将所述数据文档发送给所述数据库第一节点；

所述数据库第一节点将所述数据文档发送给所述客户端。

另一方面，本发明实施例还提供了一种海量邮件解析装置，包括：

归类模块，用于对海量邮件按照邮件格式进行归类；

数据筛选模块，用于对归类后的海量邮件进行数据筛选得到海量邮件数据；

解析模块，用于利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中。

根据本发明的一实施方式，所述数据筛选模块包括：

过滤单元，用于对归类后的所述海量邮件的IP地址进行过滤；

分类存储单元，用于将过滤后的所述海量邮件存入相应的大数据引擎存储程序中；

提取单元，用于在大数据引擎存储程序中提取所述海量邮件包含的海量邮件数据。

根据本发明的另一实施方式，所述解析模块包括：

读取单元，用于读取所述大数据引擎存储程序中的海量邮件数据；

解析单元，用于集群执行所述大数据引擎解析程序以解析得到所述海量邮件数据的各个数据节点和邮件元数据；

存储单元，用于将所述海量邮件数据的各个数据节点和邮件元数据分库分表存入相应数据库中。

本发明的有益效果：

本发明实施例的海量邮件解析方法首先对海量邮件进行格式归类，之后进行数据筛选，剔除垃圾数据，最后利用大数据引擎解析程序解析海量邮件数据。本实施例中通过大数据引擎（Spark）解析程序处理邮件，把原有的邮件解析插件和解析代码接入到spark程序中，分布式处理，提高了邮件处理速度，解决了在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种海量邮件解析方法的一个实施例的流程示意图；

图2是本发明的一种海量邮件解析方法的步骤200的一个实施例的流程示意图；

图3是本发明的一种海量邮件解析方法的步骤300的一个实施例的流程示意图；

图4是本发明的一种海量邮件解析方法的步骤400的一个实施例的流程示意图；

图5是本发明的一种海量邮件解析方法的步骤400的另一个实施例的流程示意图；

图6是本发明的一种海量邮件解析装置的一个实施例的结构示意图；

图7是本发明的一种海量邮件解析装置的数据筛选模块d额一个实施例的结构示意图；

图8是本发明的一种海量邮件解析装置的解析模块的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例提供了一种海量邮件解析方法，包括：

步骤100：对海量邮件按照邮件格式进行归类；

步骤200：对归类后的海量邮件进行数据筛选得到海量邮件数据；

步骤300：利用大数据引擎解析程序解析海量邮件数据并将解析后的数据存入数据库中。

可选地，本发明实施例中邮件格式包括.dbx、.pst、.ost、.nsf以及.eml。具体的邮件格式包括：

Outlook Express（DBX）

Outlook Express使用的.dbx文件的最大文件大小是2 GB。注意：虽然最大文件大小是2 GB，但是计算机上的硬件资源可能会极大地影响.dbx文件的性能。这些资源包括随机存取内存（RAM）、磁盘空间和处理器资源。Folders.dbx文件十分重要，相当于所有.dbx文件的神经中枢，如果它发生损坏，Microsoft Outlook Express (OE)将会出现无法启动的情况。

Office Outlook Express（.pst和.ost）

Outlook 数据文件(.pst)包含您的邮件和其他Outlook项，然后保存在您的计算机上。POP帐户是一种常用的帐户添加电子邮件帐户，从internet服务提供商(ISP)，您可以创建Xfinity喜欢或在& T或Cox —从您的邮件服务器下载所有的电子邮件并将其保存您的计算机上。

脱机 Outlook 数据文件(.ost)。大多数其他帐户类型，如IMAP帐户，Office365帐户、Exchange帐户，请和Outlook.com帐户使用脱机Outlook数据文件(.ost)文件以在您的本地计算机上存储邮箱信息的同步的副本。

Foxmail（DBX）

Foxmail（DBX）与Outlook Express使用的.dbx文件格式大相径庭，.dbx文件的性能相同。这些资源包括随机存取内存（RAM）、磁盘空间和处理器资源，解析操作方式统一。

Lotus Notes（NSF）

Lotus Notes客户端邮件.nsf文件，企业级邮件数据格式。

EML格式

EML格式是微软公司在Outlook中所使用的一种遵循RFC822及其后续扩展的文件格式，并成为各类电子邮件软件的通用格式。eml文件打开后就是电子邮件(E-mail)，它是电子邮件导出后的格式，163、QQ等使用较多的邮件服务商都有邮件导出功能，导出后的文件就是eml格式文件。

在一些实施例中，参见图2所示，本发明的海量邮件解析方法的步骤200包括：

步骤201：对归类后的海量邮件的IP地址进行过滤；

本步骤中IP地址过滤是基于最基本的TCP/IP协议，对非法的源IP地址进行阻挡。非法的源IP地址一般表现为：私有IP地址、预留的IP地址、本地的IP地址等。通过对此类型的IP地址进行分类检测，可以防止一些低级的垃圾数据存储到大数据引擎存储程序中。

步骤202：将过滤后的海量邮件存入相应的大数据引擎存储程序中；

本步骤中根据邮件类型区分格式，多线程执行相应的spark存储程序将不同格式的邮件进行存储，并在集群元节点存储相应的索引数据。

步骤203：在大数据引擎存储程序中提取海量邮件包含的海量邮件数据。

本步骤中，将海量邮件上传大数据引擎存储程序中读取，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

可选地，本发明实施例中海量邮件数据包括：邮件类型、邮件主题、发件人、收件人、抄送人、密送人、主要内容、内嵌图片、表格、附件、未读标记、星标标记以及时间。

在一些实施例中，参见图3所示，本发明的海量邮件解析方法的步骤300包括：

步骤301：读取大数据引擎存储程序中的海量邮件数据；

步骤302：集群执行大数据引擎解析程序以解析得到海量邮件数据的各个数据节点和邮件元数据；

本步骤中集群执行大数据引擎解析程序后可以计算出邮件的每个数据节点，多线程解析邮件元数据，批量处理数据后释放内存。

步骤303：将海量邮件数据的各个数据节点和邮件元数据分库分表存入相应数据库中。

本步骤中数据解析后分库分表存入指定数据库中，解析为各属性元节点，用于后续的全文索引高速查询展示。

本发明实施例的海量邮件解析方法通过大数据引擎（Spark）解析程序处理邮件，把原有的邮件解析插件和解析代码接入到spark程序中，分布式处理，提高了邮件处理速度，解决了在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢的问题。

在一些实施例中，参见图1所示，本发明的海量邮件解析方法的步骤300之后还包括：

步骤400：在数据库中分布式查询邮件数据。

在一些实施例中，参见图4和图5所示，本发明的海量邮件解析方法的步骤400包括：

步骤401：数据库第一节点接收客户端发送的获取请求；

步骤402：根据数据文档的编号确定所属集群并将获取请求指向数据库第二节点；

步骤403：数据库第二节点将数据文档发送给数据库第一节点；

步骤404：数据库第一节点将数据文档发送给客户端。

具体的参见图5所示，在进行分布式邮件查询师，客户端首先发送获取（Get）请求到数据库第一节点（NODE1）；之后NODE1使用文档的_id决定数据文档属于shard 0。shard 0的所有拷贝存在于所有3个节点上。这次，它将请求路由至数据库第二节点（NODE2）；NODE2将数据文档返回给NODE1，NODE1将数据文档返回给客户端。对于读请求，请求节点(NODE1)将在每次请求到来时都选择一个不同的replica。shard来达到负载均衡。使用轮询策略轮询所有的replica shards。

另一方面，参见图7所示，本发明实施例还提供了一种海量邮件解析装置1，包括：

归类模块10，用于对海量邮件按照邮件格式进行归类；

数据筛选模块20，用于对归类后的海量邮件进行数据筛选得到海量邮件数据；

解析模块30，用于利用大数据引擎解析程序解析海量邮件数据并将解析后的数据存入数据库中。

本发明实施例的海量邮件解析装置首先通过归类模块对海量邮件进行格式归类，之后通过数据筛选模块剔除垃圾数据，最后利用解析模块解析海量邮件数据。本实施例中通过大数据引擎（Spark）解析程序处理邮件，把原有的邮件解析插件和解析代码接入到spark程序中，分布式处理，提高了邮件处理速度，解决了在传统的数据库中，在数据大量的增长的情况下电子邮件解析存储速率也越来越慢的问题。

在一些实施例中，参见图8所示，本发明的海量邮件解析装置的数据筛选模块20包括：

过滤单元21，用于对归类后的海量邮件的IP地址进行过滤；

分类存储单元22，用于将过滤后的海量邮件存入相应的大数据引擎存储程序中；

提取单元23，用于在大数据引擎存储程序中提取海量邮件包含的海量邮件数据。

在一些实施例中，参见图8所示，本发明的海量邮件解析装置的解析模块30包括：

读取单元31，用于读取大数据引擎存储程序中的海量邮件数据；

解析单元32，用于集群执行大数据引擎解析程序以解析得到海量邮件数据的各个数据节点和邮件元数据；

存储单元33，用于将海量邮件数据的各个数据节点和邮件元数据分库分表存入相应数据库中。

综上所述，本发明实施例的海量邮件解析方法及装置的核心是大数据Spark处理邮件，把原有的邮件解析插件和解析代码接入到spark程序中，分布式处理。主要是解析邮件的逻辑，最重要的是对于异常情况的处理，因为邮件文档解析的过程会有很多未知的异常，如果有一封邮件的解析出现问题，那么整个邮件解析任务就会执行失败，所以在现有的技术上，加强并完善邮件及邮件附件的高速率高容错解析。本发明实施例的海量邮件解析方法及装置具有以下特点：

有界：大批处理邮件数据集代表数据的有限集合

持久：邮件数据通常始终存储在某种类型的持久存储位置中

大量：邮件批处理操作通常是处理极为海量数据集的唯一方法

邮件批处理数据非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集，或首先将数据集载入内存，批处理系统在设计过程中就充分考虑了数据的量，可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色，因此，对海量邮件数据的解析及存储有极大的优势。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种海量邮件解析方法，其特征在于，包括：

对海量邮件按照邮件格式进行归类；

对归类后的海量邮件进行数据筛选得到海量邮件数据；

2.根据权利要求1所述的海量邮件解析方法，其特征在于，所述邮件格式包括.dbx、.pst、.ost、.nsf以及.eml。

3.根据权利要求1所述的海量邮件解析方法，其特征在于，所述对归类后的海量邮件进行数据筛选得到海量邮件数据的步骤包括：

对归类后的所述海量邮件的IP地址进行过滤；

4.根据权利要求3所述的海量邮件解析方法，其特征在于，所述海量邮件数据包括：邮件类型、邮件主题、发件人、收件人、抄送人、密送人、主要内容、内嵌图片、表格、附件、未读标记、星标标记以及时间。

5.根据权利要求3所述的海量邮件解析方法，其特征在于，所述利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中的步骤包括：

读取所述大数据引擎存储程序中的海量邮件数据；

6.根据权利要求1-5任一项所述的海量邮件解析方法，其特征在于，所述利用大数据引擎解析程序解析所述海量邮件数据并将解析后的数据存入数据库中的步骤之后还包括：

在所述数据库中分布式查询邮件数据。

7.根据权利要求6所述的海量邮件解析方法，其特征在于，所述在所述数据库中分布式查询邮件数据的步骤包括：

数据库第一节点接收客户端发送的获取请求；

所述数据库第一节点将所述数据文档发送给所述客户端。

8.一种海量邮件解析装置，其特征在于，包括：

归类模块，用于对海量邮件按照邮件格式进行归类；

9.根据权利要求8所述的海量邮件解析装置，其特征在于，所述数据筛选模块包括：

10.根据权利要求8所述的海量邮件解析装置，其特征在于，所述解析模块包括：