CN107528763A - 一种基于Spark与YARN的邮件内容分析方法 - Google Patents
一种基于Spark与YARN的邮件内容分析方法 Download PDFInfo
- Publication number
- CN107528763A CN107528763A CN201610453765.XA CN201610453765A CN107528763A CN 107528763 A CN107528763 A CN 107528763A CN 201610453765 A CN201610453765 A CN 201610453765A CN 107528763 A CN107528763 A CN 107528763A
- Authority
- CN
- China
- Prior art keywords
- data
- spark
- analysis
- yarn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明为一种基于Spark与YARN的邮件内容分析方法,应用于大量邮件内容分析、归类、查询、展示的处理框架。本发明所述分析方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化。再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内。通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,向外提供灵活的查询服务。本发明基于spark on YARN数据分析平台实时性、高效性、高数据吞吐能力,实现了一套邮件分析、查询及可视化的完整方案。
Description
技术领域
本发明涉及一种邮件内容分析方法,尤其涉及一种基于Spark与YARN的邮件内容分析方法 ,应用于大量邮件内容分析、归类、查询、展示的处理框架。
背景技术
邮件是人们在工作中一种主要的信息交换的通讯方式,是互联网应用最广泛的服务之一。通过邮件,人们可以以非常低廉的价格、非常快速而且安全的方式,与世界上任何一个地点的网络用户进行联络。同时,邮件的内容也可以是文本、图片、视频、文件等多种形式,可以传递大量的信息。
随着用户邮件数据在邮件服务器的累积,在政策允许和获得授权的情况下, 具有邮件读取权限的公司和用户可以通过对邮件内容的分析来获取一些有价值的信息(如垃圾邮件分析),并且对新来的邮件进行相应处理。
邮件往往采用的是人类易读的自然语言来通讯的。邮件内容分析不同于文本分析之处在于:1)邮件可能包含多媒体文件,图片、音频甚至是文件等;2)邮件包含有一些特殊的属性,如收件人、抄送人、主题等;3)邮件之间有直接或间接的关联,如邮件的回复,相同主题的邮件等等。所以邮件分析处理不仅仅有自然语言分析处理的部分,也有邮件间关联分析的部分。
在大数据分析技术越来越成熟的今天,借助大数据手段可以快速分析上百万封,数据量数G到几十G,对邮件进行内容、主题定位,对邮件分类,特定信息抽取建模等。最终通过机器学习等手段达到新入邮件分类,邮件关联性内容可视化展示等。
发明内容
邮件是人们在工作中一种主要的信息交换的通讯方式,是互联网应用最广泛的服务之一。通过邮件,人们可以以非常低廉的价格、非常快速而且安全的方式,与世界上任何一个地点的网络用户进行联络。同时,邮件的内容也可以是文本、图片、视频、文件等多种形式,可以传递大量的信息。
随着用户邮件数据在邮件服务器的累积,在政策允许和获得授权的情况下, 具有邮件读取权限的公司和用户可以通过对邮件内容的分析来获取一些有价值的信息(如垃圾邮件分析),并且对新来的邮件进行相应处理。
邮件往往采用的是人类易读的自然语言来通讯的。邮件内容分析不同于文本分析之处在于:1)邮件可能包含多媒体文件,图片、音频甚至是文件等;2)邮件包含有一些特殊的属性,如收件人、抄送人、主题等;3)邮件之间有直接或间接的关联,如邮件的回复,相同主题的邮件等等。所以邮件分析处理不仅仅有自然语言分析处理的部分,也有邮件间关联分析的部分。
在大数据分析技术越来越成熟的今天,借助大数据手段可以快速分析上百万封,数据量数G到几十G,对邮件进行内容、主题定位,对邮件分类,特定信息抽取建模等。最终通过机器学习等手段达到新入邮件分类,邮件关联性内容可视化展示等。
说明书附图
图1,为本发明所述系统的流程示意图;
图2,为本发明所述系统的系统框架图;
图3,为本发明所述系统的数据处理示意图。
具体实施方式
结合说明书附图1 ,对本发明所述系统的数据处理过程进行详细描述:
1)步骤1,数据处理:
本系统将原始的邮件数据上传到HDFS,通过读取这些保存在HDFS上的文件,提取邮件元数据以及邮件内容,将读取到的记录保存到HBase存储中,并将邮件数据记录序列化转换后合并写入到新的HDFS文件中。
进一步的上述原始 mail数据格式可能是xml、html、txt等,xml或html等可以包含图片、视频等多媒体文件。
数据的预处理主要用于:
1)将邮件文件合并,避免在数据处理时大量的小文件读写,提高系统IO的效率;2)提高存储效率,HDFS直接存储适用于大文件,小文件存储会降低控件利用率,通常情况下一个50KB,甚至更小的邮件文件需要占用一个Block大小的HDFS容量,通常系统默认是128MB,采用HBase列式存储邮件原文件一个原因也是因为此;
3)在处理原始邮件数据时,一并引入序列化过程,因此不论是对于持久化或是数据处理而言,效率都会是相对很高的。
2)步骤二、经过预处理的数据文件存放在HDFS上,通过自然语言分析处理工具对邮件内容进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化。
例:设定一组主题,1)网购,2)体育,3)音乐,4)汽车,5)残障关爱。对于邮件内容为(内容虚构):
from: news@chinasports.com
to: li4@mail.com
cc: sports_subscribe@chinasports.com, zhang3@mailservice.com…
content:
… 中国盲人足球队自2006年建队以来取得了不俗的成绩,2008年获北京残奥会亚军,2010年获盲人足球世锦赛季军和广州亚残运会冠军,2012年获伦敦残奥会第五名。2007年、2009、2011年、2013年连续4届获得盲人足球亚锦赛冠军。
的邮件中,从中提取一些关键词:
中国,盲人,足球队,北京,残奥会,亚军,世锦赛,季军,亚残运会,冠军,伦敦,亚锦赛…
根据每个主题的一些预先设定的现有词库确定(出现的频数,与词库中词汇的紧密程度)这个邮件的属于各个主题的程度,它是一个多维数组。针对这个邮件计算出的可能结果为:
(5, 33, 2, -10,11,...)
我们可以根据此来确定,它更倾向于属于“体育”的主题。同时,“特征鲜明”的词汇也会补充到预设主题的词汇中去,让词汇更丰富,训练集更有效精准。
3)步骤三、聚类。结合说明书附图3进行详述。依据步骤二输出的量化信息对邮件进行分类,将具有关联关系的邮件放在一个划分集合内。通过计算两个邮件特征量化参考值之间的欧氏距离,计算两封邮件之间的类似程度(完全一样的两个个体之间这个值是0)。
这个过程经过多次迭代计算,每一次计算的结果都是一次重新的归类划分,直到最后一次划分结果不再变化或者数量超过预先设定的迭代次数。
4)步骤四、:查询与可视化,将第二阶段与第三阶段计算的结果,以元数据形式附加到相应的一条邮件记录上,写回到HBASE数据库,向外提供灵活的查询服务。提供的查询展示服务主要有:同一类邮件按相似程度展示、符合某一类特征的邮件按时间发生先后次序展示等。
上述的同一类邮件按相似程度展示,在具体实施过程为:
对于给定邮件A,通过第三阶段查询到的聚类结果,展示同一聚类下的邮件列表,排序依据为邮件与A的相似程度(两者欧氏距离)从小到大排列。越相似的邮件排名越靠前。
上述的符合某一类特征的邮件按时间发生先后次序展示,在具体实施过程为:
对于给定邮件B、C、D,对于同一主题,体育,足球赛事的符合程度分别为81%,83%,79%,设定80%以上可属于基本吻合。在结果展示时,B、C按照邮件的发送自然时间前后排序。
Claims (8)
1.一种基于Spark与YARN的邮件内容分析方法,主要包括5个模块:数据预处理模块、邮件特征抽取与分析模块、邮件分类与关联分析模块、数据持久化与查询模块、以及数据可视化模块;
其特征在于,所述方法,将大量邮件数据内容经过预处理后,进行主题定位和特征词提取,并根据特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化;再根据量化结果,对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过算法计算两封邮件之间的类似程度,并进行多次迭代计算,并将最终计算结果,写回到HBASE数据库,并提供查询服务。
2.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,
所述的数据处理模块,将原始的邮件数据上传到HDFS,系统通过读取这些保存在HDFS上的文件,提取邮件元数据以及邮件内容,将读取到的记录保存到HBase存储中,并将邮件数据记录序列化转换后合并写入到新的HDFS文件中。
3.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,
所述的邮件特征抽取与分析模块,主要用于,将经过预处理的数据文件存放在HDFS上,通过自然语言分析处理工具对邮件内容进行主题定位和特征词提取,根据设定的数据以及特征词与主题的关联程度赋以不同的权重,对邮件内容进行量化。
4.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,
所述的邮件分类与关联分析模块,主要用于,根据邮件特征抽取与分析模块输出的量化信息对邮件进行分类,将具有关联关系的邮件放在一个划分集合内;通过计算两个邮件特征量化参考值之间的相似度,计算两封邮件之间的类似程度;
这个过程经过多次迭代计算,每一次计算的结果都是一次重新的归类划分,直到最后一次划分结果不再变化或者数量超过预先设定的迭代次数。
5.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,
所述的数据持久化与查询模块,用于根据经过邮件分类与关联分析模块迭代计算处理后的划分结果,对输入的邮件记录进行维度扩展,增加划分类别和主题列,保存到HBase列式存储中,并提供数据查询服务;
所述的数据持久化过程,是指将数据处理结果,保存到数据库或文件的过程,该处理结果包含了邮件的唯一标识;
所述的查询模块由API接口实现,查询保存了处理结果的数据库,然后返回。
6.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,所述的数据可视化模块,通过调用查询模块提供的API接口,以返回结果为输入,根据查询项目和结果数据结构来实现图形化。
7.根据权利要求一所述的一种基于Spark与YARN的邮件内容分析方法,其特征在于,
所述的数据处理模块中的原始的mail数据,经过处理后上传到HIVE,置于文件夹存放;原始的mail数据的格式是xml、html、txt、xml或html;内容包含图片、视频多媒体文件。
8.一种基于Spark与YARN的邮件内容分析方法,其特征在于,系统框架主要包括:SPARK实时数据分析框架、MAPREDUCE2应用框架、YARN框架、HBase模块、HDFS文件系统;
所述的HDFS文件系统,主要用于邮件数据、中间处理数据结果、最后处理数据结果存放;
所述的YARN框架主要用于分布式计算资源管理、调度;
所述的MAPREDUCE2应用框架,主要用于执行MAP或REDUCE批量数据记录操作逻辑;
所述的SPARK实时数据分析框架,主要用于邮件分析处理方法的主要承载者;
所述的HBase模块用于存储邮件原文件,以及最后的处理结果以提供查询功能的数据源支持。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610453765.XA CN107528763A (zh) | 2016-06-22 | 2016-06-22 | 一种基于Spark与YARN的邮件内容分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610453765.XA CN107528763A (zh) | 2016-06-22 | 2016-06-22 | 一种基于Spark与YARN的邮件内容分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107528763A true CN107528763A (zh) | 2017-12-29 |
Family
ID=60735295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610453765.XA Withdrawn CN107528763A (zh) | 2016-06-22 | 2016-06-22 | 一种基于Spark与YARN的邮件内容分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107528763A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111010336A (zh) * | 2019-12-18 | 2020-04-14 | 写逸网络科技(上海)有限公司 | 一种海量邮件解析方法及装置 |
CN111104527A (zh) * | 2019-12-18 | 2020-05-05 | 写逸网络科技(上海)有限公司 | 一种富媒体文件解析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173476A1 (en) * | 2011-01-04 | 2012-07-05 | Nasir Rizvi | System and Method for Rule-Based Asymmetric Data Reporting |
CN103473218A (zh) * | 2013-09-04 | 2013-12-25 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN103559175A (zh) * | 2013-10-12 | 2014-02-05 | 华南理工大学 | 一种基于聚类的垃圾邮件过滤系统及方法 |
CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
CN105183792A (zh) * | 2015-08-21 | 2015-12-23 | 东南大学 | 一种基于局部敏感哈希的分布式快速文本分类方法 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
-
2016
- 2016-06-22 CN CN201610453765.XA patent/CN107528763A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120173476A1 (en) * | 2011-01-04 | 2012-07-05 | Nasir Rizvi | System and Method for Rule-Based Asymmetric Data Reporting |
CN103473218A (zh) * | 2013-09-04 | 2013-12-25 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN103559175A (zh) * | 2013-10-12 | 2014-02-05 | 华南理工大学 | 一种基于聚类的垃圾邮件过滤系统及方法 |
CN103984703A (zh) * | 2014-04-22 | 2014-08-13 | 新浪网技术(中国)有限公司 | 邮件分类方法和装置 |
CN105183792A (zh) * | 2015-08-21 | 2015-12-23 | 东南大学 | 一种基于局部敏感哈希的分布式快速文本分类方法 |
CN105447505A (zh) * | 2015-11-09 | 2016-03-30 | 成都数之联科技有限公司 | 一种多层次重要邮件检测方法 |
Non-Patent Citations (3)
Title |
---|
方金云,刘羽,姚晓,陈翠婷,张梦菲,肖茁建,张广发: "基于Spark的空间数据实时访存技术的研究", 《地理信息世界》 * |
贾玉生: "基于Hadoop的分布式文本分类研究", 《中国优秀硕士学位论文全文数据库》 * |
邵叶秦: "基于Hadoop平台的电子邮件分类", 《电脑知识与技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111010336A (zh) * | 2019-12-18 | 2020-04-14 | 写逸网络科技(上海)有限公司 | 一种海量邮件解析方法及装置 |
CN111104527A (zh) * | 2019-12-18 | 2020-05-05 | 写逸网络科技(上海)有限公司 | 一种富媒体文件解析方法 |
CN111104527B (zh) * | 2019-12-18 | 2023-06-23 | 写逸网络科技(上海)有限公司 | 一种富媒体文件解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN109992645A (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN106446148A (zh) | 一种基于聚类的文本查重方法 | |
JP6691280B1 (ja) | 管理システム及び管理方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN110532309B (zh) | 一种高校图书馆用户画像系统的生成方法 | |
JP2010541092A5 (zh) | ||
CN102073729A (zh) | 一种关系化知识共享平台及其实现方法 | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN103123653A (zh) | 基于贝叶斯分类学习的搜索引擎检索排序方法 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
Fu et al. | Automatic record linkage of individuals and households in historical census data | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN103034656B (zh) | 章节内容分层方法和装置、文章内容分层方法和装置 | |
CN103425653A (zh) | 实现dicom影像二次检索的方法及系统 | |
CN102081666B (zh) | 用于分布式图片搜索的索引构建方法和装置 | |
CN110263021A (zh) | 一种基于个性化标签体系的主题库生成方法 | |
Fu et al. | Research trends in sustainable operation: a bibliographic coupling clustering analysis from 1988 to 2016 | |
CN107528763A (zh) | 一种基于Spark与YARN的邮件内容分析方法 | |
CN112286921B (zh) | 一种基于多源异构数据的动态企业画像生成方法 | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN106874260A (zh) | 一种基于用户词典的网络社交文本大数据处理方法及系统 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20171229 |