CN106209507A - 基于网络邮件数据的抓取方法及系统 - Google Patents
基于网络邮件数据的抓取方法及系统 Download PDFInfo
- Publication number
- CN106209507A CN106209507A CN201610520902.7A CN201610520902A CN106209507A CN 106209507 A CN106209507 A CN 106209507A CN 201610520902 A CN201610520902 A CN 201610520902A CN 106209507 A CN106209507 A CN 106209507A
- Authority
- CN
- China
- Prior art keywords
- mail data
- keyword
- screening
- network
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于网络邮件数据的抓取方法及系统,所述方法包括如下步骤:获取该抓取邮件数据的关键字;依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。本发明提供的技术方案具有邮件数据抓取的优点。
Description
技术领域
本发明涉及通信领域,尤其涉及一种基于网络邮件数据的抓取方法及系统。
背景技术
互联网(internet),是由一些使用公用语言互相通信的计算机连接而成的全球网络,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是一种公用信息的载体,这种大众传媒比以往的任何一种通讯媒体都要快。互联网中的邮件数据是海量的邮件数据,如何依据该海量的邮件数据进行抓取是一个值得研究的方向,现有的邮件数据抓取方法无法对网络邮件数据进行有效的抓取。
发明内容
本申请提供一种网络邮件数据的抓取方法。其解决现有技术的技术方案无法对网络邮件数据进行有效抓取的缺点。
一方面,提供一种基于网络邮件数据的抓取方法,所述方法包括如下步骤:
获取该抓取邮件数据的关键字;
依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
可选的,所述方法还包括:
统计筛选后的邮件数据的数量。
可选的,所述方法还包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
第二方面,提供一种基于网络邮件数据的抓取系统,所述系统包括:
获取单元,用于获取该抓取邮件数据的关键字;
类别单元,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
可选的,所述系统还包括:
统计单元,用于统计筛选后的邮件数据的数量。
可选的,所述系统还包括:
次数单元,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的一种基于网络邮件数据的抓取方法的流程图;
图2为本发明第二较佳实施方式提供的一种基于网络邮件数据的抓取系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明第一较佳实施方式提出的一种基于网络邮件数据的抓取方法,该方法如图1所示,包括如下步骤:
步骤S101、获取该抓取邮件数据的关键字;
步骤S102、依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
步骤S103、在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
可选的,上述方法在步骤S103之后还可以包括:
统计筛选后的邮件数据的数量。
可选的,上述方法在步骤S103之后还可以包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
请参考图2,图2是本发明第二较佳实施方式提出的一种基于网络邮件数据的抓取系统,该系统包括:
获取单元201,用于获取该抓取邮件数据的关键字;
类别单元202,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元203,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
可选的,上述系统还可以包括:
统计单元204,用于统计筛选后的邮件数据的数量。
可选的,上述系统还可以包括:
次数单元205,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于网络邮件数据的抓取方法,其特征在于,所述方法包括如下步骤:
获取该抓取邮件数据的关键字;
依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计筛选后的邮件数据的数量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
4.一种基于网络邮件数据的抓取系统,其特征在于,所述系统包括:
获取单元,用于获取该抓取邮件数据的关键字;
类别单元,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
5.根据权利要求4所述的系统,其特征在于,所述系统还包括:
统计单元,用于统计筛选后的邮件数据的数量。
6.根据权利要求4所述的系统,其特征在于,所述系统还包括:
次数单元,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610520902.7A CN106209507A (zh) | 2016-07-04 | 2016-07-04 | 基于网络邮件数据的抓取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610520902.7A CN106209507A (zh) | 2016-07-04 | 2016-07-04 | 基于网络邮件数据的抓取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106209507A true CN106209507A (zh) | 2016-12-07 |
Family
ID=57466019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610520902.7A Pending CN106209507A (zh) | 2016-07-04 | 2016-07-04 | 基于网络邮件数据的抓取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106209507A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018006217A1 (zh) * | 2016-07-04 | 2018-01-11 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246482A (zh) * | 2007-02-16 | 2008-08-20 | 中国电信股份有限公司 | 基于结构化小文本的号码百事通搜索系统和方法 |
CN101751459A (zh) * | 2009-12-31 | 2010-06-23 | 深圳市蓝凌软件股份有限公司 | 一种电子设备中数据处理的方法和装置 |
CN101075929B (zh) * | 2007-03-02 | 2010-11-24 | 腾讯科技(深圳)有限公司 | 信息查询系统、信息查询服务器及信息查询方法 |
CN101145153B (zh) * | 2006-09-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索信息的方法及系统 |
-
2016
- 2016-07-04 CN CN201610520902.7A patent/CN106209507A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145153B (zh) * | 2006-09-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索信息的方法及系统 |
CN101246482A (zh) * | 2007-02-16 | 2008-08-20 | 中国电信股份有限公司 | 基于结构化小文本的号码百事通搜索系统和方法 |
CN101075929B (zh) * | 2007-03-02 | 2010-11-24 | 腾讯科技(深圳)有限公司 | 信息查询系统、信息查询服务器及信息查询方法 |
CN101751459A (zh) * | 2009-12-31 | 2010-06-23 | 深圳市蓝凌软件股份有限公司 | 一种电子设备中数据处理的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018006217A1 (zh) * | 2016-07-04 | 2018-01-11 | 马岩 | 基于网络邮件数据的抓取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rodriguez et al. | Are poor countries losing the information revolution | |
CN106708841B (zh) | 网站访问路径的聚合方法和装置 | |
CN108390856B (zh) | 一种DDoS攻击检测方法、装置及电子设备 | |
CN110413859A (zh) | 网页信息搜索方法、装置、计算机设备及存储介质 | |
CN107766234A (zh) | 一种基于移动设备的网页健康度的测评方法、装置及系统 | |
CN110222795A (zh) | 基于卷积神经网络的p2p流量的识别方法及相关装置 | |
CN106130880A (zh) | 网络邮件数据的搜集方法及系统 | |
CN106169974A (zh) | 本地邮件数据的搜集方法及系统 | |
CN109710667A (zh) | 一种基于大数据平台的多源数据融合共享实现方法及系统 | |
CN104484619B (zh) | 一种解决客户端多逻辑通道访问pkcs#15文件冲突的方法 | |
US20170064023A1 (en) | Page Push Method, Device, Server and System | |
CN110995652A (zh) | 一种基于深度迁移学习的大数据平台未知威胁检测方法 | |
CN106209507A (zh) | 基于网络邮件数据的抓取方法及系统 | |
CN106230880B (zh) | 一种数据的存储方法以及应用服务器 | |
CN106202342A (zh) | 基于本地邮件数据的抓取方法及系统 | |
CN106209598A (zh) | 局域网邮件数据的搜集方法及系统 | |
CN106209508A (zh) | 基于局域网邮件数据的抓取方法及系统 | |
CN103530297A (zh) | 一种自动进行网站分析的方法及装置 | |
CN105897566A (zh) | 网络课程的用户获取方法及系统 | |
CN105611519A (zh) | 分组网关企业级计费方法及装置 | |
CN106658153B (zh) | 一种数据处理方法及设备 | |
CN106254209A (zh) | 网络邮件数据的分类存储方法及系统 | |
CN107659463A (zh) | 流量回放方法、装置及存储介质 | |
CN106170791A (zh) | 一种基于app的信息分类方法及系统 | |
CN112685619A (zh) | 一种网页表格数据通用抓取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |