CN106209507A - 基于网络邮件数据的抓取方法及系统 - Google Patents

基于网络邮件数据的抓取方法及系统 Download PDF

Info

Publication number
CN106209507A
CN106209507A CN201610520902.7A CN201610520902A CN106209507A CN 106209507 A CN106209507 A CN 106209507A CN 201610520902 A CN201610520902 A CN 201610520902A CN 106209507 A CN106209507 A CN 106209507A
Authority
CN
China
Prior art keywords
mail data
keyword
screening
network
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610520902.7A
Other languages
English (en)
Inventor
马岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610520902.7A priority Critical patent/CN106209507A/zh
Publication of CN106209507A publication Critical patent/CN106209507A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网络邮件数据的抓取方法及系统,所述方法包括如下步骤:获取该抓取邮件数据的关键字;依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。本发明提供的技术方案具有邮件数据抓取的优点。

Description

基于网络邮件数据的抓取方法及系统
技术领域
本发明涉及通信领域,尤其涉及一种基于网络邮件数据的抓取方法及系统。
背景技术
互联网(internet),是由一些使用公用语言互相通信的计算机连接而成的全球网络,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是一种公用信息的载体,这种大众传媒比以往的任何一种通讯媒体都要快。互联网中的邮件数据是海量的邮件数据,如何依据该海量的邮件数据进行抓取是一个值得研究的方向,现有的邮件数据抓取方法无法对网络邮件数据进行有效的抓取。
发明内容
本申请提供一种网络邮件数据的抓取方法。其解决现有技术的技术方案无法对网络邮件数据进行有效抓取的缺点。
一方面,提供一种基于网络邮件数据的抓取方法,所述方法包括如下步骤:
获取该抓取邮件数据的关键字;
依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
可选的,所述方法还包括:
统计筛选后的邮件数据的数量。
可选的,所述方法还包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
第二方面,提供一种基于网络邮件数据的抓取系统,所述系统包括:
获取单元,用于获取该抓取邮件数据的关键字;
类别单元,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
可选的,所述系统还包括:
统计单元,用于统计筛选后的邮件数据的数量。
可选的,所述系统还包括:
次数单元,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的一种基于网络邮件数据的抓取方法的流程图;
图2为本发明第二较佳实施方式提供的一种基于网络邮件数据的抓取系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明第一较佳实施方式提出的一种基于网络邮件数据的抓取方法,该方法如图1所示,包括如下步骤:
步骤S101、获取该抓取邮件数据的关键字;
步骤S102、依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
步骤S103、在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
可选的,上述方法在步骤S103之后还可以包括:
统计筛选后的邮件数据的数量。
可选的,上述方法在步骤S103之后还可以包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
请参考图2,图2是本发明第二较佳实施方式提出的一种基于网络邮件数据的抓取系统,该系统包括:
获取单元201,用于获取该抓取邮件数据的关键字;
类别单元202,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元203,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
本发明提供的技术方案获取该抓取邮件数据的关键字,依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据,在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据,所以其具有对网络邮件数据有效抓取的优点。
可选的,上述系统还可以包括:
统计单元204,用于统计筛选后的邮件数据的数量。
可选的,上述系统还可以包括:
次数单元205,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于网络邮件数据的抓取方法,其特征在于,所述方法包括如下步骤:
获取该抓取邮件数据的关键字;
依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计筛选后的邮件数据的数量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取筛选后的邮件数据的关键字或同义字的出现次数。
4.一种基于网络邮件数据的抓取系统,其特征在于,所述系统包括:
获取单元,用于获取该抓取邮件数据的关键字;
类别单元,用于依据该关键字获取该关键字的类别,在网络邮件数据中抓取该类别对应的邮件数据;
筛选单元,用于在该类别对应的邮件数据中筛选包含该关键字或该关键字的同义字的邮件数据。
5.根据权利要求4所述的系统,其特征在于,所述系统还包括:
统计单元,用于统计筛选后的邮件数据的数量。
6.根据权利要求4所述的系统,其特征在于,所述系统还包括:
次数单元,用于获取筛选后的邮件数据的关键字或同义字的出现次数。
CN201610520902.7A 2016-07-04 2016-07-04 基于网络邮件数据的抓取方法及系统 Pending CN106209507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610520902.7A CN106209507A (zh) 2016-07-04 2016-07-04 基于网络邮件数据的抓取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610520902.7A CN106209507A (zh) 2016-07-04 2016-07-04 基于网络邮件数据的抓取方法及系统

Publications (1)

Publication Number Publication Date
CN106209507A true CN106209507A (zh) 2016-12-07

Family

ID=57466019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610520902.7A Pending CN106209507A (zh) 2016-07-04 2016-07-04 基于网络邮件数据的抓取方法及系统

Country Status (1)

Country Link
CN (1) CN106209507A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018006217A1 (zh) * 2016-07-04 2018-01-11 马岩 基于网络邮件数据的抓取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246482A (zh) * 2007-02-16 2008-08-20 中国电信股份有限公司 基于结构化小文本的号码百事通搜索系统和方法
CN101751459A (zh) * 2009-12-31 2010-06-23 深圳市蓝凌软件股份有限公司 一种电子设备中数据处理的方法和装置
CN101075929B (zh) * 2007-03-02 2010-11-24 腾讯科技(深圳)有限公司 信息查询系统、信息查询服务器及信息查询方法
CN101145153B (zh) * 2006-09-13 2011-03-30 阿里巴巴集团控股有限公司 一种搜索信息的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153B (zh) * 2006-09-13 2011-03-30 阿里巴巴集团控股有限公司 一种搜索信息的方法及系统
CN101246482A (zh) * 2007-02-16 2008-08-20 中国电信股份有限公司 基于结构化小文本的号码百事通搜索系统和方法
CN101075929B (zh) * 2007-03-02 2010-11-24 腾讯科技(深圳)有限公司 信息查询系统、信息查询服务器及信息查询方法
CN101751459A (zh) * 2009-12-31 2010-06-23 深圳市蓝凌软件股份有限公司 一种电子设备中数据处理的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018006217A1 (zh) * 2016-07-04 2018-01-11 马岩 基于网络邮件数据的抓取方法及系统

Similar Documents

Publication Publication Date Title
Rodriguez et al. Are poor countries losing the information revolution
CN106708841B (zh) 网站访问路径的聚合方法和装置
CN108390856B (zh) 一种DDoS攻击检测方法、装置及电子设备
CN110413859A (zh) 网页信息搜索方法、装置、计算机设备及存储介质
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN110222795A (zh) 基于卷积神经网络的p2p流量的识别方法及相关装置
CN106130880A (zh) 网络邮件数据的搜集方法及系统
CN106169974A (zh) 本地邮件数据的搜集方法及系统
CN109710667A (zh) 一种基于大数据平台的多源数据融合共享实现方法及系统
CN104484619B (zh) 一种解决客户端多逻辑通道访问pkcs#15文件冲突的方法
US20170064023A1 (en) Page Push Method, Device, Server and System
CN110995652A (zh) 一种基于深度迁移学习的大数据平台未知威胁检测方法
CN106209507A (zh) 基于网络邮件数据的抓取方法及系统
CN106230880B (zh) 一种数据的存储方法以及应用服务器
CN106202342A (zh) 基于本地邮件数据的抓取方法及系统
CN106209598A (zh) 局域网邮件数据的搜集方法及系统
CN106209508A (zh) 基于局域网邮件数据的抓取方法及系统
CN103530297A (zh) 一种自动进行网站分析的方法及装置
CN105897566A (zh) 网络课程的用户获取方法及系统
CN105611519A (zh) 分组网关企业级计费方法及装置
CN106658153B (zh) 一种数据处理方法及设备
CN106254209A (zh) 网络邮件数据的分类存储方法及系统
CN107659463A (zh) 流量回放方法、装置及存储介质
CN106170791A (zh) 一种基于app的信息分类方法及系统
CN112685619A (zh) 一种网页表格数据通用抓取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207