CN103631975A - 一种数据提取方法及装置 - Google Patents

一种数据提取方法及装置 Download PDF

Info

Publication number
CN103631975A
CN103631975A CN201310728545.XA CN201310728545A CN103631975A CN 103631975 A CN103631975 A CN 103631975A CN 201310728545 A CN201310728545 A CN 201310728545A CN 103631975 A CN103631975 A CN 103631975A
Authority
CN
China
Prior art keywords
data
mailbox
target
type
target mailbox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310728545.XA
Other languages
English (en)
Inventor
罗鹰
李汪洋
林康
侯勇军
伍宏宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU COLASOFT Co Ltd
Original Assignee
CHENGDU COLASOFT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU COLASOFT Co Ltd filed Critical CHENGDU COLASOFT Co Ltd
Priority to CN201310728545.XA priority Critical patent/CN103631975A/zh
Publication of CN103631975A publication Critical patent/CN103631975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种数据提取方法及装置,所述方法包括:获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,目标邮箱数据的业务数据类型与配置文件中的目标数据类型相对应;依据配置文件中与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据。本申请实施例能够通过修改配置文件中目标邮箱类型和目标数据类型即可实现对多种不同类型网页邮箱的特征数据提取,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。

Description

一种数据提取方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据提取方法及装置。
背景技术
随着电子网络的发展,webmail(基于万维网的电子邮箱,网页邮箱)应用越来越广泛。各种网页邮箱由于其各自的运营商的不同而具有不同的类型特征,如网页邮箱数据的传输数据包格式、界面展示形式等。
现有技术中,为了能够对网络数据流(客户端与服务器端进行网络数据传输的数据流)中网页邮箱的业务数据如读取邮件业务数据、下载附件业务数据、发送邮件业务数据等进行分析,例如,提取网页邮箱的读取邮件业务数据中的发件人、收件人、抄送人、密送人、主题、邮件正文及附件等数据,需要对待分析的webmail编写一套对应的分析代码,通过在分析代码中固定写入该类型的网页邮箱的特征,由此实现对该类型的网页邮箱数据的分析。
上述方案中,在对多种类型网页邮箱的邮箱数据进行特征数据如发件人、收件人等提取时,不仅需要对每种类型的网页邮箱都需要编写一套分析代码,在网页邮箱的任意特征发生变化时,都需要重新编写其分析代码,重新发布代码版本,严重影响网页邮箱数据提取的效率。
发明内容
本申请所要解决的技术问题是提供一种数据提取方法及装置,用以解决现有技术中针对不同类型网页邮箱的邮箱数据进行特征提取时,不仅需要对每种类型的网页邮箱都需要编写一套分析代码,在网页邮箱的任意特征发生变化时,都需要重新编写其分析代码,重新发布代码版本,严重影响网页邮箱数据提取的效率的技术问题。
本申请提供了一种数据提取方法,包括:
获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
上述方法,优选的,所述获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,包括:
获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
将所述邮箱业务数据进行组合,得到目标邮箱数据。
上述方法,优选的,所述获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,包括:
获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
上述方法,优选的,所述获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流,包括:
确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
对确定的数据流作为目标邮箱数据流进行获取。
上述方法,优选的,所述获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包,包括:
确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
上述方法,优选的,在所述目标邮箱数据包中分别提取邮箱业务数据,包括:
在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
上述方法,优选的,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
其中,依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据,包括:
在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
上述方法,优选的,在所述目标邮箱数据中提取特征数据之后,所述方法还包括:
依据所述特征数据,生成邮件文件数据。
本申请还提供了一种数据提取装置,包括:
邮箱数据获取单元,用于获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
特征数据提取单元,用于依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
上述装置,优选的,所述邮箱数据获取单元包括:
目标数据包获取子单元,用于依次获取网络数据流中所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
业务数据提取子单元,用于分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
业务数据组合子单元,用于将所述邮箱业务数据进行组合,得到目标邮箱数据。
上述装置,优选的,所述目标数据包获取子单元包括:
目标流获取模块,用于获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
目标包获取模块,用于获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
上述装置,优选的,所述目标流获取模块包括:
流确定子模块,用于确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
流获取子模块,用于对确定的数据流作为目标邮箱数据流进行获取。
上述装置,优选的,所述目标包获取模块包括:
起始包确定子模块,用于确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
目标包获取子模块,用于以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
上述装置,优选的,所述业务数据提取子单元包括:
数据分别提取模块,用于在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
数据组合模块,用于将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
上述装置,优选的,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
其中,所述特征数据提取单元包括:
特征数据提取子单元,用于在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
上述装置,优选的,还包括:
邮件生成单元,用于在所述特征数据提取单元在所述目标邮箱数据中提取特征数据之后,依据所述特征数据,生成邮件文件数据。
由上述方案中可知,本申请提供的一种数据提取方法及装置,通过在预设的配置文件中设置目标邮箱类型、目标数据类型及与目标邮箱类型相对应的目标数据提取规则,利用配置文件,在网络数据流中获取与目标邮箱类型相对应的目标邮箱数据,且目标邮箱数据的业务数据类型与目标数据类型相对应,之后依据与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据,实现对配置文件中设置的目标邮箱类型相对应的邮箱数据进行分析。本申请在对各自不同类型的网页邮箱数据进行特征数据提取时,只需要修改配置文件中目标邮箱类型和目标数据类型即可实现,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种数据提取方法实施例一的流程图;
图2为本申请提供的一种数据提取方法实施例二的部分流程图;
图3为本申请提供的一种数据提取方法实施例三的部分流程图;
图4为本申请实施例三的另一部分流程图;
图5为本申请实施例三的又一部分流程图;
图6为本申请实施例三的流程图;
图7为本申请实施例三的应用示例图;
图8为本申请提供的一种数据提取方法实施例四的流程图;
图9为本申请实施例的另一应用示例图;
图10为本申请提供的一种数据提取装置实施例五的结构示意图;
图11为本申请提供的一种数据提取装置实施例六的部分结构示意图;
图12为本申请实施例六的另一部分结构示意图;
图13为本申请提供的一种数据提取装置实施例七的部分结构示意图;
图14为本申请实施例七的另一部分结构示意图;
图15为本申请实施例七的又一部分结构示意图;
图16为本申请提供的一种数据提取装置实施例八的部分结构示意图;
图17为本申请提供的一种数据提取装置实施例九的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请提供的一种数据提取方法实施例一的流程图,其中,所述方法可以适用于对网页邮箱的邮箱数据进行特征数据提取的应用中,所述网页邮箱即为webmail邮箱,其中,所述方法可以包括以下步骤:
步骤101:获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据。
其中,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应。
需要说明的是,所述配置文件为预先由用户设置,即用户依据其当前需求进行设置该配置文件,即用户当前需要对哪种邮箱类型的webmail进行特征数据提取,以及用户当前需要对该类型的webmail进行哪种类型的业务数据进行特征数据提取,以及对该类型的webmail在进行特征数据提取方式等需求,由此,所述配置文件中可以包括由目标邮箱类型、目标数据类型以及与所述目标邮箱类型相对应的目标数据提取规则。
其中,所述网络数据流可以为客户端与服务器端之间的网络数据包流,例如,用户在客户端的某个端口发起请求并发送邮件,服务器端给予响应并返回数据,等等,所有进行邮箱数据操作如邮箱登陆、发送邮件、读取邮件等过程中的所有数据包组成网络数据流。本申请实施例即为在该网络数据流中与配置文件中目标邮箱类型及目标数据类型相对应的邮箱数据进行特征数据提取。
需要说明的是,所述步骤101中获取到的目标邮箱数据,不仅其邮箱类型与用户所需要的邮箱类型一致,且其业务数据类型与用户所需要的业务数据类型一致,例如,在所述网络数据流中,获取163邮箱的发送邮件的目标邮箱数据。
步骤102:依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
其中,所述特征数据可以包括有收件人、发件人、抄送人、密送人、主题、邮件正文、附件名称、邮件ID标识等多项特征数据,单项特征数据中可以为空。
需要说明的是,数据提取规则是指所述在所述目标邮箱数据中提取特征数据所依据的方式或方法,该数据提取规则与其特定的邮箱类型相对应,也就是说,一种类型的邮箱具有其特定的特征数据提取规则,由此,在所述配置文件中预先设置有与所述目标邮箱类型相对应的目标数据提取规则,在所述步骤102中,在所述目标邮箱数据中依据该目标数据提取规则进行特征数据的提取,实现本申请实施例目的。
由上述方案中可知,本申请提供的一种数据提取方法实施例一,通过在预设的配置文件中设置目标邮箱类型、目标数据类型及与目标邮箱类型相对应的目标数据提取规则,利用配置文件,在网络数据流中获取与目标邮箱类型相对应的目标邮箱数据,且目标邮箱数据的业务数据类型与目标数据类型相对应,之后依据与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据,实现对配置文件中设置的目标邮箱类型相对应的邮箱数据进行分析。本申请实施例一在对各自不同类型的网页邮箱数据进行特征数据提取时,只需要修改配置文件中目标邮箱类型和目标数据类型即可实现,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
具体实现中,可以参考图2,为本申请提供的一种数据提取方法实施例二中所述步骤101的流程图,其中,所述步骤101中,在获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据时,可以通过以下步骤实现:
步骤111:获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,其中,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应。
其中,在所述网络数据流中包含有各种邮箱类型的数据流,每种类型邮箱类型的数据流中包含有各种业务数据类型的数据包,这些数据包中具有其各自的业务数据类型。在所述步骤111中是指,在所述网络数据流的所有数据流的所有数据包中,获取到不仅其邮箱类型与所述目标邮箱类型相一致,且其业务数据类型与所述目标数据类型相一致的数据包,将这些数据包作为目标邮箱数据包,实现对目标邮箱数据包的获取。也可以理解为:所述步骤111是将所述网络数据流中,用户通过客户端中某一类型邮箱向服务器端进行某一业务数据请求且服务器端返回响应数据的过程中的数据包进行获取。
步骤112:分别在所述目标邮箱数据包中提取各自的邮箱业务数据。
其中,所述邮箱业务数据可以理解为:用户通过客户端发起的邮箱请求数据以及服务器端对该请求数据进行响应并返回的邮箱响应数据,这些数据中能够表明用户通过客户端的某一类型邮箱进行发起的业务请求数据的类型以及各种内容,如发件人信息、收件人信息、主题信息等,这些数据以数据包中所规定的格式进行存放。
即为,所述步骤112可以通过首先在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据,然后再将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据的方式具体实现。
步骤113:将所述邮箱业务数据进行组合,得到目标邮箱数据。
需要说明的是,在所述步骤111至所述步骤113中所述的方案中,是指,通过分析网络数据流中的数据包,进而获取到网络数据流中的多个目标邮箱数据包,之后才能在各个目标邮箱数据包中提取到邮箱业务数据组合成目标邮箱数据。
参考图3,为本申请提供的一种数据提取方法实施例三中所述步骤111的流程图,其中,所述步骤111可以通过以下步骤实现:
步骤301:获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流。
具体的,所述步骤301可以通过如图4中所示的流程图实现,所述步骤301可以包括:
步骤311:确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流。
其中,所述步骤311是指,依次对网络数据流中的数据流进行第一个数据包分析,其分析内容为:对该数据流的第一数据包的主字段信息是否与所述目标邮箱类型相对应的分析判断。
步骤312:对确定的数据流作为目标邮箱数据流进行获取。
其中,所述步骤312是指,在所述步骤311中判断出所述网络数据流中一数据流的第一个数据包的主字段信息与所述目标邮箱类型相对应,此时,将该数据流作为目标邮箱数据流进行获取。
需要说明的是,所述主字段信息可以为数据包中的host字段信息。
步骤302:获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
具体的,所述步骤302可以通过如图5中所示的流程图实现,所述步骤302可以包括:
步骤321:确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包。
其中,所述步骤321是指,由所述目标邮箱数据流中的第一数据包开始,对数据包中的地址关键字进行分析,其分析内容为:对该数据包的地址关键字是否与所述目标数据类型相对应的分析判断。在所述步骤321中判断出一数据包的地址关键字与所述目标数据类型相对应时,将该数据包确定为所述目标邮箱数据流中的起始数据包,执行步骤322,不再对该起始数据包在其所在目标邮箱数据流中的后续数据包进行地址关键字的分析判断。
步骤322:以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
需要说明的是,在所述目标邮箱数据流中,在判断出起始数据包之后,其后续的数据包均为与该起始数据包同一业务数据类型的数据包,由此,所述步骤322中对该起始数据包及其后续数据包进行获取,此时,获取到的起始数据包及其后续数据包即为所述目标邮箱数据包,也就是满足用户需求的数据包。
其中,所述地址关键字可以为所述数据包中的URL关键字。
参考图6,为本申请实施例三在实现对webmail邮箱数据进行特征数据提取时的一流程图,其中,所述方法可以包括以下步骤:
步骤601:确定网络数据流中的一数据流中一数据包包作为当前数据包。
步骤602:判断该当前数据包的邮箱类型是否已知且与预设配置文件中的目标邮箱类型相一致,如果是,执行步骤603,否则执行步骤604。
步骤603:判断该当前数据包的业务数据类型是否已知且与所述配置文件中目标数据类型相一致,如果是,执行步骤608,否则,执行步骤606。
步骤604:在该当前数据包的邮箱类型未知时,提取该数据包中的host字段,执行步骤605。
步骤605:依据该当前数据包的host字段,确定该当前数据包的邮箱类型,在该当前数据包的邮箱类型与所述目标邮箱类型相一致时,执行步骤606,否则,结束对当前数据包所在数据流的处理。
其中,本申请实施例中在所述步骤605中判断出该当前数据包的邮箱类型与所述目标邮箱类型不一致时,也可以返回执行所述步骤601中重新确定网络数据流中当前的数据流的下一数据流的一数据包为当前数据包。
步骤606:依据该当前数据包中的URL关键字及配置文件中预先设置的URL与业务数据类型的对应关系,确定该当前数据包的业务数据类型,如发送邮件或读取邮件等类型,执行步骤607。
步骤607:判断上述步骤606中确定业务数据类型是否成功,如果成功,执行步骤608,否则,返回执行所述步骤601中确定网络数据流中该当前数据包所在数据流的下一个数据包为当前数据包,继续执行对所述当前数据包的分析判断,直到所述当前数据包的业务数据类型与所述目标数据类型相一致,执行步骤608。
步骤608:在所述当前数据包所在的数据流中,获取所述当前数据包及其后续数据包,获取这些数据包中客户端发送的邮箱请求数据和服务器端返回的响应数据作为目标邮箱数据,执行步骤609。
步骤609:在所述网络数据流中目标邮箱数据获取获取完毕,如果是,执行步骤610,否则,返回执行所述步骤601中继续获取当前数据流中的下一个数据包,直到数据获取完成,执行步骤610。
需要说明的是,在所述步骤609中判断出目标邮箱数据获取完成时,返回执行所述步骤601获取下一个数据包,此时,获取到的当前数据包无需进行邮箱类型及业务数据类型的判断,直到所述目标邮箱数据获取完成。
步骤610:依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据,实现本申请实施例目的。
例如,在本申请实施例的实现中,每种类型的Webmail都有“点击收件箱”、“读取邮件”、“发送邮件”、“下载附件”、“上传附件”等步骤业务数据类型。在这些业务数据中提取出这些共性业务,抽象出各个业务在客户端与服务端之间进行数据交互时的产生的状态节点以及相邻状态节点之间的跳转路径以及跳转条件,状态节点是指,对每个业务,都有“确定邮箱类型”“确定数据类型”“接收并保存数据”“提取数据”等等这些状态;然后提取各个状态节点的关键字,以及各个步骤对应的业务数据的特征格式;
之后,将每种类型的webmail的状态节点、跳转路径、跳转条件、关键字、特征格式以配置文件的方式进行保存;本申请实施例按照配置文件中的配置信息对这些具备共性特征的Webmail进行统一处理。即,对网络数据流中属于同一类型的webmail邮箱数据进行对应特征数据的提取。
如图7中所示,为各种类型的webmail的各个状态节点之间的变迁图,结合如表1中状态变迁说明,对本申请实施例的具体实现进行说明。
表1状态变迁说明
Figure BDA0000446892440000121
Figure BDA0000446892440000131
在具体实现中,所述步骤102中的目标提取规则可以包括待提取的特征标识及其特征数据存放规则。所述待提取的特征标识是指,用户所需要提取的特征信息的标识,如发件人标识、收件人标识、主题标识等特征标识,而需要说明的是,在特定邮箱类型的邮箱数据中,各种特征标识对应的特征数据以其特定的存储方式进行存储,该邮箱类型对应的特征数据的存储方式即可以理解为特征数据存放规则。此时,上述步骤102在所述目标邮箱数据中提取特征数据时,可以通过以下方式实现:
在所述目标邮箱数据中,依据所述特征数据存放规则,分别提取与所述待提取的特征标识各自相对应的特征数据。
例如,在所述目标邮箱数据中,依据读取邮件标识、发送邮件标识,发件人标识、收件人标识等特征标识及各个特征标识对应的其特征数据存放规则,分别提取所述读取邮件标识、发送邮件标识,发件人标识、收件人标识等特征标识各自对应的特征数据,这些特征数据即为其特征标识对应的数据内容,如发件人***、收件人***等。
参考图8,为本申请提供的一种数据提取方法实施例四的流程图,其中,在所述步骤102之后,所述方法还可以包括:
步骤103:依据所述特征数据,生成邮件文件数据。
其中,所述步骤103即为依据所述特征数据,对所述目标数据类型的邮箱数据进行还原,得到该目标数据类型对应的邮件,例如,得到“发送邮件”业务类型对应的邮件,该邮件中可以包含有这些特征数据,如发件人、收件人、主题、邮件正文及附件名称或内容等信息,如图9中所示。
参考图10,为本申请提供的一种数据提取装置实施例五的结构示意图,所述装置可以适用于对网页邮箱的邮箱数据进行特征数据提取的应用中,所述网页邮箱即为webmail邮箱,所述装置可以包括:
邮箱数据获取单元1001,用于获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应。
需要说明的是,所述配置文件为预先由用户设置,即用户依据其当前需求进行设置该配置文件,即用户当前需要对哪种邮箱类型的webmail进行特征数据提取,以及用户当前需要对该类型的webmail进行哪种类型的业务数据进行特征数据提取,以及对该类型的webmail在进行特征数据提取方式等需求,由此,所述配置文件中可以包括由目标邮箱类型、目标数据类型以及与所述目标邮箱类型相对应的目标数据提取规则。
其中,所述网络数据流可以为客户端与服务器端之间的网络数据包流,例如,用户在客户端的某个端口发起请求并发送邮件,服务器端给予响应并返回数据,等等,所有进行邮箱数据操作如邮箱登陆、发送邮件、读取邮件等过程中的所有数据包组成网络数据流。本申请实施例即为在该网络数据流中与配置文件中目标邮箱类型及目标数据类型相对应的邮箱数据进行特征数据提取。
需要说明的是,所述邮箱数据获取单元1001获取到的目标邮箱数据,不仅其邮箱类型与用户所需要的邮箱类型一致,且其业务数据类型与用户所需要的业务数据类型一致,例如,在所述网络数据流中,获取163邮箱的发送邮件的目标邮箱数据。
特征数据提取单元1002,用于依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
其中,所述特征数据可以包括有收件人、发件人、抄送人、密送人、主题、邮件正文、附件名称、邮件ID标识等多项特征数据,单项特征数据中可以为空。
需要说明的是,数据提取规则是指所述在所述目标邮箱数据中提取特征数据所依据的方式或方法,该数据提取规则与其特定的邮箱类型相对应,也就是说,一种类型的邮箱具有其特定的特征数据提取规则,由此,在所述配置文件中预先设置有与所述目标邮箱类型相对应的目标数据提取规则,在所述特征数据提取单元1002中,在所述目标邮箱数据中依据该目标数据提取规则进行特征数据的提取,实现本申请实施例目的。
由上述方案中可知,本申请提供的一种数据提取装置实施例五,通过在预设的配置文件中设置目标邮箱类型、目标数据类型及与目标邮箱类型相对应的目标数据提取规则,利用配置文件,在网络数据流中获取与目标邮箱类型相对应的目标邮箱数据,且目标邮箱数据的业务数据类型与目标数据类型相对应,之后依据与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据,实现对配置文件中设置的目标邮箱类型相对应的邮箱数据进行分析。本申请实施例五在对各自不同类型的网页邮箱数据进行特征数据提取时,只需要修改配置文件中目标邮箱类型和目标数据类型即可实现,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
具体实现中,可以参考图11,为本申请提供的一种数据提取装置实施例六中所述邮箱数据获取单元1001的结构示意图,其中,所述邮箱数据获取单元1001可以包括:
目标数据包获取子单元1011,用于依次获取所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应。
其中,在所述网络数据流中包含有各种邮箱类型的数据流,每种类型邮箱类型的数据流中包含有各种业务数据类型的数据包,这些数据包中具有其各自的业务数据类型。所述目标数据包获取子单元1011中是指,在所述网络数据流的所有数据流的所有数据包中,获取到不仅其邮箱类型与所述目标邮箱类型相一致,且其业务数据类型与所述目标数据类型相一致的数据包,将这些数据包作为目标邮箱数据包,实现对目标邮箱数据包的获取。也可以理解为:所述目标数据包获取子单元1011是将所述网络数据流中,用户通过客户端中某一类型邮箱向服务器端进行某一业务数据请求且服务器端返回响应数据的过程中的数据包进行获取。
业务数据提取子单元1012,用于分别在所述目标邮箱数据包中提取各自的邮箱业务数据。
其中,所述邮箱业务数据可以理解为:用户通过客户端发起的邮箱请求数据以及服务器端对该请求数据进行响应并返回的邮箱响应数据,这些数据中能够表明用户通过客户端的某一类型邮箱进行发起的业务请求数据的类型以及各种内容,如发件人信息、收件人信息、主题信息等,这些数据以数据包中所规定的格式进行存放。
具体实现中,所述业务数据提取子单元1012可以通过如图12中所示的结构实现,其中,所述业务数据提取子单元1012可以包括:
数据分别提取模块1201,用于在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
数据组合模块1202,用于将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
业务数据组合子单元1013,用于将所述邮箱业务数据进行组合,得到目标邮箱数据。
需要说明的是,在上述图11中所示的结构实现方案中,是指,通过分析网络数据流中的数据包,进而获取到网络数据流中的多个目标邮箱数据包,之后才能在各个目标邮箱数据包中提取到邮箱业务数据组合成目标邮箱数据。
参考图13,为本申请提供的一种数据提取装置实施例七中所述目标数据包获取子单元1011的结构示意图,其中,所述目标数据包获取子单元1011可以包括:
目标流获取模块1301,用于获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流。
具体的,所述目标流获取模块1301可以通过如图14中所示的结构实现,其中,所述目标流获取模块1301可以包括:
流确定子模块1311,用于确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流。
其中,所述流确定子模块1311是指,依次对网络数据流中的数据流进行第一个数据包分析,其分析内容为:对该数据流的第一数据包的主字段信息是否与所述目标邮箱类型相对应的分析判断。
流获取子模块1312,用于对确定的数据流作为目标邮箱数据流进行获取。
其中,所述流获取子模块1312是指,在所述流确定子模块1311判断出所述网络数据流中一数据流的第一个数据包的主字段信息与所述目标邮箱类型相对应,此时,将该数据流作为目标邮箱数据流进行获取。
需要说明的是,所述主字段信息可以为数据包中的host字段信息。
目标包获取模块1302,用于获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
具体的,所述目标包获取模块1302可以通过如图15中所示的结构实现,其中,所述目标包获取模块1302可以包括:
起始包确定子模块1321,用于确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包。
其中,所述起始包确定子模块1321是指,由所述目标邮箱数据流中的第一数据包开始,对数据包中的地址关键字进行分析,其分析内容为:对该数据包的地址关键字是否与所述目标数据类型相对应的分析判断。在所述起始包确定子模块1321中判断出一数据包的地址关键字与所述目标数据类型相对应时,将该数据包确定为所述目标邮箱数据流中的起始数据包,触发所述目标包获取子模块1322,所述起始包确定子模块1321不再对该起始数据包在其所在目标邮箱数据流中的后续数据包进行地址关键字的分析判断。
目标包获取子模块1322,用于以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
需要说明的是,在所述目标邮箱数据流中,在判断出起始数据包之后,其后续的数据包均为与该起始数据包同一业务数据类型的数据包,由此,所述目标包获取子模块1322对该起始数据包及其后续数据包进行获取,此时,获取到的起始数据包及其后续数据包即为所述目标邮箱数据包,也就是满足用户需求的数据包。
其中,所述地址关键字可以为所述数据包中的URL关键字。
具体实现中,所述目标数据提取规则包括待提取的特征标识及其各自数据存放规则。所述待提取的特征标识是指,用户所需要提取的特征信息的标识,如发件人标识、收件人标识、主题标识等特征标识,而需要说明的是,在特定邮箱类型的邮箱数据中,各种特征标识对应的特征数据以其特定的存储方式进行存储,该邮箱类型对应的特征数据的存储方式即可以理解为特征数据存放规则。此时,参考图16,为本申请提供的一种数据提取装置实施例八中所述特征数据提取单元1002的结构示意图,其中,所述特征数据提取单元1002可以包括:
特征数据提取子单元1021,用于在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
例如,在所述目标邮箱数据中,依据读取邮件标识、发送邮件标识,发件人标识、收件人标识等特征标识及各个特征标识对应的其特征数据存放规则,分别提取所述读取邮件标识、发送邮件标识,发件人标识、收件人标识等特征标识各自对应的特征数据,这些特征数据即为其特征标识对应的数据内容,如发件人***、收件人***等。
参考图17,为本申请提供的一种数据提取装置实施例九的结构示意图,其中,所述装置还可以包括:
邮件生成单元1003,用于在所述特征数据提取单元1002在所述目标邮箱数据中提取特征数据之后,依据所述特征数据,生成邮件文件数据。
其中,所述邮件生成单元1003即为依据所述特征数据,对所述目标数据类型的邮箱数据进行还原,得到该目标数据类型对应的邮件,例如,得到“发送邮件”业务类型对应的邮件,该邮件中可以包含有这些特征数据,如发件人、收件人、主题、邮件正文及附件名称或内容等信息,如图6中所示。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种数据提取方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种数据提取方法,其特征在于,包括:
获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
2.根据权利要求1所述的方法,其特征在于,所述获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,包括:
获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
将所述邮箱业务数据进行组合,得到目标邮箱数据。
3.根据权利要求2所述的方法,其特征在于,所述获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,包括:
获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
4.根据权利要求3所述的方法,其特征在于,所述获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流,包括:
确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
对确定的数据流作为目标邮箱数据流进行获取。
5.根据权利要求3或4所述的方法,其特征在于,所述获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包,包括:
确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
6.根据权利要求2所述的方法,其特征在于,在所述目标邮箱数据包中分别提取邮箱业务数据,包括:
在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
7.根据权利要求1所述的方法,其特征在于,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
其中,依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据,包括:
在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
8.根据权利要求1或7所述的方法,其特征在于,在所述目标邮箱数据中提取特征数据之后,所述方法还包括:
依据所述特征数据,生成邮件文件数据。
9.一种数据提取装置,其特征在于,包括:
邮箱数据获取单元,用于获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
特征数据提取单元,用于依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
10.根据权利要求9所述的装置,其特征在于,所述邮箱数据获取单元包括:
目标数据包获取子单元,用于依次获取网络数据流中所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
业务数据提取子单元,用于分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
业务数据组合子单元,用于将所述邮箱业务数据进行组合,得到目标邮箱数据。
11.根据权利要求10所述的装置,其特征在于,所述目标数据包获取子单元包括:
目标流获取模块,用于获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
目标包获取模块,用于获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
12.根据权利要求11所述的装置,其特征在于,所述目标流获取模块包括:
流确定子模块,用于确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
流获取子模块,用于对确定的数据流作为目标邮箱数据流进行获取。
13.根据权利要求11或12所述的装置,其特征在于,所述目标包获取模块包括:
起始包确定子模块,用于确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
目标包获取子模块,用于以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
14.根据权利要求10所述的装置,其特征在于,所述业务数据提取子单元包括:
数据分别提取模块,用于在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
数据组合模块,用于将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
15.根据权利要求9所述的装置,其特征在于,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
其中,所述特征数据提取单元包括:
特征数据提取子单元,用于在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
16.根据权利要求9或15所述的装置,其特征在于,还包括:
邮件生成单元,用于在所述特征数据提取单元在所述目标邮箱数据中提取特征数据之后,依据所述特征数据,生成邮件文件数据。
CN201310728545.XA 2013-12-26 2013-12-26 一种数据提取方法及装置 Pending CN103631975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310728545.XA CN103631975A (zh) 2013-12-26 2013-12-26 一种数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310728545.XA CN103631975A (zh) 2013-12-26 2013-12-26 一种数据提取方法及装置

Publications (1)

Publication Number Publication Date
CN103631975A true CN103631975A (zh) 2014-03-12

Family

ID=50213016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310728545.XA Pending CN103631975A (zh) 2013-12-26 2013-12-26 一种数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN103631975A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN109617981A (zh) * 2018-12-25 2019-04-12 北京天融信网络安全技术有限公司 一种基于网络的数据处理方法及电子设备
CN109684457A (zh) * 2018-12-27 2019-04-26 清华大学 一种个股公告数据提取的方法及系统
CN111506786A (zh) * 2020-03-06 2020-08-07 百度在线网络技术(北京)有限公司 网页更新的方法、装置、电子设备和计算机可读存储介质
CN112004153A (zh) * 2020-08-20 2020-11-27 深圳创维-Rgb电子有限公司 一种特征数据的读取方法、存储介质及智能电视

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN101729542A (zh) * 2009-11-26 2010-06-09 上海大学 基于网络数据包的多协议信息解析的系统
CN101969411A (zh) * 2010-06-18 2011-02-09 中兴通讯股份有限公司 一种非加密web邮件的分析还原方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267518A (zh) * 2007-02-28 2008-09-17 三星电子株式会社 从内容元数据提取相关信息的方法和装置
CN101729542A (zh) * 2009-11-26 2010-06-09 上海大学 基于网络数据包的多协议信息解析的系统
CN101969411A (zh) * 2010-06-18 2011-02-09 中兴通讯股份有限公司 一种非加密web邮件的分析还原方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张诚,郝东白,龙海,黄皓: "基于正则表达式的WebMail监控与审计", 《计算机工程与设计》 *
朱鸿旭,刘嘉勇: "Linux平台下基于特征库的Webmail监控系统", 《技术研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN109617981A (zh) * 2018-12-25 2019-04-12 北京天融信网络安全技术有限公司 一种基于网络的数据处理方法及电子设备
CN109684457A (zh) * 2018-12-27 2019-04-26 清华大学 一种个股公告数据提取的方法及系统
CN111506786A (zh) * 2020-03-06 2020-08-07 百度在线网络技术(北京)有限公司 网页更新的方法、装置、电子设备和计算机可读存储介质
CN111506786B (zh) * 2020-03-06 2023-10-27 百度在线网络技术(北京)有限公司 网页更新的方法、装置、电子设备和计算机可读存储介质
CN112004153A (zh) * 2020-08-20 2020-11-27 深圳创维-Rgb电子有限公司 一种特征数据的读取方法、存储介质及智能电视

Similar Documents

Publication Publication Date Title
CN103295123B (zh) 电子邮件邮箱管理
US20200296204A1 (en) Method and Apparatus for Processing Contact Information Using a Wireless Terminal
CN104104778B (zh) 一种移动终端的短消息处理方法和装置
CN105847288B (zh) 一种验证码处理方法和装置
CN104270528B (zh) 信息群发系统及方法
CN103631975A (zh) 一种数据提取方法及装置
CN105490915A (zh) 用于填写电子消息的地址字段的方法、设备和软件产品
CN102915306B (zh) 一种搜索方法和系统
CN103117914B (zh) 基于即时通信工具的好友推荐方法及系统
WO2015094705A2 (en) Method, sending terminal, receiving terminal, and system for classifying emails
CN105049336A (zh) 即时通信消息的处理方法、服务器、客户端及系统
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN105516296A (zh) 群组标识图像的配置方法及装置
CN107077507A (zh) 一种信息推送方法、装置和系统
CN104301207A (zh) 网络信息处理方法及装置
CN104219639A (zh) 一种显示短信记录的方法和装置
CN105516504A (zh) 一种对会话消息进行处理的方法及终端
CN108347367B (zh) 一种电子邮件处理方法、装置、服务器及客户端
CN103327050B (zh) 应用内容分享方法、系统和装置
CN101014021B (zh) 一种在即时通信客户端中查找用户的方法、系统及客户端
CN102437973B (zh) 即时通信中用户信息输出的方法及系统
CN101674327A (zh) 异构系统消息集成方法、架构及系统
EP2342874A1 (en) A message system for social networks
CN107729457B (zh) 一种信息智能检索的方法、装置及存储介质
CN108062295B (zh) 内容处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140312