CN101783817A

CN101783817A - 一种网页文本还原系统及方法

Info

Publication number: CN101783817A
Application number: CN 201010132456
Authority: CN
Inventors: 张晖; 孙海峰; 马建国
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest Jiaotong University; Southwest University of Science and Technology
Priority date: 2010-03-26
Filing date: 2010-03-26
Publication date: 2010-07-21
Anticipated expiration: 2030-03-26
Also published as: CN101783817B

Abstract

本发明公开了一种网页文本还原系统及方法，本系统工作于网络节点，其系统包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包的捕获，网页文本数据流的识别以及网页文本的重组及存储。本发明的系统是一种专门的网页文本还原装置，而且还能将网页文本文件进行储存；本发明还具有数据流的实时处理能力。

Description

一种网页文本还原系统及方法

技术领域

本发明涉及一种网页信息还原技术，尤其是一种网页文本的还原系统及还原方法。

背景技术

随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源，而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列，是具有某些相同属性（源IP、源端口、目的IP、目的端口、协议）的IP数据报集合，并且这些数据报的超时时间会在一个较小且固定的间隔内（比如60秒）。通过分析发现，网页的数据流有多个，而文本内容只是多个数据流中的其中一个。

网页的文本信息有多种应用研究，例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究，因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。

目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器，将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码，不具备数据流处理能力，更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎，需要利用爬虫抓取网页，不能用于网络节点网页获取。

发明内容

本发明的目的是提供一网页文本还原系统及方法，这种系统是一种专门的网页文本还原装置，而且还能将网页文本文件进行储存；本发明还具有数据流的实时处理能力。

本发明的技术方案如下：

一种网页文本还原系统，本系统工作于网络节点，其包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

所述IP数据包捕获装置，包括一数据包镜像模块，用于将通过网络节点的IP数据报备份下来；一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。

所述网页文本数据流识别装置，包括一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流识别提供流特征；一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，并将分割出来的网页文本数据传送至网页文本重组装置。

本发明还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存。更具体的，所述网页文本存储装置包括硬盘或/和数据库。

一种网页文本还原方法，包括步骤：

步骤S1，对存储http网页数据流的缓存区进行初始化处理；

步骤S2，获取一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析，所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html；

步骤S3，根据分析结果判断是否为网页数据流的IP数据包，若不是，进行步骤S6，若是，则进行：

步骤S4，判断网页数据流的IP数据包是否是按序到达的，若是，进行步骤S7，若不是，进行：

步骤S5，对失序包进行处理，使之按序列号重新排序后进行步骤S7；

步骤S6，创建新的网页数据流；

步骤S7，判断是否为网页数据流的最后一个IP数据包，若不是，返回进行步骤S2，若是，则进行：

步骤S8，进行网页文本信息的还原。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明网页文本还原系统在网络中应用原理图；

图2是本发明网页文本还原系统原理框图；

图3是本发明网页文本还原方法流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1所示，本发明的一种网页文本还原系统工作于网络节点上，本系统既可以直接安装在网关设备上，也可以增加新设备串接或旁路到原有的通讯线路，以确保能够捕获所有通过网关设备的数据包。

本发明的一种网页文本还原系统原理框图如图2所示。一种网页文本还原系统，其包括：一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；一网页文本重组装置，通过对TCP序列号排序、过滤http协议头得到净载荷，对网页文本数据流进行解码、重组等操作，将网页文本数据流还原成文本文件；所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

所述IP数据包捕获装置，包括一数据包镜像模块，用于将通过网络节点的IP数据包备份下来；一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。所述IP数据流属性包括源IP、源端口、目的IP、目的端口、传输协议。在本发明中，可以对数据流通过实时流处理进行网页文本的还原，还可以对镜像保存后的数据流进行网页文本的还原。

所述网页文本数据流识别装置，包括一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流识别提供流特征；一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，为进行文本重组删除多余的信息，并将分割出来的网页文本数据传送至网页文本重组装置。所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

本发明还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存，以便进行后续的处理操作。更具体的，所述网页文本存储装置包括硬盘或/和数据库。

本发明的一种网页文本还原方法，包括步骤：

步骤S1，对存储http网页数据流的缓存区进行初始化处理；

步骤S2，通过实时捕获或从镜像文件（抓取数据包的保存文件）中取得一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析，所述的流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html；

步骤S6，创建新的网页数据流；

步骤S7，判断是否为网页数据流的最后一个IP数据包，若不是，返回进行步骤S2继续抓取下一个数据包，若是，则进行：

步骤S8，进行网页文本信息的还原。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种网页文本还原系统，本系统工作于网络节点，其特征在于，包括

一IP数据包捕获装置，用于对通过网络节点处的IP数据包进行捕获；

一网页文本数据流识别装置，根据定义的数据流特征识别出IP数据包的网页文本数据流；

一网页文本重组装置，对网页文本数据流进行解码、重组操作，将网页文本数据流还原成文本文件；

所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。

2.根据权利要求1所述的网页文本还原系统，其特征在于，所述IP数据包捕获装置，包括

一数据包镜像模块，用于将通过网络节点的IP数据包备份下来；

一流抽取模块，接于数据包镜像模块后，用于将各独立的IP数据包按IP数据流属性进行组合，并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。

3.根据权利要求1所述的网页文本还原系统，其特征在于，所述网页文本数据流识别装置，包括

一网页数据流识别模块，用于将组合后的IP数据流根据流特征进行网页数据流的识别；

一数据流特征库，与网页数据流识别模块连接，为网页数据流识别模块的网页数据流的识别提供流特征；

一网页数据流分割模块，与页数据流识别模块连接，用于将通过识别的网页数据流从IP数据流中分割出来，并将分割出来的网页文本数据传送至网页文本重组装置。

4.根据权利要求3所述的网页文本还原系统，其特征在于，所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。

5.根据权利要求1所述的网页文本还原系统，其特征在于，还包括一网页文本存储装置，所述网页文本存储装置与网页文本重组装置连接，用于将还原的网页文本文件进行保存。

6.根据权利要求5所述的网页文本还原系统，其特征在于，所述网页文本存储装置包括硬盘或/和数据库。

7.一种网页文本还原方法，其特征在于，包括步骤：

步骤S1，对存储http网页数据流的缓存区进行初始化处理；

步骤S2，获取一个IP数据包，并根据流特征进行http数据过滤，然后根据http协议标准进行数据包的头域分析；

步骤S6，创建新的网页数据流；

步骤S8，进行网页文本信息的还原。

8.根据权利要求6所述的网页文本还原方法，其特征在于，步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。