CN101783817A - 一种网页文本还原系统及方法 - Google Patents

一种网页文本还原系统及方法 Download PDF

Info

Publication number
CN101783817A
CN101783817A CN 201010132456 CN201010132456A CN101783817A CN 101783817 A CN101783817 A CN 101783817A CN 201010132456 CN201010132456 CN 201010132456 CN 201010132456 A CN201010132456 A CN 201010132456A CN 101783817 A CN101783817 A CN 101783817A
Authority
CN
China
Prior art keywords
web
web page
text
packet
page text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010132456
Other languages
English (en)
Other versions
CN101783817B (zh
Inventor
张晖
孙海峰
马建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN 201010132456 priority Critical patent/CN101783817B/zh
Publication of CN101783817A publication Critical patent/CN101783817A/zh
Application granted granted Critical
Publication of CN101783817B publication Critical patent/CN101783817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网页文本还原系统及方法,本系统工作于网络节点,其系统包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包的捕获,网页文本数据流的识别以及网页文本的重组及存储。本发明的系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。

Description

一种网页文本还原系统及方法
技术领域
本发明涉及一种网页信息还原技术,尤其是一种网页文本的还原系统及还原方法。
背景技术
随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源,而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列,是具有某些相同属性(源IP、源端口、目的IP、目的端口、协议)的IP数据报集合,并且这些数据报的超时时间会在一个较小且固定的间隔内(比如60秒)。通过分析发现,网页的数据流有多个,而文本内容只是多个数据流中的其中一个。
网页的文本信息有多种应用研究,例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究,因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。
目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器,将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码,不具备数据流处理能力,更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎,需要利用爬虫抓取网页,不能用于网络节点网页获取。
发明内容
本发明的目的是提供一网页文本还原系统及方法,这种系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。
本发明的技术方案如下:
一种网页文本还原系统,本系统工作于网络节点,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据报备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。更具体的,所述网页文本存储装置包括硬盘或/和数据库。
一种网页文本还原方法,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明网页文本还原系统在网络中应用原理图;
图2是本发明网页文本还原系统原理框图;
图3是本发明网页文本还原方法流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本发明的一种网页文本还原系统工作于网络节点上,本系统既可以直接安装在网关设备上,也可以增加新设备串接或旁路到原有的通讯线路,以确保能够捕获所有通过网关设备的数据包。
本发明的一种网页文本还原系统原理框图如图2所示。一种网页文本还原系统,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,通过对TCP序列号排序、过滤http协议头得到净载荷,对网页文本数据流进行解码、重组等操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据包备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。所述IP数据流属性包括源IP、源端口、目的IP、目的端口、传输协议。在本发明中,可以对数据流通过实时流处理进行网页文本的还原,还可以对镜像保存后的数据流进行网页文本的还原。
所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,为进行文本重组删除多余的信息,并将分割出来的网页文本数据传送至网页文本重组装置。所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存,以便进行后续的处理操作。更具体的,所述网页文本存储装置包括硬盘或/和数据库。
本发明的一种网页文本还原方法,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,通过实时捕获或从镜像文件(抓取数据包的保存文件)中取得一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2继续抓取下一个数据包,若是,则进行:
步骤S8,进行网页文本信息的还原。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (8)

1.一种网页文本还原系统,本系统工作于网络节点,其特征在于,包括
一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;
一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;
一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;
所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
2.根据权利要求1所述的网页文本还原系统,其特征在于,所述IP数据包捕获装置,包括
一数据包镜像模块,用于将通过网络节点的IP数据包备份下来;
一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
3.根据权利要求1所述的网页文本还原系统,其特征在于,所述网页文本数据流识别装置,包括
一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;
一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流的识别提供流特征;
一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
4.根据权利要求3所述的网页文本还原系统,其特征在于,所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
5.根据权利要求1所述的网页文本还原系统,其特征在于,还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。
6.根据权利要求5所述的网页文本还原系统,其特征在于,所述网页文本存储装置包括硬盘或/和数据库。
7.一种网页文本还原方法,其特征在于,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
8.根据权利要求6所述的网页文本还原方法,其特征在于,步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
CN 201010132456 2010-03-26 2010-03-26 一种网页文本还原系统及方法 Expired - Fee Related CN101783817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010132456 CN101783817B (zh) 2010-03-26 2010-03-26 一种网页文本还原系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010132456 CN101783817B (zh) 2010-03-26 2010-03-26 一种网页文本还原系统及方法

Publications (2)

Publication Number Publication Date
CN101783817A true CN101783817A (zh) 2010-07-21
CN101783817B CN101783817B (zh) 2013-01-02

Family

ID=42523632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010132456 Expired - Fee Related CN101783817B (zh) 2010-03-26 2010-03-26 一种网页文本还原系统及方法

Country Status (1)

Country Link
CN (1) CN101783817B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887463A (zh) * 2010-07-22 2010-11-17 北京天融信科技有限公司 一种基于虚拟域的http还原展示方法
CN106453358A (zh) * 2016-11-02 2017-02-22 四川秘无痕信息安全技术有限责任公司 一种监控qq发送文件数据的方法
CN106534146A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种安全监测系统及方法
CN106534145A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种应用识别方法及设备
CN109379236A (zh) * 2018-12-04 2019-02-22 广东电网有限责任公司 一种网页用户交互操作回放方法
CN112039904A (zh) * 2020-09-03 2020-12-04 福州林科斯拉信息技术有限公司 一种网络流量分析与文件提取系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192213A (zh) * 2006-11-28 2008-06-04 郑州威科姆技术开发有限公司 网络信息自动下载和处理方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192213A (zh) * 2006-11-28 2008-06-04 郑州威科姆技术开发有限公司 网络信息自动下载和处理方法
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887463A (zh) * 2010-07-22 2010-11-17 北京天融信科技有限公司 一种基于虚拟域的http还原展示方法
CN106453358A (zh) * 2016-11-02 2017-02-22 四川秘无痕信息安全技术有限责任公司 一种监控qq发送文件数据的方法
CN106534146A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种安全监测系统及方法
CN106534145A (zh) * 2016-11-28 2017-03-22 北京天行网安信息技术有限责任公司 一种应用识别方法及设备
CN106534146B (zh) * 2016-11-28 2019-11-15 拓尔思天行网安信息技术有限责任公司 一种安全监测系统及方法
CN106534145B (zh) * 2016-11-28 2019-11-15 拓尔思天行网安信息技术有限责任公司 一种应用识别方法及设备
CN109379236A (zh) * 2018-12-04 2019-02-22 广东电网有限责任公司 一种网页用户交互操作回放方法
CN112039904A (zh) * 2020-09-03 2020-12-04 福州林科斯拉信息技术有限公司 一种网络流量分析与文件提取系统及方法

Also Published As

Publication number Publication date
CN101783817B (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
US10284440B2 (en) Real-time adaptive processing of network data packets for analysis
CN101783817B (zh) 一种网页文本还原系统及方法
CN102202064B (zh) 基于网络数据流分析的木马通信行为特征提取方法
CN106921637B (zh) 网络流量中的应用信息的识别方法和装置
CN105578488B (zh) 网络数据采集系统及方法
US20110125748A1 (en) Method and Apparatus for Real Time Identification and Recording of Artifacts
CN108040074A (zh) 一种基于大数据的实时网络异常行为检测系统及方法
CN105357082A (zh) 一种网络流量的识别方法及装置
CN105591912B (zh) 一种转发路径的选择方法和装置
CN103297270A (zh) 应用类型识别方法及网络设备
CN103780610A (zh) 基于协议特征的网络数据恢复方法
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN101465857A (zh) 一种对网络多媒体信息进行监控的方法和设备
CN102420837A (zh) 基于ndis的方法及系统
CN104283916B (zh) 一种应用于hfc网络的数据报文传输方法及装置
CN101635831B (zh) 一种p2p直播视频节点数据共享的方法、装置及代理系统
CN103220188B (zh) 一种http数据采集设备
CN103546305A (zh) 网络质量信息的统计方法及系统
CN103532779B (zh) 一种快速定位分流设备丢包的方法及系统
CN106789878B (zh) 一种面向大流量环境的文件还原系统以及方法
CN105991353A (zh) 故障定位的方法和装置
CN103491451A (zh) 一种网页数据获取方法及装置
Becker et al. Deployment of coap in transport logistics
CN103634365A (zh) 一种无线接入网中的第三方应用平台及其通讯方法
CN103167554B (zh) 网关流量压缩处理方法与装置、网络服务提供系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20160326

CF01 Termination of patent right due to non-payment of annual fee