CN101783817A - 一种网页文本还原系统及方法 - Google Patents
一种网页文本还原系统及方法 Download PDFInfo
- Publication number
- CN101783817A CN101783817A CN 201010132456 CN201010132456A CN101783817A CN 101783817 A CN101783817 A CN 101783817A CN 201010132456 CN201010132456 CN 201010132456 CN 201010132456 A CN201010132456 A CN 201010132456A CN 101783817 A CN101783817 A CN 101783817A
- Authority
- CN
- China
- Prior art keywords
- web
- web page
- text
- packet
- page text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网页文本还原系统及方法,本系统工作于网络节点,其系统包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。其方法包括IP数据包的捕获,网页文本数据流的识别以及网页文本的重组及存储。本发明的系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。
Description
技术领域
本发明涉及一种网页信息还原技术,尤其是一种网页文本的还原系统及还原方法。
背景技术
随着互联网技术的发展,网页所承载的信息量和信息种类越来越丰富,从客户所浏览的网页内容可以挖掘相当丰富的信息资源,而网页信息是由网络数据流承载的。网络数据流是指从一个源进程发送到一个目的进程的IP数据报序列,是具有某些相同属性(源IP、源端口、目的IP、目的端口、协议)的IP数据报集合,并且这些数据报的超时时间会在一个较小且固定的间隔内(比如60秒)。通过分析发现,网页的数据流有多个,而文本内容只是多个数据流中的其中一个。
网页的文本信息有多种应用研究,例如可以进行网络舆情分析、内容监管、文本挖掘等应用研究,因此就需要将网页浏览产生的大量实时数据流处理成网页文本形式。
目前获取网页内容的技术一般可以分为主动方式和被动方式。被动方式如各种网络嗅探器,将通过嗅探节点的数据进行解码还原。网络嗅探器一般仅能进行单个的数据包的解码,不具备数据流处理能力,更没有专门的网页文本还原装置。主动方式广泛用于搜索引擎,需要利用爬虫抓取网页,不能用于网络节点网页获取。
发明内容
本发明的目的是提供一网页文本还原系统及方法,这种系统是一种专门的网页文本还原装置,而且还能将网页文本文件进行储存;本发明还具有数据流的实时处理能力。
本发明的技术方案如下:
一种网页文本还原系统,本系统工作于网络节点,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据报备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。更具体的,所述网页文本存储装置包括硬盘或/和数据库。
一种网页文本还原方法,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明网页文本还原系统在网络中应用原理图;
图2是本发明网页文本还原系统原理框图;
图3是本发明网页文本还原方法流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本发明的一种网页文本还原系统工作于网络节点上,本系统既可以直接安装在网关设备上,也可以增加新设备串接或旁路到原有的通讯线路,以确保能够捕获所有通过网关设备的数据包。
本发明的一种网页文本还原系统原理框图如图2所示。一种网页文本还原系统,其包括:一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;一网页文本重组装置,通过对TCP序列号排序、过滤http协议头得到净载荷,对网页文本数据流进行解码、重组等操作,将网页文本数据流还原成文本文件;所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
所述IP数据包捕获装置,包括一数据包镜像模块,用于将通过网络节点的IP数据包备份下来;一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。所述IP数据流属性包括源IP、源端口、目的IP、目的端口、传输协议。在本发明中,可以对数据流通过实时流处理进行网页文本的还原,还可以对镜像保存后的数据流进行网页文本的还原。
所述网页文本数据流识别装置,包括一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流识别提供流特征;一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,为进行文本重组删除多余的信息,并将分割出来的网页文本数据传送至网页文本重组装置。所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
本发明还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存,以便进行后续的处理操作。更具体的,所述网页文本存储装置包括硬盘或/和数据库。
本发明的一种网页文本还原方法,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,通过实时捕获或从镜像文件(抓取数据包的保存文件)中取得一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析,所述的流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2继续抓取下一个数据包,若是,则进行:
步骤S8,进行网页文本信息的还原。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (8)
1.一种网页文本还原系统,本系统工作于网络节点,其特征在于,包括
一IP数据包捕获装置,用于对通过网络节点处的IP数据包进行捕获;
一网页文本数据流识别装置,根据定义的数据流特征识别出IP数据包的网页文本数据流;
一网页文本重组装置,对网页文本数据流进行解码、重组操作,将网页文本数据流还原成文本文件;
所述IP数据包捕获装置、网页文本数据流识别装置、网页文本重组装置依次串接。
2.根据权利要求1所述的网页文本还原系统,其特征在于,所述IP数据包捕获装置,包括
一数据包镜像模块,用于将通过网络节点的IP数据包备份下来;
一流抽取模块,接于数据包镜像模块后,用于将各独立的IP数据包按IP数据流属性进行组合,并将组合后的IP数据流传送至网页文本数据流识别装置进行网页文本数据的识别。
3.根据权利要求1所述的网页文本还原系统,其特征在于,所述网页文本数据流识别装置,包括
一网页数据流识别模块,用于将组合后的IP数据流根据流特征进行网页数据流的识别;
一数据流特征库,与网页数据流识别模块连接,为网页数据流识别模块的网页数据流的识别提供流特征;
一网页数据流分割模块,与页数据流识别模块连接,用于将通过识别的网页数据流从IP数据流中分割出来,并将分割出来的网页文本数据传送至网页文本重组装置。
4.根据权利要求3所述的网页文本还原系统,其特征在于,所述流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
5.根据权利要求1所述的网页文本还原系统,其特征在于,还包括一网页文本存储装置,所述网页文本存储装置与网页文本重组装置连接,用于将还原的网页文本文件进行保存。
6.根据权利要求5所述的网页文本还原系统,其特征在于,所述网页文本存储装置包括硬盘或/和数据库。
7.一种网页文本还原方法,其特征在于,包括步骤:
步骤S1,对存储http网页数据流的缓存区进行初始化处理;
步骤S2,获取一个IP数据包,并根据流特征进行http数据过滤,然后根据http协议标准进行数据包的头域分析;
步骤S3,根据分析结果判断是否为网页数据流的IP数据包,若不是,进行步骤S6,若是,则进行:
步骤S4,判断网页数据流的IP数据包是否是按序到达的,若是,进行步骤S7,若不是,进行:
步骤S5,对失序包进行处理,使之按序列号重新排序后进行步骤S7;
步骤S6,创建新的网页数据流;
步骤S7,判断是否为网页数据流的最后一个IP数据包,若不是,返回进行步骤S2,若是,则进行:
步骤S8,进行网页文本信息的还原。
8.根据权利要求6所述的网页文本还原方法,其特征在于,步骤S2所述的IP数据流特征包括网络层协议的IP、传输层协议的TCP、应用层协议的http、数据净载荷部分的HTTP/1.1200、Content-Type的text/html。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010132456 CN101783817B (zh) | 2010-03-26 | 2010-03-26 | 一种网页文本还原系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010132456 CN101783817B (zh) | 2010-03-26 | 2010-03-26 | 一种网页文本还原系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101783817A true CN101783817A (zh) | 2010-07-21 |
CN101783817B CN101783817B (zh) | 2013-01-02 |
Family
ID=42523632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010132456 Expired - Fee Related CN101783817B (zh) | 2010-03-26 | 2010-03-26 | 一种网页文本还原系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101783817B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887463A (zh) * | 2010-07-22 | 2010-11-17 | 北京天融信科技有限公司 | 一种基于虚拟域的http还原展示方法 |
CN106453358A (zh) * | 2016-11-02 | 2017-02-22 | 四川秘无痕信息安全技术有限责任公司 | 一种监控qq发送文件数据的方法 |
CN106534146A (zh) * | 2016-11-28 | 2017-03-22 | 北京天行网安信息技术有限责任公司 | 一种安全监测系统及方法 |
CN106534145A (zh) * | 2016-11-28 | 2017-03-22 | 北京天行网安信息技术有限责任公司 | 一种应用识别方法及设备 |
CN109379236A (zh) * | 2018-12-04 | 2019-02-22 | 广东电网有限责任公司 | 一种网页用户交互操作回放方法 |
CN112039904A (zh) * | 2020-09-03 | 2020-12-04 | 福州林科斯拉信息技术有限公司 | 一种网络流量分析与文件提取系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192213A (zh) * | 2006-11-28 | 2008-06-04 | 郑州威科姆技术开发有限公司 | 网络信息自动下载和处理方法 |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及系统 |
-
2010
- 2010-03-26 CN CN 201010132456 patent/CN101783817B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192213A (zh) * | 2006-11-28 | 2008-06-04 | 郑州威科姆技术开发有限公司 | 网络信息自动下载和处理方法 |
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887463A (zh) * | 2010-07-22 | 2010-11-17 | 北京天融信科技有限公司 | 一种基于虚拟域的http还原展示方法 |
CN106453358A (zh) * | 2016-11-02 | 2017-02-22 | 四川秘无痕信息安全技术有限责任公司 | 一种监控qq发送文件数据的方法 |
CN106534146A (zh) * | 2016-11-28 | 2017-03-22 | 北京天行网安信息技术有限责任公司 | 一种安全监测系统及方法 |
CN106534145A (zh) * | 2016-11-28 | 2017-03-22 | 北京天行网安信息技术有限责任公司 | 一种应用识别方法及设备 |
CN106534146B (zh) * | 2016-11-28 | 2019-11-15 | 拓尔思天行网安信息技术有限责任公司 | 一种安全监测系统及方法 |
CN106534145B (zh) * | 2016-11-28 | 2019-11-15 | 拓尔思天行网安信息技术有限责任公司 | 一种应用识别方法及设备 |
CN109379236A (zh) * | 2018-12-04 | 2019-02-22 | 广东电网有限责任公司 | 一种网页用户交互操作回放方法 |
CN112039904A (zh) * | 2020-09-03 | 2020-12-04 | 福州林科斯拉信息技术有限公司 | 一种网络流量分析与文件提取系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101783817B (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10284440B2 (en) | Real-time adaptive processing of network data packets for analysis | |
CN101783817B (zh) | 一种网页文本还原系统及方法 | |
CN102202064B (zh) | 基于网络数据流分析的木马通信行为特征提取方法 | |
CN106921637B (zh) | 网络流量中的应用信息的识别方法和装置 | |
CN105578488B (zh) | 网络数据采集系统及方法 | |
US20110125748A1 (en) | Method and Apparatus for Real Time Identification and Recording of Artifacts | |
CN108040074A (zh) | 一种基于大数据的实时网络异常行为检测系统及方法 | |
CN105357082A (zh) | 一种网络流量的识别方法及装置 | |
CN105591912B (zh) | 一种转发路径的选择方法和装置 | |
CN103297270A (zh) | 应用类型识别方法及网络设备 | |
CN103780610A (zh) | 基于协议特征的网络数据恢复方法 | |
CN106789242A (zh) | 一种基于手机客户端软件动态特征库的识别应用智能分析引擎 | |
CN101465857A (zh) | 一种对网络多媒体信息进行监控的方法和设备 | |
CN102420837A (zh) | 基于ndis的方法及系统 | |
CN104283916B (zh) | 一种应用于hfc网络的数据报文传输方法及装置 | |
CN101635831B (zh) | 一种p2p直播视频节点数据共享的方法、装置及代理系统 | |
CN103220188B (zh) | 一种http数据采集设备 | |
CN103546305A (zh) | 网络质量信息的统计方法及系统 | |
CN103532779B (zh) | 一种快速定位分流设备丢包的方法及系统 | |
CN106789878B (zh) | 一种面向大流量环境的文件还原系统以及方法 | |
CN105991353A (zh) | 故障定位的方法和装置 | |
CN103491451A (zh) | 一种网页数据获取方法及装置 | |
Becker et al. | Deployment of coap in transport logistics | |
CN103634365A (zh) | 一种无线接入网中的第三方应用平台及其通讯方法 | |
CN103167554B (zh) | 网关流量压缩处理方法与装置、网络服务提供系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130102 Termination date: 20160326 |
|
CF01 | Termination of patent right due to non-payment of annual fee |