CN103491089B - 一种基于http的数据还原中的转码方法及系统 - Google Patents
一种基于http的数据还原中的转码方法及系统 Download PDFInfo
- Publication number
- CN103491089B CN103491089B CN201310432210.3A CN201310432210A CN103491089B CN 103491089 B CN103491089 B CN 103491089B CN 201310432210 A CN201310432210 A CN 201310432210A CN 103491089 B CN103491089 B CN 103491089B
- Authority
- CN
- China
- Prior art keywords
- content
- code
- dictionary
- dictionary table
- packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于HTTP的数据还原中的转码方法及系统,所述方法包括:获取待还原的数据包;解析所述待还原数据包的头部,得到头部内容;将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容;输出还原后的数据内容。本发明在HTTP协议数据还原中增加字典库,实现了网站输出的代码与真实数据之间的转换,使得协议还原内容更准确、更有价值。
Description
技术领域
本发明涉及数据通信领域,尤其涉及一种基于HTTP的数据还原中的转码方法及系统。
背景技术
HTTP(Hypertext Transfer Protocol,超文本传输协议)是一种详细规定了浏览器和Web(万维网)服务器之间互相通信的规则,通过因特网传送万维网文档的数据传输协议,同时也是万维网交换信息的基础。随着网络的普及与发展,基于HTTP的Web类应用种类也越来越多,如邮箱类网站、游戏类网站、聊天类网站、社交类网站、博客类网站、搜索类网站等,Web类应用种类的增多导致了网络出现了越来越多的安全隐患,因此准确还原Web类数据对网络的安全起着重要的作用。
传统的基于HTTP的数据还原是从每个数据包中提取如登陆信息、发帖信息、用户相关信息等对安全监控有辅助作用的信息。传统的Web数据还原方法是将网络中传输的数据按原样提取出来,对于经过编码处理的数据,如国家、省份、城市、性别、身份等字段只会得到相应的代码,并不能得到准确的数据内容,这在一定程度上失去了数据还原的价值。
发明内容
有鉴于此,本发明实施例提供了一种基于HTTP的数据还原中的转码方法及系统,来解决以上背景技术部分提到的技术问题。
一方面,本发明实施例提供了一种基于HTTP的数据还原中的转码方法,所述方法包括:
获取待还原的数据包;
解析所述待还原数据包的头部,得到头部内容;
将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;
根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;
判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容,所述字典库包括字典表名称和字典表;
输出还原后的数据内容。
进一步的,所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
进一步的,所述字典表名称是字典表在字典库中的唯一标识。
进一步的,所述字典表中包含至少一个键值对。
进一步的,所述根据所述字典表路径中的字典表名称和相关代码查找对应的字典库,获取与所述代码对应的内容包括:
以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表;
以所述待还原数据包提取内容中的代码为索引,查找所述字典表;
判断所述字典表中是否含有所述代码对应的键值对,如果是,则用所述键值对中的内容替换所述代码;如果否,则将所述代码项置空。
相应的,本发明还公开了一种基于HTTP的数据还原中的转码系统,所述系统包括:
获取模块,用于获取待还原的数据包;
解析模块,用于解析所述待还原数据包的头部,得到头部内容;
匹配模块,用于将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;
提取模块,用于根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;
判断模块,用于判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容,所述字典库包括字典表名称和字典表;
输出模块,用于输出还原后的数据内容。
进一步的,所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
进一步的,所述字典表名称是字典表在字典库中的唯一标识。
进一步的,所述字典表中包含至少一个键值对。
进一步的,所述判断模块包括:
定位子模块,用于以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表;
查找子模块,用于以所述待还原数据包提取内容中的代码为索引,查找所述字典表;
判断子模块,用于判断所述字典表中是否含有所述代码对应的键值对,如果是,则用所述键值对中的内容替换所述代码;如果否,则保留所述代码。
本发明通过在HTTP协议数据还原中结合字典表转码功能,实现了网站输出的代码与真实数据之间的转换,使得协议还原内容更准确、更有价值。
附图说明
图1是本发明第一实施例的基于HTTP的数据还原中的转码方法的流程图。
图2是本发明中字典库的示意图。
图3是本发明字典库中键值对的示意图。
图4是本发明查找字典库的流程图。
图5是本发明第二实施例的基于HTTP的数据还原中的转码系统的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
在图1中示出了本发明的第一实施例。
图1是本发明第一实施例的基于HTTP的数据还原中的转码方法的流程图,所述流程详述如下:
在步骤101中,获取待还原的数据包。
本实施例中,可以从网卡中获取待还原的数据包,所述数据包为基于HTTP的协议数据包,包括数据包头部、数据包内容、数据包类型等信息。
在步骤102中,解析所述待还原数据包的头部,得到头部内容。
系统解析所述待还原数据包的头部,获得头部内容,所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
在步骤103中,将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体。
所述模板链表是由模板结构体形成的链表,所述模板结构体是按照特定的格式编写成的文件,所述模板结构体包含三元组信息,即POST/GET、URL及HOST内容,关键内容描述部分和数据包类型。在系统中可以根据需求编写不同的模板文件,并将所述模板结构体存放于模板链表中。
待还原的数据包的头部解析后,得到相应的头部内容,用所述头部内容与模板链表中每个模板结构体的三元组信息进行匹配,匹配时,可以先用HOST字段进行比对,然后用URL字段进行精确比对,也可以是其它比对方法。如果所述头部内容与所述模板链表的某个模板结构体的三元组信息匹配成功,说明所述待还原数据包提取内容中包含有我们所关心的信息,需要进行内容还原;如果匹配失败,说明所述待还原数据包提取内容中没有我们所关心的内容,则直接忽略所述头部内容对应的数据包。
在步骤104中,根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容。
如果待还原数据包的头部内容与模板链表中的模板结构体匹配成功,则根据所述模板结构体中的字段定义规则,提取待还原数据包中的内容。
在步骤105中,判断所述模板结构体中的字段是否设置字典表路径,如果是,执行步骤106;如果否,执行步骤107。
模板结构体中包括三元组信息、关键字信息和数据包类型信息,所述关键字信息包含关键字段在HTTP协议数据包中的具体位置、开始位置以及结束位置等信息。如果某个关键字信息中设置有字典表路径,说明该字段需要转码。所述字典码路径中包含了字典表名称。所述字典表名称是字典表在字典库中的唯一标识。所述字典库包括字典表标识和字典表,如图2所示,每一个字典表标识对应一个字典表,所述字典表包括至少一个键值对,所述键值对为代码以及代码对应的内容,代码与代码对应的内容为一一映射的关系,如图3所示。
根据模板结构体的字段定义规则提取出待还原数据包中的内容后,判断所述模板结构体的关键字信息中是否含有字典表路径,如果否,说明待还原数据包提取内容中的字段无需进行转码,直接转入步骤107,如果是,则转入步骤106。
在步骤106中,根据所述字典表路径中的字典表名称和待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容。
步骤106中查找字典库的流程如图4所示,该流程详述如下:
在步骤401中,以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表。
在步骤402中,以所述待还原数据包提取内容中的代码为索引,查找所述字典表。
在步骤403中,判断所述字典表中是否含有所述代码对应的键值对,如果是,则执行步骤404,用所述键值对中的内容替换所述代码;如果否,则执行步骤405,将所述代码项置空。
如果模板结构体的关键信息中含有字典表路径,则根据字典表路径中的字典表名称查询字典库,获取字典表名称对应的字典表,找到字典库中字典表名称对应的字典表后,以待还原数据包中的代码为索引,查找字典表,获取所述代码对应的内容,如果在字典表中未找到所述代码,则直接将所述代码项置空,如果在字典表中找到所述代码,则用字典表中该代码对应的内容替换改代码,然后输出还原后的数据内容。
在步骤107中,输出还原后的数据内容。
待还原的协议数据包还原后,以特定的格式输出还原后的数据内容,例如输出的数据存储在特定的数据库中,则还原后的数据应以数据库的格式输出。
另外,本发明可以增加或修改字典库中的字典表,从而满足了不同网站协议内容的转码功能。
本发明通过在模板技术实现HTTP协议数据包还原的基础上,结合字典表转码的功能,使得还原的内容更准确、更有价值。
图5中示出了本发明的第二实施例。
图5是本发明第二实施例的基于HTTP的数据还原中的转码系统的示意图,所述系统包括:获取模块501、解析模块502、匹配模块503、提取模块504、判断模块505和输出模块506。所述获取模块501,用于获取待还原的数据包;所述解析模块502,用于解析所述待还原数据包的头部,得到头部内容;所述匹配模块503,用于将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;所述提取模块504,用于根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;所述判断模块505,用于判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容,所述字典库包括字典表名称和字典表;所述输出模块506,用于输出还原后的数据内容。
所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
所述字典表名称是字典表在字典库中的唯一标识。
所述字典表中包含至少一个键值对。
所述判断模块505包括:定位子模块5051、查找子模块5052和判断子模块5053。所述定位子模块5051,用于以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表;所述查找子模块5052,用于以所述待还原数据包提取内容中的代码为索引,查找所述字典表;所述判断子模块5053,用于判断所述字典表中是否含有所述代码对应的键值对,如果是,则用所述键值对中的内容替换所述代码;如果否,则将所述代码项置空。
本发明还可以通过增加或修改字典库中的内容来满足不同网站协议内容的转码需求。
本发明通过在协议数据包还原基础上结合字典表,并对字典表进行设置或修等操作,快速高效地支持不同网站站点字典表转码功能,使得协议还原内容更准确、更有价值。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于超文本传输协议HTTP的数据还原中的转码方法,其特征在于,所述方法包括:
获取待还原的数据包;
解析所述待还原数据包的头部,得到头部内容;
将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;
根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;
判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容,所述字典库包括字典表名称和字典表;
输出还原后的数据内容。
2.根据权利要求1所述的一种基于HTTP的数据还原中的转码方法,其特征在于,所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
3.根据权利要求1所述的一种基于HTTP的数据还原中的转码方法,其特征在于,所述字典表名称是字典表在字典库中的唯一标识。
4.根据权利要求3所述的一种基于HTTP的数据还原中的转码方法,其特征在于,所述字典表中包含至少一个键值对。
5.根据权利要求4所述的一种基于HTTP的数据还原中的转码方法,其特征在于,所述根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容包括:
以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表;
以所述待还原数据包提取内容中的的代码为索引,查找所述字典表;
判断所述字典表中是否含有所述代码对应的键值对,如果是,则用所述键值对中的内容替换所述代码;如果否,则将所述代码项置空。
6.一种基于HTTP的数据还原中的转码系统,其特征在于,所述系统包括:
获取模块,用于获取待还原的数据包;
解析模块,用于解析所述待还原数据包的头部,得到头部内容;
匹配模块,用于将所述头部内容与系统中所有模板链表中内容进行匹配,得到与所述头部内容相对应的模板结构体;
提取模块,用于根据模板结构体中的字段定义规则,提取所述待还原数据包中对应的内容;
判断模块,用于判断所述模板结构体中的字段是否设置字典表路径,如果是,根据所述字典表路径中的字典表名称和所述待还原数据包提取内容中的相关代码查找对应的字典库,获取与所述代码对应的内容,所述字典库包括字典表名称和字典表;
输出模块,用于输出还原后的数据内容。
7.根据权利要求6所述的一种基于HTTP的数据还原中的转码系统,其特征在于,所述头部内容包括由POST/GET、URL和HOST内容组成的三元组信息。
8.根据权利要求6所述的一种基于HTTP的数据还原中的转码系统,其特征在于,所述字典表名称是字典表在字典库中的唯一标识。
9.根据权利要求8所述的一种基于HTTP的数据还原中的转码系统,其特征在于,所述字典表中包含至少一个键值对。
10.根据权利要求9所述的一种基于HTTP的数据还原中的转码系统,其特征在于,所述判断模块包括:
定位子模块,用于以字典表路径中的字典表名称为索引,寻找字典库中对应的字典表;
查找子模块,用于以所述待还原数据包提取内容中的代码为索引,查找所述字典表;
判断子模块,用于判断所述字典表中是否含有所述代码对应的键值对,如果是,则用所述键值对中的内容替换所述代码;如果否,则将所述代码项置空。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432210.3A CN103491089B (zh) | 2013-09-22 | 2013-09-22 | 一种基于http的数据还原中的转码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432210.3A CN103491089B (zh) | 2013-09-22 | 2013-09-22 | 一种基于http的数据还原中的转码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103491089A CN103491089A (zh) | 2014-01-01 |
CN103491089B true CN103491089B (zh) | 2017-06-20 |
Family
ID=49831048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310432210.3A Active CN103491089B (zh) | 2013-09-22 | 2013-09-22 | 一种基于http的数据还原中的转码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103491089B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577620B (zh) * | 2014-10-16 | 2019-12-03 | 中兴通讯股份有限公司 | 一种超文本传输协议数据还原方法及装置 |
CN104320454B (zh) * | 2014-10-23 | 2018-01-09 | 北京锐安科技有限公司 | 一种在http协议还原中实现自定义输出的方法及系统 |
CN106850547A (zh) * | 2016-12-15 | 2017-06-13 | 华北计算技术研究所(中国电子科技集团公司第十五研究所) | 一种基于http协议的数据还原方法及系统 |
CN107094178B (zh) * | 2017-05-11 | 2019-06-18 | 广东网金控股股份有限公司 | 一种互联网数据传输方法、装置以及服务器终端 |
CN107370753A (zh) * | 2017-08-23 | 2017-11-21 | 上海斐讯数据通信技术有限公司 | 一种数据包协议解析字段处理方法和系统 |
CN108711443B (zh) * | 2018-05-07 | 2021-11-30 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN109086064B (zh) * | 2018-08-01 | 2022-01-14 | 南京茂毓通软件科技有限公司 | 基于自定义标签语言的http协议要素通用抽取方法 |
CN110737436B (zh) * | 2019-09-05 | 2024-07-02 | 深圳平安通信科技有限公司 | 转码方法、装置及计算机可读存储介质 |
CN110908840B (zh) * | 2019-12-02 | 2022-12-09 | 杭州安恒信息技术股份有限公司 | 一种还原bak备份文件的方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664935A (zh) * | 2012-04-06 | 2012-09-12 | 北京锐安科技有限公司 | 一种web类用户行为和用户信息的关联输出方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102098331B (zh) * | 2010-12-29 | 2013-06-19 | 北京锐安科技有限公司 | 一种还原web类应用内容的方法及其系统 |
-
2013
- 2013-09-22 CN CN201310432210.3A patent/CN103491089B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664935A (zh) * | 2012-04-06 | 2012-09-12 | 北京锐安科技有限公司 | 一种web类用户行为和用户信息的关联输出方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103491089A (zh) | 2014-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103491089B (zh) | 一种基于http的数据还原中的转码方法及系统 | |
US20170242934A1 (en) | Methods for integrating semantic search, query, and analysis and devices thereof | |
CN102098331B (zh) | 一种还原web类应用内容的方法及其系统 | |
US8972375B2 (en) | Adapting content repositories for crawling and serving | |
CN102164186B (zh) | 一种实现云搜索服务的方法及系统 | |
US20120284270A1 (en) | Method and device to detect similar documents | |
CN101950312B (zh) | 一种互联网网页内容解析方法 | |
US10430490B1 (en) | Methods and systems for providing custom crawl-time metadata | |
CN102436513A (zh) | 分布式检索方法和系统 | |
CN107092639A (zh) | 一种搜索引擎系统 | |
CN106982150A (zh) | 一种基于Hadoop的移动互联网用户行为分析方法 | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
US10095789B2 (en) | Method and system of searching composite web page elements and annotations presented by an annotating proxy server | |
CN105404693B (zh) | 一种基于需求语义的服务聚类方法 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
WO2015096609A1 (zh) | 视频资源的倒排索引文件建立方法及其系统 | |
US11880401B2 (en) | Template generation using directed acyclic word graphs | |
US20140280358A1 (en) | Machine for recognizing or generating jabba-type sequences | |
JP6453464B2 (ja) | 検索エンジンにウェブサイト認証データを提供するための方法及び装置 | |
US8954438B1 (en) | Structured metadata extraction | |
CN1889079A (zh) | 用户协作搜索引擎 | |
CN103593360A (zh) | 基于页面分析的互联网信息发表时间提取方法 | |
US20090182759A1 (en) | Extracting entities from a web page | |
CN103646034A (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 | |
CN103841121A (zh) | 一种基于本地文件的评论和互动系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |