CN106095772A

CN106095772A - 一种http协议信息提取的方法和装置

Info

Publication number: CN106095772A
Application number: CN201610328706.XA
Authority: CN
Inventors: 朱海勇; 鄢小征; 栾江霞; 周成祖
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-11-09

Abstract

本发明公开了一种http协议信息提取的方法和装置，该方法包括载入用于http协议信息提取的提取规则，并存入内存；从待分析数据中获取一条数据中的host和url；判断获取到的host和url是否与提取规则相匹配；以及在获取到的host和url与提取规则相匹配时，根据提取规则进行http协议信息的提取。通过本发明，能够在大数据下对http协议进行快速、高效的分析和信息提取。

Description

一种http协议信息提取的方法和装置

技术领域

本发明涉及数据分析技术领域，具体而言，特别涉及一种http协议信息提取的方法和装置。

背景技术

随着互联网时代的快速发展，大数据时代也将到来。如今社交数据、企业内容、交易与应用数据等新数据源的兴起，传统数据源的局限被打破，企业越发需要有效的信息来确保其真实性及安全性。

在数据量非常宠大的今天，数据协议种类的快速上升以及协议内容的快速更新，协议分析的复杂性也不言而喻，http数据协议信息提取将面临极大的挑战。目前在大数据环境下，http协议种类繁多，关系复杂，目前采用的传统分析方法是针对每个网页链接，一个一个的进行分析，这样的分析方法在获取协议内容的有效信息时，速度慢、效率低。

针对现有技术中存在的上述问题，目前尚未提出有效的解决方法。

发明内容

本发明的主要目的在于提供一种http协议信息提取的方法和装置，以解决现有技术中http协议在获取协议内容的有效信息时，速度慢、效率低的技术的问题。

依据本发明的一个方面，提供了一种http协议信息提取的方法，该方法包括：载入用于http协议信息提取的提取规则，并存入内存；从待分析数据中获取一条数据中的host和url；判断获取到的host和url是否与提取规则相匹配；以及在获取到的host和url与提取规则相匹配时，根据提取规则进行http协议信息的提取。

进一步地，提取规则为xml配置文件，载入提取规则包括：采用SAXReader读入xml配置文件；遍历host标签，构造HostInfo实体对象；遍历host标签下的urlinfo标签，构造UrlInfo实体对象，并对协议小类代码和自定义类进行有效性验证；遍历urlinfo标签下的getinfo标签，构造GetInfo实体对象，对pType、srcData属性和自定义类进行有效性验证；遍历getinfo标签下的todata标签，构造Todata实体对象，对keystring和自定义类进行有效性验证；以及统计各类标签个数。

进一步地，在载入提取规则后，存入内存包括：在内存中以HashMap方式将载入的提取规则保存在内存中，其中，HashMap方式中键为各标签的标签属性。

进一步地，判断获取到的host和url是否与提取规则相匹配包括：对host进行分级，逐级判断host的每一级信息是否存在于HashMap中；以及在host的任一级信息存在于HashMap中时，对url采用遍历及字符串匹配方法进行匹配。

进一步地，HostInfo实体对象的元素包括：host、hostid和desc；UrlInfo实体对象的元素包括：url、urlid、urltype、procode和dec；GetInfo实体对象的元素包括：pType和srcData；Todata实体对象的元素包括：name、keystring、ingdex和code。

进一步地，根据提取规则进行http协议信息的提取包括：提取内容来源；遍历匹配的提取规则中的GetInfo实体对象，根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。

进一步地，从待分析数据中获取一条数据的host和url之前，该方法还包括：对从待分析数据中获取的一条数据进行有效性检查，在该条数据中不含http信息、host或url时，将该条数据忽略，其中，仅当该条数据中含有http信息、host和url时，才执行从该条数据中获取host和url的步骤。

依据本发明的另一个方面，提供了一种http协议信息提取的装置，该装置包括：规则加载器，用于载入用于http协议信息提取的提取规则，并存入内存；规则解析器，用于从待分析数据中获取一条数据中的host和url，判断获取到的host和url是否与提取规则相匹配，并在获取到的host和url与提取规则相匹配时，根据提取规则进行http协议信息的提取。

进一步地，提取规则为xml配置文件，规则加载器在执行载入提取规则的步骤时，具体执行以下步骤：采用SAXReader读入xml配置文件；遍历host 标签，构造HostInfo实体对象；遍历host标签下的urlinfo标签，构造UrlInfo实体对象，并对协议小类代码和自定义类进行有效性验证；遍历urlinfo标签下的getinfo标签，构造GetInfo实体对象，对pType、srcData属性和自定义类进行有效性验证；遍历getinfo标签下的todata标签，构造Todata实体对象，对keystring和自定义类进行有效性验证；以及统计各类标签个数。

进一步地，规则加载器在执行存入内存的步骤时，具体执行以下步骤：在内存中以HashMap方式将载入的提取规则保存在内存中，其中，HashMap方式中键为各标签的标签属性。

通过本发明，提供了一种http协议信息提取的方法，该方法首先载入用于http协议信息提取的提取规则，并存入内存，在需要从大数据中提取http协议信息时，从待分析数据中获取一条数据中的host和url，判断获取到的host和url是否与提取规则相匹配，如果获取到的host和url与提取规则相匹配，则根据匹配到的提取规则进行http协议信息的提取，提取后获取下一条数据继续进行信息的提取；如果获取到的host和url与提取规则不匹配，则直接获取下一条数据，解决了现有技术中http协议在获取协议内容的有效信息时，速度慢、效率低的技术的问题，达到了高效、简单地进行http协议信息提取的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明第一实施例的http协议信息提取的方法的流程图；

图2是根据本发明第二实施例的http协议信息提取的方法的流程图；

图3是根据本发明第三实施例的http协议信息提取的装置的框图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

首先，本发明实施例一提供了一种http协议信息提取的方法，该方法主要描述提取http协议信息的过程，参见图1，该方法可以包括以下步骤：

步骤S102：载入用于http协议信息提取的提取规则，并存入内存。

在进行http协议信息提取时，先将提取规则载入并存储于内存中。该提取规则按照http协议的特点，包括多条规则，分别与不同情况的host和url相匹配。

步骤S104：从待分析数据中获取一条数据中的host和url。

待分析数据可以为大数据，在处理时，对待分析数据逐条进行http协议信息的提取。在该步骤中，针对每一条数据，获取数据中的host和url。

步骤S106：判断获取到的host和url是否与提取规则相匹配。

在获取到host和url之后，将其余内存中的提取规则逐条进行匹配。

步骤S108：在获取到的host和url与提取规则相匹配时，根据提取规则进行http协议信息的提取。

当匹配到一条提取规则时，根据匹配到的提取规则进行http协议信息的提取，提取后获取下一条数据继续进行信息的提取；如果获取到的host和url与内存中的提取规则均不匹配，则返回步骤S104，直接获取下一条数据进行处理。

采用该实施例，预置http协议信息的提取规则，在进行http协议信息的提取时，利用相匹配的提取规则进行提取。通过自动识别方法，在http协议快速更新变化的情况下，可以高效、简单的对http协议内容的有效信息进行快速配置提取。而且在当今大数据时代，更能发挥其处理水平。本申请实施例适用于在数据体量巨大、数据类型繁多、价值密度低、处理速度要求快的场景下。

实施例二

该实施例为在实施例一的基础上进一步优选的http协议信息提取的方法，参见图2，该方法可以包括以下步骤：

步骤S202：载入用于http协议信息提取的提取规则。

优选地，提取规则写为xml配置文件的形式，在载入提取规则时，采用以下步骤：

采用SAXReader读入xml配置文件；遍历host标签，构造HostInfo实体对象；遍历host标签下的urlinfo标签，构造UrlInfo实体对象，并对协议小类代码和自定义类进行有效性验证；遍历urlinfo标签下的getinfo标签，构造GetInfo实体对象，对pType、srcData属性和自定义类进行有效性验证；遍历getinfo标签下的todata标签，构造Todata实体对象，对keystring和自定义类进行有效性验证；以及统计各类标签个数。

其中，HostInfo实体对象的元素包括：host、hostid和desc；UrlInfo实体对象的元素包括：url、urlid、urltype、procode和dec；GetInfo实体对象的元素包括：pType和srcData；Todata实体对象的元素包括：name、keystring、ingdex和code。

例如，一个xml配置文件为：

Xml配置文件样例如下：

</getinfo>

</urlinfo>

</hostinfo>

具体地，提取规则配置的元素说明如下表一至表六。

表一HostInfo实体对象的元素

备注：子元素为Urlinfo实体对象(允许多个)，其中“必填”一栏中内容为“是”时，表示为对象必须包括的元素，为“否”时，可包括也可不包括，下列各表类似。

表二Urlinfo实体对象的元素

备注：子元素为GetInfo实体对象(允许多个)。

表三GetInfo实体对象的元素

备注：当pType为PTCFG_CLASS时,class为GetInfo实体对象的元素，子元素为Todata实体对象。

表四pType取值说明表

表五srcData取值说明表

表六Todata实体对象的元素

步骤S204：在内存中以HashMap方式将载入的提取规则保存在内存中。

其中，HashMap方式中键为各标签的标签属性。例如，在内存中的数据组织方式为：Map<String,HostInfo>，该map的key为：每条规则对应的主机名，即：hostinfo标签的host属性。

步骤S206：从待分析数据中获取一条数据。

步骤S208：对该条数据进行有效性检查。

在该条数据中不含http信息、host或url时，也即无效时，将该条数据忽略，返回步骤S206，重新获取一条数据；在该条数据中还有http信息、host和url时，也即有效时，执行下述步骤S210。

步骤S210：获取该条数据中的host和url。

步骤S212：对host进行分级，逐级判断host的每一级信息是否存在于HashMap中。

例如，host＝”mp3.baidu.com”，先判断第一级信息mp3.baidu.com是否存在于HashMap中，如果没有，再判断第二级信息baidu.com是否存在于 HashMap中，如果没有，再判断第三级信息com是否在HashMap中。只要有一级信息存在于HashMap中，则进入步骤S214进行url匹配。

步骤S214：在host的任一级信息存在于HashMap中时，对url采用遍历及字符串匹配方法进行匹配。

具体匹配时，可采用精确匹配方法和子串匹配方法。

其中，精确匹配方法是指：当数据中的host值与规则中缓存的host值精确对应时，则采用精确匹配的方式进行匹配。

子串匹配方法是指：如果数据中的host值与规则中缓存的host无法精确匹配时，则将数据中的host逐级分离，将分离出的子串在与规则中缓存的host进行匹配，以此类推，直至全部子串匹配完为止。

步骤S216：在内存中匹配到提取规则时，根据提取规则进行http协议信息的提取。

在匹配不到提取规则时，返回步骤S206，重新获取一条数据。

具体地，在进行信息提取时，提取内容来源，然后遍历匹配的提取规则中的GetInfo实体对象，根据提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据，具体说明如下表七和表八。

表七

表八

其中，Url方法是指：对返回的数据按照URL编码规则进行分解和解析，常用于POST数据或URL，源数据形如:username＝123&password＝666666&ef＝js,则只需将username和password配置到tdata标签中的keystring健值中即可提取相应内容。todata形如:

中间字符串方法是指:对数据取中间字符串。源数据形如：username＝01；tracknick＝123456；password＝666666

todata必须包含|#|字样，todata形如：

类方法是指:对返回的数据，指定Java类进行处理，class属性配置类名。

Cookie方法是指:对返回的数据从cookie中获取内容进行处理。检索”Cookie:”找到行尾，截取子串加快处理速度。

表单方法是指:对返回的数据按照表单的形式进行处理，源数据形如：

------WebKitFormBoundaryVzclpgopw

Content-Disposition:form-data；name＝”Txt_petname”

Admin

------WebKitFormBoundaryVzclpgopw

Content-Disposition:form-data；name＝”Txt_password”

666666

todata形如：

Json方法是指:对返回的数据进行json处理，源数据形如:

{“username”:”1111111”,password:”666666”}

todata形如:

Xml方法是指:对返回的数据进行XML处理，todata形如：

http头部方法是指：对返回的数据按照http头的方式进行处理，todata形如：

以上是对本发明所提供的http协议信息提取的方法进行的描述。下面将对本发明提供的http协议信息提取的装置进行描述，需要说明的是，该装置可用于执行上述任意一种http协议信息提取的方法。

实施例三

与本发明实施例一提供的http协议信息提取的方法相对应，本发明实施例还提供了一种http协议信息提取的装置，参见图3，该装置可以包括规则加载器和规则解析器。

其中，规则加载器用于载入用于http协议信息提取的提取规则，并存入内存，具体过程如上文实施例二所述，此处不再赘述，为满足http协议内容的多样性及复杂性，还可以根据具体要求实现个性化提取接口，进而达到自定义个性化提取；规则解析器用于从待分析数据中获取一条数据中的host和 url，判断获取到的host和url是否与所述提取规则相匹配，并在所述获取到的host和url与所述提取规则相匹配时，根据所述提取规则进行http协议信息的提取。

具体地，该装置处理来自网页访问的数据，根据提取规则提取信息。如图3所示，海量数据进来后调用http信息提取的主入口。先进行数据有效性检查：若数据中不含http协议信息、不含host或不含url，则该条数据直接忽略。否则，采用如下的流程进行处理：

a)从海量数据中获取host和url

b)调用规则解析器的规则验证方法判断是否符合提取规则，若不符合则直接返回，继续下一条数据；若符合则调用规则解析器的规则解析方法进行信息提取。

c)若HTTP类型为get，则删除get的内容。

d)判断是否提取到数据，若未提取到数据则直接返回；若提取到有效数据将数据存入上下文。

其中，规则解析器的主要实现两个核心方法为规则验证、规则解析，用到的外部数据(缓存)：规则缓存、字段代码和键名对应缓存。

关于规则验证，主要是判断传入的host和srcUrl是否与提取规则匹配。如果没有找到匹配的规则，则返回空；如果匹配，则返回对应规则的UrlInfo实体对象。

关于规则匹配方式，采用先匹配host，再匹配url的方式。host采用逐级剥离匹配的方式。只要有一级信息匹配，则进入url匹配。url采用遍历及字符串匹配方法，匹配支持精确匹配和子串匹配两种。

优选地，当host和url都不符合规则时，进入特殊根规则匹配。根规则，一般写在配置xml文件的第一条，约定其host为：host＝"ROOT_RULE_NO_HOST"。可以用于忽略主机名的，url模板匹配，主要用于网站模板，例如：所有url中包含app/member的链接。

关于规则解析，主要是根据规则提取信息，并将提取的信息回填到上下文中。具体提取规则见上文实施例二所述，此处不再赘述。

从以上各实施例的描述中，可以看出，本发明实施例实现了如下技术效果：通过自动识别方法，在http协议快速更新变化的情况下，可以高效、简单的对http协议内容的有效信息进行快速提取。而且在当今大数据时代，更能发挥其处理水平。

需要说明的是，上述装置或系统实施例属于优选实施例，所涉及的单元和模块并不一定是本申请所必须的。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于本申请的装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种http协议信息提取的方法，其特征在于，包括：

载入用于http协议信息提取的提取规则，并存入内存；

从待分析数据中获取一条数据中的host和url；

判断获取到的host和url是否与所述提取规则相匹配；以及

在所述获取到的host和url与所述提取规则相匹配时，根据所述提取规则进行http协议信息的提取。

2.根据权利要求1所述的方法，其特征在于，所述提取规则为xml配置文件，载入所述提取规则包括：

采用SAXReader读入所述xml配置文件；

遍历host标签，构造HostInfo实体对象；

遍历host标签下的urlinfo标签，构造UrlInfo实体对象，并对协议小类代码和自定义类进行有效性验证；

遍历urlinfo标签下的getinfo标签，构造GetInfo实体对象，对pType、srcData属性和自定义类进行有效性验证；

遍历getinfo标签下的todata标签，构造Todata实体对象，对keystring和自定义类进行有效性验证；以及

统计各类标签个数。

3.根据权利要求2所述的方法，其特征在于，在载入所述提取规则后，存入内存包括：

在内存中以HashMap方式将载入的所述提取规则保存在内存中，其中，所述HashMap方式中键为各标签的标签属性。

4.根据权利要求3所述的方法，其特征在于，判断获取到的host和url是否与所述提取规则相匹配包括：

对host进行分级，逐级判断host的每一级信息是否存在于HashMap中；以及

在host的任一级信息存在于HashMap中时，对url采用遍历及字符串匹配方法进行匹配。

5.根据权利要求4所述的方法，其特征在于，

所述HostInfo实体对象的元素包括：host、hostid和desc；

所述UrlInfo实体对象的元素包括：url、urlid、urltype、procode和dec；

所述GetInfo实体对象的元素包括：pType和srcData；

所述Todata实体对象的元素包括：name、keystring、ingdex和code。

6.根据权利要求5所述的方法，其特征在于，根据所述提取规则进行http协议信息的提取包括：

提取内容来源；

遍历匹配的所述提取规则中的GetInfo实体对象，根据所述提取规则中的GetInfo实体对象中的pType和srcData判断数据来源和处理方式来提取数据。

7.根据权利要求1所述的方法，其特征在于，从待分析数据中获取一条数据的host和url之前，所述方法还包括：

对从待分析数据中获取的一条数据进行有效性检查，在该条数据中不含http信息、host或url时，将该条数据忽略，

其中，仅当该条数据中含有http信息、host和 url时，才执行从该条数据中获取host和url的步骤。

8.一种http协议信息提取的装置，其特征在于，包括：

规则加载器，用于载入用于http协议信息提取的提取规则，并存入内存；

规则解析器，用于从待分析数据中获取一条数据中的host和url，判断获取到的host和url是否与所述提取规则相匹配，并在所述获取到的host和url与所述提取规则相匹配时，根据所述提取规则进行http协议信息的提取。

9.根据权利要求8所述的装置，其特征在于，所述提取规则为xml配置文件，所述规则加载器在执行载入提取规则的步骤时，具体执行以下步骤：

采用SAXReader读入所述xml配置文件；

遍历host标签，构造HostInfo实体对象；

统计各类标签个数。

10.根据权利要求9所述的装置，其特征在于，所述规则加载器在执行存入内存的步骤时，具体执行以下步骤：