CN102932400A

CN102932400A - 一种识别统一资源定位符主链接的方法及装置

Info

Publication number: CN102932400A
Application number: CN2012102539578A
Authority: CN
Inventors: 贾晋康; 齐燕博; 张永臣
Original assignee: BEIJING NETENTSEC Inc
Current assignee: BEIJING NETENTSEC Inc
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2013-02-13
Anticipated expiration: 2032-07-20
Also published as: CN102932400B

Abstract

本发明公开了一种识别统一资源定位符(URL)主链接的方法，包括：利用采集到的指定时长内所有客户端发出的全部超文本传送协议(HTTP)请求，根据间隔门限获取各个客户端对应的突发，对突发进行分组获得同主链突发分组；分别对同主链突发组运行关联规则的分析算法得到关联规则，将所有关联规则保存在知识库中；根据合并准则，对从知识库选出指定时间段内所有的关联规则合并，得到新的关联规则；根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。本发明还同时公开了一种识别URL主链接的装置，采用本发明能提高识别URL主链接的准确性。

Description

一种识别统一资源定位符主链接的方法及装置

技术领域

本发明涉及互联网信息管理领域中的信息解析及分析技术，尤其涉及一种识别统一资源定位符(URL，Uniform Resource Locator)主链接的方法及装置。

背景技术

当用户使用客户端访问网址时，客户端通过对该网址进行解析得到多个URL链接，再向服务器发出多条获取URL链接的超文本传送协议(HTTP，Hypertext Transport Protocol)请求即URL请求；该客户端根据服务器返回的内容进行渲染并显示。上述过程中，用户使用客户端访问每一个网址，会发出很多条获取URL链接的HTTP请求，而对用户的上网行为进行分析时，仅关心URL主链接即用户所要访问的主页对应的URL链接，其余的HTTP请求所请求的URL链接作为附属链接或作为垃圾信息过滤。因此，需要对URL主链接进行识别，才能准确的分析用户的上网行为。

目前，识别URL主链接的方法为：当客户端在线时，对客户端发出的HTTP请求的头信息中的指定域进行过滤，或使用启发式算法对指定域(例如：URL后缀、内容类型、时间序列或内容大小等)进行过滤，得到URL主链接。但是，上述对HTTP请求的头信息中的指定域进行过滤的方法，不是针对页面内容进行的过滤，且HTTP请求的头信息无法提供足够的信息量进行页面分类，所以该方法的准确性较低，比如：使用内容类型为“text/html”作为指定域时，结果可能会是多个URL链接。另外，由于启发式算法为使用最优算法求得最优解，且启发式算法为对单一对象进行计算的方法，所以会出现在特定条件下算法失效的问题，比如，当启发式算法中设定的识别准则是内容类型为“text/html”时，若用户点击图片，则该算法会失效，进而无法保证识别URL主链接的准确性。

可见，现有的识别URL主链接的方法，识别URL主链接的准确性较低。

发明内容

有鉴于此，本发明的目的在于提供一种识别URL主链接的方法及装置，提高识别URL主链接的准确性。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种识别URL主链接的方法，该方法包括：

利用采集到的指定时长内所有客户端发出的全部HTTP请求，根据间隔门限获取各个客户端对应的突发，对突发进行分组获得同主链突发分组；

分别对同主链突发组运行关联规则的分析算法得到关联规则，将所有关联规则保存在知识库中；

根据合并准则，对从知识库选出指定时间段内所有的关联规则进行合并，得到新的关联规则；

根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。

上述方案中，所述根据间隔门限获取各个客户端对应的突发，包括：按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接。

上述方案中，所述根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接，包括：

建立一个突发作为当前突发，以HTTP请求的发出时间为顺序，将第一个HTTP请求中的URL链接作为当前突发的参考主链接，再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限，若没有，则将所述连续两个HTTP请求中的URL链接均加入当前突发；

若有，则将所述连续两个HTTP请求中的前一个加入当前突发后，新建立一个突发作为当前突发，将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发；依次类推，直至本组内所有HTTP请求均完成检测。

上述方案中，所述对突发进行分组获得同主链突发分组，包括：建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。

上述方案中，所述合并准则，包括：从指定时间段内所有的关联规则中，选出具有相同的前项及后项的关联规则，建立一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；

其中，所述前项及后项与选出的关联规则相同；所述支持度为所有选出的关联规则支持度之和；所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和。

上述方案中，所述根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对，包括：选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。

本发明还提供了一种识别URL主链接的装置，该装置包括：链接分组模块和关联规则分析模块；其中，

链接分组模块，用于利用采集到的指定时长内所有客户端发出的全部HTTP请求，根据间隔门限获取各个客户端对应的突发，对突发进行分组获得主链突发分组，将全部所述同主链突发分组发给关联规则分析模块；

关联规则分析模块，用于分别对链接分组模块发来的同主链突发组运行关联规则的分析算法得到关联规则，将所有关联规则保存在知识库中，根据合并准则，对从知识库选出指定时间段内所有的关联规则进行合并，得到新的关联规则；根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。

上述方案中，所述链接分组模块，具体用于按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接。

上述方案中，所述链接分组模块，具体用于建立一个突发作为当前突发，以HTTP请求的发出时间为顺序，将第一个HTTP请求中的URL链接作为当前突发的参考主链接，再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限，若没有，则将所述连续两个HTTP请求中的URL链接均加入当前突发；若有，则将所述连续两个HTTP请求中的前一个加入当前突发后，新建立一个突发作为当前突发，将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发；依次类推，直至本组内所有HTTP请求均完成检测。

上述方案中，所述链接分组模块，具体用于建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。

上述方案中，所述关联规则分析模块，具体用于根据合并准则从指定时间段内所有的关联规则中，选出具有相同的前项及后项的关联规则，建立一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；

上述方案中，所述关联规则分析模块，具体用于选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。

本发明所提供的识别URL主链接的方法及装置，能使用关联规则的分析算法，分别对根据HTTP请求得到的同主链突发分组的所有URL链接进行分析，得到关联规则后，根据合并准则得到新的关联规则，再根据置信度门限及支持度门限对新的关联规则进行筛选，最终得到URL主链接及其附属链接对；由于关联规则的分析算法利用多项内容之间的关系作为分析算法的基础，因此比现有技术中对单一对象进行计算的方法更为准确，因此本发明具有更为准确的识别结果。

另外，本发明还能通过选取指定时间段内加入的关联规则、以及控制支持度门限和置信度门限，提高最终得到URL主链接及其附属链接对的准确性。

附图说明

图1为本发明的识别URL主链接的方法流程示意图；

图2为本发明的识别URL主链接的装置组成结构示意图。

具体实施方式

本发明的基本思想是：利用采集到的指定时长内所有客户端发出的全部HTTP请求，根据间隔门限获取各个客户端对应的突发，并确定各个突发的参考主链接；根据参考主链接对突发进行分组，获得一个或多个同主链突发分组；分别对同主链突发组运行关联规则的分析算法得到一条或多条关联规则，将所有关联规则保存在知识库中；从知识库的选出指定时间段内所有的关联规则，根据合并准则，对选出的所有关联规则中具有相同备选主链接和不定链接的关联规则合并得到多条新的关联规则；根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。

下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明提供的一种识别URL主链接的方法，如图1所示，包括以下步骤：

步骤101：利用采集到的指定时长内所有客户端发出的全部HTTP请求，根据间隔门限获取各个客户端对应的突发，并确定各个突发的参考主链接。

这里，所述突发由从发出HTTP请求到完成访问之间的所有URL链接组成；所述HTTP请求，其编写格式及内容均为现有技术，这里不做赘述；

所述采集为：获取一个或多个客户端发出的全部HTTP请求；所述指定时长为根据实际情况指定，比如可以指定为一小时。

所述根据间隔门限获取各个客户端对应的突发为：按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接；

其中，所述根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接为：建立一个突发作为当前突发，以HTTP请求的发出时间为顺序，将第一个HTTP请求中的URL链接作为当前突发的参考主链接，再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限，若没有，则将所述连续两个HTTP请求中的URL链接均加入当前突发；若有，则将所述连续两个HTTP请求中的前一个加入当前突发后，新建立一个突发作为当前突发，将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发；依次类推，直至本组内所有HTTP请求均完成检测。

所述间隔门限为根据实际情况预先设置的时间门限值，比如，可以设置为200ms；所述突发可以将建立顺序作为突发的编号。

步骤102：根据参考主链接对突发进行分组，获得一个或多个同主链突发组。

这里，所述根据参考主链接为各个突发进行分组为：建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。其中，所述选取一个突发可以为任意选取，也可以为按照各个突发的建立顺序现有，选择最先建立的突发。

步骤103：分别对同主链突发组运行关联规则的分析算法得到一条或多条关联规则，将所有关联规则保存在知识库中。

这里，所述关联规则的分析算法为现有技术，比如，可以选用Apriori算法，这里不做赘述；

所述关联规则包括：前项、后项、支持度、置信度和时间；其中，前项作备选主链接；后项为不定链接；支持度为该批数据中前项出现的次数；置信度为百分比；支持度乘以置信度表示当前项出现的情况下，后项出现的次数；时间记录该条关联规则建立的具体时间；所述知识库为专用于保存关联规则的存储空间。

步骤104：根据合并准则，对从知识库选出指定时间段内所有的关联规则进行合并，得到多条新的关联规则。

这里，所述指定时间段内为根据实际情况选定的时间段，比如，可以指定时间段过去半年内；所述选出指定时间段内所有的关联规则为：选出建立时间处于指定时间段内的所有关联规则；

所述合并准则为：从指定时间段内所有的关联规则中，将选出具有相同的前项及后项的关联规则，建立合并为一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；其中，所述前项及后项与选出的关联规则相同，所述支持度为各个所有选出的关联规则支持度之和，所述置信度为各个将每个选出的关联规则的支持度乘以置信度后相加之和、除各个所有选出的关联规则的支持度之和；

比如，假设两条可合并为一条的关联规则分别为Rule A和Rule B，其中Rule A表示为<前项A、后项A、支持度A、置信度A、时间A>，RuleB表示为<前项B、后项B、支持度B、置信度B、时间B>，新的关联规则为Rule C表示为<前项C、后项C、支持度C、置信度C>；

则Rule C中的前项C与前项A或前项B相同，后项C与后项A或后项B相同，支持度C＝支持度A+支持度B，置信度C＝(支持度A×置信度A+支持度B×置信度B)/(支持度A+支持度B)。

执行步骤104之前，还可以包括：由用户选择是否开始对知识库的关联规则进行分析，若开始，则执行步骤104。

步骤105：根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。

这里，所述支持度门限为：根据实际需求，由管理人员设置的门限值；所述置信度门限为根据实际情况，由管理人员设置的门限值；

本步骤具体为：选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。

另外，上述步骤105完成后，可以根据预置的周期，周期性的返回执行101，比如，可以将周期设置为一天，则步骤105完成后，一天之后，再次执行步骤101；也可以为根据实际情况，由管理人员控制再次执行步骤101。

进一步的，步骤105完成后，管理人员可以利用得到的URL主链接，使用现有技术对用户上网行为进行审计和分析，这里不做赘述。

本发明提出一种识别URL主链接的装置，如图2所示，包括：链接分组模块21和关联规则分析模块22；其中，

链接分组模块21，用于利用采集到的指定时长内所有客户端发出的全部HTTP请求，根据间隔门限获取各个客户端对应的突发，对突发进行分组获得主链突发分组，将全部所述同主链突发分组发送给关联规则分析模块22；

关联规则分析模块22，用于分别对链接分组模块21发来的同主链突发组运行关联规则的分析算法得到一条或多条关联规则，将所有关联规则保存在知识库中，从知识库选出指定时间段内所有的关联规则，根据合并准则，对选出的所有关联规则中具有相同备选主链接和不定链接的关联规则合并得到多条新的关联规则；根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对。

所述链接分组模块21，还用于通过所在网络设备获取一个或多个客户端发出的全部HTTP请求。

所述链接分组模块21，具体用于按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接。

所述链接分组模块21，具体用于建立一个突发作为当前突发，以HTTP请求的发出时间为顺序，将第一个HTTP请求中的URL链接作为当前突发的参考主链接，再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限，若没有，则将所述连续两个HTTP请求中的URL链接均加入当前突发；若有，则将所述连续两个HTTP请求中的前一个加入当前突发后，新建立一个突发作为当前突发，将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发；依次类推，直至本组内所有HTTP请求均完成检测。

所述链接分组模块21，具体用于建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。

所述关联规则分析模块22，具体用于从指定时间段内所有的关联规则中，将选出具有相同的前项及后项的关联规则，建立合并为一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；其中，所述前项及后项与选出的关联规则相同，所述支持度为各个所有选出的关联规则支持度之和，所述置信度为各个将每个选出的关联规则的支持度乘以置信度后相加之和、除各个所有选出的关联规则的支持度之和。

所述关联规则分析模块22，具体用于选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。

所述关联规则分析模块22，具体用于当用户选择开始对知识库的关联规则进行分析时，从知识库的选出指定时间段内所有的关联规则，根据合并准则，对选出的所有关联规则中具有相同备选主链接和不定链接的关联规则合并得到多条新的关联规则。

本发明提供的识别URL主链接的装置可以作为逻辑单元，灵活选择安装于客户端或局域网中处于出口位置的网络设备中。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种识别统一资源定位符URL主链接的方法，其特征在于，该方法包括：

利用采集到的指定时长内所有客户端发出的全部超文本传送协议HTTP请求，根据间隔门限获取各个客户端对应的突发，对突发进行分组获得同主链突发分组；

2.根据权利要求1所述的方法，其特征在于，所述根据间隔门限获取各个客户端对应的突发，包括：按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接。

3.根据权利要求2所述的方法，其特征在于，所述根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接，包括：

4.根据权利要求1所述的方法，其特征在于，所述对突发进行分组获得同主链突发分组，包括：建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。

5.根据权利要求1所述的方法，其特征在于，所述合并准则，包括：从指定时间段内所有的关联规则中，选出具有相同的前项及后项的关联规则，建立一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；

6.根据权利要求1所述的方法，其特征在于，所述根据支持度门限、置信度门限及新的关联规则，得到多个URL主链接及其附属链接对，包括：选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。

7.一种识别URL主链接的装置，其特征在于，该装置包括：链接分组模块和关联规则分析模块；其中，

8.根据权利要求7所述的装置，其特征在于，

所述链接分组模块，具体用于按照不同的客户端将HTTP请求分组，对各组HTTP请求、根据间隔门限建立由URL链接组成的一个或多个突发，并确定各个突发的参考主链接。

9.根据权利要求8所述的装置，其特征在于，

所述链接分组模块，具体用于建立一个突发作为当前突发，以HTTP请求的发出时间为顺序，将第一个HTTP请求中的URL链接作为当前突发的参考主链接，再逐个检测是否存在连续两个HTTP请求之间的间隔时间高于间隔门限，若没有，则将所述连续两个HTTP请求中的URL链接均加入当前突发；若有，则将所述连续两个HTTP请求中的前一个加入当前突发后，新建立一个突发作为当前突发，将所述连续两个HTTP请求中的后一个作为当前突发的参考主链接加入所述当前突发；依次类推，直至本组内所有HTTP请求均完成检测。

10.根据权利要求7所述的装置，其特征在于，

所述链接分组模块，具体用于建立一个当前同主链突发组，选取一个突发加入当前同主链突发组，从剩余的所有突发中，选取与所述加入当前同主链突发组中的突发的参考主链接相同的所有突发，加入当前同主链突发组；依次类推，直至没有剩余突发为止。

11.根据权利要求7所述的装置，其特征在于，

所述关联规则分析模块，具体用于根据合并准则从指定时间段内所有的关联规则中，选出具有相同的前项及后项的关联规则，建立一条新的关联规则，新的关联规则包括前项、后项、支持度和置信度；

12.根据权利要求7所述的装置，其特征在于，

所述关联规则分析模块，具体用于选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则，分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。