CN103136372B

CN103136372B - 网络可信性行为管理中url快速定位、分类和过滤方法

Info

Publication number: CN103136372B
Application number: CN201310092932.9A
Authority: CN
Inventors: 贾嘉; 高上; 成鑫; 穆慧琳
Original assignee: Shaanxi Communication Information Technology Co Ltd
Current assignee: Shaanxi Communication Information Technology Co Ltd
Priority date: 2013-03-21
Filing date: 2013-03-21
Publication date: 2016-03-02
Anticipated expiration: 2033-03-21
Also published as: CN103136372A

Abstract

本发明公开了一种网络可信性行为管理中URL快速定位、分类和过滤方法，步骤一、搜索互联网网页，提取URL并进行分类存储，步骤二、对URL进行编码，得到每一个URL的ID并进行分类标识，步骤三、构建URL快速定位的标准，步骤四、URL匹配，步骤五、URL类别定位，步骤六、URL过滤。本发明设计新颖合理，实现方便，与其他方法相比，在匹配时间上有所提高，同时充分的利用数据库技术进行分析，并且可以对匹配分析结果进行主动的过滤，从而达到URL的快速定位、分类与过滤，性能良好，运行稳定，并且有很高的实时效率，应用范围广，使用效果好，便于推广使用。

Description

网络可信性行为管理中URL快速定位、分类和过滤方法

技术领域

本发明涉及网络信息安全技术领域，尤其是涉及一种网络可信性行为管理中URL快速定位、分类和过滤方法。

背景技术

HTTP访问，现今已成为最为活跃的网络行为，每一个HTTP访问都需要一个全球唯一的标识，这个标志就是URL。而由此产生的一系列的可信或非可信的网络行为需要在一定范围内进行相应的管理和监控，其中对于URL的快速定位、分类以及过滤技术又是管理和监控中的重要部分。

互联网站内容形形色色，包括娱乐、新闻、社会生活、科技、购物等，也包含了大量黄、赌、毒等不健康的网站。对于企业来讲，在上班时间访问互联网的娱乐、购物、游戏等休闲网站会大大的消耗员工精力、降低工作效率；对于家庭来讲，未成年人的网络行为也是尤为重要，上不健康网站对青少年的身心健康都是非常令人担忧的，这就需要一种技术，来对现有的网络行为中的访问URL行为进行快速的定位、分类并进行过滤，实现网络行为的可信性。而本专利的技术就是此基础上考虑研究发明出来的。

在本技术出现之前，URL的快速定位、分类以及过滤技术在大多数网络行为管理中主要是由路由器来简单完成的。主要过程如下：

（1）首先在内网与外网相连的路由器上建立一个列表List，此List是专门用来存储URL地址的，也可以称其为黑白名单。其中黑名单是用户不能与之进行通信的URL列表，白名单是用户可以随时与之进行通信的URL列表。在设置初，需要将可能出现的含有不健康内容的网站地址URL，通过人工搜寻的方法在网络中找到，之后将其手动添加到黑名单List中，这时路由器中就静态存储了一个拥有不健康内容的URLList；同时，也需要手动将白名单添加到白名单List中。

（2）当用户需要访问一个URL的时候，URL会先经过此路由器，这时，路由器中List会被调用，将要访问的URL送入List进行根据字节按顺序匹配的过程。

（3）匹配的过程是：URL进来后，先与黑名单List中B（b1、b2、……bN）的第一条记录b1进行字节匹配，如果匹配上，路由器将阻止用户与此URL进行通信；如果没有匹配上，此URL则继续与B（b1、b2、……bN）中下一条记录进行字节匹配，一直匹配到黑名单中最后一条记录为止，如果有匹配上，则路由器将阻止用户与该URL的通信。如果，在黑名单中，此URL没有被匹配上，则进入白名单W（w1、w2……wN）中记录进行根据字节按顺序匹配，若是匹配上则自动放行。

（4）若是匹配不上，则说明，此URL并没有在路由器中存储，此时，这个URL的安全性以及可能存在的潜在的危险都没有办法被阻断，也就不能有效的控制用户的网络行为。

用户在访问URL的时候，必须要先经过以上过程才能访问URL或是由路由器阻断访问URL，对于List的生成只能是手动人为的输入，而对于没有输入List中的URL是完全没有可控性的。由以上描述可以看出，整个定位、分类以及过滤过程都非常耗时，且对于网络可信性行为的可控性非常的低，URL的分类需要人为判断以及手动输入List，URL的过滤是建立在对其的人为判断与分类上的，也存在局限性，而其定位过程，也只是非常耗时的按字节匹配。整个过程都非常简单，对于企业来讲是存在很大的不可控性的，也就不能满足用户的可信性网络行为管理的需要。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种网络可信性行为管理中URL快速定位、分类和过滤方法，其设计新颖合理，实现方便，实现了URL的快速定位、分类与过滤，性能良好，运行稳定，并且有很高的实时效率，应用范围广，使用效果好，便于推广使用。

为解决上述技术问题，本发明采用的技术方案是：一种网络可信性行为管理中URL快速定位、分类和过滤方法，其特征在于该方法包括以下步骤：

步骤一、搜索互联网网页，提取URL并进行分类存储，其具体过程如下：

步骤101、采用搜素引擎工具在整个网络中大规模搜索互联网网页，提取搜索到的各个互联网网页中所包含的URL；

步骤102、设定网络分类规则并根据设定好的网络分类规则对提取到的所有URL进行分类，得到各个URL的分类类型；

步骤103、根据URL的语法格式，从URL的原始地址“scheme：//host：port/path”中提取“host”字段，以“host”字段中第一个字符n为数据存储表的行标签，以“host”字段中第二个字符m为数据存储表的列标签，建立N×M张数据存储表，将各个URL和各个URL所对应的分类类型存储到数据存储表中，构建起数据存储数据库；其中，n和M均取A～Z的26个字母和0～9的10个数字中的任意一个，N为n的取值总数且取值为36，M为m的取值总数且取值为36；

步骤二、对URL进行编码，得到每一个URL的ID并进行分类标识，其具体过程如下：

步骤201、计算“host”字段的长度“len”，将“host”字段、“len”和设定的阀值c作为哈希算法的三个参数，采用哈希算法对步骤101中提取到的所有URL进行统一的编码，得到每一个URL对应的唯一的参数“keyvalue”，并将得到的每一个URL对应的唯一的参数“keyvalue”作为URL的ID；其中，c为自然数且取值范围为0≤c≤23；

步骤202、将URL的ID与步骤102中得到的各个URL的分类类型进行对应，将URL的ID划分到相应的URL的分类类型内，进行分类标识并更新步骤103中构建起的数据存储数据库；

步骤三、构建URL快速定位的标准，其具体过程为：

步骤301、将步骤201中得到的URL的ID作为关键值节点，并将其对应的分类标识作为关键值“idata”；

步骤302、以关键值节点和关键值“idata”建立二叉链表，生成二叉树，同时，将关键值节点和关键值“idata”一起生成数据文件，所生成的数据文件即为URL快速定位的标准；

步骤四、URL匹配，其具体过程为：

步骤401、对用户浏览网页时打开的互联网网页中包含的URL进行分析，从URL的原始地址“scheme：//host：port/path”中提取“host”字段，并计算“host”字段的长度“len”；

步骤402、将“host”字段、“len”和步骤201中设定的阀值c作为哈希算法的三个参数，采用哈希算法对步骤401中URL进行统一的编码，得到URL对应的唯一的参数“keyvalue”，并将得到的URL对应的唯一的参数“keyvalue”作为URL的ID；

步骤五、URL类别定位：将步骤402中URL的ID作为关键值节点，在步骤302中生成的二叉树中进行查找，当在二叉树中查找到所述关键值节点时，将查找到的关键值节点所对应的关键值“idata”作为所述URL的ID所属类别“kind”；

步骤六、URL过滤，其具体过程为：

步骤601、设定过滤策略并将设定好的过滤策略以一张表的形式进行存储，存储为过滤策略表“policygroup”;

步骤602、将步骤五中得到的所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据进行对比，当所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据相似程度达到70%～100%时就阻断，否则就放行。

上述的网络可信性行为管理中URL快速定位、分类和过滤方法，其特征在于：步骤201中所述c的取值为23。

本发明与现有技术相比具有以下优点：

1、本发明设计新颖合理，实现方便。

2、本发明将需要大量耗时的定位过程，进行了改进，将主要的复杂工作在URL定位之前就完成，对URL重新编码得到简单而唯一的关键值，这个关键值对于缩减整体匹配时间起到了很好的作用。

3、本发明主要应用于可信性网络行为安全管理领域，与原有的hashvalue技术相结合，并将匹配得到的地址类型返回界面，通过人为的设置对其进行阻断或是放行，与其他方法相比，在匹配时间上有所提高，同时充分的利用数据库技术进行分析，并且可以对匹配分析结果进行主动的过滤，从而达到URL的快速定位、分类与过滤。

4、本发明性能良好，运行稳定，并且有很高的实时效率。

5、本发明不但可以应用于对URL的快速定位、分析及过滤，对可信性网络安全行为进行有效的管理，实现阻断与工作无关的、不良的或是违反国家政策的网站访问，最终实现有效提供肃清互联网站；同时可以应用于其他网络应用，如海量搜索、网络流量控制等领域，应用范围广，使用效果好，便于推广使用。

综上所述，本发明设计新颖合理，实现方便，实现了URL的快速定位、分类与过滤，性能良好，运行稳定，并且有很高的实时效率，应用范围广，使用效果好，便于推广使用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程框图。

图2为本发明具体实施时使用的网桥设备的电路原理框图。

附图标记说明:

1—CPU模块；2—内存模块；3—硬盘模块；

4—显示模块；5—Linux内核模块；6—网卡模块。

具体实施方式

如图1所示，本发明所述的网络可信性行为管理中URL快速定位、分类和过滤方法，包括以下步骤：

具体实施时，设定的网络分类规则与现有技术中的基本网络分类相同或类似，例如，设定如表1所示的网络分类规则：

表1网络分类规则表

步骤三、构建URL快速定位的标准，其具体过程为：

步骤四、URL匹配，其具体过程为：

步骤402、将“host”字段、“len”和步骤201中设定的阀值c作为哈希算法的三个参数，采用哈希算法对步骤401中URL进行统一的编码，得到URL对应的唯一的参数“keyvalue”，并将得到的URL对应的唯一的参数“keyvalue”作为URL的ID；具体实施时，URL对应的唯一的参数“keyvalue”为32位无符号整形数，即URL的ID为32位无符号整形数。

步骤六、URL过滤，其具体过程为：

步骤602、将步骤五中得到的所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据进行对比，当所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据相似程度达到70%～100%时就阻断，也就是无法访问该URL，否则就放行。

本实施例中，步骤201中所述c的取值为23。这样的取值能够加快采用哈希算法得到每一个URL对应的唯一的参数“keyvalue”的过程，进而加快了URL的定位。

综上所述，本发明将整个URL快速定位、分类和过滤过程分为了步骤一～步骤三的预处理过程和步骤四～步骤六的URL快速定位过滤过程，预处理过程将搜索到的URL进行分类、编码，同时将编码得到的“keyvalue”作为唯一的标识与关键值，同分类一起生成数据文件，建立一种快速缓存，方便URL快速定位过滤过滤过程对请求的URL进行快速的定位；在预处理过程的基础上，URL快速定位过滤过程能够发挥其最大的作用，对URL请求进行快速的定位，通过查找算法，匹配唯一的“keyvalue”，进行准确的过滤。这样，就将主要的复杂工作在URL定位之前的步骤一～步骤三中就完成了，对URL重新编码得到简单而唯一的关键值“keyvalue”，这个关键值“keyvalue”对于缩减整体匹配时间起到了很好的作用。

另外，本发明具体实施时是编制成软件程序并植入网桥设备来实现的，植入软件程序后的网桥设备属于透明网桥设备，该透明网桥设备可以作为单独的产品使用，也可以独立的加入到现有的网络拓扑中，同时不对现有的网络拓扑进行任何更改。所使用的网桥设备的电路原理框图如图2所示，网桥设备包括CPU模块1以及与CPU模块1相接的内存模块2、硬盘模块3、显示模块4和Linux内核模块5，所述Linux内核模块5上接有网卡模块6。在步骤四～步骤六中，URL数据包进入该网桥设备时，首先是由网卡模块来进行抓包，拷贝后送到Linux内核模块5中，由CPU模块1进行URL匹配、URL类别定位和URL过滤。其中，CPU模块是整个处理过程的核心，内存模块2是进行即时处理的关键，同时在步骤一～步骤三的预处理过程中行程的高速缓存部分也在内存模块2中，硬盘模块3中存储着主程序、URL匹配程序、URL类别定位程序、URL过滤程序，以及库文件、数据文件和过滤策略表“policygroup”。

本发明在URL的快速定位、分类以及过滤上都比之前的技术存在优越性，不但满足了对于可信性网络行为的可控性以及监管性，同时在应用过程中大大的减少了所用时间。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种网络可信性行为管理中URL快速定位、分类和过滤方法，其特征在于该方法包括以下步骤：

步骤201、计算“host”字段的长度“len”，将“host”字段、“len”和设定的阀值c作为哈希算法的三个参数，采用哈希算法对步骤101中提取到的所有URL进行统一的编码，得到每一个URL对应的唯一的参数“keyvalue”，并将得到的每一个URL对应的唯一的参数“keyvalue”作为URL的ID；其中，c的取值为23；

步骤三、构建URL快速定位的标准，其具体过程为：

步骤四、URL匹配，其具体过程为：

步骤六、URL过滤，其具体过程为：

步骤601、设定过滤策略并将设定好的过滤策略以一张表的形式进行存储，存储为过滤策略表“policygroup”；

步骤602、将步骤五中得到的所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据进行对比，当所述URL的ID所属类别“kind”与过滤策略表“policygroup”中的数据相似程度达到70％～100％时就阻断，否则就放行。