CN112632360A

CN112632360A - 一种大数据url库的匹配方法、装置及存储介质

Info

Publication number: CN112632360A
Application number: CN202011626239.1A
Authority: CN
Inventors: 张晓东
Original assignee: Beijing Abt Networks Co ltd
Current assignee: Beijing Abt Networks Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09

Abstract

本发明涉及一种大数据URL库的匹配方法、装置及存储介质，该方法包括：获取域名；在第一URL库中对域名进行匹配，其中，第一URL库为内存中的URL库；若在第一URL库中匹配不成功，则确定域名对应的哈希值，并根据哈希值，在第二URL库中对域名进行匹配，其中，第二URL库为采用HASH分表存储的URL数据库；若在第二URL库中匹配成功，则返回在第二URL库中的匹配结果，并将域名和在第二URL库中的匹配结果加载至第一URL库中。本发明利用内存的第一URL库进行查找，匹配不到则在第二URL库进行匹配，采用不同HASH分表存储的方式，大大的提高数据库中查找的效率，同时如果数据库中找到就将加载到内存中，增强内存的匹配效率。

Description

一种大数据URL库的匹配方法、装置及存储介质

技术领域

本发明涉及网络管理技术领域，尤其涉及一种大数据URL库的匹配方法、装置及存储介质。

背景技术

目前的安全设备都支持域名分类过滤功能。域名分类库中包含新闻、金融、旅游、流媒体和视频、体育、人文以及社交网络等各类特征及其分类信息。管理员根据实际的需求，管理分类资源，如上班时间只允许访问工作相关类的资源网站，阻断金融、旅游、流媒体和视频、体育等工作非相关类网站，随着互联网资源的大爆炸，使得域名成指数级增长，现有的域名匹配分类计算遭遇到极大的挑战，需要有处理大数据的方法支持亿级数据的快速匹配。

因此，如何综合快速进行域名匹配是亟待解决的问题。

发明内容

有鉴于此，有必要提供一种大数据URL库的匹配方法，用以解决如何综合快速进行域名匹配的问题。

本发明提供一种大数据URL库的匹配方法，包括：

获取域名；

在第一URL库中对所述域名进行匹配，其中，所述第一URL库为内存中的URL库；

若在所述第一URL库中匹配不成功，则确定所述域名对应的哈希值，并根据所述哈希值，在第二URL库中对所述域名进行匹配，其中，所述第二URL库为采用HASH分表存储的URL数据库；

若在所述第二URL库中匹配成功，则返回在所述第二URL库中的匹配结果，并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。

进一步地，所述在第一URL库中对所述域名进行匹配包括：

根据所述域名，确定所述域名对应的所述哈希值；

根据所述哈希值，确定所述域名对应的所述哈希队列；

根据所述哈希队列，在所述第一URL库中对所述域名进行匹配。

进一步地，上述大数据URL库的匹配方法还包括：若在所述第一URL库中匹配成功，则返回在所述第一URL库中的匹配结果。

进一步地，上述大数据URL库的匹配方法还包括：

若在所述第二URL库中匹配不成功，则将所述域名添加至升级文件中；

根据所述升级文件进行升级进程解析，确定所述域名对应的所述哈希值；

将所述哈希值存储在所述HASH分表中，确定更新后的所述第二URL库。

进一步地，上述大数据URL库的匹配方法还包括：

检测所述第一URL库中的匹配记录，根据所述匹配记录，定时清除所述第一URL库中未达到预定匹配次数的URL信息。

进一步地，上述大数据URL库的匹配方法还包括：

判断所述第一URL库中的URL信息的数目是否超过预设数目；

若超过，则检测所述第一URL库中的匹配记录；

根据所述匹配记录，对所述URL信息的匹配次数进行排序；

在所述第一URL库中，删除排序靠后的所述URL信息。

本发明还提供一种网络设备配置标准化的装置，包括：

获取单元，用于获取域名；

处理单元，用于在第一URL库中对所述域名进行匹配，其中，所述第一URL库为内存中的URL库；还用于若在所述第一URL库中匹配不成功，则确定所述域名对应的哈希值，并根据所述哈希值，在第二URL库中对所述域名进行匹配，其中，所述第二URL库为采用HASH分表存储的URL数据库；

匹配单元，用于若在所述第二URL库中匹配成功，则返回在所述第二URL库中的匹配结果，并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。

本发明还提供一种网络设备配置标准化的装置，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如上所述的大数据URL库的匹配方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如上所述的大数据URL库的匹配方法。

与现有技术相比，本发明的有益效果包括：首先，通过内存中的第一URL库进行优先匹配；进而，若在第一URL库中无法完成匹配，则在第二URL库中进行匹配，由于第二URL库采用不同HASH分表存储的方式，大大的提高数据库中查找的效率；最后，若在第二URL库中匹配成功，则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新，增强内存的第一URL库的匹配效率，保证下一次匹配的快速性和准确性。综上，本发明利用内存的第一URL库进行查找，匹配不到则在第二URL库进行匹配，采用不同HASH分表存储的方式，大大的提高数据库中查找的效率，同时如果数据库中找到就将加载到内存中，增强内存的匹配效率。

附图说明

图1为本发明提供的大数据URL库的匹配方法的流程示意图；

图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图；

图3为本发明提供的更新第二URL库的流程示意图；

图4为本发明提供的更新第一URL库的流程示意图；

图5为本发明提供的大数据URL库的匹配装置的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明实施例提供了一种大数据URL库的匹配方法，结合图1来看，图1为本发明提供的大数据URL库的匹配方法的流程示意图，上述一种大数据URL库的匹配方法包括步骤S1至步骤S4，其中：

在步骤S1中，获取域名；

在步骤S2中，在第一URL库中对域名进行匹配，其中，第一URL库为内存中的URL库；

在步骤S3中，若在第一URL库中匹配不成功，则确定域名对应的哈希值，并根据哈希值，在第二URL库中对域名进行匹配，其中，第二URL库为采用HASH分表存储的URL数据库；

在步骤S4中，若在第二URL库中匹配成功，则返回在第二URL库中的匹配结果，并将域名和在第二URL库中的匹配结果加载至第一URL库中。

在本发明实施例中，首先，通过内存中的第一URL(Uniform Resource Locator，统一资源定位器)库进行优先匹配；进而，若在第一URL库中无法完成匹配，则在第二URL库中进行匹配，由于第二URL库采用不同HASH分表存储的方式，大大的提高数据库中查找的效率；最后，若在第二URL库中匹配成功，则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新，增强内存的第一URL库的匹配效率，保证下一次匹配的快速性和准确性。

需要说明的是，URL是指每一信息资源都有统一的且在网上唯一的地址，它是WWW的统一资源定位标志，就是指网络地址；HASH，一般翻译做散列、杂凑，或音译为哈希，是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值。

优先地，第一URL库的建立包括：提供流行度较高的100万URL库加载到内存中，形成第一URL库。由此，利用第一URL库，直接在内存中进行匹配，保证匹配效率。

优先地，第二URL库的建立包括：将URL全库加载到URL数据库中，采用HASH分表存储的方式，形成第二URL库。由此，采用HASH分表存储，促使每个表中的数据很少，比如，1亿的有关URL信息的数据分布在1万个HASH分表中，每个HASH分表包含1万的数据，同时建立索引，保证特别快的查找速度。

优选地，结合图2来看，图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图，步骤S2具体包括步骤S21至步骤S23，其中：

在步骤S21中，根据域名，确定域名对应的哈希值；

在步骤S22中，根据哈希值，确定域名对应的哈希队列；

在步骤S23中，根据哈希队列，在第一URL库中对域名进行匹配。

由此，首先，通过域名确定相应的哈希值，进而，通过哈希值确定哈希队列，查找内存中的相应的哈希队列，如匹配则返回匹配结果，大大提高了匹配速度。

优选地，上述大数据URL库的匹配方法还包括：若在第一URL库中匹配成功，则返回在第一URL库中的匹配结果。由此，优先利用内存进行匹配，如果在内存中的第一URL库命中了，则返回匹配结果，简单快速地完成了优先匹配。

优选地，结合图3来看，图3为本发明提供的更新第二URL库的流程示意图，上述大数据URL库的匹配方法还包括步骤S5至步骤S7，其中：

在步骤S5中，若在第二URL库中匹配不成功，则将域名添加至升级文件中；

在步骤S6中，根据升级文件进行升级进程解析，确定域名对应的哈希值；

在步骤S7中，将哈希值存储在HASH分表中，确定更新后的第二URL库。

由此，第二URL库采用增量升级的方式，将增加的域名添加到一个文件中，升级进程遍历文件，按照URL HASH的算法，填充到对应的数据表中，实现增量升级的方式，保证第二URL库的数据扩充，增加后续的命中率。

优选地，上述大数据URL库的匹配方法还包括：检测第一URL库中的匹配记录，根据匹配记录，定时清除第一URL库中未达到预定匹配次数的URL信息。由此，检查内存中UR的匹配次数，如命中次数一直很低，则采用定时的方式清除，保证内存的容量和查找速度。其中，预定匹配次数优选为零。

优选地，结合图4来看，图4为本发明提供的更新第一URL库的流程示意图，上述大数据URL库的匹配方法还包括步骤S8至步骤S11，其中：

在步骤S8中，判断第一URL库中的URL信息的数目是否超过预设数目；

在步骤S9中，若超过，则检测第一URL库中的匹配记录；

在步骤S10中，根据匹配记录，对URL信息的匹配次数进行排序；

在步骤S11中，在第一URL库中，删除排序靠后的URL信息。

由此，当内存中的第一URL库中的URL信息过多时，会导致内存的容量过小、查找速度变慢，为了避免这种情况，则定时清除命中率较低的URL信息，避免对内存的过多占用。其中，预设数目优选为200万，当内存中的第一URL库的数据量超出200万，则对URL信息进行排序，删除命中次数较小的URL信息，控制内存的占用。

在本发明一个具体的实施例中，对URL的匹配流程如下：

第一步：访问www.sapling.com，先匹配内存中的第一URL库，计算www.sapling.com对应的哈希值，查找相应的哈希队列，如匹配则返回匹配结果；

第二步：当内存中的第一URL库未匹配到www.sapling.com，则进行第二URL库的查找，查找www.sapling.com相应的HASH分表。如匹配，返回匹配结果，同时将www.sapling.com的URL信息及对应的返回结果加载到内存中的第一URL库，便于下次访问的匹配。

第三步：当第二URL库中未匹配到www.sapling.com，则需要升级第二URL库，将包含www.sapling.com的URL信息加入到升级文件中，升级进程解析到www.sapling.com，计算相应的HASH值，存储到对应HASH分表中。

第四步：升级第二URL库后，访问www.sapling.com重复从第一步的操作，实现进一步地匹配。

实施例2

本发明实施例提供了一种大数据URL库的匹配装置，结合图5来看，图5为本发明提供的大数据URL库的匹配装置的结构示意图，其中，大数据URL库的匹配装置500包括：

获取单元501，用于获取域名；

处理单元502，用于在第一URL库中对域名进行匹配，其中，第一URL库为内存中的URL库；还用于若在第一URL库中匹配不成功，则确定域名对应的哈希值，并根据哈希值，在第二URL库中对域名进行匹配，其中，第二URL库为采用HASH分表存储的URL数据库；

匹配单元503，用于若在第二URL库中匹配成功，则返回在第二URL库中的匹配结果，并将域名和在第二URL库中的匹配结果加载至第一URL库中。

实施例3

本发明实施例提供了一种大数据URL库的匹配装置，包括处理器以及存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现如上所述的大数据URL库的匹配方法。

实施例4

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机该程序被处理器执行时，实现如上所述的大数据URL库的匹配方法。

本发明公开了一种大数据URL库的匹配方法、装置及存储介质首先，通过内存中的第一URL库进行优先匹配；进而，若在第一URL库中无法完成匹配，则在第二URL库中进行匹配，由于第二URL库采用不同HASH分表存储的方式，大大的提高数据库中查找的效率；最后，若在第二URL库中匹配成功，则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新，增强内存的第一URL库的匹配效率，保证下一次匹配的快速性和准确性。

本发明技术方案，利用内存的第一URL库进行查找，匹配不到则在第二URL库进行匹配，采用不同HASH分表存储的方式，大大的提高数据库中查找的效率，同时如果数据库中找到就将加载到内存中，增强内存的匹配效率。本发明采用内存、数据库存储及查找相结合的方法，采用内存及数据库的方式结合查找的方式，减小内存占用，采用URL数据库HASH的存储方式，实现快速查找，同时，实现了URL数据库的增量升级，保证了匹配的准度和速度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种大数据URL库的匹配方法，其特征在于，包括：

获取域名；

2.根据权利要求1所述的大数据URL库的匹配方法，其特征在于，所述在第一URL库中对所述域名进行匹配包括：

根据所述域名，确定所述域名对应的所述哈希值；

根据所述哈希值，确定所述域名对应的所述哈希队列；

3.根据权利要求1所述的大数据URL库的匹配方法，其特征在于，还包括：若在所述第一URL库中匹配成功，则返回在所述第一URL库中的匹配结果。

4.根据权利要求1所述的大数据URL库的匹配方法，其特征在于，还包括：

5.根据权利要求1-4任一项所述的大数据URL库的匹配方法，其特征在于，还包括：

6.根据权利要求1-4任一项所述的大数据URL库的匹配方法，其特征在于，还包括：

判断所述第一URL库中的URL信息的数目是否超过预设数目；

若超过，则检测所述第一URL库中的匹配记录；

根据所述匹配记录，对所述URL信息的匹配次数进行排序；

在所述第一URL库中，删除排序靠后的所述URL信息。

7.一种大数据URL库的匹配装置，其特征在于，包括：

获取单元，用于获取域名；

8.一种大数据URL库的匹配装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-6任一项所述的大数据URL库的匹配方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机该程序被处理器执行时，实现如权利要求1-6任一项所述的大数据URL库的匹配方法。