CN112632360A - 一种大数据url库的匹配方法、装置及存储介质 - Google Patents
一种大数据url库的匹配方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112632360A CN112632360A CN202011626239.1A CN202011626239A CN112632360A CN 112632360 A CN112632360 A CN 112632360A CN 202011626239 A CN202011626239 A CN 202011626239A CN 112632360 A CN112632360 A CN 112632360A
- Authority
- CN
- China
- Prior art keywords
- url
- matching
- library
- domain name
- url library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据URL库的匹配方法、装置及存储介质,该方法包括:获取域名;在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。本发明利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。
Description
技术领域
本发明涉及网络管理技术领域,尤其涉及一种大数据URL库的匹配方法、装置及存储介质。
背景技术
目前的安全设备都支持域名分类过滤功能。域名分类库中包含新闻、金融、旅游、流媒体和视频、体育、人文以及社交网络等各类特征及其分类信息。管理员根据实际的需求,管理分类资源,如上班时间只允许访问工作相关类的资源网站,阻断金融、旅游、流媒体和视频、体育等工作非相关类网站,随着互联网资源的大爆炸,使得域名成指数级增长,现有的域名匹配分类计算遭遇到极大的挑战,需要有处理大数据的方法支持亿级数据的快速匹配。
因此,如何综合快速进行域名匹配是亟待解决的问题。
发明内容
有鉴于此,有必要提供一种大数据URL库的匹配方法,用以解决如何综合快速进行域名匹配的问题。
本发明提供一种大数据URL库的匹配方法,包括:
获取域名;
在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;
若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
进一步地,所述在第一URL库中对所述域名进行匹配包括:
根据所述域名,确定所述域名对应的所述哈希值;
根据所述哈希值,确定所述域名对应的所述哈希队列;
根据所述哈希队列,在所述第一URL库中对所述域名进行匹配。
进一步地,上述大数据URL库的匹配方法还包括:若在所述第一URL库中匹配成功,则返回在所述第一URL库中的匹配结果。
进一步地,上述大数据URL库的匹配方法还包括:
若在所述第二URL库中匹配不成功,则将所述域名添加至升级文件中;
根据所述升级文件进行升级进程解析,确定所述域名对应的所述哈希值;
将所述哈希值存储在所述HASH分表中,确定更新后的所述第二URL库。
进一步地,上述大数据URL库的匹配方法还包括:
检测所述第一URL库中的匹配记录,根据所述匹配记录,定时清除所述第一URL库中未达到预定匹配次数的URL信息。
进一步地,上述大数据URL库的匹配方法还包括:
判断所述第一URL库中的URL信息的数目是否超过预设数目;
若超过,则检测所述第一URL库中的匹配记录;
根据所述匹配记录,对所述URL信息的匹配次数进行排序;
在所述第一URL库中,删除排序靠后的所述URL信息。
本发明还提供一种网络设备配置标准化的装置,包括:
获取单元,用于获取域名;
处理单元,用于在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;还用于若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
匹配单元,用于若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
本发明还提供一种网络设备配置标准化的装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上所述的大数据URL库的匹配方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
与现有技术相比,本发明的有益效果包括:首先,通过内存中的第一URL库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。综上,本发明利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。
附图说明
图1为本发明提供的大数据URL库的匹配方法的流程示意图;
图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图;
图3为本发明提供的更新第二URL库的流程示意图;
图4为本发明提供的更新第一URL库的流程示意图;
图5为本发明提供的大数据URL库的匹配装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明实施例提供了一种大数据URL库的匹配方法,结合图1来看,图1为本发明提供的大数据URL库的匹配方法的流程示意图,上述一种大数据URL库的匹配方法包括步骤S1至步骤S4,其中:
在步骤S1中,获取域名;
在步骤S2中,在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;
在步骤S3中,若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;
在步骤S4中,若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。
在本发明实施例中,首先,通过内存中的第一URL(Uniform Resource Locator,统一资源定位器)库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。
需要说明的是,URL是指每一信息资源都有统一的且在网上唯一的地址,它是WWW的统一资源定位标志,就是指网络地址;HASH,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。
优先地,第一URL库的建立包括:提供流行度较高的100万URL库加载到内存中,形成第一URL库。由此,利用第一URL库,直接在内存中进行匹配,保证匹配效率。
优先地,第二URL库的建立包括:将URL全库加载到URL数据库中,采用HASH分表存储的方式,形成第二URL库。由此,采用HASH分表存储,促使每个表中的数据很少,比如,1亿的有关URL信息的数据分布在1万个HASH分表中,每个HASH分表包含1万的数据,同时建立索引,保证特别快的查找速度。
优选地,结合图2来看,图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图,步骤S2具体包括步骤S21至步骤S23,其中:
在步骤S21中,根据域名,确定域名对应的哈希值;
在步骤S22中,根据哈希值,确定域名对应的哈希队列;
在步骤S23中,根据哈希队列,在第一URL库中对域名进行匹配。
由此,首先,通过域名确定相应的哈希值,进而,通过哈希值确定哈希队列,查找内存中的相应的哈希队列,如匹配则返回匹配结果,大大提高了匹配速度。
优选地,上述大数据URL库的匹配方法还包括:若在第一URL库中匹配成功,则返回在第一URL库中的匹配结果。由此,优先利用内存进行匹配,如果在内存中的第一URL库命中了,则返回匹配结果,简单快速地完成了优先匹配。
优选地,结合图3来看,图3为本发明提供的更新第二URL库的流程示意图,上述大数据URL库的匹配方法还包括步骤S5至步骤S7,其中:
在步骤S5中,若在第二URL库中匹配不成功,则将域名添加至升级文件中;
在步骤S6中,根据升级文件进行升级进程解析,确定域名对应的哈希值;
在步骤S7中,将哈希值存储在HASH分表中,确定更新后的第二URL库。
由此,第二URL库采用增量升级的方式,将增加的域名添加到一个文件中,升级进程遍历文件,按照URL HASH的算法,填充到对应的数据表中,实现增量升级的方式,保证第二URL库的数据扩充,增加后续的命中率。
优选地,上述大数据URL库的匹配方法还包括:检测第一URL库中的匹配记录,根据匹配记录,定时清除第一URL库中未达到预定匹配次数的URL信息。由此,检查内存中UR的匹配次数,如命中次数一直很低,则采用定时的方式清除,保证内存的容量和查找速度。其中,预定匹配次数优选为零。
优选地,结合图4来看,图4为本发明提供的更新第一URL库的流程示意图,上述大数据URL库的匹配方法还包括步骤S8至步骤S11,其中:
在步骤S8中,判断第一URL库中的URL信息的数目是否超过预设数目;
在步骤S9中,若超过,则检测第一URL库中的匹配记录;
在步骤S10中,根据匹配记录,对URL信息的匹配次数进行排序;
在步骤S11中,在第一URL库中,删除排序靠后的URL信息。
由此,当内存中的第一URL库中的URL信息过多时,会导致内存的容量过小、查找速度变慢,为了避免这种情况,则定时清除命中率较低的URL信息,避免对内存的过多占用。其中,预设数目优选为200万,当内存中的第一URL库的数据量超出200万,则对URL信息进行排序,删除命中次数较小的URL信息,控制内存的占用。
在本发明一个具体的实施例中,对URL的匹配流程如下:
第一步:访问www.sapling.com,先匹配内存中的第一URL库,计算www.sapling.com对应的哈希值,查找相应的哈希队列,如匹配则返回匹配结果;
第二步:当内存中的第一URL库未匹配到www.sapling.com,则进行第二URL库的查找,查找www.sapling.com相应的HASH分表。如匹配,返回匹配结果,同时将www.sapling.com的URL信息及对应的返回结果加载到内存中的第一URL库,便于下次访问的匹配。
第三步:当第二URL库中未匹配到www.sapling.com,则需要升级第二URL库,将包含www.sapling.com的URL信息加入到升级文件中,升级进程解析到www.sapling.com,计算相应的HASH值,存储到对应HASH分表中。
第四步:升级第二URL库后,访问www.sapling.com重复从第一步的操作,实现进一步地匹配。
实施例2
本发明实施例提供了一种大数据URL库的匹配装置,结合图5来看,图5为本发明提供的大数据URL库的匹配装置的结构示意图,其中,大数据URL库的匹配装置500包括:
获取单元501,用于获取域名;
处理单元502,用于在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;还用于若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;
匹配单元503,用于若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。
实施例3
本发明实施例提供了一种大数据URL库的匹配装置,包括处理器以及存储器,存储器上存储有计算机程序,计算机程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
实施例4
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机该程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
本发明公开了一种大数据URL库的匹配方法、装置及存储介质首先,通过内存中的第一URL库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。
本发明技术方案,利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。本发明采用内存、数据库存储及查找相结合的方法,采用内存及数据库的方式结合查找的方式,减小内存占用,采用URL数据库HASH的存储方式,实现快速查找,同时,实现了URL数据库的增量升级,保证了匹配的准度和速度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种大数据URL库的匹配方法,其特征在于,包括:
获取域名;
在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;
若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
2.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,所述在第一URL库中对所述域名进行匹配包括:
根据所述域名,确定所述域名对应的所述哈希值;
根据所述哈希值,确定所述域名对应的所述哈希队列;
根据所述哈希队列,在所述第一URL库中对所述域名进行匹配。
3.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,还包括:若在所述第一URL库中匹配成功,则返回在所述第一URL库中的匹配结果。
4.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,还包括:
若在所述第二URL库中匹配不成功,则将所述域名添加至升级文件中;
根据所述升级文件进行升级进程解析,确定所述域名对应的所述哈希值;
将所述哈希值存储在所述HASH分表中,确定更新后的所述第二URL库。
5.根据权利要求1-4任一项所述的大数据URL库的匹配方法,其特征在于,还包括:
检测所述第一URL库中的匹配记录,根据所述匹配记录,定时清除所述第一URL库中未达到预定匹配次数的URL信息。
6.根据权利要求1-4任一项所述的大数据URL库的匹配方法,其特征在于,还包括:
判断所述第一URL库中的URL信息的数目是否超过预设数目;
若超过,则检测所述第一URL库中的匹配记录;
根据所述匹配记录,对所述URL信息的匹配次数进行排序;
在所述第一URL库中,删除排序靠后的所述URL信息。
7.一种大数据URL库的匹配装置,其特征在于,包括:
获取单元,用于获取域名;
处理单元,用于在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;还用于若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
匹配单元,用于若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
8.一种大数据URL库的匹配装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-6任一项所述的大数据URL库的匹配方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-6任一项所述的大数据URL库的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011626239.1A CN112632360A (zh) | 2020-12-30 | 2020-12-30 | 一种大数据url库的匹配方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011626239.1A CN112632360A (zh) | 2020-12-30 | 2020-12-30 | 一种大数据url库的匹配方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632360A true CN112632360A (zh) | 2021-04-09 |
Family
ID=75289965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011626239.1A Pending CN112632360A (zh) | 2020-12-30 | 2020-12-30 | 一种大数据url库的匹配方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632360A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100022565A (ko) * | 2008-08-20 | 2010-03-03 | 충남대학교산학협력단 | 해시트리를 이용한 url 검색방법 |
CN107402959A (zh) * | 2017-06-15 | 2017-11-28 | 中国科学院信息工程研究所 | Url匹配方法、url匹配设备及存储介质 |
CN109726340A (zh) * | 2018-12-21 | 2019-05-07 | 武汉思普崚技术有限公司 | 统一资源定位符分类的查询方法及装置 |
-
2020
- 2020-12-30 CN CN202011626239.1A patent/CN112632360A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100022565A (ko) * | 2008-08-20 | 2010-03-03 | 충남대학교산학협력단 | 해시트리를 이용한 url 검색방법 |
CN107402959A (zh) * | 2017-06-15 | 2017-11-28 | 中国科学院信息工程研究所 | Url匹配方法、url匹配设备及存储介质 |
CN109726340A (zh) * | 2018-12-21 | 2019-05-07 | 武汉思普崚技术有限公司 | 统一资源定位符分类的查询方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321325B (zh) | 文件索引节点查找方法、终端、服务器、系统及存储介质 | |
US20150310129A1 (en) | Method of managing database, management computer and storage medium | |
CN107368527B (zh) | 基于数据流的多属性索引方法 | |
CN107783985B (zh) | 一种分布式数据库查询方法、装置及管理系统 | |
CN108614837B (zh) | 文件存储和检索的方法及装置 | |
CN108228799B (zh) | 对象索引信息的存储方法及装置 | |
CN109766318B (zh) | 文件读取方法及装置 | |
CN109992603B (zh) | 一种数据搜索方法、装置、电子设备和计算机可读介质 | |
CN112328548A (zh) | 一种文件检索方法及计算设备 | |
US11126656B2 (en) | Formatting semi-structured data in a database | |
US10838875B2 (en) | System and method for managing memory for large keys and values | |
CN108319634B (zh) | 分布式文件系统的目录访问方法和装置 | |
CN111368227A (zh) | 一种url处理方法以及装置 | |
RU2568276C2 (ru) | Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска | |
CN105468644A (zh) | 一种用于在数据库中进行查询的方法与设备 | |
CN113468080B (zh) | 一种全闪元数据的缓存方法、系统及相关装置 | |
US20090006354A1 (en) | System and method for knowledge based search system | |
CN111460255A (zh) | 一种音乐作品信息数据采集及存储方法 | |
CN107590233B (zh) | 一种文件管理方法及装置 | |
US10019483B2 (en) | Search system and search method | |
JP7293780B2 (ja) | 情報処理装置、文書管理システム及びプログラム | |
CN112632360A (zh) | 一种大数据url库的匹配方法、装置及存储介质 | |
US20090259617A1 (en) | Method And System For Data Management | |
CN113177169B (zh) | 网络地址的类别获取方法、装置、设备及存储介质 | |
CN115495462A (zh) | 批量数据更新方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |