CN112632360A - 一种大数据url库的匹配方法、装置及存储介质 - Google Patents

一种大数据url库的匹配方法、装置及存储介质 Download PDF

Info

Publication number
CN112632360A
CN112632360A CN202011626239.1A CN202011626239A CN112632360A CN 112632360 A CN112632360 A CN 112632360A CN 202011626239 A CN202011626239 A CN 202011626239A CN 112632360 A CN112632360 A CN 112632360A
Authority
CN
China
Prior art keywords
url
matching
library
domain name
url library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011626239.1A
Other languages
English (en)
Inventor
张晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Abt Networks Co ltd
Original Assignee
Beijing Abt Networks Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Abt Networks Co ltd filed Critical Beijing Abt Networks Co ltd
Priority to CN202011626239.1A priority Critical patent/CN112632360A/zh
Publication of CN112632360A publication Critical patent/CN112632360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据URL库的匹配方法、装置及存储介质,该方法包括:获取域名;在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。本发明利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。

Description

一种大数据URL库的匹配方法、装置及存储介质
技术领域
本发明涉及网络管理技术领域,尤其涉及一种大数据URL库的匹配方法、装置及存储介质。
背景技术
目前的安全设备都支持域名分类过滤功能。域名分类库中包含新闻、金融、旅游、流媒体和视频、体育、人文以及社交网络等各类特征及其分类信息。管理员根据实际的需求,管理分类资源,如上班时间只允许访问工作相关类的资源网站,阻断金融、旅游、流媒体和视频、体育等工作非相关类网站,随着互联网资源的大爆炸,使得域名成指数级增长,现有的域名匹配分类计算遭遇到极大的挑战,需要有处理大数据的方法支持亿级数据的快速匹配。
因此,如何综合快速进行域名匹配是亟待解决的问题。
发明内容
有鉴于此,有必要提供一种大数据URL库的匹配方法,用以解决如何综合快速进行域名匹配的问题。
本发明提供一种大数据URL库的匹配方法,包括:
获取域名;
在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;
若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
进一步地,所述在第一URL库中对所述域名进行匹配包括:
根据所述域名,确定所述域名对应的所述哈希值;
根据所述哈希值,确定所述域名对应的所述哈希队列;
根据所述哈希队列,在所述第一URL库中对所述域名进行匹配。
进一步地,上述大数据URL库的匹配方法还包括:若在所述第一URL库中匹配成功,则返回在所述第一URL库中的匹配结果。
进一步地,上述大数据URL库的匹配方法还包括:
若在所述第二URL库中匹配不成功,则将所述域名添加至升级文件中;
根据所述升级文件进行升级进程解析,确定所述域名对应的所述哈希值;
将所述哈希值存储在所述HASH分表中,确定更新后的所述第二URL库。
进一步地,上述大数据URL库的匹配方法还包括:
检测所述第一URL库中的匹配记录,根据所述匹配记录,定时清除所述第一URL库中未达到预定匹配次数的URL信息。
进一步地,上述大数据URL库的匹配方法还包括:
判断所述第一URL库中的URL信息的数目是否超过预设数目;
若超过,则检测所述第一URL库中的匹配记录;
根据所述匹配记录,对所述URL信息的匹配次数进行排序;
在所述第一URL库中,删除排序靠后的所述URL信息。
本发明还提供一种网络设备配置标准化的装置,包括:
获取单元,用于获取域名;
处理单元,用于在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;还用于若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
匹配单元,用于若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
本发明还提供一种网络设备配置标准化的装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上所述的大数据URL库的匹配方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
与现有技术相比,本发明的有益效果包括:首先,通过内存中的第一URL库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。综上,本发明利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。
附图说明
图1为本发明提供的大数据URL库的匹配方法的流程示意图;
图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图;
图3为本发明提供的更新第二URL库的流程示意图;
图4为本发明提供的更新第一URL库的流程示意图;
图5为本发明提供的大数据URL库的匹配装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明实施例提供了一种大数据URL库的匹配方法,结合图1来看,图1为本发明提供的大数据URL库的匹配方法的流程示意图,上述一种大数据URL库的匹配方法包括步骤S1至步骤S4,其中:
在步骤S1中,获取域名;
在步骤S2中,在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;
在步骤S3中,若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;
在步骤S4中,若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。
在本发明实施例中,首先,通过内存中的第一URL(Uniform Resource Locator,统一资源定位器)库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。
需要说明的是,URL是指每一信息资源都有统一的且在网上唯一的地址,它是WWW的统一资源定位标志,就是指网络地址;HASH,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。
优先地,第一URL库的建立包括:提供流行度较高的100万URL库加载到内存中,形成第一URL库。由此,利用第一URL库,直接在内存中进行匹配,保证匹配效率。
优先地,第二URL库的建立包括:将URL全库加载到URL数据库中,采用HASH分表存储的方式,形成第二URL库。由此,采用HASH分表存储,促使每个表中的数据很少,比如,1亿的有关URL信息的数据分布在1万个HASH分表中,每个HASH分表包含1万的数据,同时建立索引,保证特别快的查找速度。
优选地,结合图2来看,图2为本发明提供的在第一URL库中对域名进行匹配的流程示意图,步骤S2具体包括步骤S21至步骤S23,其中:
在步骤S21中,根据域名,确定域名对应的哈希值;
在步骤S22中,根据哈希值,确定域名对应的哈希队列;
在步骤S23中,根据哈希队列,在第一URL库中对域名进行匹配。
由此,首先,通过域名确定相应的哈希值,进而,通过哈希值确定哈希队列,查找内存中的相应的哈希队列,如匹配则返回匹配结果,大大提高了匹配速度。
优选地,上述大数据URL库的匹配方法还包括:若在第一URL库中匹配成功,则返回在第一URL库中的匹配结果。由此,优先利用内存进行匹配,如果在内存中的第一URL库命中了,则返回匹配结果,简单快速地完成了优先匹配。
优选地,结合图3来看,图3为本发明提供的更新第二URL库的流程示意图,上述大数据URL库的匹配方法还包括步骤S5至步骤S7,其中:
在步骤S5中,若在第二URL库中匹配不成功,则将域名添加至升级文件中;
在步骤S6中,根据升级文件进行升级进程解析,确定域名对应的哈希值;
在步骤S7中,将哈希值存储在HASH分表中,确定更新后的第二URL库。
由此,第二URL库采用增量升级的方式,将增加的域名添加到一个文件中,升级进程遍历文件,按照URL HASH的算法,填充到对应的数据表中,实现增量升级的方式,保证第二URL库的数据扩充,增加后续的命中率。
优选地,上述大数据URL库的匹配方法还包括:检测第一URL库中的匹配记录,根据匹配记录,定时清除第一URL库中未达到预定匹配次数的URL信息。由此,检查内存中UR的匹配次数,如命中次数一直很低,则采用定时的方式清除,保证内存的容量和查找速度。其中,预定匹配次数优选为零。
优选地,结合图4来看,图4为本发明提供的更新第一URL库的流程示意图,上述大数据URL库的匹配方法还包括步骤S8至步骤S11,其中:
在步骤S8中,判断第一URL库中的URL信息的数目是否超过预设数目;
在步骤S9中,若超过,则检测第一URL库中的匹配记录;
在步骤S10中,根据匹配记录,对URL信息的匹配次数进行排序;
在步骤S11中,在第一URL库中,删除排序靠后的URL信息。
由此,当内存中的第一URL库中的URL信息过多时,会导致内存的容量过小、查找速度变慢,为了避免这种情况,则定时清除命中率较低的URL信息,避免对内存的过多占用。其中,预设数目优选为200万,当内存中的第一URL库的数据量超出200万,则对URL信息进行排序,删除命中次数较小的URL信息,控制内存的占用。
在本发明一个具体的实施例中,对URL的匹配流程如下:
第一步:访问www.sapling.com,先匹配内存中的第一URL库,计算www.sapling.com对应的哈希值,查找相应的哈希队列,如匹配则返回匹配结果;
第二步:当内存中的第一URL库未匹配到www.sapling.com,则进行第二URL库的查找,查找www.sapling.com相应的HASH分表。如匹配,返回匹配结果,同时将www.sapling.com的URL信息及对应的返回结果加载到内存中的第一URL库,便于下次访问的匹配。
第三步:当第二URL库中未匹配到www.sapling.com,则需要升级第二URL库,将包含www.sapling.com的URL信息加入到升级文件中,升级进程解析到www.sapling.com,计算相应的HASH值,存储到对应HASH分表中。
第四步:升级第二URL库后,访问www.sapling.com重复从第一步的操作,实现进一步地匹配。
实施例2
本发明实施例提供了一种大数据URL库的匹配装置,结合图5来看,图5为本发明提供的大数据URL库的匹配装置的结构示意图,其中,大数据URL库的匹配装置500包括:
获取单元501,用于获取域名;
处理单元502,用于在第一URL库中对域名进行匹配,其中,第一URL库为内存中的URL库;还用于若在第一URL库中匹配不成功,则确定域名对应的哈希值,并根据哈希值,在第二URL库中对域名进行匹配,其中,第二URL库为采用HASH分表存储的URL数据库;
匹配单元503,用于若在第二URL库中匹配成功,则返回在第二URL库中的匹配结果,并将域名和在第二URL库中的匹配结果加载至第一URL库中。
实施例3
本发明实施例提供了一种大数据URL库的匹配装置,包括处理器以及存储器,存储器上存储有计算机程序,计算机程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
实施例4
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机该程序被处理器执行时,实现如上所述的大数据URL库的匹配方法。
本发明公开了一种大数据URL库的匹配方法、装置及存储介质首先,通过内存中的第一URL库进行优先匹配;进而,若在第一URL库中无法完成匹配,则在第二URL库中进行匹配,由于第二URL库采用不同HASH分表存储的方式,大大的提高数据库中查找的效率;最后,若在第二URL库中匹配成功,则将域名和在第二URL库中的匹配结果加载至第一URL库中进行更新,增强内存的第一URL库的匹配效率,保证下一次匹配的快速性和准确性。
本发明技术方案,利用内存的第一URL库进行查找,匹配不到则在第二URL库进行匹配,采用不同HASH分表存储的方式,大大的提高数据库中查找的效率,同时如果数据库中找到就将加载到内存中,增强内存的匹配效率。本发明采用内存、数据库存储及查找相结合的方法,采用内存及数据库的方式结合查找的方式,减小内存占用,采用URL数据库HASH的存储方式,实现快速查找,同时,实现了URL数据库的增量升级,保证了匹配的准度和速度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种大数据URL库的匹配方法,其特征在于,包括:
获取域名;
在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;
若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
2.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,所述在第一URL库中对所述域名进行匹配包括:
根据所述域名,确定所述域名对应的所述哈希值;
根据所述哈希值,确定所述域名对应的所述哈希队列;
根据所述哈希队列,在所述第一URL库中对所述域名进行匹配。
3.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,还包括:若在所述第一URL库中匹配成功,则返回在所述第一URL库中的匹配结果。
4.根据权利要求1所述的大数据URL库的匹配方法,其特征在于,还包括:
若在所述第二URL库中匹配不成功,则将所述域名添加至升级文件中;
根据所述升级文件进行升级进程解析,确定所述域名对应的所述哈希值;
将所述哈希值存储在所述HASH分表中,确定更新后的所述第二URL库。
5.根据权利要求1-4任一项所述的大数据URL库的匹配方法,其特征在于,还包括:
检测所述第一URL库中的匹配记录,根据所述匹配记录,定时清除所述第一URL库中未达到预定匹配次数的URL信息。
6.根据权利要求1-4任一项所述的大数据URL库的匹配方法,其特征在于,还包括:
判断所述第一URL库中的URL信息的数目是否超过预设数目;
若超过,则检测所述第一URL库中的匹配记录;
根据所述匹配记录,对所述URL信息的匹配次数进行排序;
在所述第一URL库中,删除排序靠后的所述URL信息。
7.一种大数据URL库的匹配装置,其特征在于,包括:
获取单元,用于获取域名;
处理单元,用于在第一URL库中对所述域名进行匹配,其中,所述第一URL库为内存中的URL库;还用于若在所述第一URL库中匹配不成功,则确定所述域名对应的哈希值,并根据所述哈希值,在第二URL库中对所述域名进行匹配,其中,所述第二URL库为采用HASH分表存储的URL数据库;
匹配单元,用于若在所述第二URL库中匹配成功,则返回在所述第二URL库中的匹配结果,并将所述域名和在所述第二URL库中的匹配结果加载至所述第一URL库中。
8.一种大数据URL库的匹配装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-6任一项所述的大数据URL库的匹配方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-6任一项所述的大数据URL库的匹配方法。
CN202011626239.1A 2020-12-30 2020-12-30 一种大数据url库的匹配方法、装置及存储介质 Pending CN112632360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011626239.1A CN112632360A (zh) 2020-12-30 2020-12-30 一种大数据url库的匹配方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011626239.1A CN112632360A (zh) 2020-12-30 2020-12-30 一种大数据url库的匹配方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112632360A true CN112632360A (zh) 2021-04-09

Family

ID=75289965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011626239.1A Pending CN112632360A (zh) 2020-12-30 2020-12-30 一种大数据url库的匹配方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112632360A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100022565A (ko) * 2008-08-20 2010-03-03 충남대학교산학협력단 해시트리를 이용한 url 검색방법
CN107402959A (zh) * 2017-06-15 2017-11-28 中国科学院信息工程研究所 Url匹配方法、url匹配设备及存储介质
CN109726340A (zh) * 2018-12-21 2019-05-07 武汉思普崚技术有限公司 统一资源定位符分类的查询方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100022565A (ko) * 2008-08-20 2010-03-03 충남대학교산학협력단 해시트리를 이용한 url 검색방법
CN107402959A (zh) * 2017-06-15 2017-11-28 中国科学院信息工程研究所 Url匹配方法、url匹配设备及存储介质
CN109726340A (zh) * 2018-12-21 2019-05-07 武汉思普崚技术有限公司 统一资源定位符分类的查询方法及装置

Similar Documents

Publication Publication Date Title
CN110321325B (zh) 文件索引节点查找方法、终端、服务器、系统及存储介质
US20150310129A1 (en) Method of managing database, management computer and storage medium
CN107368527B (zh) 基于数据流的多属性索引方法
CN107783985B (zh) 一种分布式数据库查询方法、装置及管理系统
CN108614837B (zh) 文件存储和检索的方法及装置
CN108228799B (zh) 对象索引信息的存储方法及装置
CN109766318B (zh) 文件读取方法及装置
CN109992603B (zh) 一种数据搜索方法、装置、电子设备和计算机可读介质
CN112328548A (zh) 一种文件检索方法及计算设备
US11126656B2 (en) Formatting semi-structured data in a database
US10838875B2 (en) System and method for managing memory for large keys and values
CN108319634B (zh) 分布式文件系统的目录访问方法和装置
CN111368227A (zh) 一种url处理方法以及装置
RU2568276C2 (ru) Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска
CN105468644A (zh) 一种用于在数据库中进行查询的方法与设备
CN113468080B (zh) 一种全闪元数据的缓存方法、系统及相关装置
US20090006354A1 (en) System and method for knowledge based search system
CN111460255A (zh) 一种音乐作品信息数据采集及存储方法
CN107590233B (zh) 一种文件管理方法及装置
US10019483B2 (en) Search system and search method
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
CN112632360A (zh) 一种大数据url库的匹配方法、装置及存储介质
US20090259617A1 (en) Method And System For Data Management
CN113177169B (zh) 网络地址的类别获取方法、装置、设备及存储介质
CN115495462A (zh) 批量数据更新方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination