CN104537107A - 一种网址存储匹配方法及装置 - Google Patents
一种网址存储匹配方法及装置 Download PDFInfo
- Publication number
- CN104537107A CN104537107A CN201510020607.0A CN201510020607A CN104537107A CN 104537107 A CN104537107 A CN 104537107A CN 201510020607 A CN201510020607 A CN 201510020607A CN 104537107 A CN104537107 A CN 104537107A
- Authority
- CN
- China
- Prior art keywords
- url
- domain name
- dictionary tree
- network address
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网址存储匹配方法及装置,上述方法包括以下步骤:预处理URL库中的每个原始URL,得到保留域名的URL;将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;为所述待存储的URL创建字典树;根据所述创建的字典树,查询待匹配的URL。本发明公开的网址存储匹配方法及装置,能够解决现有的URL存储匹配方法无法实现精确匹配、占用空间较大及部分匹配正确率不高等问题。
Description
技术领域
本发明涉及海量数据存储和查询领域,尤其涉及一种网址存储匹配方法及装置。
背景技术
目前,随着网络通信的日益发展,移动终端无线上网每天产生的是数以亿计,占用存储空间TB量级的海量数据,一个月的海量数据更是达到万亿、PB量级。从该海量数据库中能够挖掘各种有用信息,比如统计每月Top1000网站点击次数排名。由于上网记录中包含的网址信息是详细的统一资源定位符(Uniform Resource Locator,URL)链接,因此,当需要针对同一个网站的不同URL进行归类统计时,会遇到如何将URL转换匹配到网站名称的问题。比如:两个URL:www.baidu.com和map.baidu.com都转换匹配为网站名称“百度”。
目前为了解决上述URL检索匹配问题,主要有两种方法:基于哈希表存储匹配方法和基于字典树存储匹配方法。
于此,以表1所示的URL库内容以及表2所示的手机无线上网记录提取URL为基础说明基于哈希表存储匹配方法以及基于字典树存储匹配方法。
表1URL库内容表
其中,如表1所示,URL库内容表中每条记录分为URL和网站名称两个字段。
表2 手机无线上网记录URL提取表
如表2所示,从每月手机无线上网记录中提取的访问网址URL每条表示一次点击访问。该URL是完整网址,包括http协议标识、路径目录以及可能的域名端口号等信息。
具体而言,基于哈希表存储方法包括:遍历URL库(即表1),将每条URL预处理,使用URL作为哈希表键值对的key,使用URL对应的网站名称作为哈希表键值对的value。于此,哈希表例如表3所示。
表3URL库载入的哈希表
m.sohu.com | 搜狐手机 |
taobao.com | 淘宝网 |
qzone.qq.com | QQ空间 |
m.taobao.com | 手机版淘宝网 |
google.com | 谷歌 |
接着,对待匹配的URL进行预处理。预处理主要分为去掉http协议标识、去掉域名后面部分、去掉端口号等过程。以网址http://m.sohu.com:8080/images/logo-icon.png为例,首先去掉http协议标识得到:m.sohu.com:8080/images/logo-icon.png,其次,去掉域名后面部分得到:m.sohu.com:8080,接着,去掉端口号得到:m.sohu.com。
URL经过预处理之后,就可以查询哈希表进行匹配操作。预处理后的URL作为键值在哈希表中查询,如果查询值不为空表示匹配上,否则没有匹配上。若没有匹配上,需要将域名从前面去掉一个段之后继续进行匹配。上述预处理之后的m.sohu.com能够在表3的哈希表中匹配到,即匹配搜狐手机。
另外,以网址http://news.m.sohu.com/?fr=3w&jump=front为例进行说明,经过预处理后URL变为news.m.sohu.com,该预处理之后的URL在表3所示的哈希表中匹配不到记录,则需要将该URL从前面去掉一个段再进行匹配。该URL去掉一个段之后变成m.sohu.com,则该URL在表3所示的哈希表中能够匹配到。
综上,基于哈希表存储匹配法,其匹配过程是:(1)将网址URL库载入到哈希表;(2)针对每个待匹配URL进行预处理,且URL预处理过程是先去掉http协议标识,然后去掉域名后面部分,最后去掉端口号;(3)预处理后的URL在哈希表中匹配,如果匹配到则结束;否则进行下一步骤;(4)将预处理后的URL从前面去掉一个段,然后再进行哈希表匹配,如果匹配到则结束;否则重复步骤(4),直到顶级域名为止。
具体而言,基于字典树存储匹配法是先将URL库载入到字典树中,然后对于手机上网记录中提取的URL进行匹配操作。其中,每个字典树节点构造时,初始化100个字节数组,用于存储ASCII编码表中可见字符。由于,可见字符为从33到127,因此,可见字符存放在字节数组中的下标是ASCII值减去33。
其中,字典树构造方法是依次扫描URL库每条URL,然后逐个字符扫描该URL,从字典树顶端开始查询,如果该字符在树枝节点中,继续下一个字符查找;否则新建一个树枝节点,将该字符赋值该树枝节点,继续下一个字符查找,直至该URL处理完所有字符。图1所示为构造m.sohu.com的字典树的示意图,图2所示为在图1基础上添加网址taobao.com之后的字典树的示意图。
如图2所示,包括两个URL之后的字典树,末端叶子节点内容为顶级域名的末字母,则为m、n、t、g、u等。末端叶子节点只有一个有效字节,浪费较多空间。
以网址http://m.sohu.com/images/logo-icon.png的查找过程为例进行说明,首先对该URL进行预处理成为m.sohu.com。接着,先扫描第一个字符为“m”,在字典树的子节点查找到存在节点node1,然后第二个字符“.”在node1的子节点中查找存在节点node2,然后第三个字符“s”在node2的子节点中查找存在节点node3,依次类推,直到该URL扫描完成。如果匹配到最终的叶子节点,则匹配成功,否则匹配失败。
基于哈希表存储匹配方法和基于字典树存储匹配方法中,根据查询匹配结果可以进行网站点击次数累积的计算。
综上所述,基于哈希表存储匹配方法是将URL库载入到哈希表中,在URL匹配时进行查询匹配;基于字典树存储匹配方法是将URL载入到字典树中,在URL匹配时进行查询匹配。方法一(即基于哈希表存储匹配方法)的主要问题在于当URL库数据巨大时,导致哈希键值冲突概率很大,而且匹配查询只能进行精确完全匹配查询;方法二(即基于字典树存储匹配方法)的主要问题在于URL库正序载入到字典树中,占用空间巨大,而且对于URL域名部分匹配正确率不高。
发明内容
本发明提供了一种网址存储匹配方法及装置,用来解决现有的URL存储匹配方法无法实现精确匹配、占用空间较大及部分匹配正确率不高等问题。
为了解决上述技术问题,本发明提供一种网址存储匹配方法,包括以下步骤:预处理URL库中的每个原始URL,得到保留域名的URL;将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;为所述待存储的URL创建字典树;根据所述创建的字典树,查询待匹配的URL。
进一步地,根据所述创建的字典树,查询所述待匹配的URL包括:预处理所述待匹配的URL,得到保留域名的URL,将所述保留域名的URL转换为大写字母并进行域名倒排,得到处理后的URL,依次查询所述字典树的节点,判断是否匹配所述处理后的URL。
进一步地,预处理URL,得到保留域名的URL包括:去除所述URL的http协议标识、路径部分以及端口号,得到保留域名的URL。
进一步地,将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL包括:将所述保留域名的URL转换为大写字母,将转换为大写字母的URL以点号为间隔从左至右的域名按照以点号为间隔从右至左的顺序排列,得到待存储的URL。
进一步地,为所述待存储的URL创建字典树前,还包括:为所述字典树的每个节点初始化用于存储字符“.”及大写字母字符的字符数组。
本发明还提供一种网址存储匹配装置,包括第一处理模块、第二处理模块、字典树创建模块以及查询模块。所述第一处理模块,用于预处理URL库中的每个原始URL,得到保留域名的URL;所述第二处理模块,用于将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;所述字典树创建模块,用于为所述待存储的URL创建字典树;所述查询模块,用于根据所述创建的字典树,查询待匹配的URL。
进一步地,所述查询模块,用于根据所述创建的字典树,查询所述待匹配的URL包括:预处理所述待匹配的URL,得到保留域名的URL,将所述保留域名的URL转换为大写字母并进行域名倒排,得到处理后的URL,依次查询所述字典树的节点,判断是否匹配所述处理后的URL。
进一步地,所述第一处理模块或所述查询模块,用于预处理URL,得到保留域名的URL包括:去除所述URL的http协议标识、路径部分以及端口号,得到保留域名的URL。
进一步地,所述第二处理模块,用于将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL包括:将所述保留域名的URL转换为大写字母,将转换为大写字母的URL以点号为间隔从左至右的域名按照以点号为间隔从右至左的顺序排列,得到待存储的URL。
进一步地,所述字典树创建模块,于创建所述字典树前,还用于为所述字典树的每个节点初始化用于存储字符“.”及大写字母字符的字符数组。
本发明提供的网址存储匹配方法及装置基于变形倒排字典树实现,于本发明中,在把URL库载入字典树时,除了现有的预处理过程,每个URL还会进行格式转换,转换为大写字母格式,以及域名倒排,最后将倒排转换后的URL加入到字典树中。本发明提供的上述方法,既能够避免现有的方法一(即基于哈希表存储匹配方法)只能进行精确URL匹配以及哈希键值冲突概率很大的问题,又能够避免方法二(即基于字典树存储匹配方法)中占用空间巨大的问题以及对URL域名部分匹配正确率不高的问题。
附图说明
图1所示为根据现有技术构造的m.sohu.com的字典树的示意图;
图2所示为在图1基础上添加网址taobao.com之后的字典树的示意图;
图3所示为根据本发明较佳实施例提供的网址存储匹配方法的流程图;
图4所示为根据本发明较佳实施例构造的m.sohu.com的字典树的示意图;
图5所示为在图4基础上添加网址taobao.com之后的字典树的示意图;
图6所示为待匹配网址taobao.com在图5所示的字典树中的匹配过程示意图;
图7所示为网址m.taobao.com的单支变形倒排字典树的示意图;
图8所示为根据本发明较佳实施例提供的网址存储匹配装置的示意图。
具体实施方式
如图3所示,本发明较佳实施例提供一种网址存储匹配方法,包括以下步骤:预处理统一资源定位符(URL)库中的每个原始URL,得到保留域名的URL;将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;为所述待存储的URL创建字典树;根据所述创建的字典树,查询待匹配的URL。
于此,仍以表1所示的URL库内容以及表2所示的手机无线上网记录提取URL为基础说明本发明较佳实施例提供的网址存储匹配方法。
具体而言,首先对URL库(即表1)中每条URL进行预处理。预处理主要分为去掉http协议标识、去掉路径部分、去掉端口号等过程。以网址http://m.sohu.com:8080/images/logo-icon.png为例,首先去掉http协议标识得到:m.sohu.com:8080/images/logo-icon.png,其次,去掉域名后面的路径部分得到:m.sohu.com:8080,接着,去掉端口号得到:m.sohu.com。
之后,对预处理之后的URL进行字母格式转换以及域名倒排转换,得到大写字母格式且域名倒排的URL。其中,域名倒排指将URL以点号为间隔从左至右的域名按照以点号为间隔从右至左的顺序排列。于此,以m.sohu.com为例,经过域名倒排转换得到:com.sohu.m,经过大写字母格式转换得到:COM.SOHU.M。于此,本发明并不限定大写字母格式转换和域名倒排转换的顺序,仅需要最终得到大写字母格式且域名倒排的URL即可。如此,既能极大地降低占用空间,又能较大地提高URL域名部分匹配准确率。
具体而言,由于网址URL的域名中字母不区分大小写,且ASCII码表中大写字母相比小写字母距离字符“.”更近,因此,在进行URL处理时,将预处理后的URL转换为大写字母,使得字典树每个节点的大小不用初始化100个字符,只需要初始化50个字符即可,用以存储字符“.”及大写字母字符。如此,大大节省了字典树占用的存储空间。于本实施例中,字典树的每个节点初始化50个字符数组,用于存储字符“.”到字符“Z”。然而,本发明并不限定每个节点存储空间的实现方式,于其他实施例中,字典树的每个节点存储的节点数据亦可通过哈希表实现。
图4所示为根据本发明较佳实施例构造的m.sohu.com的字典树的示意图;图5所示为在图4基础上添加网址taobao.com之后的字典树的示意图。如图4和图5所示,添加两个网址m.sohu.com和taobao.com之后,本发明较佳实施例提供的字典树有多个共用节点,而图2所示的普通字典树共用节点很少,由此可以得出本发明较佳实施例提供的变形倒排字典树比普通字典树节省了大量节点所占用的空间。
接着,参照图6,以待匹配网址taobao.com为例,说明基于本发明较佳实施例提供的变形倒排字典树的匹配过程。如图6所示,首先,对网址taobao.com进行处理,得到COM.TAOBAO,然后逐个字符在变形倒排字典树中查询,其查询匹配流程如图6粗体箭头所示。
接下来以m.taobao.com作为变形倒排字典树节点构造,使用多个taobao相关URL进行精确和部分域名的查找匹配测试。
如图7所示,该单支变形倒排字典树的构造使用URL为m.taobao.com,一共12个有效节点。下面使用三个URL(taobao.com、m.taobao.com、shop123005.m.taobao.com)进行该单支字典树的测试。
待匹配URL:taobao.com的匹配过程如表4所示。
表4taobao.com匹配过程
待匹配URL:m.taobao.com的匹配过程如表5所示。
表5m.taobao.com匹配过程
待匹配URL:shop123005.m.taobao.com的匹配过程如表6所示。
表6shop123005.m.taobao.com匹配过程
根据表4、表5及表6所示的三个URL匹配测试过程,可以得出基于本发明较佳实施例提供的变形倒排字典树的存储匹配方法既能精确匹配,又能进行域名中部分匹配。
另外,以测试样本URL库大小为110万条记录,待匹配的URL列表为5万条记录为基础,进行三种URL存储匹配方法的测试比较。表7为进行三种URL存储匹配方法测试的结果对比表。
表7 三种URL存储匹配方法测试结果对比表
由表7可知,本发明较佳实施例提供的基于变形倒排字典树的网址存储匹配方法是最优的,其占用空间小,URL库载入时间短,且不存在键值冲突问题,而且匹配正确率较高。
另外,如图8所示,本发明较佳实施例还提供一种网址存储匹配装置,包括第一处理模块101、第二处理模块102、字典树创建模块103以及查询模块104。第一处理模块101,用于预处理URL库中的每个原始URL,得到保留域名的URL;第二处理模块102,用于将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;字典树创建模块103,用于为所述待存储的URL创建字典树;查询模块104,用于根据所述创建的字典树,查询待匹配的URL。关于所述装置的具体操作过程同上述方法所述,故于此不再赘述。
综上所述,本发明较佳实施例提供的基于变形倒排字典树的网址存储匹配方法既能解决哈希表存储匹配法的键值冲突,以及无法实现域名部分匹配的问题,也能解决现有的字典树存储匹配法占用空间过大,而且域名部分匹配正确率不高的问题。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (10)
1.一种网址存储匹配方法,其特征在于,包括以下步骤:
预处理统一资源定位符(URL)库中的每个原始URL,得到保留域名的URL;
将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;
为所述待存储的URL创建字典树;
根据所述创建的字典树,查询待匹配的URL。
2.如权利要求1所述的网址存储匹配方法,其特征在于,所述根据所述创建的字典树,查询所述待匹配的URL包括:预处理所述待匹配的URL,得到保留域名的URL,将所述保留域名的URL转换为大写字母并进行域名倒排,得到处理后的URL,依次查询所述字典树的节点,判断是否匹配所述处理后的URL。
3.如权利要求1或2所述的网址存储匹配方法,其特征在于:所述预处理URL,得到保留域名的URL包括:去除所述URL的http协议标识、路径部分以及端口号,得到保留域名的URL。
4.如权利要求1所述的网址存储匹配方法,其特征在于,将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL包括:将所述保留域名的URL转换为大写字母,将转换为大写字母的URL以点号为间隔从左至右的域名按照以点号为间隔从右至左的顺序排列,得到待存储的URL。
5.如权利要求1所述的网址存储匹配方法,其特征在于:为所述待存储的URL创建字典树前,还包括:为所述字典树的每个节点初始化用于存储字符“.”及大写字母字符的字符数组。
6.一种网址存储匹配装置,其特征在于:包括第一处理模块、第二处理模块、字典树创建模块以及查询模块,
所述第一处理模块,用于预处理URL库中的每个原始URL,得到保留域名的URL;
所述第二处理模块,用于将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL;
所述字典树创建模块,用于为所述待存储的URL创建字典树;
所述查询模块,用于根据所述创建的字典树,查询待匹配的URL。
7.如权利要求6所述的网址存储匹配装置,其特征在于:所述查询模块,用于根据所述创建的字典树,查询所述待匹配的URL包括:预处理所述待匹配的URL,得到保留域名的URL,将所述保留域名的URL转换为大写字母并进行域名倒排,得到处理后的URL,依次查询所述字典树的节点,判断是否匹配所述处理后的URL。
8.如权利要求6或7所述的网址存储匹配装置,其特征在于:所述第一处理模块或所述查询模块,用于预处理URL,得到保留域名的URL包括:去除所述URL的http协议标识、路径部分以及端口号,得到保留域名的URL。
9.如权利要求6所述的网址存储匹配装置,其特征在于:所述第二处理模块,用于将所述保留域名的URL转换为大写字母并进行域名倒排,得到待存储的URL包括:将所述保留域名的URL转换为大写字母,将转换为大写字母的URL以点号为间隔从左至右的域名按照以点号为间隔从右至左的顺序排列,得到待存储的URL。
10.如权利要求6所述的网址存储匹配装置,其特征在于:所述字典树创建模块,于创建所述字典树前,还用于为所述字典树的每个节点初始化用于存储字符“.”及大写字母字符的字符数组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510020607.0A CN104537107A (zh) | 2015-01-15 | 2015-01-15 | 一种网址存储匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510020607.0A CN104537107A (zh) | 2015-01-15 | 2015-01-15 | 一种网址存储匹配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104537107A true CN104537107A (zh) | 2015-04-22 |
Family
ID=52852635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510020607.0A Pending CN104537107A (zh) | 2015-01-15 | 2015-01-15 | 一种网址存储匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537107A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095369A (zh) * | 2015-06-29 | 2015-11-25 | 北京金山安全软件有限公司 | 网址匹配方法及装置 |
CN105426474A (zh) * | 2015-11-18 | 2016-03-23 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
CN105611000A (zh) * | 2016-03-31 | 2016-05-25 | 中国互联网络信息中心 | 一种域名服务器的dns域名快速检索方法 |
CN105978865A (zh) * | 2016-04-29 | 2016-09-28 | 北京小米移动软件有限公司 | 应用包名验证方法及装置 |
WO2017088690A1 (zh) * | 2015-11-25 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种域名检索方法及设备 |
CN108549679A (zh) * | 2018-04-03 | 2018-09-18 | 国家计算机网络与信息安全管理中心 | 用于url分析系统的文件扩展名快速匹配方法和装置 |
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN108710671A (zh) * | 2018-05-16 | 2018-10-26 | 北京金堤科技有限公司 | 文本中公司名称的提取方法及装置 |
CN108900554A (zh) * | 2018-08-22 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | Http协议资产检测方法、系统、设备及计算机介质 |
CN109344353A (zh) * | 2018-09-12 | 2019-02-15 | 福建天泉教育科技有限公司 | 一种可配置化的本地缓存刷新方法及终端 |
CN112040022A (zh) * | 2020-08-25 | 2020-12-04 | 成都安恒信息技术有限公司 | 一种dns缓存处理方法 |
CN112380324A (zh) * | 2020-12-02 | 2021-02-19 | 北京微步在线科技有限公司 | 一种用于确定域名及其父域名的方法、系统和介质 |
CN112804373A (zh) * | 2020-12-30 | 2021-05-14 | 微医云(杭州)控股有限公司 | 接口域名确定方法、装置、电子设备及存储介质 |
CN113312549A (zh) * | 2021-05-25 | 2021-08-27 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN115878924A (zh) * | 2021-09-27 | 2023-03-31 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
CN117640259A (zh) * | 2024-01-25 | 2024-03-01 | 武汉思普崚技术有限公司 | 一种脚本分步检测方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1979482A (zh) * | 2006-11-08 | 2007-06-13 | 中国工商银行股份有限公司 | 一种基于键树的特定文本信息处理方法及系统 |
CN102110132A (zh) * | 2010-12-08 | 2011-06-29 | 北京星网锐捷网络技术有限公司 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
CN102882987A (zh) * | 2011-07-12 | 2013-01-16 | 阿里巴巴集团控股有限公司 | 域名过滤名单存储、匹配方法及装置 |
CN103077208A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 统一资源定位符匹配处理方法及装置 |
US8880502B2 (en) * | 2004-03-15 | 2014-11-04 | International Business Machines Corporation | Searching a range in a set of values in a network with distributed storage entities |
-
2015
- 2015-01-15 CN CN201510020607.0A patent/CN104537107A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8880502B2 (en) * | 2004-03-15 | 2014-11-04 | International Business Machines Corporation | Searching a range in a set of values in a network with distributed storage entities |
CN1979482A (zh) * | 2006-11-08 | 2007-06-13 | 中国工商银行股份有限公司 | 一种基于键树的特定文本信息处理方法及系统 |
CN102110132A (zh) * | 2010-12-08 | 2011-06-29 | 北京星网锐捷网络技术有限公司 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
CN102882987A (zh) * | 2011-07-12 | 2013-01-16 | 阿里巴巴集团控股有限公司 | 域名过滤名单存储、匹配方法及装置 |
CN103077208A (zh) * | 2012-12-28 | 2013-05-01 | 华为技术有限公司 | 统一资源定位符匹配处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
JLNSQT: ""trie树 省内存 trie 树 URL 匹配"", 《HTTP://JLNSQT.BLOG.51CTO.COM/2212965/1405052》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095369A (zh) * | 2015-06-29 | 2015-11-25 | 北京金山安全软件有限公司 | 网址匹配方法及装置 |
CN105426474B (zh) * | 2015-11-18 | 2019-03-01 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
CN105426474A (zh) * | 2015-11-18 | 2016-03-23 | 福建星网锐捷网络有限公司 | 统一资源定位符url匹配的方法及装置 |
WO2017088690A1 (zh) * | 2015-11-25 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种域名检索方法及设备 |
CN105611000A (zh) * | 2016-03-31 | 2016-05-25 | 中国互联网络信息中心 | 一种域名服务器的dns域名快速检索方法 |
CN105611000B (zh) * | 2016-03-31 | 2019-04-26 | 中国互联网络信息中心 | 一种域名服务器的dns域名快速检索方法 |
CN105978865A (zh) * | 2016-04-29 | 2016-09-28 | 北京小米移动软件有限公司 | 应用包名验证方法及装置 |
CN105978865B (zh) * | 2016-04-29 | 2019-12-13 | 北京小米移动软件有限公司 | 应用包名验证方法及装置 |
CN108563685A (zh) * | 2018-03-13 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种银行标识代码的查询方法、装置及设备 |
CN108549679A (zh) * | 2018-04-03 | 2018-09-18 | 国家计算机网络与信息安全管理中心 | 用于url分析系统的文件扩展名快速匹配方法和装置 |
CN108710671A (zh) * | 2018-05-16 | 2018-10-26 | 北京金堤科技有限公司 | 文本中公司名称的提取方法及装置 |
CN108710671B (zh) * | 2018-05-16 | 2020-06-05 | 北京金堤科技有限公司 | 文本中公司名称的提取方法及装置 |
CN108900554A (zh) * | 2018-08-22 | 2018-11-27 | 杭州安恒信息技术股份有限公司 | Http协议资产检测方法、系统、设备及计算机介质 |
CN109344353A (zh) * | 2018-09-12 | 2019-02-15 | 福建天泉教育科技有限公司 | 一种可配置化的本地缓存刷新方法及终端 |
CN112040022A (zh) * | 2020-08-25 | 2020-12-04 | 成都安恒信息技术有限公司 | 一种dns缓存处理方法 |
CN112380324A (zh) * | 2020-12-02 | 2021-02-19 | 北京微步在线科技有限公司 | 一种用于确定域名及其父域名的方法、系统和介质 |
CN112380324B (zh) * | 2020-12-02 | 2022-02-01 | 北京微步在线科技有限公司 | 一种用于确定域名及其父域名的方法、系统和介质 |
CN112804373A (zh) * | 2020-12-30 | 2021-05-14 | 微医云(杭州)控股有限公司 | 接口域名确定方法、装置、电子设备及存储介质 |
CN113312549A (zh) * | 2021-05-25 | 2021-08-27 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN113312549B (zh) * | 2021-05-25 | 2024-01-26 | 北京天空卫士网络安全技术有限公司 | 一种域名处理方法和装置 |
CN115878924A (zh) * | 2021-09-27 | 2023-03-31 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
CN115878924B (zh) * | 2021-09-27 | 2024-03-12 | 小沃科技有限公司 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
CN117640259A (zh) * | 2024-01-25 | 2024-03-01 | 武汉思普崚技术有限公司 | 一种脚本分步检测方法、装置、电子设备及介质 |
CN117640259B (zh) * | 2024-01-25 | 2024-06-04 | 武汉思普崚技术有限公司 | 一种脚本分步检测方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537107A (zh) | 一种网址存储匹配方法及装置 | |
CN100485603C (zh) | 用于从搜索查询中产生概念单元的系统和方法 | |
CN106326361B (zh) | 一种基于HBase数据库的数据查询方法及装置 | |
CN101950312B (zh) | 一种互联网网页内容解析方法 | |
CN102246172A (zh) | 用于电子内容的分布式索引搜索的系统及方法 | |
CN105095369A (zh) | 网址匹配方法及装置 | |
CN103414745A (zh) | 一种移动终端跨浏览器登陆的方法和装置 | |
US20150100563A1 (en) | Method for retaining search engine optimization in a transferred website | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN106909595A (zh) | 一种数据迁移方法及装置 | |
CN106844553B (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN102982118A (zh) | 一种基于收藏夹的搜索方法和装置 | |
CN109460404A (zh) | 一种基于redis的高效Hbase分页查询方法 | |
JP4610360B2 (ja) | 重複Webサイト検出装置 | |
CN103077208A (zh) | 统一资源定位符匹配处理方法及装置 | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 | |
CN111061972B (zh) | 一种用于url路径匹配的ac查找优化方法和装置 | |
CN105912696A (zh) | 一种基于对数归并的dns索引创建方法及查询方法 | |
CN104881475A (zh) | 一种用于大数据随机抽样的方法和系统 | |
CN102436458A (zh) | 一种命令解析的方法及其系统 | |
CN110955855A (zh) | 一种信息拦截的方法、装置及终端 | |
CN105005619A (zh) | 一种海量网站基础信息的快速检索方法和系统 | |
WO2008096992A1 (en) | System and method for providing search service by keywords | |
CN105897824A (zh) | 提示文案的分享、配置方法、装置和分享系统 | |
CN103136294A (zh) | 文件操作方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150422 |
|
RJ01 | Rejection of invention patent application after publication |