CN102411617A - 一种对海量url进行存储和查询方法 - Google Patents

一种对海量url进行存储和查询方法 Download PDF

Info

Publication number
CN102411617A
CN102411617A CN2011103382042A CN201110338204A CN102411617A CN 102411617 A CN102411617 A CN 102411617A CN 2011103382042 A CN2011103382042 A CN 2011103382042A CN 201110338204 A CN201110338204 A CN 201110338204A CN 102411617 A CN102411617 A CN 102411617A
Authority
CN
China
Prior art keywords
url
character string
www
field
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103382042A
Other languages
English (en)
Other versions
CN102411617B (zh
Inventor
李建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN 201110338204 priority Critical patent/CN102411617B/zh
Publication of CN102411617A publication Critical patent/CN102411617A/zh
Application granted granted Critical
Publication of CN102411617B publication Critical patent/CN102411617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种对海量URL进行存储和查询的方法,首先利用数据表存储URL的MD5值和特征字符串,其中特征字符串是先将URL原始字符串开头到“//WWW.”部分去除,再将剩余字符串按照“/”分割为多个字符串,取前N个分割后字符串的第一个和最后一个字符顺序拼接组成(N为8~12的整数);分别对数据表中的特征字符串和MD5值建立树形索引。精确查询时,计算待查询URL的MD5值,查询数据表中的MD5字段即可;后模糊匹配查询时,根据待查询URL的特征字符串,先查询对数据表中的特征字符串字段,取特征字符串相符的URL值,再将待查询URL与这些URL值进行实际匹配查询。

Description

一种对海量URL进行存储和查询方法
技术领域
本发明涉及海量数据结构化存储和查询领域,特别涉及一种对海量结构化URL(UniformResource Locator)进行快速存储和查询的方法。
背景技术
随着互联网的普及,世界范围内的互联网网站个数和互联网的使用用户都在不断的增加,从而使得互联网的数据在以指数级的速度增长,而和互联网息息相关的便是网站的URL和相应的内容。
URL即统一资源定位符(Uniform Resource Locator),也被称为网页地址,是因特网上标准的资源的地址。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的,现在它已经被万维网联盟编制为因特网标准RFC1738。URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。
URL相当于一个文件名在网络范围的扩展。因此URL是与因特网相连的机器上的任何可访问对象的一个指针。URL的一般形式是:
<URL的访问方式>://<主机>:<端口>/<路径>
URL就像一个人的身份证号,它是一个互联网页面的唯一标识,同时也是一个互联网页面的唯一入口,无论是手动输入URL和是通过其他连接转入一个互联网页面,它们进入页面是都需要这个全球唯一的URL。对于互联网信息搜索应用领域,需要记录下每个收集到的页面信息,页面信息包括页面的URL和其他的页面内容。那么,面对如此大量的URL信息该如何快速的根据URL进行检索呢?目前主要有以下两种解决方法:
1.通过对URL建立全文索引进行检索。
2.通过对URL建立普通的树形索引进行检索。
在面临海量结构化URL的查询中,上述方法都不够完善。
第一种方法的优点是数据加载速度快,查询速度快,但是因为全文索引要把URL进行拆分处理,所以不能对URL数据进行精确查询和后模糊匹配查询。例如:如果要检索URL等于“www.hostname.com/house/beijing/dongcheng.html”的信息,在使用全文索引进行检索的时候,会返回包含以上URL中的一个或是多个单词的URL(如会返回包含hostname或是beijing的URL),而不能只返回完全匹配的URL,从而不能实现精确匹配的查询。同样的道理,对URL后模糊匹配全文索引也不能实现。
第二种方法的优点是支持精确和后模糊查询,但查询性能一般。因为要对很长的字符串建索引,建立索引的数据的行数多,字符串长度大,造成数据加载性能低下,不能满足海量数据的处理要求。
发明内容
本发明的目的在于提供一种对URL数据进行存储和查询的方法,用以解决海量URL的快速存储和精确、后模糊匹配查询。
本发明的技术方案如下:
一种对海量URL进行存储和查询的方法,首先设计如下数据表(表1)用于存储URL信息:
表1
  URL   MD5   Keywords   Col1   Col2 ...
表1中,URL字段用于存储URL字符串,MD5字段用于存储URL的MD5值,keywords字段用于存储URL的特征字符串,剩余字段按照具体情况用于存储与该URL相关的其他属性信息;
在加载一条结构化记录数据时,将URL的原始字符串开头到“//WWW.”部分的字符串去除(如果“//”之后的字符串不是“WWW.”则只去除开头到“//”部分的字符串),剩余字符串存入表1的URL字段中;计算URL原始字符串的MD5值,存入表1的MD5字段中;按照“/”将URL剩余字符串分割为多个字符串,然后取第N个“/”之前的所有分割后字符串(N为8~12的整数,优选为10)(注:对于分割后字符串少于等于N个的取全部分割后字符串,而对于分割后字符串超过N个的取前N个分割后字符串),将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成一个特征字符串,存入表1的keywords字段中;其他和该URL关联的信息存入相同行的对应字段中。
URL数据信息存入表1后,分别对特征字符串(keywords)字段和MD5字段建立树形索引。
在查询数据的时候,如果进行精确查询,将待查询的URL的原始字符串去除开头到“//WWW.”部分的字符串(如果“//”之后的字符串不是“WWW.”则只去除开头到“//”部分的字符串),并计算URL原始字符串的MD5值,查询数据表中的MD5字段,取MD5值相符的URL值即可;如果进行后模糊匹配查询,将待查询的URL的原始字符串去除开头到“//WWW.”部分的字符串(如果“//”之后的字符串不是“WWW.”则只去除开头到“//”部分的字符串),然后按照“/”将URL剩余字符串分割为多个字符串,取第N个“/”之前的所有分割后字符串,将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成特征字符串,先对数据表中的keywords字段进行查询,取keywords相符的URL值,再将待查询的URL与该URL值进行实际匹配查询。
上述MD5的全称是Message-Digest Algorithm 5,在90年代初由MIT的计算机科学实验室和RSA Data Security Inc发明。MD5是对一段字符串产生数字指纹,MD5值就是指经MD5计算得到的这种数字指纹
本发明对海量URL进行存储和查询的方法中,所述与URL相关的其他属性信息包括URL的更新时间、URL的作者、URL对应的内容摘要等。
根据本发明的方法,数据加载速度快,同时又能对URL数据进行精确查询和后模糊匹配查询。
具体实施方式
以下通过实施例对本发明作进一步说明,但这并非是对本发明的限制,本领域技术人员根据本发明的基本思想,可以做出各种修改或改进,但是只要不脱离本发明的基本思想,均在本发明的范围之内。
数据加载
1.首先设计表2用于存储海量数据:
表2
  URL   MD5   Keywords   Createtime   Author  Context
表2中,URL用于存储URL信息;MD5用于存储URL的MD5值;keywords用于存储URL的特征字符串;Createtime用于存储URL的更新时间;Author用于存储URL的作者;Context用与存储URL对应的内容摘要。
2.根据下述步骤加载一条结构化记录数据:
例如对于:“http://www.kris3106.com/class1/group2/string3/index11015.html,2011-6-17,张三,URL的快速查询方法”,
1)去除URL中的HTTP://WWW.字符串,剩下“kris3106.com/class1/group2/string3/index11015.html,2011-6-17,张三,URL的快速查询方法”字符串,存入表2的URL字段中;
2)取URL原始字符串,计算其MD5值,存入同一条记录的MD5字段中;
3)按照“/”分割步骤1)处理后剩下的URL字符串,拆分成“kris3106.com”,“class1”,“group2”,“string3”,“index11015.html”,取“kris3106.com”,“class1”,“group2”,“string3”和“index11015.html”每个字符串的第一个和最后一个字符(即其中的划下划线的字符)顺序拼接在一起,组成字符串“kmclg2s3il”,将该字符串存入同一条记录的keywords字段中;
4)将其他与该URL关联的所有信息存放到同一条记录的对应字段。
存入上述信息的表2如下所示:
3.分别对keywords字段和MD5字段建立普通树形索引,这样便完成了数据的加载。
数据查询
1.如果进行精确查询
a)将待查询的URL的原始值去除开头的HTTP://WWW.字符串;
b)计算URL原始字符串的MD5值;
c)查询表中的MD5字段。
2.如果进行后模糊查询
a)将待查询URL的原始值去除开头的HTTP://WWW.字符串;
b)然后根据“/”将剩余URL字符串分割为多个字符串,取第10个“/”之前的所有的分割后字符串(不足10个的有多少取多少个),将其中的每个分割后字符串的第一个和最后一个字符顺序拼接组成一个特征字符串;
c)用步骤b)分析得到的特征字符串在表中的keywords字段中进行后模糊查询;
d)取得符合keywords字段的URL值;
e)比较待查询的原始URL和符合keywords字段的URL值。

Claims (3)

1.一种对海量URL进行存储和查询的方法,首先将海量URL信息存入下述信息表中:
 URL   MD5   Keywords   Col1   Col2 ...
存储步骤如下:
1)对于URL的原始字符串,当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除,当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除,得到的URL剩余字符串存入信息表的URL字段中;
2)计算URL原始字符串的MD5值,存入信息表的MD5字段中;
3)按照“/”将URL剩余字符串分割为多个字符串,然后取第N个“/”之前的所有分割后字符串,将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成一个特征字符串,存入信息表的keywords字段中,其中N为8~12的整数;
4)其他和该URL关联的信息存入相同行的对应字段中;
URL数据信息存入信息表后,分别对keywords字段和MD5字段建立树形索引;
选择下述方法之一进行URL查询:
A)精确查询,先如下处理待查询的URL原始字符串:当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除,当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除,得到URL剩余字符串;然后计算URL原始字符串的MD5值,查询数据表中的MD5字段,取MD5值相符的URL值;
B)后模糊匹配查询,先如下处理待查询的URL原始字符串:当“//”之后的字符串是“WWW.”时将开头到“//WWW.”部分的字符串去除,当“//”之后的字符串不是“WWW.”时则将开头到“//”部分的字符串去除,得到URL剩余字符串;然后按照“/”将URL剩余字符串分割为多个字符串,取第N个“/”之前的所有分割后字符串,将这些分割后字符串的第一个字符和最后一个字符顺序拼接组成特征字符串,先对数据表中的keywords字段进行查询,取keywords相符的URL值,再将待查询的URL与该URL值进行实际匹配查询。
2.如权利要求1所述的方法,其特征在于,信息表中除URL、MD5和keywords字段外,
其他与URL关联的信息包括URL的更新时间、URL的作者和URL对应的内容摘要。
3.如权利要求1所述的方法,其特征在于,N=10。
CN 201110338204 2011-10-31 2011-10-31 一种对海量url进行存储和查询方法 Active CN102411617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110338204 CN102411617B (zh) 2011-10-31 2011-10-31 一种对海量url进行存储和查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110338204 CN102411617B (zh) 2011-10-31 2011-10-31 一种对海量url进行存储和查询方法

Publications (2)

Publication Number Publication Date
CN102411617A true CN102411617A (zh) 2012-04-11
CN102411617B CN102411617B (zh) 2013-09-18

Family

ID=45913688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110338204 Active CN102411617B (zh) 2011-10-31 2011-10-31 一种对海量url进行存储和查询方法

Country Status (1)

Country Link
CN (1) CN102411617B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220274A (zh) * 2013-03-25 2013-07-24 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN104750706A (zh) * 2013-12-26 2015-07-01 贝壳网际(北京)安全技术有限公司 驱动程序信息的提供方法、装置和系统
CN105426364A (zh) * 2014-06-04 2016-03-23 北大方正集团有限公司 Url检索方法及服务器
CN106503227A (zh) * 2016-10-28 2017-03-15 朱升 一种网络主页系统
CN108401180A (zh) * 2017-02-08 2018-08-14 南宁富桂精密工业有限公司 视频缓冲规则的生成系统及方法
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN111061972A (zh) * 2019-12-25 2020-04-24 武汉绿色网络信息服务有限责任公司 一种用于url路径匹配的ac查找优化方法和装置
CN112052413A (zh) * 2020-08-28 2020-12-08 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN113821211A (zh) * 2021-09-17 2021-12-21 杭州迪普科技股份有限公司 命令解析方法、装置、存储介质和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573752A (zh) * 2003-06-20 2005-02-02 日本电气株式会社 Url检索系统、服务器及url检索方法
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
CN1963811A (zh) * 2005-11-10 2007-05-16 国际商业机器公司 用于生成唯一的有效关键字的方法和系统
CN101196910A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 一种确定网络资源的方法和装置
CN101605129A (zh) * 2009-06-23 2009-12-16 北京理工大学 一种用于url过滤系统的url查找方法
US20100154055A1 (en) * 2008-12-12 2010-06-17 At&T Intellectual Property I, L.P. Prefix Domain Matching for Anti-Phishing Pattern Matching

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573752A (zh) * 2003-06-20 2005-02-02 日本电气株式会社 Url检索系统、服务器及url检索方法
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
CN1963811A (zh) * 2005-11-10 2007-05-16 国际商业机器公司 用于生成唯一的有效关键字的方法和系统
CN101196910A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 一种确定网络资源的方法和装置
US20100154055A1 (en) * 2008-12-12 2010-06-17 At&T Intellectual Property I, L.P. Prefix Domain Matching for Anti-Phishing Pattern Matching
CN101605129A (zh) * 2009-06-23 2009-12-16 北京理工大学 一种用于url过滤系统的url查找方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103220274B (zh) * 2013-03-25 2016-06-15 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN103220274A (zh) * 2013-03-25 2013-07-24 北京东方网信科技股份有限公司 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN104750706B (zh) * 2013-12-26 2019-06-04 北京猎豹移动科技有限公司 驱动程序信息的提供方法、装置和系统
CN104750706A (zh) * 2013-12-26 2015-07-01 贝壳网际(北京)安全技术有限公司 驱动程序信息的提供方法、装置和系统
CN105426364A (zh) * 2014-06-04 2016-03-23 北大方正集团有限公司 Url检索方法及服务器
CN106503227A (zh) * 2016-10-28 2017-03-15 朱升 一种网络主页系统
CN108401180A (zh) * 2017-02-08 2018-08-14 南宁富桂精密工业有限公司 视频缓冲规则的生成系统及方法
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN108595453B (zh) * 2017-12-20 2020-09-01 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN111061972A (zh) * 2019-12-25 2020-04-24 武汉绿色网络信息服务有限责任公司 一种用于url路径匹配的ac查找优化方法和装置
CN111061972B (zh) * 2019-12-25 2023-05-16 武汉绿色网络信息服务有限责任公司 一种用于url路径匹配的ac查找优化方法和装置
CN112052413A (zh) * 2020-08-28 2020-12-08 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN112052413B (zh) * 2020-08-28 2024-02-13 上海谋乐网络科技有限公司 Url模糊匹配方法、装置和系统
CN113821211A (zh) * 2021-09-17 2021-12-21 杭州迪普科技股份有限公司 命令解析方法、装置、存储介质和计算机设备
CN113821211B (zh) * 2021-09-17 2023-06-27 杭州迪普科技股份有限公司 命令解析方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN102411617B (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN102411617B (zh) 一种对海量url进行存储和查询方法
US8359318B2 (en) System and method for distributed index searching of electronic content
US8352474B2 (en) System and method for retrieving information using a query based index
US20110016128A1 (en) Distributing content indices
CA2790421C (en) Indexing and searching employing virtual documents
CN101950312B (zh) 一种互联网网页内容解析方法
WO2008043645B1 (en) Establishing document relevance by semantic network density
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN105512143A (zh) 一种网页分类方法及装置
CN102761627A (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
WO2013119603A1 (en) Web page retrieval method and device
EP3255564A1 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
CN105550359A (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
CN103559258A (zh) 基于云计算的网页排序方法
CN101957860B (zh) 一种发布、搜索信息的方法及装置
CN102081649A (zh) 一种搜索电脑文件的方法及其系统
US20130086083A1 (en) Transferring ranking signals from equivalent pages
CN103257981B (zh) 基于查询接口属性特征的Deep Web数据表面化方法
CN102129454A (zh) 一种基于云存储的百科数据处理方法及系统
CN104636384B (zh) 一种处理文档的方法及装置
CN102222067A (zh) 一种根据关键字ip地址进行精确查询的搜索方法
CN103324640B (zh) 一种确定搜索结果文档的方法、装置和设备
CN109086384A (zh) 基于用户画像的水务管理方法及系统
CN113032436A (zh) 基于文章内容和标题的搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method for storing and inquiring a large quantity of URLs

Effective date of registration: 20180627

Granted publication date: 20130918

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: 2018110000015

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210128

Granted publication date: 20130918

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: Run Technologies Co.,Ltd. Beijing

Registration number: 2018110000015

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of storing and querying massive URLs

Effective date of registration: 20210705

Granted publication date: 20130918

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: Run Technologies Co.,Ltd. Beijing

Registration number: Y2021990000579

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20130918

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2021990000579

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for storing and querying massive URLs

Granted publication date: 20130918

Pledgee: Bank of Communications Co.,Ltd. Beijing Asian Games Village Branch

Pledgor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Registration number: Y2024110000165