CN103927325A - 一种对url进行分类的方法及装置 - Google Patents
一种对url进行分类的方法及装置 Download PDFInfo
- Publication number
- CN103927325A CN103927325A CN201410093939.7A CN201410093939A CN103927325A CN 103927325 A CN103927325 A CN 103927325A CN 201410093939 A CN201410093939 A CN 201410093939A CN 103927325 A CN103927325 A CN 103927325A
- Authority
- CN
- China
- Prior art keywords
- url
- character
- target
- classified information
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Abstract
本发明公开了一种对统一资源定位符(URL)进行分类的方法及装置,包括根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。本发明方法中,在建立分类树时,以目标URL字符的ASCII码的数值作为Tree中的节点数组的下标来构建URL树,即采用树型结构存储目标URL分类库。这样,在进行URL分类时,只需要对待分类URL做一次逐一字符的访问,即可完成分类过程,提高了分类效率并实现了快速分类,进而实现了对万亿级的上网记录数据中用户访问的URL的快速分类。
Description
技术领域
本发明涉及互联网技术,尤指一种对统一资源定位符(URL,UniformResource Locator)进行分类的方法及装置。
背景技术
目前,在对上网记录数据中用户访问的某个URL进行分类时,需要将该待分类URL的整个URL与分类库中的各目标URL逐一进行匹配,如果能够匹配上,则返回匹配上的分类库中的目标URL对应的分类信息。以分类库中有100个目标URL为例,一次分类过程的平均匹配次数会在50次以上,而最大匹配系数则会是100次。
在现有对URL进行分类的方法中,对URL的匹配是:将组成待分类URL的整个字符串与分类库中的各目标URL逐一进行比较,效率不高;而且,当分类库中的目标URL数量增加时,匹配时间将大幅增加。
由于互联网产业的迅速发展,用户上网记录数据的数量也呈现爆发式的增长,这样,要实现对万亿级的上网记录数据中用户访问的URL的快速分类,成为了一个难题。
发明内容
为了解决上述技术问题,本发明提供了一种对URL进行分类的方法及装置,能够提高效率并实现快速分类。
为了达到本发明目的,本发明提供了一种对URL进行分类的方法,包括:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;
当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
该方法之前还包括:
建立所述URL分类库,URL分类库中的内容包括:一个或一个以上目标URL,各目标URL对应的分类信息。
所述对每一个目标URL按照字符进行处理,构建URL分类库的分类树包括:
依次取出所述目标URL中的字符,以取出的字符的ASCII码作为分类树中的节点数组node[]的下标;
访问所述node[ASCII]的节点,直至目标URL的最后一个字符,则将所述对应的分类信息存储到节点数组node[ASCII]的目标obj域。
所述确定待分类URL的分类信息包括:
依次取出所述待分类URL中一个字符,以该字符的ASCII码作为所述分类树中的节点数组node[]的下标,访问所述分类树的节点数组node[ASCII]的节点,如果其对应的目标obj域已存有分类信息,则确定所述目标obj域中的分类信息为待分类URL的分类信息。
如果所述目标obj域为空,且已经访问到所述待分类URL的最后一个字符,该方法还包括:确定所述分类信息为空。
本发明还公开了一种对URL进行分类的方法,至少包括构建模块、分类模块,其中,
构建模块,用于根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;
分类模块,用于当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
与现有技术相比,本发明包括根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。本发明方法中,在建立分类树时,以目标URL字符的ASCII码的数值作为Tree中的节点数组node[]数组的下标来构建URL树,即采用树型结构存储目标URL分类库。这样,在进行URL分类时,只需要对待分类URL做一次逐一字符的访问,即可完成分类过程,提高了分类效率并实现了快速分类,进而实现了对万亿级的上网记录数据中用户访问的URL的快速分类。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明对URL进行分类的方法的流程图;
图2为本发明构建URL分类库的分类树的示意图;
图3为本发明对URL进行分类的装置的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明对URL进行分类的方法的流程图,如图1所示,包括:
步骤100:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树。
本步骤的目的在于,在分类库中的目标URL与分类信息之间,按照目标URL中的字符,建立树形的对应关系。本步骤具体实现包括:
首先,建立一个URL分类库,URL分类库中的内容包括:一个或一个以上目标URL,以及各目标URL对应的分类信息。比如:
目标URL为“www.baidu.com”,对应的分类信息为“百度”;目标URL为“www.sina.com”,对应的分类信息为“新浪”,等等。
然后,对每一个目标URL按照字符进行处理,构建URL分类库的分类树,具体包括:依次取出目标URL的字符,以取出的字符的ASCII码作为分类树(Tree)中的节点数组node[]的下标,从根节点开始访问node[ASCII]的节点,直至目标URL的最后一个字符,则将分类信息存储到node[ASCII]的目标(obj)域中;如果未到目标URL的最后一个字符,接着取出下一个字符,对*tree指向的子树重复上述访问过程,直至目标URL的最后一个字符,如图2所示。其中,分类树包括两类数据结构即tree和node[],具体地,在tree节点中包含一个node[]数组,node[]数组中的每一个节点中有两个域,一个域是*tree指向本节点的子树的指针,子树结构和根节点相同;另一个域是obj,用于存储URL的分类信息。按照本步骤建立出的分类树,本发明分类表中的目标URL中的每一个字符,对应分类树中的一层即子树。
以目标URL为“www.baidu.com”,对应的分类信息为“百度”;目标URL为“www.sina.com”,对应的分类信息为“新浪”;目标URL为“www.sohu.com”,对应的分类信息为“搜狐”为例,通过本步骤按照目标URL中的字符,建立树形的对应关系是:
第一层子树对应URL中的第一个w,第二层子树对应URL中的第二个w,第三层子树对应URL中的第三个w,这三层子树是上述两个URL的公共的子树;第四层子树有两个分支,即对应b的第四层子树一和对应s的公共的第四层子树二;第五层子树有三个分支,即对应a的第五层子树一、对应i的第五层子树二,以及对应o的第五层子树三,以此类推,对于目标URL为“www.baidu.com”的最后一层子树对应m,且其目标obj域的值为“百度”,对于目标URL为“www.sina.com”的最后一层子树对应m,且其目标obj域的值为“新浪”,对于目标URL为“www.sohu.com”的最后一层子树对应m,且其目标obj域的值为“搜狐”。
从本步骤的具体实现可以清楚地看到,本发明以目标URL中的每一个字符的ASCII码作为Tree中的node[]数组的下标来构建URL分类库的URL树。按照本步骤对分类库中的每一个目标URL进行上述处理后,将会构建出一个URL分类库的分类树。本步骤强调的是,将URL分类库建立为一个树结构,而对于树的建立属于本领域技术人员的惯用技术手段,并不用于限定本发明的保护范围,这里不再赘述。
需要说明的是,步骤100并不是每次分类都要执行的,而是预先通过步骤100所述的方法建立了一个目标URL分类树。需要进行URL分类时,按照字符在建立好的目标URL分类树中进行查找即可。
需要说明的是,如果目标URL分类树需要扩充,也只需按照步骤100所述的方法进行添加即可。
步骤101:当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
本步骤具体包括:依次取出待分类URL中一个字符,以该字符的ASCII码作为分类树中的node[]数组的下标,访问分类树的node[ASCII]的节点,如果其对应的obj域中已存储有分类信息,则确定obj域中的分类信息为待分类URL的分类信息并返回,即获得了待分类URL的分类信息;
如果obj域为空,并且已经访问到待分类URL的最后一个字符,那么,分类处理结束,同时返回分类信息为空;
如果obj域为空,但是未访问到待分类URL的最后一个字符,那么,对*tree指向的子树继续进行上述访问。
还以目标URL为“www.baidu.com”,对应的分类信息为“百度”;目标URL为“www.sina.com”,对应的分类信息为“新浪”,目标URL为“www.sohu.com”,对应的分类信息为“搜狐”为例,而且已通过步骤100建立了目标URL分类树。假设,此时待分类URL为“www.sohu.com”,那么,按照步骤101,确定待分类URL的分类信息具体包括:
逐一取出www.sohu.com中的字符,在木匾URL分类树中一层一层地匹配,按照步骤100中的实施例中建立的目标URL分类树,匹配会经过建立好的第一层子树、第二层子树、第三层子树、公共第四层子树二、第五层子树三,直至最后一层子树,并获得对应的目标obj域的值为“搜狐”,这样既可的值待分类URL为www.sohu.com对应的分类信息为“搜狐”。
本发明方法中,在建立分类树时,以目标URL中的每一个字符的ASCII码作为Tree中的node[]数组的下标来构建URL树,即采用树型结构存储目标URL分类库。这样,在进行URL分类时,只需要对待分类URL做一次逐一字符的访问,即可完成分类过程,提高了分类效率并实现了快速分类,进而实现了对万亿级的上网记录数据中用户访问的URL的快速分类。
图3为本发明对URL进行分类的装置的组成结构示意图,如图3所示,至少包括构建模块、分类模块,其中,
构建模块,用于根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;
分类模块,用于当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种对统一资源定位符URL进行分类的方法,其特征在于,包括:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;
当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
2.根据权利要求1所述的方法,其特征在于,该方法之前还包括:
建立所述URL分类库,URL分类库中的内容包括:一个或一个以上目标URL,各目标URL对应的分类信息。
3.根据权利要求2所述的方法,其特征在于,所述对每一个目标URL按照字符进行处理,构建URL分类库的分类树包括:
依次取出所述目标URL中的字符,以取出的字符的ASCII码作为分类树中的节点数组node[]的下标;
访问所述node[ASCII]的节点,直至目标URL的最后一个字符,则将所述对应的分类信息存储到节点数组node[ASCII]的目标obj域。
4.根据权利要求3所述的方法,其特征在于,所述确定待分类URL的分类信息包括:
依次取出所述待分类URL中一个字符,以该字符的ASCII码作为所述分类树中的节点数组node[]的下标,访问所述分类树的节点数组node[ASCII]的节点,如果其对应的目标obj域已存有分类信息,则确定所述目标obj域中的分类信息为待分类URL的分类信息。
5.根据权利要求4所述的方法,其特征在于,如果所述目标obj域为空,且已经访问到所述待分类URL的最后一个字符,该方法还包括:确定所述分类信息为空。
6.一种对URL进行分类的方法,其特征在于,至少包括构建模块、分类模块,其中,
构建模块,用于根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;
分类模块,用于当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410093939.7A CN103927325B (zh) | 2014-03-13 | 2014-03-13 | 一种对url进行分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410093939.7A CN103927325B (zh) | 2014-03-13 | 2014-03-13 | 一种对url进行分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927325A true CN103927325A (zh) | 2014-07-16 |
CN103927325B CN103927325B (zh) | 2017-06-27 |
Family
ID=51145546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410093939.7A Active CN103927325B (zh) | 2014-03-13 | 2014-03-13 | 一种对url进行分类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927325B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912736A (zh) * | 2016-06-28 | 2016-08-31 | 迈普通信技术股份有限公司 | 一种统一资源定位符url分类方法及装置 |
CN108829759A (zh) * | 2018-05-28 | 2018-11-16 | 沈文策 | 一种数据采集方法、装置、电子设备及存储介质 |
CN110020272A (zh) * | 2017-08-14 | 2019-07-16 | 中国电信股份有限公司 | 缓存方法、装置以及计算机存储介质 |
CN111614575A (zh) * | 2020-04-01 | 2020-09-01 | 宜通世纪科技股份有限公司 | 基于互联网流量的深度包检测方法、系统和存储介质 |
CN115619292A (zh) * | 2022-12-19 | 2023-01-17 | 云账户技术(天津)有限公司 | 一种问题管理的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090111A (ja) * | 1998-09-14 | 2000-03-31 | Matsushita Electric Ind Co Ltd | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
EP1047004A2 (en) * | 1999-04-19 | 2000-10-25 | AT&T Corp. | System and method for scanning & storing universal resource locator codes |
CN102819586A (zh) * | 2012-07-31 | 2012-12-12 | 北京网康科技有限公司 | 一种基于高速缓存的url分类方法和设备 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
-
2014
- 2014-03-13 CN CN201410093939.7A patent/CN103927325B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000090111A (ja) * | 1998-09-14 | 2000-03-31 | Matsushita Electric Ind Co Ltd | 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体 |
EP1047004A2 (en) * | 1999-04-19 | 2000-10-25 | AT&T Corp. | System and method for scanning & storing universal resource locator codes |
CN102819586A (zh) * | 2012-07-31 | 2012-12-12 | 北京网康科技有限公司 | 一种基于高速缓存的url分类方法和设备 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912736A (zh) * | 2016-06-28 | 2016-08-31 | 迈普通信技术股份有限公司 | 一种统一资源定位符url分类方法及装置 |
CN110020272A (zh) * | 2017-08-14 | 2019-07-16 | 中国电信股份有限公司 | 缓存方法、装置以及计算机存储介质 |
CN108829759A (zh) * | 2018-05-28 | 2018-11-16 | 沈文策 | 一种数据采集方法、装置、电子设备及存储介质 |
CN111614575A (zh) * | 2020-04-01 | 2020-09-01 | 宜通世纪科技股份有限公司 | 基于互联网流量的深度包检测方法、系统和存储介质 |
CN115619292A (zh) * | 2022-12-19 | 2023-01-17 | 云账户技术(天津)有限公司 | 一种问题管理的方法及装置 |
CN115619292B (zh) * | 2022-12-19 | 2023-03-21 | 云账户技术(天津)有限公司 | 一种问题管理的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103927325B (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104794242B (zh) | 一种搜索方法 | |
CN101315640B (zh) | 一种目录管理方法和装置 | |
CN103927325A (zh) | 一种对url进行分类的方法及装置 | |
CN101826099B (zh) | 一种相似文档识别、文档扩散度确定的方法及系统 | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN102682098A (zh) | 检测网页内容变更的方法及装置 | |
CN104462429A (zh) | 数据库查询语句的生成方法及装置 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN103226609A (zh) | 一种web聚焦搜索系统的搜索方法 | |
CN105335481A (zh) | 一种大规模字符串文本的后缀索引构造方法及装置 | |
CN106294886A (zh) | 一种从HBase中全量抽取数据的方法及系统 | |
CN104408144B (zh) | 网络搜索关键词的检测方法及装置 | |
CN106295252B (zh) | 用于基因产品的检索方法 | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
CN103455491B (zh) | 对查询词分类的方法及装置 | |
CN101256594A (zh) | 一种图结构相似度测量方法及其系统 | |
CN106411855A (zh) | 一种脆弱性目录查找方法及装置 | |
CN103823834B (zh) | 一种哈希连接算子间数据传递的方法及装置 | |
CN107153692B (zh) | 一种字符串匹配的方法及设备 | |
CN106202127A (zh) | 一种垂直搜索引擎对检索请求的处理方法及装置 | |
CN105740371A (zh) | 一种基于密度的增量聚类数据挖掘方法及系统 | |
CN108304467A (zh) | 用于文本间匹配的方法 | |
CN109948018B (zh) | 一种Web结构化数据快速提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |