CN103823892A - 确定网页聚类模式的方法及装置 - Google Patents

确定网页聚类模式的方法及装置 Download PDF

Info

Publication number
CN103823892A
CN103823892A CN201410086390.9A CN201410086390A CN103823892A CN 103823892 A CN103823892 A CN 103823892A CN 201410086390 A CN201410086390 A CN 201410086390A CN 103823892 A CN103823892 A CN 103823892A
Authority
CN
China
Prior art keywords
reserved field
webpage
url
field
clustered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410086390.9A
Other languages
English (en)
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410086390.9A priority Critical patent/CN103823892A/zh
Publication of CN103823892A publication Critical patent/CN103823892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种确定网页聚类模式的方法及装置。所述方法包括:获取待聚类网页的统一资源定位符的主干前缀;对主干前缀进行切分,得到多个字段;根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将匹配到的与预设保留字段相同,且位置对应的字段部分作为保留字段,根据多个字段中的保留字段和保留字段的位置信息,生成作为待聚类网页的统一资源定位符的聚类模式。本发明还公开了用于实现所述方法的装置。本发明的技术方案,该聚类模式下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。

Description

确定网页聚类模式的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种确定网页聚类模式的方法及装置。
背景技术
在网页的数据挖掘中,为了有效地对网页的数据进行有效挖掘分析,通常采用聚类技术,将长相或者功能类似的统一资源定位符(Uniform ResourceLocator;URL)即网页聚在一起,形成集合,该集合可以采用一种模式pattern来表示。
现有技术常用的一种网页聚类方法中,将URL按一定的分隔符去切分,形成pattern。例如如下URL“http://www.360.cn/weishi/index.html”,可以根据分隔符“/”切割成http://www.360.cn/和http://www.360.cn/weishi/两个前缀pattern,通常用到的分隔符可以包括“/”、“?”、“-”或者“_”等等。这种pattern可以称之为前缀pattern聚类技术。这种pattern的特点是应用比较方便,不用加载词典。
但是,上述现有的前缀pattern聚类技术中,由于前缀pattern聚类比较细,有些类似的网页无法聚到同一个pattern。假如有两个用户页http://360.cn/xxx/album/和http://360.cn/yyy/album/,其中“xxx”和“yyy”是分别是两个用户注册的身份标识(Identity;ID),那么采用前缀聚类的技术,只能各自聚类到http://360.cn/xxx/和http://360.cn/yyy/,而实际上这两个用户页是类似的页面(如都是用户的相册album),无法聚到同一个pattern,因此现有的网页聚类技术聚类效果较差,效率较低。
发明内容
本发明实施例提供一种网页聚类方法及装置,用于优化网页聚类效率,提高网页聚类效果。
一方面,本发明提供一种确定网页聚类模式的方法,包括以下步骤:
获取待聚类网页的统一资源定位符的主干前缀;
对所述主干前缀进行切分,得到多个字段;
根据保留字段词典中的至少一个预设保留字段及各所述预设保留字段的位置信息来匹配切分得到的所述多个字段,将匹配到的与所述预设保留字段相同,且位置对应的字段部分作为保留字段;
根据所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式。
另一方面,本发明还提供一种确定网页簇聚类模式方法,包括以下步骤:
获取待聚类网页簇中的多个网页的统一资源定位符的主干前缀;
分别对各所述主干前缀进行切分,得到多个字段;
挖掘所述多个字段中的保留字段以及所述保留字段的位置信息;
根据所述保留字段和所述保留字段的位置信息生成所述待聚类网页簇的统一资源定位符的聚类模式。
再一方面,本发明还提供一种确定网页聚类模式的装置,包括:
保留字段词典数据库,用于存储保留字段词典,所述保留字段词典中包括至少一个预设保留字段及各所述预设保留字段的位置信息;
获取模块,用于获取待聚类网页的统一资源定位符的主干前缀;
切分模块,与所述获取模块连接,用于对所述获取模块获取的所述主干前缀进行切分,得到多个字段;
确定模块,分别与所述保留字段词典数据库和所述切分模块连接,用于根据所述保留字段词典中的至少一个预设保留字段及各所述预设保留字段的位置信息来匹配所述切分模块切分得到的所述多个字段,将匹配到的与所述预设保留字段相同,且位置对应的字段部分作为保留字段;
生成模块,与所述确定模块连接,用于根据所述确定模块匹配到的所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式。
又一方面,本发明还提供一种确定网页聚类模式的装置,包括:
获取模块,用于获取待聚类网页簇中的多个网页的统一资源定位符的主干前缀;
切分模块,与所述获取模块连接,用于分别对各所述主干前缀进行切分,得到多个字段;
挖掘模块,与所述切分模块连接,用于挖掘所述切分模块切分得到的所述多个字段中的保留字段以及所述保留字段的位置信息;
生成模块,与所述挖掘模块连接,用于根据所述挖掘模块挖掘得到的所述保留字段和所述保留字段的位置信息生成所述待聚类网页簇的统一资源定位符的聚类模式。
本发明的确定网页类模式的方法及装置,通过采用上述实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个聚类模式下,而且每个聚类模式中包括保留字段、保留字段在主干前缀中的位置和非保留字段的类型;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据确定出的聚类模式对待聚类网页的URL进行聚类处理时,该聚类模式下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例提供的确定网页聚类模式的方法的流程图。
图2为本发明另一实施例提供的确定网页聚类模式的方法的流程图。
图3为本发明再一实施例提供确定网页簇聚类模式方法的流程图。
图4为本发明又一实施例提供的确定网页聚类模式的方法的流程图。
图5为本发明一实施例提供的确定网页聚类模式的装置的结构示意图。
图6为本发明另一实施例提供的确定网页聚类模式的装置的结构图。
图7为本发明再一实施例提供的确定网页簇聚类模式装置的结构示意图。
图8为本发明又一实施例提供的确定网页聚类模式的装置的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例提供的确定网页聚类模式的方法的流程图。本实施例的确定网页聚类模式的方法中应用在研发人员对网页聚类分析的场景下,具体的执行主体可以为确定网页聚类模式的装置,该确定网页聚类模式的装置具体可以为采用软件集成的实体。如图1所示,本实施例的确定网页聚类模式的方法中,具体可以包括如下步骤:
100、获取待聚类网页的URL的主干前缀;
待聚类网页的URL的主干前缀通常为该URL的前段部分。
101、对主干前缀进行切分,得到多个字段;
例如待聚类网页的URL的主干前缀为360.cn/u/wwwsokutvcom/event/时,对主干前缀进行切分,得到多个字段分别为360.cn,u,wwwsokutvcom和event,共四个字段。
102、根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将从多个字段中匹配到的与预设保留字段相同,且位置对应的字段作为保留字段;
本实施例的保留字段词典中包括多个预设保留字段,以及每个预设保留字段的位置信息,该预设保留字段的位置信息指的是该预设保留字段在其对应的主干前缀中的位置。例如保留字段词典中可以包括字段360.cn,对应的位置为1,则表示该字段360.cn在生成聚类模式时,当出现在URL的主干前缀的第1段位置时需要保留。再例如保留字段词典中还可以包括字段album,例如对应的位置可以为3;则表示该字段album在生成聚类模式时,当出现在URL的主干前缀的第3段的位置时需要保留。以此类推,该保留字段词典中还可以包括很多的预设保留字段以及个预设保留字段在其对应的主干前缀中的位置。
例如根据该步骤对步骤101中得到的四个字段360.cn,u,wwwsokutvcom和event分别分析,若得到字段360.cn为保留字段,位置为1。字段event为保留字段,位置为4。
本实施例中将划分得到的多个字段中每个字段与保留字段词典中的字段来匹配,来判断划分得到的多个字段中哪些字段与保留字段词典中的预设保留字段相同,且位置也与预设保留字段的位置相对应,即该字段在主干前缀中的位置与预设保留字段在其对应的主干前缀中的位置相同。
103、根据多个字段中的保留字段和保留字段的位置信息,生成作为待聚类网页的URL的聚类模式。
本实施例中根据多个字段中的保留字段及其位置信息,将主干前缀中的保留字段保留,得到待测试网页的URL的聚类模式,称为聚类pattern;在该聚类pattern中可以标识该保留位置。例如根据上述各步骤,该待聚类网页的URL的聚类模式可以表示为360.cn/(\w+)/(\w+)/event/,保留位置为14,即第1段和第4段为需要保留的字段。其中(\w+)为非保留字段,对应上述字段u和wwwsokutvcom。或者根据上述各步骤,该待聚类网页的URL的聚类pattern也可以表示为360.cn/u/(\w+)/event/,此时对应的保留位置为保留位置为124,与聚类pattern“360.cn/(\w+)/(\w+)/event/”相比,该聚类pattern中字段u为保留字段。
或者也可以直接根据保留字段及保留字段中的位置信息拼接生成待测试网页的URL的聚类pattern。这种情况下,认为保留字段之外的位置处均为非保留字段。
本实施例的确定网页聚类模式的方法,通过获取待聚类网页的URL的主干前缀;对主干前缀进行切分,得到多个字段;根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将多个字段中与预设保留字段相同,且位置对应的字段作为保留字段;根据多个字段中的保留字段和保留字段的位置信息,生成作为待聚类网页的URL的聚类模式。采用本实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段和保留字段在主干前缀中的位置;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据确定出的聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。而且在使用过程中,保留字段词典如果加载到内存中只需要300M左右,小于hadoop集群一般允许500M~800M内存的使用,大大简化了使用过程,使用非常方便。
可选地,在上述实施例的技术方案的基础上,在步骤102之后,步骤103之前,还可以包括如下步骤:根据多个字段中保留字段之外的非保留字段的类型确定非保留字段的表示方式。
根据步骤102可知多个字段中哪些为保留字段,除此之外,其他的字段可以暂定为非保留字段。对于非保留字段,可以能是由连续的数字组成、也可能是由连续的字符串组成,还有可能是数字和字符串共同组成的。例如本实施例中主要研究连续的数字或者连续的字符串组成的非保留字段。例如若多个字段中保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示非保留字段的类型;若所述多个字段中保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示非保留字段的类型。而对于连续数字和字符串组成的非保留字段,在生成聚类模式时不保留该字段,但对其表达式也不限制。
由上述步骤可知,对主干前缀为360.cn/u/wwwsokutvcom/event/的四分字段360.cn,u,wwwsokutvcom和event分别分析,得知字段360.cn和字段event分别为保留字段,则u和wwwsokutvcom分别为非保留字段,但u只是个单字符,可以不保留,也可以保留。对于wwwsokutvcom为连续字符,可以采用正则表达式[a-zA-Z]+来表示。采用该方案,可以进一步更加准确地对非保留字段进行描述,使得生成的聚类模式更加准确。
通过采用上述技术方案,此时对应的步骤103,具体可以为:根据多个字段中的保留字段、保留字段的位置信息以及非保留字段的表示方式,生成作为待聚类网页的URL的聚类模式。
例如根据上述各步骤,该实施例中该待聚类网页的URL的聚类模式可以表示为360.cn/(\w+)/[a-zA-Z]+/event/,保留位置为14,即第1段和第4段为需要保留的字段。其中(\w+)为非保留字段,对应上述字段u。或者根据上述各步骤,该待聚类网页的URL的聚类pattern也可以表示为360.cn/u/[a-zA-Z]+/event/,此时对应的保留位置为保留位置为124,与聚类pattern“360.cn/(\w+)/[a-zA-Z]+/event/”相比,该聚类pattern中字段u为保留字段。
进一步可选地,在上述实施例的技术方案的基础上,其中步骤100“获取待聚类网页的URL的主干前缀”,具体可以包括如下几种方式:
第一种、识别待聚类网页的URL中的第一特殊连接字符,将第一特殊连接字符作为第一分隔标记,提取待聚类网页的URL中第一分隔标记前的字段作为主干前缀;本实施例中第一特殊连接字符具体可以为“?”。当URL中含有第一特殊连接字符“?”,第一特殊连接字符“?”前面认为是一个通用网关接口(Common Gateway Interface;CGI),此时,获取待聚类网页的URL中第一特殊连接字符“?”以及第一特殊连接字符“?”之前的所有字符作为主干前缀。具有其他特殊字符的也类似,这些特殊字符前面的部分往往是比较重要的,而且不同的URL前面部分是一样的,不同的是后面的参数而已。
第二种、识别待聚类网页的URL中预设深度的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀;该第二特殊连接符为所有字符中除了字母字符、数字字符和第一特殊连接字符“?”之外的其他字符;例如在URL中理论上除了26个字母以及数字之外都可以认为是特殊字符,这些特殊字符往往表示一定的分割含义,比如blog.sina.com.cn/blog_xxxxxblog.sina.com.cn/articlelist_xxxxx,实践中常用来分割的主要“-”,“/”,“?”,“_”等。本发明实施例中取“?”作为第一特殊连接字符,其他字符作为第二特殊连接字符。当URL深度较深时,深层的URL通常不具有特殊性,在获取主干前缀时,可以仅考虑较为接近根目录位置的几个目录,因此对于URL深度较深的情况,可以设置预设深度的目录,例如可以取4层深度或者3层深度的根目录来参考获取主干前缀,预设深度的具体深度根据实际需求来设置。例如
第三种、识别待聚类网页的URL中最深一层的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀。该种情况对应着,当待聚类网页的URL中最深目录都不到预设深度的目录时,此时获取待聚类网页的URL中最深一层的目录位置处第二特殊连接字符以及第二特殊连接字符之前的所有字符作为主干前缀。
实际应用中,上述三种可以根据如下场景来使用:
(1)判断待聚类网页的URL中是否包括有第一特殊连接字符“?”,当包括时,执行步骤(2);否则当不包括时,执行步骤(3);
(2)将第一特殊连接字符“?”作为第一分隔标记,提取待聚类网页的URL中第一分隔标记前的所有字符作为主干前缀;
(3)判断待聚类网页的URL中目录深度是否达到预设深度,当达到时,执行步骤(4);否则当未达到时,执行步骤(5);
(4)识别待聚类网页的URL中预设深度的路径位置处第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中所述第二分隔标记前的字段作为主干前缀;
其中本实施例的第二特殊连接符为所有字符中除了字母字符、数字字符和第一特殊连接字符“?”之外的其他字符;
(5)获取待聚类网页的URL中最深一层的目录位置处第二特殊连接字符以及第二特殊连接字符之前的所有字符作为主干前缀。
经过上述方式,可以获取到待聚类网页的URL有效地主干前缀。
进一步可选地,在上述实施例中的步骤101“对主干前缀进行切分,得到多个字段”,具体可以包括:根据预设的分隔符对主干前缀进行切分,得到多个字段。
本实施例中的预设分隔符可以为“/”,针对如下的URLhttp://detail.360.cn/notebook/index348542.shtml,根据分隔符“/”来分段,可以分为如下三段detail.360.cn、notebook和index348542.shtml。其中字段“index348542.shtml”中“index”和后面的“348542”分别表示的是不同的含义,index在这些类似的产品URL中都包含,是通用的,具有保留字段的特性。后面的数字“348542”则表示是产品的代号,如果不区分的话不同的产品就不能区分了。如果字段“index348542.shtml”中作为保留字段的话,得到的聚类pattern中只能聚类包含有index348542.shtml的网页,聚类的网页较少,效果较差。
为了解决上述问题,上述步骤“根据预设的分隔符对主干前缀进行切分,得到多个字段“具体可以包括根据预设的分隔符,并结合预设分段策略对主干前缀进行切分,得到多个字段;本实施例的预设分段策略要求相邻的两个分隔符之间的连续字母或者连续数字,均分别作为独立的字段。根据预设的分隔符,并结合预设分段策略对主干前缀进行切分,实际应用中,先根据预设的分隔符对主干前缀进行切分,得到多个字段,然后再根据预设分段策略判断多个分段中的每个分段中是否有连续的数字或者连续的字母,如有,再将连续的数字或者字母作为一个独立的分段。也就是说根据预设分段策略能够进一步将分段细化。
本实施例中的该预设分段策略是为了避免两个分隔符之间出现连续的字母和连续的数字是表示不同含义的,例如如下的URL:http://detail.360.cn/notebook/index348542.shtml中"index"和后面的"348542"分别表示的是不同的含义,index在这些类似的产品URL中都包含,后面的数字则表示是产品的代号,如果不区分的话不同的产品就不能区分了。因此对于该类情况,可以将“index348542.shtml”分为两字段,其中“index”可以作为保留字段,“348542”作为非保留字段,该非保留字段中,可以采用默认的正则表示来表示其类型,例如对于连续的数字字符用(\d+)表示,连续的字母字符用[a-zA-Z]+表示。这样,可以将index348542.shtml表示为index(\d+).shtml,便具有有通配功能,根据这样的分段得到的聚类pattern,可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
例如本实施例的预设的分隔符可以包括上“?”和“/”,以及其他表示分隔意义的字符。例如对http://360.cn/u/wwwsokutvcom/event/分割时时,对主干前缀进行切分,可以采用分隔符“/”对URL进行分割,得到360.cn,u,wwwsokutvcom和event四个字段。
进一步可选地,在上述实施的步骤102“根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将多个字段中与预设保留字段相同,且位置对应的字段作为保留字段”之前,还可以包括如下步骤:
(a)获取至少一类前缀相似的网页的URL,每类前缀相似的网页的URL中包括多个前缀相似的网页的URL;
本实施例中,前缀相似的网页指的是第一级目录相同的网页;一类前缀相似即指的是第一级目录即域名相同的一类URL。例如http://360.cn/xxx/album/和http://360.cn/yyy/album/为前缀相似的URL。其中相似的前缀为“360.cn”。
(b)获取每类前缀相似的网页的URL的主干前缀;
(c)对每类前缀相似的网页的URL的主干前缀进行切分,得到多个字段;
(d)采用统计的方法分析多个字段,确定出多个字段中的保留字段,并将确定出的保留字段作为预设保留字段;
例如具体可以对500亿个URL进行统计分析,当一类前缀相似的网页的URL的主干前缀中,位置相同的字段的内容也相同的URL占总URL的比例达到预设比例值(如80%),此时可以为该位置的字段为保留字段,否则认为该位置的字段为非保留字段。预设比例也可以根据实际需求设置。通过该方法可以对多个字段中每个字段进行分析,确定多个字段中的预设保留字段。
(e)将确定出的预设保留字段及预设保留字段在对应的主干前缀中的位置信息加入保留字段词典对应的数据库中,生成保留字段词典。
根据该步骤,可以知道在保留字段词典中保存有多个预设保留字段以及每个预设保留字段在其对应的主干前缀中的位置,即第几段之类的位置信息。通过对现有技术的多类网页的URL进行上述步骤(a)-(d)的分析,可以得到多个预设保留字段以及每个预设保留字段的位置信息,将这些预设保留字段以及其位置都加入至保留字段词典对应的数据库中,生成保留字段词典。
即将所有聚类pattern组合在一起生成保留字段词典,因此该保留字段词典中包括至少一个聚类pattern。实际上本实施例的保留字段词典也就是一个包括多个聚类pattern的数据库。
此时若步骤101得到的360.cn,u,wwwsokutvcom和event四个字段,查询保留字段词典,确定该待聚类网页的URL对应的聚类pattern为360.cn/u/[a-zA-Z]/event。其中wwwsokutvcom为连续的字符串,为非保留字段,采用正则匹配的方式[a-zA-Z]来表示。
进一步可选地,上述实施例中的步骤102“根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将多个字段中与预设保留字段相同,且位置对应的字段作为保留字段”,包括如下两种情况:
第一种情况、对于多个字段中的每个字段,从保留字段词典中的至少一个预设保留字段中匹配与该字段相同的预设保留字段;若能够匹配出预设保留字段,将匹配出的预设保留字段的位置与该字段的位置相匹配,若相同,将该字段作为保留字段。该步骤中,从保留字段词典中的至少一个预设保留字段中匹配与该字段相同的预设保留字段,具体地,也就是从至少一个预设保留字段中查找与该字段的名称相同的预设保留字段。如果能够从至少一个预设保留字段中找到与该字段的名称相同的预设保留字段,则进一步判断该字段的位置和找到的预设保留字段的位置是否相同,如有相同,则可以将该字段作为保留字段,否则不能将该字段作为保留字段。
或者第二种情况、对于多个字段中的每个字段,从保留字段词典中的至少一个预设保留字段中匹配与该字段在主干前缀中位置相同的预设保留字段;若能够匹配出预设保留字段,将匹配出的预设保留字段与该字段相匹配,若能够匹配出与该字段相同的预设保留字段,则将字段作为保留字段。
上述第一种情况是先按照字段名称来匹配预设保留字段,再按照字段的位置来匹配预设保留字段。而第二种情况与第一种情况正好相反,是先按照字段的位置来匹配预设保留字段,然后再按照名称来匹配预设保留字段,其最终效果是一样的,若能够从至少一个预设保留字段中匹配出与某字段相同,且位置对应的预设保留字段,则可以将该字段作为保留字段,否则该字段为非保留字段。
进一步可选地,在上述实施的步骤104“根据多个字段中的保留字段、保留字段的位置信息以及非保留字段的表示方式,生成作为待聚类网页的URL的聚类模式“之后,还可以包括:根据待聚类网页的URL的聚类pattern,将待聚类网页聚类至该聚类pattern对应的URL数据库中。
根据上述实施例的步骤,例如可以得到如下的聚类pattern:
.sina.com.cn/(\w+)/(\w+)_    12
.56.com/(\w+)/(\w+)/(\w+)_(\d+)    23
上述聚类pattern中,总共包括两列信息,第一列为聚类pattern的正则表示方式,第二列为保留字段的位置信息。以第二行的聚类pattern为例。其中,.56.com/(\w+)/(\w+)/(\w+)_(\d+)为聚类pattern中间的正则表示方式,第二列23表示从左边开始需要保留第2个(\w+)和第3个(\w+),同时也说明了第一个(\w+)不保留,另外数字型的(\d+)统统不保留。同理,对于第一个聚类pattern:“.sina.com.cn/(\w+)/(\w+)_”中,.sina.com.cn/(\w+)/(\w+)_为聚类pattern的正则表示方式;第二列12表示从左边开始需要保留第1个(\w+)和第2个(\w+)。该实施例中以通配符(\w+)来表示保留字段,实际应用中的保留字段可以为根据实际需求的任意字段,如album、music或者blog等等。例如通过上述实施例的方法,可以生成包括http://360.cn/[a-zA-Z]+/album/、或者http://360.cn/(\d+)/[a-zA-Z]+/、或者http://360.cn/[a-zA-Z]+/index(\d+)等等之类的聚类pattern。
上述实施例的所有可选技术方案,可以采用可以结合的方式任意组合,形成本发明的可选技术方案,在此不再赘述。
上述实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。而且在使用过程中,保留字段词典如果加载到内存中只需要300M左右,小于hadoop集群一般允许500M~800M内存的使用,大大简化了使用过程,使用非常方便。
图2为本发明另一实施例提供的确定网页聚类模式的方法的流程图。本实施例的确定网页聚类模式的方法在上述图1及其可选技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图2所示,本实施例的确定网页聚类模式的方法,具体可以包括如下步骤:
200、采集多类前缀相似的URL;
本实施例的一类前缀相似的URL指的是第一级目录即域名相同的一类URL,如开头为http://360.cn/xxx/.......为前缀相似的URL。其中相似的前缀为“360.cn”。
201、对每类前缀相似的网页的URL进行分析,获取每类前缀相似的网页的URL的主干前缀;
具体获取过程可以参考上述实施例中的步骤(1)-(5),在此不再赘述。
202、对每类前缀相似的网页的URL的主干前缀进行切分,得到多个字段;
203、采用统计的方法分析多个字段,确定出多个字段中的保留字段,并将确定出的保留字段作为预设保留字段;
经过本实施例的上述步骤,可以得到至少一个预设保留字段。
204、将确定出的预设保留字段及预设保留字段在对应的主干前缀中的位置信息加入保留字段词典对应的数据库中,生成保留字段词典;
由上述步骤,可以得知本实施例的保留字段词典中包括至少一个预设保留字段以及每个预设保留字段的位置信息。根据该步骤,可以得知保留字段词典中包括两类信息,一类为预设保留字段,另一类为预设保留字段的位置信息,即预设保留字段在其对应的主干前缀中的位置信息。根据预设保留字段及预设保留字段的位置信息,可以便于对后续的任意一个待聚类网页的URL的的主干前缀划分得到的任意一个字段进行分析。
205、对于待聚类网页的URL,判断待聚类网页的URL中是否包括有第一特殊连接字符“?”,当包括时,执行步骤206;否则当不包括时,执行步骤207;
206、将第一特殊连接字符作为第一分隔标记,提取待聚类网页的URL中第一分隔标记前的字段作为主干前缀;执行步骤210;
207、判断待聚类网页的URL中目录深度是否达到预设深度,当达到时,执行步骤208;否则当未达到时,执行步骤209;
208、识别待聚类网页的URL中预设深度的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀;执行步骤210;
其中第二特殊连接符为所有字符中除了字母字符、数字字符和第一特殊连接字符“?”之外的其他字符。
209、识别待聚类网页的URL中最深一层的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀;执行步骤210;
210、根据预设的分隔符以及预设分段策略对主干前缀进行切分,得到多个字段;执行步骤211;
本实施例的预设分段策略要求相邻的两个分隔符之间的连续字母或者连续数字,均分别作为独立的字段。
211、对于多个字段中的每个字段,若能够从保留字段词典的至少一个预设保留字段中匹配出与该字段相同,且位置对应的预设保留字段;将该字段为保留字段;否则将该字段作为非保留字段;
212、根据非保留字段的类型确定非保留字段的表示方式;
213、根据多个字段中的保留字段、保留字段的位置信息以及非保留字段的表示方式,生成作为待聚类网页的URL的聚类模式;
214、根据待聚类网页的URL的聚类pattern,将待聚类网页聚类至该聚类pattern对应的URL数据库中。
本实施例的确定网页聚类模式的方法,通过采用上述技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段、保留字段在主干前缀中的位置和非保留字段的类型;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。而且在使用过程中,保留字段词典如果加载到内存中只需要300M左右,小于hadoop集群一般允许500M~800M内存的使用,大大简化了使用过程,使用非常方便。
图3为本发明再一实施例提供确定网页簇聚类模式方法的流程图。本实施例的确定网页聚类模式的方法中应用在研发人员对网页聚类分析的场景下,具体的执行主体可以为确定网页聚类模式的装置,该确定网页聚类模式的装置具体可以为采用软件集成的实体。如图3所示,本实施例的确定网页聚类模式的方法中,具体可以包括如下步骤:
300、获取待聚类网页簇中的多个网页的URL的主干前缀;
待聚类网页簇为一类前缀相似的网页,前缀相似的网页具体可以指的是第一级目录相同的网页。待聚类网页簇中的每个网页的URL的主干前缀通常为该URL的前段部分。
301、分别对各主干前缀进行切分,得到多个字段;
本实施例中,待聚类网页簇中的每个网页的URL的主干前缀的获取以及对每个主干前缀的切分,与上述图1所示实施例中的步骤100和步骤101的实现相同,详细可以参考上述相关记载。
302、挖掘多个字段中的保留字段以及保留字段的位置信息;
经上述步骤300和步骤301的处理,可以将待聚类网页簇中的每个网页的URL切分成多个分段,这样,对该待聚类网页簇中的每个网页进行分析,找出该待聚类网页簇中的各个网页中有共同特性的字段,作为保留字段。例如第一分段为360.cn可以为一类待聚类网页簇的位置为1的分段。Music可以为一类待聚类网页簇的位置为3的分段等等。
303、根据保留字段和保留字段的位置信息生成待聚类网页簇的URL的聚类模式。
该步骤可以参考上述图1所示实施例的步骤103,,详细可以参考上述相关记载。
本实施例与上述图1所示实施例的区别在于:上述图1所示实施例是通过从保留字段词典中匹配获取保留字段及位置信息,从而确定一个或者多个待聚类网页的网页聚类模式。而本实施例中是通过对待聚类网页簇中的多个网页的URL切分后的多个分段进行挖掘分析,获取保留字段及位置信息,从而确定待聚类网页族的网页聚类模式,部分相似的步骤的实施可以互相参考。
本实施例的确定网页聚类模式的方法,通过获取待聚类网页簇中的多个网页的URL的主干前缀,分别对各主干前缀进行切分,得到多个字段;挖掘多个字段中的保留字段以及保留字段的位置信息;根据保留字段和保留字段的位置信息生成待聚类网页簇的URL的聚类模式。采用本实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段和保留字段在主干前缀中的位置;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据确定出的聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
可选地,在上述实施例的技术方案的基础上,在步骤302之后,步骤303之前,还可以包括如下步骤:根据多个字段中保留字段之外的非保留字段的类型确定非保留字段的表示方式。
例如若多个字段中保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示非保留字段的类型。若多个字段中保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示非保留字段的类型。
具体地,确定完保留字段之后,URL中的其他的字段可以暂定为非保留字段。对于非保留字段,可以能是由连续的数字组成、也可能是由连续的字符串组成,还有可能是数字和字符串共同组成的。例如本实施例中主要研究连续的数字或者连续的字符串组成的非保留字段。例如若多个字段中保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示非保留字段的类型;若所述多个字段中保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示非保留字段的类型。而对于连续数字和字符串组成的非保留字段,在生成聚类模式时不保留该字段,但对其表达式也不限制。
进一步地,此时对应的步骤303“进一步包括:根据保留字段、保留字段的位置信息以及非保留字段的表示方式,生成待聚类网页簇的URL的聚类模式。
上述步骤的实施,详细亦可以参考上述图1所实施例的后续扩展方案的记载。
进一步可选地,在上述实施例的技术方案的基础上,其中步骤300“获取待聚类网页簇中的多个网页的URL的主干前缀”进一步包括:识别各网页的URL中第一特殊连接字符,将第一特殊连接字符作为第一分隔标记,提取网页的URL中第一分隔标记前的字段作为主干前缀。或者识别各网页的URL中预设深度的路径位置处第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取网页的URL中第二分隔标记前的字段作为主干前缀。
实际应用中,以分析待聚类网页簇中一个网页的URL为例,可以根据如下场景来使用:
(1’)判断待聚类网页簇中的该网页的URL中是否包括有第一特殊连接字符“?”,当包括时,执行步骤(2’);否则当不包括时,执行步骤(3’);
(2’)将第一特殊连接字符“?”作为第一分隔标记,提取待聚类网页的URL中第一分隔标记前的所有字符作为主干前缀;
(3’)判断该网页的URL中目录深度是否达到预设深度,当达到时,执行步骤(4);否则当未达到时,执行步骤(5);
(4’)识别待聚类网页簇中的该网页的URL中预设深度的路径位置处第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页簇中的该网页的URL中第二分隔标记前的字段作为主干前缀;
其中本实施例的第二特殊连接符为所有字符中除了字母字符、数字字符和第一特殊连接字符“?”之外的其他字符;
(5’)获取待聚类网页簇中的该网页的URL中最深一层的目录位置处第二特殊连接字符以及第二特殊连接字符之前的所有字符作为主干前缀。
经过上述方式,可以获取到待聚类网页簇中的该网页的URL有效地主干前缀。采用上述步骤(1’)-(5’)可以获取到待聚类网页簇中的每一个网页的URL的主干前缀。详细可以参考上述相关实施例的记载。
进一步可选地,在上述实施例的技术方案的基础上,其中步骤301“分别对各主干前缀进行切分,得到多个字段”进一步包括:根据预设的分隔符对各主干前缀进行切分,得到多个字段。例如,具体地,可以根据预设的分隔符,并结合预设分段策略对各主干前缀进行切分,得到多个字段;预设分段策略要求相邻的两个分隔符之间的连续字母或者连续数字,均分别作为独立的字段。该步骤的实施详细亦可以参考上述图1所示实施例的后续扩展实施例中的相关的技术方案的记载。
进一步可选地,在上述实施例的技术方案的基础上,其中步骤302“挖掘多个字段中的保留字段以及保留字段的位置信息”,进一步包括:判断各字段在多个网页的URL中的相同位置出现的概率是否大于或者等于预设阈值,若是大于或者等于预设阈值,则确定字段为保留字段,字段在对应的网页的URL中的位置为保留字段的位置信息。本实施例的预设阈值可以根据实际经验设置,例如可以为0.8或者0.7等等数值。
上述实施例的所有可选技术方案,可以采用可以结合的方式任意组合,形成本发明的可选技术方案,在此不再赘述。
上述实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
图4为本发明又一实施例提供的确定网页聚类模式的方法的流程图。本实施例的确定网页聚类模式的方法在上述图3及其可选技术方案的基础上,进一步更加详细地介绍本发明的技术方案。如图4所示,本实施例的确定网页聚类模式的方法,具体可以包括如下步骤:
400、获取待聚类网页簇中的多个网页的URL的主干前缀;
401、分别对各主干前缀进行切分,得到多个字段;
402、对于每个字段,判断该字段在多个网页的URL中的相同位置出现的概率是否大于或者等于预设阈值,若是大于或者等于预设阈值,则执行步骤403;否则,执行步骤404;
403、确定该字段为保留字段,字段在对应的网页的URL中的位置为保留字段的位置信息;执行步骤405;
采用步骤403的方式可以对多个字段中每个字段进行分析,从而可以挖掘出多个字段中的保留字段以及保留字段的位置信息。
404、确定该字段为非保留字段,并非保留字段的类型确定非保留字段的表示方式;执行步骤405;
405、根据保留字段、保留字段的位置信息以及非保留字段的表示方式,生成待聚类网页簇的URL的聚类模式。
本实施例中各步骤的实施详细亦可以参考上述相关实施例的相关方案的记载。
本实施例的确定网页聚类模式的方法,通过采用上述技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段、保留字段在主干前缀中的位置和非保留字段的类型;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
图5为本发明一实施例提供的确定网页聚类模式的装置的结构示意图。如图3所示,本实施例确定网页聚类模式的装置,具体可以包括:保留字段词典数据库M0、获取模块10、切分模块11、确定模块12和生成模块13。
其中保留字段词典数据库M0用于存储保留字段词典,该保留字段词典中包括至少一个预设保留字段及各预设保留字段的位置信息;获取模块10用于获取待聚类网页的URL的主干前缀;切分模块11与获取模块10连接,切换模块11用于对获取模块10获取的主干前缀进行切分,得到多个字段;确定模块12分别与切分模块11和保留字段词典数据库M0连接,确定模块12用于根据保留字段词典数据库M0中的保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分模块11切分得到的多个字段,将多个字段中与预设保留字段相同,且位置对应的字段作为保留字段;生成模块13与确定模块12连接,生成模块13用于根据确定模块12确定的多个字段中的保留字段和保留字段的位置信息,生成作为待聚类网页的URL的聚类模式。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现确定网页聚类模式的实现机制与上述相关方法实施例的实现机制相同,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现获取待聚类网页的URL的主干前缀;对主干前缀进行切分,得到多个字段;根据保留字段词典中的至少一个预设保留字段及各预设保留字段的位置信息来匹配切分得到的多个字段,将多个字段中与预设保留字段相同,且位置对应的字段作为保留字段;根据多个字段中的保留字段和保留字段的位置信息,生成作为待聚类网页的URL的聚类模式。采用本实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段和保留字段在主干前缀中的位置;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。而且在使用过程中,保留字段词典如果加载到内存中只需要300M左右,小于hadoop集群一般允许500M~800M内存的使用,大大简化了使用过程,使用非常方便。
图6为本发明另一实施例提供的确定网页聚类模式的装置的结构图。如图6所示,本实施例的确定网页聚类模式的装置在上述图5所示实施例的基础上,进一步包括如下技术方案。
本实施例的确定网页聚类模式的装置中,确定模块12还用于根据多个字段中匹配的保留字段之外的非保留字段的类型确定非保留字段的表示方式。此时对应的生成模块13具体用于根据多个字段中的保留字段、保留字段的位置信息以及非保留字段的表示方式,生成作为待聚类网页的URL的聚类模式。
可选地,本实施例的确定网页聚类模式的装置中,获取模块10具体用于识别待聚类网页的URL中的第一特殊连接字符,将第一特殊连接字符作为第一分隔标记,提取待聚类网页的URL中第一分隔标记前的字段作为主干前缀;本实施例中第一特殊连接字符具体可以为“?”。
或者获取模块10具体用于识别待聚类网页的URL中预设深度的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀;
或者获取模块10具体用于识别待聚类网页的URL中最深一层的目录位置处的第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取待聚类网页的URL中第二分隔标记前的字段作为主干前缀。
进一步可选地,本实施例的确定网页聚类模式的装置中,切分模块11具体用于根据预设的分隔符对获取模块10获取的主干前缀进行切分,得到多个字段。进一步地,切分模块11具体用于根据预设的分隔符,并结合预设分段策略对所述主干前缀进行切分,得到所述多个字段;所述预设分段策略要求相邻的两个分隔符之间的连续字母或者连续数字,均分别作为独立的字段。
进一步可选地,本实施例的确定网页聚类模式的装置中,获取模块10还用于获取至少一类前缀相似的网页的URL,每类前缀相似的网页的URL符中包括多个前缀相似的网页的URL;获取模块10还用于获取每类前缀相似的网页的URL的主干前缀;切分模块11还用于对每类前缀相似的网页的URL的主干前缀进行切分,得到多个字段;确定模块12还用于采用统计的方法分析多个字段,确定出多个字段中的保留字段,并将确定出的保留字段作为预设保留字段;生成模块13还与保留字段词典数据库M0连接,生成模块13还用于将得到的预设保留字段及预设保留字段在对应的主干前缀中的位置信息加入保留字段词典数据库M0中,生成保留字段词典。
进一步可选地,本实施例的确定网页聚类模式的装置中,确定模块12具体用于对于多个字段中的每个字段,从保留字段词典数据库M0中的保留字段词典中的至少一个预设保留字段中匹配与字段相同的预设保留字段;若能够匹配出预设保留字段,将匹配出的预设保留字段的位置与述字段的位置相匹配,若相同,将字段作为保留字段;或者,确定模块12具体用于对于多个字段中的每个字段,从保留字段词典中的至少一个预设保留字段中匹配与字段在主干前缀中位置相同的预设保留字段;若能够匹配出预设保留字段,将匹配出的预设保留字段与字段相匹配,若能够匹配出与字段相同的预设保留字段,则将字段作为保留字段。
进一步可选地,本实施例的确定网页聚类模式的装置中,确定模块12具体还用于若多个字段中保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示非保留字段的类型;若所述多个字段中保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示非保留字段的类型。
如图6所示,进一步可选地,本实施例的确定网页聚类模式的装置中还可以包括聚类处理模块14,该聚类处理模块14与生成模块13连接,聚类处理模块14根据生成模块13生成的待聚类网页的URL的聚类pattern,将待聚类网页聚类至该聚类pattern对应的URL数据库中。
本实施例的所有可选技术方案,可以采用可以结合的方式任意组合,形成本发明的可选技术方案,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现确定网页聚类模式的实现机制与上述相关方法实施例的实现机制相同,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段、保留字段在主干前缀中的位置和非保留字段的类型;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。而且在使用过程中,保留字段词典如果加载到内存中只需要300M左右,小于hadoop集群一般允许500M~800M内存的使用,大大简化了使用过程,使用非常方便。
图7为本发明再一实施例提供的确定网页簇聚类模式装置的结构示意图。如图7所示,本实施例确定网页聚类模式的装置,具体可以包括:获取模块20、切分模块21、挖掘模块22和生成模块23。
其中获取模块20用于获取待聚类网页簇中的多个网页的URL的主干前缀;切分模块21与获取模块20连接,用于分别对各主干前缀进行切分,得到多个字段;挖掘模块22与切分模块21连接,用于挖掘切分模块21切分得到的多个字段中的保留字段以及保留字段的位置信息;生成模块23与挖掘模块22连接,用于根据挖掘模块22挖掘得到的保留字段和保留字段的位置信息生成待聚类网页簇的URL的聚类模式。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现确定网页聚类模式的实现机制与上述相关方法实施例的实现机制相同,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现获取待聚类网页簇中的多个网页的URL的主干前缀,分别对各主干前缀进行切分,得到多个字段;挖掘多个字段中的保留字段以及保留字段的位置信息;根据保留字段和保留字段的位置信息生成待聚类网页簇的URL的聚类模式。采用本实施例的技术方案,能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段和保留字段在主干前缀中的位置;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据确定出的聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
图8为本发明又一实施例提供的确定网页聚类模式的装置的结构图。如图8所示,本实施例的确定网页聚类模式的装置在上述图7所示实施例的基础上,进一步包括如下技术方案。
本实施例的确定网页聚类模式的装置中,还包括确定模块24,该确定模块24与挖掘模块22连接,确定模块24用于根据挖掘模块22挖掘的多个字段中保留字段之外的非保留字段的类型确定非保留字段的表示方式;此时对应的,生成模块23还与确定模块24连接,生成模块23具体用于根据挖掘模块22挖掘的多个字段中的保留字段、保留字段的位置信息以及确定模块24确定的非保留字段的表示方式,生成作为待聚类网页的URL的聚类模式。
进一步可选地,确定模块24具体用于若多个字段中保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示非保留字段的类型;或确定模块24具体用于若多个字段中保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示非保留字段的类型。
进一步可选地,本实施例的确定网页聚类模式的装置中,获取模块20具体用于识别各网页的URL中第一特殊连接字符,将第一特殊连接字符作为第一分隔标记,提取网页的URL中第一分隔标记前的字段作为主干前缀。
或者获取模块20具体用于识别各网页的URL中预设深度的路径位置处第二特殊连接字符,将第二特殊连接字符作为第二分隔标记,提取网页的URL中第二分隔标记前的字段作为主干前缀。
进一步可选地,本实施例的确定网页聚类模式的装置中,切分模块21具体用于根据预设的分隔符对各主干前缀进行切分,得到多个字段。
例如切分模块21具体用于根据预设的分隔符,并结合预设分段策略对各主干前缀进行切分,得到多个字段;预设分段策略要求相邻的两个分隔符之间的连续字母或者连续数字,均分别作为独立的字段。
进一步可选地,本实施例的确定网页聚类模式的装置中,挖掘模块22具体用于判断各字段在多个网页的URL中的相同位置出现的概率是否大于或者等于预设阈值,若是大于或者等于预设阈值,则确定字段为保留字段,字段在对应的网页的URL中的位置为保留字段的位置信息。
进一步可选地,本实施例的确定网页聚类模式的装置中还可以包括聚类处理模块,该聚类处理模块与生成模块23连接,聚类处理模块根据生成模块23生成的待聚类网页簇的URL的聚类模式,对待聚类网页簇的每个URL进行聚类处理,将各个网页的聚类至对应的URL数据库中。
本实施例的所有可选技术方案,可以采用可以结合的方式任意组合,形成本发明的可选技术方案,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块实现确定网页聚类模式的实现机制与上述相关方法实施例的实现机制相同,详细可以参考上述实施例的记载,在此不再赘述。
本实施例的确定网页聚类模式的装置,通过采用上述模块能够对如http://360.cn/xxx/和http://360.cn/yyy/之类的页面聚类在同一个pattern下,而且每个聚类pattern中包括保留字段、保留字段在主干前缀中的位置和非保留字段的类型;而不限制非保留字段的内容,使得非保留段的字段具有通配功能,这样根据聚类pattern对待聚类网页的URL进行聚类处理时,该聚类pattern下可以聚类更多的页面,能够有效地优化网页的聚类效果,提高网页的聚类效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种确定网页聚类模式的方法,其特征在于,包括以下步骤:
获取待聚类网页的统一资源定位符的主干前缀;
对所述主干前缀进行切分,得到多个字段;
根据保留字段词典中的至少一个预设保留字段及各所述预设保留字段的位置信息来匹配切分得到的所述多个字段,将匹配到的与所述预设保留字段相同,且位置对应的字段部分作为保留字段;
根据所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式之前,进一步包括:
根据所述多个字段中所述保留字段之外的非保留字段的类型确定所述非保留字段的表示方式;
进一步地,根据所述多个字段中的所述保留字段和所述保留字段的位置信息生成作为所述待聚类网页的统一资源定位符的聚类模式,进一步包括:
根据所述多个字段中的所述保留字段、所述保留字段的位置信息以及所述非保留字段的表示方式,生成作为所述待聚类网页的统一资源定位符的聚类模式。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个字段中所述保留字段之外的非保留字段的类型确定所述非保留字段的表示方式,进一步包括:
若所述所述多个字段中所述保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示所述非保留字段的类型;
若所述所述多个字段中所述保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示所述非保留字段的类型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待聚类网页的统一资源定位符的主干前缀,进一步包括:
识别所述待聚类网页的统一资源定位符中第一特殊连接字符,将所述第一特殊连接字符作为第一分隔标记,提取所述待聚类网页的统一资源定位符中所述第一分隔标记前的字段作为所述主干前缀。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取待聚类网页的统一资源定位符的主干前缀,进一步包括:
识别所述待聚类网页的统一资源定位符中预设深度的路径位置处第二特殊连接字符,将所述第二特殊连接字符作为第二分隔标记,提取所述待聚类网页的统一资源定位符中所述第二分隔标记前的字段作为所述主干前缀。
6.一种确定网页簇聚类模式方法,其特征在于,包括以下步骤:
获取待聚类网页簇中的多个网页的统一资源定位符的主干前缀;
分别对各所述主干前缀进行切分,得到多个字段;
挖掘所述多个字段中的保留字段以及所述保留字段的位置信息;
根据所述保留字段和所述保留字段的位置信息生成所述待聚类网页簇的统一资源定位符的聚类模式。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式之前,进一步包括:
根据所述多个字段中所述保留字段之外的非保留字段的类型确定所述非保留字段的表示方式;
进一步地,根据所述多个字段中的所述保留字段和所述保留字段的位置信息生成作为所述待聚类网页的统一资源定位符的聚类模式,进一步包括:
根据所述多个字段中的所述保留字段、所述保留字段的位置信息以及所述非保留字段的表示方式,生成作为所述待聚类网页的统一资源定位符的聚类模式。
8.根据权利要求6-7任一项所述的方法,其特征在于,所述根据所述多个字段中所述保留字段之外的非保留字段的类型确定所述非保留字段的表示方式,进一步包括:
若所述所述多个字段中所述保留字段之外的非保留字段的类型为连续字符串时,采用正则表达式[a-zA-Z]+表示所述非保留字段的类型;
若所述所述多个字段中所述保留字段之外的非保留字段的类型为数字时,采用正则表达式(\d+)表示所述非保留字段的类型。
9.一种确定网页聚类模式的装置,其特征在于,包括以下:
保留字段词典数据库,用于存储保留字段词典,所述保留字段词典中包括至少一个预设保留字段及各所述预设保留字段的位置信息;
获取模块,用于获取待聚类网页的统一资源定位符的主干前缀;
切分模块,与所述获取模块连接,用于对所述获取模块获取的所述主干前缀进行切分,得到多个字段;
确定模块,分别与所述保留字段词典数据库和所述切分模块连接,用于根据所述保留字段词典中的至少一个预设保留字段及各所述预设保留字段的位置信息来匹配所述切分模块切分得到的所述多个字段,将匹配到的与所述预设保留字段相同,且位置对应的字段部分作为保留字段;
生成模块,与所述确定模块连接,用于根据所述确定模块匹配到的所述多个字段中的所述保留字段和所述保留字段的位置信息,生成作为所述待聚类网页的统一资源定位符的聚类模式。
10.一种确定网页簇聚类模式装置,其特征在于,包括以下:
获取模块,用于获取待聚类网页簇中的多个网页的统一资源定位符的主干前缀;
切分模块,与所述获取模块连接,用于分别对各所述主干前缀进行切分,得到多个字段;
挖掘模块,与所述切分模块连接,用于挖掘所述切分模块切分得到的所述多个字段中的保留字段以及所述保留字段的位置信息;
生成模块,与所述挖掘模块连接,用于根据所述挖掘模块挖掘得到的所述保留字段和所述保留字段的位置信息生成所述待聚类网页簇的统一资源定位符的聚类模式。
CN201410086390.9A 2014-03-10 2014-03-10 确定网页聚类模式的方法及装置 Pending CN103823892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410086390.9A CN103823892A (zh) 2014-03-10 2014-03-10 确定网页聚类模式的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410086390.9A CN103823892A (zh) 2014-03-10 2014-03-10 确定网页聚类模式的方法及装置

Publications (1)

Publication Number Publication Date
CN103823892A true CN103823892A (zh) 2014-05-28

Family

ID=50758956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410086390.9A Pending CN103823892A (zh) 2014-03-10 2014-03-10 确定网页聚类模式的方法及装置

Country Status (1)

Country Link
CN (1) CN103823892A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN106777216A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 对url进行聚类的方法及装置
CN107169121A (zh) * 2017-05-27 2017-09-15 北京知道未来信息技术有限公司 一种提取网站url的方法
CN107517140A (zh) * 2016-06-16 2017-12-26 中国移动通信集团广东有限公司 移动互联网的业务识别方法及装置
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法
CN110874443A (zh) * 2018-08-31 2020-03-10 北京搜狗科技发展有限公司 一种url模式获取方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798147A (zh) * 2004-12-28 2006-07-05 华为技术有限公司 一种统一资源定位符的匹配方法
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
WO2013039832A1 (en) * 2011-09-12 2013-03-21 Gfk Holding, Inc., Legal Services And Transactions System and method for automated classification of web pages and domains

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1798147A (zh) * 2004-12-28 2006-07-05 华为技术有限公司 一种统一资源定位符的匹配方法
CN101727447A (zh) * 2008-10-10 2010-06-09 浙江搜富网络技术有限公司 基于url的正则表达式的生成方法和装置
WO2013039832A1 (en) * 2011-09-12 2013-03-21 Gfk Holding, Inc., Legal Services And Transactions System and method for automated classification of web pages and domains

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘喜琴: "《语料库辅助EFL自主学习的多维探索》", 1 September 2013 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107517140A (zh) * 2016-06-16 2017-12-26 中国移动通信集团广东有限公司 移动互联网的业务识别方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN106777216A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 对url进行聚类的方法及装置
CN107169121A (zh) * 2017-05-27 2017-09-15 北京知道未来信息技术有限公司 一种提取网站url的方法
CN110874443A (zh) * 2018-08-31 2020-03-10 北京搜狗科技发展有限公司 一种url模式获取方法、装置、电子设备及可读存储介质
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN110298005A (zh) * 2019-06-26 2019-10-01 上海观安信息技术股份有限公司 一种对url进行归一化的方法

Similar Documents

Publication Publication Date Title
CN103823892A (zh) 确定网页聚类模式的方法及装置
CN101464905B (zh) 一种网页信息抽取的系统及方法
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
CN102148805B (zh) 特征匹配方法和装置
CN102855313B (zh) 网页浏览设备、网页摘要的生成方法及网页打开的方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
US20180307768A1 (en) Method and apparatus for grouping web page labels in a web browser
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN103942212A (zh) 一种用户界面的文字检测方法及装置
CN106844640A (zh) 一种网页数据分析处理方法
CN103838754A (zh) 信息搜索装置及方法
JP5978393B2 (ja) 計算機、記録媒体及びデータ検索方法
CN104361092A (zh) 搜索方法及装置
CN102081649B (zh) 一种搜索电脑文件的方法及其系统
CN103077250A (zh) 一种网页内容抓取方法及装置
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN104462041A (zh) 一种实现对热点事件从开始到结束实现完整检测的方法
CN104765823A (zh) 一种网站数据采集的方法及装置
CN109582548B (zh) 一种基于无埋点的页面元素圈选方法及装置
CN103955517B (zh) 将文档型数据库的数据转换至关系型数据库的方法及系统
CN103136212A (zh) 一种类别新词的挖掘方法及装置
CN102819595A (zh) 网页分类方法、装置及网络设备
CN106339381B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140528