CN104376000A - 确定网页属性的方法及装置 - Google Patents

确定网页属性的方法及装置 Download PDF

Info

Publication number
CN104376000A
CN104376000A CN201310351347.6A CN201310351347A CN104376000A CN 104376000 A CN104376000 A CN 104376000A CN 201310351347 A CN201310351347 A CN 201310351347A CN 104376000 A CN104376000 A CN 104376000A
Authority
CN
China
Prior art keywords
url
attribute
deformation pattern
webpage
architectural feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310351347.6A
Other languages
English (en)
Inventor
蔡同利
洪文明
吴俊峰
徐健
黄玉燕
陈力
杨永辉
刘晖
何远银
曲广凡
李文祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310351347.6A priority Critical patent/CN104376000A/zh
Publication of CN104376000A publication Critical patent/CN104376000A/zh
Priority to HK15105328.5A priority patent/HK1204816A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种确定网页属性的方法及装置,该方法包括:确定已知网页属性的URL的结构特征;确定目标URL的结构特征;比较已知网页属性的URL与目标URL的结构特征;以及当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。根据本申请,通过比较已知网页属性的URL与目标URL的结构特征,能够以很高的精度预先确定未下载过的网页(目标网页)的各种属性。

Description

确定网页属性的方法及装置
技术领域
本申请涉及互联网领域,尤其涉及一种确定网页属性的方法及装置。
背景技术
随着网络技术的发展,很多情况下用户需要从互联网搜集需要的信息,在这个过程中,用户需要浏览网页中的内容、甚至全文。基于这种需求,搜索引擎逐渐成为一种可供用户搜索互联网信息的重要工具。搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务。当接收到用户的搜索请求时,将用户所请求的信息展示给用户。
现有技术中,搜索引擎需要从互联网范围内下载有用的页面,进行处理和组织后,供用户查询。具体原理为:用户在搜索框中输入需要检索的信息(一般为关键字),搜索引擎在接收到用户输入的信息后,在索引库中进行检索,最后将检索到的结果呈现给用户。其中,索引库中的URL(UniformResource Locator,统一资源定位系统)及其网页会定期更新,以便让用户获得尽可能新的信息。URL也就是我们通常所说的网页地址或网址,URL需要遵守URL规范:http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.2。
现阶段,定期更新索引库或者在URL库中挑选URL进入已抓取的网页库时,通常会使用URL模式,而生成URL模式通常的做法是:首先,将已知的URL转换成URL模式(URL Pattern,可用于表示一组形式相近的URL);然后,采用人工的方式对这些URL模式的属性进行分类;最后,根据这些URL模式获取相应的网页并放入索引库中。然而,一方面,随着互联网中产生的网页数量的指数级增长,网页数量的增长速度远超过了搜索引擎对网页处理能力的增长速度。如果采用人工方式对网页进行分类,则分类时间长、效率低。因此,这种人工分类的方式难以大规模实施,能够覆盖到的页面数和产生的作用也比较有限。另一方面,由于一些URL即使表现形式相同,其页面内容也有可能会有较大差异,而现有技术的方法在聚合URL模式的过程中没有参考页面本身的属性(如页面质量、页面类型、语言等)。因此,这种方式聚合出的URL模式可能会导致粒度过大,造成有些URL模式内部包含多种不同类型的页面。因而搜索引擎无法准确地判断一个新页面的属性,从而进一步降低了其使用效果。
因此,在本领域中,需要一种方法,能够用于帮助提升页面的识别效率和准确性。
发明内容
本申请的主要目的在于提供一种确定网页属性的方法及装置,以解决现有技术中存在的不能有效、准确地识别网页属性的问题。
根据本申请的第一方面,提供了一种确定网页属性的方法,其特征在于,该方法包括:确定已知网页属性的URL的结构特征;确定目标URL的结构特征;比较已知网页属性的URL与目标URL的结构特征;以及当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
根据本申请的第二方面,提供了一种确定网页属性的装置,其特征在于,该装置包括:第一结构特征确定模块,用于确定已知网页属性的URL的结构特征;第二结构特征确定模块,用于确定目标URL的结构特征;比较模块,用于比较已知网页属性的URL与目标URL的结构特征;以及目标URL网页属性确定模块,用于当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
与现有技术相比,根据本申请的技术方案,通过比较已知网页属性的URL与目标URL的结构特征,能够以很高的精度预先确定未下载过的网页(即,目标网页)的各种属性。另外,使用这种方法大大提高了分类效率、节省了大量的下载和处理资源,提高了搜索引擎的数据质量,进而提高了用户的搜索质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的确定网页属性的方法的流程图;
图2是图1中的确定已知网页属性的URL的结构特征的步骤的更详细的流程图;
图3是根据本申请一个实施例的合并后的变形模式树的示意图;以及
图4是根据本申请一个实施例的用于确定网页属性的装置的结构框图。
具体实施方式
本申请的主要思想在于,根据已知的网页属性和对应的URL通过自动聚合、自动分类和自动验证生成URL的变形模式,使用这种方法生成的变形模式,能够以很高的精度预先判断(或识别)未获取过的网页的各种属性,避免获取质量不高的网页,从而节省下载和处理资源。
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
参考图1,图1是根据本申请一个实施例的确定网页属性的方法100的流程图。
如图1所示,在步骤101中,确定已知网页属性的URL的结构特征。
URL的结构特征可以使用预定的变形模式表示。所述变形模式可以包括基本模式及模式参数。
每一URL可以表示成基本模式(simple pattern)及模式参数。如果基本模式及模式参数已经确定,则可以根据确定的基本模式及模式参数生成对应的URL。
基本模式用于表示URL的结构。具有相同基本模式的URL具有相似的结构,其在形式上相近。在所述基本模式中,URL中的一个或多个元素由预定的标识符表示。比如URL中的二级域名部分(host)由“h1”表示,路径(path)部分由“p1”表示,文件部分(file)由“f1”表示,查询(query)部分由“q1”表示,如此,一个URL的基本模式可以由包含有“h1”、“p1”、“f1”及“q1”等一个或多个预定标识符的结构形成。URL的模式参数用于表示URL的各结构的特征值,即用于记载基本模式中的各标识符对应的赋值。所述模式参数的表示形式示例如下:“h1=www,p1=hello,f1=abc,f2=html,q1=k1,k1=v1”。
在步骤102中,确定目标URL的结构特征。
本申请实施例中,目标URL为未知网页属性的URL,即网页属性待识别的URL。确定目标URL的结构特征的方法可以与步骤101中确定已知网页属性的URL的结构特征的方法相同。
例如,可以将目标URL:http://www.test.com/hello/abc.html?k1=v1转换为一个对应的变形模式,具体步骤可以为:
首先,可以把URL拆成四个部分,分别是二级域名(host)、目录(path)、文件(file)以及查询参数(query)。对应到上述URL:http://www.test.com/hello/abc.html?k1=v1,它就被拆成了host:http://www.test.com/,path:hello/,file:abc.html,query:k1=v1;
然后,可以把二级域名中除一级域名外的部分以“.”分割,替代成h1,一级域名直接保留,目录部分以"/"分隔,替换成p1,文件部分以非字母数字进行替换,替换成f1.f2,查询参数部分去除参数值部分,使用“&”和“=”分割成参数和取值,替换成q1=k1,增加一个参数说明的部分:模式参数:h1=www,p1=hello,f1=abc,f2=html,q1=k1,k1=v1;
最后,可以将上述URL的URL模式表示成两部分,分别是:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www,p1=hello,f1=abc,f2=html,q1=k1,k1=v1。
在步骤103中,比较已知网页属性的URL与目标URL的结构特征。
本申请实施例中,比较已知网页属性的URL与目标URL的结构特征可以是将基于已知网页属性的URL得到的变形模式与未知网页属性的URL的变形模式进行比较(匹配)。根据本申请的一个实施例,将基于已知网页属性的URL得到的变形模式与未知网页属性的变形模式进行匹配的具体步骤可以为:
首先,遍历所有已知网页属性的URL的变形模式,比较目标URL的基本模式和每个已知网页属性的URL的基本模式。如果基本模式完全一样,则进入下一步;如果所有已知网页属性的URL的基本模式和目标URL的基本模式都不相同,则匹配不成功。
其次,在已知网页属性的URL的基本模式与目标URL的基本模式一致的情况下,将目标URL的模式参数与已知网页属性的URL的模式参数进行匹配,匹配方式采用正则表达式的匹配规则。例如:某一已知网页属性的URL的变形模式的二级域名(host)为h1=\s+(“\s+”代表由多个字母组成的字符串),若某一未知网页属性的URL的二级域名为h1=abc,则其可以匹配上h1=\s+,若另一个未知网页属性的URL的二级域名为h1=abc1,则其不能匹配上h1=\s+,原因是abc1不完全是字母。当目标URL的所有模式参数和已知网页属性的URL的所有模式参数的对应部分均能匹配成功时,确定为匹配成功,否则,确定为匹配不成功。
需要注意的是,根据上述例子所得到的变形模式能够匹配http://www.test.com/hello/abc.html?k1=v1这一个URL。更进一步,如果可以将多个基本模式相同且各种属性相似的变形模式合并在一起并泛化为包含通配符的变形模式,该变形模式的匹配能力就更强了。
多个基本模式相同且网页属性相似的URL可以作为一个集合,根据该集合中的URL的结构特征可以生成一个用于表述该集合的泛化模式。所述泛化模式即为适用于该集合所有URL的变形模式。在所述泛化模式中可以使用通配符表示URL中设定了预定标识符的元素以外的其他元素或字符串。
例如,“http://www.test.com/hello/abc.html?k1=et”及“http://www.test.com/hello/abc.html?k1=f”这两个URL的基本模式相同且网页属性相似,将这两个URL聚类到一个集合,该集合的泛化模式即可表示如下:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www,p1=hello,f1=abc,f2=html,q1=k1,k1=*(*表示通配符,能够匹配任何字符串)。
上述集合对应的泛化模式能够匹配到这样的URL:http://www.test.com/hello/abc.html?k1=v1(其中v1为任意值)。
还可以对上述匹配方法进行一些性能优化,如果在步骤2比较未知网页属性的URL的基本模式与已知网页属性的URL的基本模式时能够缩小比较范围,例如只比较和未知网页属性的URL所属一级域名(domain)相同的已知网页属性的URL对应的基本模式,即能大幅提高匹配的速度。
在步骤104中,当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
例如,当已知网页属性的URL的变形模式与未知网页属性的URL的变形模式满足设定的匹配条件时,可以将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。例如,设定的匹配条件可以是已知网页属性的URL的变形模式与未知网页属性的URL的变形模式相同或部分相同。
例如,某URL的网页属性为:页面类型=内容页,页面质量=高,语言=中文(PageType=contentpage,PageQuality=Good,Language=Chinese),则能够匹配上该URL的变形模式的所有目标URL都具有与其相同的网页属性,即也具有:页面类型=内容页,页面质量=高,语言=中文(PageType=contentpage,PageQuality=Good,Language=Chinese)这样的属性。
根据本申请的一个实施例,可以根据确定的目标URL的网页属性,确定是否获取该目标网页。
根据本申请的一个实施例,如果识别出的目标URL的网页属性表明该目标URL的质量较高,则确定获取该未知网页,反之,则确定不获取该未知网页。具体地,可以根据识别结果对各目标URL赋予一个权重。可以对具有不同质量的网页属性的URL赋予不同权重。例如,可以将具有高质量网页属性的URL赋予较高的权重,将具有低质量网页属性的URL赋予较低的权重。
例如,对于匹配上具有“页面质量=高,页面类型=资讯”的网页属性的变形模式的URL赋予较高权重;对于匹配上具有“PageQuality=bad,PageType=BBS(页面质量=低,页面类型=电子布告栏系统)”的网页属性的变形模式的URL赋予较低权重。可以仅下载(即获取)权重较高的URL所对应的网页。
在实际应用中,根据本申请的一个实施例,对于搜索引擎应用,服务器端可以存在三个数据库:URL库、已抓取网页库、索引库。
URL库:存放搜索引擎发现的所有URL以及这些URL的属性,例如页面排名、页面类型、下载状态、下载速度、正文大小、语言等;
已抓取网页库:存放已经抓取过的所有URL以及这些URL所对应的页面内容,这些已经抓取过的URL为URL库中URL的子集;以及
索引库:搜索引擎的供外部用户查询搜索结果的数据集,为已抓取网页库的子集。
可以使用变形模式在URL库中挑选哪些URL应该被抓取并放入已抓取网页库,以及在已抓取网页库中挑选哪些URL应该进入索引库中。
根据本申请的一个实施例,可以将获取的网页建立索引并将索引信息存储在索引库中,以供用户搜索。
根据本申请的另一个实施例,在识别出目标URL的网页属性之后,可以将识别出的网页属性用于预测该目标URL的点击率。例如,如果使用点击率较高的URL生成变形模式,则能匹配上这些变形模式的URL被点击的概率也会较高;如果使用点击率较低或无点击的URL生成变形模式,则能够匹配上这些变形模式的URL的被点击概率也会很低。
根据本申请的又一个实施例,识别出目标URL的网页属性后,可以将识别出的网页属性用于判断目标URL的重要性。例如:可以认为网页属性包含“页面类型=内容页,内容=资讯,页面质量=高”等信息的URL比网页属性包含“页面类型=电子布告栏系统,页面内容=列表页,页面质量=中等(PageType=BBS,PageContent=listpage,PageQuality=norma)”等信息的URL的重要性高。即,网页属性中包含特定信息的URL具有较高的重要性。
根据本申请的又一个实施例,识别出目标URL的网页属性后,可以将识别出的网页属性用于判断目标URL的分类并控制属于特定分类的页面抓取的比例/数量等。例如,在知道每个URL的分类后,可以控制每天抓取的所有页面中属于不同分类的页面的比例。例如,每天抓取的所有页面中,有70%的页面的类型为“PageType=Contentpage(页面类型=内容页)”。并且,在这70%的页面中,有20%的页面的类型为“Content=information,PageQuality=good(内容=资讯,页面质量=高)”,15%的页面的类型为“Content=video,PageQuality=good(内容=视频,页面质量=高)”,等等。
图2是图1中的确定已知网页属性的URL的结构特征的步骤(即步骤101)的更详细的流程图。
方法200开始于步骤201。在步骤201中,将已知网页属性的URL转换成变形模式的形式,其中每一变形模式可以携带有对应URL的已知网页属性。将已知网页属性的URL转换成变形模式的具体转换步骤可以与上文中步骤101中的转换方法相同。
根据本申请的一个实施例,每个变形模式可以对应于数据库中的一条记录。可以通过将已知网页属性作为该变形模式对应的数据库记录的一个字段来使得该变形模式携带该已知网页属性。
根据本申请的一个实施例,在进行步骤201之前,可以在URL库中收集已经下载过的页面(即网页)的URL和对应的页面属性。根据本申请的一个实施例,页面的各种属性包括但不限于页面类型、正文大小、网页排名、用户点击、下载状态、页面语言等。
在步骤202中,根据网页属性对步骤201中得到的变形模式进行合并和泛化。
根据本申请的一个实施例,可以借助树的结构将基本模式相同、属性类似的变形模式合并成一个表达范围更大的变形模式。具体来说,借助树结构完成对URL的变形模式进行合并和泛化可以包括以下步骤:
1)可以将基本模式相同的变形模式聚合在一起,生成一棵树,树的深度为变形模式的长度。
变形模式的长度为变形模式的四个部分(二级域名、目录、文件、查询参数)根据各种特殊字符分割后的项目数量之和,例如,步骤201中的例子:URL:http://www.test.com/hello/abc.html?k1=v1,该URL的变形模式可以表示成:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www,p1=hello,f1=abc,f2=html,q1=k1,k1=v1。
其中,在二级域名(host)部分,去掉顶级域名“.com”后,将用“.”分割后的项目数量称为二级域名长度;在目录(path)部分,将用“/”分割后的项目数量称为目录长度;在文件(file)部分,将用“_”、“.”等特殊字符分割后的项目数量称为文件长度;在query部分,将用“&”、“=”分割后的项目数量称为查询参数长度。
具体而言,上述URL的二级域名长度为2,即,用“.”分割后的项目为www、test,其数量为2。
目录长度为1,即,用“/”分割后的项目为hello,其数量为1。
文件长度为2,即,用“_”、“.”等特殊字符分割后的项目为abc、html,其数量为2。
查询参数长度为2,即,用“&”、“=”分割后的项目为q1、k1,其数量为2。
因此,二级域名长度2+目录长度1+文件长度为2+查询参数长度2=7。
所述树的根节点为所述变形模式对应的URL的一级域名的名字,树的其余节点(即子节点)依次为分割后的二级域名、目录、文件、查询参数的各部分的取值(例如,h1=www,则会在树的第一层建立一个取值为www的子节点)。同时,将URL的各种属性也赋给各个叶子节点。例如,一个URL的页面类型(PageType)为列表页(listpage),那么其对应的叶子节点会有PageType={listpage:1}(页面类型={列表页:1})的属性。创建树时,层次相同、节点内容也相同的节点会自动合并在一起。
需要说明的是,本申请中所提到的叶子节点指树结构最外层的节点。另外,对于两层以上的树结构而言,下一层节点相对于其上一层节点来说,可称为子节点。相应地,上一层节点相对于其下一层节点来说,可称为父节点。
2)从树的叶子节点开始向根节点回溯,将各个子节点的属性聚合到其父节点中。例如,一个父节点有两个子节点,如果每个子节点都有PageType={listpage:1}(页面类型={列表页:1})的属性,则其父节点就具有PageType={listpage:2}(页面类型={列表页:2})的属性;又如,一个子节点具有PageType={listpage:1}的属性,另一个子节点具有PageType={contentType:1}(页面类型={内容页:1})的属性,则其父节点就具有PageType={listpage:1,contentType:1}(页面类型={列表页:1,内容页:1})的属性。
3)当除根节点外,树的每个节点属性都计算好后,可以从树的根节点开始往下遍历,合并每个父节点的子节点中属性相近的子节点。具体来说,如果一个父节点的多个子节点的属性相近(例如PageType(页面类型)均为listpage(列表页),并且它们的属性取值分布相近),则可以把这些子节点合并为一个新的子节点,该新的子节点的取值为合并前的子节点取值的集合。例如,可以将属性均为值PageType=listpage(页面类型=列表页)”、取值分别为h1=www1和h1=www2的两个子节点合并成一个新的子节点,该新的子节点的属性为h1={www1,www2},即合并后的新子节点的属性为合并前的子节点的属性的集合。
4)可以对合并后的节点的属性取值进行泛化。例如,取值为h1={www1,www2,www3,www9…}的集合可以泛化为h1=www\d,表示h1为以www开头、以任意数字字符结尾的内容。参照图3,图3是根据本申请一个实施例的合并后的变形模式树的示意图。泛化节点指的是具有\s(字母字符)、\d(数字字符)、*(任意字符)等通配符的节点,这种节点能够匹配到多种情况。
5)可以从树的根节点开始,遍历该树。任意从根节点到叶子节点的路径可以组成一个变形模式,该变形模式的属性为离根节点最近的一个合并后的节点的属性。如图3所示的模式树包含有2个变形模式:
变形模式1:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h=www,p1=hello,f1=abc,f2=html,q1=k1,k1=*
属性:PageType=contentpage,PageQuality=Good,Language=Chinese
变形模式2:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h=www,p1=hello,f1=abc,f2=html,q1=k2,k1=*
属性:PageType=listpage,PageQuality=normal,Language=English
6)去除不包含任何泛化节点的变形模式,因为这种变形模式只能匹配到少量的URL,泛化能力不强。
需要说明的是,以树结构来实现变形模式的合并和泛化仅仅是示例性而非限制性的。根据本申请的描述,本领域技术人员能够想到其他可以用于实现本申请中的变形模式的合并和泛化的方法。
根据本申请的一个实施例,在进行步骤202之前,可以对基本模式进行排序。排序的原因是希望将基本模式相同的变形模式集中在一起,这样就能够在内存中对这些基本模式相同的变形模式进行合并,从而提高合并的性能。排序例如可以根据基本模式的字典序(即按字符串排序方法)来进行。
在步骤203中,对经过泛化的变形模式进行分类,得到分类后的变形模式。
根据本申请的一个实施例,可以根据步骤202中得到的合并和泛化后的变形模式和相应的属性给该变形模式打上属性分类的标签。例如,如图4所示,图3是根据本申请一个实施例的合并后的变形模式树的示意图。该模式树的合并后的叶子节点分别具有“PageType=contentpage,PageQuality=Good,Language=Chinese(页面类型=内容页,页面质量=高,语言=中文)”和“PageType=listpage,PageQuality=normal,Language=English(页面类型=内容页,页面质量=正常,语言=中文)”两组属性,可以将从这棵树中所得到的两个变形模式分别打上这两组属性标签。
在步骤204中,对分类后的变形模式进行验证。
根据本申请的一个实施例,可以使用已获取的URL及其属性来验证待验证的变形模式。通过对能匹配上该待验证变形模式的所有URL的属性分类和该待验证变形模式的属性分类进行比较,得到该待验证变形模式的所有属性分类的验证信息。例如,待验证变形模式及其属性包括:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h=www,p1=hello,f1=abc,f2=html,q1=k1,k1=*
属性:PageType=contentpage,PageQuality=Good,Language=Chinese
用于验证所述变形模式的第一URL为URL1:http://www.test.com/hello/abc.html?k1=v1,
URL1的属性包括:PageType=contentpage,PageQuality=Good,Language=Chinese;
用于验证所述变形模式的第二URL为URL2:http://www.test.com/hello/abc.html?k1=v2,
URL2的属性包括:PageType=contentpage,PageQuality=Good,Language=English;
用于验证所述变形模式的第三URL为URL3:http://www.test.com/hello/abc.html?k1=v3,
URL3的属性包括:PageType=contentpage,PageQuality=Good,Language=Chinese;
用于验证所述变形模式的第四URL为URL4:http://www.test.com/hello/abc.html?k1=v4
URL4的属性包括:PageType=contentpage, PageQuality=Good,Language=English;
用于验证所述变形模式的第五URL为URL5:http://www.test.com/hello/abc.html?k1=v5,
URL5的属性包括:PageType=contentpage, PageQuality=Good,Language=Chinese。
将以上5个URL及其属性用于验证待验证的变形模式。当用于验证所述变形模式的一个URL的某个属性分类与待验证的变形模式的对应属性分类相同时,计算结果为right:1。相反,当用于验证所述变形模式的一个URL的某个属性分类与待验证的变形模式的对应属性分类不相同时,计算结果为wrong:1。因此,上述待验证的变形模式的验证信息为:PageType:{right:5},PageQuality:{right:5},Language:{right:3,wrong:2}。然后,可以根据计算出的验证信息对分类后的变形模式进行验证。具体来说,可以采用如下验证方式:对于变形模式的每个属性分类,如果验证信息中正确(right)与错误(wrong)的比值超过一定阈值,则认为该分类正确。否则,认为该分类错误。错误的属性分类将不会被使用。例如,一个变形模式具有PageType=listpage(页面类型=列表页)的属性分类,同时其验证信息为PageType:{right:10,wrong:1}(页面类型:{正确:10,错误:1}),则表明该变形模式的页面类型为listpage(列表页面)的可能性非常高,这个分类会通过验证。如果另一个属性分类Language=English(语言=英文)的验证信息为Language:{right:5,wrong:5},则表明该变形模式对应的页面不一定是英文页面,该属性分类不能通过验证。例如,上述示例中有3个属性的验证信息:PageType:{right:5},PageQuality:{right:5},Language:{right:3,wrong:2},假设验证通过的阈值为90%,则PageType和PageQuality这两个属性可以通过验证,Language这个属性由于正确比例只有60%,所以不能通过验证。
需要说明的是,使用已有URL以及属性计算待验证变形模式的验证信息并根据计算出的验证信息对分类后的变形模式进行验证仅仅是示例性而非限制性的。根据本申请的描述,本领域技术人员能够想到其他可以用于实现本申请中的对分类后的变形模式进行验证的方法。
在步骤205中,将通过验证的变形模式与历史可用的变形模式进行合并,从而得到可用的变形模式数据库。合并方式同步骤302,例如,下面4个变形模式:
变形模式1包括:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h=www1,p1=hello,f1=abc,f2=html,q1=k1,k1=*;
变形模式2包括:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www2,p1=hello,f1=abc,f2=html,q1=k1,k1=*;
变形模式3包括:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h=www6,p1=hello,f1=abc,f2=html,q1=k1,k1=*;
变形模式4包括:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www9,p1=hello,f1=abc,f2=html,q1=k1,k1=*;
上述4个变形模式中的基本模式均相同,区别仅在于模式参数部分中的h1部分。因此,可以将上述4个变形模式合并成新的变形模式:
基本模式:http://h1.test.com/p1/f1.f2?q1=k1
模式参数:h1=www\d,p1=hello,f1=abc,f2=html,q1=k1,k1=*(\d表示任意一个数字字符)
在本申请的实施例中,将通过验证的变形模式称为可用变形模式。
需要说明的是,步骤204是可选步骤。也就是说,在进行完步骤203后,也可以不进行验证,而是直接将分类后的URL的变形模式与历史可用变形模式进行合并。验证的目的在于使变形模式使用起来准确度更高。
另外,可用变形模式可以是已有的,也可以通过本申请中的方法生成。根据本申请的一个实施例,可以将可用变形模式存储在系统文件中或数据库中,待需要时调用。
另外,为了提高可用变形模式使用起来的准确度,用于生成可用变形模式的已知网页属性和对应的URL与用于验证的已知网页属性和对应的URL可以从URL库中随机选取。一般地,用于生成可用变形模式的已知网页属性和对应的URL与用于验证的已知网页对应的URL可以是不同的。
图4是根据本申请一个实施例的确定网页属性的装置400的结构框图。
如图4所示,装置400可以包括第一结构特征确定模块401,用于确定已知网页属性的URL的结构特征402;第二结构特征确定模块,用于确定目标URL的结构特征;比较模块403,用于比较已知网页属性的URL与目标URL的结构特征;以及目标URL网页属性确定模块404,用于当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
根据本申请的一个实施例,结构特征可以表示为变形模式,变形模式可以包括基本模式及模式参数。
根据本申请的一个实施例,在基本模式中,URL中的一个或多个元素由预定的标识符表示,URL的模式参数记载基本模式中的各标识符对应的赋值。
根据本申请的一个实施例,变形模式携带有对应URL的网页属性。
根据本申请的一个实施例,第一结构特征确定模块401可以进一步包括:转换模块,用于将已知网页属性的URL转换成变形模式的形式;合并和泛化模块,用于根据网页属性对变形模式进行合并和泛化;以及分类模块,用于通过对经过泛化的变形模式进行分类,得到分类后的变形模式。
根据本申请的一个实施例,第一结构特征确定模块401可以进一步包括:变形模式合并模块,用于将分类后的变形模式与历史可用变形模式进行合并。
根据本申请的一个实施例,变形模式合并模块可以进一步包括:验证模块,用于对分类后的变形模式进行验证;以及变形模式合并子模块,用于将通过验证的变形模式与历史可用变形模式进行合并。
根据本申请的一个实施例,变形模式合并模块可以进一步包括:合并和泛化子模块,用于通过树结构来实现根据网页属性对变形模式进行合并和泛化。
综上所述,采用根据本申请的方法来得到可用变形模式,一方面能够保证变形模式的粒度适中,另一方面也能对这些模式进行自动分类;同时,采用自动验证的方式,能进一步提高变形模式分类的精度,达到跟人工标注分类相近的精度。这种根据已下载网页的URL和属性生成变形模式的方法能够在全网规模上自动实施。测试结果显示,通过该方法生成的变形模式能够覆盖到所有网页库中75%以上的URL,自动分类的准确率也超过95%。
需要说明的是,尽管以上以搜索引擎为例对本申请进行了描述,但是,本申请的应用不限于搜索引擎,而是可以应用于任何需要识别(预判)网页属性的场景。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书中的各个实施例一般采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块或单元。一般地,程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说,程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其主要思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种确定网页属性的方法,其特征在于,包括:
确定已知网页属性的URL的结构特征;
确定目标URL的结构特征;
比较已知网页属性的URL与目标URL的结构特征;以及
当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
2.根据权利要求1所述的方法,其特征在于,所述结构特征表示为变形模式,所述变形模式包括基本模式及模式参数。
3.根据权利要求2所述的方法,其特征在于,在所述基本模式中,URL中的一个或多个元素由预定的标识符表示,URL的模式参数记载基本模式中的各标识符对应的赋值。
4.根据权利要求1所述的方法,其特征在于,所述确定已知网页属性的URL的结构特征的步骤进一步包括:
将所述已知网页属性的URL转换成所述变形模式的形式;
根据网页属性对所述变形模式进行合并和泛化;以及
通过对经过泛化的所述变形模式进行分类,得到分类后的变形模式。
5.根据权利要求4所述的方法,其特征在于,所述确定已知网页属性的URL的结构特征的步骤进一步包括:
将所述分类后的变形模式与历史可用变形模式进行合并。
6.根据权利要求5所述的方法,其特征在于,所述将所述分类后的变形模式与历史可用变形模式进行合并的步骤进一步包括:
对所述分类后的变形模式进行验证;以及
将通过验证的变形模式与历史可用变形模式进行合并。
7.根据权利要求4所述的方法,其特征在于,所述根据网页属性对变形模式进行合并和泛化的步骤进一步包括:
通过树结构来实现根据网页属性对变形模式进行合并和泛化。
8.一种确定网页属性的装置,其特征在于,包括:
第一结构特征确定模块,用于确定已知网页属性的URL的结构特征;
第二结构特征确定模块,用于确定目标URL的结构特征;
比较模块,用于比较已知网页属性的URL与目标URL的结构特征;以及
目标URL网页属性确定模块,用于当已知网页属性的URL与目标URL的结构特征相同或部分相同时,将已知网页属性的URL的至少部分网页属性确定为目标URL的网页属性。
9.根据权利要求8所述的装置,其特征在于,所述结构特征表示为变形模式,所述变形模式包括基本模式及模式参数。
10.根据权利要求9所述的装置,其特征在于,在所述基本模式中,URL中的一个或多个元素由预定的标识符表示,URL的模式参数记载基本模式中的各标识符对应的赋值。
11.根据权利要求8所述的装置,其特征在于,所述第一结构特征确定模块进一步包括:
转换模块,用于将所述已知网页属性的URL转换成所述变形模式的形式;
合并和泛化模块,用于根据网页属性对所述变形模式进行合并和泛化;
以及
分类模块,用于通过对经过泛化的所述变形模式进行分类,得到分类后的变形模式。
12.根据权利要求11所述的装置,其特征在于,所述第一结构特征确定模块进一步包括:
变形模式合并模块,用于将所述分类后的变形模式与历史可用变形模式进行合并。
13.根据权利要求12所述的装置,其特征在于,所述变形模式合并模块进一步包括:
验证模块,用于对所述分类后的变形模式进行验证;以及
变形模式合并子模块,用于将通过验证的变形模式与历史可用变形模式进行合并。
14.根据权利要求12所述的装置,其特征在于,所述变形模式合并模块进一步包括:
合并和泛化子模块,用于通过树结构来实现根据网页属性对变形模式进行合并和泛化。
CN201310351347.6A 2013-08-13 2013-08-13 确定网页属性的方法及装置 Pending CN104376000A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310351347.6A CN104376000A (zh) 2013-08-13 2013-08-13 确定网页属性的方法及装置
HK15105328.5A HK1204816A1 (zh) 2013-08-13 2015-06-04 確定網頁屬性的方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310351347.6A CN104376000A (zh) 2013-08-13 2013-08-13 确定网页属性的方法及装置

Publications (1)

Publication Number Publication Date
CN104376000A true CN104376000A (zh) 2015-02-25

Family

ID=52554921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310351347.6A Pending CN104376000A (zh) 2013-08-13 2013-08-13 确定网页属性的方法及装置

Country Status (2)

Country Link
CN (1) CN104376000A (zh)
HK (1) HK1204816A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491247A (zh) * 2018-04-10 2018-09-04 武汉斗鱼网络科技有限公司 页面跳转方法、装置、终端及计算机可读介质
CN109408387A (zh) * 2018-10-24 2019-03-01 天津字节跳动科技有限公司 页面测试方法及装置
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN113556308A (zh) * 2020-04-23 2021-10-26 深信服科技股份有限公司 一种流量安全性检测方法、系统、设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN103218443A (zh) * 2013-04-22 2013-07-24 中山大学 一种面向博客网页的网页检索系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101650715A (zh) * 2008-08-12 2010-02-17 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN103218443A (zh) * 2013-04-22 2013-07-24 中山大学 一种面向博客网页的网页检索系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李玄: ""基于URL特征的网页分类研究"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020036A (zh) * 2017-07-18 2019-07-16 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN110020036B (zh) * 2017-07-18 2021-06-08 北京国双科技有限公司 一种网站列表路径生成方法及装置
CN108491247A (zh) * 2018-04-10 2018-09-04 武汉斗鱼网络科技有限公司 页面跳转方法、装置、终端及计算机可读介质
CN108491247B (zh) * 2018-04-10 2021-06-15 武汉斗鱼网络科技有限公司 页面跳转方法、装置、终端及计算机可读介质
CN109408387A (zh) * 2018-10-24 2019-03-01 天津字节跳动科技有限公司 页面测试方法及装置
CN109408387B (zh) * 2018-10-24 2022-03-22 天津字节跳动科技有限公司 页面测试方法及装置
CN113556308A (zh) * 2020-04-23 2021-10-26 深信服科技股份有限公司 一种流量安全性检测方法、系统、设备及计算机存储介质

Also Published As

Publication number Publication date
HK1204816A1 (zh) 2015-12-04

Similar Documents

Publication Publication Date Title
US6915340B2 (en) System and method for deriving future network configuration data from the current and previous network configuration data
JP5749279B2 (ja) アイテム関連付けのための結合埋込
US9317613B2 (en) Large scale entity-specific resource classification
US20120239606A1 (en) Business semantic network build
US20090063538A1 (en) Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
EP1909196B1 (en) Discovery of services matching a service request
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN110515896B (zh) 模型资源管理方法、模型文件制作方法、装置和系统
CN111625694B (zh) 多级标签处理方法、装置及计算机设备
De Renzis et al. Case-based reasoning for web service discovery and selection
US20230024345A1 (en) Data processing method and apparatus, device, and readable storage medium
CN104376000A (zh) 确定网页属性的方法及装置
CN111507400B (zh) 应用分类方法、装置、电子设备以及存储介质
CN114491172A (zh) 树形结构节点的快速检索方法、装置、设备及存储介质
CN109933589B (zh) 用于数据汇总的基于ElasticSearch聚合运算结果的数据结构转换方法
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN112307318A (zh) 一种内容发布方法、系统及装置
CN107239568B (zh) 分布式索引实现方法及装置
CN116842099B (zh) 一种多源异构数据处理方法和系统
US20160321345A1 (en) Chain understanding in search
Baskara et al. Web service discovery using combined bi-term topic model and WDAG similarity
CN106776654B (zh) 一种数据搜索方法及装置
CN103559225A (zh) Web服务资源库数据的清洗方法和服务器
CN109948018B (zh) 一种Web结构化数据快速提取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1204816

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20150225

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1204816

Country of ref document: HK