CN103793461A

CN103793461A - 网页信息的解析方法及装置

Info

Publication number: CN103793461A
Application number: CN201310631635.7A
Authority: CN
Inventors: 周雷; 高扬; 姜鑫; 曹晴; 牛杏媛
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2013-12-02
Filing date: 2013-12-02
Publication date: 2014-05-14
Anticipated expiration: 2033-12-02
Also published as: CN103793461B

Abstract

本发明提出了一种网页信息的解析方法，包括以下步骤：将待解析网页的网址与可解析的域名集合中的域名进行匹配；根据匹配成功的域名定位到对应的网址特征集合；将待解析网页的网址与该网址特征集合中的网址特征进行匹配；根据匹配成功的网址特征定位到对应的商品模板集合；将待解析网页与该商品模板集合中的商品模板进行匹配；将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果。本发明还提供了一种对应的网页信息的解析装置。采用本发明，网站中多种形式的商品网址都能够准确识别出来，对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别，从而尽可能多地将网页上的商品信息解析出来。

Description

网页信息的解析方法及装置

技术领域

本发明涉及网页信息的解析技术，特别是当网页的网址多样化，网页信息呈现多样化时的信息解析抽取方法及其相应装置。

背景技术

随着电子商务网站的不断发展，为了更好的展现出商品的信息，打动前来购物的消费者，现在网站的页面做的越来越复杂，对于要提取这些网站的商品信息的购物搜索来讲，提出了不小的挑战。首先商品页面的网址可能会有多种形式，其次商品页面信息也可能会有多种呈现形式。而传统的购物搜索在提取电商网站的商品页面信息时，一般都只维护一套模板，碰到这种复杂的页面情况时，会显得力不从心，只能成功解析一部分商品，导致解析的成功率比较低下。

发明内容

为了克服现有技术存在的缺陷，需要将网站中多种形式的商品网址都能够准确识别出来，对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别，从而尽可能多地将网页上的商品信息解析出来。

因此，依据本发明的一个方面，本发明提出了一种网页信息的解析方法，该方法包括以下步骤：

将待解析网页的网址与可解析的域名集合中的域名进行匹配；

根据匹配成功的域名定位到对应的网址特征集合；

将待解析网页的网址与该网址特征集合中的网址特征进行匹配；

根据匹配成功的网址特征定位到对应的商品模板集合；

将待解析网页与该商品模板集合中的商品模板进行匹配；

将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果。

可选地，所述域名集合由一级域名构建。

可选地，所述网址特征包括两个项目：域名和特征表达式。

可选地，所述特征表达式，是字符串，或者是正则表达式。

可选地，所述可解析的域名集合中包括一个或多个域名，所述网址特征集合中包括一个或多个网址特征，所述商品模板集合中包括一个或多个商品模板，商品模板中包含需要从页面内容中提取出来的用于描述商品的项目。

可选地，所述商品模板还包括页面类型项，该页面类型项包括用于描述页面类型的正则表达式或字符串，在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中，通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配，来确定待解析网页与商品模板是否匹配成功。

可选地，同一个商品模板能够隶属于不同的商品模板集合，从而对应于不同的网址特征。

可选地，所述涉及匹配的步骤中，是将待解析网页的网址与集合中的元素逐一进行匹配，如果集合中的全部元素都不能与待解析网页的网址匹配成功，则认为匹配失败，不进行下一步骤，解析过程结束。

根据本发明的另一方面，本发明还提出了一种网页信息的解析装置，该解析装置包括以下模块：

域名匹配模块，将待解析网页的网址与可解析的域名集合中的域名进行匹配；

域名定位模块，根据匹配成功的域名定位到对应的网址特征集合；

网址匹配模块，将待解析网页的网址与该网址特征集合中的网址特征进行匹配；

网址定位模块，根据匹配成功的网址特征定位到对应的商品模板集合；

商品匹配模块，将待解析网页与该商品模板集合中的商品模板进行匹配；

解析模块，将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果。

可选地，所述域名集合由一级域名构建。

可选地，所述网址特征包括两个项目：域名和特征表达式。

可选地，所述特征表达式，是字符串，或者是正则表达式。

可选地，所述商品模板还包括页面类型项，该页面类型项包括用于描述页面类型的正则表达式或字符串，在所述商品匹配模块将待解析网页与该商品模板集合中的商品模板进行匹配过程中，通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配，来确定待解析网页与商品模板是否匹配成功。

可选地，所述涉及匹配的过程中，是将待解析网页的网址与集合中的元素逐一进行匹配，如果集合中的全部元素都不能与待解析网页的网址匹配成功，则认为匹配失败，不进行后续处理，解析过程结束。

根据本发明实施例的一种网页信息的解析方法可以看出，本公开解决了多域名、多模板网站的有效信息提取的问题，能够尽可能多地将网页上的商品信息有效并准确的解析出来。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是根据本发明一个实施例的网页信息解析方法的流程图；

图2是根据本发明一个实施例的商品模板的组织结构示意图；

图3是根据本发明另一个实施例的网页信息解析装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示的本发明的一种网页信息的解析方法，包括以下步骤：

步骤S110，解析开始前，首先需要获取待解析网页的网址。由于并非所有网页的网址都能够被解析，因此，需要根据待解析网页的网址判断其是否能够被解析，比如对于每个商家，都需要区分这个网站表述的商品特征和非商品的特征，商家感兴趣的自然是商品特征，因此具备商品特征的网址是需要被解析并提取的，而不相干或不感兴趣的网址则不需要被解析或提取。在实际运行中，设置一个能够解析的域名集合是一种可选的解决方案，该域名集合中包括一个或多个域名，只需要将网址与域名集合中的域名匹配一下就能够知道该网址的网页是否能被解析。由于域名仍然可能存在多种形式，因此我们优选按照商家的一级域名来构成这个域名集合，使得它更具备独特性。下面举例说明一级域名的含义：

商品域名	一级域名
		product.dangdang.com	dangdang.com
www.amazon.cn	amazon.cn

使用一级域名做为划分基准，另外一个好处是有利于下载系统资源调度。

步骤S120，将待解析网页的网址与可解析的域名集合中的域名进行匹配，判断域名匹配是否成功，若匹配成功则进行步骤S130继续解析，若匹配不成功则进行步骤S180结束解析。

步骤S130,根据匹配成功的域名定位到对应的网址特征集合。

步骤S140，将待解析网页的网址与该网址特征集合中的网址特征进行匹配，判断网址特征是否匹配成功，若匹配成功则进行步骤S150继续解析，若匹配不成功则进行步骤S180结束解析。网址特征是指URL特征（统一资源定位符Uniform Resource Locator，缩写为URL），URL作为网络资源的唯一地址标识，具有很多有效的特征，例如：时序特征、正交特征、长度特征等，URL特征是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址，互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

本发明的网址特征集合中包括一个或多个网址特征。对于本发明而言，在每个一级域名下，会存在多个URL特征，用于识别该域名下所有商品，下载系统就是通过检查URL特征，从而判断是否可以进行商品抽取的。URL特征由两个元素组成：域名和特征表达式。例如下述两个URL特征：

{“www.amazon.cn”,“/gp/product/”}

{“www.amazon.cn”,“^.*/dp/[\w]+$”}

特征1“/gp/product/”表示，遇到URL域名是www.amazon.cn的网站，如果URL里包含“/gp/product/”部分，就判定是一个商品，需要进行抽取。

特征2“^.*/dp/[\w]+$”表示，遇到URL域名是www.amazon.cn的网站，如果URL里包含以“/dp/[\w]+”为结尾的，就判定是一个商品，需要进行抽取。

从上述URL特征可以看出：1)URL特征使用的是商品域名，而不是一级域名。2)URL特征中的特征表达式，可以是一个简单字符串、简单字符串片段或简单的字串查询（如特征1部分），也可以是一个复杂的正则表达式，即正则匹配（如特征2部分）。

步骤S150，根据匹配成功的网址特征定位到对应的商品模板集合。

步骤S160，将待解析网页与该商品模板集合中的商品模板进行匹配，判断模板匹配是否成功，若匹配成功则进行步骤S170进行网页解析及提取，若匹配不成功则进行步骤S180结束解析。商品模板集合中包括一个或多个商品模板，商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息，如图2所示，一个URL特征下可有多个商品模板，同时一个商品模板可隶属于多个URL特征，即同一个商品模板能够隶属于不同的商品模板集合，从而对应于不同的网址特征。商品模板包含了描述一个商品所需要从页面内容中提取内容的模板集，正常来说，一个商品需要标题、图片、价格、分类这些信息，由于这些信息一般都是从页面的内容中获取到的，这样就需要对标题、图片、价格、分类这些项都预先录入匹配的内容。每个商品模板都含有一个特殊模板项——页面类型（productType），用来描述商品特征，是一个具体内部的实现，具体的说，页面类型（productType）用来描述一个页面的类型，表示这个页面中的信息是一个商品页面还是一个列表页面，或者是一个不相干的页，在本发明中，该页面类型项包括用于描述页面类型的正则表达式或字符串，可以用正则表达式或字符串的形式来匹配URL特征自身的内容，通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配，来确定待解析网页与商品模板是否匹配成功。比如人工录入一个需要匹配的内容，然后每次拿URL特征给这个内容匹配，包含这个内容，则表示当前URL表示的是商品，在商家添加新的种类的时候，人工录入会定期更新。在使用某商品模板抽取前，都会先检查productType匹配情况，只有匹配成功时，才会进行抽取。

下面举例说明，以京东的商品为例，京东的页面有很多种URL，如下：

1）http://item.jd.com/738295.html

2）http://list.jd.com/670-677-681-0-0-0-0-0-0-0-1-1-1-1-1-72-4137-0.html

3）http://help.jd.com/help/question-64.html

上述3个URL中，属于商品页形式的只有http://item.jd.com/738295.html这种，也就是说，商品页都会符合一类特质，在京东上，这种特质就是

“item.jd.com/一串数字.html”，用计算机中的正则表达式来表示，就是“item.jd.com|^/.*?[0-9]+\.html.*$”。而“ist.jd.com/XXXX.html”代表了列表页，“help.jd.com/XXXX.html”则是不相干的页面。

步骤S170，将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果进行页面提取。

步骤S180，结束解析。需要说明的是，在上述涉及匹配的步骤中，均是将待解析网页的网址与集合中的元素逐一进行匹配，如果集合中的全部元素都不能与待解析网页的网址匹配成功，则认为匹配失败，不进行下一步骤，解析过程结束。

基于上述解析方法，下面举例来说明本发明的处理流程：

下载系统发现一个网页的网址（待解析网址）为

“http://www.amazon.cn/gp/product/B0019DBU60”：

将待解析网页的网址与可解析的域名集合中的域名进行匹配，由于域名集合中包括一级域名“amazon.cn”，发现一级域名“amazon.cn”匹配成功；

根据匹配成功的域名定位到对应的网址特征集合，将待解析网页的网址与该网址特征集合中的网址特征进行匹配，由于网址特征集合中包含“www.amazon.cn”,“/gp/product/”网址特征，发现URL特征

{“www.amazon.cn”,“/gp/product/”}匹配成功；

根据匹配成功的网址特征定位到对应的商品模板集合，将待解析网页与该商品模板集合中的商品模板进行匹配，假设页面类型项特征在模板2中，则会发现模板2匹配成功；

将待解析的网页按照匹配成功的模板2进行解析，返回解析结果，包括商品的名称、分类、价格、图片等信息项；

如果上述任何一个匹配过程失败，则都不进行后续处理，解析过程结束，跳到下一个网页。

通过本发明的实施例可以看出，网站中多种形式的商品网址都能够准确识别出来，对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别，从而尽可能多地将网页上的商品信息解析出来。

如图3所示，是本发明的另一个实施例，是基于图1原理的一种网页信息的解析装置300，包括以下模块：

域名匹配模块310，将待解析网页的网址与可解析的域名集合中的域名进行匹配，其中的域名集合包括一个或多个一级域名；

域名定位模块320，根据匹配成功的域名定位到对应的网址特征集合，网址特征集合中包括一个或多个网址特征，网址特征用URL特征来表达，由两个元素组成：域名和特征表达式，其中特征表达式可以是字符串，也可以是正则表达式；

网址匹配模块330，将待解析网页的网址与该网址特征集合中的网址特征进行匹配；

网址定位模块340，根据匹配成功的网址特征定位到对应的商品模板集合，商品模板集合中包括一个或多个商品模板，商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。一个URL特征下可有多个商品模板，同时一个商品模板可隶属于多个URL特征，即同一个商品模板能够隶属于不同的商品模板集合，从而对应于不同的网址特征；

商品匹配模块350，将待解析网页与该商品模板集合中的商品模板进行匹配，每个商品模板都含有一个特殊模板项——页面类型（productType），用来描述一个页面的类型，表示这个页面中的信息是一个商品页面还是一个列表页面，或者是一个不相干的页，在本发明中，该页面类型项包括用于描述页面类型的正则表达式或字符串，可以用正则表达式或字符串的形式来匹配URL特征自身的内容，通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配，来确定待解析网页与商品模板是否匹配成功；

解析模块360，将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果，包括商品的名称、分类、价格、图片等信息项。

根据以上的方法，可以通过包括计算机程序在内的软件、固件或硬件来实现，但不限于计算机程序的实现方式，还可以设计与其相对应的实体装置，每个硬件功能模块用于实现对应功能、或者实现功能的拆分及合并同样也是可行的。

需要说明的是，本发明实施例提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种网页信息的解析方法，其特征在于包括以下步骤：

根据匹配成功的域名定位到对应的网址特征集合；

根据匹配成功的网址特征定位到对应的商品模板集合；

将待解析网页与该商品模板集合中的商品模板进行匹配；

2.根据权利要求1所述的网页信息的解析方法，其特征在于：所述域名集合由一级域名构建。

3.根据权利要求1所述的网页信息的解析方法，其特征在于：所述网址特征包括两个项目：域名和特征表达式。

4.根据权利要求3所述的网页信息的解析方法，其特征在于：所述特征表达式，是字符串，或者是正则表达式。

5.根据权利要求1-4之一所述的网页信息的解析方法，其特征在于：所述可解析的域名集合中包括一个或多个域名，所述网址特征集合中包括一个或多个网址特征，所述商品模板集合中包括一个或多个商品模板，商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。

6.根据权利要求1所述的网页信息的解析方法，其特征在于：所述商品模板还包括页面类型项，该页面类型项包括用于描述页面类型的正则表达式或字符串，在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中，通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配，来确定待解析网页与商品模板是否匹配成功。

7.根据权利要求1所述的网页信息的解析方法，其特征在于：同一个商品模板能够隶属于不同的商品模板集合，从而对应于不同的网址特征。

8.根据权利要求1-7之一所述的网页信息的解析方法，其特征在于：所述涉及匹配的步骤中，是将待解析网页的网址与集合中的元素逐一进行匹配，如果集合中的全部元素都不能与待解析网页的网址匹配成功，则认为匹配失败，不进行下一步骤，解析过程结束。

9.一种网页信息的解析装置，其特征在于包括以下模块：

商品匹配模块，将待解析网页与该商品模板集合中的商品模板进行匹配；解析模块，将待解析的网页按照匹配成功的商品模板进行解析，返回解析结果。

10.根据权利要求9所述的网页信息的解析装置，其特征在于：所述域名集合由一级域名构建。