CN101192234A

CN101192234A - 一种基于网页抽取的搜索系统及搜索方法

Info

Publication number: CN101192234A
Application number: CNA2007100747433A
Authority: CN
Inventors: 杜建强; 邓大付
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-06-07
Filing date: 2007-06-07
Publication date: 2008-06-04

Abstract

本发明公开了一种基于网页抽取的搜索系统，包括用于下载网页的网页下载单元以及存储搜索结果的结果存储单元，还包括：模板存储单元，用于存储一个或多个模板，所述模板用于记录预设的网页特征；网页抽取单元，用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。本发明还公开了一种对应的基于网页抽取的搜索方法。本发明通过将下载的网页与预设的网页特征进行匹配，从而获得更加准确的搜索结果。

Description

一种基于网页抽取的搜索系统及搜索方法

技术领域

本发明涉及信息搜索领域，更具体地说，涉及一种基于网页抽取的搜索系统及搜索方法。

背景技术

随着搜索引擎技术的发展，搜索结果的准确率已成为普遍关注的问题。目前，绝大多数搜索引擎都能呈现大量的搜索结果，但往往只有相关性好、结果准确的记录才被关注。因此，具有针对性强、信息准确、更新及时等特点的专项搜索应用较广。

在整个搜索引擎中，网页的下载和分析是搜索结果的数据来源。因此，网页抽取算法是其关键技术之一，该算法的复杂度、可操作性、容错性和准确度都是影响搜索结果的数量和质量的重要因素，甚至会成为整个搜索引擎的瓶颈。

专利申请号为02111893.0、名称为《基于信息抽取的搜索引擎》的中国公开了一种利用机器学习的方法：对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。通过训练和学习，调整规则数目和抽象程度，使其满足精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。

然而，上述搜索引擎由于使用了机器学习方法，由程序生成页面的抽取规则，因此这些规则容错性比较差：一方面，很多类似结构的页面无法处理；另一方面，会降低抽取的准确率。此外，由于机器学习需要大量的测试集来对算法进行训练和学习，其间不断地调整和适应规则需要花费大量的人力和时间。

发明内容

本发明要解决的技术问题在于，针对上述搜索引擎抽取准确率低、可操作性差的问题，提供一种基于网页抽取的搜索系统及搜索方法。

本发明解决上述技术问题的技术方案是，提供一种基于网页抽取的搜索系统，包括用于下载网页的网页下载单元以及用于存储搜索结果的结果存储单元，还包括：

模板存储单元，用于存储一个或多个模板，所述模板用于记录预设的网页特征；

网页抽取单元，用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。

在本发明所述的一种基于网页抽取的搜索系统中，所述模板存储单元中的每一模板对应一组URL特征项，所述网页抽取单元进一步包括模板匹配子单元，用于通过所述网页的URL匹配模板的URL特征项，并丢弃与所有模板都不匹配的网页。

在本发明所述的一种基于网页抽取的搜索系统中，所述模板存储单元中的每一模板包括一个或多个块特征，所述块特征包括HTML标签的顺序和/或标签的嵌套，所述网页抽取单元进一步包括块匹配子单元，用于根据所述网页中的HTML标签匹配所述模板匹配子单元确定的模板中的块特征，并丢弃网页中与所述模板中所有块特征都不匹配的内容。

在本发明所述的一种基于网页抽取的搜索系统中，所述模板存储单元中的每一模板的块特征中包括一个或多个结点特征，所述结点特征包括数据类型、过滤规则和/或抽取规则，所述网页抽取单元进一步包括结点匹配子单元，用于根据网页中的数据类型和内容匹配所述块匹配子单元确定的块中的结点特征，并将与所述结点特征匹配的内容作为搜索结果。

在本发明所述的一种基于网页抽取的搜索系统中，还包括模板设置单元，用于将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。

本发明还提供一种基于网页抽取的搜索方法，包括以下步骤：

(a)从互联网获取网页；

(b)将步骤(a)中获取的网页中与预设的模板匹配的内容作为搜索结果，所述模板用于记录预设的网页特征；

(c)存储步骤(b)获得的搜索结果。

在本发明所述的一种基于网页抽取的搜索方法中，每一所述模板对应一个URL特征项，所述步骤(b)进一步包括：

(b1)将所述网页的URL匹配所述模板的URL特征项，并丢弃与所有模板都不匹配的网页。

在本发明所述的一种基于网页抽取的搜索方法中，每一所述模板包括一个或多个块特征，所述块特征包括HTML标签的顺序和/或标签的嵌套，所述步骤(b)进一步包括：

(b2)根据所述网页中的HTML标签匹配所述步骤(b1)确定的模板中的块特征，并丢弃网页中与所述模板中所有块特征都不匹配的内容。

在本发明所述的一种基于网页抽取的搜索方法中，每一所述模板的块特征中包括一个或多个结点特征，所述结点特征包括数据类型、过滤规则和/或抽取规则，所述步骤(b)进一步包括：

(b3)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征，并将与所述结点特征匹配的内容作为搜索结果。

在本发明所述的一种基于网页抽取的搜索方法中，所述模板中预设的网页特征包括URL特征、块特征或结点特征，所述步骤(b)进一步包括：

(b1’)将网页的URL匹配模板的URL特征项，若存在对应的URL特征项的模板，则将包含匹配URL特征的模板作为当前网页的模板并执行步骤(b2’)，否则执行步骤(b5’)；

(b2’)根据网页中的HTML标签匹配步骤(b1’)确定的模板中的块特征，若网页中存在匹配块特征的内容，则执行步骤(b3’)，否则执行步骤(b5’)；

(b3’)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征，若网页中存在与结点特征匹配的内容，则执行步骤(b4’)，否则执行步骤(b5’)；

(b4’)将与结点特征匹配的内容作为搜索结果；

(b5’)丢弃当前网页。

在本发明所述的一种基于网页抽取的搜索方法中，还包括将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。

本发明一种基于网页抽取的搜索系统及搜索方法，通过将下载的网页与预设的网页特征进行匹配，从而获得更加准确的搜索结果。此外，由于本发明对网页中的内容依次使用块匹配、节点匹配，因此对于每一网页只需进行一次遍历，减少了复杂度，同时也加快了搜索的速度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明一种基于网页抽取的搜索系统实施例的结构示意图；

图2是图1中网页抽取单元的结构示意图

图3是本发明一种基于网页抽取的搜索方法第一实施例的流程图；

图4是本发明一种基于网页抽取的搜索方法第二实施例的流程图。

具体实施方式

本发明通过预设的模板，能够准确地抽取出目标内容并排除掉无关信息，提高了信息抽取的准确率和容错性，从而提高了搜索结果的准确性。HTML页面不同于普通的文本文件，其包含有明显的层次信息，这些层次信息可用树的结构来进行描述，即DOM(Document Object Model，文档对象模型)。由于DOM具有统一的规范和编程接口，因此本实施例对HTML建立DOM树，利用DOM接口可便捷地访问树中的任何结点信息。

如图1所示，是本发明一种基于网页抽取的搜索系统实施例的结构示意图。在本实施例中，该搜索系统包括网页下载单元11、网页抽取单元12、模板存储单元13以及结果存储单元14。其中网页下载单元11可以是一个或多个。

网页下载单元11连接到互联网10，用于从互联网下载网页。该网页下载单元11与现有的网络爬虫类似，可接收用户输入的关键字并从互联网获得与该关键字匹配的网页。

模板存储单元13用于存储一个或多个模板，该模板用于记录预设的网页特征。在本实施例中，模板中预设的网页特征可以是URL特征、块特征或结点特征中的一个或多个。

由于专项搜索中的网页具有类似的URL和结构特征，因此可以通过URL识别对网页进行分类。在本实施例中，每一模板对应一个URL特征。该URL特征是一个与URL具有类似结构的字符串，且该字符串中可以包括通配符？和/或^*，以表示多个URL不同、但具有相同网页结构的网页。

通常网页中包括很多内容，例如：标题、菜单、正文、广告等，而专项搜索抽取的内容往往是正文中的一部分，这部分内容可能使用不同的HTML标签(tag)描述，如table、img、a、div等。块(block)是指网页正文中的部分内容，这些内容虽然同属于网页正文页，但可能使用不同的标签进行描述。在本实施例中，块特征是指网页中特定顺序的标签组和/或按特定顺序嵌套的多个标签。每一模板中包括一个或多个块特征。

结点是指位于网页同一块中的具体内容，位于DOM树的结点位置。在本实施例中，结点特征包括位置信息、数据类型、过滤规则以及抽取规则等。其中位置信息用于描述抽取的结点在块中的位置；数据类型用于描述抽取内容的类型，例如音乐搜索中的歌曲名或歌手名等；过滤规则用于算法容错，以排除不符合过滤规则的内容，通常过滤规则是一组限制最终抽取内容的字符串，例如在音乐搜索中，通常制定“.wma”、“.mp3”这样的过滤规则，如果在块中没有上述字符串，则直接丢弃该结点；抽取规则是指提取经过过滤后内容中的无用信息，例如对于“歌星：张学友”的结点，抽取规则为“歌星：*”，表示只抽取“歌星：”字符串右边的内容。在本实施例中，同一块中可包含多个结点特征。

网页抽取单元12用于将网页下载单元11下载的网页中与存储单元13中的模板匹配的内容作为搜索结果。例如在音乐搜索中，某歌手某专辑网页正文包含有以下内容：歌手名、歌手介绍(包括生日、喜好、个性介绍)、专辑名、专辑介绍、专辑相关信息、歌曲信息等，而对应模板中预设的抽取内容只包括歌手名、专辑名、歌曲信息三部分，则网页抽取单元12将网页匹配模板后只抽取歌手名、专辑名、歌曲信息作为搜索结果。

结果存储单元14用于存储搜索结果。通常搜索结果是结构化列表，仅包含搜索系统使用者关心的内容。

如图2所示，图1中的网页抽取单元12包括模板匹配子单元121、块匹配子单元122以及结点匹配子单元123。

模板匹配子单元121用于通过网页的URL匹配模板的URL特征项，从而为网页选择一个模板，并丢弃与所有模板都不匹配的网页。

块匹配子单元122用于根据所述网页中的HTML标签匹配模板匹配子单元121确定的模板中的块特征，并丢弃网页中与所述模板中所有块特征都不匹配的内容。

结点匹配子单元123用于根据网页中的数据类型和/或内容匹配块匹配子单元122确定的块中的结点特征，并将与结点特征匹配的内容作为搜索结果。

当然，在具体应用中，可以设置不同的模板内容，而网页抽取单元12也设置相应的匹配子单元进行网页内容的抽取。

此外，在上述搜索系统中，还可包括一个模板设置单元。该模板设置单元提供有图形用户界面，可通过鼠标在网页中选择的方式生成模板。该模板设置单元将被选择网页的URL或者经过编辑的URL作为模板的URL特征，并提取网页中被选择部分内容的标签作为块特征及结点特征，从而生成模板。该模板设置单元还可对已存模板进行修改及测试。

如图3所示，是本发明一种基于网页抽取的搜索方法第一实施例的流程图，该方法包括以下步骤：

步骤S31：从互联网获取网页。

步骤S32：将步骤S31中获取的网页中与预设的模板匹配的内容作为搜索结果，上述模板用于记录预设的网页特征。在本实施例中，模板中预设的网页特征可以是URL特征、块特征或结点特征中的一个或多个。每一模板通过URL特征项相区别。

在该步骤中，依次对步骤S31中下载的每一网页进行信息抽取，该信息抽取的过程即为网页内容与模板匹配的过程，网页中与对应模板及模板中特征匹配的内容即为搜索结果。例如在音乐搜索中，某歌手某专辑网页正文包含有以下内容：歌手名、歌手介绍(包括生日、喜好、个性介绍)、专辑名、专辑介绍、专辑相关信息、歌曲信息等，而对应模板中预设的抽取内容只包括歌手名、专辑名、歌曲信息三部分，则将网页匹配模板后只抽取歌手名、专辑名、歌曲信息作为搜索结果。

步骤S33：存储步骤S32获得的搜索结果。通常搜索结果是结构化列表，仅包含搜索系统使用者关心的内容。

如图4所示，是本发明一种基于网页抽取的搜索方法第二实施例的流程图，该方法包括以下步骤：

步骤S41：从互联网获取网页。该步骤可通过使用网络爬虫或类似工具实现。

步骤S42：将网页的URL匹配模板的URL特征项，若存在对应的URL特征项的模板，则将包含匹配URL特征项的模板作为当前网页的模板并执行步骤S43，否则执行步骤S46。

步骤S43：根据网页中的HTML标签匹配步骤S42确定的模板中的块特征，若网页中存在匹配块特征的内容，则执行步骤S44，否则执行步骤S46。

步骤S44：根据网页中的数据类型和/或内容匹配所述步骤S43确定的块中的结点特征，若网页中存在与结点特征匹配的内容，则执行步骤S45，否则执行步骤S46。

步骤S45：将与结点特征匹配的内容作为搜索结果，并存储上述搜索结果。

步骤S46：丢弃当前网页。

在上述方法中，还可包括创建模板的步骤：将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。

上述搜索系统及方法不仅可以应用于搜索引擎中，也可应用于其它搜索网页信息的系统或装置中。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于网页抽取的搜索系统，包括用于下载网页的网页下载单元以及用于存储搜索结果的结果存储单元，其特征在于，还包括：

2.根据权利要求1所述的一种基于网页抽取的搜索系统，其特征在于，所述模板存储单元中的每一模板对应一组URL特征项，所述网页抽取单元进一步包括模板匹配子单元，用于通过所述网页的URL匹配模板的URL特征项，并丢弃与所有模板都不匹配的网页。

3.根据权利要求2所述的一种基于网页抽取的搜索系统，其特征在于，所述模板存储单元中的每一模板包括一个或多个块特征，所述块特征包括HTML标签的顺序和/或标签的嵌套，所述网页抽取单元进一步包括块匹配子单元，用于根据所述网页中的HTML标签匹配所述模板匹配子单元确定的模板中的块特征，并丢弃网页中与所述模板中所有块特征都不匹配的内容。

4.根据权利要求3所述的一种基于网页抽取的搜索系统，其特征在于，所述模板存储单元中的每一模板的块特征中包括一个或多个结点特征，所述结点特征包括数据类型、过滤规则和/或抽取规则，所述网页抽取单元进一步包括结点匹配子单元，用于根据网页中的数据类型和内容匹配所述块匹配子单元确定的块中的结点特征，并将与所述结点特征匹配的内容作为搜索结果。

5.根据权利要求1-4中任一项所述的一种基于网页抽取的搜索系统，其特征在于，还包括模板设置单元，用于将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。

6.一种基于网页抽取的搜索方法，其特征在于，包括以下步骤：

(a)从互联网获取网页；

(c)存储步骤(b)获得的搜索结果。

7.根据权利要求6所述的一种基于网页抽取的搜索方法，其特征在于，每一所述模板对应一个URL特征项，所述步骤(b)进一步包括：

8.根据权利要求7所述的一种基于网页抽取的搜索方法，其特征在于，每一所述模板包括一个或多个块特征，所述块特征包括HTML标签的顺序和/或标签的嵌套，所述步骤(b)进一步包括：

9.根据权利要求8所述的一种基于网页抽取的搜索方法，其特征在于，每一所述模板的块特征中包括一个或多个结点特征，所述结点特征包括数据类型、过滤规则和/或抽取规则，所述步骤(b)进一步包括：

10.根据权利要求6所述的一种基于网页抽取的搜索方法，其特征在于，所述模板中预设的网页特征包括URL特征、块特征或结点特征，所述步骤(b)进一步包括：

(b4’)将与结点特征匹配的内容作为搜索结果；

(b5’)丢弃当前网页。

11.根据权利要求6-10中任一项所述的一种基于网页抽取的搜索方法，其特征在于，还包括将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。