CN103279490A

CN103279490A - Web页面的标签提取方法及装置

Info

Publication number: CN103279490A
Application number: CN2013101506586A
Authority: CN
Inventors: 黄超; 刘其文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2013-09-04

Abstract

本发明提供一种Web页面的标签提取方法及装置。本发明实施例通过根据Web页面，获得所述Web页面的位置信息和/或锚文本，使得能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

Description

Web页面的标签提取方法及装置

【技术领域】

本发明涉及标签提取技术，尤其涉及一种万维网（World Wide Web，Web）页面的标签提取方法及装置。

【背景技术】

随着通信技术的发展，终端集成了越来越多的功能，从而使得终端的系统功能列表中包含了越来越多相应的应用程序。有些应用程序中会涉及一些万维网（World Wide Web，Web）页面，例如，微博、百度地图等。这些应用程序的客户端可以利用Web页面的标签（tag），还可以称其为标注，进行一些基于标签的应用，例如，基于标签的推荐应用等。现有技术中，直接从Web页面的标题和正文中，提炼出能够描述Web页面内容的词语，将其作为Web页面的标签。

然而，在一些情况下，例如，词语提取错误，或者，再例如，个别词语只是位于Web页面的正文内容的语义边缘位置，等，将从标题和正文中提取的词语，直接作为该Web页面的标签，会出现所提取的标签不能准确地描述Web页面，从而导致了标签提取的可靠性的降低。

【发明内容】

本发明的多个方面提供一种万维网（World Wide Web，Web）页面的标签提取方法及装置，用以提高web页面的标签提取的准确率和灵活性。

本发明的一方面，提供一种Web页面的标签提取方法，包括：

确定待提取的Web页面；

根据所述Web页面，获得所述Web页面的位置信息和/或锚文本；

根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述Web页面包括用于提供资讯信息的Web页面。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定待提取的Web页面之后，还包括：

根据所述Web页面的标题和/或正文，提取所述Web页面的第二标签。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性；

根据所述第一关联性和所述第二关联性，调整所述第一标签和所述第二标签。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性之前，还包括：

根据所述第一标签或第二标签在所述Web页面中的位置、所述第一标签或第二标签在所述Web页面中的重复次数、所述第一标签或第二标签在所述Web页面中的独立表意能力、所述第一标签或第二标签在所述Web页面中的词性和所述第一标签或第二标签在所述Web页面中的层次中的至少一项信息，获得所述第一标签或第二标签的权重。

本发明的另一方面，提供一种Web页面的标签提取装置，其特征在于，包括：

确定单元，用于确定待提取的Web页面；

获得单元，用于根据所述Web页面，获得所述Web页面的位置信息和/或锚文本；

提取单元，用于根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述确定单元确定的所述Web页面包括用于提供资讯信息的Web页面。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述提取单元，还用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括调整单元，用于

根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性；以及根据所述第一关联性和所述第二关联性，调整所述第一标签和所述第二标签。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述调整单元，还用于

由上述技术方案可知，本发明实施例通过根据Web页面，获得所述Web页面的位置信息和/或锚文本，使得能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的Web页面的标签提取方法的流程示意图；

图2为本发明另一实施例提供的Web页面的标签提取装置的结构示意图；

图3为本发明另一实施例提供的Web页面的标签提取装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理（Personal Digital Assistant，PDA）、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的Web页面的标签提取方法的流程示意图，如图1所示。

101、确定待提取的Web页面。

102、根据所述Web页面，获得所述Web页面的位置信息和/或锚文本。

103、根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签。

需要说明的是，101～103的执行主体可以是页面处理引擎，可以位于本地的客户端中，以进行离线处理，或者还可以位于网络侧的服务器中，以进行在线处理，本实施例对此不进行限定。

需要说明的是，101～103的执行主体还可以是客户端。

可以理解的是，所述客户端可以是安装在终端上的应用程序，或者还可以是浏览器的一个网页，只要能够实现页面处理服务，以获得页面的应用的客观存在形式都可以，本实施例对此不进行限定。

这样，通过根据Web页面，获得所述Web页面的位置信息和/或锚文本，使得能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

另外，采用本发明提供的技术方案，能够使得基于标签的深度阅读成为可能。

另外，采用本发明提供的技术方案，能够有效提高基于标签的Web页面推荐的质量。

可选地，在本实施例的一个可能的实现方式中，可以通过爬取工具，例如，网络蜘蛛、网页爬虫等，将通过执行所确定的待提取的Web页面爬取下来，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，可以将爬取下来的Web页面存储到内存中，或者还可以存储到本地磁盘中，或者还可以存储到单独的数据库中，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，所述Web页面可以包括但不限于用于提供资讯信息的Web页面，例如，一些具体的新闻网页等，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，在101之后，除了执行102和103之外，还可以进一步根据所述Web页面的标题和/或正文，提取所述Web页面的第二标签。具体可以利用现有技术中的任何提取方法，例如，分词处理、停用词过滤等方法，从Web页面的标题和/或正文中，提取所述Web页面的第二标签，详细描述可以参见现有技术中的相关内容，此处不再赘述。

可以理解的是，参考从Web页面的标题和/或正文中，提取所述Web页面的第二标签的具体方法，在本实施例的一个可能的实现方式中，在103中，具体可以利用分词处理、停用词过滤等方法，从所述Web页面的位置信息中，提取所述Web页面的第一标签。由于网站编辑可以通过Web页面的位置信息将读者引向与所在Web页面的内容所属领域相同的目录网页，位置信息除了对所指向的目录网页做了高度的精炼和概括之外，还是能够准确描述该Web页面内容的重要词语，因此，从位置信息中提取Web页面的标签，符合网站制作Web页面的思路。

具体地，分词处理是指，对目标文本进行切分，例如，字符串匹配分词、词义分词、统计分词等方法。

具体地，停用词过滤是指，对一些出现频率太高，且没有太大搜索含义的词，例如，国内、国际、新浪、搜狐和正文等，进行过滤。

例如，所述Web页面的位置信息可以为如下形式：

新浪财经>国内财经>雅安7级地震经济影响>正文。

其中，采用分隔符“>”进行分隔，不同的网站分隔符可以不相同，本实施例对此不进行限定，只要能够需要根据Web网页的位置具体情况进行分隔设置即可。

具体可以先通过分隔符，将位置信息分割成一个一个的部分，然后对每个部分进行分词处理。“雅安7级地震经济影响”这一位置信息，如果直接成为一个tag，是不合理的，因为长度过长了，需要对其进行分词处理。分词处理技术当前是成熟的，会将其分隔为“雅安”、“7级”、“地震”、“经济”和“影响”等tag。

类似地，还可以进一步得到“正文”这个tag，但是明显这个tag对于读者了解这篇资讯没有任何帮助，因此需要进一步进行停用词过滤。例如，使用一个停用词列表来进行过滤，该列表所包含的tag为一些出现频率太高，且没有太大搜索含义的词，例如，“国内”、“国际”、“新浪”、“搜狐”和“正文”等，进行过滤，得到的tag即为第一标签。

可以理解的是，参考从Web页面的标题和/或正文中，提取所述Web页面的第二标签的具体方法，在本实施例的一个可能的实现方式中，在103中，具体可以利用分隔符、分词处理、停用词过滤等方法，从所述Web页面的锚文本中，提取所述Web页面的第一标签。由于网站编辑可以通过Web页面的锚文本将读者引向与所在Web页面的内容相关的具体内容网页，锚文本除了对所指向的具体内容网页做了高度的精炼和概括之外，还是能够准确描述该Web页面内容的重要词语，因此，从锚文本中提取Web页面的标签，符合网站制作Web页面的思路。

具体地，停用词过滤是指，对一些出现频率太高，且没有太大搜索含义的词，例如，的、是、太、of、the和is等，进行过滤。

例如，所述Web页面的锚文本可以为如下形式：

“雅安地震直接经济损失百亿级物价上行或提前，地震，经济，损失，雅安，灾区，李克强，雅安7级地震经济影响”。

其中，采用空格、逗号等进行分隔，不同的网站分隔符可以不相同，例如，“-”和“|”等，本实施例对此不进行限定，只要能够需要根据Web网页的锚文本具体情况进行分隔设置即可。

具体可以先通过分隔符，将锚文本分割成一个一个的部分，然后对每个部分进行分词处理。对经过分词处理之后的tag，还可以进一步执行停用词过滤，得到的tag即为第一标签。详细描述可以参见对Web页面的位置信息所进行操作方法的相关内容，此处不再赘述。

采用本发明提供的技术方案，从锚文本中提取Web页面的标签，无需解析Web页面的正文，能够进一步降低Web网页的解析的复杂度。

可选地，在本实施例的一个可能的实现方式中，在提取了Web页面的第一标签和第二标签之后，还可以进一步根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性。然后，则可以根据所述第一关联性和所述第二关联性，调整所述第一标签和所述第二标签，例如，调整所述第一标签与所述第二标签的排列顺序，或者删除部分或全部第一标签和/或第二标签等，本实施例对此不进行限定。

进一步地，在这之前，还可以进一步根据所述第一标签或第二标签在所述Web页面中的位置、所述第一标签或第二标签在所述Web页面中的重复次数、所述第一标签或第二标签在所述Web页面中的独立表意能力、所述第一标签或第二标签在所述Web页面中的词性和所述第一标签或第二标签在所述Web页面中的层次中的至少一项信息，获得所述第一标签或第二标签的权重。

例如，具体可以根据公式（1），获得标签即第一标签或第二标签的权重（Weight）。

标签的权重=k1^*标签在所述Web页面中的位置+k2^*标签在所述Web页面中的重复次数+k3^*标签在所述Web页面中的独立表意能力+k4^*标签在所述Web页面中的词性+k5^*标签在所述Web页面中的层次公式（1）

其中，k1、k2、k3、k4和k5均为系数。

这样，则可以将所述标签的权重，作为所述关联度。

本实施例中，通过根据Web页面，获得所述Web页面的位置信息和/或锚文本，使得能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的Web页面的标签提取装置的结构示意图，如图2所示。本实施例的Web页面的标签提取装置可以包括确定单元21、获得单元22和提取单元23。其中，确定单元21，用于确定待提取的Web页面；获得单元22，用于根据所述Web页面，获得所述Web页面的位置信息和/或锚文本；提取单元23，用于根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签。

需要说明的是，本实施例提供的装置可以是页面处理引擎，可以位于本地的客户端中，以进行离线处理，或者还可以位于网络侧的服务器中，以进行在线处理，本实施例对此不进行限定。

需要说明的是，本实施例提供的装置还可以是客户端。

这样，通过获得单元根据确定单元确定的Web页面，获得所述Web页面的位置信息和/或锚文本，使得提取单元能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

可选地，在本实施例的一个可能的实现方式中，所述获得单元22具体可以通过爬取工具，例如，网络蜘蛛、网页爬虫等，将通过执行所确定的待提取的Web页面爬取下来，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，所述获得单元22具体可以将爬取下来的Web页面存储到内存中，或者还可以存储到本地磁盘中，或者还可以存储到单独的数据库中，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，所述确定单元21确定的所述Web页面可以包括但不限于用于提供资讯信息的Web页面，例如，一些具体的新闻网页等，本实施例对此不进行限定。

可选地，在本实施例的一个可能的实现方式中，所述提取单元23，还可以进一步用于根据所述Web页面的标题和/或正文，提取所述Web页面的第二标签。所述提取单元23具体可以利用现有技术中的任何提取方法，例如，分词处理、停用词过滤等方法，从Web页面的标题和/或正文中，提取所述Web页面的第二标签，详细描述可以参见现有技术中的相关内容，此处不再赘述。

可以理解的是，参考从Web页面的标题和/或正文中，提取所述Web页面的第二标签的具体方法，在本实施例的一个可能的实现方式中，所述提取单元23具体可以利用分词处理、停用词过滤等方法，从所述Web页面的位置信息中，提取所述Web页面的第一标签。由于网站编辑可以通过Web页面的位置信息将读者引向与所在Web页面的内容所属领域相同的目录网页，位置信息除了对所指向的目录网页做了高度的精炼和概括之外，还是能够准确描述该Web页面内容的重要词语，因此，从位置信息中提取Web页面的标签，符合网站制作Web页面的思路。

例如，所述Web页面的位置信息可以为如下形式：

新浪财经>国内财经>雅安7级地震经济影响>正文。

可以理解的是，参考从Web页面的标题和/或正文中，提取所述Web页面的第二标签的具体方法，在本实施例的一个可能的实现方式中，所述提取单元23具体可以利用分隔符、分词处理、停用词过滤等方法，从所述Web页面的锚文本中，提取所述Web页面的第一标签。由于网站编辑可以通过Web页面的锚文本将读者引向与所在Web页面的内容相关的具体内容网页，锚文本除了对所指向的具体内容网页做了高度的精炼和概括之外，还是能够准确描述该Web页面内容的重要词语，因此，从锚文本中提取Web页面的标签，符合网站制作Web页面的思路。

例如，所述Web页面的锚文本可以为如下形式：

可选地，在本实施例的一个可能的实现方式中，如图3所示，本实施例提供的Web页面的标签提取装置还可以进一步包括调整单元31，用于根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性；以及根据所述第一关联性和所述第二关联性，调整所述第一标签和所述第二标签。

进一步地，所述调整单元31还可以进一步用于根据所述第一标签或第二标签在所述Web页面中的位置、所述第一标签或第二标签在所述Web页面中的重复次数、所述第一标签或第二标签在所述Web页面中的独立表意能力、所述第一标签或第二标签在所述Web页面中的词性和所述第一标签或第二标签在所述Web页面中的层次中的至少一项信息，获得所述第一标签或第二标签的权重。

例如，所述调整单元31具体可以根据公式（1），获得标签即第一标签或第二标签的权重（Weight）。

其中，k1、k2、k3、k4和k5均为系数。

这样，所述调整单元31则可以将所述标签的权重，作为所述关联度。

本实施例中，通过获得单元根据确定单元确定的Web页面，获得所述Web页面的位置信息和/或锚文本，使得提取单元能够根据所述Web页面的位置信息和/或锚文本，提取所述Web页面的第一标签，由于根据Web页面的位置信息和/或锚文本，有选择地提取Web页面的标签，能够避免现有技术中由于将从标题和正文中提取的词语，直接作为Web页面的标签而导致的所提取的标签不能准确地描述Web页面的问题，从而提高了标签提取的可靠性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置（可以是个人计算机，服务器，或者网络装置等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种Web页面的标签提取方法，其特征在于，包括：

确定待提取的Web页面；

根据所述Web页面，获得所述Web页面的位置信息和/或锚文本；

2.根据权利要求1所述的方法，其特征在于，所述Web页面包括用于提供资讯信息的Web页面。

3.根据权利要求1或2所述的方法，其特征在于，所述确定待提取的Web页面之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1～4任一权利要求所述的方法，其特征在于，所述根据所述第一标签的权重和所述第二标签的权重，获得所述第一标签与所述Web页面的第一关联性和所述第二标签与所述Web页面的第二关联性之前，还包括：

6.一种Web页面的标签提取装置，其特征在于，包括：

确定单元，用于确定待提取的Web页面；

7.根据权利要求6所述的装置，其特征在于，所述确定单元确定的所述Web页面包括用于提供资讯信息的Web页面。

8.根据权利要求6或7所述的装置，其特征在于，所述提取单元，还用于

9.根据权利要求8所述的装置，其特征在于，所述装置还包括调整单元，用于

10.根据权利要求6～9任一权利要求所述的装置，其特征在于，所述调整单元，还用于