CN102135967B

CN102135967B - 网页关键词提取方法、装置及系统

Info

Publication number: CN102135967B
Application number: CN 201010103257
Authority: CN
Inventors: 陆元飞; 刘刚; 朱汝维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2010-01-27
Filing date: 2010-01-27
Publication date: 2013-06-05
Anticipated expiration: 2030-01-27
Also published as: CN102135967A

Abstract

本发明实施例公开了一种网页关键词提取方法，包括，爬取互联网网页；提取爬取下来的网页中的锚文本，提取所述锚文本的URL和所述锚文本的周围文本；根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词；将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词。本发明实施例还公开了一种网页关键词提取装置和系统，通过以上技术方案可以减少网页关键词提取的计算量，提高关键词提取的精准度。

Description

网页关键词提取方法、装置及系统

技术领域

本发明涉及互联网领域，特别涉及一种网页关键词提取方法、装置及系统。

背景技术

网页关键词(keywords)的提取是海量数据背景下的互联网应用中的一个热点问题。为网页提取适当的关键词，可以用以提示和概括网页的内容。网页关键词提取在基于关键词的精准广告，网页摘要，网页检索，用户行为分析中应用广泛。

传统做法(例如，KEA关键词提取方法)倾向于从网页文本中提取关键词。先把网页爬取下来，然后做网页解析，提取网页的标题，metadata(网页元数据)信息和正文。然后再分词，去除掉stop-word(停用词)之后得到候选关键词，再提取候选关键词词的特征，通过设定一系列复杂的规则或是通过人工智能的方式来给候选关键词打分，设定阀值或是通过提取分数较高的前面N个侯选关键词来提取关键词。

需要解析网页，提取网页正文，解析网页，提取网页正文算法复杂，计算量大。而且由于互联网上的网页极不规则，提取网页正文只在针对某种特定类型的网页的时候效果才较好，例如已经产品化的中科院、海量等的网页主题提取组件，但是都只针对特定类型的网页，而网页正文提取又和关键词提取紧密联系，如果提取的网页正文里面包含广告，版权等其它信息，可能会把广告，版权等信息无提取为正文；或者是某部分重要内容没有被提取出来，关键词提取的精准度就会大大降低。因此，现有的网页解析方法计算量大，关键词提取的精准度不高。

发明内容

本发明实施例提供一种网页关键词的提取方法、装置、及系统，以减少网页解析的计算量，提高关键词提取的精度。

本发明一个实施例提供一种网页关键词提取方法，包括：

爬取互联网网页；

提取爬取下来的网页中的锚文本，提取所述锚文本的统一资源定位符URL和所述锚文本的周围文本；

根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词；

将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词。

本发明一个实施例提供一种网页关键词提取装置，包括：

爬取模块，用于爬取互联网网页；

第一提取模块，用于提取爬取下来的网页中的锚文本；

第二提取模块，用于提取所述锚文本的URL；

第三提取模块，用于提取所述锚文本的周围文本；

关键词提取模块，用于根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词；

关联模块，用于将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词。

本发明一个实施例提供一种关键词提取系统，包括：网页提取装置和索引关键词库：

所述网页关键词提取装置，用于用于爬取互联网网页；提取爬取下来的网页中的锚文本；提取所述锚文本的URL和所述锚文本的周围文本；根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词；将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词；

所述索引关键词库，用于存储所述锚文本的URL和与所述锚文本的URL关联的关键词。

本发明实施例从锚文本和锚文本的周围文本出发提取网页关键词，锚文本对具体内容网页做了高度的精炼和概况，所以提取具体内容网页的关键词，直接从锚文本提取符合网站制作网页的思路。同时锚文本周围文本，对内容网页的主题做了补充，通过这种方式，能提高关键词提取的精准度，而且提取网页关键词时不需要对网页正文进行提取，减少了复杂的网页解析，降低了关键词提取的计算量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1本发明实施例提供一种网页关键词提取方法的流程图；

图2本发明实施例提供一种网页关键词提取方法的流程图；

图3本发明实施例提供一种网页关键词提取方法的流程图；

图4本发明实施例提供一种网页关键词提取装置的结构图；

图5本发明实施例提供一种网页关键词提取装置的结构图；

图6本发明实施例提供一种关键词提取模块的结构图；

图7本发明实施例提供一种关键词提取模块的结构图；

图8本发明实施例提供一种网页关键词提取系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种网页关键词提取方法，包括：

S101，爬取互联网网页；

在一个实施例中，可以通过爬取工具(如网络蜘蛛、网页爬虫等)将网页爬取下来。在一个实施例中，可以使用一个基于广度遍历检索的网页爬虫来爬取互联网网页；在一个实施例中，对于较大型的网页，可以做优化，只需要爬行深度小于3的网页。

在一个实施例中，可以将爬取下来的网页存放到内存中，或者是本地磁盘，或者是数据库块中，本发明实施例不做特别的限定。

S102，提取爬取下来的网页中的锚文本；

S103，提取锚文本的URL(Uniform Resource Locator，统一资源定位符)和锚文本的周围文本；

在一个实施例中，每一个锚文本都会有一个URL，该URL代表了锚文本指向的网页的地址。

在一个实施例中，锚文本的周围文本包括，与锚文本所在的HTML(HyperText Markup Language，超文本标识语言)节点的距离在预置范围内的文本和/或HTML标签；在一个实施例中改预置范围可以根据实际情况进行设置，例如设置为1、2或者10等，本发明实施例不做特别的限定。

在一个实施例中，锚文本的周围文本包括，从包含所述锚文本的标签容器中提取的文本；

在一个实施例中，锚文本的周围文本包括，与所述锚文本的距离在预置范围内的网页文本。

在一个实施例中改预置范围可以根据实际情况进行设置，例如设置为1、2或者10等，本发明实施例不做特别的限定。

在一个实施例中，可以从包含上述锚文本的HTML标签的容器中提取锚文本的周围文本。

在一个实施例中，S102～S103可以同时进行，本发明实施例不对这三个步骤的执行顺序做特别的限定。

S104，根据预定的规则，从锚文本和锚文本的周围文本中提取关键词。

在一个实施例中，步骤S104可以包括：

S1041，将锚文本和锚文本的周围文本进行结合，形成锚点数据；

在这里，将锚文本和锚文本的周围文本进行结合可以是，将提取的锚文本和该锚文本对应的周围文本存放在一起，存放放在一起后的数据形成锚点数据；

在这里，将锚文本和其周围文本存放在一起，在一个实施例中，可以是将锚文本和其周围文本存储在一个数据集合中，该数据集合形成锚点数据。该数据结合可以存储在光盘、硬盘、磁盘以及其它一些存储记忆体中。

在这里，将锚文本和其周围文本存放在一起，在一个实施例中，可以是将锚文本和其周围文本通过预定的关联函数或者关联关系进行映射关联，映射关联后形成锚点数据。

S1042，对合并后的锚文本和锚文本的周围文本进行分词处理，去掉停用词，得到侯选关键词；即，对锚点数据进行分词处理，去掉停用词，得到侯选关键词。

在一个实施例中，分词处理是指对一句话进行切分。在一个实施例中，可以使用字符串匹配的分词方法；在一个实施例中，还可以使用词义分词方法；在一个实施例中还可以使用统计分词方法，本发明实施例不做特别的限定。

在一个实施例中，停用词是指出现频率太高没有太大检索意义的词，例如“的、是、太、of、the、is”等；在一个实施例中，停用词是指没有实意的虚词；在一个实施例中，停用词可以包括，数字、数学字符、标点符号以及使用频率特别高的单汉字等。

S1043，提取侯选关键词的特征信息，通过预置的算法，根据侯选关键词的特征信息从侯选关键词中提取关键词。

预置的算法在一个实施例中可以为机器学习算法；在一个实施例中可以为人工提炼的评分算法；在一个实施例中还可以为KEA算法(Knowledge.Evolution Algorithm，知识进化算法)。当然，可以理解的是，在其它实施例中还可以为其它预置的算法，本发明实施例不做特别的限定。

在一个实施例中网站编辑可以通过锚文本把读者引向具体内容网页，锚文本对具体内容网页做了高度的精炼和概况，所以提取具体内容网页的关键词，直接从锚文本提取符合网站制作网页的思路。同时锚文本周围文本，对内容网页的主题做了补充，也可以作为关键词提取的参考内容。

例如：在一个实施例中，如果需要提取网页http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19的关键词，可以找到它在http://www.lingoes.cn/zh/index.html中被锚文本“新手入门教程”链接，“新手入门教程”就是该网页的关键词，再通过锚文本的周围文本，可以得到“新手入门教程”的上下文语境，知道该网页是“Lingoes灵格斯词霸”的“新手入门教程”。通过这种方式，提取的关键词既准确又全面，运算量也比较小。

在一个实施例中，步骤S104可以包括：

S104a，对所述锚文本进行分词处理，去掉停用词，得到第一侯选关键词；

S104b，对所述锚文本的周围文本进行分词处理，去掉停用词，得到第二侯选关键词；

S104c，取第一侯选关键词和第二侯选关键词的交集，得到侯选关键词；或者取第一侯选关键词和第二侯选关键词中出现频率大于预设次数的词，得到侯选关键词；

S104d，提取所述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

如图1中的虚线框所示，在一个实施例中，该方法还可以包括：

S105，将步骤S104中提取的关键词和步骤S103中的URL关联，将步骤S104中提取的关键词作为步骤S103中锚文本的URL指向的网页的网页关键词。

S106，将上述锚文本的URL和与该锚文本的URL关联的关键词添加到预先建立的索引关键词库。

本发明实施例从锚文本和锚文本的周围文本出发提取网页关键词，不需要对网页正文进行提取，减少了复杂的网页解析，降低了网页解析的计算量，锚文本对具体内容网页做了高度的精炼和概况，所以提取具体内容网页的关键词，直接从锚文本提取符合网站制作网页的思路。同时锚文本周围文本，对内容网页的主题做了补充，也可以作为关键词提取的参考内容。通过这种方式，提取的关键词既准确又全面，而且不受网页类型的限制，具有更高的可用性。进一步的，通过将提取的关键词和锚文本的URL关联后添加到预先建立的索引关键词库，想知道锚文本的URL所连接的网页的关键词时，将该网页的URL输入索引关键词库进行查询即可。

如图2所示，本发明实施例提供一种网页关键词提取方法，包括：

S110爬取互联网网页；

在一个实施例中，可以通过爬取工具(如网络蜘蛛、网页爬虫等)将网页爬取下来。在一个实施例中，可以使用一个基于广度遍历检索的网页爬虫来爬取互连网网页；在一个实施例中，对于较大型的网页，可以做优化，只需要爬行深度小于3的网页。

在一个实施例中，可以将爬取下来的网页存放到内存中，或者是本地磁盘，或者是数据库块中。

S120，提取爬取下来的网页的锚文本；

S130，提取锚文本的URL；

S140，提取锚文本的周围文本；

在一个实施例中，锚文本的周围文本包括，与锚文本所在的HTML节点的距离在预置范围内的文本或HTML标签；

HTML节点的距离指的是将HTML表示成的DOM(Document ObjectModel，文档对象模型)树中，连通两个节点所需的最少步数。

在一个实施例中改预置范围可以根据实际情况进行设置，本发明实施例不做特别的限定。

在一个实施例中，S120～S140可以同时进行，本发明实施例不对这三个步骤的执行顺序做特别的限定。

S150，将锚文本的URL与数据库中预先存在的URL进行比对，对URL有重复的锚文本进行合并或者去重；

在一个实施例中，分析某锚文本的URL是否重复，可以从该锚文本的URL是否与互联网网页所在站点的其它的锚文本的URL重复的角度进行考虑，在这里索引库就是步骤S150中提到的数据库的一种；

在这种情况下，可以将所有需要处理的锚文本的URL在内存中建立索引库，如果提取到一个新的锚文本，就拿该锚文本的URL去内存索引库中检索，如果有相同的，将新锚文本和锚文本上下文添加进已经存在的URL对应的锚文本信息中。

例如，在一个实施例中，在索引库中已经存在URL A，它对应锚文本A，现在如果提取到了一个新的锚文本B，该锚文本B的URL也是URL A，那么就将锚文本B及其周围文本添加到URL A对应的锚文本信息中，这时，URL A就对应锚文本A和锚文本B。

在一个实施例中，分析某锚文本的URL是否重复，可以从URL在预先建立的索引关键词库(即，URL-Keywords DB)中是否已经存在的角度进行考虑。在这里索引关键词库就是步骤S150中提到的数据库的一种。

在这种情况下，可以用该锚文本的URL直接去URL-Keywords DB中检索，如果没有检索到该URL记录，或者，检索到了该URL记录，并且该URL的修改时间早于该页面被更新的时间，则提取该锚文本的周围文本；如果检索到了该URL记录，并且该URL的修改时间晚于该页面被更新的时间，则去掉该锚文本，即不再对该锚文本的周围文本进行提取。

S160，根据预定的规则，从经过步骤S150合并去重后的锚文本和该锚文本的周围文本中提取关键词；

在一个实施例中，S160可以包括：

S1600，将经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周文本进行结合，形成去重锚点数据；

在这里，将经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周文本进行结合可以是，将该锚文本和该锚文本对应的周围文本存放在一起，存放放在一起后的数据形成锚点数据；在一个实施例中，还可以是将锚文本和其周围文本存储在一个数据集合中，该数据集合形成锚点数据。该数据结合可以存储在光盘、硬盘、磁盘以及其它一些存储记忆体中。在一个实施例中，还可以是将锚文本和其周围文本通过预定的关联函数或者关联关系进行映射关联，映射关联后形成锚点数据。

S1601对合并后的经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周围文本进行分词处理，去掉停用词，得到侯选关键词；即，对去重锚点数据进行分词处理，去掉停用词，得到侯选关键词；

S1602提取所述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

在一个实施例中，可以利用机器学习算法作为预置的算法来提取关键词；

在机器学习算法中，可以先通过对锚文本和锚文本的周围文本分词，去掉停用词，得到候选关键词列表。然后提取候选关键词的特征信息，并将该组特征信息和该锚文本人工提取出来的关键词作为训练算法(例如，在一个实施例中，可以采用native bayes或者L-BFGS算法作为训练算法)的输入，训练出一个提取模型。然后在利用该模型对候选关键词的特征信息进行处理，判断候选关键词是否是关键词。

在一个实施例中，侯选关键词的特征信息包括：是否是粗体、是否是锚文本、是否是标题、词形和频度等。在一个实施例中，侯选关键词的特征信息可以用表1来形象的描述。

特征	描述
		isSelfAnchorText	是否是提取的URL的锚文本，包含在该处的文本最可能是关键词
isOtherAnchorText	是否是其它的URL的锚文本，
		isBond	是否是粗体
isTitle	是否是标题，通过判断候选词是否出现在<p1></p1>标签对中
		linguistic	候选词的词性
frequence	候选词的频度
		distance	和锚文本的距离，0～10，其中：0：处于锚文本内；1：处于锚文本的父标签内；2：处于锚文本的祖父标签内；

3：...以此类推。

表1侯选关键词特征信息表

在一个实施例中，可以利用人工提炼的评分算法作为预置的算法来提取关键词；

在人工提炼的评分算法中，可以先通过对锚文本和锚文本上下文分词，去掉停用词，得到候选关键词列表。然后提取候选关键词的特征信息，侯选关键词的特征信息在一个实施例中可以为表1所示。通过特征信息对关键词进行评分，得出评分较高的候选关键词作为该锚文本对应的关键词。例如，在一个实施例中，可以根据分数的高低选择前面N个得分较高的关键词作为该锚文本对应的关键词。这里，N为自然数，N的具体数值可以预先设置。

需要说明的是，在另一个实施例中，还可以分别对锚文本和锚文本的周围文本进行分词处理，去掉停用词，从而分别得到第一侯选关键词和第二侯选关键词；再取第一侯选关键词和第二侯选关键词的较低，得到侯选关键词；或者取第一侯选关键词和第二侯选关键词中出现频率大于预设次数的词，得到侯选挂见词。

S170，将步骤S160中提取的关键词和步骤S130中的URL关联，将步骤S160中提取的关键词作为步骤S130中锚文本的URL指向的网页的网页关键词；

S180，将上述锚文本的URL和与该锚文本的URL关联的关键词添加到预先建立的索引关键词库。

如图3所示，本发明实施例提供一种网页关键词提取方法，包括：

S210，爬取所要提取站点的整站网页；

在一个实施例中，可以输入该站点的URL，将该站点的网页爬取下来。爬取下来的网页可以存放到内存中，或者是本地磁盘中，或者是数据库块中。

S220，提取爬取下来的所有网页的锚文本；

在一个实施例中，分析爬取下来的所有网页，一篇篇去提取网页的锚文本。

S230，提取S220中提取出的各个锚文本的URL；

在一个实施例中，每一个锚文本都会有一个URL，该URL代表了锚文本指向的网页的地址。在一个实施例中，分析爬取下来的所有网页，一篇篇去提取网页的锚文本后，提取各锚文本的URL。。

S240，提取S220中提取出的各个锚文本的周围文本，锚文本的周围文本包括，与锚文本所在的HTML节点的距离在预置范围内的文本或HTML标签；

在一个实施例中，S220～S240可以同时进行，本发明实施例不对这三个步骤的执行顺序做特别的限定。

在一个实施例中，分析爬取下来的所有网页，一篇篇去提取网页的锚文本后，提取各锚文本的周围文本。

针对步骤S220～S250，以网站http://www.lingoes.cn为例在一个实施例中举例如下：

爬取http://www.lingoes.cn站点的所有网页后，可以得到该站点的所有网页的一些代码片段，为方便描述，本实施例仅针对和想要提取关键词的网页：http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19相关的代码片段进行说明。在本实施例中，相关代码片段及文本如表2所示。在表2中，锚文本的URL：可以为，在HTML标签对<a></a>的属性href中的完成链接。例如本实施例例中的：“/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19”(见表2中的粗体部分)，这个还需要加上网站基本的URL：http://www.lingoes.cn，组装成“http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19”。锚文本：在HTML标签对<a></a>中间的文本被定义为锚文本。例如本例中的“新手入门教程”。

锚文本的周围文本：与锚文本所在的HTML节点的距离在预置范围内的文本或HTML标签。这里的预置范围可以根据实际情况进行设置。例如，在一个实施例中可以将预置的范围设置为最上层的td，那么表2中的这些HTML代码片段就都是“新手入门教程”这个锚文本的周围文本。当然在另一个实施例中，也可以将预置的范围设置为一层div，那么这时“新手入门教程”这个锚文本的周围文本就包括表2中的以下代码片段及文本：

<img width＝″16″height＝″16″border＝″0″align＝″absmiddle″src＝″../images

/navbar_update.gif″/>

<a href＝″/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&po

stno＝19″target＝″_blank″>新手入门教程</a>

</div>

当然在其它实施例中，还可以将预置的范围设置为二层div，相应的锚文本的周围文本也会不同。

在一个实施例中，可以是从包含该锚文本的HTML标签的容器中提取出来的文本。在这里容器标签被定义为：div、td、table、p、span和li。需要说明的是，容器标签的定义符合相关的HTML标准，本发明实施例不做详细讨论。

<td><div style＝″font-size：14px；color：rgb(4，71，124)；″><u><b>体验灵格斯的创新功能</b></u></div><div style＝″padding：3px 0pt 0pt；line-height：130％；″><b><font color＝″#ff9900″>Lingoes灵格斯词霸</font></b>是一款简明易用的词典与文本翻译软件，支持全球超过80多个国家语言的词典查询、全文翻译、屏幕取词、划词、例句搜索、网络释义和语音朗读功能，这些语言包括<font color＝″#666666″><font color＝″#ff9900″>英</font>、<font color＝″#ff9900″>法</font>、<font color＝″#ff9900″>德</font>、<font color＝″#ff9900″>意</font>、<font color＝″#ff9900″>俄</font>、<font color＝″#ff9900″>中</font>、<font color＝″#ff9900″>日</font>、<font color＝″#ff9900″>韩</font>、<font color＝″#ff9900″>西</font>、<font color＝″#ff9900″>葡</font>、<font color＝″#ff9900″>阿拉伯语</font></font>及更多...<div style＝″margin：10px 0pt 0pt；″><img width＝″16″height＝″16″border＝″0″align＝″absmiddle″src＝″../images/navbar_update.gif″/><a href＝″translator/index.html″>功能介绍</a><a href＝″translator/download.htm″>软件下载</a><a href＝″dictionary/index.html″>添加词典</a><a href＝″/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19″target＝″_blank″>新手入门教程</a></div></div></td>

表2爬取的网页的相关HTML代码片段及文本

在本实施例中，提取出来的锚文本、锚文本的URL和锚文本的周围文本如表3所示：

数据项	数据
		URL	http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19
锚文本	新手入门教程
		锚文本的周围	<td><div style＝″font-size：14px；color：rgb(4，71，124)；″>

文本

<u><b>体验灵格斯的创新功能</b></u></div><div style＝″padding：3px 0pt 0pt；line-height：130％；″><b><font color＝″#ff9900″>Lingoes灵格斯词霸</font></b>是一款简明易用的词典与文本翻译软件，支持全球超过80多个国家语言的词典查询、全文翻译、屏幕取词、划词、例句搜索、网络释义和语音朗读功能，这些语言包括<font color＝″#666666″><font color＝″#ff9900″>英</font>、<font color＝″#ff9900″>法</font>、<font color＝″#ff9900″>德</font>、<font color＝″#ff9900″>意</font>、<font color＝″#ff9900″>俄</font>、<font color＝″#ff9900″>中</font>、<font color＝″#ff9900″>日</font>、<font color＝″#ff9900″>韩</font>、<font color＝″#ff9900″>西</font>、<font color＝″#ff9900″>葡</font>、<font color＝″#ff9900″>阿拉伯语</font></font>及更多...<div style＝″margin：10px 0pt 0pt；″><img width＝″16″height＝″16″border＝″0″align＝″absmiddle″src＝″../images/navbar_update.gif″/><a href＝″translator/index.html″>功能介绍</a><a href＝″translator/download.htm″>软件下载</a><a href＝″dictionary/index.html″>添加词典</a><a href＝″/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19″target＝″_blank″>新手入门教程</a></div></div></td>

表3提取出来的锚文本及其相关数据

S250，将S220中提取出的各个锚文本的URL与数据库中预先存在的URL进行比对，对URL有重合的锚文本进行合并或者去重；

在一个实施例中，分析某锚文本的URL是否重复，可以从该锚文本的URL是否与互联网网页所在站点的其它的锚文本的URL重复的角度进行考虑；

在这种情况下，可以将所有需要处理的锚文本的URL在内存中建立索引库。如果提取到一个新的锚文本，就拿该锚文本的URL去内存索引库中检索，如果有相同的，将新锚文本和锚文本上下文添加进已经存在的URL对应的锚文本信息中。

在一个实施例中，分析某锚文本的URL是否重复，可以从URL在预先建立的索引关键词库(即，URL-Keywords DB)中是否已经存在的角度进行考虑。

在这种种情况下，可以用该锚文本的URL直接去URL-Keywords DB中检索，如果没有检索到该URL记录，或者，检索到了该URL记录，并且该URL的修改时间小于该页面被更新的时间，则提取该锚文本的周围文本；如果检索到了该URL记录，并且该URL的修改时间大于或者等于该页面被更新的时间，则去掉该锚文本，即不再对该锚文本的周围文本进行提取。

例如，在一个实施例中，如果通过索引库检索新手入门教程这个锚文本的URL，发现索引库中已经存在这个URL，并且已经存在一些相关的锚文本信息(例如，在另一个实施例中，可能对应另一个锚文本词霸新手教程)，那么就将前述提取的锚文本及其周围文本添加到这个URL对应的锚文本信息中。

例如，在一个实施例中，如果通过索引库没有查到新手入门教程这个锚文本的URL，那么将这个URL和新手教程这个锚文本及其周围文本添加到索引库中。

例如，在一个实施例中，如果通过索引关键词库没有查到新手入门教程这个锚文本的URL，那么将这个URL和新手教程这个锚文本及其周围文本添加到索引关键词库中。

例如，在一个实施例中，如果在索引关键词库(URL-Keywords DB)中检索新收入门教程的URL，如果没有检索到该URL记录，或者，检索到了该URL记录，并且该URL的修改时间早于该页面被更新的时间，则提取该锚文本的周围文本；如果检索到了该URL记录，并且该URL的修改时间晚于该页面被更新的时间，则去掉该锚文本，即不再对该锚文本的周围文本进行提取。

S260，根据预定的规则，从经过步骤S250合并去重后的锚文本和该锚文本的周围文本中提取关键词；

在一个实施例中，S260可以包括：

对经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周围文本进行分词处理，去掉停用词，得到侯选关键词；

提取所述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

在机器学习算法中，可以提取候选关键词的特征信息，并将该组特征信息和该锚文本人工提取出来的关键词作为训练算法(例如，在一个实施例中，可以采用native bayes或者L-BFGS算法作为训练算法)的输入，训练出一个提取模型。然后在利用该模型对候选关键词的特征信息进行处理，判断候选关键词是否是关键词。

在一个实施例中，侯选关键词的特征信息包括：是否是粗体、是否是锚文本、是否是标题、词形和频度等。在一个实施例中，侯选关键词的特征信息可以用前述实施例中的表1来描述。

在人工提炼的评分算法中，可以提取候选关键词的特征信息，侯选关键词的特征信息在一个实施例中可以为表1所示。通过特征信息对关键词进行评分，得出评分较高的候选关键词作为该锚文本对应的关键词。例如，在一个实施例中，可以根据分数的高低选择前面N个得分较高的关键词作为该锚文本对应的关键词。这里，N为自然数，N的具体数值可以预先设置。

例如，在一个实施例中，假设新手入门教程这个锚文本对应的URL之前在索引库和索引关键词库(URL-Keywords DB)中都没有相应记录。那么可以利用上述的方法对新手入门教程这个周围的文本提取关键词。经过关键词提取后，可以提取到新手入门教程这个锚文本连接的网页的关键词：Lingoes、灵格斯、词霸、入门教程。

S270，将步骤S260中提取的关键词和相应的锚文本的URL关联，将上述关键词作为步骤S260中相应锚文本的URL指向的网页的网页关键词。

S280，将步骤S260中锚文本的URL和与步骤S260中锚文本的URL关联的关键词添加到预先建立的索引关键词库。

例如，在一个实施例中，当提取到新手入门教程这个锚文本连接的网页的关键词：Lingoes、灵格斯、词霸、入门教程，可以将这些关键词和新手入门教程这个锚文本的URL关联，并添加到预先建立的索引关键词库。

在一个实施例中，将关联后的关键词和URL添加到索引关键词库后，索引关键词库会新增加一条记录，这条记录在一个实施例中可以如表4所示。

字段	说明	数据
			id	网页URL的hash值	541156522414
URL	网页URL	http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19
			keywords	网页的keywords	Lingoes、灵格斯、词霸、入门教程
accessTime	被检索的次数	0
			modifiedTime	修改时间	2009-10-01 13:56:02 542

表4索引关键词库的一条记录

这样在一个实施例中，如果系统想知道URL：“http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&group＝2&postno＝19”这个网页的关键词，则可以通过索引关键词库查询即可获得这个URL指向的网页的关键词。

上述实施例仅对新手入门教程这个锚文本提取关键词做了举例说明，可以理解的是在另一个实施例中，http://www.lingoes.cn网页上的其它锚文本的关键词提取与上述步骤类似，不再赘述。

如图3中的虚线框所示，在一个实施例中，该方法还可以包括：

S290，接收用户输入的网页URL，利用网页URL从索引关键词库中检索，得到相应网页的关键词。

例如，在一个实施例中，当用户输入http://www.lingoes.cn/cgi-bin/anylog/topic.cgi？cmd＝viewpost&user＝lingoes&grou p＝2&postno＝19这个URL，可以查找到其相应的关键词：Lingoes、灵格斯、词霸、入门教程。

S300，根据各锚文本的URL被检索的频繁程度，将被检索的频繁程度大于预先设置的检索次数的关键词和其关联的URL记录，放入预先设置的大于预置缓存速度的高速缓存中。

在一个实施例中，在步骤S300中还可以清理很少用到的URL和关联的关键词记录，节省存储空间。

在一个实施例中，还可以根据网站被更新的频繁程度，设定不同的刷新周期，删除已经不存在的URL和关联的关键词记录。

本发明实施例从锚文本和锚文本的周围文本出发提取网页关键词，不需要对网页正文进行提取，减少了复杂的网页解析，降低了网页解析的计算量，锚文本对具体内容网页做了高度的精炼和概况，所以提取具体内容网页的关键词，直接从锚文本提取符合网站制作网页的思路。同时锚文本周围文本，对内容网页的主题做了补充，也可以作为关键词提取的参考内容。通过这种方式，提取的关键词既准确又全面，而且不受网页类型的限制，具有更高的可用性。进一步地，通过将提取的关键词和锚文本的URL关联后添加到预先建立的索引关键词库，想知道锚文本的URL所连接的网页的关键词时，将该网页的URL输入索引关键词库进行查询即可。进一步地，通过对各锚文本的URL被检索的频繁程度或者根据网站被更新的频繁程度，对URL和关联的关键词记录进行优化处理，提高了后续关键词的检索速度。

如图4所示，本发明一个实施例提供一种网页关键词提取装置，包括：

爬取模块301，用于爬取互联网网页；

第一提取模块302，用于提取爬取模块301爬取下来的网页的锚文本；

第二提取模块303，用于提取锚文本的URL；

第三提取模块304，用于提取锚文本的周围文本；

在一个实施例中，锚文本的周围文本包括，与锚文本所在的HTML节点的距离在预置范围内的文本或HTML标签；在一个实施例中，锚文本的周围文本包括，从包含该锚文本的标签容器中提取的文本；或者，与该锚文本的距离在预置范围内的网页文本。

关于锚文本及其周围文本，在上述方法实施例中，已经详细描述，在此不再赘述。

关键词提取模块305，用于根据预定的规则，从上述锚文本和锚文本的周围文本中提取关键词。

如图5所示，在一个实施例中，该装置还可以包括：

关联模块306，用于将关键词提取模块305中提取的关键词和第二提取模块303中提取的URL关联，将关键词提取模块305中提取的关键词作为第二提取模块303中提取的URL指向的网页的网页关键词。

添加模块307，将第二提取模块303锚文本的URL和与该锚文本的URL关联的关键词添加到预先建立的索引关键词库。

关键词检索模块308，用于接收用户输入的网页URL，利用网页URL从索引关键词库中检索，得到相应网页的关键词。

缓存优化模块309，用于根据各锚文本的URL被检索的频繁程度，将被检索的频繁程度大于预先设置的检索次数的关键词和其关联的URL记录，放入预先设置的大于预置缓存速度的高速缓存中。

如图6所示，在一个实施例中，关键词提取模块305可以包括：

结合单元3051，用于将上述锚文本和上述锚文本的周围文本进行结合，形成锚点数据；

具体的结合方法，在前述方法实施例中已经详细描述，在此不再赘述。

分词单元3052，用于对上述锚文本和上述锚文本的周围文本进行分词处理，去掉停用词，得到侯选关键词；即，用于对上述锚点数据进行分词处理，去掉停用词，得到侯选关键词；

提取单元3053，用于提取上述侯选关键词的特征信息，通过预置的算法，根据上述侯选关键词的特征信息从上述侯选关键词中提取关键词。

如图6中的虚线框所示，在一个实施例中关键词提取模块305还可以包括：

合并去重单元3050，用于将上述锚文本的URL与数据库中预先存在的URL进行比对，对URL有重复的锚文本进行合并或者去重；

这样，结合单元3051，还用于将经过合并或者去重后的锚文本和及其周围本进行结合，形成去重锚点数据；

这样，分词单元3052，还用于对经过合并去重单元3051合并或者去重后的锚文本和其周围文本进行分词处理，去掉停用词，得到侯选关键词。即，分词单元3052，还用于对上述去重锚点数据进行分词处理，去掉停用词，得到侯选关键词。

如图7所示，在另一个实施例中，关键词提取模块305可以包括：

第一侯选关键词单元30501，用于对上述锚文本进行分词处理，去掉停用词，得到第一侯选关键词；

第二侯选关键词单元30502，用于对上述锚文本的周围文本进行分词处理，去掉停用词，得到第二侯选关键词；

侯选关键词获取单元30503，用于取第一侯选关键词和第二侯选关键词的交集，得到侯选关键词；或者，获取第一侯选关键词和第二侯选关键词中出现频率大于预设次数的词，得到侯选关键词；

关键词获取单元30504，提取上述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

如图8所示，本发明实施例提供一种网页关键词提取系统，包括网页关键词提取装置10和索引关键词库20。

网页关键词提取装置10，用于爬取互联网网页；提取爬取下来的网页中的锚文本；提取锚文本的URL；提取锚文本的周围文本；根据预定的规则，从锚文本和锚文本的周围文本中提取关键词；将提取的关键词和锚文本的URL关联，将上述关键词作为锚文本的URL指向的网页的网页关键词；将上述锚文本的URL和与上述锚文本的URL关联的关键词添加到预先建立的索引关键词库20。

索引关键词库20，用于存储上述锚文本的URL和与上述锚文本的URL关联的关键词。

如图8中的虚线框所示，在一个实施例中，该系统还可以包括：

种子URL库30，用于提供作为爬取起点的URL给网页关键词提取装置10。

网页关键词提取装置10的结构和功能如上述实施例所述，在此不再赘述。

本领域普通技术人员可以理解，上述设备实施例中的模块或单元之间可以通过互相结合来实现各独立模块或单元的功能。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述仅为本发明的几个实施例，本领域的技术人员依据申请文件公开的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。

Claims

1.一种网页关键词提取方法，其特征在于，包括：

爬取互联网网页；

将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词；

所述锚文本的周围文本包括：与所述锚文本所在的超文本标识语言HTML节点的距离在预置范围内的文本或/和HTML标签；或者，从包含所述锚文本的标签容器中提取的文本；或者，与所述锚文本的距离在预置范围内的网页文本。

2.如权利要求1所述的网页关键词提取方法，其特征在于，所述方法还包括：

将所述锚文本的URL和与所述锚文本的URL关联的关键词添加到预先建立的索引关键词库。

3.如权利要求1所述的网页关键词提取方法，其特征在于，根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词，包括：

将所述锚文本和所述锚文本的周围文本进行结合，形成锚点数据；

对所述锚点数据进行分词处理，去掉停用词，得到侯选关键词；

4.如权利要求1所述的网页关键词提取方法，其特征在于，所述根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词，包括：

将所述锚文本的URL与数据库中预先存在的URL进行比对，对URL有重复的锚文本进行合并或者去重；

将经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周文本进行结合，形成去重锚点数据；

对所述去重锚点数据分词处理，去掉停用词，得到侯选关键词；

5.如权利要求1所述的网页关键词提取方法，其特征在于，所述所述根据预定的规则，从所述锚文本和所述锚文本的周围文本中提取关键词，包括：

对所述锚文本进行分词处理，去掉停用词，得到第一侯选关键词；

对所述锚文本的周围文本进行分词处理，去掉停用词，得到第二侯选关键词；

取所述第一侯选关键词和所述第二侯选关键词的交集，得到侯选关键词；或者取所述第一侯选关键词和所述第二侯选关键词中出现频率大于预设次数的词，得到侯选关键词；

6.一种网页关键词提取装置，其特征在于，包括：

爬取模块，用于爬取互联网网页；

第一提取模块，用于提取爬取下来的网页中的锚文本；

第二提取模块，用于提取所述锚文本的URL；

第三提取模块，用于提取所述锚文本的周围文本；

关联模块，用于将所述关键词和所述锚文本的URL关联，将所述关键词作为所述锚文本的URL指向的网页的网页关键词；

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

添加模块，用于将所述锚文本的URL和与所述锚文本的URL关联的关键词添加到预先建立的索引关键词库。

8.如权利要求6所述的装置，其特征在于，所述关键词提取模块包括：

结合单元，用于将所述锚文本和所述锚文本的周围文本进行结合，形成锚点数据；

分词单元，对所述锚点数据进行分词处理，去掉停用词，得到侯选关键词；

提取单元，提取所述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

9.如权利要求8所述的装置，其特征在于，所述关键词提取模块还包括：

合并去重单元，用于将所述锚文本的URL与数据库中预先存在的URL进行比对，对URL有重复的锚文本进行合并或者去重；

所述结合单元，还用于将经过合并或者去重后的锚文本和所述经过合并或者去重后的锚文本的周围文本进行结合，形成去重锚点数据；

所述分词单元，还用于对所述去重锚点数据进行分词处理，去掉停用词，得到侯选关键词。

10.如权利要求6所述的装置，其特征在于，所述关键词提取模块包括：

第一侯选关键词单元，用于对所述锚文本进行分词处理，去掉停用词，得到第一侯选关键词；

第二侯选关键词单元，用于对所述锚文本的周围文本进行分词处理，去掉停用词，得到第二侯选关键词；

侯选关键词获取单元，用于取第一侯选关键词和第二侯选关键词的交集，得到侯选关键词；

关键词获取单元，提取所述侯选关键词的特征信息，通过预置的算法，根据所述侯选关键词的特征信息从所述侯选关键词中提取关键词。

11.如权利要求10所述的装置，其特征在于，所述侯选关键词获取单元还用于：

获取第一侯选关键词和第二侯选关键词中出现频率大于预设次数的词，得到侯选关键词。