CN101216842B

CN101216842B - 获取页面关键词的方法及页面信息处理装置

Info

Publication number: CN101216842B
Application number: CN200810025660XA
Authority: CN
Inventors: 刘利锋; 丁一鸣; 唐斐; 雷宇
Original assignee: Huawei Symantec Technologies Co Ltd
Current assignee: Huawei Digital Technologies Chengdu Co Ltd
Priority date: 2008-01-07
Filing date: 2008-01-07
Publication date: 2011-05-18
Anticipated expiration: 2028-01-07
Also published as: CN101216842A

Abstract

本发明公开了一种获取页面关键词的方法，通过对获取WEB页面中的关键文本进行分词处理，得到所述关键文本的词条，并将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词。本发明还公开了一种页面信息处理装置。采用本发明，可全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度，且简单易行。

Description

获取页面关键词的方法及页面信息处理装置

技术领域

本发明涉及通信领域，尤其涉及一种获取页面关键词的方法及一种页面信息处理装置。

背景技术

随着因特网的迅速发展，网络已经改变了人们获取信息的主要方法与手段。其中，发展最为迅猛的万维网(World Wide Web，WWW)技术，以其直观、方便的使用方式和丰富的表达能力，已逐渐成为因特网上最重要的信息发布和传输方式。伴随着信息时代的到来和发展，WEB上的信息也迅速增长起来。然而，WEB信息的急速膨胀，在给人们提供了丰富信息的同时，又使人们在对这些信息进行有效使用方面面临着一个巨大的挑战。一方面因特网(Internet)上的信息多种多样、丰富多彩，而另一方面用户却找不到所需要的信息。因此，若WEB页面的提供者对页面内容进行预先处理，提取出该WEB页面的关键词，将每个页面的关键词与页面内容关联保存在数据库中，这样，当网络用户请求浏览某一页面时，可先从数据库中获得该页面对应的关键词，最后将具有相同关键词的页面提供给用户浏览，以便于网络用户从大量的WEB页面中快捷准确地筛选出所需要的WEB页面。

目前，WEB页面的后缀有以下几种：超文本标记语言(Hypertext MarkupLanguage，HTML)，超文本标记(Hypertext Markup，HTM)，超文本预处理器(Hypertext Preprocessor，PHP)，动态服务器页面(Active Server Page，ASP)，JAVA服务器端页面(Java Server Page)，服务器解析超文本标记语言(Server-parsed HTML，SHTML)。其中，后缀是php，asp，jsp，shtml的页面，在浏览器端所接收到的页面都是HTML页面。另外，根据爬虫工具获取到的页面也是HTML页面，与后缀是无关的。

可扩展标记语言(Extensible Markup Language，XML)是一种用户可以根据自己的需求而设计标签的语言。在网络上获取到的XML页面，其中包含了在页面上显示的文本。但是XML页面的显示，需要一个xslt文件来把XML页面当中的标签转化成为HTML标签。这个xslt文件的链接在XML页面当中提供。而对于XML页面的处理需要提取当中所有的中文文本。

因此，可将网络上的WEB页面大体分为两种类型：一是HTML页面，一是XML页面。

通常的HTML页面具有以下表1所示的格式：

<html> <head> <titile>页面标题</title> <body> 页面主体部分 </body></html>

表1

现有技术中提供了一种获取页面关键词的方法，该方法是根据WEB页面标题词根在页面中的词频确定关键词，具体过程如图1所示，包括：

101，获取WEB页面标题；

102，对所述WEB页面标题进行分词，得到标题词条的集合；

103，统计所述各标题词条在所述页面中出现的次数；

104，根据各标题词条在所述WEB页面中出现的次数，选择其中出现次数多的标题词条作为所述WEB页面的关键词，在具体实现时可采用一次数阈值，当所述标题词条的出现次数达到该次数阈值时，则确定以该标题词条作为WEB页面的关键词。

由于现有技术获取页面关键词时，只考虑页面标题中的词条，而页面标题不能完全覆盖WEB页面的内容情况，因此，现有技术获取页面关键词具有局限性，获取页面关键词的准确度较低。

发明内容

本发明实施例所要解决的技术问题在于，提供了一种获取页面关键词的方法以及一种页面信息处理装置，可提高获取WEB页面关键词的准确度。

为了解决上述技术问题，本发明实施例提出了一种获取页面关键词的方法，包括：

判断WEB页面是否为超文本标记语言页面，

若是，则提取所述WEB页面标签内容或所述WEB页面闭合标签内容，否则提取所述WEB页面闭合标签内容；

对所述提取的内容进行解码，得到所述WEB页面中的关键文本；

对所述关键文本进行分词处理，得到所述关键文本的词条；

将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词。

相应地，本发明实施例还提供了一种页面信息处理装置，包括：

存储单元，存储预定义词条集合，该预定义词条集合形成预定义词库；

获取单元，获取WEB页面中的关键文本；

分词处理单元，对所述关键文本进行分词处理，得到所述关键文本的词条；

确定单元，将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词；

所述获取单元包括：

判断单元，判断所述WEB页面是否为超文本标记语言页面；

提取单元，当判断单元判断得到所述WEB页面为超文本标记语言页面时，提取所述WEB页面标签内容或所述WEB页面闭合标签内容；当判断单元判断得到所述WEB页面不为超文本标记语言页面时，提取所述WEB页面闭合标签内容；

解码单元，对所述提取的内容进行解码，得到所述关键文本。

本发明实施例通过对获取WEB页面中的关键文本进行分词处理，得到关键文本的词条，并将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词，从而全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度。

附图说明

图1是现有技术的获取页面关键词的方法的流程图；

图2是本发明的获取页面关键词的方法的第一实施例示意图；

图3是本发明的获取页面关键词的方法的第二实施例示意图；

图4是本发明的获取页面关键词的方法的第二实施例中305的具体流程图；

图5是本发明的页面信息处理装置的第一实施例示意图；

图6是本发明的页面信息处理装置的第二实施例示意图。

具体实施方式

本发明实施例提供了一种获取页面关键词的方法以及页面信息处理装置，可实现在获取WEB页面关键词时，综合考虑WEB页面中的关键文本、预定义词条，可全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度。

下面结合附图，对本发明实施例进行详细说明。

图2是本发明的获取页面关键词的方法的第一实施例示意图，该方法中提供了预定义词库，该预定义词库保存了预定义词条的集合，该方法主要包括：

201，获取WEB页面中的关键文本，具体可通过首先对WEB页面是否为HTML页面进行判断，并对其中的标签内容或闭合标签内容进行提取，之后可对提取的标签内容或闭合标签内容进行解码，从而得到WEB页面的关键文本；

202，对所述关键文本进行分词操作，得到所述关键文本的词条，这部分流程可用任何现有技术的分词手段来实现；

203，将与预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词，匹配关系可以是所述预定义词条与所述分词所得词条相同，但不仅限于此。

实施如图2所示的本发明的获取页面关键词的方法的第一实施例，通过对获取WEB页面中的关键文本进行分词处理，得到关键文本的词条，并将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词，从而全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度。

本发明实施例还提供了另外一种获取页面关键词的方法，如下描述：

图3是本发明的获取页面关键词的方法的第二实施例示意图，参照该图，该方法主要包括：

301，获取WEB页面，具体可通过网络爬虫等技术获取互连网上的WEB页面；

302，判断所述WEB页面是否为HTML页面，若是，则提取所述WEB页面部分标签内容，比如标题标签、主体标签等标签的内容；否则，提取所述WEB页面所有闭合标签内容，其中要说明的是，当所述WEB页面为HTML页面且当该WEB页面中没有标签内容时，仍提取该WEB页面所有闭合标签内容。

在实际应用中，由前面表1所示的HTML页面的一般格式可知，HTML标签主要由两组标签构成，一个是<head></head>标签，另一个是<body></body> 标签。下面介绍HTML页面的各类标签的具体内容在本发明技术方案中是否需要提取，参照下表2的内容：

标签

所属

内容

是否需要提取

备注

<SCRIPT LANGUAGE＝″Ja vaScript″>～</SC RIPT>	<head>～</hea d>OR<body> ～</body>	嵌入的脚本	否，去除
					<！-- -->	<head>～</hea d>OR<body> ～</body>	注释	否，去除
/* */	<head>～</hea d>OR<body> ～</body>	注释	否，去除
					<style>～</style>	<head>～</hea d>OR<body> ～</body>	CSS样式表	否，去除
<link>标签	<head>～</hea d>OR<body> ～</body>	----	否，去除
					<noscript>～</nos cript>	<head>～</hea d>OR<body> ～</body>	----	否，去除
<li>标签	<head>～</hea d>OR<body> ～</body>	----	是，提取	不排除该标签内也含有重要信息的可能
					<td>标签	<head>～</hea d>OR<body> ～</body>	----	是，提取	不排除该标签内也含有重要信息的可能
<div>标签	<head>～</hea d>OR<body> ～</body>	----	是，提取	不排除该标签内也含有重要信息的可能

<title>～</title>	<head>～</head>	页面标题	是，提取
					<meta name＝keywords 或description content＝/> <meta content＝ Name＝keywor ds或 description/>	<head>～</head>	描述页面内容	是，提取 (例如，提取content＝”hello world” 中的helloworld)
<meta http-equiv＝″Conte nt-Type″ content＝″text/htm l；charset＝>	<head>～</head>	页面编码方式	是，提取	不属于关键文本，在解码时需要
					<hx>～</hx>	<body>～</body>	小标题、图片格式的标题等	是，提取
<p>～</p>	<body>～</body>	页面显示的主要内容	是，提取
					<b>～</b>	<body>～</body>	----	是，提取

表2

根据上表2所示内容，需要进行所述提取的WEB标签内容包括但不仅限于：

A、<head></head>标签之间需要提取的内容：

a1、<title></title>标签之间的内容，此部分的内容为WEB页面标题内容，可显示于浏览器标题栏位置；

a2、<meta>标签中的内容，例如：

此部分内容用于描述WEB页面的内容，可包括便于搜索引擎搜索的关键词；

B、<body></body>标签之间需要提取的内容：

b1、<hx></hx>标签之间的内容，此部分内容为小标题、图片格式的标题等，其中标签之间的内容字体大小与x有关(x＝1，2，3，4，5，6，x越小，字体越大)，这种标签使用的场合很多，不仅仅是WEB页面中一些需要提取的信息的小标题采用了这种标签，某些“特别推荐”、“用户评论”等标题或者一些图片格式的标题也会使用这种标签；

b2、<p></p>标签之间的内容，此部分内容为WEB页面显示的主要内容，而<p></p>标签一般嵌套在<div></div>标签之中，该WEB页面显示的主要内容的小标题有时存在于<p></p>标签中的<strong></strong>标签之间；

b3、<b></b>标签之间的内容，此部分也可关系到WEB页面中的内容；

需要说明的是，<body></body>标签可存在标签嵌套使用的情况，甚至有多层嵌套的情况，因此，对于从一组标签中提取的内容，还需要多次判断是否在该标签之间的内容中还嵌套有别的标签，若存在其他标签，则去除这些标签，保证最后提取的标签内容中不存在HTML标签；

根据上表2中情况，在实际应用中，<li>、<td>、<div>标签中的内容在某些情况下，也可作为重要信息进行提取；

另外，在对<head></head>标签之间的内容进行提取的同时，也可以提取在<head></head>标签之间的内容中<meta http-equiv＝“Content-Type”content＝“text/html；charset＝gb2312”/>标签内容，该标签的charset属性指定了页面的编码方式，提取的<meta http-equiv＝“Content-Type”content＝“text/html；charset＝gb2312”/>标签内容可用于在下面描述的解码之中(可参照所述编码方式解码)，WEB页面中比较常见的中文编码方式有：GB2312、UTF-8、ISO-8859三种编码方式，但不仅限于此；

303，对302中提取的WEB页面标签内容/全部闭合标签内容进行解码处理，得到WEB页面的关键文本，其中，解码处理可参照所述<meta http-equiv＝ “Content-Type”content＝“text/html；charset＝gb2312”/>标签内容中charset属性指示的编码方式进行解码，也可以通过从多种解码方式中选择一个适配的解码方式进行解码；

304，对所述WEB页面的关键文本进行分词操作，得到所述关键文本的词条，分词操作可通过多种方式实现，比如通过遍历的方式，按照读写顺序遍历所述关键文本的每个字符，在每次遍历过程中，将当前字符作为一个词条进行保存，在该词条基础上追加下一个字符作为另一个词条进行保存，从而得到所述关键文本的词条；

305，根据预定义词库中每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别；

所述预定义词库中收录了能够代表某个页面类别的预定义词条集合，当有多个页面类别时，可在预定义词库中为每个页面类别建立对应的一个子词库，且对每个子词库中的预定义词条分配有指示对页面类别贡献作用的贡献度量标准，所述贡献度量标准可为权重值或积分值等，本实施方式以权重值为例进行说明。所述预定义词库中的子词库的建立有如下方法：

第一种是人工建立的方法，该方法需要在子词库中人工收录各种符合上述要求的预定义词条，并随后为各预定义词条分配指示对该子词库对应页面类别贡献作用的权重值；

第二种是机器训练的方法，该方法需要从一批确定页面类别的HTML页面中提取预定义词条，可通过程序控制，首先确定一批属于同一类别的HTML页面样本，从这些样本中提取关键文本，然后对提取的关键文本进行分词操作，分词结束后统计分词处理所得关键文本的词条的词频，将其中词频较高的关键文本的词条划归到所属页面类别的子词库中，即预定义词条，之后可将所述划归的预定义词条的词频简化为该预定义词条对应的权重值；

同时，由于一些没有具体意义而经常出现的词条被统计的频率较高，从而导致预定义词库准确性大大降低，因此预定义词库需要对一些没有具体意义而经常出现的词条，如“的”、“了”、代词、拟声词等做屏蔽或其他类似处理，不以其作为预定义词条。

本发明实施例所提及的子词库可根据页面类别或页面类别中将涉及的文本内容等进行确定，例如当页面类别为新闻类时，可定义新闻类页面的预定义词条为时事、政治、股票等，当页面中文本内容将涉及奥运，则可定义奥运相关文本内容的预定义词条为福娃、北京、鸟巢等，预定义词条可根据实际情况选择确定，不仅限于此。

306，将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词，在具体实现时，当确定了WEB页面类别后，所述关键文本的词条为该WEB页面类别下属的预定义词条，则以该预定义词条作为WEB页面的关键词。

具体地，根据上述说明，步骤305可包括如图4所示的如下具体流程：

401、获得每一个子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值，具体地，匹配可以是所述分词处理所得词条与所述预定义词条相同，或所述分词处理所得词条与所述预定义词条相似度超过某个阈值；

402、根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准，计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和；

403、确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别；

本实施方式中，上述步骤401中所提及的预定义词条的权重值为根据预定义词条预定义词条对页面类别贡献作用的基本权重值。在另一实施方式中，还可以综合考虑与所述关键文本的词条匹配的预定义词条在页面中的位置来得到每一个子词库中预定义词条权重值之和，从而得到WEB页面类别。具体可参照如下例的说明，该例中WEB页面为HTML页面，这里引入了根据与所述关键文本的词条匹配的预定义词条在WEB页面位置而设置的比例系数，以及预定义词条在该HTML页面类别中的基本权重值：

在不同HTML页面位置的预定义词条具有不同的权重值，这种设计依据HTML页面一般的设计原理，具体地，可按照描述(description)、关键字(keywords)、标题(title)、副标题(subtitle)、内容(content)分为五个部分来判断其位置，由于HTML页面中的元标签<meta>中的description和keywords主要标明该站点或该HTML页面所描述的主要内容，title为该HTML页面的标题， subtitle为该HTML页面的副标题，content则是HTML页面所描述的具体内容，不同HTML页面位置的预定义词条的权重值目前根据经验判断，description和keywords字段的比例系数各为20％，title为40％，subtitle和content各为10％，这些比例系数是根据多次实验总结而来，当然也可以在多次不断实验中调整该比例系数。下面是一个HTML页面的<head>标签部分内容：

<HTML>

<HEAD>

<title>

华为

</title>

</HEAD>

上述<head>标签内容中包含了description、keywords、title三个有效部分(<body>标签部分未举例，但也适用)。通过提取关键文本后得到如下三个字段，分别是：

Description：华为是全球领先的下一代电信网络解决方案供应商，致力于向客户提供创新的满足其需求的产品、服务和解决方案，为客户创造长期的价值和潜在的增长。华为产品和解决方案涵盖移动(HSDPA/WCDMA/EDGE/GPRS/GSM，CDMA2000 1xEV-DO/CDMA2000 1X，TD-SCDMA和WiMAX)、核心网(IMS，Mobile Softswitch，NGN)网络(FTTx，DSL，光网络，路由器和LAN Switch)、电信增值业务(IN，mobile data service，Boss)和终端(UMTS/CDMA)等领域；

Keywords：华为，基于All IP网络的FMC，移动核心网，下一代网络，NGN，WCDMA/HSPA，交换网络，GSM，光网络，CDMA2000，接入网，无线网络规划，数据通信，增值业务，视频通信，运营支撑，固网终端，数字媒体娱乐，存储与网络安全，华为手机，配线配套产品，华为技术支持，华为职位招聘，华为新闻；

Title：华为。

结合上述关键文本的三个字段内容、比例系数、基本权重值，对上述三个字段分词后得到的词条就可以确定HTML页面的页面类别了，例如：上述实例中description字段中分词所得的词条“华为”出现了2次，在keywords字段中分词所得的词条“华为”出现了5次，在title字段中分词所得的词条“华为”出现了1次，而“华为”在页面类别为公司类(该类别下具有“华为”这个预定义词条)的基本权重值为r1，在页面类别为娱乐类的基本权重值为r2，所以“华为”在公司类的权重值为[(2×20％×r1+5×20％×r1+1×40％×r1)÷(2+5+1)]，而“华为”在娱乐类的权重值为[(2×20％×r2+5×20％×r2+1×40％×r2)÷(2+5+1)]，同样，其他预定义词条的权重计算原理一样。

实施如图3所示的本发明的获取页面关键词的方法的第二实施例，通过获取WEB页面，并判断所述WEB页面是否为HTML页面进行相应标签内容或闭合标签内容的提取，然后对提取的WEB页面标签内容/全部闭合标签内容进行解码处理，得到关键文本，对获取WEB页面中的关键文本进行分词处理，得到关键文本的词条，根据预定义词库中每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别，将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词，从而全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度，由于考虑到WEB页面的页面类别，因此可更加准确的获取WEB页面的关键词。

相应地，下面对本发明实施例的页面信息处理装置进行说明。

图5是本发明的页面信息处理装置的第一实施例示意图，如图5所示，主要包括存储单元51、获取单元52、分词处理单元53、确定单元54，其中各单元连接关系及功能如下述：

获取单元52与分词处理单元53相连，存储单元51、分词处理单元53分别与确定单元54相连；

存储单元51，用于存储预定义词条集合，该预定义词条集合形成预定义词库；

获取单元52，用于获取WEB页面中的关键文本，具体可通过首先对WEB页面是否为HTML页面进行判断，并对其中的标签内容或闭合标签内容进行提取，之后可对提取的标签内容或闭合标签内容进行解码，从而得到WEB页面的关键文本；

分词处理单元53，用于对所述关键文本进行分词处理，得到所述关键文本的词条，这部分功能可用任何现有技术的分词手段来实现；

确定单元54，用于将所述预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词，匹配关系可以是所述预定义词条与所述分词所得词条相同，但不仅限于此。

实施如图5所示的本发明的页面关键词获取装置的第一实施例，通过分词处理单元53对获取单元52获取到的WEB页面中的关键文本进行分词处理，得到关键文本的词条，并由确定单元54将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词，从而全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度。

图6是本发明的页面信息处理装置的第二实施例示意图，参照该图，该装置主要包括导入单元61、获取单元62、分词处理单元63、确定单元64、存储单元65，其中确定单元64包括类别确定单元641、关键词确定单元642，其中获取单元62包括判断单元621、提取单元622、解码单元623，各单元之间连接关系及功能如下述：

导入单元61与获取单元62相连，获取单元62、确定单元64分别与分词处理单元63相连，确定单元64与存储单元65相连，类别确定单元641与关键词确定单元642相连，判断单元621、解码单元623分别与提取单元622相连；

导入单元61，用于导入WEB页面，具体可通过网络爬虫等技术获取互连网上的WEB页面并将该WEB页面导入；

判断单元621，用于判断所述WEB页面是否为HTML页面；

提取单元622，用于当判断单元621判断所述WEB页面为HTML页面时，提取所述WEB页面标签内容，当判断单元621判断为WEB页面为非HTML页面时，提取所述WEB页面闭合标签内容，其中要说明的是，当所述WEB页面为HTML页面且当该WEB页面中没有标签内容时，仍提取该WEB页面闭合标签内容，如<body></body>标签之间的内容；

在实际应用中，由前面表1所示的HTML页面的一般格式可知，HTML标签主要由两组标签构成，一个是<head></head>标签，另一个是<body></body>标签。为了能更形象地说明所述HTML页面标签内容的提取过程，先详细介绍一下HTML页面的各类标签的具体内容在本发明技术方案中是否需要提取并转化成为所述关键文本，具体可参照上表2的内容，其中，需要进行所述提取的WEB标签内容包括但不仅限于：

A、<head></head>标签之间需要提取的内容：

a1、<title></title>标签之间的内容，此部分的内容为WEB页面标题内容，可显示于WEB页面标题栏位置；

a2、<meta name＝”description”content＝”CSDN安全频道”/>

B、<body></body>标签之间需要提取的内容：

另外，在对<head></head>标签之间的内容进行提取的同时，也可以提取在<head></head>标签之间的内容中<meta http-equiv＝”Content-Type”content＝”text/html；charset＝gb2312”/>标签内容，该标签的charset属性指定了页面的编码方式，提取的<meta http-equiv＝”Content-Type”content＝”text/html；charset＝gb2312”/>标签内容可用于在下面描述的解码之中(可参照所述编码方式解码)，WEB页面中比较常见的中文编码方式有：GB2312、UTF-8、ISO-8859三种编码方式，但不仅限于此；

解码单元623，用于对提取单元622提取的WEB页面标签内容/全部闭合标签内容进行解码处理，得到WEB页面的关键文本，其中，解码处理可参照所述<meta http-equiv＝”Content-Type”content＝”text/html；charset＝gb2312”/>标签内容中charset属性指示的编码方式进行解码，也可以通过从多种解码方式中选择一个适配的解码方式进行解码；

分词处理单元63，用于对所述WEB页面的关键文本进行分词操作，得到所述关键文本的词条，这部分流程可用任何现有技术的分词手段来实现；

存储单元65，用于存储预定义词条集合，该预定义词条集合形成预定义词库，这里及下文所提到的预定义词库、子词库、预定义词条、页面类别等可根据上述方法流程中描述的内容进行说明，此处不再赘述；

类别确定单元641，用于根据预定义词库中对页面类别具有贡献作用的预定义词条的贡献度量标准，以及所述关键文本的词条与所述预定义词条的匹配关系，确定所述WEB页面的页面类别，在具体实现时，所述贡献度量标准可以是权重值标准(为每个预定义词条赋予权重值)，该类别确定单元641可包括：

获得单元，获得每一个子词库中与所述关键文本的词条匹配的预定义词条及其对应的权重值，具体地，匹配可以是所述分词处理所得词条与所述预定义词条相同，或所述分词处理所得词条与所述预定义词条相似度超过某个阈值；

统计单元，根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准，计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和；

确定单元，确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别；

关键词确定单元642，将所述确定的WEB页面的页面类别下的、与所述预定义词库中预定义词条匹配的所述关键文本的词条作为所述WEB页面的关键词，在具体实现时，当确定了WEB页面类别后，所述关键文本的词条为该WEB页面类别下属的预定义词条，则以该预定义词条作为WEB页面的关键词。

作为一种实施方式，所述统计单元中可以包括有：

比例系数提供单元，提供每一子词库中与所述关键文本的词条匹配的预定义词条在所述WEB页面的位置而设置的比例系数，所述统计单元根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准和该比例系数计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和，这里则表明，还可以考虑预定义词条在页面中的位置来得到所述权重值，从而得到WEB页面类别，具体可参照上述方法流程中的说明，此处不再赘述。

实施如图6所示的本发明的页面关键词获取装置的第二实施例，通过导入单元61获取WEB页面，并由判断单元621判断所述WEB页面是否为HTML页面进行相应标签内容或闭合标签内容的提取，然后解码单元623对提取的WEB页面标签内容/全部闭合标签内容进行解码处理，得到关键文本，分词处理单元63对获取WEB页面中的关键文本进行分词处理，得到关键文本的词条，类别确定单元641根据预定义词库中每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别，关键词确定单元642将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词，从而全方位考虑WEB页面的主要内容，提高获取WEB页面关键词的准确度，由于考虑到WEB页面的页面类别，因此可更加准确的获取WEB页面的关键词。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Radom Access Memory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种获取页面关键词的方法，其特征在于，包括：

判断WEB页面是否为超文本标记语言页面，

对所述关键文本进行分词处理，得到所述关键文本的词条；

将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。

2.如权利要求1所述的获取页面关键词的方法，其特征在于，所述预定义词库包括若干子词库，每一子词库中的预定义词条与一页面类别对应且分配有指示对页面类别贡献作用的贡献度量标准，所述将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词步骤包括：

根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别；

将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。

3.如权利要求2所述的获取页面关键词的方法，其特征在于，所述贡献度量标准为权重值标准，所述根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别步骤包括：

获得每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准；

根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准，计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和；

确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别。

4.如权利要求3所述的获取页面关键词的方法，其特征在于，还根据每一子词库中与所述关键文本的词条匹配的预定义词条在所述WEB页面的位置而设置的比例系数，计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和。

5.一种页面信息处理装置，其特征在于，包括：

获取单元，获取WEB页面中的关键文本；

所述获取单元包括：

判断单元，判断所述WEB页面是否为超文本标记语言页面；

6.如权利要求5所述的页面信息处理装置，其特征在于，所述预定义词库包括若干子词库，每一子词库中的预定义词条与一页面类别对应且分配有指示对页面类别贡献作用的贡献度量标准，所述确定单元包括：

类别确定单元，根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别；

关键词确定单元，将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。