CN101216842B - 获取页面关键词的方法及页面信息处理装置 - Google Patents

获取页面关键词的方法及页面信息处理装置 Download PDF

Info

Publication number
CN101216842B
CN101216842B CN200810025660XA CN200810025660A CN101216842B CN 101216842 B CN101216842 B CN 101216842B CN 200810025660X A CN200810025660X A CN 200810025660XA CN 200810025660 A CN200810025660 A CN 200810025660A CN 101216842 B CN101216842 B CN 101216842B
Authority
CN
China
Prior art keywords
entry
page
web page
predefine
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810025660XA
Other languages
English (en)
Other versions
CN101216842A (zh
Inventor
刘利锋
丁一鸣
唐斐
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Digital Technologies Chengdu Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN200810025660XA priority Critical patent/CN101216842B/zh
Publication of CN101216842A publication Critical patent/CN101216842A/zh
Application granted granted Critical
Publication of CN101216842B publication Critical patent/CN101216842B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取页面关键词的方法,通过对获取WEB页面中的关键文本进行分词处理,得到所述关键文本的词条,并将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词。本发明还公开了一种页面信息处理装置。采用本发明,可全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度,且简单易行。

Description

获取页面关键词的方法及页面信息处理装置 
技术领域
本发明涉及通信领域,尤其涉及一种获取页面关键词的方法及一种页面信息处理装置。 
背景技术
随着因特网的迅速发展,网络已经改变了人们获取信息的主要方法与手段。其中,发展最为迅猛的万维网(World Wide Web,WWW)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为因特网上最重要的信息发布和传输方式。伴随着信息时代的到来和发展,WEB上的信息也迅速增长起来。然而,WEB信息的急速膨胀,在给人们提供了丰富信息的同时,又使人们在对这些信息进行有效使用方面面临着一个巨大的挑战。一方面因特网(Internet)上的信息多种多样、丰富多彩,而另一方面用户却找不到所需要的信息。因此,若WEB页面的提供者对页面内容进行预先处理,提取出该WEB页面的关键词,将每个页面的关键词与页面内容关联保存在数据库中,这样,当网络用户请求浏览某一页面时,可先从数据库中获得该页面对应的关键词,最后将具有相同关键词的页面提供给用户浏览,以便于网络用户从大量的WEB页面中快捷准确地筛选出所需要的WEB页面。 
目前,WEB页面的后缀有以下几种:超文本标记语言(Hypertext MarkupLanguage,HTML),超文本标记(Hypertext Markup,HTM),超文本预处理器(Hypertext Preprocessor,PHP),动态服务器页面(Active Server Page,ASP),JAVA服务器端页面(Java Server Page),服务器解析超文本标记语言(Server-parsed HTML,SHTML)。其中,后缀是php,asp,jsp,shtml的页面,在浏览器端所接收到的页面都是HTML页面。另外,根据爬虫工具获取到的页面也是HTML页面,与后缀是无关的。 
可扩展标记语言(Extensible Markup Language,XML)是一种用户可以根据自己的需求而设计标签的语言。在网络上获取到的XML页面,其中包含了在 页面上显示的文本。但是XML页面的显示,需要一个xslt文件来把XML页面当中的标签转化成为HTML标签。这个xslt文件的链接在XML页面当中提供。而对于XML页面的处理需要提取当中所有的中文文本。 
因此,可将网络上的WEB页面大体分为两种类型:一是HTML页面,一是XML页面。 
通常的HTML页面具有以下表1所示的格式: 
<html>   <head>     <titile>页面标题</title>       <body>             页面主体部分       </body></html>
表1 
现有技术中提供了一种获取页面关键词的方法,该方法是根据WEB页面标题词根在页面中的词频确定关键词,具体过程如图1所示,包括: 
101,获取WEB页面标题; 
102,对所述WEB页面标题进行分词,得到标题词条的集合; 
103,统计所述各标题词条在所述页面中出现的次数; 
104,根据各标题词条在所述WEB页面中出现的次数,选择其中出现次数多的标题词条作为所述WEB页面的关键词,在具体实现时可采用一次数阈值,当所述标题词条的出现次数达到该次数阈值时,则确定以该标题词条作为WEB页面的关键词。 
由于现有技术获取页面关键词时,只考虑页面标题中的词条,而页面标题不能完全覆盖WEB页面的内容情况,因此,现有技术获取页面关键词具有局限性,获取页面关键词的准确度较低。 
发明内容
本发明实施例所要解决的技术问题在于,提供了一种获取页面关键词的方法以及一种页面信息处理装置,可提高获取WEB页面关键词的准确度。 
为了解决上述技术问题,本发明实施例提出了一种获取页面关键词的方法,包括: 
判断WEB页面是否为超文本标记语言页面, 
若是,则提取所述WEB页面标签内容或所述WEB页面闭合标签内容,否则提取所述WEB页面闭合标签内容; 
对所述提取的内容进行解码,得到所述WEB页面中的关键文本; 
对所述关键文本进行分词处理,得到所述关键文本的词条; 
将与预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词。 
相应地,本发明实施例还提供了一种页面信息处理装置,包括: 
存储单元,存储预定义词条集合,该预定义词条集合形成预定义词库; 
获取单元,获取WEB页面中的关键文本; 
分词处理单元,对所述关键文本进行分词处理,得到所述关键文本的词条; 
确定单元,将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词; 
所述获取单元包括: 
判断单元,判断所述WEB页面是否为超文本标记语言页面; 
提取单元,当判断单元判断得到所述WEB页面为超文本标记语言页面时,提取所述WEB页面标签内容或所述WEB页面闭合标签内容;当判断单元判断得到所述WEB页面不为超文本标记语言页面时,提取所述WEB页面闭合标签内容; 
解码单元,对所述提取的内容进行解码,得到所述关键文本。 
本发明实施例通过对获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,并将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。 
附图说明
图1是现有技术的获取页面关键词的方法的流程图; 
图2是本发明的获取页面关键词的方法的第一实施例示意图; 
图3是本发明的获取页面关键词的方法的第二实施例示意图; 
图4是本发明的获取页面关键词的方法的第二实施例中305的具体流程图; 
图5是本发明的页面信息处理装置的第一实施例示意图; 
图6是本发明的页面信息处理装置的第二实施例示意图。 
具体实施方式
本发明实施例提供了一种获取页面关键词的方法以及页面信息处理装置, 可实现在获取WEB页面关键词时,综合考虑WEB页面中的关键文本、预定义词条,可全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。 
下面结合附图,对本发明实施例进行详细说明。 
图2是本发明的获取页面关键词的方法的第一实施例示意图,该方法中提供了预定义词库,该预定义词库保存了预定义词条的集合,该方法主要包括: 
201,获取WEB页面中的关键文本,具体可通过首先对WEB页面是否为HTML页面进行判断,并对其中的标签内容或闭合标签内容进行提取,之后可对提取的标签内容或闭合标签内容进行解码,从而得到WEB页面的关键文本; 
202,对所述关键文本进行分词操作,得到所述关键文本的词条,这部分流程可用任何现有技术的分词手段来实现; 
203,将与预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词,匹配关系可以是所述预定义词条与所述分词所得词条相同,但不仅限于此。 
实施如图2所示的本发明的获取页面关键词的方法的第一实施例,通过对获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,并将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。 
本发明实施例还提供了另外一种获取页面关键词的方法,如下描述: 
图3是本发明的获取页面关键词的方法的第二实施例示意图,参照该图,该方法主要包括: 
301,获取WEB页面,具体可通过网络爬虫等技术获取互连网上的WEB页面; 
302,判断所述WEB页面是否为HTML页面,若是,则提取所述WEB页面部分标签内容,比如标题标签、主体标签等标签的内容;否则,提取所述WEB页面所有闭合标签内容,其中要说明的是,当所述WEB页面为HTML页面且当该WEB页面中没有标签内容时,仍提取该WEB页面所有闭合标签内容。 
在实际应用中,由前面表1所示的HTML页面的一般格式可知,HTML标签主要由两组标签构成,一个是<head></head>标签,另一个是<body></body> 标签。下面介绍HTML页面的各类标签的具体内容在本发明技术方案中是否需要提取,参照下表2的内容: 
        标签     所属   内容 是否需要提取     备注
  <SCRIPT  LANGUAGE=″Ja  vaScript″>~</SC  RIPT>  <head>~</hea d>OR<body> ~</body>   嵌入的脚  本 否,去除
  <!--    -->  <head>~</hea d>OR<body> ~</body>   注释 否,去除
  /*       */  <head>~</hea d>OR<body> ~</body>   注释 否,去除
  <style>~</style>  <head>~</hea d>OR<body> ~</body>   CSS样式  表 否,去除
  <link>标签  <head>~</hea d>OR<body> ~</body>   ---- 否,去除
  <noscript>~</nos  cript>  <head>~</hea d>OR<body> ~</body>   ---- 否,去除
  <li>标签  <head>~</hea d>OR<body> ~</body>   ---- 是,提取 不排除该标签内也含有重要信息的可能
  <td>标签  <head>~</hea d>OR<body> ~</body>   ---- 是,提取 不排除该标签内也含有重要信息的可能
  <div>标签  <head>~</hea d>OR<body> ~</body>   ---- 是,提取 不排除该标签内也含有重要信息的可能
  <title>~</title> <head>~</head> 页面标题 是,提取
  <meta     name=keywords  或description   content=/>     <meta   content=  Name=keywor  ds或  description/> <head>~</head> 描述页面 内容 是,提取 (例如,提取content=”hello world” 中的helloworld)
  <meta  http-equiv=″Conte  nt-Type″  content=″text/htm  l;charset=> <head>~</head> 页面编码 方式 是,提取 不属于关键文本,在解码时需要
  <hx>~</hx> <body>~</body> 小标题、图片格式的标题等 是,提取
  <p>~</p> <body>~</body> 页面显示的主要内容 是,提取
  <b>~</b> <body>~</body> ---- 是,提取
表2 
根据上表2所示内容,需要进行所述提取的WEB标签内容包括但不仅限于: 
A、<head></head>标签之间需要提取的内容: 
a1、<title></title>标签之间的内容,此部分的内容为WEB页面标题内容,可显示于浏览器标题栏位置; 
a2、<meta>标签中的内容,例如: 
<meta name=”description”content=”CSDN安全频道”/> 
<meta content=”杀毒,安全,软件加密解密,DRM,软件安全”name=”keywords”/> 
此部分内容用于描述WEB页面的内容,可包括便于搜索引擎搜索的关键词; 
B、<body></body>标签之间需要提取的内容: 
b1、<hx></hx>标签之间的内容,此部分内容为小标题、图片格式的标题等,其中标签之间的内容字体大小与x有关(x=1,2,3,4,5,6,x越小,字体越大),这种标签使用的场合很多,不仅仅是WEB页面中一些需要提取的信息的小标题采用了这种标签,某些“特别推荐”、“用户评论”等标题或者一些图片格式的标题也会使用这种标签; 
b2、<p></p>标签之间的内容,此部分内容为WEB页面显示的主要内容,而<p></p>标签一般嵌套在<div></div>标签之中,该WEB页面显示的主要内容的小标题有时存在于<p></p>标签中的<strong></strong>标签之间; 
b3、<b></b>标签之间的内容,此部分也可关系到WEB页面中的内容; 
需要说明的是,<body></body>标签可存在标签嵌套使用的情况,甚至有多层嵌套的情况,因此,对于从一组标签中提取的内容,还需要多次判断是否在该标签之间的内容中还嵌套有别的标签,若存在其他标签,则去除这些标签,保证最后提取的标签内容中不存在HTML标签; 
根据上表2中情况,在实际应用中,<li>、<td>、<div>标签中的内容在某些情况下,也可作为重要信息进行提取; 
另外,在对<head></head>标签之间的内容进行提取的同时,也可以提取在<head></head>标签之间的内容中<meta http-equiv=“Content-Type”content=“text/html;charset=gb2312”/>标签内容,该标签的charset属性指定了页面的编码方式,提取的<meta http-equiv=“Content-Type”content=“text/html;charset=gb2312”/>标签内容可用于在下面描述的解码之中(可参照所述编码方式解码),WEB页面中比较常见的中文编码方式有:GB2312、UTF-8、ISO-8859三种编码方式,但不仅限于此; 
303,对302中提取的WEB页面标签内容/全部闭合标签内容进行解码处理,得到WEB页面的关键文本,其中,解码处理可参照所述<meta http-equiv= “Content-Type”content=“text/html;charset=gb2312”/>标签内容中charset属性指示的编码方式进行解码,也可以通过从多种解码方式中选择一个适配的解码方式进行解码; 
304,对所述WEB页面的关键文本进行分词操作,得到所述关键文本的词条,分词操作可通过多种方式实现,比如通过遍历的方式,按照读写顺序遍历所述关键文本的每个字符,在每次遍历过程中,将当前字符作为一个词条进行保存,在该词条基础上追加下一个字符作为另一个词条进行保存,从而得到所述关键文本的词条; 
305,根据预定义词库中每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别; 
所述预定义词库中收录了能够代表某个页面类别的预定义词条集合,当有多个页面类别时,可在预定义词库中为每个页面类别建立对应的一个子词库,且对每个子词库中的预定义词条分配有指示对页面类别贡献作用的贡献度量标准,所述贡献度量标准可为权重值或积分值等,本实施方式以权重值为例进行说明。所述预定义词库中的子词库的建立有如下方法: 
第一种是人工建立的方法,该方法需要在子词库中人工收录各种符合上述要求的预定义词条,并随后为各预定义词条分配指示对该子词库对应页面类别贡献作用的权重值; 
第二种是机器训练的方法,该方法需要从一批确定页面类别的HTML页面中提取预定义词条,可通过程序控制,首先确定一批属于同一类别的HTML页面样本,从这些样本中提取关键文本,然后对提取的关键文本进行分词操作,分词结束后统计分词处理所得关键文本的词条的词频,将其中词频较高的关键文本的词条划归到所属页面类别的子词库中,即预定义词条,之后可将所述划归的预定义词条的词频简化为该预定义词条对应的权重值; 
同时,由于一些没有具体意义而经常出现的词条被统计的频率较高,从而导致预定义词库准确性大大降低,因此预定义词库需要对一些没有具体意义而经常出现的词条,如“的”、“了”、代词、拟声词等做屏蔽或其他类似处理,不以其作为预定义词条。 
本发明实施例所提及的子词库可根据页面类别或页面类别中将涉及的文本 内容等进行确定,例如当页面类别为新闻类时,可定义新闻类页面的预定义词条为时事、政治、股票等,当页面中文本内容将涉及奥运,则可定义奥运相关文本内容的预定义词条为福娃、北京、鸟巢等,预定义词条可根据实际情况选择确定,不仅限于此。 
306,将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词,在具体实现时,当确定了WEB页面类别后,所述关键文本的词条为该WEB页面类别下属的预定义词条,则以该预定义词条作为WEB页面的关键词。 
具体地,根据上述说明,步骤305可包括如图4所示的如下具体流程: 
401、获得每一个子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值,具体地,匹配可以是所述分词处理所得词条与所述预定义词条相同,或所述分词处理所得词条与所述预定义词条相似度超过某个阈值; 
402、根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准,计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和; 
403、确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别; 
本实施方式中,上述步骤401中所提及的预定义词条的权重值为根据预定义词条预定义词条对页面类别贡献作用的基本权重值。在另一实施方式中,还可以综合考虑与所述关键文本的词条匹配的预定义词条在页面中的位置来得到每一个子词库中预定义词条权重值之和,从而得到WEB页面类别。具体可参照如下例的说明,该例中WEB页面为HTML页面,这里引入了根据与所述关键文本的词条匹配的预定义词条在WEB页面位置而设置的比例系数,以及预定义词条在该HTML页面类别中的基本权重值: 
在不同HTML页面位置的预定义词条具有不同的权重值,这种设计依据HTML页面一般的设计原理,具体地,可按照描述(description)、关键字(keywords)、标题(title)、副标题(subtitle)、内容(content)分为五个部分来判断其位置,由于HTML页面中的元标签<meta>中的description和keywords主要标明该站点或该HTML页面所描述的主要内容,title为该HTML页面的标题, subtitle为该HTML页面的副标题,content则是HTML页面所描述的具体内容,不同HTML页面位置的预定义词条的权重值目前根据经验判断,description和keywords字段的比例系数各为20%,title为40%,subtitle和content各为10%,这些比例系数是根据多次实验总结而来,当然也可以在多次不断实验中调整该比例系数。下面是一个HTML页面的<head>标签部分内容: 
<HTML> 
<HEAD> 
<META http-equiv=″Content-Type″content=″text/html;charset=UTF-8″/> 
<title> 
华为 
</title> 
<link rel=″SHORTCUT ICON″href=″/cn/images/logo.gif″/> 
<meta name=″Security″content=″public″/> 
<meta name=″Robots″content=″index,follow″/> 
<meta name=″DC.Language″scheme=″rfc1766″content=″zh-CN″/> 
<meta name=″Huawei.Country″content=″CN″/> 
<meta name=″Description″content=″华为是全球领先的下一代电信网络解决方案供应商,致力于向客户提供创新的满足其需求的产品、服务和解决方案,为客户创造长期的价值和潜在的增长。华为产品和解决方案涵盖移动(HSDPA/WCDMA/EDGE/GPRS/GSM,CDMA2000 1xEV-DO/CDMA2000 1X,TD-SCDMA和WiMAX)、核心网(IMS,Mobile Softswitch,NGN)网络(FTTx,xDSL,光网络,路由器和LAN Switch)、电信增值业务(IN,mobile data service,Boss)和终端(UMTS/CDMA)等领域。″/> 
<meta name=″Keywords″content=″华为,基于All IP网络的FMC,移动核心网,下一代网络,NGN,WCDMA/HSPA,交换网络,GSM,光网络,CDMA2000,接入网,无线网络规划,数据通信,增值业务,视频通信,运营支撑,固网终端,数字媒体娱乐,存储与网络安全,华为手机,配线配套产品,华为技术支持,华为职位招聘,华为新闻″/> 
<LINK href=″/cn/css/wwwvi.css″rel=″stylesheet″type=″text/css″> 
</HEAD> 
上述<head>标签内容中包含了description、keywords、title三个有效部分(<body>标签部分未举例,但也适用)。通过提取关键文本后得到如下三个字段,分别是: 
Description:华为是全球领先的下一代电信网络解决方案供应商,致力于向客户提供创新的满足其需求的产品、服务和解决方案,为客户创造长期的价值和潜在的增长。华为产品和解决方案涵盖移动(HSDPA/WCDMA/EDGE/GPRS/GSM,CDMA2000 1xEV-DO/CDMA2000 1X,TD-SCDMA和WiMAX)、核心网(IMS,Mobile Softswitch,NGN)网络(FTTx,DSL,光网络,路由器和LAN Switch)、电信增值业务(IN,mobile data service,Boss)和终端(UMTS/CDMA)等领域; 
Keywords:华为,基于All IP网络的FMC,移动核心网,下一代网络,NGN,WCDMA/HSPA,交换网络,GSM,光网络,CDMA2000,接入网,无线网络规划,数据通信,增值业务,视频通信,运营支撑,固网终端,数字媒体娱乐,存储与网络安全,华为手机,配线配套产品,华为技术支持,华为职位招聘,华为新闻; 
Title:华为。 
结合上述关键文本的三个字段内容、比例系数、基本权重值,对上述三个字段分词后得到的词条就可以确定HTML页面的页面类别了,例如:上述实例中description字段中分词所得的词条“华为”出现了2次,在keywords字段中分词所得的词条“华为”出现了5次,在title字段中分词所得的词条“华为”出现了1次,而“华为”在页面类别为公司类(该类别下具有“华为”这个预定义词条)的基本权重值为r1,在页面类别为娱乐类的基本权重值为r2,所以“华为”在公司类的权重值为[(2×20%×r1+5×20%×r1+1×40%×r1)÷(2+5+1)],而“华为”在娱乐类的权重值为[(2×20%×r2+5×20%×r2+1×40%×r2)÷(2+5+1)],同样,其他预定义词条的权重计算原理一样。 
实施如图3所示的本发明的获取页面关键词的方法的第二实施例,通过获取WEB页面,并判断所述WEB页面是否为HTML页面进行相应标签内容或闭合标签内容的提取,然后对提取的WEB页面标签内容/全部闭合标签内容进行解码处理,得到关键文本,对获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,根据预定义词库中每一子词库中与所述关键文本的词条匹配 的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别,将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度,由于考虑到WEB页面的页面类别,因此可更加准确的获取WEB页面的关键词。 
相应地,下面对本发明实施例的页面信息处理装置进行说明。 
图5是本发明的页面信息处理装置的第一实施例示意图,如图5所示,主要包括存储单元51、获取单元52、分词处理单元53、确定单元54,其中各单元连接关系及功能如下述: 
获取单元52与分词处理单元53相连,存储单元51、分词处理单元53分别与确定单元54相连; 
存储单元51,用于存储预定义词条集合,该预定义词条集合形成预定义词库; 
获取单元52,用于获取WEB页面中的关键文本,具体可通过首先对WEB页面是否为HTML页面进行判断,并对其中的标签内容或闭合标签内容进行提取,之后可对提取的标签内容或闭合标签内容进行解码,从而得到WEB页面的关键文本; 
分词处理单元53,用于对所述关键文本进行分词处理,得到所述关键文本的词条,这部分功能可用任何现有技术的分词手段来实现; 
确定单元54,用于将所述预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词,匹配关系可以是所述预定义词条与所述分词所得词条相同,但不仅限于此。 
实施如图5所示的本发明的页面关键词获取装置的第一实施例,通过分词处理单元53对获取单元52获取到的WEB页面中的关键文本进行分词处理,得到关键文本的词条,并由确定单元54将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度。 
图6是本发明的页面信息处理装置的第二实施例示意图,参照该图,该装置主要包括导入单元61、获取单元62、分词处理单元63、确定单元64、存储单元65,其中确定单元64包括类别确定单元641、关键词确定单元642,其中 获取单元62包括判断单元621、提取单元622、解码单元623,各单元之间连接关系及功能如下述: 
导入单元61与获取单元62相连,获取单元62、确定单元64分别与分词处理单元63相连,确定单元64与存储单元65相连,类别确定单元641与关键词确定单元642相连,判断单元621、解码单元623分别与提取单元622相连; 
导入单元61,用于导入WEB页面,具体可通过网络爬虫等技术获取互连网上的WEB页面并将该WEB页面导入; 
判断单元621,用于判断所述WEB页面是否为HTML页面; 
提取单元622,用于当判断单元621判断所述WEB页面为HTML页面时,提取所述WEB页面标签内容,当判断单元621判断为WEB页面为非HTML页面时,提取所述WEB页面闭合标签内容,其中要说明的是,当所述WEB页面为HTML页面且当该WEB页面中没有标签内容时,仍提取该WEB页面闭合标签内容,如<body></body>标签之间的内容; 
在实际应用中,由前面表1所示的HTML页面的一般格式可知,HTML标签主要由两组标签构成,一个是<head></head>标签,另一个是<body></body>标签。为了能更形象地说明所述HTML页面标签内容的提取过程,先详细介绍一下HTML页面的各类标签的具体内容在本发明技术方案中是否需要提取并转化成为所述关键文本,具体可参照上表2的内容,其中,需要进行所述提取的WEB标签内容包括但不仅限于: 
A、<head></head>标签之间需要提取的内容: 
a1、<title></title>标签之间的内容,此部分的内容为WEB页面标题内容,可显示于WEB页面标题栏位置; 
a2、<meta name=”description”content=”CSDN安全频道”/> 
<meta content=”杀毒,安全,软件加密解密,DRM,软件安全”name=”keywords”/> 
此部分内容用于描述WEB页面的内容,可包括便于搜索引擎搜索的关键词; 
B、<body></body>标签之间需要提取的内容: 
b1、<hx></hx>标签之间的内容,此部分内容为小标题、图片格式的标题等,其中标签之间的内容字体大小与x有关(x=1,2,3,4,5,6,x越小,字体越大),这 种标签使用的场合很多,不仅仅是WEB页面中一些需要提取的信息的小标题采用了这种标签,某些“特别推荐”、“用户评论”等标题或者一些图片格式的标题也会使用这种标签; 
b2、<p></p>标签之间的内容,此部分内容为WEB页面显示的主要内容,而<p></p>标签一般嵌套在<div></div>标签之中,该WEB页面显示的主要内容的小标题有时存在于<p></p>标签中的<strong></strong>标签之间; 
b3、<b></b>标签之间的内容,此部分也可关系到WEB页面中的内容; 
需要说明的是,<body></body>标签可存在标签嵌套使用的情况,甚至有多层嵌套的情况,因此,对于从一组标签中提取的内容,还需要多次判断是否在该标签之间的内容中还嵌套有别的标签,若存在其他标签,则去除这些标签,保证最后提取的标签内容中不存在HTML标签; 
另外,在对<head></head>标签之间的内容进行提取的同时,也可以提取在<head></head>标签之间的内容中<meta http-equiv=”Content-Type”content=”text/html;charset=gb2312”/>标签内容,该标签的charset属性指定了页面的编码方式,提取的<meta http-equiv=”Content-Type”content=”text/html;charset=gb2312”/>标签内容可用于在下面描述的解码之中(可参照所述编码方式解码),WEB页面中比较常见的中文编码方式有:GB2312、UTF-8、ISO-8859三种编码方式,但不仅限于此; 
解码单元623,用于对提取单元622提取的WEB页面标签内容/全部闭合标签内容进行解码处理,得到WEB页面的关键文本,其中,解码处理可参照所述<meta http-equiv=”Content-Type”content=”text/html;charset=gb2312”/>标签内容中charset属性指示的编码方式进行解码,也可以通过从多种解码方式中选择一个适配的解码方式进行解码; 
分词处理单元63,用于对所述WEB页面的关键文本进行分词操作,得到所述关键文本的词条,这部分流程可用任何现有技术的分词手段来实现; 
存储单元65,用于存储预定义词条集合,该预定义词条集合形成预定义词库,这里及下文所提到的预定义词库、子词库、预定义词条、页面类别等可根据上述方法流程中描述的内容进行说明,此处不再赘述; 
类别确定单元641,用于根据预定义词库中对页面类别具有贡献作用的预定义词条的贡献度量标准,以及所述关键文本的词条与所述预定义词条的匹配关 系,确定所述WEB页面的页面类别,在具体实现时,所述贡献度量标准可以是权重值标准(为每个预定义词条赋予权重值),该类别确定单元641可包括: 
获得单元,获得每一个子词库中与所述关键文本的词条匹配的预定义词条及其对应的权重值,具体地,匹配可以是所述分词处理所得词条与所述预定义词条相同,或所述分词处理所得词条与所述预定义词条相似度超过某个阈值; 
统计单元,根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准,计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和; 
确定单元,确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别; 
关键词确定单元642,将所述确定的WEB页面的页面类别下的、与所述预定义词库中预定义词条匹配的所述关键文本的词条作为所述WEB页面的关键词,在具体实现时,当确定了WEB页面类别后,所述关键文本的词条为该WEB页面类别下属的预定义词条,则以该预定义词条作为WEB页面的关键词。 
作为一种实施方式,所述统计单元中可以包括有: 
比例系数提供单元,提供每一子词库中与所述关键文本的词条匹配的预定义词条在所述WEB页面的位置而设置的比例系数,所述统计单元根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准和该比例系数计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和,这里则表明,还可以考虑预定义词条在页面中的位置来得到所述权重值,从而得到WEB页面类别,具体可参照上述方法流程中的说明,此处不再赘述。 
实施如图6所示的本发明的页面关键词获取装置的第二实施例,通过导入单元61获取WEB页面,并由判断单元621判断所述WEB页面是否为HTML页面进行相应标签内容或闭合标签内容的提取,然后解码单元623对提取的WEB页面标签内容/全部闭合标签内容进行解码处理,得到关键文本,分词处理单元63对获取WEB页面中的关键文本进行分词处理,得到关键文本的词条,类别确定单元641根据预定义词库中每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别,关键词确定单元642将所述WEB页面的页面类别对应的子词库 中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词,从而全方位考虑WEB页面的主要内容,提高获取WEB页面关键词的准确度,由于考虑到WEB页面的页面类别,因此可更加准确的获取WEB页面的关键词。 
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Radom Access Memory,RAM)等。 
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。 

Claims (6)

1.一种获取页面关键词的方法,其特征在于,包括:
判断WEB页面是否为超文本标记语言页面,
若是,则提取所述WEB页面标签内容或所述WEB页面闭合标签内容,否则提取所述WEB页面闭合标签内容;
对所述提取的内容进行解码,得到所述WEB页面中的关键文本;
对所述关键文本进行分词处理,得到所述关键文本的词条;
将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。
2.如权利要求1所述的获取页面关键词的方法,其特征在于,所述预定义词库包括若干子词库,每一子词库中的预定义词条与一页面类别对应且分配有指示对页面类别贡献作用的贡献度量标准,所述将预定义词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词步骤包括:
根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别;
将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。
3.如权利要求2所述的获取页面关键词的方法,其特征在于,所述贡献度量标准为权重值标准,所述根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别步骤包括:
获得每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准;
根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的权重值标准,计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和;
确定所述权重值之和最大的子词库所对应的页面类别为所述WEB页面的页面类别。
4.如权利要求3所述的获取页面关键词的方法,其特征在于,还根据每一子词库中与所述关键文本的词条匹配的预定义词条在所述WEB页面的位置而设置的比例系数,计算该子词库中与所述关键文本的词条匹配的预定义词条的权重值之和。
5.一种页面信息处理装置,其特征在于,包括:
存储单元,存储预定义词条集合,该预定义词条集合形成预定义词库;
获取单元,获取WEB页面中的关键文本;
分词处理单元,对所述关键文本进行分词处理,得到所述关键文本的词条;
确定单元,将与所述预定义词库中预定义词条匹配的所述关键文本的词条确定为所述WEB页面的关键词;
所述获取单元包括:
判断单元,判断所述WEB页面是否为超文本标记语言页面;
提取单元,当判断单元判断得到所述WEB页面为超文本标记语言页面时,提取所述WEB页面标签内容或所述WEB页面闭合标签内容;当判断单元判断得到所述WEB页面不为超文本标记语言页面时,提取所述WEB页面闭合标签内容;
解码单元,对所述提取的内容进行解码,得到所述关键文本。
6.如权利要求5所述的页面信息处理装置,其特征在于,所述预定义词库包括若干子词库,每一子词库中的预定义词条与一页面类别对应且分配有指示对页面类别贡献作用的贡献度量标准,所述确定单元包括:
类别确定单元,根据每一子词库中与所述关键文本的词条匹配的预定义词条及其对页面类别具有贡献作用的贡献度量标准确定所述WEB页面的页面类别;
关键词确定单元,将所述WEB页面的页面类别对应的子词库中与所述关键文本的词条匹配的预定义词条确定为所述WEB页面的关键词。
CN200810025660XA 2008-01-07 2008-01-07 获取页面关键词的方法及页面信息处理装置 Expired - Fee Related CN101216842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810025660XA CN101216842B (zh) 2008-01-07 2008-01-07 获取页面关键词的方法及页面信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810025660XA CN101216842B (zh) 2008-01-07 2008-01-07 获取页面关键词的方法及页面信息处理装置

Publications (2)

Publication Number Publication Date
CN101216842A CN101216842A (zh) 2008-07-09
CN101216842B true CN101216842B (zh) 2011-05-18

Family

ID=39623274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810025660XA Expired - Fee Related CN101216842B (zh) 2008-01-07 2008-01-07 获取页面关键词的方法及页面信息处理装置

Country Status (1)

Country Link
CN (1) CN101216842B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023998B (zh) * 2009-09-21 2015-05-20 创新科技有限公司 用于处理网页以便在手持设备上显示的方法和装置
CN102446174B (zh) * 2010-10-09 2015-11-25 百度在线网络技术(北京)有限公司 一种在网络设备中用于确定关键子词权重的方法和设备
CN102880606B (zh) * 2011-07-11 2017-03-15 百度在线网络技术(北京)有限公司 一种计算机实现的用于优化标记语言文本的方法与设备
CN102420851B (zh) * 2011-11-10 2015-05-06 百度在线网络技术(北京)有限公司 Http服务监控方法及系统
CN102521263B (zh) * 2011-11-21 2016-03-30 北京百度网讯科技有限公司 主题词条获取方法及其装置
CN103455524B (zh) * 2012-06-05 2021-06-22 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置
CN103853787B (zh) * 2012-12-06 2017-06-16 北大方正集团有限公司 一种追踪相似稿件和图片的方法及系统
CN104008101B (zh) * 2013-02-21 2019-02-12 北京京东尚科信息技术有限公司 货物分类检验方法及检验装置
CN104166648A (zh) * 2013-05-16 2014-11-26 百度在线网络技术(北京)有限公司 基于标签的推荐数据挖掘方法及装置
CN105095288B (zh) * 2014-05-14 2020-02-07 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN106156100B (zh) * 2015-04-02 2019-09-03 阿里巴巴集团控股有限公司 一种网页标题处理方法和装置
CN104991920A (zh) * 2015-06-25 2015-10-21 走遍世界(北京)信息技术有限公司 标签的生成方法及装置
CN106610933A (zh) * 2015-10-27 2017-05-03 北京国双科技有限公司 关键词标签的配置方法及装置
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置
CN105868280A (zh) * 2016-03-23 2016-08-17 沈文策 一种互联网信息数据处理系统及方法
CN109522531B (zh) * 2017-09-18 2023-04-07 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN109918662B (zh) * 2019-03-04 2021-03-16 腾讯科技(深圳)有限公司 一种电子资源的标签确定方法、装置和可读介质
CN109992717A (zh) * 2019-03-29 2019-07-09 珠海豹好玩科技有限公司 信息推荐方法、装置、终端及计算机可读存储介质
CN110263175B (zh) * 2019-06-27 2022-05-03 北京金山安全软件有限公司 一种信息归类的方法、装置及电子设备
CN112256988A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测跨境购房网站的方法及装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互系统
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932817A (zh) * 2006-09-15 2007-03-21 陈远 通用互联网内容关键词交互系统
CN101021866A (zh) * 2007-03-13 2007-08-22 白云 电子文档与某一领域相关程度的判别方法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
同上.

Also Published As

Publication number Publication date
CN101216842A (zh) 2008-07-09

Similar Documents

Publication Publication Date Title
CN101216842B (zh) 获取页面关键词的方法及页面信息处理装置
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US8554800B2 (en) System, methods and applications for structured document indexing
CA2832909C (en) System and method for matching comment data to text data
US20030101415A1 (en) Method of summarizing markup-type documents automatically
US20030018668A1 (en) Enhanced transcoding of structured documents through use of annotation techniques
CN108090104B (zh) 用于获取网页信息的方法和装置
WO2001057719A1 (en) Methods and apparatus for analyzing, processing and formatting network information such as web-pages
EP1891557A2 (en) Learning facts from semi-structured text
CN101246494A (zh) 一种互联网网页转换方法、系统及设备
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
US20050138542A1 (en) Efficient small footprint XML parsing
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN106933380B (zh) 一种词库的更新方法和装置
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
González-Castaño et al. A new transcoding technique for PDA browsers, based on content hierarchy
CN111259143A (zh) 一种基于lda模型的新闻自动标签方法
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
Changuel et al. A general learning method for automatic title extraction from html pages
CN104504070B (zh) 一种搜索的方法和装置
CN113536811A (zh) 富文本文档的翻译方法及装置
Gottron Content extraction-identifying the main content in HTML documents.
US20240061992A1 (en) Generating tagged content from text of an electronic document
CN106897271B (zh) 新闻正文噪音去除方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: CHENGDU CITY HUAWEI SAIMENTEKE SCIENCE CO., LTD.

Free format text: FORMER OWNER: HUAWEI TECHNOLOGY CO., LTD.

Effective date: 20090424

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090424

Address after: Qingshui River District, Chengdu high tech Zone, Sichuan Province, China: 611731

Applicant after: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

Address before: Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Province, China: 518129

Applicant before: HUAWEI TECHNOLOGIES Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110518