CN101079031A

CN101079031A - 一种网页主题提取系统和方法

Info

Publication number: CN101079031A
Application number: CN 200610036003
Authority: CN
Inventors: 丁江伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2006-06-15
Filing date: 2006-06-15
Publication date: 2007-11-28

Abstract

本发明提供了一种网页主题提取系统，包括文档解析器，其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文；还包括：分词模块，其用于将所述网页正文、网页标题和网页类别信息进行分词，得到第一词汇表；义元处理模块，其用于将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，最后再对计算权重后的义元进行反向还原，得到主题词汇集合。本发明还提供了一种网页主题提取方法。本发明的有益效果在于：采用基于义元集的语义分析技术，避免了词汇稀疏的难题，对短文章的分析效果良好。充分考虑了网页的预分类、标题信息和显示属性，能够准确地提取出网页的主题。采用带权重的词汇排序表表示网页的主题，避免了信息的丢失。

Description

一种网页主题提取系统和方法

技术领域

本发明涉及本发明涉及网络通信技术，更具体地说，涉及一种网页主题提取系统和方法。

背景技术

所谓网页主题，就是网页正文所描述事件的摘要内容或者关键词列表，标示了该网页的主题内容和中心思想。现有的网页主题提取方法主要有两种。一种是是基于标题的网页主题提取技术。其方法是：采用Html(HyperText MarkupLanguage，超文件链接标记语言)文档解析器，按照html协议分析html网页，按照网页源文件的tag标识建立html语法树，以找出网页的标题、正文等的内容，然后将网页中标题<title>标签的值作为网页的主题思想。该方法是早期比较常用的网页主题提取方法。但是这种计算方法显然过于简单，实际应用中准确率、召回率均很低，并且不可避免的会出现正文部分信息丢失的情况。

另外一种是基于标题的网页主题提取技术。随着统计自然语言处理技术的发展，按照高词频关键词来标示网页主题的方法得到了广泛的应用，具体做法是先将网页源文件去tag标记，然后将文章内容进行分词统计词频，最后按词频对关键词排序，给出前N个高词频作为文章主题。但是由于表义语言发展得很充分，一义多词是普遍现象，再加上修辞法的运用使得词汇稀疏现象客观存在，特别是对于网页类的短文章，该算法整体效果不是很理想。

发明内容

本发明的目的在于针对现有技术的缺陷，提供一种网页主题提取系统和方法，其基于义元集语义分析技术、充分利用网页预分类信息、显示属性信息来增加单纯语义分析技术的准确度。

本发明的技术方案是：一种网页主题提取系统，包括文档解析器，其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文；还包括：分词模块，其用于将所述网页正文、网页标题和网页类别信息进行分词，得到第一词汇表；义元处理模块，其用于将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，最后再对计算权重后的义元进行反向还原，得到主题词汇集合。

进一步的，所述分词模块与义元处理模块之间还串联有分词后处理模块；所述分词模块还具有对切分后的词汇进行词性标注的功能；所述分词后处理模块用于根据第一词汇表中词汇的词性，剔除其中的停用词、虚词，得到第二词汇表；所述义元处理模块用于对所述第二词汇表中的词汇进行处理。

具体的，所述义元处理模块包括：义元扩展模块，其用于使用义元词典将所述第二词汇表中的词汇转换成义元，表示为第一义元表；网页主题义元计算模块，其用于对所述第一义元表中的所有义元计算权重；义元复原关键词模块，其用于对计算权重后的义元进行反向还原，得到主题词汇集合。

本发明一种网页主题提取系统还包括网页主题输出接口，其用于将所述主题词汇集合处理为适合应用层调用的词汇列表，所述词汇按照语义密度分别被赋予不同的权重。

本发明还提供了一种网页主题提取方法，包括以下步骤：

(a)，所述文档解析器从网页源文件中提取网页标题和具有不同突出显示属性的网页正文；

(b)，所述分词模块将所述网页正文、网页标题和网页类别信息进行分词，得到第一词汇表；

(c)，所述义元处理模块将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，最后再对计算权重后的义元进行反向还原，得到表征了网页主题的、具有不同权重的主题词汇集合。

其中，步骤(a)中，提取网页标题和网页正文的方法是：所述文档解析器对所述网页的源文件进行解析，得到网页的语法树，然后从语法树上获得网页标题、网页正文中具有不同突出显示属性的正文内容，并将所述正文内容按照其突出显示属性顺序记为body1 body2 body3到bodyN。

进一步的，步骤(b)中，所述分词模块还对切分后的词汇进行词性标注，得到第一词汇表。步骤(b)之后进一步包括步骤(b1)，所述分词后处理模块至少对所述第一词汇表中的词汇进行去停用词、去虚词，得到第二词汇表。

具体的，步骤(c)包括步骤：

(c1)，所述义元扩展模块按照词典与义元词典的对应关系将所述第二词汇表中的词汇转换成义元，组成第一义元表；

(c2)，所述网页主题义元计算模块对所述第一义元表中的所有义元计算权重，得到具有不同权重的第二义元表；

(c3)，所述义元复原关键词模块按照义元词典对所述第二义元表中的义元进行反向还原，得到表征了网页主题的、具有不同权重的主题词汇集合。

本发明方法中，步骤(c)之后进一步包括步骤(d)，所述网页主题输出接口将所述主题词汇集合处理为适合应用层调用的词汇列表，所述词汇按照语义密度分别被赋予不同的权重。

本发明的有益效果在于：①采用基于义元集的语义分析技术，避免了词汇稀疏的难题，对短文章的分析效果良好。②充分考虑了网页的预分类、标题信息和显示属性，能够准确地提取出网页的主题。③采用带权重的词汇排序表表示网页的主题，避免了信息的丢失。

附图说明

图1是本发明一种网页主题提取系统的结构图。

图2是本发明一种网页主题提取方法的流程图。

具体实施方式

下面根据附图和具体实施例对本发明作进一步阐述。

如图1所示，本发明一种网页主题提取系统包括文档解析器1、分词模块2、分词后处理模块3、义元处理模块和网页主题输出接口7。义元处理模块包括义元扩展模块4、网页主题义元计算模块5和义元复原关键词模块6。网站或其它应用系统中与本发明系统相关的模块可以包括：网站网页存储中心8、网站导航树生成系统9、网页类别计算模块10和网页主题应用模块11。本发明中文档解析器1采用Html(HyperText Markup Language，超文件链接标记语言)文档解析器。

其中，Html文档解析器1能够把html网页按照Html协议解析成一棵语法树，同时具有提取网页标题、提取具有不同突出显示属性的网页正文的能力。它与分词模块2相连，并与网站网页存储中心8(或其它可获得相关网页源文件的模块)相连，以获得网页源文件。网页源文件中的font tag标记指示了网页的显示属性，一般来说显示的突出程度(大字体、彩色)和内容的重要程度成正比。本发明主要提取网页正文中比较突出、容易得到用户注意的正文(如大字体、彩色，及其后的正文)，即具有突出显示属性的网页正文。

分词模块2负责按照词典将网页的正文和标题、类别切分成词汇。如将“我是一个学生”进行分词，分为“我”、“是”、“一个”、“学生”四个词。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本实施例中采用基于字符串匹配的分词方法。该方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

本发明中，分词模块2还具有对切分后的词汇进行词性标注的功能，以方便分词后处理模块3将词汇中的停用词和虚词等去掉。它与文档解析器1、词典、分词后处理模块3相连，并与网页类别计算模块10(或其它可获得相应网页分类信息的模块)相连，以获得相应网页的类别信息。

分词后处理模块3的功能包括但不限于对分词模块2的输出去停用词、去虚词等功能，剔除对主题无关的信息。

义元扩展模块4用于使用义元词典完成词汇到义元的正向转换。它与分词后处理模块3、网页主题义元计算模块5和义元词典相连。

本发明在网页主题提取过程中并不是用词汇作为计算单元的，而是使用义元词典将词汇转换成义元表示，是一种基于义元集的语义分析技术。

所谓义元(semantic primitives)就是组义语言中最基本的元素。它可以解释成：一组意思的符号，它可以无需定义地被所有人理解，此外，所有的其它词汇都能用它们来定义。自然语言处理所面临的一个重大难题是词汇稀疏，所以将关键词转换成义元词表示能很大程度上避免词汇稀疏现象，义元集是一个小规模词汇或者义元序号集合，表征了自然界的所有概念，一个义元集元素唯一的、不重复的表示一个概念。

网页主题义元计算模块5用于利用统计语言学原理对网页义元进行计算，计算的结果是对不同的义元赋予了不同的权重。计算的过程中对于网页的分类信息、标题信息和不同显示属性的正文信息分别给予不同的统计权值。

义元复原关键词模块6用于按照义元词典和网页正文对义元进行反向还原，得到一组带权重的主题词汇集合。这些主题词汇集合表征了网页的主题。它与网页主题义元计算模块5、网页主题输出接口7和义元词典相连。

网页主题输出接口7用于将上述带权重的主题词汇集合转换为标准化的、带不同权重的词汇列表，以适合应用层的调用。故，其与网页主题应用模块11相连。

本实施例中，网站网页存储中心8与网站导航树生成系统9、网页类别计算模块10相连，网站导航树生成系统9与网页类别计算模块10相连。网站网页存储中心8内存储着网站中所有网页的源文件。网站导航树生成系统9用于生成网站导航树。网页类别计算模块10用于根据网站导航树生成系统9生成的网站导航树对网页源文件进行分析，以生成网页分类信息。网页主题应用模块11用于从所述网页主题输出接口调用对应网页的主题信息，然后根据业务相关性进行计算，为用户提供个性化的服务。例如，用户正在浏览一个关于手机的网站，本发明系统对其正在浏览的网页进行主题提取，得出其正在观看诺基亚3310款手机的资料，则网页主题应用模块立刻在其业务库中搜索与诺基亚3310相关的广告信息或服务，并推送给用户。

如图2所示，本发明一种网页主题提取方法包括步骤：

S1，文档解析器1从网站网页存储中心8获取一个网页的源文件，并从网页类别计算模块10上获得将该网页的分类信息。

多数网站导航条里面都指明了某个网页的所属类别信息，即网页的分类信息。分类信息一般是从网站导航树中获得，网站导航树可以是直接由网站中取得，也可以由网站目录树生成。

S2，文档解析器1对网页的源文件进行解析，得到网页的html语法树。

S3，文档解析器1从网页语法树上面取得网页的标题信息以及正文中具有不同突出显示属性的正文内容，并按照正文中的突出显示顺序记为body1body2 body3...bodyN。

S4，分词模块2对网页的类别、标题和正文body1 body2 body3...bodyN进行分词，并对上述切分后的词汇进行词性标注，形成第一词汇表。

S5，分词后处理模块3将第一词汇表中的停用词、虚词等剔除，形成第二词汇表。

S6，义元扩展模块4按照词典和义元词典的对应关系将第二词汇表中的词汇用义元表示为第一义元表。

S7，网页主题义元计算模块5按照量空间模型的Tf-Idf(特征项赋权因子)等算法给第一义元表里的所有义元计算权重，得到带权重的第二义元表。

本实施例中，采用Tf-Idf算法对第一义元表中的义元计算权重。当然也可以采用交叉熵等算法对第一义元表中的义元计算权重。Tf-Idf算法采用倒排索引技术，其主要应用在全文检索。该算法可以保证为中等频率的义元赋以高的权重，并排除噪声词汇。在计算时候，根据先前的分类信息、标题信息、突出显示信息(font)对关键词表赋予不同权值：扩展分类信息词表为classwords，每个词权重为m；标题扩展词汇为titlewords，每个词权重为n；font字体扩展词汇为fontwords，每个词权重随字体突出程度递增。

S8，义元复原关键词模块6按照义元词典和网页正文对第二义元表中的义元进行反向还原，得到表征了网页主题的、带权重的主题词汇集合。主题词汇集合即为考虑了预分类信息，标题信息，网页突出显示信息的网页主题词表。

S9，网页主题输出接口7将所述主题词汇集合处理为适合应用层调用的词汇列表，等待网页主题应用模块11调用。其中，列表中的词汇按照语义密度分别被赋予不同的权重

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1、一种网页主题提取系统，包括文档解析器，其用于从网页源文件中提取网页标题和具有不同突出显示属性的网页正文；其特征在于，还包括：

分词模块，其用于将所述网页正文、网页标题和网页类别信息进行分词，得到第一词汇表；

义元处理模块，其用于将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，最后再对计算权重后的义元进行反向还原，得到主题词汇集合。

2、根据权利要求1所述的一种网页主题提取系统，其特征在于：所述分词模块与义元处理模块之间还串联有分词后处理模块；

所述分词模块还具有对切分后的词汇进行词性标注的功能；所述分词后处理模块用于根据第一词汇表中词汇的词性，剔除其中的停用词、虚词，得到第二词汇表；所述义元处理模块用于对所述第二词汇表中的词汇进行处理。

3、根据权利要求1或2所述的一种网页主题提取系统，其特征在于，所述义元处理模块包括：

义元扩展模块，其用于使用义元词典将所述第二词汇表中的词汇转换成义元，组成第一义元表；

网页主题义元计算模块，其用于对所述第一义元表中的所有义元计算权重；

义元复原关键词模块，其用于对计算权重后的义元进行反向还原，得到主题词汇集合。

4、根据权利要求1或2所述的一种网页主题提取系统，其特征在于：还包括网页主题输出接口，其用于将所述主题词汇集合处理为适合应用层调用的词汇列表，所述词汇按照语义密度分别被赋予不同的权重。

5、一种网页主题提取方法，其特征在于，包括以下步骤：

6、根据权利要求5所述的一种网页主题提取方法，其特征在于，步骤(a)中，提取网页标题和网页正文的方法是：

所述文档解析器对所述网页的源文件进行解析，得到网页的语法树，然后从语法树上获得网页标题、网页正文中具有不同突出显示属性的正文内容，并将所述正文内容按照其突出显示属性顺序记为body1 body2 body3到bodyN。

7、根据权利要求5所述的一种网页主题提取方法，其特征在于，进一步的：步骤(b)中，所述分词模块还对切分后的词汇进行词性标注，得到第一词汇表。

8、根据权利要求7所述的一种网页主题提取方法，其特征在于：步骤(b)之后进一步包括步骤(b1)，所述分词后处理模块至少对所述第一词汇表中的词汇进行去停用词、去虚词，得到第二词汇表。

9、根据权利要求8所述的一种网页主题提取方法，其特征在于，具体的，步骤(c)包括步骤：

(c1)，所述义元扩展模块按照词典与义元词典的对应关系将所述W1中的词汇转换成义元，组成第一义元表；

10、根据权利要求5所述的一种网页主题提取方法，其特征在于：步骤(c)之后进一步包括步骤(d)，所述网页主题输出接口将所述主题词汇集合处理为适合应用层调用的词汇列表，所述词汇按照语义密度分别被赋予不同的权重。