CN101751438A

CN101751438A - 自适应语义驱动的主题网页过滤系统

Info

Publication number: CN101751438A
Application number: CN200810240359A
Authority: CN
Inventors: 张文生; 杨彦武; 刘琰琼; 李益群; 肖宪; 梁玉旋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-12-17
Filing date: 2008-12-17
Publication date: 2010-06-23
Anticipated expiration: 2028-12-17
Also published as: CN101751438B

Abstract

本发明公开了一种自适应语义驱动的主题网页过滤系统，该系统能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树，包括爬虫、文本分类以及文本层次聚类；然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的STP值，即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用，经过多次测试选择一个过滤效果最好的阈值，对STP值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想，对系统资源利用率和网页主题相关度准确率有很大改进，并提出一种语义驱动的STP算法，改善了原来PageRank的不足，能够很好的过滤不相关网页。

Description

自适应语义驱动的主题网页过滤系统

技术领域

本发明涉及垂直搜索引擎技术领域以及网络信息过滤技术领域，尤其涉及一种自适应语义驱动的网页主题信息过滤系统，用于在网页集群中过滤掉与主题不相关的网页，为垂直搜索引擎提供搜索源集合或者过滤掉不良信息，使网络不受恶意信息的侵扰。

背景技术

随着Intemet的日益普及和迅猛发展，人们对网络的依赖程度越来越高，但Intemet的开放性、平等性、无界性等特征又导致了网络的无限制滥用，大量的垃圾及敏感信息充斥于网络，如何滤除这些垃圾及敏感信息，消除网络带来的消极及负面影响已成为Intenet信息服务须解决的关键问题之一，而解决这一问题的最有效技术手段就是进行信息过滤。

信息过滤是根据用户的信息需求，运用一定的技术方法从大量的动态网络信息流中选取相关信息或剔除不相关信息的过程。通过网络信息过滤，可以减少不必要的信息传递，节约宝贵的信道资源；还可以对网络信息的流量、流向和流速进行合理的配置，使网络更加顺畅。对于用户来说，信息过滤由于剔除了大量的不相关信息的流入，可以避免塞车现象。目前，信息过滤的作用主要体现在阻挡敏感信息进入、保护内部信息安全、改善搜索引擎过滤效率等三个方面。

面向主题的网页过滤在垂直搜索中的作用重大，其中用到了多种技术来实现过滤主题不相关网页，首先用到了爬虫技术来对网页进行下载并提取一些网页集的基本特征。网络爬虫，是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

同时利用了数据挖掘技术中的分类和聚类对网页集进行分析和挖掘，来提取网页的类别信息。分类技术是数据挖掘中很重要的一个方面，在很多领域都有应用，如银行贷款风险评估、入侵检测、搜索引擎等领域都有发挥着重要作用。分类首先需要对一个样本集进行特征提取，训练，后得到训练模型也就是分类器，然后针对新的样本，提取其特征用训练好的分类器进行判别类别。聚类技术也是数据挖掘所研究的一个重要课题，聚类分析就是按照一定的规律和要求对事物进行区分和分类的过程，在这一过程中没有任何关于类分的先验知识，没有指导，仅靠事物间的相似性作为类属划分的准则。

在对网页主题相关度的评估中，利用了语义网技术来设计一种相关度算法。语义网(Semantic Web)是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。语义需要理解文本的意思和结构，而与显示方式无关。语义网和人工智能(AI)所用的工具有一些相同(比如本体、推理、逻辑等)，但它们的目标是完全不同的。实际上，语义网的目标是更为适度的：语义网并不是要构建一个通用的、综合性的、基于Internet的智能系统，而是要实现Web上数据集间的互操作(无论数据是结构化、非结构化还是半结构化的)——这一目标更具实践性，更为适度。

在对网页重要性的评估中，利用网页排名(PageRank)技术，PageRank技术是Google用于评测一个网页“重要性”的一种方法。PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量，而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样，PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外，PageRank还会评估每个投票网页的重要性，因为某些网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。重要网页获得的PageRank较高，从而显示在搜索结果的顶部。

发明内容

(一)要解决的技术问题

本发明的主要目的是提供一种能最大化利用系统资源、主题相关检测准确、对不同类型、规模的网页集过滤效果鲁棒、耗时少的自适应语义驱动的主题网页过滤系统，以实现对网页重要性以及和给定主题相关度的评测，并过滤掉不重要及相关度低的网页。

(二)技术方案

为达到上述目的，本发明提供了一种自适应语义驱动的主题网页过滤系统，该方法主要技术内容手段包括：

1)爬虫模块，用于得到原始网页集合，抽取网页分类语义树，并得到Web链接的一些知识；包括智能判断模块、语义树抽取模块、链接知识抽取模块。智能判断模块根据网页源的入口种子网页及其最近几层子孙网页，同时利用URL归属关系进行智能的判断是否网页具有类别信息；语义树抽取模块主要的工作是根据各个网页的链接嵌套关系，通过锚文本以及网页本身内容上的分类信息来抽取得到语义树；链接知识抽取模块主要工作是根据网页之间链接接关系，抽取网页之间的链接矩阵以及URL归属关系。

2)分类模块，用于对已有语义树框架的网页集，根据网页内容进行文本分类，并将网页挂靠到语义树上；

3)聚类模块，用于对没有分类信息的网页集，根据网页内容进行文本层次聚类，并将聚类得到的结果形成语义树；

4)网页分析处理模块，用于对网页进行模块划分、信息抽取、分词并提取特征；包括内容结构划分模块、分词模块、特征向量构建模块。内容结构划分模块采用VIPS算法，将网页分成了标题、正文、广告、外部链接和图片视频等各个部分；分词模块针对中文和英文分别采取了ICTCLAS算法和自主设计的英文分词算法将网页的文字内容分成了单独的词语，并用TFIDF方案对词频进行加权。特征向量构建模块考量不同内容块的重要性并在词频权值基础上赋予不同的权值，选取归一化后大于测试所得阈值的权值所对应的词语为特征向量。

5)STP值计算模块，STP值计算模块采用PageRank算法，同时利用语义网技术进行主题相关度加强。

6)网页过滤模块，对于不同应用，经过多次测试选择一个过滤效果最好的阈值，对STP值低于该阈值的网页进行舍弃，从而过滤主题不相关的网页。

(三)有益效果

从上述技术方案可以看出，本发明具有以下有益效果：

1、本发明提供的这种自适应语义驱动的主题网页过滤系统，是一种能最大利用系统资源、主题相关检测准确、对不同类型、规模的网页集过滤效果鲁棒、耗时少的系统，可以实现对网页重要性以及和给定主题相关度的评测，并过滤掉不重要及相关度低的网页。

2、本发明采用的爬虫模块包含了智能判别模块，对有类别信息的网页和没有类别信息的网页分别以适合各自的方法进行处理，构建语义树，而不都是按最复杂情形来对待，这样可以为系统的运行节省很多时间和资源。

3、本发明在处理没有类别信息的网页时，采用了BIRCH层次聚类方法来构建语义树，为杂乱无章的网页构建有语义归属及上下级的结构，方便了STP值的计算及主题网页的过滤。

4、本发明在处理部分网页有完整语义树信息，而网页集中其他网页无类别信息的网页集时，采用了SVM分类算法来对那些杂乱无章的网页进行分类挂靠到语义树下，方便了STP值的计算及主题网页的过滤。

5、本发明在网页分析处理模块中，构建网页特征向量时，首先采用VIPS算法对网页分内容模块加不同的权，使的得出的特征向量更能准确的代表网页。

6、本发明提出了一种全新的语义树相关度计算方法来计算网页之间的以及网页和主题的相关度，相对于信息检索领域的向量模型、概率模型等计算相关度的经典算法更加快速，更加准确。

7、本发明提出了STP值计算方法，加强了传统PageRank技术对网页重要性的评测，使得网页的主题相关度也成为过滤网页的一个重要指标。

附图说明

图1是本发明提供的自适应语义驱动的主题网页过滤系统的总体结构示意图；

图2是本发明提供的自适应语义驱动的主题网页过滤系统中爬虫模块的结构示意图；

图3是本发明提供的自适应语义驱动的主题网页过滤系统中网页分析处理模块的结构示意图；

图4是本发明提供的自适应语义驱动的主题网页过滤系统中STP值计算模块的工作原理意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，图1是本发明提供的自适应语义驱动的主题网页过滤系统的总体结构示意图。该系统包括：爬虫模块、网页分析处理模块、分类模块、聚类模块、STP值计算模块以及网页过滤模块。其中，爬虫模块直接对网页源集合进行爬取，其主要目的是为后面的模块提供源数据和语义树结构以及在计算中用到的链接知识如链接矩阵等，同时其中设立的智能判别模块能对下载的网页集判断其是否有分类信息，以便挑选合适的后续模块及算法进行处理；分类模块是对有分类树信息同时仍有大量未知类别信息的网页的这个分支进行处理，利用SVM算法对未知类别的信息分类确定其类别，挂靠到语义树上；聚类模块是对没有类别信息的网页这个分支进行处理，利用Birch层次聚类算法将网页聚类成为语义树；网页分析处理模块的主要工作是对在语义树下挂靠的网页进行特征提取，构建特征向量用于分类模块、聚类模块和语义树相似度计算中，首先根据VIPS算法将内容分块，然后对各块内容分词处理，并用TFIDF方案对词频进行加权。依不同内容块的重要性并在词频权值基础上赋予不同的权值，选取归一化后大于测试所得阈值的权值所对应的词语为特征向量；STP值计算模块是利用网页分析处理模块得到的特征向量，同时利用爬虫所建立的语义树结构和链接矩阵，按照自主提出的STP算法来最终得到网页的STP值；过滤模块是依据网页的STP值，与设定的阈值进行比较对网页进行取舍。

如图2所示，图2是本发明提供的自适应语义驱动的主题网页过滤系统中爬虫模块的结构示意图，该模块包括：智能判别模块、语义树抽取模块、网页下载模块及链接知识抽取模块。其中，网页下载模块先下载种子网页的源文件，从中查找其下一层的链接URL利用多线程技术迭代的下载这些网页的源码。语义树抽取模块利用锚文本的分布以及网页本身所具备的分类统计信息来根据超链接嵌套关系抽取分类语义树；链接知识抽取模块对网页之间URL的超链接的层次关系进行抽取处理，计算得到链接矩阵，同时通过URL聚类算法，识别父子URL类别归属信息。智能判别模块能对下载的网页集判断其是否有分类信息，以便挑选合适的后续模块及算法进行处理。智能判别信息通过上述模块得到的信息智能的判别爬虫爬取的网页是否具有语义分类树信息，以进入下面的分支。

如图3所示，图3是本发明提供的自适应语义驱动的主题网页过滤系统中网页分析处理模块的结构示意图，该模块包括内容结构划分模块、分词模块和特征向量构建模块。其中，内容结构划分模块利用VIPS算法将网页原文分为标题、正文、广告、外部链接和图片视频等各个语义块。分词模块利用ICTCLAS算法和自主设计的英文分词算法将上一模块所分的各个部分分词成为单独的词语，并用TFIDF方案对词频进行加权；特征向量构建模块对内容结构划分模块划分出来的不同语义块的单词赋予不同的权值，标题的单词权重较大，而广告、外部链接等的权重设置为0，同时排除停用词，对单词词频和权重的乘积进行归一化后通过测试选取一个阈值以选择最能代表网页的内容的单词序列以及其权重值作为网页的特征向量。

如图4所示，图4是本发明提供的自适应语义驱动的主题网页过滤系统中STP值计算模块的工作原理图。在这个模块中，我们提出了STP算法，是根据语义树即语义分类树来进行计算主题相关度，得到语义矩阵，同时利用语义矩阵加强PageRank网页重要性算法而提出的网页综合评估算法。其中，分类树是一个由类别节点组成的层次结构，我们所采用的基于层次的相似度衡量方法，在考虑两个节点之间的关系时，既考虑了他们之间的不同和相同之处，还考虑了它们的上下位关系。这棵分类树由N个类别和L个连接边组成。类别之间有不同的连接关系，比如继承关系和部分-整体关系。比如，H是一棵分类树，一个类别的深度就是指从树的根部到这个类别的连接的边的数量。两个类别之间的关系，既跟在分类树中连接两个类别的连接的边的数量有联系，也跟他们共同和不同的父类别组成的集合的数量有联系。在类层次结构中，基于类别的深度和密度，类别之间的连接和类别都被赋予了不同的权值来表示他们的重要性。两个类别之间的主题相关度计算公式为：

Sim (C 1, C 2) = \frac{β | \sup (C 1) \cap \sup (C 2) |}{| \sup (C 1) \cup \sup (C 2) | + α | \sup (C 1 / C 2) | - (1 - α) | \sup (C 2 / C 1) |}

其中，sup(C1)表示C1的超类，sup(C1/C2)表示属于C1的超类但不属于C2的超类的集合。

式中θ是一个在[0，1]之间的参数，其权值由类别C1和C2之间的距离和他们的最近共同祖先，以及C1和C2的兄弟数目决定。

α (C 1, C 2)

= \frac{dis (C 1, LCA (C 1, C 2)) \times sib (C 1)}{dis (C 1, LCA (C 1, C 2)) \times sib (C 1) + dis (C 2, LCA (C 1, C 2)) \times sib (C 2)}

其中，LCA(C1，C2)表示C1和C2的最近共同祖先，dis(C1，C2)表示类别C1和C2之间连接的边的数量，sib(C1)表示C1的最近祖先的兄弟的数量。式中β为一个深度参数，

相似度函数产生的值在[0，1]，当两个类别是同类时，其值为最大值1，即是C1＝C2。

如图4所示，在计算得到网页的主题相关度后，可以得到一个所有网页之间的语义相关度矩阵，在PageRank算法中，对链接矩阵加权相关度矩阵，最终得到所有网页的STP值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自适应语义驱动的主题网页过滤系统，其特征在于，该系统包括：

一爬虫模块，用于得到原始网页集合，抽取网页分类语义树，并得到Web链接的一些知识；

一分类模块，用于根据内容对网页进行分类，并将网页挂靠到语义树上；

一聚类模块，用于根据内容对网页进行聚类，并将聚类得到的结果形成语义树；

一网页分析处理模块，用于对网页进行模块划分、信息抽取、分词并提取特征；

一语义驱动的主题网页STP值计算模块，用于通过语义树和链接知识计算STP值；

一网页过滤模块，用于根据设定的阈值过滤掉与主题不相关的网页。

2.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该爬虫模块包含：

一智能判断模块，用于判断网页是否具有分类信息；

一语义树抽取模块，用于对拥有分类信息的网页集进行语义树抽取；

一链接知识抽取模块，用于抽取得到链接矩阵及URL归属信息。

3.根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该智能判断模块根据网页源的入口种子网页以及其最近几层子孙网页，同时利用URL归属关系判断网页是否具有类别信息。

4.根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该语义树抽取模块用于根据网页本身的分类信息来提取网页集合的分类语义树。

5.根据权利要求2所述的自适应语义驱动的主题网页过滤系统，其特征在于，该链接知识抽取模块用于根据网页之间链接接关系，抽取网页之间的链接矩阵以及URL归属关系。

6.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该分类模块通过已有语义树的框架，分类网页并将其挂靠到语义树上。

7.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该聚类模块对没有类别信息的网页进行聚类而得到语义树。

8.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该网页分析处理模块包括：

一内容结构划分模块，用于将网页根据内容划分为各个功能块；

一分词模块，用于将网页的内容分词；

一特征向量构建模块，用于提取网页一系列特征，构建特征向量。

9.根据权利要求8所述的自适应语义驱动的主题网页过滤系统，其特征在于，该内容结构划分模块采用VIPS算法，将网页分成了标题、正文、广告、外部链接和图片视频。

10.根据权利要求8所述的自适应语义驱动的主题网页过滤系统，其特征在于，该分词模块针对中文和英文分别采取了ICTCLAS算法和自主设计的英文分词算法，将网页的文字内容分成了单独的词语，同时利用TFIDF方案对语频进行加权。

11.根据权利要求8所述的自适应语义驱动的主题网页过滤系统，其特征在于，该特征向量构建模块考量不同内容块的重要性，并在词频权值基础上赋予不同的权值，选取归一化后权值大于测试得到阈值的词语为特征向量。

12.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该STP值计算模块采用传统PageRank算法，同时利用语义网技术进行主题相关度加强。

13.根据权利要求1所述的自适应语义驱动的主题网页过滤系统，其特征在于，该网页过滤模块，通过测试所得阈值过滤主题不相关的网页。