CN103309862A

CN103309862A - 一种网页类型识别方法和系统

Info

Publication number: CN103309862A
Application number: CN2012100580243A
Authority: CN
Inventors: 蔡兵; 彭默; 徐羽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-03-07
Filing date: 2012-03-07
Publication date: 2013-09-18
Anticipated expiration: 2032-03-07
Also published as: CN103309862B

Abstract

本发明实施方式提出一种网页类型识别方法和系统。方法包括：根据网页的文本内容计算该网页的内容类型倾向值；提取该网页的网页结构特征；利用该内容类型倾向值和该网页结构特征识别网页的类型。应用本发明实施方式之后，综合考虑了文本内容维度和网页结构维度来对网页进行分类，因此分类的准确度更高。而且，通过数据过滤，可有效去除网页中与识别类型无关的标签、链接、广告等噪音，使得分类效果更佳。

Description

一种网页类型识别方法和系统

技术领域

本发明实施方式涉及互联网应用技术领域，更具体地，涉及一种网页类型识别方法和系统。

背景技术

随着计算机技术和网络技术的飞速发展，互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。据中国互联网络信息中心公布的最新互联网发展调查报告显示，中国互联网网民数达到5.13亿，2010年中国网页有600亿，而全球网页则至少有1万亿。

互联网上众多网页包含的信息纷繁复杂，如何将这些网页准确归类以便于后续工作是一个严峻的挑战。比如：在网页广告方面，展示与网页类型相关的广告将会大大提升用户点击率。另外，近两年随着移动互联网的发展，移动阅读的需求呈井喷状，新闻无疑是用户最为关注的类型之一，如果能识别出新闻网页，也可以给移动阅读应用提供更干净的数据，同时还可以给页面抽取提供相应帮助。

目前，在现有技术中通常采用朴素贝叶斯的文本分类方法来识别文本内容，主要包括：标注训练样本，利用文本词作为特征，通过统计的方法来估计文本的类别，等等。

首先，目前现有技术中主要是按照网页内容进行分类，而仅仅根据网页内容进行分类的话，分类准确度并不高。其次，与互联网上的网页相比，文本分类的数据源由于过于简单而不实用。

发明内容

本发明实施方式提出一种网页类型识别方法，以提高网页分类准确度。

本发明实施方式还提出一种网页类型识别系统，以提高网页分类准确度。

本发明实施方式的具体方案如下：

一种网页类型识别方法，该方法包括：

根据网页的文本内容计算该网页的内容类型倾向值；

提取该网页的网页结构特征；

利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。

一种网页类型识别系统，该系统包括内容类型倾向值计算单元、结构特征提取单元和类型识别单元，其中：

内容类型倾向值计算单元，用于根据网页的文本内容计算该网页的内容类型倾向值；

结构特征提取单元，用于提取该网页的网页结构特征；

类型识别单元，用于利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。

从上述技术方案可以看出，在本发明实施方式中，根据网页的文本内容计算该网页的内容类型倾向值；提取该网页的网页结构特征；再利用内容类型倾向值和网页结构特征识别所述网页的类型。由此可见，应用本发明实施方式之后，首先针对网页进行两个维度的分类：一个是基于文本内容的维度，另一个是基于网页结构的维度；最后根据这两个维度的分类结果，组合确定出网页的类别。因此本发明实施方式不仅考虑了网页的文本内容维度，还考虑了网页结构维度来对网页进行分类，综合考虑了这两个维度来对网页进行分类，因此分类的准确度更高。

附图说明

图1为根据本发明实施方式的网页类型识别方法流程图；

图2为根据本发明实施方式的网页类型识别方法示范性流程图；

图3为根据本发明实施方式的网页类型识别系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

在本发明实施方式中，针对网页进行两个维度的分类。一个是基于文本内容的维度，另一个是基于网页结构的维度。然后，根据这两个维度的分类结果，组合确定出网页的类别。

图1为根据本发明实施方式的网页类型识别方法流程图。

如图1所示，该方法包括：

步骤101：根据网页的文本内容计算该网页的内容类型倾向值。

在这里，涉及基于文本内容的维度对网页类型进行初步分类。根据文本内容分类主要涉及利用统计机器学习分类算法，通过训练样本和特征来计算出某个页面为特定类型(比如新闻类型)的概率。

具体地，可以首先利用词典对网页的文本内容进行分词，并计算分词特征的权重以形成特征向量，然后再根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值，其中计算出的内容类型倾向值可以作为对应于该种网页内容分类器所代表网页类型的概率。

除了正文信息之外，网页页面通常含有很多其它的无关内容。通过实验发现，仅利用网页中的所有句子作为分类数据源，可有效去除标签、链接、广告等噪音，使得分类效果更佳。因此，在一个实施方式中，在利用词典对网页的文本内容进行分词之前，可以从文本内容中滤去整句长度小于预定值的句子，以增强分类效果。

而且，为了减少人工标数据带来的成本，可以尝试利用各种网站(比如，一些新闻网站)作为入口去抓取数据，并通过简单人工审核，共得到大量的(比如数千条)新闻数据，然后利用词作为分类特征，并结合特征选择等算法进行降维。

在另一个实施方式中，分类器可以利用逻辑回归(Logistic Regression)分类算法计算特征向量的内容类型倾向值。逻辑回归是一种线性分类器，计算速度很快，比较适合实时分类的应用场景。

在一个实施方式中，具体可以利用词频-反文档频率(TF-IDF)加权算法来计算分词特征的权重。

TF-IDF加权算法是一种用于资讯检索与资讯探勘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。在TF-IDF加权算法中，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

步骤102：提取该网页的网页结构特征。

在这里，涉及基于文本内容的维度对网页类型进行初步分类。具体地，可以先对网页建文档对象模型(DOM)树，然后通过遍历DOM树提取一些网页结构特征，以作为结构分类的依据。

根据W3C DOM规范，DOM是一种与浏览器、平台、语言无关的接口，使得用户可以访问页面其他的标准组件。DOM解决了网景(Netscape)的Javascript和微软(Microsoft)的Jscript之间的冲突，给予web设计师和开发者一个标准的方法，以便于访问站点中的数据、脚本和表现层对像。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而DOM被认为是基于树或基于对象的。

比如：遍历DOM树而提取的网页结构特征可以包括：

1)URL特征。比如URL末尾为index.html等，则基本上可以判定为索引页。如果URL含有“content”或日期，则为内容页的可能性较大。

2)文字链接比。计算网页里面的文本(Pure Text)长度和链接文本(Anchor)长度的比值。

3)最大文本长度。计算网页里最长的一段文本长度。作为内容页的一个长度限界值。

4)最长连续文本比率。即集中的文本长度占网页总文本长度的比值。一般来讲，内容页的正文信息主要集中在一块，而比如专题页等，虽然其文本长度长，但分布相对分散。

5)二级导航信息；

6)网页标题，等等。

以上虽然详细罗列了一些具体的网页结构特征，本领域技术人员可以意识到，实际上所采用的网页结构特征并不局限于此，而且本发明实施方式的保护范围也不局限于此。

步骤103：利用内容类型倾向值和网页结构特征识别网页的类型。

在这里，基于步骤101计算出的内容类型倾向值和步骤102提取出的网页结构特征，可以通过各种预先设置的许多判断准则来确定各特征的阈值以及组合策略，最终得出该页面的类型。

比如：当步骤101中根据网页的文本内容计算该网页的新闻类型倾向值时，则判断准则具体可以包括：

1)当新闻类型倾向值大于预先设置的新闻类型第一阈值时，直接判定网页的类型为新闻。

例如，假设新闻类型倾向值的取值范围为0-100，计算出的新闻类型倾向值为90，而新闻类型第一阈值为85。此时，由于计算出的新闻类型倾向值大于新闻类型第一阈值，因此可以认为该网页与新闻高度相关，此时可以不考虑网页结构特征而直接判定该网页的类型为新闻。

2)当新闻类型倾向值大于预先设置的新闻类型第二阈值，且网页结构特征中包含新闻类信息时，判定所述网页的类型为新闻，其中新闻类型第一阈值大于新闻类型第二阈值。

例如，假设新闻类型倾向值的取值范围为0-100，计算出的新闻类型倾向值为70，且新闻类型第一阈值为85，新闻类型第二阈值为60。此时，由于计算出的新闻类型倾向值小于新闻类型第一阈值，因此不能直接认定该网页为新闻类型，但是由于计算出的新闻类型倾向值大于新闻类型第二阈值，则可以认为该网页与新闻类型相关，因此需要结合计算出的新闻类型倾向值和网页结构特征来综合判定该网页是否为新闻类型。此时，当网页结构特征中同时还包含新闻类信息时(比如网页标题中含有“新闻”)，则可以判定该网页的类型为新闻。

当计算出的新闻类型倾向值小于新闻类型第二阈值，则可以直接认定该网页与新闻类型不相关。

在本发明实施方式中，针对新闻类型的网页，最终的识别准确率可以达到95％以上，而召回率在80％以上。

以上虽然以新闻类型为实例对本发明实施方式进行了详细描述，本领域技术人员可以意识到，基于上述详细教导，本发明实施方式实际上可以适用的网页类型并不仅仅包括新闻类型，而是可以包括知识问答类型、论坛讨论区类型或在线交易网页类型等多种类型。

在上述方法流程中，针对步骤101和步骤102的执行顺序要求并无严格要求。实际上，步骤101和步骤102可以同时进行，也可以先执行步骤101，再执行步骤102，或者执行完步骤102后再执行步骤101。

而且，基于上述流程识别出网页类型之后，可以结合识别出的网页类型执行许多种应用。

比如：可以基于所识别的网页类型，计算该网页的广告相关度；也可以基于所识别的网页类型，针对该网页执行个性化新闻推荐；还可以基于所识别的网页类型，从该网页中抽取网页结构化数据；或基于所识别的网页类型，针对该网页执行阅读类应用的数据筛选，等等。

基于上述详细分析，下面以鉴别网页是否为新闻类型为实例对本发明的示范性流程进行说明。

图2为根据本发明实施方式的网页类型识别方法示范性流程图。

如图2所示，针对网页的操作有两个分支。左边分支包括步骤201、步骤202和步骤203，右边分支包括步骤204和步骤205。两个分支汇总于步骤206。其中左边分支包括：

步骤201：执行数据过滤。为了为防止网页噪音，只提取网页里的一些长句作为文本，此处可以从文本内容中滤去整句长度小于预定值的句子，以增强分类效果。

步骤202：利用特征集合词典对文本进行分词，然后计算各个分词特征的权重(利用特征集合和诸如TF-IDF的特征权重计算方法)，形成一个特征向量。

步骤203：将特征向量作为分类器的输入，得到一个输出值(取值范围为0-100分)，即新闻内容类型倾向值，用于表示其内容为新闻的倾向程度。其中可以由训练样本和特征、由逻辑回归算法预先得到该分类器。

右边分支包括：

步骤204：建DOM树。包括：利用网页的HTML标签建立DOM树，并包含各标签属性等信息。

步骤205：基于DOM树提取结构类型特征，比如二级导航、文字链接比等。

左右分支汇总在步骤206：组合判定。利用步骤203的输出和步骤205的输出，利用预先设定策略进行最优判断是否为新闻内容页。

基于上述详细论述，本发明实施方式还提出了一种网页类型识别系统。

图3为根据本发明实施方式的网页类型识别系统结构图。

如图3所示，该系统包括：内容类型倾向值计算单元301、结构特征提取单元302和类型识别单元303。

其中：内容类型倾向值计算单元301，用于根据网页的文本内容计算该网页的内容类型倾向值；

结构特征提取单元302，用于提取该网页的网页结构特征；

类型识别单元303，用于利用所述内容类型倾向值和所述网页结构特征识别所述网页的类型。

在一个实施方式中，该系统进一步包括类型处理单元(图中没有示出)。类型处理单元，用于执行以下步骤中的至少一个：基于所识别的网页类型，计算该网页的广告相关度；基于所识别的网页类型，针对该网页执行个性化新闻推荐；基于所识别的网页类型，从该网页中抽取网页结构化数据；或基于所识别的网页类型，针对该网页执行阅读类应用的数据筛选。

具体地，内容类型倾向值计算单元301，用于利用词典对网页的文本内容进行分词，并计算分词特征的权重以形成特征向量；并根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值。

优选地，内容类型倾向值计算单元301，进一步用于在利用词典对网页的文本内容进行分词之前，从所述文本内容中滤去整句长度小于预定值的句子。

具体地，结构特征提取单元302，用于建立该网页的文档对象模型DOM树，并从所述DOM树中提取网页结构特征。

在一个实施方式中，内容类型倾向值计算单元301，用于根据网页的文本内容计算该网页的新闻类型倾向值；此时类型识别单元302用于执行以下步骤中的至少一个：当新闻类型倾向值大于预先设置的新闻类型第一阈值时，直接判定网页的类型为新闻；或当新闻类型倾向值大于预先设置的新闻类型第二阈值，且所述网页结构特征中包含新闻类信息时，判定网页的类型为新闻；其中新闻类型第一阈值大于新闻类型第二阈值。

同样地，本发明实施方式中的网页类型识别系统所适用的网页类型并不仅仅包括新闻类型，而是可以包括知识问答类型、论坛讨论区类型或在线交易网页类型，等等。

综上所述，在本发明实施方式中，根据网页的文本内容计算该网页的内容类型倾向值；提取该网页的网页结构特征；再利用内容类型倾向值和网页结构特征识别所述网页的类型。由此可见，应用本发明实施方式之后，针对网页进行两个维度的分类。一个是基于文本内容的维度，另一个是基于网页结构的维度，最后根据这两个维度的分类结果，组合确定出网页的类别。因此本发明实施方式不仅考虑了文本内容维度，还考虑了网页结构维度来对网页进行分类，通过综合考虑这两个维度来对网页进行分类，因此分类的准确度更高。

而且，在本发明实施方式中，通过数据过滤，可有效去除网页中与识别类型无关的标签、链接、广告等噪音，使得分类效果更佳。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页类型识别方法，其特征在于，该方法包括：

根据网页的文本内容计算该网页的内容类型倾向值；

提取该网页的网页结构特征；

2.根据权利要求1所述的网页类型识别方法，其特征在于，该方法进一步包括以下步骤中的至少一个：

基于所识别的网页类型，计算该网页的广告相关度；

基于所识别的网页类型，针对该网页执行个性化新闻推荐；

基于所识别的网页类型，从该网页中抽取网页结构化数据；或

基于所识别的网页类型，针对该网页执行阅读类应用的数据筛选。

3.根据权利要求1所述的网页类型识别方法，其特征在于，所述根据网页的文本内容计算该网页的内容类型倾向值具体包括：

利用词典对该网页的文本内容进行分词，并计算分词特征的权重以形成特征向量；

根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值。

4.根据权利要求3所述的网页类型识别方法，其特征在于，在利用词典对网页的文本内容进行分词之前，该方法进一步包括：从所述文本内容中滤去整句长度小于预定值的句子。

5.根据权利要求3所述的网页类型识别方法，其特征在于，所述计算分词特征的权重为：利用词频TF-反文档频率IDF加权算法计算分词特征的权重。

6.根据权利要求3所述的网页类型识别方法，其特征在于，该方法中：

所述网页内容分类器利用逻辑回归分类算法计算该特征向量的内容类型倾向值。

7.根据权利要求1所述的网页类型识别方法，其特征在于，所述提取该网页的网页结构特征具体包括：

建立该网页的文档对象模型DOM树；

从所述DOM树中提取网页结构特征。

8.根据权利要求7所述的网页类型识别方法，其特征在于，所述网页结构特征包括以下信息中的至少一个：

二级导航信息；

文字链接比；

统一资源定位符URL；

网页标题；

最大文本长度；或

最长连续文本比率。

9.根据权利要求1所述的网页类型识别方法，其特征在于，

所述根据网页的文本内容计算该网页的内容类型倾向值具体为：根据网页的文本内容计算该网页的新闻类型倾向值；其中：

利用新闻类型倾向值和网页结构特征识别网页的类型，具体包括以下步骤中的至少一个：

当所述新闻类型倾向值大于预先设置的新闻类型第一阈值时，直接判定所述网页的类型为新闻；或

当所述新闻类型倾向值大于预先设置的新闻类型第二阈值，且所述网页结构特征中包含新闻类信息时，判定所述网页的类型为新闻；

其中所述新闻类型第一阈值大于新闻类型第二阈值。

10.根据权利要求1所述的网页类型识别方法，其特征在于，所述网页的类型包括新闻类型、知识问答类型、论坛讨论区类型或在线交易网页类型。

11.一种网页类型识别系统，其特征在于，该系统包括内容类型倾向值计算单元、结构特征提取单元和类型识别单元，其中：

结构特征提取单元，用于提取该网页的网页结构特征；

12.根据权利要求11所述的网页类型识别系统，其特征在于，该系统进一步包括类型处理单元，所述类型处理单元用于执行以下步骤中的至少一个：

基于所识别的网页类型，计算该网页的广告相关度；

基于所识别的网页类型，针对该网页执行个性化新闻推荐；

13.根据权利要求11所述的网页类型识别系统，其特征在于，

所述内容类型倾向值计算单元，用于利用词典对网页的文本内容进行分词，并计算分词特征的权重以形成特征向量；并根据预先设置的网页内容分类器计算该特征向量的内容类型倾向值。

14.根据权利要求11所述的网页类型识别系统，其特征在于，

所述内容类型倾向值计算单元，进一步用于在利用词典对网页的文本内容进行分词之前，从所述文本内容中滤去整句长度小于预定值的句子。

15.根据权利要求11所述的网页类型识别系统，其特征在于，

所述结构特征提取单元，用于建立该网页的文档对象模型DOM树，并从所述DOM树中提取网页结构特征。

16.根据权利要求11所述的网页类型识别系统，其特征在于，

所述内容类型倾向值计算单元，用于根据网页的文本内容计算该网页的新闻类型倾向值；

所述类型识别单元用于执行以下步骤中的至少一个：

其中所述新闻类型第一阈值大于新闻类型第二阈值。

17.根据权利要求11所述的网页类型识别系统，其特征在于，所述网页的类型包括新闻类型、知识问答类型、论坛讨论区类型或在线交易类型。