CN103116760A

CN103116760A - 正文缺失网页的识别方法及装置

Info

Publication number: CN103116760A
Application number: CN2013100531415A
Authority: CN
Inventors: 吴天舒
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2013-02-18
Filing date: 2013-02-18
Publication date: 2013-05-22

Abstract

本发明提供了一种正文缺失网页的识别方法及装置，该方法包括：计算同一站点下所有网页的模板指纹；根据模板指纹对所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取各类网页中各个网页中剩余的内容；根据各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。根据本发明提供的技术方案，保证了相似的页面属于同类，从而在相似页面之间进行对比，保证了多页面对比方法的有效性，能够更准确的识别正文内容。

Description

正文缺失网页的识别方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种正文缺失网页的识别方法及装置。

背景技术

随着互联网的高速发展，互联网内容的极大丰富，互联网成为人们获取信息的重要途径。然而互联网中存在一些缺少有效信息的网页，其特征为该网页包含大量广告、导航等文字，而作为网页主体的正文区域为空白或仅有几个字，这样的网页通常被称为正文缺失网页。正文缺失网页含有正文无关的广告，导航等文字，可能与用户的查询相匹配而被搜索引擎排在较靠前的位置，然而该类网页无法为用户提供有效的信息，因此，搜索引擎有必要识别正文缺失网页，降低该类网页的排名，提高用户体验。

识别正文缺失网页，首先要准确识别网页的正文内容，若正文内容过短，则识别的网页为正文缺失网页。

相关技术中，网页正文识别技术主要包括基于模板、基于统计、基于网页分块、基于语义、基于页面对比等方法。其中，基于模板的方法根据抽取规则从网页中提取正文内容，由于网页的多变性，一组规则往往只能适用于一个信息源，该方法的优点是准确率高，但需要大量的人工参与，在大规模数据的场景下不适用。基于统计的方法计算网页中各个标签的文字数、标签密度、链接密度等指标，依据这些指标判断正文节点，方法简单，通用性好，但是识别准确率有限。基于网页分块的方法首先根据table标签、DOM树、布局和样式信息将网页分块，计算各个网页块的信息熵或聚合度等指标，从而找到网页的正文块，对于规范整洁的网页效果较好，但对于布局复杂或不规则的低质量网页，识别效果不佳。基于语义的方法通常是计算标题与各个标签内容的相似度，相似度高的标签被认为是正文所在的标签，该类方法优点是识别的准确率较高，但在标题不规范或正文区域相关性较低的情况下，该方法无法识别正文。基于页面对比的方法认为同一个网站同级目录下的网页是由同一个模板生成的，每次取同级目录下的两个网页，去除两个网页内容重复的部分，即正文无关的模板内容，得到剩余的正文内容。

现有的正文识别方法主要针对包含正常正文的网页，根据正文的文字或语义计算相关的指标，在正文缺失的情况下，这些指标并不适用。

而页面对比的方法不需要计算正文的相关指标，可以用于正文缺失网页的识别，然而许多网站同级目录下的网页并非由同一模板生成，而同一模板生成的网页并不放在同一目录下，直接影响了页面对比的有效性。此外，上述方法均未考虑正文缺失网页的特点，会将一些特殊的网页，如图片页、短小表格页等识别为正文缺失网页。综上所述，基于上述识别正文缺失网页方法存在的缺陷，有必要提出一种有效的正文缺失网页的识别方法。

发明内容

本发明旨在提供一种正文缺失网页的识别方法及装置，以至少解决相关技术中，许多网站同级目录下的网页并非由同一模板生成，而同一模板生成的网页并不放在同一目录下，直接影响了页面对比的有效性的问题。

根据本发明的一个方面，提供了一种正文缺失网页的识别方法，包括：计算同一站点下所有网页的模板指纹；根据所述模板指纹对所述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取所述各类网页中各个网页中剩余的内容；根据所述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

根据本发明的另一方面，提供了一种正文缺失网页的识别装置，包括：计算模块，用于计算同一站点下所有网页的模板指纹；分类模块，用于根据所述模板指纹对所述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；比对模块，用于在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取所述各类网页中各个网页中剩余的内容；识别模块，用于根据所述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

通过本发明，进行多页面对比之前首先对同网站的所有页面计算其模板指纹，依据模板指纹进行聚类，保证了相似的页面属于同类，从而在相似页面之间进行对比，保证了多页面对比方法的有效性，能够更准确的识别正文内容。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的正文缺失网页的识别方法的流程图；

图2是根据本发明优选实施例的正文缺失网页的识别方法的流程图；

图3是根据本发明优选实施例的DOM解析需要获取的四类标签的示意图；

图4是根据本发明实施例的正文缺失网页的识别装置的结构框图；以及

图5是根据本发明优选实施例的正文缺失网页的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是根据本发明实施例的正文缺失网页的识别方法的流程图。如图1所示，该正文缺失网页的识别方法包括以下处理：

步骤S101：计算同一站点下所有网页的模板指纹；

步骤S103：根据上述模板指纹对上述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；

步骤S105：在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取上述各类网页中各个网页中剩余的内容；

步骤S107：根据上述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

相关技术中，许多网站同级目录下的网页并非由同一模板生成，而同一模板生成的网页并不放在同一目录下，直接影响了页面对比的有效性。在图1所示的方法中，进行多页面对比之前首先对同网站的所有页面计算其模板指纹，依据模板指纹进行聚类，保证了相似的页面属于同类，从而在相似页面之间进行对比，保证了多页面对比方法的有效性，能够更准确的识别正文内容。

优选地，步骤S105中，上述在分类后的各类网页中将每两个网页进行比对包括：

步骤（1）：对各类网页中网页进行分组，其中，每组至多包括预定个数的网页（例如，每组最多包括10个网页）；

步骤（2）：在各组中分别将每个网页与其他各个网页进行对比。

例如，将某一类网页中网页分为10组，每组设定最多为10个网页。第一组中有10个网页，先将第一个网页与第二个网页对比，将第一个网页中与第二个网页相同的内容都进行标识，之后再将第一个网页与第三个网页进行对比，将第一个网页中与第三个网页相同的内容都进行标识，……直至第一个网页与第一组中其他九个网页都进行完对比，最后，将第一个网页中标识的网页内容进行去除，获取上述剩余的内容。以此类推，对于第一组中的其他各个网页，也按照上述方法进行处理。同理，对于其他各组的各个网页，也按照上述方法进行处理。

具有相同模板指纹的网页的布局相似，在同一站点下布局相似的网页往往由同一模板生成，通过多个相似页面的对比，可以有效发现重复出现的与正文无关的模板内容。对同类的相似网页分组，可以有效降低计算代价，同时避免由于网页过多，有效正文内容发生重复的现象。

优选地，在各组中分别将每两个网页进行比对之前，还可以以下包括：对各组中各个网页进行解析，获取包含文字内容、图片内容、表格内容的标签。

在获取包含文字内容、图片内容、表格内容的标签之后，上述步骤（2）中，在各组中分别将每两个网页进行比对包括以下至少之一：

在上述每两个网页中，将一个网页中文字内容的标签对应的文字内容与另一个网页中文字内容的标签对应的文字内容进行比对，判断文字内容是否相同；

在上述每两个网页中，将一个网页中表格内容的标签对应的文字内容与另一个网页中表格内容的标签对应的文字内容进行比对，判断表格内容是否相同；

在上述每两个网页中，将一个网页中图片内容的标签对应的图片统一资源定位符（URL）与另一个网页中图片内容的标签对应的图片URL进行比对，判断图片内容是否相同。

优选地，在获取包含文字内容、图片内容、表格内容的标签之后，还可以包括：获取上述标签所对应的位置路径。

步骤S107中，根据上述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失可以进一步包括：

（1）计算得到上述各个网页中剩余的内容所对应的页面特征；

其中，上述页面特征包括但不限于：网页的各条路径的最大文字数；网页的各条路径的最大文本表格数；网页的各条路径的最大图片面积；网页的各条路径的最大图文块数。

（2）根据获取到的上述页面特征识别该网页中正文是否缺失。

在优选实施过程中，若最大文字数小于预定的阈值，且表格数、图片面积、图文块数小于预定的阈值，则该网页被识别为正文缺失网页。

由此可见，对表格数目、图片面积、图文块数的计算能够识别以表格、图片等为主要内容的特殊页面，弥补了根据正文文字长度判断正文缺失的不足，提高了正文缺失网页识别的准确率。

以下结合图2对上述优选实施方式进行描述。

图2是根据本发明优选实施例的正文缺失网页的识别方法的流程图。如图2所示，该正文缺失网页的识别方法主要包括以下处理：

步骤S201：对同一个站点下的网页根据其布局框架计算其模板指纹，由同一模板生成的网页具有相同的模板指纹。模板指纹的计算方法如下：

在优选实施过程中，对每个网页进行解析，得到DOM（文档对象模型）树，取DOM树中深度小于N(例如N=5)的节点，计算这些节点在DOM树中的路径，将所有路径做字符串连接后利用哈希函数计算哈希值作为该页面的模板指纹。限制节点深度的目的在于，深度较小的节点往往与页面的布局有关，而与网页的正文内容无关，能够体现网页的模板信息。而深度较大的节点直接包含正文内容，无法满足计算模板指纹的需求。

步骤S202：对同一站点下的所有网页按照其模板指纹聚类，具有相同模板指纹的网页作为一类，对同类的网页分组，每组至多N个网页（例如N=10）。具有相同模板指纹的网页的布局相似，在同一站点下布局相似的网页往往由同一模板生成，通过多个相似页面的对比，可以有效发现重复出现的与正文无关的模板内容。对同类的相似网页分组，可以有效降低计算代价，同时避免由于网页过多，有效正文内容发生重复的现象。

步骤S203：每个网页DOM树中包含非超链接文本的叶节点记为T节点，包含超链接文本的叶节点为记H节点，图片标签<img>记为/节点，包含文本的表格标签<td>记为F节点，F节点属于T节点或H节点。如图3所示。

步骤S204：获得上述四类标签的位置路径，位置路径记为PATH，例如/html/div/div/p，这里的路径并不区分节点的编号，即/html/div[1]/div[3]/p[2]和/html/div[2]/div[1]/p[1]的路径均为/html/div/div/p。

步骤S205：将每个网页的T、H类节点与同组的其他网页的T、H类节点进行对比，如果两个节点的文字内容相同，则认为两个节点包含正文无关内容。将每个网页的/类节点与同组的其他网页的/类节点进行对比，如果两个节点的图片统一资源定位符(Uniform ResourceLocator，简称为URL)相同，则认为两个节点包含正文无关内容。组内对比后删除包含无关内容的节点，剩余包含唯一内容的节点。

步骤S206：计算每个网页的文字数：

第j条路径的非超链接文字数PT_j＝∑Length(T_i)，其中，T_i具有相同的路径PATH_j；

第j条路径的超链接文字数PH_j＝∑Length(H_i)，其中，H_i具有相同的路径PATH_j；

将各条路径中的最大文字数，max(PT_j)，max(PH_j)作为网页的文字数，取最大值的原因在于，网页的正文内容通常具有相同的路径，取最大值可以避免无关内容的干扰。

步骤S207：计算每个网页的文本表格数目：

第j条路径的文本表格数PF_j＝Number(F_i)，其中，F_i具有相同的路径PATH_j；

将各条路径中的最大文本表格数，max(PF_j)作为网页的文本表格数。

步骤S208：计算网页中图片的面积：

对于每个/标签，获取其“width”和“height”属性（或者style属性中的with，height），计算该图片的“有效面积”，Area(I)＝min(width，height)²，即宽度、高度较小值的平方，采用上述计算方式的目的是，正文区域的图片的宽度和高度一般不会过小，而宽度或高度过小的图片多为广告图片或页面布局图片。

第j条路径的图片面积为PI_j＝∑Area(I_i)，其中，I_i具有相同的路径PATH_j；

将各条路径中的最大图片面积，max(PI_j)作为网页的图片面积。

步骤S209：计算网页中的图文块数：

互联网中存在一些商品页面，常见特征为商品图片下方配有商品名称，由于图片较小，文字较少，容易被误判为正文内容缺失，因此加入对该类页面的识别。构建DOM树时，在四类节点T、H、/按出现的顺序构成的序列中，对于每一个/节点，如果紧邻其后是T、H类节点，则认为该/节点属于一个图文块，记为IB节点；

第j条路径的图文块数为PIB_j＝Number(IB_i)，其中，IB_i具有相同的路径PATH_j；

将各条路径中的最大图文块数，max(PIB_j)作为网页的图文块数。

步骤S210：根据上述的页面特征判断正文是否缺失：

若最大文字数小于阈值，即max(PT_j)＜θ_T，max(PH_j)＜θ_H，且表格数、图片面积、图文块数小于阈值，即max(PF_j)＜θ_F，max(PI_j)＜θ_I，max(PIB_j)＜θ_IB，则该网页被识别为正文缺失网页。其中，上述θ_T，θ_H，θ_F，θ_I，θ_IB均为根据实际情况预先设置的阈值，例如，θ_T可以设置为60，θ_IB可以设置为3等。

图4是根据本发明实施例的正文缺失网页的识别装置的结构框图。如图4所示，该正文缺失网页的识别装置包括：计算模块40，用于计算同一站点下所有网页的模板指纹；分类模块42，用于根据上述模板指纹对上述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；比对模块44，用于在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取上述各类网页中各个网页中剩余的内容；识别模块46，用于根据上述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

在图2所示的装置中，计算模块40进行多页面对比之前首先对同网站的所有页面计算其模板指纹，分类模块42依据模板指纹进行聚类，保证了相似的页面属于同类，从而使得比对模块44在相似页面之间进行对比，保证了多页面对比方法的有效性，能够更准确的识别正文内容。

优选地，如图5所示，上述比对模块44包括：分组单元440，用于对各类网页中网页进行分组，其中，每组至多包括预定个数的网页；对比单元442，用于在各组中分别将每个网页与其他各个网页进行对比。

在优选实施过程中，对比单元442在各组中分别将每个网页与其他各个网页进行对比之前，还需要对各组中各个网页进行解析，获取包含文字内容、图片内容、表格内容的标签。

则对比单元442在各组中分别将每个网页与其他各个网页进行对比包括以下至少之一：

在上述每两个需要对比的网页中，将一个网页中文字内容的标签对应的文字内容与另一个网页中文字内容的标签对应的文字内容进行比对，判断文字内容是否相同；

在上述每两个需要对比的网页中，将一个网页中表格内容的标签对应的文字内容与另一个网页中表格内容的标签对应的文字内容进行比对，判断表格内容是否相同；

在上述每两个需要对比的网页中，将一个网页中图片内容的标签对应的图片统一资源定位符URL与另一个网页中图片内容的标签对应的图片URL进行比对，判断图片内容是否相同。

在优选实施过程中，在获取包含文字内容、图片内容、表格内容的标签之后，还需要获取上述标签所对应的路径。

优选地，如图5所示，上述识别模块46包括：计算单元460，用于计算得到上述各个网页中剩余的内容所对应的页面特征，其中，上述页面特征包括：网页的各条路径的最大文字数；网页的各条路径的最大文本表格数；网页的各条路径的最大图片面积；网页的各条路径的最大图文块数；识别单元462，用于根据获取到的上述页面特征识别该网页中正文是否缺失。

需要说明的是，上述装置中各模块，各单元相互结合的优选实施方式具体可以参见图1至图3的描述，此处不再赘述。

从以上的描述中，可以看出，本发明实现了如下技术效果：进行多页面对比之前首先对同网站的所有页面计算其模板指纹，依据模板指纹进行聚类，保证了相似的页面属于同类，从而在相似页面之间进行对比，保证了多页面对比方法的有效性，能够更准确的识别正文内容。并且，对表格数目、图片面积、图文块数的计算能够识别以表格、图片等为主要内容的特殊页面，弥补了根据正文文字长度判断正文缺失的不足，提高了正文缺失网页识别的准确率。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上上述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种正文缺失网页的识别方法，其特征在于，包括：

计算同一站点下所有网页的模板指纹；

根据所述模板指纹对所述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；

在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取所述各类网页中各个网页中剩余的内容；

根据所述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

2.根据权利要求1所述的方法，其特征在于，所述在分类后的各类网页中将每两个网页进行比对包括：

对各类网页中网页进行分组，其中，每组至多包括预定个数的网页；

在各组中分别将每个网页与其他各个网页进行对比。

3.根据权利要求2所述的方法，其特征在于，在各组中分别将每个网页与其他各个网页进行对比之前，还包括：

对各组中各个网页进行解析，获取包含文字内容、图片内容、表格内容的标签。

4.根据权利要求3所述的方法，其特征在于，在各组中分别将每个网页与其他各个网页进行对比包括以下至少之一：

在所述每两个需要对比的网页中，将一个网页中文字内容的标签对应的文字内容与另一个网页中文字内容的标签对应的文字内容进行比对，判断文字内容是否相同；

在所述每两个需要对比的网页中，将一个网页中表格内容的标签对应的文字内容与另一个网页中表格内容的标签对应的文字内容进行比对，判断表格内容是否相同；

在所述每两个需要对比的网页中，将一个网页中图片内容的标签对应的图片统一资源定位符URL与另一个网页中图片内容的标签对应的图片URL进行比对，判断图片内容是否相同。

5.根据权利要求3所述的方法，其特征在于，在获取包含文字内容、图片内容、表格内容的标签之后，还包括：获取所述标签所对应的路径。

6.根据权利要求5所述的方法，其特征在于，根据所述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失包括：

计算得到所述各个网页中剩余的内容所对应的页面特征；

根据获取到的所述页面特征识别该网页中正文是否缺失。

7.根据权利要求6所述的方法，其特征在于，所述页面特征包括：

网页的各条路径的最大文字数；

网页的各条路径的最大文本表格数；

网页的各条路径的最大图片面积；

网页的各条路径的最大图文块数。

8.一种正文缺失网页的识别装置，其特征在于，包括：

计算模块，用于计算同一站点下所有网页的模板指纹；

分类模块，用于根据所述模板指纹对所述所有网页进行分类，其中，将具有相同模板指纹的网页划分为同一类；

比对模块，用于在分类后的各类网页中将每两个网页进行比对，在各个网页中将与该网页对比的网页中相同的内容去除，获取所述各类网页中各个网页中剩余的内容；

识别模块，用于根据所述各个网页中剩余的内容所对应的页面特征识别该网页中正文是否缺失。

9.根据权利要求8所述的装置，其特征在于，所述比对模块包括：

分组单元，用于对各类网页中网页进行分组，其中，每组至多包括预定个数的网页；

对比单元，用于在各组中分别将每个网页与其他各个网页进行对比。

10.根据权利要求8所述的装置，其特征在于，所述识别模块包括：

计算单元，用于计算得到所述各个网页中剩余的内容所对应的页面特征，其中，所述页面特征包括：网页的各条路径的最大文字数；网页的各条路径的最大文本表格数；网页的各条路径的最大图片面积；网页的各条路径的最大图文块数；

识别单元，用于根据获取到的所述页面特征识别该网页中正文是否缺失。