CN103942211A

CN103942211A - 一种正文页的识别方法及装置

Info

Publication number: CN103942211A
Application number: CN201310021405.9A
Authority: CN
Inventors: 黄钰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2014-07-23
Anticipated expiration: 2033-01-21
Also published as: CN103942211B

Abstract

本发明实施例公开了一种正文页的识别方法及装置，其中，所述方法包括：获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种；根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。采用本发明，能够较为准确地识别出网页页面是否为正文页，以便更好地实现页面抽取、转换等操作。

Description

一种正文页的识别方法及装置

技术领域

本发明涉及网页识别领域，尤其涉及一种正文页的识别方法及装置。

背景技术

随着移动互联网的发展，人们开始利用手机浏览器来获取、阅读各种信息，但互联网上的网页大多是针对个人电脑PC设计，网页的页面结构和内容都比较复杂，而手机浏览器由于手机屏幕、内存、处理器CPU的限制，在渲染复杂的互联网网页时耗时较长，而且，在结构和内容复杂的网页里包含较多与用户的需求无关的内容，因此对互联网上的网页就需要进行无关内容的过滤，筛选提取出对用户有价值的内容展示给用户。

目前，从网页中提取网页主要内容的现有技术包括采用模板的方法，即将网页与预先建好的模板进行匹配，提取出网页中与该模板相匹配部分的内容。而如何判断当前网页是否为新闻、资讯等的正文页从而选取合适的模板提取网页正文部分的全部内容成为研究的热点。

发明内容

本发明实施例所要解决的技术问题在于，提供一种正文页的识别方法及装置，可较为有效地识别处网页是否为正文页，从而方便后续完整地提取出网页的主要内容。

为了解决上述技术问题，本发明实施例提供了一种正文页的识别方法，包括：

获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种；

根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页；

其中，所述分块类别是对所述网页页面分块处理后得到的每一个页面分块的类别，包括标题类别、来源类别以及正文类别中的任一种或多种。

其中，若页面特征包括URL特征，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中；

若包含在预置的正文特征词库中，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

若是，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，若所述页面特征包括二级导航特征，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

判断所述二级导航特征中的特征词是否包含在预置的正文特征词库中；

若是，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，若所述页面特征包括所述网页页面中每一个页面分块的分块类别，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

若包括正文类别，则进一步判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别或者是否包括来源类别；

其中，若页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

若包括正文类别，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别和是否包括来源类别；

若包括标题类别和来源类别，则进一步判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中，或者判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

其中，所述获取网页页面的页面特征的步骤中获取所述网页页面中每一个页面分块的分块类别，包括：

在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征；

根据网页页面中每一个页面分块的位置特征和内容指示特征，确定网页页面中每一个页面分块的分块类别。

其中，所述在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征，包括：

在对所述网页页面进行分块处理后，遍历所述网页页面的文档对象模型DOM树；

根据DOM树提取网页页面中每一个页面分块的位置特征和内容指示特征，其中，所述位置特征包括页面分块在网页页面的位置坐标，所述内容指示特征包括页面分块的文本内容特征。

其中，所述获取网页页面的页面特征之前，还包括：

对所述网页页面进行预分析，获取所述网页页面的标识信息，所述标识信息包括：URL信息、网页标题信息、二级导航信息以及网页关键词信息中的任一种或多种；

判断所述网页页面的标识信息中是否包括指定的正文识别关键词；

若是，则判定所述网页页面为正文页；

否则，执行所述获取网页页面的页面特征。

相应地，本发明实施例还提供了一种正文页的识别装置，包括：

获取模块，用于获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种；

识别模块，用于根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页；

其中，所述识别模块包括：

第一判断单元，用于在所述页面特征包括URL特征时，判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中；

第二判断单元，用于在所述第一判断单元的判断结果为包含在预置的正文特征词库中时，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第一识别单元，用于在所述第二判断单元的判断结果为是时，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，所述识别模块包括：

第三判断单元，用于在所述页面特征包括二级导航特征时，判断所述二级导航特征中的特征词是否包含在预置的正文特征词库中；

第二识别单元，用于在所述第三判断单元的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，所述识别模块包括：

第四判断单元，用于在所述页面特征包括所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

第五判断单元，用于在所述第四判断单元的判断结果为包括正文类别，则进一步判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别或者是否包括来源类别；

第三识别单元，用于在所述第五判断单元的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，所述识别模块包括：

第六判断单元，用于在页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

第七判断单元，用于在所述第六判断单元的判断结果为包括正文类别时，进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第四识别单元，用于在所述第七判断单元的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，所述识别模块包括：

第八判断单元，用于在页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别和是否包括来源类别；

第九判断单元，用于在所述第八判断单元的判断结果为包括标题类别和来源类别时，则进一步判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中，或者判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第五识别单元，用于在所述第九判断单元的判断结果为是时，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

其中，还包括：

特征提取模块，用于在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征；

类别识别模块，用于根据网页页面中每一个页面分块的位置特征和内容指示特征，确定网页页面中每一个页面分块的分块类别。

其中，所述特征提取模块包括：

遍历单元，用于在对所述网页页面进行分块处理后，遍历所述网页页面的文档对象模型DOM树；

提取单元，用于根据DOM树提取网页页面中每一个页面分块的位置特征和内容指示特征，其中，所述位置特征包括页面分块在网页页面的位置坐标，所述内容指示特征包括页面分块的文本内容特征。

其中，还包括：

预处理模块，用于对所述网页页面进行预分析，获取所述网页页面的标识信息，所述标识信息包括：URL信息、网页标题信息、二级导航信息以及网页关键词信息中的任一种或多种；

判断模块，用于判断所述网页页面的标识信息中是否包括指定的正文识别关键词；

确定模块，用于在所述判断模块的判断结果为是时，判定所述网页页面为正文页，否则，通知所述获取模块获取网页页面的页面特征。

实施本发明实施例，具有如下有益效果：

能够根据各类网页页面的页面特征较为准确地识别出该网页页面是否为正文页还是其他的非正文页，方便后续更好地实现页面抽取、转换等操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种正文页的识别方法流程示意图；

图2是本发明实施例的另一种正文页的识别方法流程示意图；

图3是本发明实施例的一种正文页的识别装置的结构组成示意图；

图4是本发明实施例的另一种正文页的识别装置的结构组成示意图；

图5是图4中识别模块的其中一种具体结构示意图；

图6是图4中识别模块的其中另一种具体结构示意图；

图7是图4中识别模块的其中一种具体结构示意图；

图8是图4中识别模块的其中又一种具体结构示意图；

图9是图4中识别模块的其中再一种具体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例的一种正文页的识别方法流程示意图；本发明实施例的所述方法可应用在用于将针对个人电脑设计的互联网网页转换为适于手机等移动终端展示的网页的服务器或者终端设备中，或者其他一些需要提取互联网网页的场景中，正文页是指包括新闻、资讯、博客等正文内容的网页，而非正文页可以为各类新闻网站的首页，这些页面上包括各新闻链接，并没有新闻的正文部分。

具体的，本发明实施例的所述方法包括：

S101：获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种。

所述的URL特征可以为URL地址的各个组成部分，可以通过判定URL地址中的网页类型特征词是否为指定的正文特征词、是否包含页面日期特征以及标识特征词是否为指定的正文特征词。预先设置一个正文特征词库，通过将URL地址的相应部分与正文特征词库中的词进行比较，以进行特征判断，具体的，正文特征词库中关于URL地址的正文特征词包括“html”、“txt”等用于表示网页类型的关键词，还包括“news”、“zixun”、“xinwen”、“slide”、“blog”、“content”、“article”、“archives”等用于标识网页的关键词。

网页页面中设置的二级导航体现了页面在网站所处位置的标识，获取二级导航特征具体可以包括：遍历网页页面的DOM(Document Object Model，文档对象模型)树中的div、table、span、tr等节点，找到具有类似“>”、“->”、“&gt”等二级导航标识的节点；获取导航块的文本，判断文本中是含有“正文”、“组图”等关键词，并记录到网页特征集合中，二级导航特征是用于判别出正文页的最直接准确的特征。

所述分块类别是对所述网页页面分块处理后得到的每一个页面分块的类别，包括标题类别、来源类别以及正文类别中的任一种或多种，分块类别可以根据判别精度需求，根据页面分块所处的位置坐标、宽度、高度等特征，进一步结合其他的诸如文本特征、DOM特征、CSS(Cascading Style Sheet，级联样式表)特征等进行综合判定。

S102：根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

是否满足正文判决条件可以根据以下条件组合进行判断：

URL是否含有日期即页面日期特征、URL中是否具有news、zixun、xinwen、slide、blog、content、article、archives等被指定为正文特征词的特征、URL路径最后是否具有正文特征即网页类型特征词如“html”、“txt”等、二级导航是否含有“正文”、“组图”等被指定为正文特征词的特征、页面分块是否具有标题块即标题类别的分块、页面分块是否具有来源块即来源类别的分块、页面分块是否具有正文块即正文类别的分块。

具体的，所述S102中根据在S101中获取的页面特征确定所述网页页面是否为正文页的过程包括以下方式：

方式一：

若在S101中获取的页面特征包括URL特征，则所述S102包括：

S11：判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中；

即将URL地址中用于表征该网页类型的特征词与正文特征词库中的特征词进行比对，以确定这些表征该网页类型的特征词是否为正文特征词，表征该网页类型的特征词一般在URL地址的结尾处可以为“html”、“txt”、“org”等，而其中的“html”、“txt”为正文特征词，若包括这些词，则执行下述的S12。

S12：若包含在预置的正文特征词库中，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中。

在某些URL地址中会包括网页页面在服务器中的存储时间，该存储时间极为页面日期特征。而标识特征词则可以为news、zixun、xinwen、slide、blog、content、article、archives等词语。

S13：若是，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

即满足网页类型特征词包含在预置的正文特征词库中的条件的情况下，再满足是否包括页面日期特征、所述URL特征中的标识特征词包含在所述正文特征词库中的任意一个条件，即可确定该URL对应的网页页面为正文页。

方式二：

若在所述S101中获取的页面特征包括二级导航特征，则所述S102包括：

S21：判断所述二级导航特征中的特征词是否包含在预置的正文特征词库中；

如上所述，可以通过遍历网页页面的DOM树找到二级导航标识的节点以进行判断，正文特征词库为预先设置的，正文特征词库中关于二级导航标识的特征词包括“正文”、“组图”等词，在所述S21将二级导航特征与正文特征词库中的词进行比对判断正文特征词库中是否存在二级导航特征，若存在，则执行下述的S22。

S22：若是，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

即只要满足二级导航特征中的特征词包含在预置的正文特征词库中的正文判决条件，该网页页面就是正文页。

方式三：

若在所述S101中获取的页面特征包括所述网页页面中每一个页面分块的分块类别，则所述S102包括：

S31：判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

S32：若包括正文类别，则进一步判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别或者是否包括来源类别；

如上述，页面分块的分块类别定义包括标题类别、来源类别以及正文类别，具体可以根据网页页面的DOM树中相应页面分块在网页中的位置坐标、长度、宽度、DOM特征、CSS特征进行综合进行确定。

S33：若是，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

即满足包括正文类别的条件下，在满足包括标题类别或者是否包括来源类别的页面分块，即满足正文判决条件，该网页页面为正文页。

方式四：

若在所述S101中获取的页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别，则所述S102包括：

S41：判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

S42：若包括正文类别，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

S43：若是，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

即将网页页面的分块类别与URL结合进行判断，当满足页面分块的分块类别中包括正文类别的条件，并且满足URL特征中包括页面日期特征、所述URL特征中的标识特征词包含在所述正文特征词库中两个条件中任意一个条件，该网页页面即为正文页。

方式五：

S51：判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别和是否包括来源类别；

S52：若包括标题类别和来源类别，则进一步判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中，或者判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

S53：若是，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

即将网页页面的分块类别与URL结合进行判断，当满足页面分块的分块类别中同时包括标题类别和来源类别的条件，并且满足URL特征中包括页面日期特征、所述URL特征中的标识特征词包含在所述正文特征词库中两个条件中任意一个条件，该网页页面即为正文页。

进一步的，上述的方式三到方式五中，获取网页页面的页面特征的步骤中获取所述网页页面中每一个页面分块的分块类别的方式包括：在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征；根据网页页面中每一个页面分块的位置特征和内容指示特征，确定网页页面中每一个页面分块的分块类别。而其中的所述在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征包括：在对所述网页页面进行分块处理后，遍历所述网页页面的文档对象模型DOM树；根据DOM树提取网页页面中每一个页面分块的位置特征和内容指示特征，其中，所述位置特征包括页面分块在网页页面的位置坐标，所述内容指示特征包括页面分块的文本内容特征。分块类别主要是利用了页面分块在网页页面上的位置坐标、宽度、高度等特征，再结合其它诸如页面分块中的文本特征、DOM特征、CSS特征等进行综合的判定。

下面具体说明标题类别、来源类别、正文类别的判定，其中页面分块的位置特征是以网页页面从左到右代表x轴，从上到下代表y轴的坐标系来看，其中的x代表块的x坐标，y代表块的y坐标，width代表分块的宽度，height代表分块的高度。对网页页面的分块操作可以采用现有的基于视觉的分块算法进行分块。

关于标题类别的页面分块的判定：

F1：y＞60；y<max(768，屏高/2)；x<512;x+width>300；height<90。

F2：具有H1或H2或H3任意一个DOM标签。其中，所述的H1、H2以及H3在网页中用于指示标题标签。

F3：标题块里最大字号在18px以上。

F4：标题块里字体有加粗。

F5：标题块里的文本出现在页面标题文本中。

满足F1的情况下，再满足F2、F3、F4、F5中的任意两种，则认为该分块类别是标题类别。

关于来源类别的页面分块的判定：

F1：y＞60；y<max(768，屏高/2)；x<512；height<60。

F2：来源块中具有日期。

F3：来源块中具有“发表”、“评论”、“新闻网”、“来源：”、“编辑：”、“分类：”、“类别：”、“作者：”等关键词汇中的任意一个。

满足F1、F2、F3的块，则认为该页面分块为来源类别。

关于正文块的判定：

F1：y>120；y<max(768，屏高/2)；x<512；x+width>512；height>50；width>420。

F2：正文块句子数大于等于1或纯文本长度大于等于400。

F3：锚链接的数量为0或纯文字长度/(纯文字长度+锚链接文字长度)>=0.85。

F4：正文具有图片width>450，height>300的大图至少一张。

满足F1和F2的情况下，再满足F3或F4则确定该页面分块是正文类别。

通过上述实施例的描述可知，本发明具有以下优点：

能够根据各类网页页面的页面特征较为准确地识别出该网页页面是否为正文页还是其他的非正文页，方便后续更好地实现页面抽取、转换等操作，使得在将互联网网页页面转换为手机等小屏幕移动终端的能够显示的页面时，能够针对正文页进行区别处理，更好地在手机等小屏幕移动终端中显示网页。

再请参见图2，是本发明实施例的另一种正文页的识别方法流程示意图；本发明实施例的所述方法可应用在用于将针对个人电脑设计的互联网网页转换为适于手机等移动终端展示的网页的服务器或者终端设备中，或者其他一些需要提取互联网网页的场景中，正文页是指包括新闻、资讯、博客等正文内容的网页，而非正文页可以为各类新闻网站的首页，这些页面上包括各新闻链接，并没有新闻的正文部分。

具体的，本发明实施例的所述方法包括：

S201：对所述网页页面进行预分析，获取所述网页页面的标识信息，所述标识信息包括：URL信息、网页标题信息、二级导航信息以及网页关键词信息中的任一种或多种；

即在执行下述的获取网页页面的页面特征进行条件判定之前，进行粗略的过滤，直接根据能够直接获取的URL信息、网页标题信息、二级导航信息以及网页关键词信息来判定该页面是否为正文页。

S202：判断所述网页页面的标识信息中是否包括指定的正文识别关键词；同样可以预置正文特征词库，将URL信息、网页标题信息、二级导航信息以及网页关键词信息中词与正文特征词库中的词进行比较，以确定这些标识信息中是否包括指定的正文识别关键词。若包括，则执行下述的S203，否则，执行S204。

S203：判定所述网页页面为正文页。

S204：获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种；其中，所述分块类别是对所述网页页面分块处理后得到的每一个页面分块的类别，包括标题类别、来源类别以及正文类别中的任一种或多种。

S205：根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

所述的S204和S205与上述方法实施例中的S101和S102的处理方式相同，在此不赘述。

通过上述实施例的描述可知，本发明具有以下优点：

下面对本发明实施例的正文页识别装置进行详细说明。

请参见图3，是本发明实施例的一种正文页的识别装置的结构组成示意图；本发明实施例的正文页的识别装置可设置在用于将针对个人电脑设计的互联网网页转换为适于手机等移动终端展示的网页的服务器或者终端设备中，或者其他一些需要提取互联网网页的设备中。

正文页是指包括新闻、资讯、博客等正文内容的网页，而非正文页可以为各类新闻网站的首页，这些页面上包括各新闻链接，并没有新闻的正文部分。

具体的，本发明实施例的所述装置包括：

获取模块1，用于获取网页页面的页面特征，所述页面特征包括统一资源定位符URL特征、二级导航特征、所述网页页面中每一个页面分块的分块类别中的任一种或多种；

识别模块2，用于根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页；

所述获取模块1获取的页面特征中，所述URL特征可以为URL地址的各个组成部分，所述获取模块1可以通过判定URL地址中的网页类型特征词是否为指定的正文特征词、是否包含页面日期特征以及标识特征词是否为指定的正文特征词。所述获取模块1根据预先设置的一个正文特征词库，通过将URL地址的相应部分与正文特征词库中的词进行比较，以进行特征判断，具体的，正文特征词库中关于URL地址的正文特征词包括“html”、“txt”等用于表示网页类型的关键词，还包括“news”、“zixun”、“xinwen”、“slide”、“blog”、“content”、“article”、“archives”等用于标识网页的关键词。

网页页面中设置的二级导航体现了页面在网站所处位置的标识，获取模块1获取二级导航特征具体可以通过：遍历该网页页面的DOM树中的div、table、span、tr等节点，找到具有类似“>”、“->”、“&gt”等二级导航标识的节点；获取导航块的文本，判断文本中是含有“正文”、“组图”等关键词，并记录到网页特征集合中，所述获取模块1二级导航特征是用于判别出正文页的最直接准确的特征。

所述分块类别是对所述网页页面分块处理后得到的每一个页面分块的类别，包括标题类别、来源类别以及正文类别中的任一种或多种，所述获取模块1获取页面分块的分块类别可以根据判别精度需求，根据页面分块所处的位置坐标、宽度、高度等特征，进一步结合其他的诸如文本特征、DOM特征、CSS特征等进行综合判定。

所述识别模块2的具体处理过程可以根据以下条件组合进行判断：URL是否含有日期即页面日期特征、URL中是否具有news、zixun、xinwen、slide、blog、content、article、archives等被指定为正文特征词的特征、URL路径最后是否具有正文特征即网页类型特征词如“html”、“txt”等、二级导航是否含有“正文”、“组图”等被指定为正文特征词的特征、页面分块是否具有标题块即标题类别的分块、页面分块是否具有来源块即来源类别的分块、页面分块是否具有正文块即正文类别的分块。

通过上述实施例的描述可知，本发明具有以下优点：

下面结合图4至图11对正文页的识别装置的一种具体结构进行详细说明。

图4是本发明实施例的另一种正文页的识别装置的结构组成示意图；在本发明实施例中，所述装置包括上述实施例中的获取模块1和识别模块2，进一步具体的，本实施例的所述装置中的识别模块具体可以由以下单元组成：

请参见图5，是图4中识别模块的其中一种具体结构示意图；所述识别模块2包括：

第一判断单元201，用于在所述页面特征包括URL特征时，判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中；

第二判断单元202，用于在所述第一判断单元的判断结果为包含在预置的正文特征词库中时，则进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第一识别单元203，用于在所述第二判断单元的判断结果为是时，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

再请参见图6，是图4中识别模块的其中另一种具体结构示意图；所述识别模块2包括：

第三判断单元204，用于在所述页面特征包括二级导航特征时，判断所述二级导航特征中的特征词是否包含在预置的正文特征词库中；

第二识别单元205，用于在所述第三判断单元的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

再请参见图7，是图4中获取模块的其中一种具体结构示意图；所述识别模块2包括：

第四判断单元206，用于在所述页面特征包括所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

第五判断单元207，用于在所述第四判断单元的判断结果为包括正文类别，则进一步判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别或者是否包括来源类别；

第三识别单元208，用于在所述第五判断单元的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

再请参见图8，是图4中识别模块的其中又一种具体结构示意图；所述识别模块2包括：

第六判断单元209，用于在页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括正文类别；

第七判断单元210，用于在所述第六判断单元209的判断结果为包括正文类别时，进一步判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第四识别单元211，用于在所述第七判断单元210的判断结果为是时，获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

再请参见图9，是图4中识别模块的其中又一种具体结构示意图；所述识别模块2包括：

第八判断单元212，用于在页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别时，判断所述网页页面中每一个页面分块的分块类别中是否包括标题类别和是否包括来源类别；

第九判断单元213，用于在所述第八判断单元的判断结果为包括标题类别和来源类别时，则进一步判断所述URL特征中的网页类型特征词是否包含在预置的正文特征词库中，或者判断所述URL特征中是否包括页面日期特征，或者判断所述URL特征中的标识特征词是否包含在所述正文特征词库中；

第五识别单元214，用于在所述第九判断单元的判断结果为是时，则获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页。

本发明实施例的所述装置的识别模块1和获取模块2可以包括上述图5至图9中的所有具体的实现单元，由用户根据需要进行功能选择。并且上述图5到图9中的相应涉及的识别模块1和获取模块2的具体实现可以参见上述方法实施例中方式一至方式五的描述，在此不赘述。

进一步的，对于上述图7至图9对于的根据包括网页页面分块的分块类别的页面特征进行判断识别时，所述装置还可以包括：

特征提取模块3，用于在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征；

类别识别模块4，用于根据网页页面中每一个页面分块的位置特征和内容指示特征，确定网页页面中每一个页面分块的分块类别。

对网页页面的分块操作可以采用现有的基于视觉的分块算法进行分块。所述特征提取模块3具体可以通过遍历所述网页页面的文档对象模型DOM树来获取对应的位置特征和内容指示特征，所述类别识别模块4的具体实现方式可以参照上述方法实施例中的关于标题类别的页面分块的判定的方式，在此不赘述。

其中，所述特征提取模块3具体可以包括：

进一步可选地，所述装置还包括：

预处理模块5，用于对所述网页页面进行预分析，获取所述网页页面的标识信息，所述标识信息包括：URL信息、网页标题信息、二级导航信息以及网页关键词信息中的任一种或多种；

判断模块6，用于判断所述网页页面的标识信息中是否包括指定的正文识别关键词；

确定模块7，用于在所述判断模块的判断结果为是时，判定所述网页页面为正文页，否则，通知所述获取模块获取网页页面的页面特征。

在通过所述获取模块1和识别模块2确定页面是否为正文页之前，还可以通过所述预处理模块5、判断模块6以及确定模块7进行粗略的过滤，直接根据能够直接获取的URL信息、网页标题信息、二级导航信息以及网页关键词信息来判定该页面是否为正文页。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种正文页的识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，若页面特征包括URL特征，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

3.如权利要求1所述的方法，其特征在于，若所述页面特征包括二级导航特征，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

4.如权利要求1所述的方法，其特征在于，若所述页面特征包括所述网页页面中每一个页面分块的分块类别，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

5.如权利要求1所述的方法，其特征在于，若页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

6.如权利要求1所述的方法，其特征在于，若页面特征包括URL特征和所述网页页面中每一个页面分块的分块类别，则所述根据获取的页面特征对所述网页页面进行识别，若获取的所述页面特征满足预置的正文判决条件，确定所述网页页面为正文页的步骤，包括：

7.如权利要求4-6任一项所述的方法，其特征在于，所述获取网页页面的页面特征的步骤中获取所述网页页面中每一个页面分块的分块类别，包括：

8.如权利要求7所述的方法，其特征在于，所述在对所述网页页面进行分块处理后，提取网页页面中每一个页面分块的位置特征和内容指示特征，包括：

9.如权利要求8所述的方法，其特征在于，所述获取网页页面的页面特征之前，还包括：

若是，则判定所述网页页面为正文页；

否则，执行所述获取网页页面的页面特征。

10.一种正文页的识别装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述识别模块包括：

12.如权利要求10所述的装置，其特征在于，所述识别模块包括：

13.如权利要求10所述的装置，其特征在于，所述识别模块包括：

14.如权利要求10所述的装置，其特征在于，所述识别模块包括：

15.如权利要求10所述的装置，其特征在于，所述识别模块包括：

16.如权利要求13-15任一项所述的方法，其特征在于，还包括：

17.如权利要求16所述的方法，其特征在于，所述特征提取模块包括：

18.如权利要求17所述的装置，其特征在于，还包括：