CN104809125A

CN104809125A - 一种网页类别的识别方法和装置

Info

Publication number: CN104809125A
Application number: CN201410037520.XA
Authority: CN
Inventors: 黄钰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-01-24
Filing date: 2014-01-24
Publication date: 2015-07-29

Abstract

本发明适用于互联网领域，提供了一种网页类别的识别方法和装置，该方法包括：获取待识别网页的页面特征；根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成；递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。通过获取待识别网页的页面特征，并将获取的页面特征加载到预先生成的决策树模型，而所述决策树模型由已经确定网页类别的多个样本网页训练生成，从而能够快速有效的查找到决策树叶子分类节点对应的网页类别，便于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

Description

一种网页类别的识别方法和装置

技术领域

本发明属于互联网领域，尤其涉及一种网页类别的识别方法和装置。

背景技术

随着移动互联网的发展，越来越多的用户使用手机浏览器来获取、阅读各种信息，包括如文字、图片、视频、音频等。由于其使用方便，给人们生活带来了极大的方便。

在使用手机浏览器浏览网页内容时，为了更为方便的对网页中的内容进行抽取、分析用户行为和更好的在手机浏览器中展示页面中的内容，可以对网页的内容进行识别，如对文字正文页与图片正文页的识别（约定当网页中的文字内容占整个网页的比例达到预设的一个定值，如百分之六十，则判定其为文字正文页，也可以由网页中各种元素所占的比例进行判断，根据占用比例最高的元素对应的类别进行划分）。文字正文页一般具有典型的标题，在页面中间部分为大段的文字内容或掺杂有少量图片，比如一些典型的新闻、博客、科技资讯类的文字正文页；图片正文页一般具有典型的标题，在页面的中间部分是大量的图片内容，整个页面通过图片来展示页面内容，比如一些摄影类站点的图片内容页。

由于缺少对网页类别识别的方法，不能对网页类别进行有效的识别，从而不利于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

发明内容

本发明实施例的目的在于提供一种网页类别的识别方法，以解决现有技术缺少对网页类别识别的方法，不能对网页类别进行有效的识别的问题，从而便于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

本发明实施例的第一方提供了一种网页类别的识别方法，所述方法包括：

获取待识别网页的页面特征；

根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成；

递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。

本发明实施例的另一方面还提供了一种网页类别的识别装置，所述装置包括：

页面特征获取单元，用于获取待识别网页的页面特征；

页面特征加载单元，用于根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成；

遍历查找单元，用于递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。

在本发明实施例中，通过获取待识别网页的页面特征，并将获取的页面特征加载到预先生成的决策树模型，而所述决策树模型由已经确定网页类别的多个样本网页训练生成，从而能够快速有效的查找到决策树叶子分类节点对应的网页类别，便于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

附图说明

图1是本发明第一实施例提供的网页类别的识别方法的实现流程图；

图2是本发明第二实施例提供的网页类别的识别方法的实现流程图；

图3是本发明第三实施例提供的网页类别的识别装置的结构框图；

图4为本发明第四实施例提供的终端结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例根据现有技术中不能有效的对网页类别，主要是文字正文页和图片正文页进行识别，当然还可以包括其它类别的页，提出一种快速有效的网页类别的识别方法，所述方法包括：获取待识别网页的页面特征；根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成；递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。通过本方法能够快速有效的查找到决策树叶子分类节点对应的网页类别，便于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

其中，对于网页类别的划分依据，由于现在网页中多种元素的掺合，划分的依据可以为网页中的元素所占的百分比达到预先设定值，或者选择其中所占百分比最多的对应同一类别的元素。

实施例一：

图1示出了本发明第一实施例提供的网页类别的识别方法的实现流程，详述如下：

在步骤S101中，获取待识别网页的页面特征。

具体的，所述待识别的网页，包括网页的页面地址、页面信息以及相应的网页源代码信息。

获取所述待识别网页的页面特征，可以在对网页内容抽取之前或者终端为移动终端时，通过手机浏览器查看页面内容之前获取。或者在对用户行为进行分析时，在用户获取查看网页之前或者之后进行网页类别的识别。

具体的，所述页面特征，可以包括以下特征的一项或者多项：网页地址特征、网页标题特征、二级导航特征、文档对象模型DOM树结构特征和数据块特征。

更进一步的，所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的页面地址；

根据所述待识别网页的页面地址，提取所述页面地址中包含的日期信息、预设的分类敏感关键词以及尾部数字串；

根据所述页面地址中包括的路径数据获取所述页面的首页级数信息。

所述首页级数信息，包括如一级首页和二级首页等，可以通过域名地址信息直接进行判断，当只包括主机域名地址时为一级首页，在主机域名地址后添加进一步的路径信息对应为二级首页或者更后一级主页。所述页面地址中关键字，根据预先统计的所属类别的关键词库进行判断，比如对于关键词“blog”对应于文字正文页类别的关键词。所述尾部的数字段，可以设定数字的个数，当大于所设定的个数时认为其尾部为数字段。

作为页面特征进一步的限定，所述所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的源代码，根据网页源代码的编码规则提取所述待识别网页的标题；

根据预设的标题分类关键词库，获取所述标题中包括的标题分类关键词。

本发明实施例中所述网页的标题，与下面所述的标题，是两个范围不同的概念，本发明实施例所述的标题，包括网页标题、正文标题等。

网页的标题，一般通过网页编码规则，由关键词<title></title>之间限定的内容作为网页的标题进行限定。

所述标题分类关键词，可以根据预先统计的数据，如标题中包括关键词“图”或者“组图”等关键词，则对应图片正文页，标题中包括“视频”、“第*集”等关键词，则对应为视频正文页。

另外，本发明实施例所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的文档对象模型DOM树，判断所述待识别网页的文档对象模型DOM树是否包含二级导航；

如果所述待识别的网页包含二级导航，则根据预设的导航分类关键词库查找所述二级导航中包括的关键词。

所述二级导航特征，是用于指引页面所处站点位置的标识，比如在图片正文页中，“您的当前位置>网站首页>自拍写真>自拍写真图片>网络美女写真”就是一个典型的二级导航。在二级导航中是否存在导航分类关键词，比如常见的“图片”、“写真”、“自拍”等属于图片正文页类别的关键词或者一些其它的属于文字正文页的，如“小说”、“散文”、“阅读”等关键词。

其中，由待识别网页的文档对象模型DOM树判断是否包含二级导航，可以根据文档对象模型DOM树结构信息进行判定，如判断如果包括多个下拉的并列子结点，且并列子节点个数大于预定值，则当前网页包括二级导航。

更进一步的，所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的文档对象模型DOM树；

根据所述文档对象模型DOM树，提取所述待识别网页的纯文本节点个数、纯文本长度、锚文本长度、纯文本密度、图片个数中的一个或者多个。

在遍历网页文本对象模型DOM树的同时，计算网页所有纯文本、锚文本、图片、标点符号的个数、长度等特征。所述锚文本指的是带关键词的超文本链接，指向关键词内容所在页面。在点击设置了锚点的关键字，网页就会跳转到关键词内容所在页面。可以通过文字所带的链接属性来判断是否为锚文本。

所述锚文本密度可以为当前页面中包括的锚文本的文本长度占当前页面的总文字数比例。

另外，对于所述获取待识别网页的页面特征步骤还可以包括：

获取所述待识别网页的文档对象模型DOM树；

根据所述文档对象模型DOM树，提取所述网页中包括的标题个数、页面来源个数，并判断是否存在翻页标记。

在遍历文件对象模型DOM树的同时，还可以通过节点关键词信息，查找页面标题个数、页面来源个数和是否存在翻页标记。如可以查找DOM树中的节点是否包括标题关键词如：<head></head>标签之间或者<title></title>之间的标题。

在步骤S102中，根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成。

通过预先采集的页面样本，对样本页面的特征进行训练，生成决策树模型，所述决策树模型的叶子分类节点为网页所对应网页类别，即文字正文页或者图片正文页或者其它类页面。通过对已标注网页类别的样本网页，获取其特征值进行训练，将训练的结果不断完善，可得到较优的决策树模型。所述样本网页的特征值，可与步骤S101中所述的特征值相同。

所述训练生成决策树模型的方法，包括但不限于分类回归法，还可以包括如朴素贝叶斯NBC算法等。

在步骤S103中，递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。

由步骤S102得到决策树模型后，根据待识别网页的页面特征，根据决策树中页面特征的分布特点，遍历所述决策树，查找到决策树中叶子节点，得到叶子节点所对应的网页类别。

本发明实施例通过获取待识别网页的页面特征，并将获取的页面特征加载到预先生成的决策树模型，而所述决策树模型由已经确定网页类别的多个样本网页训练生成，从而能够快速有效的查找到决策树叶子分类节点对应的网页类别，便于对网页内容的抽取、用户行为的分析和更好的在手机浏览器中展示页面中的内容。

实施例二：

图2示出了本发明第二实施例提供的一种网页类别的识别方法的实现流程，详述如下：

在步骤S201中，获取已标注网页类别的网页样本。

所述标注网页类别的网页样本，可以预先由工作人员根据经验识别后，标注为文字正文页或图片正文页，还可以根据需要以及网页的具体内容，将用于训练的网页样本标注为其它类别。

在步骤S202中，根据所述网页类别以及所述网页样本的页面特征，采用分类回归算法训练得到决策树模型。

作为一种优选的实施方式，可以根据所述网页类别以及所述网页样本的页面特征，采用递归的方法将样本划分为多个较小的子集。通过增益信息选择决策树模型中各个节点所对应的较佳页面特征，采用分类回归算法训练得到决策树模型，当然还可以采用其它数据挖掘算法。

所述分类回归CART(英文全称为Classification And Regression Tree)算法采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的决策树的每个非叶子节点都有两个分支。

所述增益信息，可以包括基尼GINI指数等。其中基尼GINI指数用来判断决策模型的类别的杂乱程度，系数越大表示越混乱，其定义与熵的定义相同。通过对所述指数的增益信息进行比较，选择较优的页面特征构成决策树模型。

在步骤S203中，获取待识别网页的页面特征。

在步骤S204中，根据预先生成的决策树模型加载所述页面特征。

在步骤S205中，递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。

所述步骤S203至步骤S205与实施例一中所述步骤S101至步骤S103相同，在此不作重复赘述。

在本发明实施例所述决策树模型的评估实验中，采用训练样本2828条，其中文字正文页659条，图片正文页681条，其它类页面1488条，根据训练样本生成决策树模型，并进行交叉验证，得到模型的准确率为90%以上，符合预定的识别精度要求。

本发明实施例与实施例一相比，通过采用分类回归算法，由预先标注好的样本网页进行决策树模型的训练，还包括对决策树型的进一步优化，使能够得到更为精确的识别结果。

实施例三：

图3示出了本发明第三实施例提供的一种网页类别的识别装置的结构框图，详述如下：

本发明实施例所述网页类别的识别装置包括：

页面特征获取单元301，用于获取待识别网页的页面特征；

页面特征加载单元302，用于根据预先生成的决策树模型加载所述页面特征，所述决策树模型由已经确定网页类别的多个样本网页训练生成；

遍历查找单元303，用于递归遍历所述决策树模型，查找所述页面特征对应的决策树叶子分类节点，由所述叶子节点得到所述待识别网页的网页类别。

具体的，所述待识别网页的页面特征包括以下特征的一项或者多项：网页地址特征、网页标题特征、二级导航特征、文档对象模型树结构特征和数据块特征。

更进一步的，所述页面特征获取单元可用于以下一项或者多项页面特征的获取：

1、用于获取页面地址特征，具体包括：

获取所述待识别网页的页面地址；

2、用于获取网页的标题特征，具体包括：

3、用于获取二级导航特征，具体包括：

4、用于获取网页的文本符号特征，具体包括：

获取所述待识别网页的文档对象模型DOM树；

5、用于获取网页的页面信息特征，具体包括：

获取所述待识别网页的文档对象模型DOM树；

进一步优选的，所述装置还包括：

网页样本获取单元304，用于获取已标注网页类别的网页样本；

决策树模型训练单元305，用于根据所述网页类别以及所述网页样本的页面特征，采用分类回归算法训练得到决策树模型。

本发明实施所述例网页类别的识别装置与实施例一和实施例二所述网页类别的识别方法相对应，在此不作重复赘述。

实施例四：

图4为本发明第四实施例提供的终端的结构框图，本实施例所述终端，包括：存储器420、输入单元430、显示单元440、网络模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图4对终端的各个构成部件进行具体的介绍：

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及终端的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-EmittingDiode，OLED）等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中，触控面板431与显示面板441是作为两个独立的部件来实现终端的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现终端的输入和输出功能。

网络模块470可以包括无线保真（wireless fidelity，WiFi）模块，有线网络模块或者射频模块，其中无线保真模块属于短距离无线传输技术，终端通过网络模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了网络模块470，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器480可包括一个或多个处理单元；优选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

终端还包括给各个部件供电的电源490（比如电池），优选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，终端还可以包括摄像头、蓝牙模块、音频电路等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器480还具有以下功能：执行网页类别的识别方法，包括：

获取待识别网页的页面特征；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页类别的识别方法，其特征在于，所述方法包括：

获取待识别网页的页面特征；

2.根据权利要求1所述方法，其特征在于，所述待识别网页的页面特征包括以下特征的一项或者多项：网页地址特征、网页标题特征、二级导航特征、文档对象模型DOM树结构特征和数据块特征。

3.根据权利要求2所述方法，其特征在于，所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的页面地址；

4.根据权利要求2所述方法，其特征在于，所述获取待识别网页的页面特征步骤包括：

5.根据权利要求2所述方法，其特征在于，所述获取待识别网页的页面特征步骤包括：

6.根据权利要求2所述方法，其特征在于，所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的文档对象模型DOM树；

7.根据权利要求2所述方法，其特征在于，所述获取待识别网页的页面特征步骤包括：

获取所述待识别网页的文档对象模型DOM树；

8.根据权利要求1所述方法，其特征在于，在所述根据预先生成的决策树模型加载所述页面特征步骤之前，所述方法还包括：

获取已标注网页类别的网页样本；

根据所述标注的网页类别以及所述网页样本的页面特征，采用分类回归算法训练得到决策树模型。

9.一种网页类别的识别装置，其特征在于，所述装置包括：

页面特征获取单元，用于获取待识别网页的页面特征；

10.根据权利要求9所述装置，其特征在于，所述待识别网页的页面特征包括以下特征的一项或者多项：网页地址特征、网页标题特征、二级导航特征、文档对象模型树结构特征和数据块特征。

11.根据权利要求9所述装置，其特征在于，所述装置还包括：

网页样本获取单元，用于获取已标注网页类别的网页样本；

决策树模型训练单元，用于根据所述网页类别以及所述网页样本的页面特征，采用分类回归算法训练得到决策树模型。