CN103631787B

CN103631787B - 网页类型识别方法以及网页类型识别装置

Info

Publication number: CN103631787B
Application number: CN201210299843.7A
Authority: CN
Inventors: 蔡兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2012-08-22
Filing date: 2012-08-22
Publication date: 2019-01-11
Anticipated expiration: 2032-08-22
Also published as: US20150161278A1; US10311120B2; CN103631787A; WO2014029318A1

Abstract

本发明涉及网页类型识别方法以及网页类型识别装置，其中网页类型识别方法包括步骤：接收待测网页的网页地址，并对网页地址进行解析以得到网页地址的组成部分；判断待测网页地址的组成部分是否与网页分类规则相匹配；以及若判断结果为相匹配，则根据网页分类规则将待测网页分类以得到待测网页的网页类型，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。本发明仅利用网页地址的情况下即可预测出网页类别，预测速度快、实时性高。

Description

网页类型识别方法以及网页类型识别装置

技术领域

本发明涉及类型识别技术领域，特别涉及网页类型识别方法以及网页类型识别装置。

背景技术

随着互联网的高速发展，万维网“WWW”网页类型识别也成为一项必不可少的工作。目前网页类型识别方法主要有两种：第一种是基于人工规则和策略的方法。其主要利用专家领域知识对网页进行整理分类。这种方法尤其适用于范围已知的网页类型识别，其优点是识别效果好、速度快。缺点是其可扩展性较差，当需要识别的网页范围非常大时，由于人力不足而难以处理海量数据。第二种是文本分类方法，例如朴素贝叶斯、SVM等，其优点是可以基于样本统计，需要较少的人工干预，且能够保证一定的准确率和网页覆盖度。缺点是计算量大，耗时较高，难以满足一些对网页识别实时性要求非常高的系统。由此可知，上述两种方法在覆盖度和计算量方面均存在一定的限制，无法满足实时性要求极高的网页类型识别系统。

发明内容

因此，本发明提供网页类型识别方法以及网页类型识别装置，以克服现有网页类型识别技术存在的问题。

具体地，本发明实施例提供的一种网页类型识别方法，其包括步骤：接收待测网页的网页地址，并对网页地址进行解析以得到网页地址的组成部分；判断待测网页地址的组成部分是否与网页分类规则相匹配；以及若判断结果为相匹配，则根据网页分类规则将待测网页分类以得到待测网页的网页类型，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。

另外，本发明实施例提供的一种网页类型识别装置，其包括：解析单元以及判断单元。其中，解析单元，用于接收待测网页的网页地址，并对网页地址进行解析以得到网页地址的组成部分；判断单元，用于判断待测网页地址的组成部分是否与网页分类规则库中的网页分类规则相匹配，若判断结果为相匹配，则根据网页分类规则将待测网页分类，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。

由上述实施例可知，本发明通过判断待测网页地址的组成部分是否与网页分类规则相匹配，若相匹配，则根据网页分类规则将待测网页分类以得到待测网页的网页类型，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。从而达到仅基于网页地址即可进行网页类型预测，具有速度快、效率高、覆盖广的优点，可适用于实时性高的在线网页类型预测系统。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提供的网页类型识别方法的步骤流程图；

图2是本发明另一实施例提供的网页类型识别方法的步骤流程图；

图3为本发明实施例提供的网页类型识别装置的主要架构框图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的网页类型识别方法以及网页类型识别装置其具体实施方式、结构、特征及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

图1是本发明实施例提供的网页类型识别方法的步骤流程图。请参阅图1，本发明实施例的网页类型识别方法可包括以下步骤S111- S113：

步骤S111，接收待测网页的网页地址（网页地址又称为统一资源定位符URL，Uniform/Universal Resource Locator），并对网页地址进行解析以得到网页地址的组成部分。

本步骤中，待测网页地址例如为http://域名X/目录A/目录B/.../abc.html时，则待测网页地址的组成部分包括协议类型http、域名X、目录名A及B、以及参数abc.html。此外，还可以将网页地址的组成部分进一步解析为一些字段，例如将目录名A及B解析为20110202等字段。

步骤S113，判断待测网页地址的组成部分是否与网页分类规则相匹配，若相匹配，则进行步骤S115，若否，则执行步骤S117。

本步骤中，网页分类规则可以为一组网页地址和组中网页类型对应关系的多模式串。假设某一网页分类规则中网页地址组的目录名解析字段为2010*（*代表任何的数据，例如字母、数字等）时，组中网页属于新闻网页类型。若待测网页地址的目录名解析字段为20100202，则待测网页地址与此网页分类规则相匹配，若待测网页地址的目录名解析字段为20120202，则待测网页地址与此网页分类规则不相匹配。

步骤S115，根据网页分类规则将待测网页分类以得到待测网页的网页类型

本步骤中，若待测网页地址的组成部分与网页分类规则相匹配，根据网页分类规则将待测网页分类以得到待测网页的网页类型，即判断为待测网页类型为所匹配的网页分类规则中对应的网页类型。若网页分类规则中网页地址组的目录名解析字段为2010*（*代表任何的数据，例如字母、数字等）时，组中网页属于新闻网页类型为例。若待测网页地址的目录名的解析字段为20100303，则待测网页的类型为新闻类型。

步骤S117，将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型在本发明实施例中，通过判断待测网页地址的组成部分是否与网页分类规则相匹配，若相匹配，则根据网页分类规则将待测网页分类以得到待测网页的网页类型，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型，从而仅利用网页地址的情况下即可预测出其类别，预测速度快、实时性高。

图2是本发明实施例提供的网页类型识别方法的步骤流程图。图2是在图1的基础上改进而来的。请参阅图2，本发明实施例的网页类型识别方法可包括步骤S201- S215：

步骤S201，将网页样本进行训练而生成网页地址与网页类型的对应关系，并将此对应关系发送到网页分类器中进行存储。

本步骤中，网页样本进行训练时可以对网页的内容进行解析，采用人工神经网络等方法对样本进行训练而得到网页地址与网页类型的对应关系。在其它实施方式中，也可以根据实际需要而省略此步骤S201。

步骤S203，读取预先存储的所有网页地址及网页类型，并对所有网页地址进行解析以得到网页地址组成部分的集合。

本步骤中，所有网页地址及其对应的网页类型可以预先存储在网页分类器中。其中一网页地址例如为http://域名X/目录A/目录B/.../abc.html时，则网页地址的组成部分的集合为S={域名X，目录A，…,目录N，abc.html}，且集合元素的顺序与网页地址保持一致。

步骤S205，按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组。

本步骤中，可以采用如下聚合方法而将类同的网页地址聚合至一个组中：若一网页地址的组成部分的集合为S1={域名X，目录A1，…,目录N1，abc.html}，另一网页地址的组成部分的集合S2={域名X，目录A2，…,目录N2，123.html}，若集合S1中目录A1，…,目录N1解析字段为20120101，集合S2中目录A2，…,目录N2解析字段为20120102，则认为此两网页地址的组成部分类同，而将这两个网页聚合到一个组中。

步骤S209，判断每个组中网页的覆盖度和网页类型的准确率是否满足要求，若满足要求，则进行步骤S210，若不满足要求，则继续进行步骤S205。

本步骤中，通过计算每个组中网页数量是否小于阈值N来判断每个组中的网页的覆盖度是否满足要求，通过计算组的熵E是否小于阈值T来判断组中网页类型的准确率是否满足要求。若一个组中网页的数量小于等于阈值N且熵E小于阈值T，则表示此组中网页的覆盖度和网页类型的准确率满足要求。反之，若一个组中网页的数量大于阈值N且E不小于阈值T，则表示此组中网页的覆盖度和网页类型的准确率不满足要求。其中，熵E= sum(pi*log(pi))，i=1,2…,n，n为此组中网页的数量，pi为此组中相同类型的网页出现的概率。假设一个组中，包括9条新闻类型的网页，1条博客类型的网页，则这个组的熵为E= 0.9*log0.9+0.1*log0.1。若熵E满足要求，则表示聚合到这个组中的网页类型的准确率高。

步骤S210，停止聚合以形成网页分类规则并将网页分类规则存储至网页分类规则库中。

本步骤中，网页分类规则为一个模式，其包括一组网页地址和组中网页类型信息，例如新闻类型。

步骤S211，接收待测网页的网页地址（网页地址又称为统一资源定位符URL，Uniform/Universal Resource Locator），并对网页地址进行解析以得到网页地址的组成部分。

步骤S213，判断待测网页地址的组成部分是否与网页分类规则相匹配，若相匹配，则进行步骤S215，若不相匹配，则进行步骤S212。

本步骤中，网页分类规则可以为一组网页地址和组中网页的类型对应关系的多模式串。假设某一网页分类规则中网页地址组的目录名解析字段为2010*（*代表任何的数据，例如字母、数字等）时，组中网页属于新闻网页类型。若待测网页地址的目录名解析字段为20100202，则待测网页地址与此网页分类规则相匹配，若待测网页地址的目录名解析字段为20120202，则待测网页地址与此网页分类规则不相匹配。

步骤S212，将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。

本步骤中，将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型即查找网页分类器中是否存有与待测网页地址相匹配的网页地址，若有，则判断待测网页类型为网页分类器中所匹配的网页类型，若否，则结束。

步骤S215，根据网页分类规则将待测网页分类以得到待测网页的网页类型。

步骤S215中具体还可包括步骤：存储测得的网页地址及其网页类型。

在本发明实施例中，通过分析和聚合网页分类器的输出结果，以形成网页分类规则，还通过判断待测网页地址的组成部分是否与网页分类规则相匹配，若相匹配，则根据网页分类规则将待测网页分类以得到待测网页的网页类型，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型，从而达到仅基于网页地址即可进行网页类型预测，具有速度快、效率高、覆盖广的优点，可适用于实时性高的在线网页类型预测系统。

图3为本发明实施例提供的网页类型识别装置的主要架构框图。请一并参阅图1至图3，本发明实施例提供的网页类型识别装置包括：解析单元301、判断单元303。

解析单元301，用于接收待测网页的网页地址，并对网页地址进行解析以得到网页地址的组成部分。

判断单元303，用于判断待测网页地址的组成部分是否与规则相匹配，若相匹配，则根据网页分类规则将待测网页分类，否则将待测网页的网页地址发送至网页分类器中进行分类以得到待测网页的网页类型。

此外，网页类型识别装置还可以包括：存储单元305、网页分类器生成单元307、聚合单元309、以及规则形成单元311。

具体地，网页分类器生成单元307，用于将网页样本进行训练而生成网页地址与网页类型的对应关系，并将此对应关系发送到网页分类器中进行存储。

聚合单元309，用于读取预先存储的所有网页地址及网页类型，并对所有网页地址进行解析以得到网页地址组成部分的集合，按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组。

规则形成单元311，判断每个组中网页的覆盖度和网页类型的准确率是否满足要求，若满足要求，则停止聚合以形成网页分类规则并将网页分类规则存储至网页分类规则库中。此外，规则形成单元311还用于在不满足要求时，继续进行聚合。

具体地，若一个组中网页的数量小于等于阈值N且熵E小于阈值T，则表示此组中网页的覆盖度和网页类型的准确率满足要求。反之，若一个组中网页的数量大于阈值N且E不小于阈值T，则表示此组中网页的覆盖度和网页类型的准确率不满足要求。其中，熵E= sum(pi*log(pi))，i=1,2…,n，n为组中网页的数量，pi为相同类型的网页出现的概率。

存储单元305，用于存储测得的网页地址及其网页类型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种网页类型识别方法，其特征在于，该网页类型识别方法包括步骤：

读取预先存储的所有网页地址及网页类型，并对所有网页地址进行解析以得到网页地址组成部分的集合；

按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组；

判断每个组中网页的覆盖度和网页类型的准确率是否满足要求：若一个组中网页的数量小于等于第一阈值且熵小于第二阈值，则表示该组中网页的覆盖度和网页类型的准确率满足要求，反之，若一个组中网页的数量大于第一阈值且熵不小于第二阈值，则表示该组中网页的覆盖度和网页类型的准确率不满足要求，熵E＝sum(pi*log(pi))，i＝1,2…,n，n为该组中网页的数量，pi为该组中相同类型的网页出现的概率；

若判断结果为满足要求，则停止聚合以形成网页分类规则并将该网页分类规则存储至网页分类规则库中；

接收待测网页的网页地址，并对该网页地址进行解析以得到该网页地址的组成部分；

判断该待测网页地址的组成部分是否与网页分类规则相匹配；以及

若判断结果为相匹配，则根据该网页分类规则将该待测网页分类以得到该待测网页的网页类型，否则将该待测网页的网页地址发送至网页分类器中进行分类以得到该待测网页的网页类型。

2.如权利要求1所述的网页类型识别方法，其特征在于，在执行步骤若判断结果为相匹配后，还包括步骤：

存储该待测网页的网页地址及其网页类型。

3.如权利要求1所述的网页类型识别方法，其特征在于，在执行步骤接收待测网页的网页地址前，还包括步骤：

将网页样本进行训练而生成网页地址与网页类型的对应关系，并将该对应关系发送到该网页分类器中进行存储。

4.一种网页类型识别装置，其特征在于，该网页类型识别装置包括：

聚合单元，用于读取预先存储的所有网页地址及网页类型，并对所有网页地址进行解析以得到网页地址组成部分的集合，按照预设的聚合方法将网页地址组成部分类同的网页地址聚合至一个组从而形成多个组；

规则形成单元，用于判断每个组中网页的覆盖度和网页类型的准确率是否满足要求：判断每个组中网页的覆盖度和网页类型的准确率是否满足要求：若一个组中网页的数量小于等于第一阈值且熵小于第二阈值，则表示该组中网页的覆盖度和网页类型的准确率满足要求，反之，若一个组中网页的数量大于第一阈值且熵不小于第二阈值，则表示该组中网页的覆盖度和网页类型的准确率不满足要求，熵E＝sum(pi*log(pi))，i＝1,2…,n，n为该组中网页的数量，pi为该组中相同类型的网页出现的概率；若满足要求，则停止聚合形成网页分类规则并将该网页分类规则存储至网页分类规则库中；

解析单元，用于接收待测网页的网页地址，并对该网页地址进行解析以得到该网页地址的组成部分；以及

判断单元，用于判断该待测网页地址的组成部分是否与网页分类规则库中的网页分类规则相匹配，若判断结果为相匹配，则根据该网页分类规则将该待测网页分类，否则将该待测网页的网页地址发送至网页分类器中进行分类以得到该待测网页的网页类型。

5.如权利要求4所述的装置，其特征在于，还包括：

网页分类器生成单元，用于将网页样本进行训练而生成网页地址与网页类型的对应关系，并将该对应关系发送到该网页分类器中进行存储。

6.如权利要求4所述的装置，其特征在于，还包括：

存储单元，用于存储该待测网页的网页地址及其网页类型。