CN104834640A

CN104834640A - 网页的识别方法及装置

Info

Publication number: CN104834640A
Application number: CN201410046966.9A
Authority: CN
Inventors: 黄钰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2015-08-12
Also published as: US20160314207A1; US10452725B2; WO2015117560A1

Abstract

本发明公开一种网页的识别方法，包括以下步骤：获取待识别的网页中每个分词的权重；根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；将权重较大的网页类别作为所述待识别的网页的类别。本发明还公开一种网页的识别装置。本发明对网页的识别更加准确，尤其对于网页的关键词不容易区分的网页的识别，效果更加显著。

Description

网页的识别方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种网页的识别方法及装置。

背景技术

随着移动互联网的发展，人们使用移动终端可以便捷地访问互联网，可以获得各种信息。但是随着网页类别的众多，在访问网页的同时，往往会出现一些网络欺诈、色情等垃圾网页，给人们的使用带来了困扰。

目前的解决方法是通过预先建立一组与体现垃圾网页的特征的关键词库，然后将要识别的网页中的词汇与所述关键词库中的关键词进行匹配，若匹配的词汇个数达到一定的阈值时，则识别该网页为垃圾网页。

上述网页的识别方法中，由于网页内容的多样性，无法保证关键词库可以包含所有体现垃圾网页的特征的关键词，而且还可能对一些包含该关键词的安全网页进行误判，因此网页的识别效果不佳。

发明内容

本发明实施例的主要目的是提供一种网页的识别方法及装置，旨在解决现有技术的网页识别方法的识别效果不好的问题。

为达到以上目的，本发明实施例提供了一种一种网页的识别方法，包括以下步骤：

获取待识别的网页中每个分词的权重；

根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；

将权重较大的网页类别作为所述待识别的网页的类别。

本发明实施例还提供了一种网页的识别装置，包括：

权重获取模块，用于获取待识别的网页中每个分词的权重；

计算模块，用于根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；

类别确定模块，用于将权重较大的网页类别作为所述待识别的网页的类别。

本发明实施例通过预先建立的逻辑回归模型对待识别的网页进行识别，由于预先建立的逻辑回归模型是通过根据多个网页样本进行学习获得，因此，相对于现有技术的关键词的识别方法，本实施例对网页的识别更加准确，尤其对于网页的关键词不容易区分的网页的识别，效果更加显著。

附图说明

图1是本发明网页的识别方法一实施例的流程示意图；

图2是图1中获取待识别的网页中每个分词的权重的具体步骤的流程示意图；

图3是本发明网页的识别方法另一实施例的流程示意图；

图4是图3中获取待识别的网页中网页特征的权重一实施例的流程示例图；

图5是图3中获取待识别的网页中网页特征的权重另一实施例的流程示例图；

图6是本发明网页的识别装置一实施例的功能模块示意图；

图7是本发明网页的识别装置中权重获取模块一实施例的功能模块示意图；

图8是本发明网页的识别装置中权重获取模块另一实施例的功能模块示意图；

图9是本发明网页的识别装置所在的网络服务器的硬件架构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种网页的识别方法，针对现有技术中的网页识别方法效率不高的问题，利用预先建立的逻辑回归模型以及朴素贝叶斯模型对网页进行识别，相对于现有技术，本发明的网页的识别方法使得网页的识别更加准确，识别效率也更高。

为了更好地理解本发明，在此先对预先建立的逻辑回归模型以及朴素贝叶斯模型进行相应的介绍。

逻辑回归模型为一种线性分类模型，能够将线性函数转换为0到1之间的概率值。本实施例中，该逻辑回归模型通过一批样本进行训练完成的，具体过程如下：

（1）标注一批网页样本作为样本集合，并确认每个网页样本的分类。

（2）对每个网页样本进行分词处理，获得每个网页样本的分词。为了使得分词准确，该分词处理所基于的词库由根据该网页样本的标题、页面导航中提取出来的词汇所组成。

（3）统计网页样本中每个分词的词频和逆文档频率，并计算每个分词在网页样本中的权重。词频是指一个词汇在一篇网页中出现的次数。逆文档频率又称为反文档频率，其通过文档频率计算获得。例如，某词汇在m篇文档中出现过，则该词汇的文档频率是m，逆文档频率则由公式log(N/(DF+0.01))计算获得，其中DF是文档频率，N是网页总数。

（4）根据每个分词在网页样本中的权重，对样本集合中的网页样本进行学习，得到逻辑回归模型。然后，利用该逻辑回归模型计算网页样本在预设的两个网页类别中的权重。

朴素贝叶斯模型为一种基于概率分布的分类模型，能够根据已标注的训练样本，生成模型。该模型可用来计算未知网页所属网页类别的概率，进而判断未知网页的网页类别。本实施例中，该朴素贝叶斯模型也是通过一批样本进行训练完成的，且要基于前面建立逻辑回归模型中所计算的网页样本在预设的两个网页类别中的权重。具体过程如下：

（5）获取每个网页样本的网页地址、标题等网页特征，并获取每个网页样本的网页地址、标题所述预设的两个网页类别的权重。

（6）根据每个网页样本的网页地址、标题所述预设的两个网页类别的权重、网页样本在预设的两个网页类别中的权重，对样本集合中的网页样本进行学习，得到朴素贝叶斯模型。

参照图1，该实施例的网页的识别方法包括以下步骤：

步骤S110、获取待识别的网页中每个分词的权重；

在获取到待识别的网页后，计算该网页中每个分词在网页中所占的比重。该比重可以根据每个分词在网页中出现的位置、在网页中出现的次数等等进行计算。

步骤S120、根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；

本实施例中，该两个网页类别为成人类和非成人类。当然也可以为其他预设的网页类别。所述待识别的网页中每个分词的权重作为输入，利用预先建立的上述逻辑回归模型进行计算，将输出待识别的网页在预设的两个网页类别中的权重。

步骤S130、将权重较大的网页类别作为所述待识别的网页的类别。

由于本实施例中计算待识别的网页在预设的两个网页类别中的权重，所以待识别的网页不是成人类网页，就是非成人类网页。因此，待识别的网页在成人类的权重与待识别的网页在非成人类的权重之和为1。即将权重较大的网页类别作为待识别的网页的类别，也可以为：将权重大于0.5的网页类别作为待识别的网页的类别。

进一步地，参照图2，上述步骤S110包括：

步骤S111、获取待识别的网页；

该待识别的网页可以根据用户请求访问的网页地址，从服务器中获取待识别的网页的数据。

步骤S112、对所述待识别的网页进行分词处理；

为了分词的准确性，该待识别的网页进行分词处理所依据的词库由所预设的两个类别的网页中提取的普遍性词汇组成。例如上述建立逻辑回归模型时，由根据该网页样本的标题、页面导航中提取出来的词汇所组成的词库。

步骤S113、获取每个分词在所述待识别的网页中的词频和逆文档频率；

步骤S114、根据所述每个分词在待识别的网页中的词频和逆文档频率，计算获得所述待识别的网页中每个分词的权重。

将每个分词在待识别的网页中的词频和逆文档频率相乘，以获得每个分词在所述待识别的网页中的权重。

参照图3，本发明网页的识别方法的另一实施例中，在上述实施例的步骤S120之后还包括：

步骤S140、获取待识别的网页中网页特征的权重；

首先获取待识别的网页中各网页特征，例如网页的URL地址、网页标题等等。然后确定各个网页特征所属网页类别的权重。

步骤S150、根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重，利用预先建立的朴素贝叶斯模型，计算获得待识别的网页分别在预设的两个网页类别中的概率；

步骤S160、将概率较大的网页类别作为所述待识别的网页的类别。

进一步地，参照图4，上述步骤S140包括：

步骤S141、获取待识别的网页中的网页地址；

步骤S142、判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息；是则转入步骤S143，否则转入步骤S144；

步骤S143、将所述待识别的网页中网页地址特征的权重记为1；

步骤S144、将所述待识别的网页中网页地址特征的权重记为0。

进一步地，参照图5，上述步骤S140包括：

步骤S145、获取网页的页面标题；

步骤S146、判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息；是则转入步骤S147，否则转入步骤S148；

步骤S147、将所述待识别的网页中页面标题特征的权重记为1；

步骤S148、将所述待识别的网页中页面标题特征的权重记为0。

上述体现其中一个预设的网页类别的网页的特征信息为与该预设的网页类别的网页对应的特征。例如，该预设的网页类别为成人网页类别时，则体现该网页类别的网页的特征信息则为与成人网页类别相应的关键词汇。

本实施例利用逻辑回归模型和朴素贝叶斯模型，共同对待识别的网页进行识别。由于朴素贝叶斯模型结合了网页的多个维度特征，所以本实施例进一步提高了网页的识别准确度。

本发明网页的识别方法可以用于对成人页面的识别，当识别到用户要访问的网页中包含成人页面时，则对其进行过滤。以下将利用预先建立的逻辑回归模型（LR模型）以及朴素贝叶斯模型（NB模型）对待识别的网页进行识别测试。其中该逻辑回归模型以及朴素贝叶斯模型所基于的样本集合中网页样本为2151条，成人页面980条，非成人页面1171条。测试结果如下表所示：

由上表可知，基于LR和NB的混合模型有着更高的准确率和召回率，识别效果更好。

对应地，参照图6，本发明实施例一种网页的识别装置包括：

权重获取模块110，用于获取待识别的网页中每个分词的权重；

计算模块120，用于根据所述待识别的网页中每个分词的权重，利用预先建立的逻辑回归模型，计算获得待识别的网页分别在预设的两个网页类别中的权重；

类别确定模块130，用于将权重较大的网页类别作为所述待识别的网页的类别。

进一步地，参照图7，上述权重获取模块110包括：

网页获取单元111，用于获取待识别的网页；

分词处理单元112，用于对所述待识别的网页进行分词处理；

分词频率获取单元113，用于获取每个分词在所述待识别的网页中的词频和逆文档频率；

权重计算单元114，用于根据所述每个分词在待识别的网页中的词频和逆文档频率，计算获得所述待识别的网页中每个分词的权重。

进一步地，上述权重获取模块110还用于：获取待识别的网页中网页特征的权重；

所述计算模块120还用于：根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重，利用预先建立的朴素贝叶斯模型，计算获得待识别的网页分别在预设的两个网页类别中的概率；

所述类别确定模块130还用于：将概率较大的网页类别作为所述待识别的网页的类别。

进一步地，参照图8，上述权重获取模块110还包括：

特征获取单元115，用于获取待识别的网页中的网页地址；

特征判断单元116，用于判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息；

权重获得单元117，用于当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为1；当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为0。

进一步地，上述特征获取单元115，用于获取网页的页面标题；

特征判断单元116，用于判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息；

权重获得单元117，用于当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为1；当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为0。

参照图9，上述网页识别装置可以设置在浏览器客户端的后台程序中，也可以设置在网络服务器中。以网络服务器为例，该网络服务器包括处理器101、存储器102、通讯接口103。其中存储器102可用于存储软件程序以及数据，例如网页识别的应用程序以及进行网页识别所需的数据。该通讯接口103可用于网络服务器与用户终端通信。该通讯接口可包括有线接口和WIFI接口等等。处理器101则调用存储器102上的网页识别的应用程序以及进行网页识别所需的数据，并执行上述网页识别方法的操作，在此就不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制其专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页的识别方法，其特征在于，包括以下步骤：

获取待识别的网页中每个分词的权重；

将权重较大的网页类别作为所述待识别的网页的类别。

2.如权利要求1所述的网页的识别方法，其特征在于，所述获取待识别的网页中每个分词的权重包括：

获取待识别的网页；

对所述待识别的网页进行分词处理；

获取每个分词在所述待识别的网页中的词频和逆文档频率；

根据所述每个分词在待识别的网页中的词频和逆文档频率，计算获得所述待识别的网页中每个分词的权重。

3.如权利要求1或2所述的网页的识别方法，其特征在于，所述计算获得待识别的网页分别在预设的两个网页类别中的权重之后还包括：

获取待识别的网页中网页特征的权重；

根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重，利用预先建立的朴素贝叶斯模型，计算获得待识别的网页分别在预设的两个网页类别中的概率；

将概率较大的网页类别作为所述待识别的网页的类别。

4.如权利要求3所述的网页的识别方法，其特征在于，所述获取待识别的网页中网页特征的权重包括：

获取待识别的网页中的网页地址；

判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息；

当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为1；

当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为0。

5.如权利要求3所述的网页的识别方法，其特征在于，所述获取待识别的网页中网页特征的权重包括：

获取网页的页面标题；

判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息；

当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为1；

当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为0。

6.一种网页的识别装置，其特征在于，包括：

权重获取模块，用于获取待识别的网页中每个分词的权重；

7.如权利要求6所述的网页的识别装置，其特征在于，所述权重获取模块包括：

网页获取单元，用于获取待识别的网页；

分词处理单元，用于对所述待识别的网页进行分词处理；

分词频率获取单元，用于获取每个分词在所述待识别的网页中的词频和逆文档频率；

权重计算单元，用于根据所述每个分词在待识别的网页中的词频和逆文档频率，计算获得所述待识别的网页中每个分词的权重。

8.如权利要求6或7所述的网页的识别装置，其特征在于，所述权重获取模块还用于：获取待识别的网页中网页特征的权重；

所述计算模块还用于：根据所述待识别的网页中每个分词的权重以及所述待识别的网页中网页特征的权重，利用预先建立的朴素贝叶斯模型，计算获得待识别的网页分别在预设的两个网页类别中的概率；

所述类别确定模块还用于：将概率较大的网页类别作为所述待识别的网页的类别。

9.如权利要求8所述的网页的识别装置，其特征在于，所述权重获取模块还包括：

特征获取单元，用于获取待识别的网页中的网页地址；

特征判断单元，用于判断所述网页地址中是否包含体现其中一个预设的网页类别的网页的特征信息；

权重获得单元，用于当所述网页地址中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为1；当所述网页地址中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中网页地址特征的权重记为0。

10.如权利要求8所述的网页的识别装置，其特征在于，所述权重获取模块还包括：

特征获取单元，用于获取网页的页面标题；

特征判断单元，用于判断所述页面标题中是否包含体现其中一个预设的网页类别的网页的特征信息；

权重获得单元，用于当所述页面标题中包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为1；当所述页面标题中不包含体现其中一个预设的网页类别的网页的特征信息时，将所述待识别的网页中页面标题特征的权重记为0。