CN107784034A

CN107784034A - 页面类别识别方法及装置、用于页面类别识别的装置

Info

Publication number: CN107784034A
Application number: CN201610798538.0A
Authority: CN
Inventors: 杜建光; 孙键; 李毅; 许静芳
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-09
Anticipated expiration: 2036-08-31
Also published as: CN107784034B

Abstract

本发明公开了一种页面类别的识别方法及装置、用于页面类别识别的装置，属于互联网技术领域。方法包括：从待识别页面中提取文本数据构成待识别数据集；获取待识别数据集包含的多个隐含主题以及对应的概率；获取属于特定类别隐含主题的概率，构成主题分布特征；依据概率最高的隐含主题是否属于特定类别生成特定类别判断特征；依据待识别数据集中每个词汇的正概率和负概率，得到特定类别比例特征；依据主题分布特征、特定类别判断特征和特定类别比例特征构成特征向量；基于预设的分类器对特征向量进行识别；本发明通过在训练过程中引入样本数据集对应的各隐含主题的概率和词汇的正概率和负概率等语义特征，提高了分类器的精确度，提高了识别精确度。

Description

页面类别识别方法及装置、用于页面类别识别的装置

技术领域

本发明涉及互联网技术领域，特别涉及一种页面类别识别方法及装置、用于页面类别识别的装置。

背景技术

互联网的高速发展带来了信息的急速膨胀，导致互联网中的页面数量越来越多，这些页面能够快速地传播网络信息，大大方便了人们的生活，但同时某些负面页面的出现也为人们带来了不良影响，如色情网页、诈骗网页等。如何识别这种类别的页面对维护互联网的健康环境具有重要的意义。

基于关键词识别特定类别页面的方法是一种常用的识别方法，该方法中维护一个关键词表，该关键词表中包括特定类别的关键词，对某一页面进行识别时，可以从该页面中提取多个词汇，与该关键词表中的关键词进行匹配，如果该页面中与该关键词表匹配的词汇数量超过了预设阈值，可以确定该页面为特定类别页面。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

上述识别方法仅是根据关键词进行识别，虽然能在一定程度上识别出特定类别页面，但是精确度很低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种页面类别的识别方法及装置、用于页面类别识别的装置。所述技术方案如下：

第一方面，提供了一种页面类别的识别方法，所述方法包括：

从待识别页面中提取文本数据，构成待识别数据集；

获取所述待识别数据集包含的多个隐含主题，以及各隐含主题的概率；所述隐含主题的概率是指所述待识别数据集中的文本数据属于所述隐含主题的概率；

获取所述多个隐含主题中属于特定类别隐含主题的概率，构成所述待识别页面的主题分布特征；

判断所述多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成所述待识别页面的特定类别判断特征；

获取所述待识别数据集中每个词汇的正概率和负概率，并根据所述待识别数据集中所有词汇的正概率和负概率，得到所述待识别页面的特定类别比例特征；所述正概率是指词汇在预设训练样本集包括的特定类别页面中的出现概率，所述负概率是指词汇在预设训练样本集包括的非特定类别页面中的出现概率；

依据所述待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成所述待识别页面的特征向量；

基于预设的分类器对所述待识别页面的特征向量进行识别，确定所述待识别页面是否属于特定类别页面。

可选地，所述依据判断结果生成所述待识别页面的特定类别判断特征，包括：

如果所述概率最高的隐含主题属于所述特定类别，则确定所述特定类别判断特征为第一预设特征；所述第一预设特征用于表征所述待识别页面属于所述特定类别的可能性较高；

如果所述概率最高的隐含主题不属于所述特定类别，则确定所述特定类别判断特征为第二预设特征；所述第一预设特征用于表征所述待识别页面不属于所述特定类别的可能性较高。

可选地，所述根据所述待识别数据集中所有词汇的正概率和负概率，得到所述待识别页面的特定类别比例特征，包括：

对所述待识别数据集中所有词汇的正概率的乘积求取对数，得到第一对数估计值；

对所述待识别数据集中所有词汇的负概率的乘积求取对数，得到第二对数估计值；

计算所述第一对数估计值与所述第二对数估计值的差值，得到第一数值；

计算所述第一对数估计值与所述第二对数估计值的和值，得到第二数值；

计算所述第一数值与所述第二数值的比值，作为所述待识别数据集的特定类别比例特征。

可选地，所述从待识别页面中提取文本数据，构成待识别数据集，包括：

从所述待识别页面中除major标签以外的标签中提取文本数据，构成所述待识别数据集。

可选地，所述基于预设的分类器对所述待识别页面的特征向量进行识别，确定所述待识别页面是否属于特定类别页面，包括：

基于所述分类器，对所述待识别页面的特征向量进行识别，得到所述待识别页面的类别标识；

如果所述类别标识为第一类别标识，则确定所述待识别页面为所述特定类别页面；

如果所述类别标识为第二类别标识，则确定所述待识别页面不是所述特定类别页面。

可选地，所述方法还包括：

获取多个已确定类别的样本页面，构建训练样本集；

遍历所述训练样本集中的每个样本页面，分别获取每个样本页面的特征向量；

根据所述训练样本集中每个样本页面的特征向量和所属类别进行训练，得到所述分类器；

其中，所述获取每个样本页面的特征向量，包括：

从所述样本页面中提取文本数据，构成所述样本页面对应的样本数据集；

获取所述样本数据集包含的多个隐含主题，以及各隐含主题的概率；

获取所述多个隐含主题中属于特定类别隐含主题的概率，构成所述样本页面的主题分布特征；

判断所述多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成所述样本页面的特定类别判断特征；

获取所述样本数据集中每个词汇的正概率和负概率，并根据所述样本数据集中所有词汇的正概率和负概率，得到所述样本页面的特定类别比例特征；

依据所述样本页面的主题分布特征、特定类别判断特征和特定类别比例特征构成所述样本页面的特征向量。

可选地，依据预设主题模型获取该样本数据集包含的多个隐含主题，以及各隐含主题的概率；

所述方法还包括：

建立初始的预设主题模型，该初始的预设主题模型包括待训练的隐含主题、待训练的隐含主题的数目和模型参数；

构建主题训练样本集，获取所述主题训练样本集中各页面包括的文本数据，作为训练数据集；

以所述训练数据集中每个词汇作为输入，以每个词汇在所述待训练的隐含主题中的出现概率作为输出，训练得到所述预设主题模型。

可选地，依据预设语言模型获取该样本数据集中每个词汇的正概率和负概率；

所述方法还包括：

从所述训练样本集中提取多个特定类别页面和非特定类别页面；

分别从所述多个特定类别页面和非特定类别页面中提取文本数据，利用文档频率特征选择方法从提取的文本数据中选择多个词汇，构成词汇表；

计算所述词汇表中每个词汇在所述训练样本集包括的所有特定类别页面中的出现概率作为各词汇的正概率；

计算所述词汇表中每个词汇在所述训练样本集包括的所有非特定类别页面中的出现概率作为各词汇的负概率；

根据所述词汇表中所有词汇的正概率和负概率，训练得到所述预设语言模型。

第二方面，提供了一种页面类别的识别装置，所述装置包括：

数据集构建模块，用于从待识别页面中提取文本数据，构成待识别数据集；

第一特征构建模块，用于获取所述待识别数据集包含的多个隐含主题，以及各隐含主题的概率；所述隐含主题的概率是指所述待识别数据集中的文本数据属于所述隐含主题的概率；获取所述多个隐含主题中属于特定类别隐含主题的概率，构成所述待识别页面的主题分布特征；判断所述多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成所述待识别页面的特定类别判断特征；

第二特征构建模块，用于获取所述待识别数据集中每个词汇的正概率和负概率，并根据所述待识别数据集中所有词汇的正概率和负概率，得到所述待识别页面的特定类别比例特征；所述正概率是指词汇在预设训练样本集包括的特定类别页面中的出现概率，所述负概率是指词汇在预设训练样本集包括的非特定类别页面中的出现概率；

向量构建模块，用于依据所述待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成所述待识别页面的特征向量；

识别模块，用于基于预设的分类器对所述待识别页面的特征向量进行识别，确定所述待识别页面是否属于特定类别页面。

可选地，所述第一特征构建模块包括：

第一确定子模块，用于如果所述概率最高的隐含主题属于所述特定类别，则确定所述特定类别判断特征为第一预设特征；所述第一预设特征用于表征所述待识别页面属于所述特定类别的可能性较高；

第二确定子模块，用于如果所述概率最高的隐含主题不属于所述特定类别，则确定所述特定类别判断特征为第二预设特征；所述第一预设特征用于表征所述待识别页面不属于所述特定类别的可能性较高。

可选地，所述第二特征构建模块包括：

第一计算子模块，用于对所述待识别数据集中所有词汇的正概率的乘积求取对数，得到第一对数估计值；对所述待识别数据集中所有词汇的负概率的乘积求取对数，得到第二对数估计值；

第二计算子模块，用于计算所述第一对数估计值与所述第二对数估计值的差值，得到第一数值，并计算所述第一对数估计值与所述第二对数估计值的和值，得到第二数值；

第三计算子模块，用于计算所述第一数值与所述第二数值的比值，作为所述待识别数据集的特定类别比例特征。

可选地，所述数据集构建模块包括：

构建子模块，用于从所述待识别页面中除major标签以外的标签提取文本数据，构成所述待识别数据集。

可选地，所述识别模块包括：

类别识别子模块，用于基于所述分类器，对所述待识别页面的特征向量进行识别，得到所述待识别页面的类别标识；

第三确定子模块，用于如果所述类别标识为第一类别标识，则确定所述待识别页面为所述特定类别页面；

第四确定子模块，用于如果所述类别标识为第二类别标识，则确定所述待识别页面不是所述特定类别页面。

可选地，所述装置还包括：

样本数据集构建模块，用于获取多个已确定类别的样本页面，构建训练样本集；

样本特征构建模块，用于遍历所述训练样本集中的每个样本页面，分别获取每个样本页面的特征向量；

训练模块，用于根据所述训练样本集中每个样本页面的特征向量和所属类别进行训练，得到所述分类器；

其中，所述样本特征构建模块包括：

提取子模块，用于从所述样本页面中提取文本数据，构成所述样本页面对应的样本数据集；

第一获取子模块，用于获取所述样本数据集包含的多个隐含主题，以及各隐含主题的概率；

第二获取子模块，用于获取所述多个隐含主题中属于特定类别隐含主题的概率，构成所述样本页面的主题分布特征；

判断子模块，用于判断所述多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成所述样本页面的特定类别判断特征；

第三获取子模块，用于获取所述样本数据集中每个词汇的正概率和负概率，并根据所述样本数据集中所有词汇的正概率和负概率，得到所述样本页面的特定类别比例特征；

向量构成子模块，用于依据所述样本页面的主题分布特征、特定类别判断特征和特定类别比例特征构成所述样本页面的特征向量。

可选地，所述样本特征构建模块依据预设主题模型获取所述样本数据集包含的多个隐含主题，以及各隐含主题的概率；

所述装置还包括：主题模型训练模块，用于建立初始的预设主题模型，所述初始的预设主题模型包括指定数目的待训练的隐含主题；构建主题训练样本集，获取所述主题训练样本集中各页面包括的文本数据，作为训练数据集；以所述训练数据集中每个词汇作为输入，以每个词汇在所述待训练的隐含主题中的出现概率作为输出，训练得到所述预设主题模型。

可选地，所述样本特征构建模块依据预设语言模型获取所述样本数据集中每个词汇的正概率和负概率；

所述装置还包括：语言模型训练模块；

所述语言模型训练模块，用于从所述训练样本集中提取多个特定类别页面和非特定类别页面；分别从所述多个特定类别页面和非特定类别页面中提取文本数据，利用文档频率特征选择方法从提取的文本数据中选择多个词汇，构成词汇表；计算所述词汇表中每个词汇在所述训练样本集包括的所有特定类别页面中的出现概率作为各词汇的正概率；计算所述词汇表中每个词汇在所述训练样本集包括的所有非特定类别页面中的出现概率作为各词汇的负概率；根据所述词汇表中所有词汇的正概率和负概率，训练得到所述预设语言模型。

第三方面，提供了一种用于页面类别的识别装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从待识别页面中提取文本数据，构成待识别数据集；

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法及装置，通过获取待识别页面对应的待识别数据集包含的多个隐含主题，以及各隐含主题的概率，构成待识别页面的主题分布特征，判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成待识别页面的特定类别判断特征，并获取该待识别数据集包括的每个词汇的正概率和负概率，得到特定类别比例特征，从而依据待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成待识别页面的特征向量，基于已训练的分类器利用该特征向量对该待识别页面是否属于特定类别进行识别。由于引入了隐含主题的概率和词汇的正概率和负概率等语义特征，而不仅是依据关键词进行判定，保证了分类器能够根据待识别页面的语义特征进行识别，提高了页面类别识别的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种页面类别的识别方法的流程图；

图2是本发明实施例提供的一种页面类别的识别方法的流程图；

图3是本发明实施例提供的一种页面类别的识别方法的流程图；

图4是本发明实施例提供的一种页面类别的识别装置结构示意图；

图5是根据一示例性实施例示出的一种用于页面类别识别的装置的框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种页面类别识别方法的流程图，参见图1，该方法包括：

101、从待识别页面中提取文本数据，构成待识别数据集。

102、获取该待识别数据集包含的多个隐含主题，以及各隐含主题的概率。

其中，隐含主题的概率是指该待识别数据集中的文本数据属于该隐含主题的概率；

103、获取该多个隐含主题中属于特定类别隐含主题的概率，构成该待识别页面的主题分布特征。

104、判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成该待识别页面的特定类别判断特征。

105、获取该待识别数据集中每个词汇的正概率和负概率，并根据该待识别数据集中所有词汇的正概率和负概率，得到该待识别页面的特定类别比例特征。

其中，该正概率是指词汇在预设的训练样本集包括的特定类别页面中的出现概率，该负概率是指词汇在预设的训练样本集包括的非特定类别页面中的出现概率。

106、依据该待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成该待识别页面的特征向量。

107、基于预设的分类器对该待识别页面的特征向量进行识别，确定该待识别页面是否属于特定类别页面。

其中，该预设的分类器为：依据预设训练样本集包括的大量已确定类型的特定类别页面和非特定类别页面对应的特征向量训练得到的，用于识别页面是否属于特定类型的分类器。

本发明实施例提供的方法，获取待识别页面对应的待识别数据集包含的多个隐含主题，以及各隐含主题的概率，构成主题分布特征；判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果构建特定类别判断特征；并获取该待识别数据集包括的每个词汇的正概率和负概率，生成特定类别比例特征；从而依据待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成待识别页面的特征向量，基于已训练的分类器利用该特征向量对该待识别页面是否属于特定类别进行识别。本发明实施例中，由于引入了隐含主题的概率和词汇的正概率和负概率等语义特征，而不仅是依据关键词进行判定，保证了分类器能够根据待识别页面的语义特征进行识别，提高了页面类别识别的精确度。

图2是本发明实施例提供的一种用于页面类别识别的分类器生成方法的流程图，本发明实施例的执行主体为训练设备，参见图2，该方法包括：

201、获取大量已确定类别的样本页面，构建训练样本集；遍历训练样本集中包括的每个样本页面，分别执行下述步骤202-205以获取每个样本页面的特征向量。

本发明实施例中，该训练设备用于根据训练样本集包括的大量样本页面进行训练，得到用于识别特定类别页面的分类器。该训练设备可以为计算机、手机或者个人电脑等具备计算处理能力的设备，本发明实施例对此不做限定。

为了训练出用于识别特定类别页面的分类器，该训练设备获取大量已确定类别的样本页面，也即是该训练设备已经确定了每个样本页面是否为特定类别页面。

具体的，可以为每个已确定类别的样本页面分别标注类别标识，该类别标识用于指明该样本页面是否属于特定类别页面；具体的，该类别标识可以包括：特定类别页面和非特定类别页面等。

其中，该类别标识可以为第一类别标识，也可以为第二类别标识，该第一类别标识与该第二类别标识不同。对于任一样本页面来说，可以设定为，当样本页面的类别标识为第一类别标识，表示该样本页面为特定类别页面，而当样本页面的类别标识为第二类别标识，表示该样本页面不是特定类别页面。可选地，该第一类别标识可以为1，该第二类别标识可以为0，或者该第一类别标识和该第二类别标识可以为其他的不同标识，本发明实施例对此不做限定。

另外，该特定类别页面是指属于某种特定类别的页面，该特定类别可以包括诈骗类别、色情类别等负面类别，可以根据需求确定。该页面可以包括网页、手机页面、应用页面或者其他类型的页面等，如HTML(Hypertext Markup Language，超文本标记语言)页面，本发明实施例对此不做限定。而且，该训练设备获取的训练样本集包括的样本页面的数量越多，计算量越大，训练出的分类器的准确度更高；而样本页面数量越少，计算量越小，而训练出的分类器的准确度越低。因此，获取的样本页面的数量可以根据训练需求确定，或者由技术人员预先确定，本发明实施例对此不做限定。

该步骤201可以包括：该训练设备可以获取大量样本页面，构建训练样本集，对训练样本集包括的各样本页面所属的类别进行判定，并进行标注。

或者，该步骤201可以包括：该训练设备可以预先对页面资源进行判定，确定出特定类别页面资源和非特定类别页面资源，从特定类别页面资源中获取大量属于特定类别的样本页面，并为每个样本页面标注特定类别页面标识；同时，从非特定类别页面资源中获取大量属于非特定类别的样本页面，并为每个样本页面标注非特定类别样本标识；并利用标注后的属于特定类别的样本页面和属于非特定类别的样本页面构建训练样本集。

其中，该特定类别页面资源可以为属于特定类别的网站、应用等，该非特定类别页面资源可以为不属于特定类别的网站、应用等，本发明实施例对此不做限定。通过从特定类别页面资源和非特定类别页面资源中提取样本页面，无需人工进行标注，简化了人工操作，提高了训练效率。

202、从该样本页面中提取文本数据，构成该样本页面对应的样本数据集。

对于该训练样本集中包括的每个样本页面，为了获取该样本页面的特征向量，该训练设备对该样本页面进行解析，从该样本页面中提取文本数据，将提取到的文本数据构成样本数据集。

可选地，本申请实施例中，该训练设备可以从该样本页面中的每个段落提取预设数量的词汇，构成该样本数据集。或者直接将特定的段落提取为该样本数据集，或者采用其他方式获取样本数据集，本发明实施例对此不做限定。

进一步地，页面中通常包括多个标签，在每个标签内会配置一些数据，多个标签内的数据即可组成一个页面。其中major标签中通常包含页面的正文信息，其他标签中包含页面的描述信息或者广告等信息，如outanchor标签包含页面的外部链接的描述信息，othertext标签包含其他的描述信息。

针对特定类别页面，特别是涉及色情、诈骗等类别的页面，为了隐藏页面属性，躲避网络监控，该特定类别页面一般会在major标签中添加正常的文本数据，而在除major标签以外的其他标签中添加属于特定类别的文本数据。因此，为了提高训练精确度并减小计算量，该训练设备可以不提取该样本页面中major标签的文本数据，而是从该样本页面中除major标签以外的标签提取文本数据，将提取的文本数据构成该样本数据集。考虑到正文信息很少是特定类别的数据，对针对特定类别的分类器的训练过程无效，则通过去除major标签的正文信息，既能够减小数据量，加快训练速度，而且还能避免正文信息的影响。

203、获取该样本数据集包含的多个隐含主题，以及各隐含主题的概率；获取该多个隐含主题中属于特定类别隐含主题的概率，构成该样本页面的主题分布特征；并判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成该样本页面的特定类别判断特征。

针对特定类别页面，特别是涉及色情、诈骗等类别的页面，为了隐藏页面属性，躲避网络监控，该特定类别页面一般会在major标签中添加正常的文本数据，而在除major标签以外的其他标签中添加属于特定类别的文本数据。因此，如果采用常规网页主题的挖掘方式(例如从major标签中提取关键词等)，挖掘得到的主题不一定就是代表该特定类别页面真实含义的主题。因此，针对特定类别页面，需要进行隐含主题挖掘，得到该页面实际可能属于的主题。

其中，该隐含主题是指该样本页面对应的样本数据集中的文本数据可能属于的主题，该隐含主题的概率是指该样本数据集中的文本数据属于对应隐含主题的概率。对于任一隐含主题来说，该样本数据集中的文本数据属于该隐含主题的概率越大，表示该样本页面属于该隐含主题的概率越大。而隐含主题可以划分为多种类别，不同的隐含主题可以属于同一类别或者属于不同类别。如果样本页面包含的某一隐含主题属于特定类别，某一样本页面属于该隐含主题的概率越大，表示该样本页面是特定类别页面的概率越大。

实际应用中，每个隐含主题可以采用主题标识和主题词汇的形式表示，主题标识用于唯一确定对应的主题，可以为序号等，而主题词汇即为在该隐含主题中有代表性的词汇，根据该主题词汇的语义可以确定对应的隐含主题属于哪一种类别。

具体地，该训练设备可以构建预设主题模型。本申请实施例中，可以依据该预设主题模型来获取该样本数据集包含的多个隐含主题，以及各隐含主题的概率。具体的，将该样本数据集输入该预设主题模型中，利用该预设主题模型，获取到该样本数据集包含的多个隐含主题以及各隐含主题的概率，也即是该样本数据集属于各隐含主题的概率。

其中，该预设主题模型是一种自动发现隐含主题的统计模型，用于确定样本数据包含的多个隐含主题以及各隐含主题的概率。具体实现时，可以为LDA(Latent DirichletAllocation，主题生成模型)主题模型或者其他类型的模型，本发明实施例对此不做限定。

本申请实施例中，构建预设主题模型可以包括以下步骤：

1、从网络中随机抓取大量网页的链接地址，并据此获取各网页链接地址指向的页面，构建主题训练样本集；获取主题训练样本集中各页面包括的文本数据，作为训练数据集。

其中，主题训练样本集中的每个页面都可以看做是该训练数据集中的一个或多个词汇的集合，根据各词汇在该主题训练样本集中的各页面中出现的次数和各页面的词汇总数，可以计算每个词汇在每个页面中的出现概率。

2、建立初始的预设主题模型，所述初始的预设主题模型包括指定数目的隐含主题，以该训练数据集中每个词汇作为输入，以每个词汇在该待训练的隐含主题中的出现概率作为输出，训练得到预设主题模型。

将该主题训练样本集中的每个页面中的每个词汇看成是通过“以一定的概率选择了某个隐含主题，又从这个隐含主题中以一定的概率选择了某个词汇”，也即是隐含主题可以作为词汇和页面的中间量。

因此，应用LDA主题模型的吉布斯采样训练方法，对该训练数据集进行迭代训练。利用该训练数据集中的每个词汇作为输入，将每个词汇在待训练的隐含主题中的出现概率作为输出，对每个词汇的隐含主题进行迭代训练，得到该预设主题模型。

其中，该预设主题模型包括指定数目的隐含主题，这些隐含主题具体可以根据该主题训练样本集中词汇可能属于的主题确定，例如，在迭代之前确定隐含主题的数目，每次迭代训练时，根据吉布斯采样公式，随机选取每个词的隐含主题，经过多次迭代训练之后可以训练出包括该指定数目的隐含主题的预设主题模型，此时已经确定该指定数目的隐含主题具体是哪些主题，后续应用该预设主题模型可以获取任一数据集属于这些隐含主题的概率。

综上可知，该预设主题模型包含指定数目的隐含主题，且用于获取输入的数据集分别属于各隐含主题的概率。例如，假设预设主题模型包含n个隐含主题，当输入某一样本页面对应的样本数据集时，输出该样本数据集分别对应每个隐含主题的概率，可以为P1、P2……Pn。

进一步的，利用预设主题模型获取到样本数据集分别对应每个隐含主题的概率后，获取该多个隐含主题中属于特定类别隐含主题的概率，构成该样本页面的主题分布特征；并进一步判断该样本数据集对应的多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果构建特定类别判断特征。

例如，假设n个隐含主题中有三个隐含主题是属于当前需要判断的特定类别的，则获取该样本数据集对应该属于特定类别的三个隐含主题的概率，构成该样本页面的主题分布特征；假设该样本数据集对应的第j个隐含主题的概率最高(Pj最大)，则判断该第j个隐含主题是否属于特定类别，并依据判断结果构建特定类别判断特征。

训练该预设主题模型之后，还可以人工标注该指定数目的隐含主题中哪些隐含主题属于特定类别，以便根据隐含主题是否属于该特定类别训练分类器。

其中，该网页链接地址可以为网页的URL(Uniform Resource Locator，统一资源定位符)地址或者其他地址，该采样方式可以为吉布斯采样或者其他采样方式等，本发明实施例对此不做限定。

考虑到有些页面中会将某些属于特定类别的词汇转换为对应的字符，这些字符即为作弊字符，这些作弊字符虽然属于特定类别，但很难被识别出来。而本发明实施例中，通过训练预设主题模型，无论样本页面中包含正常的字符还是作弊字符，均能够根据不同样本页面中的词汇挖掘每个样本页面中的隐含主题，再通过人工标注隐含主题中属于特定类别的主题，从而保证即使属于特定类别的页面中包含的是作弊字符也能够将该页面识别出来。

获取到该样本数据集包含的多个隐含主题以及各隐含主题的概率之后，该训练设备从多个隐含主题中筛选出属于特定类别的隐含主题，将这些属于特定类别的隐含主题的概率进行组合，构成主题分布特征。并获取该多个隐含主题中概率最高的隐含主题，判断该概率最高的隐含主题是否属于特定类别，根据判断结果获取特定类别判断特征。

一般情况下，当样本页面包含的概率最高的隐含主题属于特定类型时，可以认为该样本页面属于该特定类型的可能性也比较高。因此，本申请实施例中，可以根据概率最高的隐含主题是否属于特定类别的判断结果来获取该样本页面的特定类别判断特征，该特定类型判断特征可以用于表征该样本页面是否属于该特定类型的可能性。

如果该概率最高的隐含主题属于该特定类别，则确定该特定类别判断特征为第一预设特征，以该第一预设特征来表示该样本页面属于特定类别页面的可能性较高；如果该概率最高的隐含主题不属于该特定类别，则确定该特定类别判断特征为第二预设特征，以该第二预设特征来表示该样本页面属于特定类别页面的可能性较低。例如，该第一预设特征可以为1，该第二预设特征可以为0，或者该第一预设特征和该第二预设特征还可以为其他不同的特征，本发明实施例对此不做限定。

通过利用不同的表现形式来表示该特定类别判断特征，可以明确地将概率最高的隐含主题属于该特定类别的样本页面和概率最高的隐含主题不属于该特定类别的样本页面区分开来，按照不同的特定类别判断特征结合各样本页面的类别标识训练分类器，以使训练出的分类器能够按照概率最高的隐含主题是否属于该特定类别这一影响因素进行页面类别识别。

举例来说，该预设主题模型根据样本数据集确定了1000个隐含主题的概率，其中有11个隐含主题属于特定类别，假设这11个隐含主题的概率如下：

Topic69:0.026

Topic 120:0

Topic 172:0.026

Topic 225:0

Topic 261:0.085

Topic 271:0.009

Topic 312:0.163

Topic 508:0

Topic 544:0

Topic 552:0

Topic 585:0.017

则该主题分布特征为(0.026，0，0.026，0，0.085，0.009，0.163，0，0，0，0.017)。假设该预设主题模型得到的1000个隐含主题中Topic 312的概率最大，且Topic 312属于特定类别，则该特定类别判断特征为1。

204、获取该样本数据集中每个词汇的正概率和负概率，并根据该样本数据集中所有词汇的正概率和负概率，得到该样本页面的特定类别比例特征。

其中，该正概率是指样本数据集中各词汇在该训练样本集包括的特定类别页面中的出现概率，该负概率是指样本数据集中各词汇在该训练样本集包括的非特定类别页面中的出现概率。该特定类别比例特征用于表示该样本页面属于该特定类别页面的概率与该样本页面属于非特定类别页面的概率之间的比例。

具体地，该训练设备可以构建预设语言模型。本申请实施例中，可以依据该预设语言模型来获取该样本数据集包含的各词汇的正概率和负概率。具体的，将该样本数据集输入该预设语言模型中，利用该预设语言模型，获取到该样本数据集中每个词汇的正概率和负概率。其中，该预设语言模型可以为一元语言模型或者其他语言模型，本发明实施例对此不做限定。

本申请实施例中，该预设语言模型的构建过程可以包括以下步骤：依据各样本页面的类型标识，从训练样本集中提取多个特定类别页面，和多个非特定类别页面；分别从该多个特定类别页面和非特定类别页面中提取文本数据，利用文档频率特征选择方法从提取的文本数据中选择多个词汇，构成词汇表，并计算该词汇表中每个词汇在训练样本集包括的所有特定类别页面中的出现概率(即为正概率)，以及在训练样本集包括的所有非特定类别页面中的出现概率(即为负概率)；根据该词汇表中各词汇的正概率和负概率进行多次训练之后，即可得到该预设语言模型。利用该预设语言模型，通过输入样本数据集，可以获取得到该样本数据集包括的各词汇的正概率和负概率。

本申请实施例中，步骤204的根据该样本数据集中所有词汇的正概率和负概率，获取该样本数据集的特定类别比例特征可以包括：对该样本数据集中所有词汇的正概率的乘积求取对数，得到第一对数估计值；对该样本数据集中所有词汇的负概率的乘积求取对数，得到第二对数估计值；计算该第一对数估计值与该第二对数估计值的差值，得到第一数值；计算该第一对数估计值与该第二对数估计值的和值，得到第二数值；计算该第一数值与该第二数值的比值，作为该样本数据集的特定类别比例特征。

也即是，根据获取的样本数据集中各词汇的正概率和负概率，应用以下公式，获取该样本数据集的特定类别比例特征，包括：

γ＝(p-q)/(p+q)，p＝log(a₁，a₂...a_n)，q＝log(b₁，b₂...b_n)；

其中，γ表示该样本数据集的特定类别比例特征，a_i表示第i个词汇的正概率，b_i表示第i个词汇的负概率，n表示词汇的总数量。

需要说明的是，除上述方式之外，本发明实施例还可以采用其他的方式根据词汇的正概率和负概率计算特定类别比例特征，本发明实施例对此不做限定。

205、依据该样本页面的主题分布特征、特定类别判断特征和特定类别比例特征构成该样本页面的特征向量。

基于上述步骤203的举例，假设其主题分布特征为(0.026，0，0.026，0，0.085，0.009，0.163，0，0，0，0.017)，特定类别判断特征为1。假设其特定类别比例特征为0.036，则该特征向量可以为(0.026，0，0.026，0，0.085，0.009，0.163，0，0，0，0.017，1，0.036)。

206、根据该训练样本集中每个样本页面的特征向量和所属类别进行训练，得到用于识别该特定类别页面的分类器，该分类器用于识别待识别页面是否属于特定类别。

由步骤205获取得到每个样本页面的特征向量之后，结合各样本页面的类别标识，即可训练分类器。具体的，将各样本页面的特征向量作为分类器的输入，将各样本页面的类别标识作为输出，根据每个样本页面所对应的输入和输出对该分类器的模型参数进行训练，直至分类器的准确率满足要求之后，根据当前训练得到的模型参数即可确定最终训练的分类器。

其中，训练分类器时采用的训练算法可以为支持向量机算法、随机森林分类算法或者神经网络学习算法等，本发明实施例对此不做限定。

需要说明的是，在训练出分类器之后，基于该分类器对待识别页面进行识别的过程中，还可以继续获取样本页面，或者将已经识别过的页面作为样本页面，继续根据样本页面对该分类器进行训练，以进一步提高分类器的精确度。

本发明实施例提供的方法，通过获取多个已确定类别的样本页面，构建训练样本集，遍历该训练样本集中的每个样本页面，分别获取每个样本页面的特征向量，训练得到分类器，其中获取每个样本页面的特征向量时，获取样本数据集包含的多个隐含主题，以及各隐含主题的概率，还获取该样本数据集中每个词汇的正概率和负概率，进而获取到特征向量。在训练过程中引入样本数据集对应的隐含主题的概率和词汇的正概率和负概率等语义特征，而不仅是根据关键词进行训练，提高了训练得到的分类器的准确率，保证了分类器能够根据待识别页面的语义特征进行识别，提高了识别精确度。

进一步地，在样本页面获取样本数据集的过程中，为防止特定类别页面存在作弊行为，不提取该样本页面中major标签的文本数据，而是从该样本页面中除major标签以外的标签提取文本数据，既提高了识别准确率，也减小了计算量。

图3是本发明实施例提供的一种页面类别的识别方法的流程图，本发明实施例的执行主体为识别设备，参见图3，该方法包括：

301、获取待识别页面，从该待识别页面中提取文本数据，构成待识别数据集。

本申请实施例中，训练设备训练出分类器之后，识别设备即可基于该分类器对待识别页面进行识别，具体的，获取该待识别页面的特征向量，利用分类器对其进行识别，以确定该待识别页面是否为特定类别页面。其中，该识别设备可以为该训练设备本身，也可以为与该训练设备不同的设备，即该识别设备可以从训练设备获取该分类器，基于该分类器进行识别。

进一步地，同前述实施例所述，从该待识别页面中提取文本数据时，也可以仅从该待识别页面中除major标签以外的其他标签中提取。

302、获取该待识别数据集包含的多个隐含主题，以及各隐含主题的概率；获取该多个隐含主题中属于特定类别隐含主题的概率，构成该待识别页面的主题分布特征；并判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成该待识别页面的特定类别判断特征。

本申请实施例中，可以依据预设主题模型来获取该待识别数据集包含的多个隐含主题，以及各隐含主题的概率。具体的，将该待识别数据集包括的词汇输入到该预设主题模型中，得到的输出即为该待识别数据集包含的多个隐含主题，以及各隐含主题的概率。

依据预设主题模型输出的该待识别数据集包含的多个隐含主题，以及各隐含主题的概率，获取该待识别数据集包括的多个隐含主题中属于特定类别隐含主题的概率，构成该待识别页面的主题分布特征；并判断该待识别数据集包括的多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果获取该待识别页面的特定类别判断特征。

本发明实施例中，该依据判断结果生成该待识别页面的特定类别判断特征，包括：如果该概率最高的隐含主题属于该特定类别，则确定该特定类别判断特征为第一预设特征；该第一预设特征用于表征该待识别页面属于该特定类别的可能性较高；如果该概率最高的隐含主题不属于该特定类别，则确定该特定类别判断特征为第二预设特征；该第一预设特征用于表征该待识别页面不属于该特定类别的可能性较高。

303、获取该待识别数据集中每个词汇的正概率和负概率，并根据该待识别数据集中所有词汇的正概率和负概率，得到该待识别页面的特定类别比例特征。

本申请实施例中，可以依据预设语言模型来获取该待识别数据集中每个词汇的正概率和负概率。具体的，将该待识别数据集输入到该预设语言模型中，得到的输出即为该待识别数据集包含的每个词汇的正概率和负概率。之后即可依据预设语言模型输出的该待识别数据集包含的每个词汇的正概率和负概率，获取该待识别页面的特定类别比例特征。

具体的，根据该待识别数据集中所有词汇的正概率和负概率，得到该待识别页面的特定类别比例特征，包括：对该待识别数据集中所有词汇的正概率的乘积求取对数，得到第一对数估计值；对该待识别数据集中所有词汇的负概率的乘积求取对数，得到第二对数估计值；计算该第一对数估计值与该第二对数估计值的差值，得到第一数值；计算该第一对数估计值与该第二对数估计值的和值，得到第二数值；计算该第一数值与该第二数值的比值，作为该待识别数据集的特定类别比例特征。

304、依据该待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成该待识别页面的特征向量。

其中，步骤302至304与上述实施例所述的步骤203-205中获取样本页面的特征向量的过程类似，在此不再赘述。

需要说明的是，获取该待识别页面的特征向量，可以包括：获取该待识别页面对应的待识别数据集对应的多个隐含主题的概率，并将该多个隐含主题中属于特定类别的隐含主题的概率构成主题分布特征；根据该多个隐含主题中概率最高的隐含主题是否属于特定类别获取特定类别判断特征；获取该数据集中每个词汇的正概率和负概率，并根据获取的正概率和负概率，获取该数据集的特定类别比例特征；将该待识别页面的主题分布特征、该特定类别判断特征和该特定类别比例特征构成该待识别页面的特征向量。

305、基于预设的分类器对该待识别页面的特征向量进行识别，确定该待识别页面是否属于特定类别页面。

具体的，基于预设的分类器识别得到待识别页面的类别标识，如果该类别标识为第一类别标识，则确定该待识别页面为特定类别页面，如果该类别标识为第二类别标识，则确定该待识别页面不是特定类别页面。

实际应用中，有些页面中会将某些属于特定类别的词汇转换为对应的字符，这些字符即为作弊字符，此时如果采用基于关键词识别特定类别页面的方法，会由于该关键词表中不包括该作弊字符而导致不能成功识别出特定类别页面。而本发明实施例引入了页面属于特定类别的概率，页面中词汇在特定类别页面中的出现概率和在除特定类别页面以外的其他页面中的出现概率等语义特征，无论页面中的词汇是原始词汇还是原始词汇的作弊字符，均能够识别出来，提高了识别精确度。实验结果表明，采用本发明实施例提供的方法，可以保证识别准确率高达95％以上。

本发明实施例提供的方法，通过根据待识别页面的数据集的多个隐含主题的概率和每个词汇的正概率和负概率，获取待识别页面的特征向量，从而基于已训练的分类器对该特征向量进行识别。由于引入样本数据集对应的隐含主题的概率和词汇的正概率和负概率这些语义特征，而不仅是关键词，保证了分类器能够根据待识别页面的语义特征进行识别，提高了识别精确度。进一步地，不提取major标签的文本数据，而是从除major标签以外的标签提取文本数据，既提高了识别准确率，也减小了计算量。

图4是本发明实施例提供的一种页面类别的识别装置的结构示意图，参见图4，该装置包括：

数据集构建模块401，用于从待识别页面中提取文本数据，构成待识别数据集；

第一特征构建模块402，用于获取该待识别数据集包含的多个隐含主题，以及各隐含主题的概率；该隐含主题的概率是指该待识别数据集中的文本数据属于该隐含主题的概率；获取该多个隐含主题中属于特定类别隐含主题的概率，构成该待识别页面的主题分布特征；判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成该待识别页面的特定类别判断特征；

第二特征构建模块403，用于获取该待识别数据集中每个词汇的正概率和负概率，并根据该待识别数据集中所有词汇的正概率和负概率，得到该待识别页面的特定类别比例特征；该正概率是指词汇在预设训练样本集包括的特定类别页面中的出现概率，该负概率是指词汇在预设训练样本集包括的非特定类别页面中的出现概率；

向量构建模块404，用于依据该待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成该待识别页面的特征向量；

识别模块405，用于基于预设的分类器对该待识别页面的特征向量进行识别，确定该待识别页面是否属于特定类别页面。

本发明实施例提供的装置，通过获取待识别页面对应的待识别数据集包含的多个隐含主题，以及各隐含主题的概率，构成待识别页面的主题分布特征，判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成待识别页面的特定类别判断特征，并获取该待识别数据集包括的每个词汇的正概率和负概率，得到特定类别比例特征，从而依据待识别页面的主题分布特征、特定类别判断特征和特定类别比例特征构成待识别页面的特征向量，基于已训练的分类器利用该特征向量对该待识别页面是否属于特定类别进行识别。由于引入了隐含主题的概率和词汇的正概率和负概率等语义特征，而不仅是依据关键词进行判定，保证了分类器能够根据待识别页面的语义特征进行识别，提高了页面类别识别的精确度。

可选地，该第一特征构建模块402包括：

第一确定子模块，用于如果该概率最高的隐含主题属于该特定类别，则确定该特定类别判断特征为第一预设特征；该第一预设特征用于表征该待识别页面属于该特定类别的可能性较高；

第二确定子模块，用于如果该概率最高的隐含主题不属于该特定类别，则确定该特定类别判断特征为第二预设特征；该第一预设特征用于表征该待识别页面不属于该特定类别的可能性较高。

可选地，该第二特征构建模块403包括：

第一计算子模块，用于对该待识别数据集中所有词汇的正概率的乘积求取对数，得到第一对数估计值；对该待识别数据集中所有词汇的负概率的乘积求取对数，得到第二对数估计值；

第二计算子模块，用于计算该第一对数估计值与该第二对数估计值的差值，得到第一数值，并计算该第一对数估计值与该第二对数估计值的和值，得到第二数值；

第三计算子模块，用于计算该第一数值与该第二数值的比值，作为该待识别数据集的特定类别比例特征。

可选地，该数据集构建模块401包括：

构建子模块，用于从该待识别页面中除major标签以外的标签提取文本数据，构成该待识别数据集。

可选地，该识别模块405包括：

类别识别子模块，用于基于该分类器，对该待识别页面的特征向量进行识别，得到该待识别页面的类别标识；

第三确定子模块，用于如果该类别标识为第一类别标识，则确定该待识别页面为该特定类别页面；

第四确定子模块，用于如果该类别标识为第二类别标识，则确定该待识别页面不是该特定类别页面。

可选地，该装置还包括：

样本特征构建模块，用于遍历该训练样本集中的每个样本页面，分别获取每个样本页面的特征向量；

训练模块，用于根据该训练样本集中每个样本页面的特征向量和所属类别进行训练，得到该分类器；

其中，该样本特征构建模块包括：

提取子模块，用于从该样本页面中提取文本数据，构成该样本页面对应的样本数据集；

第一获取子模块，用于获取该样本数据集包含的多个隐含主题，以及各隐含主题的概率；

第二获取子模块，用于获取该多个隐含主题中属于特定类别隐含主题的概率，构成该样本页面的主题分布特征；

判断子模块，用于判断该多个隐含主题中概率最高的隐含主题是否属于特定类别，并依据判断结果生成该样本页面的特定类别判断特征；

第三获取子模块，用于获取该样本数据集中每个词汇的正概率和负概率，并根据该样本数据集中所有词汇的正概率和负概率，得到该样本页面的特定类别比例特征；

向量构成子模块，用于依据该样本页面的主题分布特征、特定类别判断特征和特定类别比例特征构成该样本页面的特征向量。

可选地，该样本特征构建模块依据预设主题模型获取该样本数据集包含的多个隐含主题，以及各隐含主题的概率；

该装置还包括：主题模型训练模块，用于建立初始的预设主题模型，所述初始的预设主题模型包括指定数目的待训练的隐含主题；构建主题训练样本集，获取所述主题训练样本集中各页面包括的文本数据，作为训练数据集；以所述训练数据集中每个词汇作为输入，以每个词汇在所述待训练的隐含主题中的出现概率作为输出，训练得到所述预设主题模型。

可选地，该样本特征构建模块依据预设语言模型获取该样本数据集中每个词汇的正概率和负概率；

该装置还包括：语言模型训练模块，用于从该训练样本集中提取多个特定类别页面和非特定类别页面；分别从该多个特定类别页面和非特定类别页面中提取文本数据，利用文档频率特征选择方法从提取的文本数据中选择多个词汇，构成词汇表；计算该词汇表中每个词汇在该训练样本集包括的所有特定类别页面中的出现概率作为各词汇的正概率；计算该词汇表中每个词汇在该训练样本集包括的所有非特定类别页面中的出现概率作为各词汇的负概率；根据该词汇表中所有词汇的正概率和负概率，训练得到该预设语言模型。

需要说明的是：上述实施例提供的页面类别的识别装置在识别特定类别页面时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将训练设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的页面类别的识别装置与页面类别的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于页面类别识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种页面类别的识别方法，所述方法包括：

从待识别页面中提取文本数据，构成待识别数据集；

图6是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

该服务器1900用于执行上述实施例示出的页面类别识别方法或者用于页面类别识别的分类器生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种页面类别的识别方法，其特征在于，所述方法包括：

从待识别页面中提取文本数据，构成待识别数据集；

2.根据权利要求1所述的方法，其特征在于，所述依据判断结果生成所述待识别页面的特定类别判断特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待识别数据集中所有词汇的正概率和负概率，得到所述待识别页面的特定类别比例特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述从待识别页面中提取文本数据，构成待识别数据集，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于预设的分类器对所述待识别页面的特征向量进行识别，确定所述待识别页面是否属于特定类别页面，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个已确定类别的样本页面，构建训练样本集；

其中，所述获取每个样本页面的特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，依据预设主题模型获取所述样本数据集包含的多个隐含主题、以及各隐含主题的概率；

所述方法还包括：

建立初始的预设主题模型，所述初始的预设主题模型包括指定数目的待训练的隐含主题；

8.根据权利要求6所述的方法，其特征在于，依据预设语言模型获取所述样本数据集中每个词汇的正概率和负概率；

所述方法还包括：

9.一种页面类别的识别装置，其特征在于，所述装置包括：

10.一种用于页面类别识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

从待识别页面中提取文本数据，构成待识别数据集；