CN108874996B

CN108874996B - 网站分类方法及装置

Info

Publication number: CN108874996B
Application number: CN201810607605.5A
Authority: CN
Inventors: 蔡自彬; 刘哲理; 叶金辉; 梁爽
Original assignee: Nankai University; Beijing Knownsec Information Technology Co Ltd
Current assignee: Nankai University; Beijing Knownsec Information Technology Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2021-08-24
Anticipated expiration: 2038-06-13
Also published as: CN108874996A

Abstract

本申请实施例提供一种网站分类方法及装置。该方法包括：获得待分类的网站；爬取所述待分类的网站中的页面文本以及关键词；计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词；将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值，所述贝叶斯分类模型的训练样本通过网站爬取得到；基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此，采用本申请能够自动生成训练样本，无需人工处理，工作量小，同时在网页文本数据较少时，也能够实现准确的网站分类。

Description

网站分类方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种网站分类方法及装置。

背景技术

现有技术中的网站分类方法主要是通过人工标注生成训练样本，基于网页内容提取特征，使用机器学习算法学习训练样本得到贝叶斯分类模型，从而实现网站分类。但是上述方法需要人工标注训练样本，工作量巨大，并且如果网页内容很少时，机器学习算法分类结果误差较大。

此外，还有通过爬取大量网站，通过聚类算法及人工标注生成训练样本，从而基于网页内容提取特征并使用机器学习算法学习训练样本得到分类模型的方法。但是聚类算法生成类别比较粗，可能无法满足实际需求，同样地，如果网页内容很少时，机器学习算法分类结果很差。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种网站分类方法及装置，能够自动生成训练样本，无需人工处理，工作量小，同时在网页文本数据较少时，也能够实现准确的网站分类。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种网站分类方法，所述方法包括：

获得待分类的网站；

爬取所述待分类的网站中的页面文本以及关键词；

计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词；

将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值，所述贝叶斯分类模型的训练样本通过网站爬取得到；

基于所述第一分类结果集和所述第二分类结果集输出分类结果。

可选地，在所述获得待分类的网站的步骤之前，所述方法包括：

配置所述贝叶斯分类模型；

所述配置所述贝叶斯分类的方式，包括：

获取各个网站类别标签；

针对每个网站类别标签，在搜索引擎中搜索该网站类别标签，得到搜索结果；

爬取所述搜索结果中的各个网站的页面内容，得到爬取结果，所述爬取结果作为训练样本；

对所述训练样本进行预处理，得到特征向量，并使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。

可选地，所述对所述训练样本进行预处理，得到特征向量的步骤，包括：

对所述训练样本进行分词，得到多个分词；

计算所述多个分词的特征权重；

根据所述特征权重将所述训练样本表示为特征向量。

可选地，所述计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集的步骤，包括：

计算预先设置的各个网站类别标签在所述关键词中的出现频率；

按照频率由高到低的顺序对所述各个网站类别标签进行排序，得到第一分类结果集。

可选地，所述基于所述第一分类结果集和所述第二分类结果集输出分类结果的步骤，包括：

判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签；

若是，则以相同的网站类别标签作为分类结果输出；

若否，则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签，若存在，则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出；

若不存在，则将所述第一分类结果集中按照频率由高到低的顺序排序前N个网站类别标签作为分类结果输出。

第二方面，本申请实施例还提供一种网站分类装置，所述装置包括：

获得模块，用于获得待分类的网站；

爬取模块，用于爬取所述待分类的网站中的页面文本以及关键词；

计算模块，用于计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词；

输入模块，用于将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值，所述贝叶斯分类模型的训练样本通过网站爬取得到；

输出模块，用于基于所述第一分类结果集和所述第二分类结果集输出分类结果。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的网站分类方法及装置，首先获得待分类的网站，并爬取所述待分类的网站中的页面文本以及关键词。接着，计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词。然后将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值，所述贝叶斯分类模型的训练样本通过网站爬取得到。最后，基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此，采用本申请提供的技术方案，能够自动生成训练样本，无需人工处理，工作量小，同时结合基于网站关键词的第一分类结果集和贝叶斯分类模型的第二分类结果集得到最终分类结果，在网页文本数据较少时，也能够实现准确的网站分类。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的网站分类方法的一种流程示意图；

图2为本申请实施例提供的网站分类方法的另一种流程示意图；

图3为本申请实施例提供的网站分类装置的一种功能模块图；

图4为本申请实施例提供的网站分类装置的另一种功能模块图。

图标：100-网站分类装置；109-配置模块；110-获得模块；120-爬取模块；130-计算模块；140-输入模块；150-输出模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语"第一"、"第二"等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参阅图1，为本申请实施例提供的网站分类方法的一种流程示意图。所应说明的是，本申请实施例提供的网站分类方法不以图1及以下所述的具体顺序为限制，该网站分类方法可以通过如下步骤实现：

步骤S110，获得待分类的网站。

本实施例中，所述待分类的网站可以包括至少一个，可以进行随机选取，也可以根据用户需求进行选取。

步骤S120，爬取所述待分类的网站中的页面文本以及关键词。

本实施例中，通过利用网络爬虫技术爬取每个所述待分类的网站中的页面文本以及关键词。所述页面文本也即所述待分类的网站的网站全部文本内容，所述关键词也即所述页面文本中经过去重之后的各个分词。

步骤S130，计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集。

本实施例中，所述各个网站类别标签都为预先设置的，同时为保证后续的分类准确性，每个所述网站类别标签包括标签名及其同义词。例如，所述标签名为新闻，则及其同义词为热点、时事、讯息等等。

在实施时，可以计算所述预先设置的各个网站类别标签在所述关键词中的出现频率，再按照频率由高到低的顺序对所述各个网站类别标签进行排序，得到第一分类结果集。

步骤S140，将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集。

详细地，在对所述步骤S140进行进一步阐述之前，首先对所述贝叶斯分类模型的配置方式进行说明，请参阅图2，在所述步骤S110之前，本申请提供的网站分类方法还可以包括如下步骤：

步骤S109，配置贝叶斯分类模型。

作为一种实施方式，所述贝叶斯分类模型的训练样本可以通过网站爬取得到。首先，获取各个网站类别标签，所述各个网站类别标签可以根据用户需求进行选定，在此不作具体限定。

接着，针对每个网站类别标签，在搜索引擎(例如百度、谷歌等)中搜索该网站类别标签，得到搜索结果。再爬取所述搜索结果中的各个网站的页面内容，得到爬取结果，所述爬取结果作为训练样本。

最后，对所述训练样本进行预处理，得到特征向量，并使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。其中，对所述训练样本进行预处理，得到特征向量的方式可以是：

首先，对所述训练样本进行分词，得到多个分词。本实施例中，由于所述训练样本是连续的子序列，因此需要对其进行中文分词，中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，由此可以得到多个分词。

接下来，计算所述多个分词的特征权重。本实施例中，可以采用词的TFIDF(termfrequency-inversedocumentfrequency词频-逆向文件频率)值作为所述特征权重，值得说明的是，其它任何类似的特征权重计算方法也都适用于本申请，在此不作具体限定。

其中，所述TFIDF值的计算公式为：

TFIDF(w)＝TF(w)*IDF(w)

其中TF(w)的值为w的所有被爬取网站的特征权重中的出现次数，IDF(w)＝log(total occur(w))

其中total为所有被爬取网站的特征权重的数量，occur(w)的值为包含有w的被爬取网站的特征权重的数量。

最后，根据所述特征权重将所述训练样本表示为特征向量，使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。

由此，将所述页面文本以及关键词输入到上述的贝叶斯分类模型中，即可得到第二分类结果集，所述第二分类结果集中包括有各个网站类别标签的预测概率值。

步骤S150，基于所述第一分类结果集和所述第二分类结果集输出分类结果。

作为一种实施方式，首先判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签，若所述第一分类结果集和所述第二分类结果集有相同的网站类别标签，则以相同的网站类别标签作为分类结果输出。若所述第一分类结果集和所述第二分类结果集没有相同的网站类别标签，则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签，若存在，则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出。若不存在，则将所述第一分类结果集中按照频率由高到低的顺序排序前N个网站类别标签作为分类结果输出。例如，若所述第一分类结果集和所述第二分类结果集都具有相同的网站类别标签“新闻”，则以将网站类别标签“新闻”作为分类结果输出。若所述第一分类结果集和所述第二分类结果集不具有相同的网站类别标签，则查找所述第二分类结果集中是否存在预测概率大于60％的网站类别标签，若存在，则将所述第二分类结果集中预测概率大于60％的网站类别标签作为分类结果输出。否则，则将所述第一分类结果集中按照频率由高到低的顺序排序前三个网站类别标签作为分类结果输出。

基于上述设计，本实施例结合基于网站关键词的第一分类结果集和贝叶斯分类模型的第二分类结果集得到最终分类结果，在网页文本数据较少时，也能够实现准确的网站分类。

请参阅图3，本申请实施例还提供一种网站分类装置100，所述装置可包括：

获得模块110，用于获得待分类的网站。

爬取模块120，用于爬取所述待分类的网站中的页面文本以及关键词。

计算模块130，用于计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词。

输入模块140，用于将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值。

输出模块150，用于基于所述第一分类结果集和所述第二分类结果集输出分类结果。

请进一步参阅图4，可选地，所述装置还可以包括：

配置模块109，用于配置所述贝叶斯分类模型。

所述配置所述贝叶斯分类的方式，包括：

获取各个网站类别标签；

对所述训练样本进行预处理，得到特征向量，并使用贝叶斯算法学习所述特征向量得到分类模型。

可选地，所述配置模块109，还用于对所述训练样本进行分词，得到多个分词，并计算所述多个分词的特征权重，根据所述特征权重将所述训练样本表示为特征向量。

可选地，所述计算模块130，用于计算预先设置的各个网站类别标签在所述关键词中的出现频率，并按照频率由高到低的顺序对所述各个网站类别标签进行排序，得到第一分类结果集。

可选地，所述输出模块150，用于判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签，若是，则以相同的网站类别标签作为分类结果输出；若否，则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述图1及图2中方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本申请实施例提供的网站分类方法及装置，首先获得待分类的网站，并爬取所述待分类的网站中的页面文本以及关键词。接着，计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词。然后将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中，得到第二分类结果集，其中，所述第二分类结果集中包括有各个网站类别标签的预测概率值，所述贝叶斯分类模型的训练样本通过网站爬取得到。最后，基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此，采用本申请提供的技术方案，能够自动生成训练样本，无需人工处理，工作量小，同时结合基于网站关键词的第一分类结果集和贝叶斯分类模型的第二分类结果集得到最终分类结果，在网页文本数据较少时，也能够实现准确的网站分类。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等

需要说明的是，在本文中，术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种网站分类方法，其特征在于，所述方法包括：

获得待分类的网站；

爬取所述待分类的网站中的页面文本以及关键词；

基于所述第一分类结果集和所述第二分类结果集输出分类结果；

其中，所述计算预先设置的各个网站类别标签在所述关键词中的出现频率，得到第一分类结果集的步骤，包括：

按照频率由高到低的顺序对所述各个网站类别标签进行排序，得到第一分类结果集；

在所述获得待分类的网站的步骤之前，所述方法包括：

配置所述贝叶斯分类模型；

所述配置所述贝叶斯分类的方式，包括：

获取各个网站类别标签；

2.根据权利要求1所述的网站分类方法，其特征在于，所述对所述训练样本进行预处理，得到特征向量的步骤，包括：

对所述训练样本进行分词，得到多个分词；

计算所述多个分词的特征权重；

根据所述特征权重将所述训练样本表示为特征向量。

3.根据权利要求1所述的网站分类方法，其特征在于，所述基于所述第一分类结果集和所述第二分类结果集输出分类结果的步骤，包括：

若是，则以相同的网站类别标签作为分类结果输出；

4.一种网站分类装置，其特征在于，所述装置包括：

获得模块，用于获得待分类的网站；

计算模块，用于用于计算预先设置的各个网站类别标签在所述关键词中的出现频率，并按照频率由高到低的顺序对所述各个网站类别标签进行排序，得到第一分类结果集，其中，每个所述网站类别标签包括标签名及其同义词；

输出模块，用于基于所述第一分类结果集和所述第二分类结果集输出分类结果；

所述装置包括：

配置模块，用于配置所述贝叶斯分类模型；

所述配置所述贝叶斯分类的方式，包括：

获取各个网站类别标签；

5.根据权利要求4所述的网站分类装置，其特征在于，所述配置模块，还用于对所述训练样本进行分词，得到多个分词，并计算所述多个分词的特征权重，根据所述特征权重将所述训练样本表示为特征向量。

6.根据权利要求4所述的网站分类装置，其特征在于：

所述输出模块，用于判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签，若是，则以相同的网站类别标签作为分类结果输出；若否，则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签，若存在，则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出；若不存在，则将所述第一分类结果集中按照频率由高到低的顺序排序前N个网站类别标签作为分类结果输出。