CN113468396A

CN113468396A - 一种基于元标签的网页分类方法、装置和设备

Info

Publication number: CN113468396A
Application number: CN202110839016.1A
Authority: CN
Inventors: 朱毅; 陈良国; 安禹
Original assignee: Chengdu Shudao Yixin Technology Co ltd
Current assignee: Chengdu Shudao Yixin Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-01

Abstract

本发明公开了一种基于元标签的网页分类方法、装置和设备，包括：从待分类网页中爬取基于元标签的总文本数据；对总文本数据进行预处理，得到数据样本集；利用过滤器过滤得到数据样本集中的敏感词字数，并根据敏感词字数确定数据样本集中的数据异常度；根据数据异常度确定深度学习分类模型的输入文本数据；对输入文本数据进行分类训练，获得网页分类结果。本发明基于元标签对网页进行分类，能够同时兼顾网页分类效率和准确率，实现网页多层次分类；通过对网页中的敏感词进行降噪清洗，能够提高网页主题分类的精度；能够在不依赖标注数据的前提下，仅利用数据集中的文本数据，完成异常度阈值设置；不需要存储网整的网页源代码，节省了存储空间。

Description

一种基于元标签的网页分类方法、装置和设备

技术领域

本发明属于网络信息安全技术领域，具体涉及一种基于元标签的网页分类方法、装置和设备。

背景技术

当前，包含各种不良内容的网页层出不穷，对于此类网页中的敏感内容进行检测和分类的需求日益剧增。由于网页数据半结构化且没有统一的布局风格，现有常用的网页敏感内容检测分析方法为对整个网页信息进行爬取，再对爬取的数据进行分析处理，从而在网页文本中抽取有效信息。在处理网站主题分类任务时，常用方式为采用网页的源代码进行信息爬取，并在爬取的网页源代码中对主题相关信息进行提取处理。

然而，随着信息处理量的上升，对网页源代码进行分析处理的方法存在以下缺陷：

1)网页源代码通常是一系列长文本，从中提取主题相关信息存在诸多困难，且对提取的主题信息进行存储会占用较大的存储空间，此外，还存在计算较为耗时的问题；

2)网站内部可能会存在与主题无关的噪声信息，常见的噪声信息内容包括广告信息、涉黄信息以及涉赌信息等不良内容。常用的去噪处理方式包括：①对网页进行去重；②对网页中的噪音链接进行去除；③去除网页内部的噪音内容。然而，在网页源码中进行去噪处理需要经过多阶段的处理，步骤复杂，通常需消耗较多的计算资源与较长的计算时间。

3)由于层次类别组织网页能够简化信息检索，满足不同粒度分类的需求，受到用户喜爱，许多用户网站将网站类别组织成了层次结构。层次结构组织的网站往往类别庞多，对网页数据进行准确多分类本身是一大难点。当处理分类任务时，如果不能从长文本中提取有效信息，会进一步降低分类效果，从而导致分类出现错误传播问题，即上层的错误分类导致下层分类错误。同时，层次分类问题中不同类别的网页常常数量不均衡，如果不能处理好部分数据稀缺的类别中的噪声信息，将变相加重数据倾斜问题，进一步降低分类的效果。因此，网页分类的效率和数据问题亟待解决。

发明内容

本发明的目的是提供一种基于元标签的网页分类方法、装置和设备，用于解决现有技术中存在的至少一个问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种基于元标签的网页分类方法，包括：

从待分类网页中爬取基于元标签的总文本数据；

对所述总文本数据进行预处理，得到数据样本集；

利用过滤器过滤得到所述数据样本集中的敏感词字数，并根据所述敏感词字数确定所述数据样本集中的数据异常度；

根据所述数据异常度确定深度学习分类模型的输入文本数据；

对所述输入文本数据进行分类训练，获得网页分类结果。

在一种可能的设计中，从待分类网页中爬取基于元标签的总文本数据，包括：

从待分类网页中爬取基于标题标签的总标题数据和基于描述标签的总描述数据。

在一种可能的设计中，对所述文本数据进行预处理，得到数据样本集，包括：

对所述总标题数据和所述总描述数据进行去分词处理和去停用词处理，得到所述数据样本集；

其中，所述数据样本集包括多个数据样本，每一数据样本中均含有标题数据和描述数据。

在一种可能的设计中，利用过滤器过滤所述数据样本集中的敏感字数，以确定所述数据样本集中的数据异常度，包括：

根据敏感词库构建基于确定有穷自动机的单词树，并将每一所述数据样本与所述单词树中的敏感词进行匹配，以确定每一数据样本的第一异常度和第二异常度；

其中，所述第一异常度为所述标题数据中敏感词字数的占比，所述第二异常度为所述描述数据中敏感词字数的占比；

设定第一异常度阈值和第二异常度阈值，计算所述数据样本集中第一异常样本数与第二异常样本数之间的差值；

其中，所述第一异常样本数为所述数据样本集中，至少所述第一异常度超过所述第一异常度阈值的样本数，或至少所述第二异常度超过所述第二异常度阈值的样本数；

所述第二异常样本数为所述数据样本集中，所述第一异常度超过所述第一异常度阈值且所述第二异常度超过所述第二异常度阈值的样本数；

根据所述差值，对所述样本数据集进行抽样验证，并根据验证结果调整所述第一异常度阈值和所述第二异常度阈值的取值。

在一种可能的设计中，根据所述数据异常度确定深度学习分类模型的输入文本数据，包括；

判断每一数据样本的第二异常度是否大于所述第二异常度阈值，若是，则将所述标题数据作为深度学习分类模型的父类别的输入文本数据，否则将所述描述数据作为深度学习分类模型的父类别的输入文本数据。

在一种可能的设计中，对所述输入文本数据进行分类训练，获得网页分类结果，包括：

将所述父类别的输入文本数据进行编码形成向量，并输入到所述深度学习分类模型中；

利用Sigmoid激活函数得到类别概率分布，选择输出层中概率最大的类别作为父类别的分类结果。

在一种可能的设计中，根据所述数据异常度确定深度学习分类模型的输入文本数据，还包括：

确定每一数据样本中，所述第一异常度是否大于所述第一异常度阈值，若是，则将该数据样本中的标题数据作为所述网页父类别下的子类别的输入文本数据，否则将该数据样本中的描述数据作为所述网页父类别下的子类别的输入文本数据。

判断每一数据样本的第一异常度是否大于所述第一异常度阈值，并判断第二异常度是否小于所述第二异常度阈值，若是，则将所述描述数据作为父类别下的子类别的输入文本数据，否则将所述标题数据作为该子类别的输入文本数据。

在一种可能的设计中，对所述输入文本数据进行分类训练，获得网页分类结果，还包括：

将所述子类别的输入文本数据进行编码形成向量，并输入到所述深度学习分类模型中；

利用Sigmoid激活函数得到类别概率分布，选择输出层中概率最大的类别作为子类别的分类结果。

第二方面，本发明提供一种基于元标签的网页分类装置，包括：

数据爬取模块，用于从待分类网页中爬取基于元标签的总文本数据；

数据处理模块，用于对所述总文本数据进行预处理，得到数据样本集；

数据异常确定模块，用于利用过滤器过滤得到所述数据样本集中的敏感词字数，并根据所述敏感词字数确定所述数据样本集中的数据异常度；

输入文本数据确定模块，用于根据所述数据异常度确定深度学习分类模型的输入文本数据；

分类训练模块，用于对所述输入文本数据进行分类训练，获得网页分类结果。

在一种可能的设计中，在从待分类网页中爬取基于元标签的总文本数据时，所述数据爬取模块具体用于：

在一种可能的设计中，在对所述文本数据进行预处理，得到数据样本集时，所述数据处理模块具体用于：

在一种可能的设计中，在利用过滤器过滤所述数据样本集中的敏感字数，以确定所述数据样本集中的数据异常度时，数据异常确定模块具体用于：

在一种可能的设计中，在根据所述数据异常度确定深度学习分类模型的输入文本数据时，所述输入文本数据确定模块具体用于；

在一种可能的设计中，在对所述输入文本数据进行分类训练，获得网页分类结果时，所述分类训练模块具体用于：

在一种可能的设计中，在根据所述数据异常度确定深度学习分类模型的输入文本数据，所述输入文本数据确定模块还具体用于：

在一种可能的设计中，在对所述输入文本数据进行分类训练，获得网页分类结果，所述分类训练模块还具体用于：

第三方面，本发明提供一种计算机设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面任意一种可能的设计中所述的基于元标签的网页分类方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如如第一方面任意一种可能的设计中所述的基于元标签的网页分类方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面任意一种可能的设计中所述的基于元标签的网页分类方法。

有益效果：本发明从待分类网页中爬取基于元标签的总文本数据；对总文本数据进行预处理，得到数据样本集；利用过滤器过滤得到数据样本集中的敏感词字数，并根据敏感词字数确定数据样本集中的数据异常度；根据数据异常度确定深度学习分类模型的输入文本数据；对输入文本数据进行分类训练，获得网页分类结果。本发明基于元标签对网页进行分类，能够同时兼顾网页分类效率和准确率，实现网页多层次分类；通过对网页中的敏感词进行降噪清洗，能够提高网页主题分类的精度；能够在不依赖标注数据的前提下，仅利用数据集中的文本数据，完成异常度阈值设置；不需要存储网整的网页源代码，节省了存储空间。

附图说明

图1为本发明实施例中基于元标签的网页分类方法的流程图；

图2为本发明实施例中基于元标签的网页分类方法的另一流程图；

图3为本发明实施例基于元标签的网页分类装置的结构图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1-2所示，第一方面，本发明提供一种基于元标签的网页分类方法，包括但不限于步骤S101～S105实现：

步骤S101.从待分类网页中爬取基于元标签的总文本数据；

其中，需要说明的是，所述元标签包括但不限于abstract(摘要)标签、unavailable_afer(即将诞生的网页标签)、distribution(发行)标签、copyright(著作权)标签、classification(类别)标签、keywords(关键词)标签、author(作者)标签、Cache-control(控制网页缓存)标签、description(描述)标签以及title(标题)标签。考虑到网页在应用时，上述部分标签存在缺失的情况，在本实施例中，优选的，所述元标签选用描述标签和标题标签。

则在步骤S101中，从待分类网页中爬取基于元标签的总文本数据，包括：

步骤S102.对所述总文本数据进行预处理，得到数据样本集；

其中，需要说明的是，所述总文本数据包括从多个网站的多个网页中爬取的总标题数据和总描述数据，在所述总标题数据和总描述数据中，包含有一些已经停用的数据，以及一些长文本数据，因此，需要对所述总标题数据和总描述数据进行如下处理：

则在步骤S102中，对所述文本数据进行预处理，得到数据样本集，包括：

其中，需要说明的是，所述数据样本以网站为单位，每一网站对应一个数据样本。

步骤S103.利用过滤器过滤得到所述数据样本集中的敏感词字数，并根据所述敏感词字数确定所述数据样本集中的数据异常度；

在步骤S103中，利用过滤器过滤所述数据样本集中的敏感字数，以确定所述数据样本集中的数据异常度，包括：

步骤S1031.根据敏感词库构建基于确定有穷自动机的单词树，并将每一所述数据样本与所述单词树中的敏感词进行匹配，以确定每一数据样本的第一异常度和第二异常度；

其中，需要说明的是，利用所述确定有穷自动机对所述数据样本集中的敏感字数进行过滤，具有以下作用：1)能够提高单词的匹配速度；2)便于在单词匹配过程中计算敏感词字数的占比。具体的，在将每一所述数据样本与所述单词树中的敏感词进行匹配时，以该数据样本在被分词后得到的词语为单位进行单词匹配。

步骤S1032.设定第一异常度阈值和第二异常度阈值，计算所述数据样本集中第一异常样本数与第二异常样本数之间的差值；

其中，需要说明的是，系统可以根据需要设定不同的第一异常度阈值和不同的第二异常度阈值，然后计算在每一个第一异常度阈值和/或第二异常度阈值下，所述数据样本集中的第一异常样本数和第二异常样本数，然后每次对应计算所述第一异常样本数和第二异常样本数之间的差值，所述差值表示在所述样本数据集中标题数据和描述数据仅有一者为异常的样本，对于该类样本可以通过将正常的元标签取代异常的元标签进行输入，从而提高网页数据的质量。

步骤S1033.根据所述差值，对所述样本数据集进行抽样验证，并根据验证结果调整所述第一异常度阈值和所述第二异常度阈值的取值。

其中，需要说明的是，当获取到所述第一异常样本数和第二异常样本数之间的差值后，可以通过人工对样本数据集进行抽样验证从而确定样本数据集中的第一异常样本数和第二异常样本数的情况，对于污染较轻的样本数据集可以将在可控范围内将所述第一异常度阈值和所述第二异常度阈值的取值增加，从而减少误判率；对于污染较重的样本数据集可以在可控范围内将所述第一异常度阈值和所述第二异常度阈值的取值降低，从而减少漏检率。

步骤S104.根据所述数据异常度确定深度学习分类模型的输入文本数据；

在步骤S104中，根据所述数据异常度确定深度学习分类模型的输入文本数据，包括：

其中，需要说明的是，由于描述数据相较于标题数据的数据长度更长，包含的网页信息往往更多，且父类别间区分度往往高于父类别下的子类别间的区分度，因此受长文本冗余信息影响更小，因此此处优先考虑将描述数据作为深度学习分类模型的父类别的输入文本数据。

步骤S105.对所述输入文本数据进行分类训练，获得网页分类结果。

在步骤S105中，对所述输入文本数据进行分类训练，获得网页分类结果，包括：

在步骤S104中，根据所述数据异常度确定深度学习分类模型的输入文本数据，还包括：

其中，需要说明的是，由于标题数据相较于描述数据的数据长度更短，且子类别之间的区分度相对来说较小，因此此处优先考虑将标题数据作为深度学习分类模型的子类别的输入文本数据，以提高数据分类效率。

对应的，在步骤S105中，对所述输入文本数据进行分类训练，获得网页分类结果，还包括：

基于上述公开的内容，本实施例从待分类网页中爬取基于元标签的总文本数据；对总文本数据进行预处理，得到数据样本集；利用过滤器过滤得到数据样本集中的敏感词字数，并根据敏感词字数确定数据样本集中的数据异常度；根据数据异常度确定深度学习分类模型的输入文本数据；对输入文本数据进行分类训练，获得网页分类结果。本发明基于元标签对网页进行分类，能够同时兼顾网页分类效率和准确率，实现网页多层次分类；通过对网页中的敏感词进行降噪清洗，能够提高网页主题分类的精度；能够在不依赖标注数据的前提下，仅利用数据集中的文本数据，完成异常度阈值设置；不需要存储网整的网页源代码，节省了存储空间。

如图3所示，第二方面，本实施例提供一种基于元标签的网页分类装置，包括：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于元标签的网页分类方法，其特征在于，包括：

从待分类网页中爬取基于元标签的总文本数据；

对所述总文本数据进行预处理，得到数据样本集；

对所述输入文本数据进行分类训练，获得网页分类结果。

2.根据权利要求1所述的基于元标签的网页分类方法，其特征在于，从待分类网页中爬取基于元标签的总文本数据，包括：

3.根据权利要求2所述的基于元标签的网页分类方法，其特征在于，对所述文本数据进行预处理，得到数据样本集，包括：

对所述总标题数据和所述总描述数据进行分词处理和去停用词处理，得到所述数据样本集；

4.根据权利要求3所述的基于元标签的网页分类方法，其特征在于，利用过滤器过滤所述数据样本集中的敏感字数，以确定所述数据样本集中的数据异常度，包括：

5.根据权利要求4所述的基于元标签的网页分类方法，其特征在于，根据所述数据异常度确定深度学习分类模型的输入文本数据，包括：

6.根据权利要求5所述的基于元标签的网页分类方法，其特征在于，对所述输入文本数据进行分类训练，获得网页分类结果，包括：

7.根据权利要求6所述的基于元标签的网页分类方法，其特征在于，根据所述数据异常度确定深度学习分类模型的输入文本数据，还包括：

8.根据权利要求7所述的基于元标签的网页分类方法，其特征在于，对所述输入文本数据进行分类训练，获得网页分类结果，还包括：

9.一种基于元标签的网页分类装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1-8任意一项所述的基于元标签的网页分类方法。