CN111143642A

CN111143642A - 网页分类方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111143642A
Application number: CN201911401084.9A
Authority: CN
Inventors: 谢鹏程
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12

Abstract

本发明涉及一种网页分类方法、装置、电子设备及计算机可读存储介质，属于网络安全领域。该方法通过多对待分类网页的HTML源代码进行解析，然后确定出HTML源代码中的元素，然后根据元素生成与所述待分类网页对应的DOM树，根据DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量，然后将特征向量输入预先保存的分类模型，得到待分类网页的分类类型。在这个过程中，由于特征向量来源于DOM树所包括的节点的类型及各种类型的节点的数量，DOM树中处于不同位置的多个相同的节点不会重复作为特征向量的特征，因此，可以减少分类类型对待分类网页的特征向量的识别时间，从而提高分类类型对待分类网页的识别效率。

Description

网页分类方法、装置、电子设备及计算机可读存储介质

技术领域

本申请属于网络安全技术领域，具体涉及一种网页分类方法、装置、电子设备及计算机可读存储介质。

背景技术

现有技术在对网页进行分类时，一般是先将已知分类类型的多个样本网页的网页结构特征、统一资源定位符(URL)特征以及网页的文本特征构造特征向量后，形成多个特征向量样本，并基于特征向量样本构建特征矩阵作为分类模型的训练集。待分类模型被训练至符合要求后，可以将待分类网页的网页结构特征、URL特征以及网页的文本特征构造特征向量，后续，将构造的特征向量输入分类模型，由分类模型预测出网页的分类类型。

上述方案在提取网页结构特征时，一般是提取网页的HTML(Hyper Text MarkupLanguage，超文本标记语言)源代码中的所有节点以及各个节点顺序，然后将所有节点以及节点顺序作为网页结构特征，因此，可能导致多个同一名称的节点在节点序列的不同位置出现时，多个同一名称的节点都会作为后续构建的特征向量的元素之一，进而使得在特征向量内存在多余的冗余节点，导致特征向量的维度过高，降低分类模型的识别效率。

发明内容

有鉴于此，本申请的目的在于提供一种网页分类方法、装置、电子设备及计算机可读存储介质，可以提高分类模型的识别效率。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种网页分类方法，所述方法包括：对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；根据所述元素生成与所述待分类网页对应的DOM树；根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。在这个过程中，由于特征向量来源于DOM树所包括的节点的类型及各种类型的节点的数量，DOM树中处于不同位置的多个相同的节点不会重复作为特征向量的特征，因此，可以减少特征向量内的冗余节点，降低特征向量的维度，因此，可以减少分类类型对待分类网页的特征向量的识别时间，从而提高分类类型对待分类网页的识别效率。

结合第一方面实施例，在一种可能的实施方式中，与所述分类模型对应的训练集为包括多个特征向量样本的特征矩阵，每个所述特征向量样本的维度一致，所述将所述特征向量输入预先保存的分类模型，包括：将所述特征向量的维度调整到与所述特征向量样本的维度相对应；将调整后的特征向量输入所述预先保存的分类模型。

结合第一方面实施例，在一种可能的实施方式中，所述根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量，包括：提取所述DOM树所包括的结构特征及元素特征，所述结构特征的内容用于表征所述DOM的深度、宽度及所述DOM树所包括的叶子节点的数量与所述DOM树所包括的全部节点的数量的比值，所述元素特征的内容用于表征所述DOM树所包括的各种类型的节点的数量及每种类型的节点的数量与所述全部节点的数量的比值，根据所述结构特征及所述元素特征构建所述特征向量，所述特征向量的格式为[结构特征，元素特征]。

结合第一方面实施例，在一种可能的实施方式中，所述对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素，包括：创建空的字符串；依次遍历所述HTML源代码中的每个字符；将用于表征所述HTML源代码中的元素类别的字符依次写入所述字符串；在完成所述遍历后，将所述字符串内的字符进行组合，并将组合后得到的内容确定为所述元素。

结合第一方面实施例，在一种可能的实施方式中，所述依次遍历所述HTML源代码中的每个字符，包括：针对所述HTML源代码中的每个字符，读取预先设置的开关变量；在确定所述开关变量处于关闭状态时，判断当前字符是否为“＜”；在为所述“＜”时，判断所述当前字符的下一字符是否为“！”；在不为所述“！”时，将所述当前字符写入所述字符串，并将所述开关变量调整为开启状态，并遍历所述当前字符的下一字符；在为所述“！”时，遍历所述当前字符的下一字符。

结合第一方面实施例，在一种可能的实施方式中，所述判断当前字符是否为“＜”时，所述方法还包括：在不为所述“＜”时，判断所述当前字符是否为“＞”；在不为所述“＞”时，遍历所述当前字符的下一字符；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

结合第一方面实施例，在一种可能的实施方式中，所述读取预先设置的开关变量时，所述方法还包括：在确定所述开关变量处于开启状态时，判断所述当前字符是否为“＞”；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

结合第一方面实施例，在一种可能的实施方式中，所述判断所述当前字符是否为“＞”时，所述方法还包括：在不为所述“＞”时，判断所述当前字符是否为空格；在为所述空格时，将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在不为所述空格时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符。

结合第一方面实施例，在一种可能的实施方式中，在所述将所述特征向量输入预先保存的分类模型之前，所述方法还包括：获取多个已知分类类型的样本网页；对每个样本网页的HTML源代码进行解析，确定出每个样本网页的HTML源代码中的元素；根据每个样本网页的HTML源代码中的元素，生成与其对应的DOM树；根据每个样本网页的DOM树所包括的节点的类型及各种类型的节点的数量生成与其对应的特征向量样本；在每个样本网页的特征向量样本内添加用于表征与其对应的分类类型的标签；将添加所述标签后的各个特征向量样本组合成特征矩阵；以所述特征矩阵为训练集训练网络模型，并将所述训练后的网络模型确定为所述分类模型。

第二方面，本申请实施例提供一种网页分类装置，所述装置包括：解析模块，用于对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；生成模块，用于根据所述元素生成与所述待分类网页对应的DOM树；所述生成模块，还用于根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；分类模块，用于将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

结合第二方面实施例，在一种可能的实施方式中，与所述分类模型对应的训练集为包括多个特征向量样本的特征矩阵，每个所述特征向量样本的维度一致，所述分类模块，用于将所述特征向量的维度调整到与所述特征向量样本的维度相对应；将调整后的特征向量输入所述预先保存的分类模型。

结合第二方面实施例，在一种可能的实施方式中，所述生成模块，用于提取所述DOM树所包括的结构特征及元素特征，所述结构特征的内容用于表征所述DOM的深度、宽度及所述DOM树所包括的叶子节点的数量与所述DOM树所包括的全部节点的数量的比值，所述元素特征的内容用于表征所述DOM树所包括的各种类型的节点的数量及每种类型的节点的数量与所述全部节点的数量的比值，根据所述结构特征及所述元素特征构建所述特征向量，所述特征向量的格式为[结构特征，元素特征]。

结合第二方面实施例，在一种可能的实施方式中，所述解析模块，用于创建空的字符串；依次遍历所述HTML源代码中的每个字符；将用于表征所述HTML源代码中的元素类别的字符依次写入所述字符串；在完成所述遍历后，将所述字符串内的字符进行组合，并将组合后得到的内容确定为所述元素。

结合第二方面实施例，在一种可能的实施方式中，所述解析模块，用于针对所述HTML源代码中的每个字符，读取预先设置的开关变量；在确定所述开关变量处于关闭状态时，判断当前字符是否为“＜”；在为所述“＜”时，判断所述当前字符的下一字符是否为“！”；在不为所述“！”时，将所述当前字符写入所述字符串，并将所述开关变量调整为开启状态，并遍历所述当前字符的下一字符；在为所述“！”时，遍历所述当前字符的下一字符。

结合第二方面实施例，在一种可能的实施方式中，所述解析模块，在判断当前字符是否为“＜”时，还用于在不为所述“＜”时，判断所述当前字符是否为“＞”；在不为所述“＞”时，遍历所述当前字符的下一字符；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

结合第二方面实施例，在一种可能的实施方式中，所述解析模块，在读取预先设置的开关变量时，还用于在确定所述开关变量处于开启状态时，判断所述当前字符是否为“＞”；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

结合第二方面实施例，在一种可能的实施方式中，所述解析模块，在判断所述当前字符是否为“＞”时，还用于在不为所述“＞”时，判断所述当前字符是否为空格；在为所述空格时，将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在不为所述空格时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括获取模块，所述获取模块，用于获取多个已知分类类型的样本网页；所述解析模块，还用于对每个样本网页的HTML源代码进行解析，确定出每个样本网页的HTML源代码中的元素；所述生成模块，还用于根据每个样本网页的HTML源代码中的元素，生成与其对应的DOM树；所述生成模块，还用于根据每个样本网页的DOM树所包括的节点的类型及各种类型的节点的数量生成与其对应的特征向量样本；所述装置还包括添加模块以及训练模块，所述添加模块，用于将添加所述标签后的各个特征向量样本组合成所述特征矩阵；所述训练模块，用于以所述特征矩阵为训练集训练网络模型，并将所述训练后的网络模型确定为所述分类模型。

第三方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种网页分类方法的流程图之一。

图2示出了本申请实施例提供的一种网页分类方法在对字符进行遍历时的流程图之一。

图3示出了本申请实施例提供的一种网页分类方法在对字符进行遍历时的流程图之二。

图4示出了本申请实施例提供的一种DOM树的示意图。

图5示出了本申请实施例提供的一种网页分类装置的结构框图。

图6示出了本申请实施例提供的一种电子设备的结构示意图。

标号：100-电子设备；110-处理器；120-存储器；400-网页分类装置；410-解析模块；420-生成模块；430-分类模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，值得指出的是，针对现有技术中的网页分类方法所存在的缺陷是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该是申请人在本申请过程中对本申请做出的贡献。

为了解决上述问题，本申请实施例提供一种网页分类方法、装置、电子设备及计算机可读存储介质，以提高分类模型的识别效率。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的网页分类方法进行介绍。

请参阅图1，本申请实施例提供一种应用于电子设备的网页分类方法，下面将结合图1对其所包含的步骤进行说明。

步骤S110：对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素。

元素是网页最基本的组成部分。网页中的每一部分内容都可以称之为一个元素，例如网页的属性、文本、注释、整个文档等，都分别可以作为一个元素。

此外，不同类型的网页(网页的类型可以包括先不限于文学、视频、漫画等)所包括的元素类型与元素数目存在差异，因此，可以基于网页的元素类型以及元素数目来确定待分类网页所属的类型。

一般而言，可以通过对网页的HTML源代码进行解析，从而确定出网页所包括的元素，因此，对于待分类网页而言，可以通过访问其URL，获取到与待分类网页对应的HTML源代码，并对待分类网页的HTML源代码进行解析，从而确定出待分类网页的HTML源代码中的元素。

由于相同类型的两个网页所展示的内容可能存在差异，表现在元素层面即为：相同类型的两个网页可能具备相同的元素类型，但是相同的元素类型对应的元素内容不同，也就是说，元素的内容对于区分网页的类型所起的作用不大。

在上述前提下，为了简化后续的数据量，在一种可选的实施方式中，针对待分类网页，可以剔除其HTML源代码中的各个元素的元素内容，保留其HTML源代码中的元素类型。假设在某个待分类网页的HTML源代码中存在字符串“<meta charset＝”utf-8”>”，其中，“meta”用于表示元素类型，而“charset＝”utf-8””为该元素的元素内容。因此，需要保留字符串“meta”而剔除字符串“charset＝”utf-8””。

为了实现上述简化数据量的效果，可选的，针对HTML源代码，可以在创建空的字符串(string)后，依次遍历HTML源代码中的每个字符，然后将用于表征HTML源代码中的元素类别(类型)的字符依次写入string。在遍历完HTML源代码所包括的所有字符后，将string内的字符进行组合，并将组合后得到的内容确定为元素类型。

其中，依次遍历HTML源代码中的每个字符，以将用于表征HTML源代码中的元素类别(类型)的字符依次写入string的过程如下。

先设置一个开关变量，且在初始状态将开关变量的状态设置为关闭状态。例如定义一个bool型的数据变量，并确定为开关变量，其中，数据变量具有true和false两种状态，当数据变量为flase时，用于表征开关变量处于关闭状态，当数据变量为true时，用于表征开关变量处于开启状态。后续，针对HTML源代码中的每个字符，读取开关变量的状态，若此时开关变量处于关闭状态，则按照图2所示的流程进行后续操作，若此时开关变量处于开启状态，则按照图3所示的流程进行后续操作。

下面将分别对图2以及图3所示的流程进行介绍。

在图2中，在确定开关变量处于关闭状态时，开始判断当前字符是否为“＜”。

(a)若判断当前字符为“＜”，则进一步判断当前字符的下一字符是否为“！”。在确定当前字符的下一字符不为“！”时，将当前字符写入string，并将开关变量调整为开启状态，然后遍历当前字符的下一字符；在确定当前字符的下一字符为“！”时，开始遍历当前字符的下一字符。

(b)若判断当前字符不为“＜”，则进一步判断当前字符是否为“＞”。在确定当前字符不为“＞”时，开始遍历当前字符的下一字符；在确定当前字符为“＞”时，再进一步判断当前字符的前一字符是否为“/”。在确定当前字符的前一字符为“/”时，将当前字符的前一字符及当前字符依次写入string(即依次把“/”、“＞”写入string)，然后遍历当前字符的下一字符；在确定当前字符的前一字符不为“/”时，判断当前字符的前一字符是否为“-”。在确定当前字符的前一字符不为“-”时，将当前字符写入string，然后遍历当前字符的下一字符；在确定当前字符的前一字符为“-”时，开始遍历当前字符的下一字符。

在图3中，在确定开关变量处于开启状态时，开始判断当前字符是否为“＞”。

(a)若判断当前字符为“＞”，则进一步判断当前字符的前一字符是否为“/”。在确定当前字符的前一字符为“/”时，将当前字符的前一字符及当前字符依次写入string(即将“/”、“＞”先后写入string)，然后遍历当前字符的下一字符；在确定当前字符的前一字符不为“/”时，则进一步判断当前字符的前一字符是否为“-”。在确定当前字符的前一字符不为“-”时，将当前字符写入string，并将开关变量调整为关闭状态，然后遍历当前字符的下一字符；在确定当前字符的前一字符为“-”时，开始遍历当前字符的下一字符。

(b)若判断当前字符不为“＞”，则进一步判断当前字符是否为空格。在确定当前字符为空格时，将开关变量调整为关闭状态，并开始遍历当前字符的下一字符；在确定当前字符不为空格时，将当前字符写入string，并开始遍历当前字符的下一字符。

例如存在如下一段HTML源代码，且假设初始状态开关变量处于关闭状态。

当遍历到第一个字符时，由于开关变量处于关闭状态，因此，先按照图2所示的流程，判断第一个字符是否为“<”。由于第一个字符为“<”，因此，进一步判断第二个字符是否为“！”。由于第二个不为“！”，因此，将第一个字符“<”写入string，且将开关变量置于开启状态，然后开始遍历第二个字符。由于此时开关变量处于开启状态，因此，按照图3所示的流程，判断第二个字符是否为“>”。由于第二个字符不为“>”，继续判断当前字符是否为“空格”。由于第二个字符不为“空格”，因此，将第二个字符写入string，然后开始遍历第三个字符。以此类推，依次遍历上述HTML源代码中的每个字符后，保存在string内的字符串依次为：

<html><head><meta/><div></div></head><body><a></a><scripts></scripts><div></div></body></html>。

由于每个元素均包括“<”以及“>”两个字符，因此，可以根据string内各个字符的先后顺序，依次将每两个相邻“<”、“>”字符内的字符确定为元素类型，因此，在上述举例所示的HTML源代码中所包括的元素类型为html、head、meta/、div、/div、/head、body、a、/a、scripts、/scripts、div、/div、/body、/html。

步骤S120：根据所述元素生成与所述待分类网页对应的DOM树。

在得到各个用于表征元素类型的元素后，可以直接调用库函数将得到的元素生成DOM(Document Object Model,文档对象模型)树。其中，库函数可以为LXML、HTMLPARSER、BeautifulSoup等。对应于上文中的举例，可以得到如图4所示的DOM树。

值得指出的是，由于通过库函数将各个元素生成DOM树为现有技术，因此，此处不再赘述。

步骤S130：根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量。

对于每个DOM树而言，包括多个节点，每个节点用于表征一个元素。此外，在DOM树中，位于树的最下层的节点为叶子节点，其余节点为主干节点。

电子设备可以根据DOM树所包括的节点，提取出DOM树多包括结构特征以及元素特征。

其中，结构特征的内容用于表征DOM的深度、宽度及DOM树所包括的叶子节点的数量与DOM树所包括的全部节点的数量的比值。例如对于图4所示的DOM，其结构特征为：树深为3，树宽为5，叶子节点的数量与全部节点的数量的比值为0.625(5/8)。

元素特征的内容用于表征DOM树所包括的各种类型(此处的类型指元素的类型)的节点的数量及每种类型(此处的类型指元素的类型)的节点的数量与全部节点的数量的比值。例如对于图4所示的DOM树，其元素特征包括：元素特征1：html节点的个数为1，比例为0.125(1/8)；元素特征2：head节点的个数为1，比例为0.125；元素特征3：body节点的个数为1，比例为0.125；元素特征4：meta节点的个数为1，比例为0.125；元素特征5：a节点的个数为1，比例为0.125；元素特征6：scripts节点的个数为1，比例为0.125；元素特征7：div节点的个数为2，比例为0.25。

在得到DOM树的结构特征及元素特征后，根据结构特征及元素特征构建DOM树的特征向量。该特征向量为一维向量，其内容为结构特征及元素特征的值，格式可以为[结构特征，元素特征]。

例如对于图4所示的DOM，其特征向量为[结构特征，元素特征1，元素特征2，元素特征3，元素特征4，元素特征5，元素特征6，元素特征7]，具体为[树深3、树宽5、叶子节点比例0.625,html节点1、比例0.125,head节点1、比例0.125,body节点1、比例0.125,meta节点1、比例0.125,a节点1、比例0.125,scripts节点1、比例0.125,div节点2、比例0.25]，每个特征为一个属性。

在上述举例中可以看出，div节点在DOM树中出现的次数为2次。若在现有技术中，则需要在构建的特征向量内将处于不同位置的div节点的位置以及其顺序均标注出来，即在特征向量中，div节点需要作为2个不同的元素特征出现，增大了特征向量的维度。然而在本申请实施例中，以每个不同节点的个数以及比例作为特征，因此，div节点需要作为1个元素特征出现在向量特征内即可。

值得指出的是，为了便于理解，上述举例所示的HTML源代码为简化后的源代码，在实际情况中，网页的HTML源代码相对于举例所示的HTML源代码复杂得多，因此，存在重复的节点的数量也相应的较多。在一些情况下，在一个网页中，同样的节点所出现的次数可能会达到上百次。因此，在本申请实施例中所提出以不同节点各自的个数以及比例作为特征的方案，可以减少特征向量内的冗余节点，降低特征向量的维度。

步骤S140：将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

在得到待分类网页的特征向量后，将特征向量输入分类模型，由分类模型对待分类网页的分类类型进行预测，从而输出待分类网页的分类类型。

在这个过程中，由于待分类网页的特征向量内的冗余节点被减少，使得待分类网页的特征向量的维度被降低，因此，可以减少分类类型对待分类网页的特征向量的识别时间，从而提高分类类型对待分类网页的识别效率。

其中，值得指出的是，电子设备在通过分类模型对待分类网页的特征向量进行识别之前，预先对网络模型进行训练，并将达到预期分类效果的网络模型确定为分类模型进行保存。训练分类模型的过程如下。

先获取多个已知分类类型的样本网页，然后按照上述解析的过程对每个样本网页的HTML源代码进行解析，确定出每个样本网页的HTML源代码中的元素，然后，根据每个样本网页的HTML源代码中的元素，生成与其对应的DOM树。在得到DOM树后，根据每个样本网页的DOM树所包括的节点的类型及各种类型的节点的数量生成与其对应的特征向量样本。在得到多个特征向量样本后，在每个样本网页对应的特征向量样本内添加一个标签维度，标签维度用于表征与样本网页对应的分类类型的标签。例如其中一个样本网页的特征向量样本为[结构特征，元素特征1，元素特征2，元素特征3，元素特征4，元素特征5，元素特征6，元素特征7]，添加标签维度后，特性向量样本变更为[结构特征，元素特征1，元素特征2，元素特征3，元素特征4，元素特征5，元素特征6，元素特征7，标签]。

在得到多个样本网页的添加标签后的特性向量样本后，电子设备将各个添加标签后的特性向量样本构建为一个特征矩阵。对于不同样本网页，与之对应的添加标签后的特性向量样本的维度可能不同。因此，在构建特征矩阵时，先确定出添加标签后的各个特性向量样本中维度最多的特性向量，并记录其维度为X，然后确定特征矩阵的列数为X。其中，特征矩阵中的每一列所指代的属性与维度最多的特性向量的属性一一对应，对于空缺的属性，用零填充，至此，得到完整的特征矩阵。在特征矩阵中，每一行向量表示一个样本网页。

例如存在以下四个样本网页，其添加标签后的特性向量样本分别为：

样本网页1：[结构特征，元素特征1(与节点A相关)、元素特征2(与节点B相关)、元素特征3(与节点C相关)、元素特征4(与节点D相关)、元素特征5(与节点E相关)、标签]；

样本网页2：[结构特征，元素特征1(与节点A相关)、元素特征2(与节点B相关)、元素特征3(与节点C相关)、元素特征4(与节点D相关)、标签]；

样本网页3：[结构特征，元素特征1(与节点A相关)、元素特征2(与节点C相关)、元素特征3(与节点D相关)、元素特征4(与节点E相关)、标签]；

样本网页4：[结构特征、元素特征1(与节点B相关)、元素特征2(与节点C相关)、标签]。

根据上述规则，可以得到特征矩阵

在得到特征矩阵后，电子设备以特征矩阵为训练集训练网络模型，当网络模型通过验证达到预期分类效果后，即得到上述可以对待分类网页进行分类的分类模型。

在上述训练过程中，由于特征矩阵的主要组成部分为各个特征向量，因此，与上文类似的，相对于现有技术，本申请实施例中所构建的特征矩阵中存在较少的冗余节点，特征矩阵的维度得到降低，因此，可以提高训练的效率。

通过上述构建特征矩阵的过程可知，特征矩阵中的每个特征向量通过填充零的方式，使得特征矩阵中的每个特征向量的维度相同。在这种前提下，作为一种可选的实施方式，电子设备可以将待分类网页的特征向量所包括的维度调整到与特征矩阵中的特征向量的维度相对应后，再将待分类网页的特征向量输入分类模型。

对待分类网页的特征向量所包括的维度进行调整的过程如下：

将待分类网页的特征向量中的各个特征与构建特征矩阵时所确定的维度最多的特征向量进行比对，对于待分类网页的特征向量中不存在的属性，其属性值用零填充，对于待分类网页的特征向量中存在而维度最多的特征向量中不存在的属性，则属于多余的属性，相应的需要删除待分类网页的特征向量中多余的属性，从而使得待分类网页的特征向量中的属性与特征矩阵中的属性一一对应。当然，在待分类网页的特征向量中，不存在标签属性。

此外，值得指出的是，本申请实施例中的网页分类方法，在对网页进行分类时，没有对网页所包括的文本内容进行处理，因此，不必再像现有技术一样，对本文内容产生依赖，可以避免提取文本内容时由于分词技术对分类准确性造成的影响，还可以避免文本语种的不同对分类准确性造成的影响。

本申请实施例所提供的一种网页分类方法，通过对待分类网页的HTML源代码进行解析，确定出HTML源代码中的元素，然后根据元素生成与所述待分类网页对应的DOM树。在确定出DOM树后，根据DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量，然后将特征向量输入预先保存的分类模型，得到待分类网页的分类类型。在这个过程中，由于特征向量来源于DOM树所包括的节点的类型及各种类型的节点的数量，DOM树中处于不同位置的多个相同的节点不会重复作为特征向量的特征，因此，可以减少特征向量内的冗余节点，降低特征向量的维度，因此，可以减少分类类型对待分类网页的特征向量的识别时间，从而提高分类类型对待分类网页的识别效率。

此外，如图5所示，本申请实施例还提供一种网页分类装置400，网页分类装置400可以包括：解析模块410、生成模块420以及分类模块430。

解析模块410，用于对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；

生成模块420，用于根据所述元素生成与所述待分类网页对应的DOM树；

所述生成模块420，还用于根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；

分类模块430，用于将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

在一种可能的实施方式中，与所述分类模型对应的训练集为包括多个特征向量样本的特征矩阵，每个所述特征向量样本的维度一致，所述分类模块430，用于将所述特征向量的维度调整到与所述特征向量样本的维度相对应；将调整后的特征向量输入所述预先保存的分类模型。

在一种可能的实施方式中，所述生成模块420，用于提取所述DOM树所包括的结构特征及元素特征，所述结构特征的内容用于表征所述DOM的深度、宽度及所述DOM树所包括的叶子节点的数量与所述DOM树所包括的全部节点的数量的比值，所述元素特征的内容用于表征所述DOM树所包括的各种类型的节点的数量及每种类型的节点的数量与所述全部节点的数量的比值，根据所述结构特征及所述元素特征构建所述特征向量，所述特征向量的格式为[结构特征，元素特征]。

在一种可能的实施方式中，所述解析模块410，用于创建空的字符串；依次遍历所述HTML源代码中的每个字符；将用于表征所述HTML源代码中的元素类别的字符依次写入所述字符串；在完成所述遍历后，将所述字符串内的字符进行组合，并将组合后得到的内容确定为所述元素。

在一种可能的实施方式中，所述解析模块410，用于针对所述HTML源代码中的每个字符，读取预先设置的开关变量；在确定所述开关变量处于关闭状态时，判断当前字符是否为“＜”；在为所述“＜”时，判断所述当前字符的下一字符是否为“！”；在不为所述“！”时，将所述当前字符写入所述字符串，并将所述开关变量调整为开启状态，并遍历所述当前字符的下一字符；在为所述“！”时，遍历所述当前字符的下一字符。

在一种可能的实施方式中，所述解析模块410，在判断当前字符是否为“＜”时，还用于在不为所述“＜”时，判断所述当前字符是否为“＞”；在不为所述“＞”时，遍历所述当前字符的下一字符；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

在一种可能的实施方式中，所述解析模块410，在读取预先设置的开关变量时，还用于在确定所述开关变量处于开启状态时，判断所述当前字符是否为“＞”；在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；在不为所述“-”时，将所述当前字符写入所述字符串，并将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在为所述“-”时，遍历所述当前字符的下一字符。

在一种可能的实施方式中，所述解析模块410，在判断所述当前字符是否为“＞”时，还用于在不为所述“＞”时，判断所述当前字符是否为空格；在为所述空格时，将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；在不为所述空格时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符。

在一种可能的实施方式中，所述装置还包括获取模块，所述获取模块，用于获取多个已知分类类型的样本网页；所述解析模块410，还用于对每个样本网页的HTML源代码进行解析，确定出每个样本网页的HTML源代码中的元素；所述生成模块420，还用于根据每个样本网页的HTML源代码中的元素，生成与其对应的DOM树；所述生成模块，还用于根据每个样本网页的DOM树所包括的节点的类型及各种类型的节点的数量生成与其对应的特征向量样本；此外，所述装置还包括添加模块以及训练模块，所述添加模块，用于将添加所述标签后的各个特征向量样本组合成所述特征矩阵；所述训练模块，用于以所述特征矩阵为训练集训练网络模型，并将所述训练后的网络模型确定为所述分类模型。

本申请实施例所提供的网页分类装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的网页分类方法所包含的步骤。

此外，请参看图6，本发明实施例还提供一种用于实现本申请实施例的网页分类方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、等设备。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图6所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的网页分类方法对应的程序或者前文出现的网页分类装置。可选的，当存储器120内存储有网页分类装置时，网页分类装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，网页分类装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如网页分类装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；根据所述元素生成与所述待分类网页对应的DOM树；根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的网页分类方法、装置、电子设备及计算机可读存储介质，通过多对待分类网页的HTML源代码进行解析，然后确定出HTML源代码中的元素，然后根据元素生成与所述待分类网页对应的DOM树。在确定出DOM树后，根据DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量，然后将特征向量输入预先保存的分类模型，得到待分类网页的分类类型。在这个过程中，由于特征向量来源于DOM树所包括的节点的类型及各种类型的节点的数量，DOM树中处于不同位置的多个相同的节点不会重复作为特征向量的特征，因此，可以减少特征向量内的冗余节点，降低特征向量的维度，因此，可以减少分类类型对待分类网页的特征向量的识别时间，从而提高分类类型对待分类网页的识别效率。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种网页分类方法，其特征在于，所述方法包括：

对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；

根据所述元素生成与所述待分类网页对应的DOM树；

根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；

将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

2.根据权利要求1所述的方法，其特征在于，与所述分类模型对应的训练集为包括多个特征向量样本的特征矩阵，每个所述特征向量样本的维度一致，所述将所述特征向量输入预先保存的分类模型，包括：

将所述特征向量的维度调整到与所述特征向量样本的维度相对应；

将调整后的特征向量输入所述预先保存的分类模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量，包括：

提取所述DOM树所包括的结构特征及元素特征，所述结构特征的内容用于表征所述DOM的深度、宽度及所述DOM树所包括的叶子节点的数量与所述DOM树所包括的全部节点的数量的比值，所述元素特征的内容用于表征所述DOM树所包括的各种类型的节点的数量及每种类型的节点的数量与所述全部节点的数量的比值，

根据所述结构特征及所述元素特征构建所述特征向量，所述特征向量的格式为[结构特征，元素特征]。

4.根据权利要求1所述的方法，其特征在于，所述对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素，包括：

创建空的字符串；

依次遍历所述HTML源代码中的每个字符；

将用于表征所述HTML源代码中的元素类别的字符依次写入所述字符串；

在完成所述遍历后，将所述字符串内的字符进行组合，并将组合后得到的内容确定为所述元素。

5.根据权利要求4所述的方法，其特征在于，所述依次遍历所述HTML源代码中的每个字符，包括：

针对所述HTML源代码中的每个字符，读取预先设置的开关变量；

在确定所述开关变量处于关闭状态时，判断当前字符是否为“＜”；

在为所述“＜”时，判断所述当前字符的下一字符是否为“！”；

在不为所述“！”时，将所述当前字符写入所述字符串，并将所述开关变量调整为开启状态，并遍历所述当前字符的下一字符；

在为所述“！”时，遍历所述当前字符的下一字符。

6.根据权利要求5所述的方法，其特征在于，所述判断当前字符是否为“＜”时，所述方法还包括：

在不为所述“＜”时，判断所述当前字符是否为“＞”；

在不为所述“＞”时，遍历所述当前字符的下一字符；

在为所述“＞”时，判断所述当前字符的前一字符是否为“/”；

在为所述“/”时，将所述当前字符的前一字符及所述当前字符依次写入所述字符串，并遍历所述当前字符的下一字符；

在不为所述“/”时，判断所述当前字符的前一字符是否为“-”；

在不为所述“-”时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符；

在为所述“-”时，遍历所述当前字符的下一字符。

7.根据权利要求5所述的方法，其特征在于，所述读取预先设置的开关变量时，所述方法还包括：

在确定所述开关变量处于开启状态时，判断所述当前字符是否为“＞”；

在不为所述“-”时，将所述当前字符写入所述字符串，并将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；

在为所述“-”时，遍历所述当前字符的下一字符。

8.根据权利要求7所述的方法，其特征在于，所述判断所述当前字符是否为“＞”时，所述方法还包括：

在不为所述“＞”时，判断所述当前字符是否为空格；

在为所述空格时，将所述开关变量调整为关闭状态，并遍历所述当前字符的下一字符；

在不为所述空格时，将所述当前字符写入所述字符串，并遍历所述当前字符的下一字符。

9.根据权利要求1-8任一项所述的方法，其特征在于，在所述将所述特征向量输入预先保存的分类模型之前，所述方法还包括：

获取多个已知分类类型的样本网页；

对每个样本网页的HTML源代码进行解析，确定出每个样本网页的HTML源代码中的元素；

根据每个样本网页的HTML源代码中的元素，生成与其对应的DOM树；

根据每个样本网页的DOM树所包括的节点的类型及各种类型的节点的数量生成与其对应的特征向量样本；

在每个样本网页的特征向量样本内添加用于表征与其对应的分类类型的标签；

将添加所述标签后的各个特征向量样本组合成特征矩阵；

以所述特征矩阵为训练集训练网络模型，并将训练后的网络模型确定为所述分类模型。

10.一种网页分类装置，其特征在于，所述装置包括：

解析模块，用于对待分类网页的HTML源代码进行解析，确定出所述HTML源代码中的元素；

生成模块，用于根据所述元素生成与所述待分类网页对应的DOM树；

所述生成模块，还用于根据所述DOM树所包括的节点的类型及各种类型的节点的数量生成特征向量；

分类模块，用于将所述特征向量输入预先保存的分类模型，得到所述待分类网页的分类类型。

11.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-8中任一项所述的方法。