CN113742785A

CN113742785A - 一种网页分类方法、装置、电子设备及存储介质

Info

Publication number: CN113742785A
Application number: CN202010467507.3A
Authority: CN
Inventors: 杨荣海; 何嘉伟
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-12-03

Abstract

本申请公开了一种网页分类方法，所述网页分类方法包括对目标网页执行网页内容解析操作，得到网页信息组；其中，所述网页信息组包括网页标签和所述网页标签对应的文本内容；对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量；利用所述标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。本申请能够提高网页分类的准确率。本申请还公开了一种网页分类装置、一种电子设备及一种存储介质，具有以上有益效果。

Description

一种网页分类方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全技术领域，特别涉及一种网页分类方法、装置、一种电子设备及一种存储介质。

背景技术

网络安全监控通过实时监控主机活动分析用户和系统的行为，进而识别攻击行为。网络安全监控能够使管理员有效地监视、控制和评估网络或主机系统的安全状态。

在网络安全监控的过程中，可以通过对网页进行分类确定网页类型，进而判断该网页是否受到黑客攻击。相关技术中，基于关键词匹配统计网页中命中词语的词频和概率分布来实现网页分类，但是这种仅关注网页文本内容的检测方式的分类准确率较低。

因此，如何提高网页分类的准确率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种网页分类方法、装置、一种电子设备及一种存储介质，能够提高网页分类的准确率。

为解决上述技术问题，本申请提供一种网页分类方法，该网页分类方法包括：

对目标网页执行网页内容解析操作，得到网页信息组；其中，所述网页信息组包括网页标签和所述网页标签对应的文本内容；

对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；

根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量；

利用所述标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。

可选的，所述对目标网页执行网页内容解析操作，得到网页信息组包括：

获取所述目标网页的网页源代码，将所述网页源代码中的关键字标签设置为所述网页标签；

确定所述目标网页中与所述网页标签对应的文本内容；

根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。

可选的，将所述网页源代码中的关键字标签设置为所述网页标签包括：

将所述网页源代码与预设关键字表进行匹配操作；

将所述网页源代码中匹配命中的内容作为所述关键字标签，并将所述关键字标签设置为网页标签。

可选的，对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量，包括：

对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向量；

对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向量。

可选的，根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量，包括：

根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语义向量执行向量整合操作，得到所述标签文本对语义向量；

其中，所述向量整合操作包括向量拼接操作、向量相加操作和/或向量相乘操作。

可选的，所述第一编码操作包括独热编码操作、哈希编码操作或随机编码操作。

可选的，所述目标网页为受到网页篡改攻击的网页，所述网页分类模型为网页篡改检测模型；

相应的，利用训练后的网页分类模型执行网页分类操作包括：

获取待检测网页的网页信息组，对所述待检测网页的网页信息组执行编码操作得到待检测编码结果；

根据所述待检测编码结果构建所述待检测网页的网页信息组的待检测语义向量；

将所述待检测语义向量输入至训练后的网页篡改检测模型，并根据所述网页篡改检测模型输出的检测结果判断所述待检测网页是否受到网页篡改攻击。

本申请还提供了一种网页分类装置，该网页分类装置包括：

网页解析模块，用于对目标网页执行网页内容解析操作，得到网页信息组；其中，所述网页信息组包括网页标签和所述网页标签对应的文本内容；

向量构建模块，用于对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；

向量拼接模块，用于根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量；

模型训练模块，用于利用所述标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述网页分类方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述网页分类方法执行的步骤。

本申请提供了一种网页分类方法，包括对目标网页执行网页内容解析操作，得到网页信息组；其中，所述网页信息组包括网页标签和所述网页标签对应的文本内容；对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量；利用所述标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。

本申请通过执行网页内容解析操作确定目标网页中的网页标签和网页标签对应的文本内容，网页标签为能够标识网页结构信息，因此通过将标签语义向量和文本语义向量拼接可以得到既能够反映网页结构、又能够反映网页内容的标签文本对语义向量。本申请利用标签文本对语义向量训练的网页分类模型能够从网页结构和网页内容两个维度进行检测，提高了网页分类的准确率。本申请同时还提供了一种网页分类装置、一种电子设备和一种存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种网页分类方法的流程图；

图2为本申请实施例所提供的一种网页内容解析方法的流程图；

图3为本申请实施例所提供的一种标签文本对语义向量的生成方法的流程图；

图4为本申请实施例所提供的一种独热编码原理示意图；

图5为本申请实施例所提供的一种哈希编码原理示意图；

图6为本申请实施例所提供的一种随机编码原理示意图；

图7为本申请实施例所提供的一种基于独热编码的标签文本对语义向量构建方法的流程图；

图8为本申请实施例所提供的一种网页篡改攻击的检测方法的流程图；

图9为本申请实施例所提供的一种网页分类装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面请参见图1，图1为本申请实施例所提供的一种网页分类方法的流程图。

具体步骤可以包括：

S101：对目标网页执行网页内容解析操作，得到网页信息组；

其中，本实施例中的目标网页为已知类型的网页，例如目标网页可以为受到网页篡改攻击的网页、可以为存在病毒下载链接的网页、也可以为新闻资讯类网页、还可以为社交平台类网页，本实施例不限定目标网页的网页类型，利用目标网页相关信息训练得到的分类模型具有能够识别与目标网页类别相同的网页。在本步骤之前可以存在获取目标网页的操作，例如在样本网页数据库中存在多种类别的网页，每一网页均标记有其对应的网页类别，本实施例可以根据网页分类的实际需求从样本网页数据库中选择相应类别的目标网页，进而执行本实施例的相关操作。可以理解的是，本实施例不限定目标网页的数量，本实施例可以对任意数量个目标网页执行网页内容解析操作，本实施例也可以对多个网页类别的目标网页执行网页内容解析操作，进而可以得到能够识别多种网页类别的分类模型。

本实施例可以基于标签-文本对的方式进行网页内容解析，即在解析网页文本内容时，可以保留每个网页文本内容对应的网页标签，进而构建任意数量个【网页标签，文本内容】形式的网页信息组。

S102：对网页信息组执行编码操作，得到标签语义向量和文本语义向量；

其中，本步骤建立在已经得到了目标网页的网页信息组的基础上，当然本步骤可以在S101每生成一组网页信息组后即执行本步骤中编码及语义向量构建操作，本步骤还可以在S101生成所有的网页信息后再执行本步骤中编码及语义向量构建操作。由于网页信息组的内容无法被分类模型直接理解和标识，因此需要对网页信息组的内容执行编码操作，将网页标签和文本内容映射到高维的向量空间得到网页标签对应的标签语义向量以及文本内容对应的文本语义向量。

S103：根据网页标签和文本内容的对应关系对标签语义向量和文本语义向量执行向量整合操作，得到标签文本对语义向量；

其中，本步骤可以根据网页标签和文本内容所对应的网页信息组确定网页标签和文本内容的对应关系，即属于同一网页信息组的网页标签和文本内容相对应，可以将是属于同一网页信息组的网页标签的标签语义向量和文本内容文本语义向量执行向量整合操作，得到标签文本对语义向量(即标签-文本对语义向量)。

本步骤中的向量整合操作具体指将标签语义向量和文本语义向量进行整合计算得到一个语义向量的操作，得到的标签文本对语义向量既包括标签语义向量的特征、又包括文本语义向量的特征。通过本步骤的操作得到的标签文本对语义向量能够表示目标网页的内容信息、网页结构以及每一种内容信息对应的位置信息。

S104：利用标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。

其中，在得到标签文本对语义向量的基础上，可以将标签文本对语义向量作为训练样本来训练网页分类模型，使训练后的网页分类模型具有网页类别识别的能力。本实施例中所提到的网页分类模型可以为机器学习模型，也可以为深度学习模型。由于本实施例利用标签文本对语义向量训练网页分类模型，故在训练网页分类模型时，深度学习算法可以自动对网页编码进行更新，而机器学习算法会以概率或泛函的形式对网页编码的分布和特征进行建模，使之蕴含一定的网页结构与位置的隐含特征，训练后的网页分类模型具有处理网页结构与位置信息的能力，从而提升网页类别识别的能力。在训练网页分类模型之后，可以将需要识别的网页输入至网页分类模型，以便对未知的网页进行类别检测。进一步的，本申请中的每一种网页标签都可以有其对应的权重，在训练网页分类模型时可以基于网页标签的权重进行训练。

作为一种可行的实施方式，本实施例中的网页分类模型可以为运行在网络安全监控设备中的模型，网络安全监控设备可以包括交换机、防火墙或等保一体机等设备，网络安全监控设备可以与多个主机设备连接，对于各个主机设备当前浏览的网页进行网页分类操作，进而可以在网络安全监控设备的用户界面上显示各个主机浏览的网页的类别。

本实施例通过执行网页内容解析操作确定目标网页中的网页标签和网页标签对应的文本内容，网页标签为能够标识网页结构信息，因此通过将标签语义向量和文本语义向量拼接可以得到既能够反映网页结构、又能够反映网页内容的标签文本对语义向量。本实施例利用标签文本对语义向量训练的网页分类模型能够从网页结构和网页内容两个维度进行检测，提高了网页分类的准确率。

请参见图2，图2为本申请实施例所提供的一种网页内容解析方法的流程图，本实施例是对图1对应实施例的进一步介绍，具体描述了生成网页信息组的过程，可以将本实施例与图1对应的实施例相结合得到进一步的实施方式，本实施例可以包括以下步骤：

S201：获取目标网页的网页源代码，将网页源代码中的关键字标签设置为所述网页标签；

其中，网页源代码时目标网页的语言构成，网页源代码中的关键字标签是构成目标网页的基本元素。关键字标签可以包括超文本标记语言或其他脚本语言的关键字，关键字标签是一种描述性的标记语言，其特性决定了关键字标签自身包含了网页的结构化信息，如<title>标签，<a>标签等。

作为一种可行的实施方式，本实施例可以将所述网页源代码与预设关键字表进行匹配操作，并将所述网页源代码中匹配命中的内容作为所述关键字标签，并将所述关键字标签设置为网页标签。预设关键字表中可以存储有多种预设关键字标签，通过关键字匹配可以确定网页源代码中的网页标签。

S202：确定目标网页中与网页标签对应的文本内容；

其中，网页源代码的编写形式为编写一个网页标签后在该网页标签之后编写其对应的文本内容，因此在确定网页标签之后可以根据网页标签与文本内容的分布位置确定网页标签对应的文本内容。例如在网页源代码的第11行存在网页标签A，第15行存在网页标签B，第12～14行不存在其他网页标签，全为文本内容，因此可以将第12～14行对应的内容作为网页标签A对应的文本内容。

S203：根据网页标签与文本内容的对应关系生成网页信息组。

上述实施例通过目标网页的网页源代码确定网页标签，结合网页标签在网页源代码中的位置确定网页标签对应的文本内容，进而将网页标签与网页标签对应的文本内容设置为一组网页信息组。

请参见图3，图3为本申请实施例所提供的一种标签文本对语义向量的生成方法的流程图，本实施例是对图1对应实施例中S102和S103的进一步介绍，可以将本实施例与图1对应的实施例相结合得到进一步的实施方式，本实施例可以包括以下步骤：

S301：对网页标签执行第一编码操作得到网页标签对应的标签语义向量；

其中，网页标签为网页源代码中的关键字标签，网页标签包括超文本标记语言或其他脚本语言的关键字。作为关键字，网页标签无法被机器学习或深度学习模型直接理解和表示，因此需要对网页标签进行编码，将网页编码映射到高维的向量空间，因此本实施例中的第一编码操作可以包括独热编码操作、哈希编码操作或随机编码操作。在得到编码结果执行可以生成对应的标签语义向量。

请参见图4，图4为本申请实施例所提供的一种独热编码原理示意图，在使用独热编码对网页标签编码时，首先需要构建词网页标签词表，假设网页标签词表中共包含n种网页标签(如title、keywords、meta或div)，针对网页标签词表中第i个标签，构建长度为n的向量，该向量在第i个维度为1，其余的维度都为0，进而实现独热编码。

请参见图5，图5为本申请实施例所提供的一种哈希编码原理示意图，哈希编码构建向量的方式与独热编码相同，构建长度为n的向量，该向量在第i 个维度为1，其余的维度都为0。在构建网页标签词表到独热编码的映射时，利用哈希函数来确定网页标签应该指向的向量。

请参见图6，图6为本申请实施例所提供的一种随机编码原理示意图，独热编码与哈希编码都将网页标签映射为稀疏向量，当网页标签词表包含的网页标签数量太大时，容易产生维度爆炸。随机编码可以避免维度爆炸的情况，使用随机编码首先需要设定网页编码的维度，设设定的维度为m，随机编码在每个维度上随机生成一个实数，使网页编码成为一个低维的稠密向量，从而减小了存储和计算压力。

当然，本实施例不限定具体编码方式，对网页标签的编码方法包括但不限于以上提及的方法，只要能够将网页标签映射到向量空间的编码方法都可以应用于本实施例。

S302：对文本内容执行第二编码操作得到文本内容对应的文本语义向量。

其中，本步骤中的第二编码操作也可以包括独热编码、哈希编码或随机编码，进而生成文本编码结果对应的文本语义向量。

S303：根据网页标签和文本内容的对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语义向量执行向量整合操作，得到标签文本对语义向量；

其中，本步骤通过向量整合操作得到既包括标签语义特征又包括文本语义特征的标签文本对向量，本步骤中所提到的向量整合操作可以包括向量拼接操作、向量相加操作和/或向量相乘操作，即可以将标签语义向量与文本语义向量相加得到标签文本对语义向量，也可以将标签语义向量与文本语义向量相乘得到标签文本对语义向量。

下面通过实际应用中的例子说明上述实施例中生成语义向量的具体过程：本实施例提出的方案会先将网页解析成形如[(tag1,text1),(tag2,text2),...] 的数据，其中tag表示网页中的标签，text是网页标签中对应的文本。一个成功解析的网页如下所示：

[('title','每周信息(8月28日)'),

('meta','和平广场'),

('meta','一座宽阔的石桥连接着有白塔的琼华岛,这座桥的两端有古石狮、有古牌坊,桥名永安桥,是北海公园内最大的桥梁,也是公园中重要的景点之一。'),

('td','主办单位：新闻办公室'),

以上示的数据作为实施例，表示本实施例的实施过程：

通过对上述目标网页执行网页内容解析操作，得到以下三组网页信息组：

1、网页标签：“title”，文本内容：“每周信息(8月28日)”；

2、网页标签：“meta”，文本内容：“一座宽阔的石桥连接着有白塔的琼华岛,这座桥的两端有古石狮、有古牌坊,桥名永安桥,是北海公园内最大的桥梁,也是公园中重要的景点之一”；

3、网页标签：“td”，文本内容：“主办单位：新闻办公室”。

作为一种可行的实施方式，本实施例可以对文本内容提取关键词以便简化网页信息组，例如第二组网页信息组可以为网页标签：“meta”，文本内容：“琼华岛”，“北海公园”。

请参见图7，图7为本申请实施例所提供的一种基于独热编码的标签文本对语义向量构建方法的流程图。可以先对每一组网页信息组进行独热编码，同时采用语义模型提取对应文本的语义向量，进而组合标签编码和语义向量得到标签文本对语义向量，在基于机器学习或深度学习的篡改检测引擎中共同进行训练。

网页篡改(Webpage Defacement)攻击指黑客入侵合法网站，在该网站中插入非法文本、非法图像及恶意链接等行为。网页篡改是黑帽搜索引擎优化的一项重要技术，能够提升目的网站在搜索引擎中的排名，从而增加访问量。相关技术中采用的网页篡改攻击检测技术都是基于关键词匹配，通过统计命中词语的词频信息及其概率分布来判断篡改的概率。即相关技术通过在网页中抽取文本内容，并根据文本内容训练网页篡改检测引擎。但是上述这种技术忽略了一个重要的事实：篡改攻击是与网页位置有关的。篡改攻击通常是带着经济目的，希望提高篡改内容对搜索引擎的可见度。因此攻击者会更倾向于篡改容易影响搜索引擎优化的网页标签(如“title,keywords”等)。此外仅仅基于网页内容构建网页检测引擎，将网页当成NLP(Natural Language Processing，自然语言处理)中的文档进行建模，会忽视另外一个网页的重要特点：网页是一种结构化的文本。编写网页的编程语言(如HTML，HTML5 等)决定了网页内容是一种具有内在结构与逻辑的结构化文本。忽视网页的结构化，破坏网页结构，提取纯文本的检测方式会在训练检测引擎之前就损失了网页的结构化信息，削弱了网页篡改检测引擎的检测准确率。

针对上述相关技术存在的不足，本申请提供了一种新的网页篡改攻击的检测方法，请参见图8，图8为本申请实施例所提供的一种网页篡改攻击的检测方法的流程图，若图1对应的实施例中目标网页为受到网页篡改攻击的网页，网页分类模型为网页篡改检测模型，那么网页篡改攻击的检测方法可以包括以下步骤：

S401：对目标网页执行网页内容解析操作，得到网页信息组；

其中，为了构建能包含网页标签编码信息的网页篡改检测模型，本实施例提出一种标签-文本对的网页内容解析方式。在解析网页文本信息时，保留每个网页文本内容所对应的标签，以(网页标签，对应文本)的形式组织网页信息组。

S402：对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；

其中，由于网页标签编码并不能直接反应网页的结构与位置信息，也不能直接改进基于机器学习或深度学习的网页篡改引擎性能。网页标签编码应结合到网页篡改模型的构建与训练过程，使其在海量数据中不断更新，因此本步骤先构建标签编码结果与文本编码结果对应的标签语义向量和文本语义向量，以便训练网页篡改检测模型。

S403：根据网页标签和文本内容的对应关系对标签语义向量和文本语义向量执行向量整合操作，得到标签文本对语义向量；

其中，S402可以分别对网页标签及其对应文本构建对应的语义向量，以便将标签和文本分别映射到相同或不同的向量空间，在S403中对标签语义向量和文本语义向量进行拼接、相加或相乘等整合操作将网页标签与对应文本的语义向量组成到一起，得到标签文本对语义向量。

S404：利用标签文本对语义向量训练网页分类模型；

其中，本步骤将目标网页中所有的标签文本对语义向量作为输入训练网页篡改检测模型来，以便预判网页是否被篡改。

由于在构建标签文本对语义向量时加入了网页编码，故整体训练模型时，深度学习算法会自动对网页编码进行更新，而机器学习算法会以概率或泛函的形式对网页编码的分布和特征进行建模，网页篡改检测模型具有网页结构与位置的隐含特征即，网页篡改检测模型拥有处理网页结构与位置信息的能力，从而提升对于网页篡改攻击的检测能力。

S405：获取待检测网页的网页信息组，对待检测网页的网页信息组执行编码操作得到待检测编码结果；

S406：根据待检测编码结果构建待检测网页的网页信息组的待检测语义向量；

S407：将待检测语义向量输入至训练后的网页篡改检测模型，并根据网页篡改检测模型输出的检测结果判断待检测网页是否受到网页篡改攻击。

本实施例提出了一种利用网页编码提升网页篡改检测性能的方法。本实施例提出了表示网页结构信息和位置信息的方法——网页标签编码，并且也提出了在基于机器学习或深度学习的网页篡改引擎中加入网页标签编码信息，使机器学习或深度学习模型获取网页结构信息和位置信息的方法。本实施例提出的方法能够适用于利用机器学习或深度学习模型构建的网页篡改引擎。

请参见图9，图9为本申请实施例所提供的一种网页分类装置的结构示意图；

该装置可以包括：

网页解析模块100，用于对目标网页执行网页内容解析操作，得到网页信息组；其中，所述网页信息组包括网页标签和所述网页标签对应的文本内容；

向量构建模块200，用于对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量；

向量拼接模块300，用于根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量；

模型训练模块400，用于利用所述标签文本对语义向量训练网页分类模型，并利用训练后的网页分类模型执行网页分类操作。

进一步的，网页解析模块100包括：

标签确定单元，用于获取所述目标网页的网页源代码，将所述网页源代码中的关键字标签设置为所述网页标签；

文本确定单元，用于确定所述目标网页中与所述网页标签对应的文本内容；

网页信息组生成单元，用于根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。

进一步的，标签确定单元，用于将所述网页源代码与预设关键字表进行匹配操作；还用于将所述网页源代码中匹配命中的内容作为所述关键字标签，并将所述关键字标签设置为网页标签。

进一步的，向量构建模块200包括：

标签语义向量构建单元，用于对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向量；

文本语义向量构建单元，用于对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向量。

进一步的，向量拼接模块300用于根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语义向量执行向量整合操作，得到所述标签文本对语义向量；其中，所述向量整合操作包括向量拼接操作、向量相加操作和/或向量相乘操作。

进一步的，所述第一编码操作包括独热编码操作、哈希编码操作或随机编码操作。

进一步的，所述目标网页为受到网页篡改攻击的网页，所述网页分类模型为网页篡改检测模型；

相应的，还包括：

网页篡改检测模块，用于获取待检测网页的网页信息组，对所述待检测网页的网页信息组执行编码操作得到待检测编码结果；用于根据所述待检测编码结果构建所述待检测网页的网页信息组的待检测语义向量；用于将所述待检测语义向量输入至训练后的网页篡改检测模型，并根据所述网页篡改检测模型输出的检测结果判断所述待检测网页是否受到网页篡改攻击。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种网页分类方法，其特征在于，包括：

2.根据权利要求1所述网页分类方法，其特征在于，所述对目标网页执行网页内容解析操作，得到网页信息组包括：

确定所述目标网页中与所述网页标签对应的文本内容；

3.根据权利要求2所述网页分类方法，其特征在于，将所述网页源代码中的关键字标签设置为所述网页标签包括：

将所述网页源代码与预设关键字表进行匹配操作；

4.根据权利要求1所述网页分类方法，其特征在于，对所述网页信息组执行编码操作，得到标签语义向量和文本语义向量，包括：

5.根据权利要求4所述网页分类方法，其特征在于，根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作，得到标签文本对语义向量，包括：

6.根据权利要求4所述网页分类方法，其特征在于，所述第一编码操作包括独热编码操作、哈希编码操作或随机编码操作。

7.根据权利要求1至6任一项所述网页分类方法，其特征在于，所述目标网页为受到网页篡改攻击的网页，所述网页分类模型为网页篡改检测模型；

8.一种网页分类装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述网页分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述网页分类方法的步骤。