CN113742785A - 一种网页分类方法、装置、电子设备及存储介质 - Google Patents

一种网页分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113742785A
CN113742785A CN202010467507.3A CN202010467507A CN113742785A CN 113742785 A CN113742785 A CN 113742785A CN 202010467507 A CN202010467507 A CN 202010467507A CN 113742785 A CN113742785 A CN 113742785A
Authority
CN
China
Prior art keywords
webpage
text
tag
semantic vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010467507.3A
Other languages
English (en)
Inventor
杨荣海
何嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010467507.3A priority Critical patent/CN113742785A/zh
Publication of CN113742785A publication Critical patent/CN113742785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页分类方法,所述网页分类方法包括对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模型执行网页分类操作。本申请能够提高网页分类的准确率。本申请还公开了一种网页分类装置、一种电子设备及一种存储介质,具有以上有益效果。

Description

一种网页分类方法、装置、电子设备及存储介质
技术领域
本申请涉及网络安全技术领域,特别涉及一种网页分类方法、装置、一 种电子设备及一种存储介质。
背景技术
网络安全监控通过实时监控主机活动分析用户和系统的行为,进而识别 攻击行为。网络安全监控能够使管理员有效地监视、控制和评估网络或主机 系统的安全状态。
在网络安全监控的过程中,可以通过对网页进行分类确定网页类型,进 而判断该网页是否受到黑客攻击。相关技术中,基于关键词匹配统计网页中 命中词语的词频和概率分布来实现网页分类,但是这种仅关注网页文本内容 的检测方式的分类准确率较低。
因此,如何提高网页分类的准确率是本领域技术人员目前需要解决的技 术问题。
发明内容
本申请的目的是提供一种网页分类方法、装置、一种电子设备及一种存 储介质,能够提高网页分类的准确率。
为解决上述技术问题,本申请提供一种网页分类方法,该网页分类方法 包括:
对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页 信息组包括网页标签和所述网页标签对应的文本内容;
对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;
根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所 述文本语义向量执行向量整合操作,得到标签文本对语义向量;
利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页 分类模型执行网页分类操作。
可选的,所述对目标网页执行网页内容解析操作,得到网页信息组包括:
获取所述目标网页的网页源代码,将所述网页源代码中的关键字标签设 置为所述网页标签;
确定所述目标网页中与所述网页标签对应的文本内容;
根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。
可选的,将所述网页源代码中的关键字标签设置为所述网页标签包括:
将所述网页源代码与预设关键字表进行匹配操作;
将所述网页源代码中匹配命中的内容作为所述关键字标签,并将所述关 键字标签设置为网页标签。
可选的,对所述网页信息组执行编码操作,得到标签语义向量和文本语 义向量,包括:
对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向 量;
对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向 量。
可选的,根据所述网页标签和所述文本内容的对应关系对所述标签语义 向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量,包 括:
根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页 标签的标签语义向量和文本内容的文本语义向量执行向量整合操作,得到所 述标签文本对语义向量;
其中,所述向量整合操作包括向量拼接操作、向量相加操作和/或向量相 乘操作。
可选的,所述第一编码操作包括独热编码操作、哈希编码操作或随机编 码操作。
可选的,所述目标网页为受到网页篡改攻击的网页,所述网页分类模型 为网页篡改检测模型;
相应的,利用训练后的网页分类模型执行网页分类操作包括:
获取待检测网页的网页信息组,对所述待检测网页的网页信息组执行编 码操作得到待检测编码结果;
根据所述待检测编码结果构建所述待检测网页的网页信息组的待检测语 义向量;
将所述待检测语义向量输入至训练后的网页篡改检测模型,并根据所述 网页篡改检测模型输出的检测结果判断所述待检测网页是否受到网页篡改攻 击。
本申请还提供了一种网页分类装置,该网页分类装置包括:
网页解析模块,用于对目标网页执行网页内容解析操作,得到网页信息 组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;
向量构建模块,用于对所述网页信息组执行编码操作,得到标签语义向 量和文本语义向量;
向量拼接模块,用于根据所述网页标签和所述文本内容的对应关系对所 述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语 义向量;
模型训练模块,用于利用所述标签文本对语义向量训练网页分类模型, 并利用训练后的网页分类模型执行网页分类操作。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程 序执行时实现上述网页分类方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存 储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述网 页分类方法执行的步骤。
本申请提供了一种网页分类方法,包括对目标网页执行网页内容解析操 作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签 对应的文本内容;对所述网页信息组执行编码操作,得到标签语义向量和文 本语义向量;根据所述网页标签和所述文本内容的对应关系对所述标签语义 向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;利 用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模 型执行网页分类操作。
本申请通过执行网页内容解析操作确定目标网页中的网页标签和网页标 签对应的文本内容,网页标签为能够标识网页结构信息,因此通过将标签语 义向量和文本语义向量拼接可以得到既能够反映网页结构、又能够反映网页 内容的标签文本对语义向量。本申请利用标签文本对语义向量训练的网页分 类模型能够从网页结构和网页内容两个维度进行检测,提高了网页分类的准 确率。本申请同时还提供了一种网页分类装置、一种电子设备和一种存储介 质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图 做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例, 对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。
图1为本申请实施例所提供的一种网页分类方法的流程图;
图2为本申请实施例所提供的一种网页内容解析方法的流程图;
图3为本申请实施例所提供的一种标签文本对语义向量的生成方法的流 程图;
图4为本申请实施例所提供的一种独热编码原理示意图;
图5为本申请实施例所提供的一种哈希编码原理示意图;
图6为本申请实施例所提供的一种随机编码原理示意图;
图7为本申请实施例所提供的一种基于独热编码的标签文本对语义向量 构建方法的流程图;
图8为本申请实施例所提供的一种网页篡改攻击的检测方法的流程图;
图9为本申请实施例所提供的一种网页分类装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种网页分类方法的流程 图。
具体步骤可以包括:
S101:对目标网页执行网页内容解析操作,得到网页信息组;
其中,本实施例中的目标网页为已知类型的网页,例如目标网页可以为 受到网页篡改攻击的网页、可以为存在病毒下载链接的网页、也可以为新闻 资讯类网页、还可以为社交平台类网页,本实施例不限定目标网页的网页类 型,利用目标网页相关信息训练得到的分类模型具有能够识别与目标网页类 别相同的网页。在本步骤之前可以存在获取目标网页的操作,例如在样本网 页数据库中存在多种类别的网页,每一网页均标记有其对应的网页类别,本 实施例可以根据网页分类的实际需求从样本网页数据库中选择相应类别的目 标网页,进而执行本实施例的相关操作。可以理解的是,本实施例不限定目 标网页的数量,本实施例可以对任意数量个目标网页执行网页内容解析操作, 本实施例也可以对多个网页类别的目标网页执行网页内容解析操作,进而可 以得到能够识别多种网页类别的分类模型。
本实施例可以基于标签-文本对的方式进行网页内容解析,即在解析网页 文本内容时,可以保留每个网页文本内容对应的网页标签,进而构建任意数 量个【网页标签,文本内容】形式的网页信息组。
S102:对网页信息组执行编码操作,得到标签语义向量和文本语义向量;
其中,本步骤建立在已经得到了目标网页的网页信息组的基础上,当然 本步骤可以在S101每生成一组网页信息组后即执行本步骤中编码及语义向量 构建操作,本步骤还可以在S101生成所有的网页信息后再执行本步骤中编码 及语义向量构建操作。由于网页信息组的内容无法被分类模型直接理解和标 识,因此需要对网页信息组的内容执行编码操作,将网页标签和文本内容映 射到高维的向量空间得到网页标签对应的标签语义向量以及文本内容对应的 文本语义向量。
S103:根据网页标签和文本内容的对应关系对标签语义向量和文本语义 向量执行向量整合操作,得到标签文本对语义向量;
其中,本步骤可以根据网页标签和文本内容所对应的网页信息组确定网 页标签和文本内容的对应关系,即属于同一网页信息组的网页标签和文本内 容相对应,可以将是属于同一网页信息组的网页标签的标签语义向量和文本 内容文本语义向量执行向量整合操作,得到标签文本对语义向量(即标签-文 本对语义向量)。
本步骤中的向量整合操作具体指将标签语义向量和文本语义向量进行整 合计算得到一个语义向量的操作,得到的标签文本对语义向量既包括标签语 义向量的特征、又包括文本语义向量的特征。通过本步骤的操作得到的标签 文本对语义向量能够表示目标网页的内容信息、网页结构以及每一种内容信 息对应的位置信息。
S104:利用标签文本对语义向量训练网页分类模型,并利用训练后的网 页分类模型执行网页分类操作。
其中,在得到标签文本对语义向量的基础上,可以将标签文本对语义向 量作为训练样本来训练网页分类模型,使训练后的网页分类模型具有网页类 别识别的能力。本实施例中所提到的网页分类模型可以为机器学习模型,也 可以为深度学习模型。由于本实施例利用标签文本对语义向量训练网页分类 模型,故在训练网页分类模型时,深度学习算法可以自动对网页编码进行更 新,而机器学习算法会以概率或泛函的形式对网页编码的分布和特征进行建 模,使之蕴含一定的网页结构与位置的隐含特征,训练后的网页分类模型具有处理网页结构与位置信息的能力,从而提升网页类别识别的能力。在训练 网页分类模型之后,可以将需要识别的网页输入至网页分类模型,以便对未 知的网页进行类别检测。进一步的,本申请中的每一种网页标签都可以有其 对应的权重,在训练网页分类模型时可以基于网页标签的权重进行训练。
作为一种可行的实施方式,本实施例中的网页分类模型可以为运行在网 络安全监控设备中的模型,网络安全监控设备可以包括交换机、防火墙或等 保一体机等设备,网络安全监控设备可以与多个主机设备连接,对于各个主 机设备当前浏览的网页进行网页分类操作,进而可以在网络安全监控设备的 用户界面上显示各个主机浏览的网页的类别。
本实施例通过执行网页内容解析操作确定目标网页中的网页标签和网页 标签对应的文本内容,网页标签为能够标识网页结构信息,因此通过将标签 语义向量和文本语义向量拼接可以得到既能够反映网页结构、又能够反映网 页内容的标签文本对语义向量。本实施例利用标签文本对语义向量训练的网 页分类模型能够从网页结构和网页内容两个维度进行检测,提高了网页分类 的准确率。
请参见图2,图2为本申请实施例所提供的一种网页内容解析方法的流程 图,本实施例是对图1对应实施例的进一步介绍,具体描述了生成网页信息 组的过程,可以将本实施例与图1对应的实施例相结合得到进一步的实施方 式,本实施例可以包括以下步骤:
S201:获取目标网页的网页源代码,将网页源代码中的关键字标签设置 为所述网页标签;
其中,网页源代码时目标网页的语言构成,网页源代码中的关键字标签 是构成目标网页的基本元素。关键字标签可以包括超文本标记语言或其他脚 本语言的关键字,关键字标签是一种描述性的标记语言,其特性决定了关键 字标签自身包含了网页的结构化信息,如<title>标签,<a>标签等。
作为一种可行的实施方式,本实施例可以将所述网页源代码与预设关键 字表进行匹配操作,并将所述网页源代码中匹配命中的内容作为所述关键字 标签,并将所述关键字标签设置为网页标签。预设关键字表中可以存储有多 种预设关键字标签,通过关键字匹配可以确定网页源代码中的网页标签。
S202:确定目标网页中与网页标签对应的文本内容;
其中,网页源代码的编写形式为编写一个网页标签后在该网页标签之后 编写其对应的文本内容,因此在确定网页标签之后可以根据网页标签与文本 内容的分布位置确定网页标签对应的文本内容。例如在网页源代码的第11行 存在网页标签A,第15行存在网页标签B,第12~14行不存在其他网页标签, 全为文本内容,因此可以将第12~14行对应的内容作为网页标签A对应的文 本内容。
S203:根据网页标签与文本内容的对应关系生成网页信息组。
上述实施例通过目标网页的网页源代码确定网页标签,结合网页标签在 网页源代码中的位置确定网页标签对应的文本内容,进而将网页标签与网页 标签对应的文本内容设置为一组网页信息组。
请参见图3,图3为本申请实施例所提供的一种标签文本对语义向量的生 成方法的流程图,本实施例是对图1对应实施例中S102和S103的进一步介 绍,可以将本实施例与图1对应的实施例相结合得到进一步的实施方式,本 实施例可以包括以下步骤:
S301:对网页标签执行第一编码操作得到网页标签对应的标签语义向量;
其中,网页标签为网页源代码中的关键字标签,网页标签包括超文本标 记语言或其他脚本语言的关键字。作为关键字,网页标签无法被机器学习或 深度学习模型直接理解和表示,因此需要对网页标签进行编码,将网页编码 映射到高维的向量空间,因此本实施例中的第一编码操作可以包括独热编码 操作、哈希编码操作或随机编码操作。在得到编码结果执行可以生成对应的 标签语义向量。
请参见图4,图4为本申请实施例所提供的一种独热编码原理示意图,在 使用独热编码对网页标签编码时,首先需要构建词网页标签词表,假设网页 标签词表中共包含n种网页标签(如title、keywords、meta或div),针对网 页标签词表中第i个标签,构建长度为n的向量,该向量在第i个维度为1, 其余的维度都为0,进而实现独热编码。
请参见图5,图5为本申请实施例所提供的一种哈希编码原理示意图,哈 希编码构建向量的方式与独热编码相同,构建长度为n的向量,该向量在第i 个维度为1,其余的维度都为0。在构建网页标签词表到独热编码的映射时, 利用哈希函数来确定网页标签应该指向的向量。
请参见图6,图6为本申请实施例所提供的一种随机编码原理示意图,独 热编码与哈希编码都将网页标签映射为稀疏向量,当网页标签词表包含的网 页标签数量太大时,容易产生维度爆炸。随机编码可以避免维度爆炸的情况, 使用随机编码首先需要设定网页编码的维度,设设定的维度为m,随机编码 在每个维度上随机生成一个实数,使网页编码成为一个低维的稠密向量,从 而减小了存储和计算压力。
当然,本实施例不限定具体编码方式,对网页标签的编码方法包括但不 限于以上提及的方法,只要能够将网页标签映射到向量空间的编码方法都可 以应用于本实施例。
S302:对文本内容执行第二编码操作得到文本内容对应的文本语义向量。
其中,本步骤中的第二编码操作也可以包括独热编码、哈希编码或随机 编码,进而生成文本编码结果对应的文本语义向量。
S303:根据网页标签和文本内容的对应关系对每一网页信息组中网页标 签的标签语义向量和文本内容的文本语义向量执行向量整合操作,得到标签 文本对语义向量;
其中,本步骤通过向量整合操作得到既包括标签语义特征又包括文本语 义特征的标签文本对向量,本步骤中所提到的向量整合操作可以包括向量拼 接操作、向量相加操作和/或向量相乘操作,即可以将标签语义向量与文本语 义向量相加得到标签文本对语义向量,也可以将标签语义向量与文本语义向 量相乘得到标签文本对语义向量。
下面通过实际应用中的例子说明上述实施例中生成语义向量的具体过 程:本实施例提出的方案会先将网页解析成形如[(tag1,text1),(tag2,text2),...] 的数据,其中tag表示网页中的标签,text是网页标签中对应的文本。一个成 功解析的网页如下所示:
[('title','每周信息(8月28日)'),
('meta','和平广场'),
('meta','一座宽阔的石桥连接着有白塔的琼华岛,这座桥的两端有古石 狮、有古牌坊,桥名永安桥,是北海公园内最大的桥梁,也是公园中重要的景点之 一。'),
('td','主办单位:新闻办公室'),
以上示的数据作为实施例,表示本实施例的实施过程:
通过对上述目标网页执行网页内容解析操作,得到以下三组网页信息组:
1、网页标签:“title”,文本内容:“每周信息(8月28日)”;
2、网页标签:“meta”,文本内容:“一座宽阔的石桥连接着有白塔的 琼华岛,这座桥的两端有古石狮、有古牌坊,桥名永安桥,是北海公园内最大的桥 梁,也是公园中重要的景点之一”;
3、网页标签:“td”,文本内容:“主办单位:新闻办公室”。
作为一种可行的实施方式,本实施例可以对文本内容提取关键词以便简 化网页信息组,例如第二组网页信息组可以为网页标签:“meta”,文本内 容:“琼华岛”,“北海公园”。
请参见图7,图7为本申请实施例所提供的一种基于独热编码的标签文本 对语义向量构建方法的流程图。可以先对每一组网页信息组进行独热编码, 同时采用语义模型提取对应文本的语义向量,进而组合标签编码和语义向量 得到标签文本对语义向量,在基于机器学习或深度学习的篡改检测引擎中共 同进行训练。
网页篡改(Webpage Defacement)攻击指黑客入侵合法网站,在该网站中 插入非法文本、非法图像及恶意链接等行为。网页篡改是黑帽搜索引擎优化 的一项重要技术,能够提升目的网站在搜索引擎中的排名,从而增加访问量。 相关技术中采用的网页篡改攻击检测技术都是基于关键词匹配,通过统计命 中词语的词频信息及其概率分布来判断篡改的概率。即相关技术通过在网页 中抽取文本内容,并根据文本内容训练网页篡改检测引擎。但是上述这种技 术忽略了一个重要的事实:篡改攻击是与网页位置有关的。篡改攻击通常是 带着经济目的,希望提高篡改内容对搜索引擎的可见度。因此攻击者会更倾 向于篡改容易影响搜索引擎优化的网页标签(如“title,keywords”等)。此 外仅仅基于网页内容构建网页检测引擎,将网页当成NLP(Natural Language Processing,自然语言处理)中的文档进行建模,会忽视另外一个网页的重要 特点:网页是一种结构化的文本。编写网页的编程语言(如HTML,HTML5 等)决定了网页内容是一种具有内在结构与逻辑的结构化文本。忽视网页的 结构化,破坏网页结构,提取纯文本的检测方式会在训练检测引擎之前就损 失了网页的结构化信息,削弱了网页篡改检测引擎的检测准确率。
针对上述相关技术存在的不足,本申请提供了一种新的网页篡改攻击的 检测方法,请参见图8,图8为本申请实施例所提供的一种网页篡改攻击的检 测方法的流程图,若图1对应的实施例中目标网页为受到网页篡改攻击的网 页,网页分类模型为网页篡改检测模型,那么网页篡改攻击的检测方法可以 包括以下步骤:
S401:对目标网页执行网页内容解析操作,得到网页信息组;
其中,为了构建能包含网页标签编码信息的网页篡改检测模型,本实施 例提出一种标签-文本对的网页内容解析方式。在解析网页文本信息时,保留 每个网页文本内容所对应的标签,以(网页标签,对应文本)的形式组织网 页信息组。
S402:对所述网页信息组执行编码操作,得到标签语义向量和文本语义 向量;
其中,由于网页标签编码并不能直接反应网页的结构与位置信息,也不 能直接改进基于机器学习或深度学习的网页篡改引擎性能。网页标签编码应 结合到网页篡改模型的构建与训练过程,使其在海量数据中不断更新,因此 本步骤先构建标签编码结果与文本编码结果对应的标签语义向量和文本语义 向量,以便训练网页篡改检测模型。
S403:根据网页标签和文本内容的对应关系对标签语义向量和文本语义 向量执行向量整合操作,得到标签文本对语义向量;
其中,S402可以分别对网页标签及其对应文本构建对应的语义向量,以 便将标签和文本分别映射到相同或不同的向量空间,在S403中对标签语义向 量和文本语义向量进行拼接、相加或相乘等整合操作将网页标签与对应文本 的语义向量组成到一起,得到标签文本对语义向量。
S404:利用标签文本对语义向量训练网页分类模型;
其中,本步骤将目标网页中所有的标签文本对语义向量作为输入训练网 页篡改检测模型来,以便预判网页是否被篡改。
由于在构建标签文本对语义向量时加入了网页编码,故整体训练模型时, 深度学习算法会自动对网页编码进行更新,而机器学习算法会以概率或泛函 的形式对网页编码的分布和特征进行建模,网页篡改检测模型具有网页结构 与位置的隐含特征即,网页篡改检测模型拥有处理网页结构与位置信息的能 力,从而提升对于网页篡改攻击的检测能力。
S405:获取待检测网页的网页信息组,对待检测网页的网页信息组执行 编码操作得到待检测编码结果;
S406:根据待检测编码结果构建待检测网页的网页信息组的待检测语义 向量;
S407:将待检测语义向量输入至训练后的网页篡改检测模型,并根据网 页篡改检测模型输出的检测结果判断待检测网页是否受到网页篡改攻击。
本实施例提出了一种利用网页编码提升网页篡改检测性能的方法。本实 施例提出了表示网页结构信息和位置信息的方法——网页标签编码,并且也 提出了在基于机器学习或深度学习的网页篡改引擎中加入网页标签编码信 息,使机器学习或深度学习模型获取网页结构信息和位置信息的方法。本实 施例提出的方法能够适用于利用机器学习或深度学习模型构建的网页篡改引 擎。
请参见图9,图9为本申请实施例所提供的一种网页分类装置的结构示意 图;
该装置可以包括:
网页解析模块100,用于对目标网页执行网页内容解析操作,得到网页信 息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;
向量构建模块200,用于对所述网页信息组执行编码操作,得到标签语义 向量和文本语义向量;
向量拼接模块300,用于根据所述网页标签和所述文本内容的对应关系对 所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对 语义向量;
模型训练模块400,用于利用所述标签文本对语义向量训练网页分类模 型,并利用训练后的网页分类模型执行网页分类操作。
本实施例通过执行网页内容解析操作确定目标网页中的网页标签和网页 标签对应的文本内容,网页标签为能够标识网页结构信息,因此通过将标签 语义向量和文本语义向量拼接可以得到既能够反映网页结构、又能够反映网 页内容的标签文本对语义向量。本实施例利用标签文本对语义向量训练的网 页分类模型能够从网页结构和网页内容两个维度进行检测,提高了网页分类 的准确率。
进一步的,网页解析模块100包括:
标签确定单元,用于获取所述目标网页的网页源代码,将所述网页源代 码中的关键字标签设置为所述网页标签;
文本确定单元,用于确定所述目标网页中与所述网页标签对应的文本内 容;
网页信息组生成单元,用于根据所述网页标签与所述文本内容的对应关 系生成所述网页信息组。
进一步的,标签确定单元,用于将所述网页源代码与预设关键字表进行 匹配操作;还用于将所述网页源代码中匹配命中的内容作为所述关键字标签, 并将所述关键字标签设置为网页标签。
进一步的,向量构建模块200包括:
标签语义向量构建单元,用于对所述网页标签执行第一编码操作得到所 述网页标签对应的标签语义向量;
文本语义向量构建单元,用于对所述文本内容执行第二编码操作得到所 述文本内容对应的文本语义向量。
进一步的,向量拼接模块300用于根据所述网页标签和所述文本内容的 对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语 义向量执行向量整合操作,得到所述标签文本对语义向量;其中,所述向量 整合操作包括向量拼接操作、向量相加操作和/或向量相乘操作。
进一步的,所述第一编码操作包括独热编码操作、哈希编码操作或随机 编码操作。
进一步的,所述目标网页为受到网页篡改攻击的网页,所述网页分类模 型为网页篡改检测模型;
相应的,还包括:
网页篡改检测模块,用于获取待检测网页的网页信息组,对所述待检测 网页的网页信息组执行编码操作得到待检测编码结果;用于根据所述待检测 编码结果构建所述待检测网页的网页信息组的待检测语义向量;用于将所述 待检测语义向量输入至训练后的网页篡改检测模型,并根据所述网页篡改检 测模型输出的检测结果判断所述待检测网页是否受到网页篡改攻击。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的 实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被 执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移 动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器 中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实 现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口, 电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是 与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对 于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的 比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的 普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若 干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅 仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或 者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括 一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没 有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所 固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。

Claims (10)

1.一种网页分类方法,其特征在于,包括:
对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;
对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;
根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;
利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模型执行网页分类操作。
2.根据权利要求1所述网页分类方法,其特征在于,所述对目标网页执行网页内容解析操作,得到网页信息组包括:
获取所述目标网页的网页源代码,将所述网页源代码中的关键字标签设置为所述网页标签;
确定所述目标网页中与所述网页标签对应的文本内容;
根据所述网页标签与所述文本内容的对应关系生成所述网页信息组。
3.根据权利要求2所述网页分类方法,其特征在于,将所述网页源代码中的关键字标签设置为所述网页标签包括:
将所述网页源代码与预设关键字表进行匹配操作;
将所述网页源代码中匹配命中的内容作为所述关键字标签,并将所述关键字标签设置为网页标签。
4.根据权利要求1所述网页分类方法,其特征在于,对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量,包括:
对所述网页标签执行第一编码操作得到所述网页标签对应的标签语义向量;
对所述文本内容执行第二编码操作得到所述文本内容对应的文本语义向量。
5.根据权利要求4所述网页分类方法,其特征在于,根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量,包括:
根据所述网页标签和所述文本内容的对应关系对每一网页信息组中网页标签的标签语义向量和文本内容的文本语义向量执行向量整合操作,得到所述标签文本对语义向量;
其中,所述向量整合操作包括向量拼接操作、向量相加操作和/或向量相乘操作。
6.根据权利要求4所述网页分类方法,其特征在于,所述第一编码操作包括独热编码操作、哈希编码操作或随机编码操作。
7.根据权利要求1至6任一项所述网页分类方法,其特征在于,所述目标网页为受到网页篡改攻击的网页,所述网页分类模型为网页篡改检测模型;
相应的,利用训练后的网页分类模型执行网页分类操作包括:
获取待检测网页的网页信息组,对所述待检测网页的网页信息组执行编码操作得到待检测编码结果;
根据所述待检测编码结果构建所述待检测网页的网页信息组的待检测语义向量;
将所述待检测语义向量输入至训练后的网页篡改检测模型,并根据所述网页篡改检测模型输出的检测结果判断所述待检测网页是否受到网页篡改攻击。
8.一种网页分类装置,其特征在于,包括:
网页解析模块,用于对目标网页执行网页内容解析操作,得到网页信息组;其中,所述网页信息组包括网页标签和所述网页标签对应的文本内容;
向量构建模块,用于对所述网页信息组执行编码操作,得到标签语义向量和文本语义向量;
向量拼接模块,用于根据所述网页标签和所述文本内容的对应关系对所述标签语义向量和所述文本语义向量执行向量整合操作,得到标签文本对语义向量;
模型训练模块,用于利用所述标签文本对语义向量训练网页分类模型,并利用训练后的网页分类模型执行网页分类操作。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述网页分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至7任一项所述网页分类方法的步骤。
CN202010467507.3A 2020-05-28 2020-05-28 一种网页分类方法、装置、电子设备及存储介质 Pending CN113742785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467507.3A CN113742785A (zh) 2020-05-28 2020-05-28 一种网页分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467507.3A CN113742785A (zh) 2020-05-28 2020-05-28 一种网页分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113742785A true CN113742785A (zh) 2021-12-03

Family

ID=78724238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467507.3A Pending CN113742785A (zh) 2020-05-28 2020-05-28 一种网页分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113742785A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828023A (zh) * 2023-02-22 2023-03-21 云目未来科技(湖南)有限公司 一种通过机器模型识别网络内容敏感度的方法及系统
CN115982505A (zh) * 2023-03-16 2023-04-18 北京匠数科技有限公司 基于vlm的网站检测方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及系统
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN110532562A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 神经网络训练方法、成语误用检测方法、装置和电子设备
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111079042A (zh) * 2019-12-03 2020-04-28 杭州安恒信息技术股份有限公司 一种基于文本主题的网页暗链检测方法和装置
CN111143722A (zh) * 2019-12-23 2020-05-12 杭州安恒信息技术股份有限公司 一种网页暗链检测方法、装置、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及系统
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN109471937A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种基于机器学习的文本分类方法及终端设备
CN110287409A (zh) * 2019-06-05 2019-09-27 新华三信息安全技术有限公司 一种网页类型识别方法及装置
CN110532562A (zh) * 2019-08-30 2019-12-03 联想(北京)有限公司 神经网络训练方法、成语误用检测方法、装置和电子设备
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111079042A (zh) * 2019-12-03 2020-04-28 杭州安恒信息技术股份有限公司 一种基于文本主题的网页暗链检测方法和装置
CN111143722A (zh) * 2019-12-23 2020-05-12 杭州安恒信息技术股份有限公司 一种网页暗链检测方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828023A (zh) * 2023-02-22 2023-03-21 云目未来科技(湖南)有限公司 一种通过机器模型识别网络内容敏感度的方法及系统
CN115982505A (zh) * 2023-03-16 2023-04-18 北京匠数科技有限公司 基于vlm的网站检测方法和装置

Similar Documents

Publication Publication Date Title
US8370278B2 (en) Ontological categorization of question concepts from document summaries
US20220197923A1 (en) Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information
CN102436563B (zh) 一种检测页面篡改的方法及装置
US20090319449A1 (en) Providing context for web articles
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN102591965B (zh) 一种黑链检测的方法及装置
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
US8086953B1 (en) Identifying transient portions of web pages
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN112347327A (zh) 网站检测方法、装置、可读存储介质及计算机设备
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
US8121991B1 (en) Identifying transient paths within websites
CN111079042B (zh) 一种基于文本主题的网页暗链检测方法和装置
CN115879110B (zh) 一种基于指纹穿透技术识别金融风险网站的系统
CN104077353B (zh) 一种黑链检测的方法及装置
CN114282097A (zh) 一种信息识别方法及其装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN116830099A (zh) 基于网页的统一资源定位符推断关于网页的信息
JP4714117B2 (ja) 企業名抽出方法およびプログラム
CN114021064A (zh) 网站分类方法、装置、设备及存储介质
CN104063494B (zh) 页面篡改检测方法及黑链数据库生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination