CN115712925A - 网页篡改检测方法、装置、电子设备及可读存储介质 - Google Patents

网页篡改检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115712925A
CN115712925A CN202211505103.4A CN202211505103A CN115712925A CN 115712925 A CN115712925 A CN 115712925A CN 202211505103 A CN202211505103 A CN 202211505103A CN 115712925 A CN115712925 A CN 115712925A
Authority
CN
China
Prior art keywords
target
detection result
tampering
webpage
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211505103.4A
Other languages
English (en)
Inventor
范香宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Knownsec Information Technology Co Ltd
Original Assignee
Beijing Knownsec Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Knownsec Information Technology Co Ltd filed Critical Beijing Knownsec Information Technology Co Ltd
Priority to CN202211505103.4A priority Critical patent/CN115712925A/zh
Publication of CN115712925A publication Critical patent/CN115712925A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本申请的实施例提供了一种网页篡改检测方法、装置、电子设备及可读存储介质,涉及通信技术领域。该方法包括:获得目标网页所包括的目标标题、初始网页文本及初始图像;根据目标标题及目标文本分类模型,获得第一篡改检测结果;根据初始网页文本及目标命名实体识别模型,获得第二篡改检测结果;根据初始图像及目标图像分类模型,获得第三篡改检测结果;根据第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到目标网页的目标检测结果,其中,目标检测结果用于表示目标网页是否被篡改。如此与,通过从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。

Description

网页篡改检测方法、装置、电子设备及可读存储介质
技术领域
本申请涉及通信技术领域,具体而言,涉及一种网页篡改检测方法、装置、电子设备及可读存储介质。
背景技术
随着互联网和网络技术的逐步发展,越来越多的人掌握网络安全技术,其中不乏大量的投机分子,他们为了谋取私利对各种网页进行攻击,而对目标网页进行篡改也是他们的一种普遍的攻击方式。目前一般是基于敏感词库、基准网页库进行比对,从而确定网页是否被篡改,但基于敏感词库的检测方式检测精度低、基于基准网页库的检测方式普适性低。
发明内容
本申请实施例提供了一种网页篡改检测方法、装置、电子设备和可读存储介质,其从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种网页篡改检测方法,所述方法包括:
获得目标网页所包括的目标标题、初始网页文本及初始图像;
根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
第二方面,本申请实施例提供一种网页篡改检测装置,所述装置包括:
信息获得模块,用于获得目标网页所包括的目标标题、初始网页文本及初始图像;
检测模块,用于根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
所述检测模块,还用于根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
所述检测模块,还用于根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
处理模块,用于根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式所述的网页篡改检测方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式所述的网页篡改检测方法。
本申请实施例提供的网页篡改检测方法、装置、电子设备及可读存储介质,首先获得目标网页所包括的目标标题、初始网页文本及初始图像,然后分别针对目标标题、初始网页文本及初始图像,利用模型进行篡改检测,得到三方面的篡改检测结果,最后根据上述篡改检测结果得到该目标网页的目标检测结果。其中,篡改检测中使用的模型根据被篡改的网页训练得到,所述目标检测结果用于表示所述目标网页是否被篡改。本申请实施例从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图;
图2为本申请实施例提供的网页篡改检测方法的流程示意图之一;
图3为本申请实施例提供的网页篡改检测方法的流程示意图之二;
图4为图2中步骤S130包括的子步骤的流程示意图;
图5为图2中步骤S140包括的子步骤的流程示意图;
图6为本申请实施例提供的网页篡改检测装置的方框示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信单元;200-网页篡改检测装置;210-信息获得模块;220-检测模块;230-处理模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前一般通过如下两种方案进行网页篡改检测。
方案一:预先建立敏感词库,如果待检测网页中的文本包含敏感词,可根据敏感词出现的频次判定该网页是否被篡改。但是,在中文中,一些词语在不同的语义环境中有不同的意思,建立敏感词库无法规避多义词的干扰,会增加误识别率。
方案二:预先建立基准网页标准库,将待检测网页与对应的基准网页进行网页文本相似度计算,当相似度低于阈值是则确定网页被篡改。这种方案普适性低,如待检测网页未在库中存在基准数据,那么该网页便无法进行篡改识别。
针对上述情况,本申请实施例提供了一种网页篡改检测方法、装置、电子设备及可读存储介质,从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,电脑、服务器等。所述电子设备100可以包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有网页篡改检测装置200,所述网页篡改检测装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的网页篡改检测装置200,从而执行各种功能应用以及数据处理,即实现本申请实施例中的网页篡改检测方法。
通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2为本申请实施例提供的网页篡改检测方法的流程示意图之一。所述方法可应用于上述电子设备100。下面对网页篡改检测方法的具体流程进行详细阐述。在本实施例中,所述方法可以包括步骤S110~步骤S150。
步骤S110,获得目标网页所包括的目标标题、初始网页文本及初始图像。
在本实施例中,所述目标网页为需要进行篡改检测的网页。可通过爬虫策略或其他方式获得所述目标网页所包括的标题、网页文本及图像,以作为所述目标标题、初始网页文本及初始图像。可选地,可以先根据所述目标网页对应的IP地址,获取该目标网页,然后从所述目标网页中提取出所述目标标题、初始网页文本及初始图像。可以理解的是,所述初始图像的数量由所述目标网页确定,可以仅有一张,也可能有多张。
步骤S120,根据所述目标标题及目标文本分类模型,获得第一篡改检测结果。
步骤S130,根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果。
步骤S140,根据所述初始图像及目标图像分类模型,获得第三篡改检测结果。
在获得所述目标标题、初始网页文本及初始图像的情况下,可以并行执行步骤S120~步骤S140,也可以依次执行步骤S120~步骤S140,还可以结合实际需求设置执行顺序。
其中,所述目标文本分类模型根据被篡改的网页的标题训练得到,即基于被篡改的网页标题(即被篡改后的标题)训练得到。所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到。所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到。所述目标文本分类模型、目标命名实体识别模型及目标图像分类模型,可以是所述电子设备100预先经过训练得到的,也可以是其他设备训练得到的,模型的具体获取方式及训练方式可以结合实际需求确定。
可直接将所述目标标题、初始网页文本及初始图像分别输入相应的模型,从而获得所述第一篡改检测结果、第二篡改检测结果及第三篡改检测结果。也可以结合实际需求,对所述目标标题、初始网页文本及初始图像进行相应的处理,将处理之后的数据输入相应的模型,从而获得所述第一篡改检测结果、第二篡改检测结果及第三篡改检测结果。其中,利用命名实体识别模型结合上下文语义能有效的消除多意特征词的干扰,从而提高检测的准确性。
其中,所述第一篡改检测结果用于表示标题是否被篡改,所述第二篡改检测结果用于表示网页文本是否被篡改,所述第三篡改检测结果用于表示网页的图像是否被篡改。
步骤S150,根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果。
可以根据实际需求确定如何根据上述三方面的检测结果确定所述目标检测结果。其中,所述目标检测结果用于表示所述目标网页是否被篡改。
本申请实施例从标题、文本、图像全方面对网页篡改进行检测,能准确识别出网页是否被篡改,及时为站方止损,也减少了浏览者被不良内容影响的风险。相较现有的网页篡改检测技术,本方案能有效拓宽适用范围,提升检测结果的准确率。
可选地,作为一种可能的实现方式,上述目标文本分类模型、目标命名实体识别模型及目标图像分类模型训练时使用的标签仅包括篡改及未篡改,如此便于快速获得样本集。
可选地,作为另一种可能的实现方式,上述目标文本分类模型、目标命名实体识别模型及目标图像分类模型中至少一个所述模型基于所述被篡改的网页及对应的篡改类型训练得到。也即,至少一个模型训练时使用的标签包括具体的篡改类型。所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个检测结果中包括检测到的篡改类型,所述目标检测结果中包括所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型。如此,不仅可以识别出所述目标网页是否被篡改,还可以识别出被篡改的类型。
请参照图3,图3为本申请实施例提供的网页篡改检测方法的流程示意图之二。在所述文本分类模型基于篡改网页的标题及对应的篡改类型训练得到的情况下,在步骤S120之前,所述方法还可以包括步骤S113~步骤S115。
步骤S113,获得所述目标网页的备案标题。
步骤S114,计算所述备案标题与所述目标标题的相似度。
步骤S115,判断所述相似度是否大于预设相似度。
可以根据所述目标网页对应的域名或IP地址等,获得该目标网页的有效备案标题。然后,可以利用语义相似度模型计算得到所述备案标题与提取出的目标标题的语义相似度。接着,将计算出的所述相似度与预设相似度进行比较。所述预设相似度的具体值可以结合需求设置。若所述相似度大于所述预设相似度,则可以执行步骤S116:确定所述第一篡改结果为未篡改。若所述相似度不大于所述预设相似度,则执行步骤S120,即利用所述目标文本分类模型进行文本篡改检测及具体的篡改类型。如此,在基于语义相似度模型确定可能被篡改的情况下,才利用目标文本分类模型判断是否被篡改及篡改类型,可减少细分维度的检测开支。
可以直接将所述目标标题输入到所述目标文本分类模型中,并将输出的结果作为所述第一篡改检测结果。在所述目标文本分类模型训练时使用的标签包括具体的篡改类型的情况下,对应地,在所述目标网页被篡改的情况下,所述第一篡改检测结果中包括检测出的具体的篡改类型。
作为一种可能的实现方式,所述目标命名实体识别模型使用的样本集中包括中文文本样本集、英文文本样本集及中英文文本样本集,如此,以减少所述目标命名实体识别模型由于语言影响导致输出的检测结果准确率不佳的情况。其中,所述中文文本样本集中的文本仅采用中文,所述英文文本样本集中的文本仅采用英文,所述中英文文本样本集中的文本采用中英文。
请参照图4图4为图2中步骤S130包括的子步骤的流程示意图。在本实施例中,步骤S130可以包括子步骤S131~子步骤S132。
子步骤S131,基于所述初始网页文本确定目标网页文本。
可选地,可以直接将所述初始网页文本作为所述目标网页文本,还可以结合实际需求设置相应的规则对该初始网页文本进行处理,并将处理后的文本作为所述目标网页文本。
作为一种可能的实现方式,可以直接对所述初始网页文本进行分词,然后针对获得的分词结果,统计得到中文词汇占比及英文词汇占比。可以将中文词汇占比及英文词汇占比分别与预设占比进行比较。其中,所述预设占比可以大于0.5,具体可以根据实际需求确定,比如,设置为65%。所述预设占比用于确定是否进行语言转换及转换方向。
若所述中文词汇占比大于所述预设占比,则表示当前中文比较多,在此情况下,可以将得到的分词结果中的英文分词翻译为中文,以得到所述目标网页文本。所述目标网页文本中包括所述目标网页原本的中文以及由所述目标网页原本的英文翻译的中文。
若所述英文词汇占比大于所述预设占比,则表示当前英文比较多,在此情况下,可以将得到的分词结果中的中文分词翻译为英文,以得到所述目标网页文本。所述目标网页文本中包括所述目标网页原本的英文以及由所述目标网页原本包括的中文翻译的英文。
若所述中文词汇占比、所述英文词汇占比均不大于所述预设占比,则可以不进行语言翻译,直接将所述初始网页文本作为所述目标网页文本。
一般情况下,对网页的篡改可以分为两种:全面修改及对中间部分进行修改。为加快获得所述第二篡改检测结果的速度、同时保证对网页文本篡改检测的准确性,可选地,可以在获得所述初始网页文本之后,先根据所述目标网页的标签剔除页头、导航和页尾的文本,以减少干扰;然后,针对经过剔除处理的文本,结合所述预设占比,确定出所述目标网页文本。
子步骤S132,将所述目标网页文本输入到所述目标命名实体识别模型,获得所述第二篡改检测结果。
在所述目标命名实体识别模型训练时使用的标签包括具体的篡改类型的情况下,对应地,在所述目标网页被篡改的情况下,所述第二篡改检测结果中包括检测出的具体的篡改类型。
请参照图5,图5为图2中步骤S140包括的子步骤的流程示意图。在本实施例中,步骤S140可以包括子步骤S141~子步骤S142。
子步骤S141,对所述初始图像进行标准化处理,得到尺寸为预设尺寸的目标图像。
子步骤S142,将所述目标图像输入到所述目标图像分类模型中,得到所述第三篡改检测结果。
在本实施例中,可对所述初始图像进行图像标准化处理,从而得到尺寸为预设尺寸的目标图像。可选地,该标准化处理方式如下:首先设置标准图像尺寸(即预设尺寸)的容器;其次将图像放在容器中心;然后以容易中心为基准点,根据所述初始图像的长宽和容器的长宽计算缩放比例,当缩放后,在有一边填充满容器、且另一端未填充满时,则利用插值法填充图像,最终形成标准的图像格式,从而得到所述目标图像。
其中,可选地,可以利用CSS(Cascading Style Sheets,层叠样式表)将一张所述初始图像在容器中居中,然后进行自适应处理。如此,可防止图像失真。
在获得所述目标图像的情况下,则可以将所述目标图像输入到所述目标图像分类模型中,得到第三篡改检测结果。如此,对图像尺寸进行了统一,可减少网页中大量不同尺寸图像对图像分类结果的干扰,提升了准确率和模型效率。
同理,在所述目标图像分类模型训练时使用的标签包括具体的篡改类型的情况下,对应地,在所述目标网页被篡改的情况下,所述第三篡改检测结果中包括检测出的具体的篡改类型。可以理解的是,若有多张初始图像,则可以得到每张初始图像对应的第三篡改检测结果。
在获得所述第一篡改检测结果、第二篡改检测结果及第三篡改检测结果的情况下,若上述三方面的篡改检测结果均表示未篡改,则可以确定所述目标检测结果为未篡改。
若上述三方面的篡改检测结果中的其中一个篡改检测结果表示被篡改,则可以确定所述目标网页被篡改,得到的所述目标检测结果用于表示被篡改。
在所述目标文本分类模型、目标命名实体识别模型及目标图像分类模型三个模型均基于所述被篡改的网页及对应的篡改类型训练得到的情况下,在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个篡改检测结果表示被篡改时,将所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型作为所述目标检测结果中所包括的篡改类型。
若三个模型输出的篡改类型不一致,则所述目标检测结果中包括三个模型输出的篡改类型。如此,可以使得检测结果更全面。
在本实施例中,在网页篡改识别方向,利用命名实体识别技术对敏感特征词进行识别,可有效降低多意特征词的干扰,并且针对中英文网页的适配性进行了专门的预训练集构建,拓展了适用广度。在图像处理上,在输入层对图像进行了标准化处理,统一了图像尺寸,可减少网页中大量不同尺寸图像对图像分类结果的干扰,提升准确率和模型效率。本申请实施例针对网页中的标题、文本、图像分别进行了检测,如此全方面的检测,能更全面准确的判断网页是否被篡改以及被篡改的类型。
下面对如何训练得到所述目标文本分类模型、目标命名实体识别模型及目标图像分类模型进行简要说明。
S1:收集大量的被篡改的网页的网址。上述被篡改的网页可以为中文网页、英文网页、中英文网页(即网页中包括中文及英文)。
S2:基于网址,获得所有网页的标题(title),并标注其对应的篡改类型,构建标题数据训练集和验证集。
S3:基于标题数据训练集和验证集训练得到所述目标文本分类模型。
S4:基于网址获取被篡改网页的网页文本,然后根据网页标签剔除页头、导航和页尾的文本以减少干扰。
S5:根据网页被篡改的类型(比如,色情、博彩、小说等),利用BIOES标注法与篡改类型结合的方式对处理后的文本中的命名实体进行标注(如B-色情、I-色情、0-未篡改)。比如,中文利用命名实体中的字符长度和排列进行标注,例如:“亚博体育,专注博彩”,亚:B-博彩、博:I-博彩、体:I-博彩、育:E-博彩、专注:O-未篡改、博彩:S-博彩。英文利用命名实体词汇的结构进行标注,例如:Yabo Sports,focusing on betting,Yabo:B-博彩、Sports:E-博彩、focusing:O-未篡改、on:O-未篡改、betting:S-博彩)。可分别构建纯中文文本训练集和验证集、纯英文文本训练集和验证集、以及包括中英文文本的中英文文本训练集和验证集。可选地,可以利用Bi-LSTM和CRF模型进行命名实体识别。
S6:基于三种文本训练集和验证集训练得到所述目标命名实体识别模型。
S7:基于网址获得网页中包括的所有图像。
S8:从被篡改网页的所有图像中筛选出存在篡改内容的图像以及无任何篡改特征的图像,并根据是否被篡改以及被篡改的类型进行标记(如未篡改、色情、博彩、小说等)。
S9:统一图像尺寸,构建图像数据训练集合验证集。
S10:基于图像数据训练集和验证集训练得到所述目标图像分类模型。可选地,可以基于Xception模型、图像数据训练集和验证集获得所述目标图像分类模型。Xception模型是Google出品的一种卷积神经网络模型。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种网页篡改检测装置200的实现方式,可选地,该网页篡改检测装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图6,图6为本申请实施例提供的网页篡改检测装置200的方框示意图。需要说明的是,本实施例所提供的网页篡改检测装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述网页篡改检测装置200可以包括:信息获得模块210、检测模块220及处理模块230。
所述信息获得模块210,用于获得目标网页所包括的目标标题、初始网页文本及初始图像。
所述检测模块220,用于根据所述目标标题及目标文本分类模型,获得第一篡改检测结果。其中,所述目标文本分类模型根据被篡改的网页的标题训练得到。
所述检测模块220,还用于根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果。其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到。
所述检测模块220,还用于根据所述初始图像及目标图像分类模型,获得第三篡改检测结果。其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到。
所述处理模块230,用于根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果。其中,所述目标检测结果用于表示所述目标网页是否被篡改。
可选地,在本实施例中,在所述文本分类模型基于篡改网页的标题及对应的篡改类型训练得到的情况下,在所述检测模块220根据所述目标标题及目标文本分类模型,获得第一篡改检测结果之前,所述检测模块220还用于:获得所述目标网页的备案标题;计算所述备案标题与所述目标标题的相似度;在所述相似度大于预设相似度的情况下,确定所述第一篡改检测结果为未篡改;在所述相似度不大于所述预设相似度的情况下,执行根据所述目标标题及目标文本分类模型,获得第一篡改检测结果的步骤。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的网页篡改检测方法。
综上所述,本申请实施例提供一种网页篡改检测方法、装置、电子设备及可读存储介质,首先获得目标网页所包括的目标标题、初始网页文本及初始图像,然后分别针对目标标题、初始网页文本及初始图像,利用模型进行篡改检测,得到三方面的篡改检测结果,最后根据上述篡改检测结果得到该目标网页的目标检测结果。其中,篡改检测中使用的模型根据被篡改的网页训练得到,所述目标检测结果用于表示所述目标网页是否被篡改。本申请实施例从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的可选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网页篡改检测方法,其特征在于,所述方法包括:
获得目标网页所包括的目标标题、初始网页文本及初始图像;
根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
2.根据权利要求1所述的方法,其特征在于,至少一个所述模型基于所述被篡改的网页及对应的篡改类型训练得到,所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个检测结果中包括检测到的篡改类型,所述目标检测结果中包括所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型。
3.根据权利要求2所述的方法,其特征在于,在三个所述模型均基于所述被篡改的网页及对应的篡改类型训练得到的情况下,所述根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,包括:
在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果均表示未篡改时,确定所述目标检测结果为未篡改;
在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个篡改检测结果表示被篡改时,将所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型作为所述目标检测结果中所包括的篡改类型。
4.根据权利要求2所述的方法,其特征在于,在所述文本分类模型基于篡改网页的标题及对应的篡改类型训练得到的情况下,在根据所述目标标题及目标文本分类模型,获得第一篡改检测结果之前,所述方法还包括:
获得所述目标网页的备案标题;
计算所述备案标题与所述目标标题的相似度;
在所述相似度大于预设相似度的情况下,确定所述第一篡改检测结果为未篡改;
在所述相似度不大于所述预设相似度的情况下,执行根据所述目标标题及目标文本分类模型,获得第一篡改检测结果的步骤。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述目标命名实体识别模型使用的样本集中包括中文文本样本集、英文文本样本集及中英文文本样本集,所述根据所述初始网页文本及所述目标命名实体识别模型,获得第二篡改检测结果,包括:
基于所述初始网页文本确定目标网页文本;
将所述目标网页文本输入到所述目标命名实体识别模型,获得所述第二篡改检测结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述初始网页文本确定目标网页文本,包括:
对所述初始网页文本进行分词,获得中文词汇占比及英文词汇占比;
在所述中文词汇占比大于预设占比的情况下,将得到的分词结果中的英文分词翻译为中文,以得到所述目标网页文本,其中,所述预设占比大于0.5;
在所述英文词汇占比大于所述预设占比的情况下,将所述分词结果中的中文分词翻译为英文,以得到所述目标网页文本;
在所述中文词汇占比及英文词汇占比均不大于所述预设占比的情况下,将所述初始网页文本作为目标网页文本。
7.根据权利要求1-4中任意一项所述的方法,其特征在于,所述根据所述初始图像及所述目标图像分类模型,获得第三篡改检测结果,包括:
对所述初始图像进行标准化处理,得到尺寸为预设尺寸的目标图像;
将所述目标图像输入到所述目标图像分类模型中,得到所述第三篡改检测结果。
8.一种网页篡改检测装置,其特征在于,所述装置包括:
信息获得模块,用于获得目标网页所包括的目标标题、初始网页文本及初始图像;
检测模块,用于根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
所述检测模块,还用于根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
所述检测模块,还用于根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
处理模块,用于根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-7中任意一项所述的网页篡改检测方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的网页篡改检测方法。
CN202211505103.4A 2022-11-28 2022-11-28 网页篡改检测方法、装置、电子设备及可读存储介质 Pending CN115712925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211505103.4A CN115712925A (zh) 2022-11-28 2022-11-28 网页篡改检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211505103.4A CN115712925A (zh) 2022-11-28 2022-11-28 网页篡改检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115712925A true CN115712925A (zh) 2023-02-24

Family

ID=85235134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211505103.4A Pending CN115712925A (zh) 2022-11-28 2022-11-28 网页篡改检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115712925A (zh)

Similar Documents

Publication Publication Date Title
US8630972B2 (en) Providing context for web articles
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN102902693A (zh) 检测在网页上的重复模式
EP3703329B1 (en) Webpage request identification
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
WO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN107679075B (zh) 网络监控方法和设备
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN114550193A (zh) 文档完整性检测方法、系统和电子设备
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN111046627A (zh) 一种中文文字显示方法及系统
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN112199499A (zh) 文本划分方法、文本分类方法、装置、设备及存储介质
CN113806667B (zh) 一种支持网页分类的方法和系统
CN115712925A (zh) 网页篡改检测方法、装置、电子设备及可读存储介质
US9106423B1 (en) Using positional analysis to identify login credentials on a web page
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN114417860A (zh) 一种信息检测方法、装置及设备
CN114743012A (zh) 一种文本识别方法及装置
Lafia et al. Digitizing and parsing semi-structured historical administrative documents from the GI Bill mortgage guarantee program
JP5331084B2 (ja) 特定情報抽出装置および特定情報抽出プログラム
CN116680419B (zh) 一种多源数据映射关联细粒度不良信息检测方法
US12001486B2 (en) Identifying reference data in a source data set
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination