CN117113430A - 网页违规图片检测方法和装置、电子设备、存储介质 - Google Patents

网页违规图片检测方法和装置、电子设备、存储介质 Download PDF

Info

Publication number
CN117113430A
CN117113430A CN202311044859.8A CN202311044859A CN117113430A CN 117113430 A CN117113430 A CN 117113430A CN 202311044859 A CN202311044859 A CN 202311044859A CN 117113430 A CN117113430 A CN 117113430A
Authority
CN
China
Prior art keywords
picture
page
detected
pictures
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311044859.8A
Other languages
English (en)
Inventor
赵萌
梁海琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
China Resources Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Resources Digital Technology Co Ltd filed Critical China Resources Digital Technology Co Ltd
Priority to CN202311044859.8A priority Critical patent/CN117113430A/zh
Publication of CN117113430A publication Critical patent/CN117113430A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Abstract

本申请实施例提出一种网页违规图片检测方法和装置、电子设备、存储介质。方法包括:获取待测页面的待测图片集合,待测图片集合包括待测页面中的所有网页图片;从待测图片集合中去除与基线图片相一致的网页图片,得到待测页面中的篡改图片,其中,基线图片为与待测页面对应的未被篡改的原始图片;对篡改图片进行白名单检测,以从待测图片集合中去除白名单图片,得到目标检测图片;将目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。基于此,本申请实施例能够降低网页违规图片检测的图片的数量,减轻检测工作量,提高检测效率。

Description

网页违规图片检测方法和装置、电子设备、存储介质
技术领域
本申请涉及网络安全技术领域,特别涉及一种网页违规图片检测方法和装置、电子设备和存储介质。
背景技术
随着数字图像技术的快速发展,数字图像凭借着直观、可信度高等优势,越来越多的企事业单位会在单位的官网上配图来展示单位信息。然而,黑客会使用各种网络攻击篡改网页中的图片,对企事业单位的形象造成严重的负面影响。
在相关技术中,对网页图片进行违规检测时往往需要对网页中的所有图片进行违规检测,所需检测的图片数量较大,这使得其检测工作量过大,导致检测效率低下。
发明内容
为解决上述问题,本申请实施例提出一种网页违规图片检测方法和装置、电子设备和存储介质,能够降低需要进行网页违规图片检测的图片的数量,从而减轻检测工作量,提高检测效率。
本申请第一方面实施例提出一种网页违规图片检测方法,所述方法包括:
获取待测页面的待测图片集合,所述待测图片集合包括所述待测页面中的所有网页图片;
从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到所述待测页面中的篡改图片,其中,所述基线图片为与所述待测页面对应的未被篡改的原始图片;
对所述篡改图片进行白名单检测,以从所述待测图片集合中去除白名单图片,得到目标检测图片;
将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
在一些实施例中,所述方法还包括:
根据所述待测页面的统一资源定位符查找所述待测页面的基线图片数据库;
在查找到所述基线图片数据库的情况下,从所述基线图片数据库中获取所述待测页面的基线图片;
在无法查找到所述基线图片数据库的情况下,访问所述待测页面的服务器并从服务器的配置文件路径下获取所述待测页面的所有基线图片。
在一些实施例中,所述从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到所述待测页面中的篡改图片,包括:
计算所述网页图片的第一图像哈希值;
计算所述基线图片的第二图像哈希值;
在存在与所述第一图像哈希值一致的所述第二图像哈希值的情况下,从所有待测图片集合中去除与所述第一图像哈希值对应的所述网页图片;
在不存在与所述第一图像哈希值一致的所述第二图像哈希值的情况下,确定与所述第一图像哈希值对应的所述网页图片为篡改图片。
在一些实施例中,所述对所述篡改图片进行白名单检测,以从所述待测图片集合中去除白名单图片,得到目标检测图片,包括:
将所述篡改图片的第一图像哈希值与预设的白名单数据库进行匹配,在确定匹配到与所述篡改图片的第一图像哈希值相一致的第三图像哈希值的情况下,确定所述篡改图片属于所述白名单图片;
从所述待测图片集合中去除所述白名单图片,得到所述目标检测图片。
在一些实施例中,在所述将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果之后,还包括:
在所述违规图片检测结果表示所述网页图片合规的情况下,计算所述网页图片的第三图像哈希值,并将所述第三图像哈希值添加至所述白名单数据库中;
在所述违规图片检测结果表示所述目标检测图片不合规的情况下,在所述待测页面中对所述目标检测图片进行告警。
在一些实施例中,所述获取待测页面的待测图片集合,包括:
获取待测网址;
解析所述待测网址的统一资源定位符,得到所述待测网址的域名;
根据所述待测网址的域名递归所述待测网址的子页面,得到所述待测网址的所有子页面;
根据所述待测网址和所述待测网址的子页面获取所述待测页面的待测图片集合。
在一些实施例中,所述根据所述待测网址和所述待测网址的子页面获取所述待测页面的待测图片集合,包括:
通过GET请求获取所述待测网址和所述待测网址的子页面中的页面元素;
根据所述页面元素的属性从所述页面元素中提取所述待测页面的网页图片;
根据所述网页图片得到所述待测页面的所述待测图片集合。
本申请第二方面实施例提出一种网页违规图片检测装置,所述装置包括:
获取模块,用于获取待测页面的待测图片集合,所述待测图片集合包括所述待测页面中的所有网页图片;
基线图片去除模块,用于从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到篡改图片,其中,所述基线图片为与所述待测页面对应的未被篡改的原始图片;
白名单图片去除模块,用于从所有所述篡改图片中去除白名单图片,得到目标检测图片;
违规检测模块,将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
本申请第三方面实施例提出一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器运行时实现如第一方面实施例中任一项所述的网页违规图片检测方法。
本申请第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器运行,以实现如第一方面实施例中任一项所述的网页违规图片检测方法。
本申请实施例提出一种网页违规图片检测方法和装置、电子设备、存储介质。方法包括:获取待测页面的待测图片集合,所述待测图片集合包括所述待测页面中的所有网页图片;从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到所述待测页面中的篡改图片,其中,所述基线图片为与所述待测页面对应的未被篡改的原始图片;对所述篡改图片进行白名单检测,以从所述待测图片集合中去除白名单图片,得到目标检测图片;将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。本申请通过在获取待测页面中的所有网页图片后,先从其中去除大量与页面的基线图片一致的网页图片,仅保留由于页面被篡改所形成的篡改图片,再对篡改图片进行白名单检测,去除其中合规的白名单图片,使待测图片集合中仅保留少量目标检测图片,再将目标检测图片输入到违规检测模型进行违规检测,得到违规图片检测结果,以快速检测出页面中的违规图片。基于此,本申请实施例通过降低需进行违规检测的网页图片的数量,从而减轻检测工作量,提高违规图片检测效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本申请实施例提供的一个网页违规图片检测方法的流程图;
图2是本申请实施例提供的又一个网页违规图片检测方法的流程图;
图3是图1中步骤S102的子流程图;
图4是图1中步骤S103的子流程图;
图5是图1中步骤S101的子流程图;
图6是图5中步骤S504的子流程图;
图7是本申请实施例提供的一种网页违规图片检测装置的结构示意图;
图8是本申请实施例提供的一种电子设备的结构示意图;
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序运行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
本申请实施例的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请实施例中的具体含义。
参照图1,在一些实施例中,网页违规图片检测方法包括但不限于如下步骤S101至步骤S104。
步骤S101,获取待测页面的待测图片集合,待测图片集合包括待测页面中的所有网页图片;
步骤S102,从待测图片集合中去除与基线图片相一致的网页图片,得到待测页面中的篡改图片,其中,基线图片为与待测页面对应的未被篡改的原始图片;
步骤S103,对篡改图片进行白名单检测,以从待测图片集合中去除白名单图片,得到目标检测图片;
步骤S104,将目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
在一些实施例的步骤S101中,待测页面可以包括多个页面,例如,一个网站的主页面及其所有子页面,可以在获取一个待测页面后,根据该页面的域名进行递归,得到该网址的所有子页面。待测图片集合中可以包括所有待测页面中的网页图片,也可以对每个待测页面单独构建一个待测图片集合,可以通过爬虫工具直接爬取每个待测页面中的图片,也可以通过客户端向待测页面发出访问请求,再对基于该访问请求返回的页面元素进行解析,根据页面元素的属性从中筛选出待测页面中的网页图片,并根据待测页面中的网页图片得到待测页面的待测图片集合。
在一些实施例的步骤S102中,基线图片是指待测页面中未被篡改的原始图片,例如,可以在开发者或者运维人员在搭建或维护网页时获取此时页面中的所有图片,作为待测页面的基线图片。可以理解的是,在搭建或维护页面时,经过开发者或者运维人员确认并上传到页面中的图片即可视为网页中未被篡改的原始图片。对于基线图片的存储方式,可以在网站的服务器中通过指定的站点配置路径来存储基线图片。在获取到基线图片后,可以通过比较待测图片集合中的网页图片的图像哈希值和基线图片的图像哈希值以判断待测图片集合中的网页图片是否与基线图片相一致,由此,从待测图片集合中去除大量与基线图片相一致的网页图片,减少需进行违规检测的网页图片的数量,从而提高检测效率。
在一些实施例的步骤S103中,白名单图片可以包括预先配置的合规图片,在一些实施例中,也可以将白名单图片的图像哈希值存储到白名单数据库,由此,在去除白名单图片时,直接根据篡改图片的图像哈希值从白名单数据库中进行匹配,将与白名单图片相一致的网页图片从待测图片集合中去除,以进一步减少需进行违规检测的网页图片的数量,使待测图片集合中仅保留少量的目标检测图片,提高检测效率。
在一些实施例的步骤S104中,得到目标检测图片后,将目标检测图片输入到预设的违规检测模型中进行违规检测,得到违规图片检测结果。违规图片检测结果至少可以包括该目标检测图片合规或者该目标检测图片违规,违规图片检测结果还可以包括目标检测图片的违规类型。预设的违规检测模型可以是由第三方服务商提供的成熟的违规图片检测模型,也可以是基于TensorFlow、PyTorch等网络框架自行训练得到的违规检测模型,具体的,该违规检测模型可以基于预先配置的检测规则对目标检测图片进行违规检测,比如检测目标检测图片是否包含违法图像部分,检测目标检测图片中的是否存在敏感文字部分等。
在本申请实施例中,在获取待测页面中的所有网页图片后,先从其中去除大量与页面的基线图片一致的网页图片,仅保留由于页面被篡改所形成的篡改图片,再对篡改图片进行白名单检测,去除其中的合规图片,使待测图片集合中仅保留少量目标检测图片,再将目标检测图片输入到违规检测模型进行违规检测,可以有效减少检测需进行检测的网页图片的数量,降低检测工作量,提高检测效率,以快速检测出页面中的违规图片。
在一些实施例中,步骤S104之后还包括如下步骤:在违规图片检测结果表示网页图片合规的情况下,计算网页图片的第三图像哈希值,并将第三图像哈希值添加至白名单数据库中;在违规图片检测结果表示目标检测图片不合规的情况下,在待测页面中对目标检测图片进行告警。在得到目标检测图片的违规检测结果后,当违规检测结果表示网页图片违规,即说明该网页图片可能包含违法违规的内容,即需在待测页面中对该网页图片进行告警,而在违规检测结果表示该网页图片合规的情况下,计算该目标检测图片的第三图像哈希值添加到预设的白名单数据库中,由此在后续检测时即可将该图片判定为白名单图片,而无需再次对该图片进行违规检测,从而节省计算资源,减少需进行违规检测的目标检测图片的数量,提高检测效率。
在一些实施例中,参照图2,本申请所提出的网页违规图片检测方法还可以包括但不限于如下步骤S201至步骤S203。
步骤S201,根据待测页面的统一资源定位符查找待测页面的基线图片数据库;
步骤S202,在查找到基线图片数据库的情况下,从基线图片数据库中获取待测页面的基线图片;
步骤S203,在无法查找到基线图片数据库的情况下,访问待测页面的服务器并从服务器的配置文件路径下获取待测页面的所有基线图片。
在一些实施例的步骤S201中,基线图片数据库是存储有待测页面的基线图片的数据库,对于基线图片的获取方式,可以是由待测页面的开发者提供对应的基线图片数据库并存储在本地,再根据待测页面的URL在本地匹配于待测页面对应的基线图片数据库,从该基线图片数据库中获取基线图片;也可以遍历待测页面站点的配置文件路径,根据遍历结果得到待测页面的所有基线图片。对于根据待测页面的统一资源定位符查找待测页面的基线图片数据库的方式,可以是根据待测页面的统一资源定位符从系统中查找是否存在与该待测页面对应的基线图片数据库,也可以是根据待测页面的统一资源定位符提取出待测页面的域名,再根据待测页面的域名查找对应的基线图片数据库。
在一些实施例的步骤S202中,根据待测页面的统一资源定位符可以查找到对应的基线图片数据库时,即可从该基线图片数据库中提取待测页面的所有基线图片。
在一些实施例的步骤S203中,在首次对待测页面进行网页违规图片检测时,根据待测页面的统一资源定位符无法在本地查找到与待测页面对应的基线图片数据库,此时,即待测页面的开发者并未提供对应的基线图片数据库且系统是首次对该待测页面进行网页违规图片检测,需根据待测页面的统一资源定位符访问该待测页面的服务器并从服务器的配置文件路径下获取该页面的基线图片,具体的,可以遍历该配置文件路径,得到该路径下存储的待测页面中的每个基线图片的相对路径或绝对路径,再通过该基线图片的相对路径或绝对路径访问服务器的文件系统得到待测页面的所有基线图片。可以理解的是,遍历待测页面的配置文件路径并得到待测页面的所有基线图片后,可以以此构建待测页面的基线图片数据库,在后续再次对待测页面进行网页违规图片检测时直接根据待测页面的统一资源定位符从本地查找与该待测页面对应的基线图片数据库,而无需再次遍历待测页面的配置文件路径,进一步节省计算资源,提高检测效率,在一些实施例中,基线图片数据库也可以是直接存储有基线图片的图像哈希值,具体的,在首次遍历待测页面的基线图片并计算基线图片的图像哈希值后,即根据基线图片的图像哈希值构建该待测页面的基线图片数据库并存储至本地,在检测网页图片是否与基线图片相一致时,只需计算网页图片的图像哈希值并将网页图片的图像哈希值与基线图片数据库中存储的图像哈希值进行匹配即可。
在本申请实施例中,根据待测页面的统一资源定位符查找本地是否存在与待测页面对应的基线图片数据库,若存在,则直接从基线图片数据库中提取该待测页面的所有基线图片,若不存在,则遍历待测页面的服务器下的配置文件路径,获取待测页面的所有基线图片,即获取到待测页面中未被篡改的所有原始图片。
参照图3,在一些实施例中,步骤S102包括但不限于步骤S301至步骤S303。
步骤S301,计算网页图片的第一图像哈希值;
步骤S302,计算基线图片的第二图像哈希值;
步骤S303,在存在与第一图像哈希值一致的第二图像哈希值的情况下,从所有待测图片集合中去除与第一图像哈希值对应的网页图片;
步骤S304,在不存在与第一图像哈希值一致的第二图像哈希值的情况下,确定与第一图像哈希值对应的网页图片为篡改图片。
在一些实施例的步骤S301中,第一图像哈希值可以是网页图片的MD5值,具体的,首先将网页图像转换为二进制格式,再对图像的二进制格式数据应用MD5算法,将二进制数据分割成多个大小固定的块,并对每个块进行一系列的位运算和操作,最终得到一个128位的哈希值,即网页图片的MD5值,具体的,在Java环境中可以使用java.security.MessageDigest类计算图像的MD5值作为图像的第一图像哈希值,在JavaScript环境中,则可以使用第三方库,如SparkMD5来计算图像的第一图像哈希值,在python环境中,则可以使用hashlib模块中的MD5函数来计算图像的MD5值,可以理解的是,每个不相同的图像的MD5值也是不相同的,基于MD5值可以快速比较图像是否相同,从而验证网页图片是否被篡改,在一些实施例中,也可以计算网页图片的SHA-256值作为图像的第一图像哈希值。
在一些实施例的步骤S302中,由于需要通过图像哈希值判断网页图片是否和基线图片相一致,因此,在计算基线图片的第二图像哈希值时,应与计算网页图片的第一图像哈希值时采用相同的算法,即将MD5值作为网页图片的第一图像哈希值时,则同样计算基线图片的MD5值作为基线图片的第二图像哈希值,具体计算方法参照上述步骤S301,在此不再赘述。
在一些实施例的步骤S303中,当存在与第一图像哈希值一致的第二图像哈希值,即说明该网页图片与待测页面中某一基线图片完全相同,无需对该网页图片进行违规检测,即可从待测图片集合中将该网页图片去除。
在一些实施例的步骤S304中,当不存在与第一图像哈希值一致的第二图像哈希值时,即说明该网页图片与待测页面的任一基线图片均不相同,该网页图片是由于页面被篡改所形成的,需对进一步判断该图片是否违规。
在本申请实施例中,通过计算网页图片的第一图像哈希值,并将该第一图像哈希值与待测页面的基线图片的第二图像哈希值进行比对,基于图像哈希值的不可逆性和唯一性判断每个网页图片是否为待测页面未被篡改的原始图片,若是,则无需对该网页图片进行违规检测,从待测图片集合中去除该网页图,若否,则确定该网页图片是由于网页被篡改所形成的图片,即将该网页图片视为篡改图片并保留在待测图片集合中。
在一些实施例中,参照图4,步骤S103包括但不限于步骤S401至步骤S402。
步骤S401,将篡改图片的第一图像哈希值与预设的白名单数据库进行匹配,在确定匹配到与篡改图片的第一图像哈希值相一致的第三图像哈希值的情况下,确定篡改图片属于白名单图片;
步骤S402,从待测图片集合中去除白名单图片,得到目标检测图片。
在一些实施例中,白名单数据库中存放有白名单图片的第三图像哈希值,白名单图片可以包括预先配置的合规图片,还可以包括经过违规检测模型进行检测且检测结果为合规的图片,将篡改图片的第一图像哈希值与预设的白名单数据库中存储的第三图像哈希值进行匹配,若白名单数据库中存在与第一图像哈希值相一致的第三图像哈希值,即说明该篡改图片属于白名单图片,已经经过违规检测模型进行违规检测,且检测结果为该图片合规,即可从待测图片集合中去除该白名单图片,当从待测图片集合中去除所有白名单图片后,待测图片集合中所保留的图片即为需要输入至违规检测模型进行违规检测的目标检测图片。
在一些实施例中,参照图5,步骤S101包括但不限于如下步骤S501至步骤S504。
步骤S501,获取待测网址;
步骤S502,解析待测网址的统一资源定位符,得到待测网址的域名;
步骤S503,根据待测网址的域名递归待测网址的子页面,得到待测网址的所有子页面;
步骤S504,根据待测网址和待测网址的子页面获取待测页面的待测图片集合。
在一些实施例的步骤S501中,待测网址可以是一个单位的网站主页或其中一个子页。
在一些实施例的步骤S502中,统一资源定位符(Uniform Resource Locator,URL)中会包括网站的协议、域名、端口、路径、查询参数等部分,通过getHost()方法可以从待测网址的统一资源定位符中提取出网站的域名部分。
在一些实施例的步骤S503中,可以通过递归的方法得到待测网址的所有子页面,可以理解的是,待测网址的子页面是指域名与待测网址相同的子页面,
可以理解的是,子页面中的链接所指向的域名与待测网址相同的下级页面也视为待测网址的子页面,通过递归每个页面中的链接所指向的下级页面,直至下级页面中不存在与待测网址域名相同的链接元素,即可视为得到了待测网址的所有子页面。具体的,首先通过GET请求获取到待测网址的HTML内容,使用HTML解析库将获取到的HTML内容解析为DOM树的形式,在遍历DOM树的每个节点,获取其中<a>标签的元素,可以理解的是,<a>标签是用于定义一个超链接的,通过获取页面中<a>标签的元素,即可得到从待测网址的页面中所有链接元素;在一些实施例中,还可以通过查找DOM树中所有具有href属性的元素得到链接元素,再遍历这些链接元素可检测每个链接元素的域名,当该链接元素所指向的页面的域名与待测网址的域名相同,即说明该链接元素所指向的页面是待测网址的下级页面,将该链接元素写入一个待测网页集合中作为待测网页。每个链接元素所指向的页面中也会存在大量的下级链接元素,其中也会包括待测网址的下级页面,由此,还需遍历链接元素所指向的网页中的下级链接元素,并将域名与待测网址的域名相同的下级链接元素也写入到待测网页集合中。将下级链接元素作为新的链接元素,再遍历其所指向的页面中的所有下级链接元素,直至新的链接元素所指向的网页中不存在与待测网址域名相同的新的下级链接元素,可以理解的是,网页往往会有返回主页、上一页或者目录等链接,在遍历页面中的链接元素时,很容易出现多个子页面中都包括指向同一页面的链接元素的情况,基于此,在遍历链接元素所指向的页面中的下级链接元素时,还可以将所得到的下级链接元素与待测网页集合中已存在的链接元素进行对比,当待测网页集合中存在相同的链接元素时,则忽略此下级链接元素,而当待测网页集合中不存在相同的链接元素,且该下级链接元素的域名与被测网址相同,则将该下级链接元素写入到待测网页集合中,直至所有新的链接元素所指向的页面中的所有与被测网址的域名相同的下级链接元素均与待测网页集合中链接元素相同,或者所有新的链接元素所指向的页面中不存在与待测网址的域名相同的下级链接元素时,则表明此时已经获取到待测网址的所有子页面,即可结束对下级链接元素的遍历。待测网页集合中记录有所有与待测网址域名相同的超链接,基于待测网页集合即可确定待测网址的所有子页面。
在一些实施例的步骤S504中,得到所有待测页面后,即可获取每个待测页面中的网页图片并构建出待测页面的待测图片集合。
在本申请实施例中,获取待测网址后,从该网址的统一资源定位符中提取出待测网址的域名,再根据该域名递归待测网址站点下的所有子页面,从而获取到该待测网址的主页面的链接以及所有子页面的链接,再根据该待测网址的主页面和子页面的链接获取该站点所有页面中的网页图片,从而得到待测页面中的所有网页图片。
在一些实施例中,参照图6,步骤S504可以包括但不限于如下步骤S601至步骤S603。
步骤S601,通过GET请求获取待测网址和待测网址的子页面中的页面元素;
步骤S602,根据页面元素的属性从页面元素中提取待测页面的网页图片;
步骤S603,根据网页图片得到待测页面的待测图片集合。
在一些实施例中,得到每个待测页面的链接后,可以使用GET请求获取每个子页面的页面内容,再使用HTML解析库解析每个子页面中HTML内容得到子页面中所有页面元素,使页面元素构成DOM树,如在Java环境中可以使用Jsoup解析HTML内容构建该页面的DOM树,得到DOM树后再遍历DOM树,通过getElementById方法或者getElementByTagname方法获取到页面中特定属性的页面元素,即图片元素,由此提取出待测页面中的所有网页图片,得到待测页面的待测图片集合,在一些实施例中,待测图片集合还可以与子页面是一一对应的,即对每个子页面都会生成一个对应的待测图片集合,在实际执行过程中,可以并行获取多个子页面的页面内容并对其进行解析,得到其中的图片元素,由此自动获取到待测页面中所有网页图片,得到待测页面的待测图片集合。
参照图7,本申请实施例还提出一种网页违规图片检测装置700,装置包括:
获取模块710,用于获取待测页面的待测图片集合,待测图片集合包括待测页面中的所有网页图片;
基线图片去除模块720,用于从待测图片集合中去除与基线图片相一致的网页图片,得到篡改图片,其中,基线图片为与待测页面对应的未被篡改的原始图片;
白名单图片去除模块730,用于从所有篡改图片中去除白名单图片,得到目标检测图片;
违规检测模块740,将目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
本实施例提出的网页违规图片检测装置700,通过获取模块710获取包括待测页面中所有网页图片的待测图片集合,再通过基线图片去除模块710从待测图片集合中去除大量与页面的基线图片一致的网页图片,仅保留由于页面被篡改所形成的篡改图片,再通过白名单图片去除模块730对篡改图片进行白名单检测,去除其中合规的白名单图片,使待测图片集合中仅保留少量目标检测图片,最后通过违规图片检测模块740将目标检测图片输入到违规检测模型进行违规检测,得到违规图片检测结果,可以快速检测出页面中的违规图片。基于此,通过降低检测需进行检测的网页图片的数量,减轻检测工作量,提高检测效率。
参照图8,本申请实施例还提出一种电子设备800,包括:
至少一个处理器,以及,
与至少一个处理器通信连接的存储器;其中,
存储器存储有指令,指令被至少一个处理器执行,以使至少一个处理器执行指令时实现如本申请实施例中任一项的方法。
下面结合图8对电子设备800的硬件结构进行详细说明。该计算机设备包括:处理器810、存储器820、输入、输出接口830、通信接口840和总线850。
处理器810,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器820,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器820可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行本申请实施例的网页违规图片检测方法,例如,执行以上图1中的步骤S101至步骤S104,、图2中的步骤S201至步骤S203,图3中的步骤S301至步骤S304、图4中的步骤S401至步骤S402、图5中的步骤S501至步骤S504、图6中的步骤S601至步骤S603。通过获取包括待测页面中所有网页图片的待测图片集合,先从待测图片集合中去除大量与页面的基线图片一致的网页图片,仅保留由于页面被篡改所形成的篡改图片,再对篡改图片进行白名单检测,去除待测图片集合中合规的白名单图片,使待测图片集合中仅保留少量目标检测图片,再将目标检测图片输入到违规检测模型进行违规检测,得到违规图片检测结果,以快速检测出页面中的违规图片。基于此,通过降低需进行违规检测的网页图片的数量,减轻检测工作量,提高检测效率;
输入、输出接口830,用于实现信息输入及输出;
通信接口840,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线850,在设备的各个组件(例如处理器810、存储器820、输入、输出接口830和通信接口840)之间传输信息;
其中处理器810、存储器820、输入、输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行本申请实施例的网页违规图片检测方法,例如,执行以上图1中的步骤S101至步骤S104,、图2中的步骤S201至步骤S203,图3中的步骤S301至步骤S304、图4中的步骤S401至步骤S402、图5中的步骤S501至步骤S504、图6中的步骤S601至步骤S603。本实施例通过在获取包括待测页面中所有网页图片的待测图片集合,从待测图片集合中去除大量与页面的基线图片一致的网页图片,仅保留由于页面被篡改所形成的篡改图片,再对篡改图片进行白名单检测,去除待测图片集合中合规的白名单图片,使待测图片集合中仅保留少量目标检测图片,再将目标检测图片输入到违规检测模型进行违规检测,得到违规图片检测结果,以快速检测出页面中的违规图片。基于此,通过降低需进行违规检测的网页图片的数量,减轻检测工作量,提高检测效率。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作、步骤,也不是必须按所描述的顺序运行。例如,有的操作、步骤还可以分解,而有的操作、步骤可以合并或部分合并,因此实际运行的顺序有可能根据实际情况改变。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块、单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和、或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和、或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“、”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (10)

1.一种网页违规图片检测方法,所述方法包括:
获取待测页面的待测图片集合,所述待测图片集合包括所述待测页面中的所有网页图片;
从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到所述待测页面中的篡改图片,其中,所述基线图片为与所述待测页面对应的未被篡改的原始图片;
对所述篡改图片进行白名单检测,以从所述待测图片集合中去除白名单图片,得到目标检测图片;
将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待测页面的统一资源定位符查找所述待测页面的基线图片数据库;
在查找到所述基线图片数据库的情况下,从所述基线图片数据库中获取所述待测页面的基线图片;
在无法查找到所述基线图片数据库的情况下,访问所述待测页面的服务器并从服务器的配置文件路径下获取所述待测页面的所有基线图片。
3.根据权利要求1所述的方法,其特征在于,所述从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到所述待测页面中的篡改图片,包括:
计算所述网页图片的第一图像哈希值;
计算所述基线图片的第二图像哈希值;
在存在与所述第一图像哈希值一致的所述第二图像哈希值的情况下,从所有待测图片集合中去除与所述第一图像哈希值对应的所述网页图片;
在不存在与所述第一图像哈希值一致的所述第二图像哈希值的情况下,确定与所述第一图像哈希值对应的所述网页图片为篡改图片。
4.根据权利要求1所述的方法,其特征在于,所述对所述篡改图片进行白名单检测,以从所述待测图片集合中去除白名单图片,得到目标检测图片,包括:
将所述篡改图片的第一图像哈希值与预设的白名单数据库进行匹配,在确定匹配到与所述篡改图片的第一图像哈希值相一致的第三图像哈希值的情况下,确定所述篡改图片属于所述白名单图片;
从所述待测图片集合中去除所述白名单图片,得到所述目标检测图片。
5.根据权利要求4所述的方法,其特征在于,在所述将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果之后,还包括:
在所述违规图片检测结果表示所述网页图片合规的情况下,计算所述网页图片的第三图像哈希值,并将所述第三图像哈希值添加至所述白名单数据库中;
在所述违规图片检测结果表示所述目标检测图片不合规的情况下,在所述待测页面中对所述目标检测图片进行告警。
6.根据权利要求1所述的方法,其特征在于,所述获取待测页面的待测图片集合,包括:
获取待测网址;
解析所述待测网址的统一资源定位符,得到所述待测网址的域名;
根据所述待测网址的域名递归所述待测网址的子页面,得到所述待测网址的所有子页面;
根据所述待测网址和所述待测网址的子页面获取所述待测页面的待测图片集合。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待测网址和所述待测网址的子页面获取所述待测页面的待测图片集合,包括:
通过GET请求获取所述待测网址和所述待测网址的子页面中的页面元素;
根据所述页面元素的属性从所述页面元素中提取所述待测页面的网页图片;
根据所述网页图片得到所述待测页面的所述待测图片集合。
8.一种网页违规图片检测装置,其特征在于,所述装置包括:
获取模块,用于获取待测页面的待测图片集合,所述待测图片集合包括所述待测页面中的所有网页图片;
基线图片去除模块,用于从所述待测图片集合中去除与基线图片相一致的所述网页图片,得到篡改图片,其中,所述基线图片为与所述待测页面对应的未被篡改的原始图片;
白名单图片去除模块,用于从所有所述篡改图片中去除白名单图片,得到目标检测图片;
违规检测模块,将所述目标检测图片输入至预设的违规图片检测模型,得到违规图片检测结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器运行时实现如权利要求1至7中任一项所述的网页违规图片检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器运行,以实现如权利要求1至7中任一项所述的网页违规图片检测方法。
CN202311044859.8A 2023-08-18 2023-08-18 网页违规图片检测方法和装置、电子设备、存储介质 Pending CN117113430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311044859.8A CN117113430A (zh) 2023-08-18 2023-08-18 网页违规图片检测方法和装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311044859.8A CN117113430A (zh) 2023-08-18 2023-08-18 网页违规图片检测方法和装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN117113430A true CN117113430A (zh) 2023-11-24

Family

ID=88799490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311044859.8A Pending CN117113430A (zh) 2023-08-18 2023-08-18 网页违规图片检测方法和装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN117113430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290845A (zh) * 2023-11-27 2023-12-26 央视国际网络有限公司 网页篡改的检测方法、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290845A (zh) * 2023-11-27 2023-12-26 央视国际网络有限公司 网页篡改的检测方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10261984B2 (en) Browser and operating system compatibility
CN113489713B (zh) 网络攻击的检测方法、装置、设备及存储介质
CN109768992B (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN112003838B (zh) 网络威胁的检测方法、装置、电子装置和存储介质
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
CN111159775A (zh) 网页篡改检测方法、系统、装置及计算机可读存储介质
CN103647678A (zh) 一种网站漏洞在线验证方法及装置
CN117113430A (zh) 网页违规图片检测方法和装置、电子设备、存储介质
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN111783159A (zh) 网页篡改的验证方法、装置、计算机设备和存储介质
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN114491560A (zh) 一种漏洞检测方法、装置、存储介质及电子设备
CN108363711B (zh) 一种网页中的暗链的检测方法和装置
CN109831451A (zh) 基于防火墙的防挂马方法
CN110457900B (zh) 一种网站监测方法、装置、设备及可读存储介质
CN109657472B (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
CN111131236A (zh) 一种web指纹检测装置、方法、设备及介质
CN111125704A (zh) 一种网页挂马识别方法及系统
CN108460116B (zh) 搜索方法、装置、计算机设备、存储介质及搜索系统
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN115378655A (zh) 漏洞检测方法及装置
CN109067726B (zh) 建站系统识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination