CN115437930A - 网页应用指纹信息的识别方法及相关设备 - Google Patents

网页应用指纹信息的识别方法及相关设备 Download PDF

Info

Publication number
CN115437930A
CN115437930A CN202211054217.1A CN202211054217A CN115437930A CN 115437930 A CN115437930 A CN 115437930A CN 202211054217 A CN202211054217 A CN 202211054217A CN 115437930 A CN115437930 A CN 115437930A
Authority
CN
China
Prior art keywords
target
webpage
information
class attribute
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211054217.1A
Other languages
English (en)
Other versions
CN115437930B (zh
Inventor
邱浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Sipuling Technology Co Ltd
Original Assignee
Wuhan Sipuling Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Sipuling Technology Co Ltd filed Critical Wuhan Sipuling Technology Co Ltd
Priority to CN202211054217.1A priority Critical patent/CN115437930B/zh
Publication of CN115437930A publication Critical patent/CN115437930A/zh
Application granted granted Critical
Publication of CN115437930B publication Critical patent/CN115437930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供一种网页应用指纹信息的识别方法及相关设备,主要目的在于解决web应用指纹识别过程中,其中,一些常见的指纹识别方式,会通过网站的特定图片文件,js文件,css样式等这样过爬虫抓取这些文件并计算md5值,但是在实际的应用场景中,在使用建站系统、框架的过程中,对网站进行二次开发后导致上述通过md5匹配的方法失效的问题。其中,上述方法包括:读取目标网页应用的网页信息,提取所述网页信息中的目标class属性信息,基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,基于所述目标网页框架识别所述网页应用的指纹信息。

Description

网页应用指纹信息的识别方法及相关设备
技术领域
本发明涉及网络安全领域,尤其涉及一种网页应用指纹信息的识别方法及相关设备。
背景技术
指纹识别是渗透测试时影响漏洞发现的重要一环,其最终目标是快速、准确地发现服务器的应用软件信息,从而根据这些信息发现站点所存在的漏洞。根据被识别对象的不同,一般分为主机系统指纹识别、端口服务指纹识别、web应用指纹识别等。本方法主要针对web应用指纹识别,包括但不限于CMS信息、前端技术等。其中,一些常见的指纹识别方式,会通过网站的特定图片文件,js文件,css样式等这样过爬虫抓取这些文件并计算md5值,如果md5值与数据库中md5值一致,则说明是同一框架或组件。但是在实际的应用场景中,在使用建站系统、框架的过程中,通常会对网站进行二次开发,不排除会修改js、css等静态文件,而网站logo、标题、描述信息、版权信息,则大部分会修改为自己网站的信息,这就导致上述通过md5匹配识别的方法失效。
发明内容
鉴于上述问题,本发明提供一种基于页面class属性相似度识别web应用指纹的方法,主要目的在于解决通过md5识别网站框架方法失效的问题。
为解决上述至少一种技术问题,第一方面,本发明提供了一种网页应用指纹信息的识别方法,该方法包括:
读取目标网页应用的网页信息;
提取所述网页信息中的目标class属性信息;
基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;
基于所述目标网页框架识别所述网页应用的指纹信息。
可选的,上述方法还包括:
遍历网页框架库;
获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
可选的,所述获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
提取不同网页框架关联的class属性信息
排除不同网页框架关联的相同的class属性信息;
选择与其他网页框架不同的class属性信息作为每个网页框架的关键class属性,以生成所述预设属性分类词集。
可选的,获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
通过TF-IDF算法获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
可选的,所述提取所述网页信息中的目标class属性信息,包括:
提取所述网页信息中的html文件和css文件中的目标class属性信息。
可选的,上述方法还包括:
所述提取所述网页信息中的html文件和css文件中的目标class属性信息,包括:
在所述目标class属性信息的所属文件为html文件且同一class属性信息中存在至少两个class属性内容的情况下,将所述至少两个class属性进行拆分以获得至少两个所述目标class属性信息;
在所述目标class属性信息的所属文件为css文件的情况下,提取特定标识符后的内容作为所述目标class属性信息。
可选的,上述方法还包括:
所述基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,包括:
获取所述目标class属性信息与所述预设属性分类词集的class属性交集;
通过KNN算法计算所述class属性交集与所述预设属性分类词集相似度,以确定所述目标网页应用对应的目标网页框架。
第二方面,本发明实施例还提供了网站框架识别的装置,包括:
读取单元,用于读取目标网页应用的网页信息;
提取单元,用于提取所述网页信息中的目标class属性信息;
确定单元,用于基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;
识别单元,用于基于所述目标网页框架识别所述网页应用的指纹信息。
为了实现上述目的,根据本发明的第三方面,提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序被处理器执行时实现上述的网页应用指纹信息的识别方法。
为了实现上述目的,根据本发明的第四方面,提供了一种电子设备,包括至少一个处理器、以及与上述处理器连接的至少一个存储器;其中,上述处理器用于调用上述存储器中的程序指令,执行上述的网页应用指纹信息的识别方法。
借由上述技术方案,本发明实施例提供一种网页应用指纹信息的识别系统,对于目前进行web指纹识别时,现有的通过md5值进行匹配的方式,难以满足对web指纹信息进行精确识别的问题,本发明通过获取读取目标网页应用的网页信息,再提取所述网页信息中的目标class属性信息,进一步的基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,最后基于所述目标网页框架识别所述网页应用的指纹信息。在上述方案中,可以确保在面对复杂条件和经过修改过的目标网页应用时,都能够基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,以便于基于所述目标网页框架识别所述网页应用的指纹信息的功能,相较于目前常规的匹配方法较为僵化的问题,本发明的上述方法可以利用高精度数据匹配识别实现与目标网页应用框架以达到对web指纹精确识别的效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种网页应用指纹信息的识别方法的流程示意图;
图2示出了本发明实施例提供的另一种网页应用指纹信息的识别方法流程示意图;
图3示出了本发明实施例提供的又一种网页应用指纹信息的识别方法的流程示意图;
图4示出了本发明实施例提供的再一种网页应用指纹信息的识别方法的流程示意图;
图5示出了本发明实施例提供的一种网页应用指纹信息的识别装置的示意性结构框图;
图6示出了本发明实施例提供的一种电子设备的示意性结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了解决解决通过md5识别网站框架方法失效的问题。
本发明实施例提供了一种网页应用指纹信息的识别方法,如图1所示,该方法包括:
S101、读取目标网页应用的网页信息。
其中,所述网页信息是基于读取单元读取目标网页应用内所含有的文件得到的。
需要说明的是网页应用通常内部含有很多文件,包括但不仅限于可以是html文件、php文件、asp文件、jsp文件、css文件、大量图片文件、flash文件、视频文件。先整体遍历所述目标网页应用,获取全部文件,而后再根据本方案的具体需求,针对html文件和css文件进行具体解析。
其中,html文件是一种超文本文件,也可以称为网页文件,当下互联网用户普遍查看的大部分网页都是html格式,所述html文件通常为以“.html”或者“.htm”为扩展名结尾的文件。
示例性的,如:index.html。
其中,css文件指的是包含了css代码的,扩展名为“.css”的文本文件。css文件是一种与html语言配合使用制作网页的文件,它的作用主要是控制html文章的布局,简单的说就是控制网页的显示外观。
示例性的,如:demo.css
可以根据jQuery判断所述css文件是否存在,包括:
Figure BDA0003824363070000051
S102、提取所述网页信息中的目标class属性信息。
需要说明的是,所述目标class属性信息是基于读取所述网页内部含有的html文件和css文件的信息进一步得到的。其中class属性是html核心属性,用于为元素设置类名。
class属性主要用于引用样式表中的类,除此以外,它也可被用来在JavaScript中(通过HTML DOM)针对给定类来改变HTML元素。
S103、基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架。
通过对所述的目标class属性与对遍历网页框架库后所提取的关键class属性信息进行属性比对,权重信息计算,确定所述目标网页应用对应的目标网页框架。
所述预设属性分类词集是通过遍历现在市面上已有的网页框架库后,进一步通过读取单元,针对html文件及css文件进行解析。
在具体的指纹识别应用时,由于当下普遍应用场景下,存在网站使用多个框架、组件的情况。可以将其页面进行拆分处理,针对每个html文件、css文件单独进行识别匹配,这样可以识别出多个框架组件。
S104、基于所述目标网页框架识别所述网页应用的指纹信息。
根据所述目标网页应用对应的目标网页框架,进一步的确认所述网页应用的具体指纹信息内容。
需要说明的是,应用指纹是应用的一种身份标识,其具有唯一性。在应用的开发过程中,为了提高开发的效率和系统的稳定性,通常会用到一些成熟、稳定的第三方环境、程序、框架或服务等,而这些第三方内容的名称或标识就是这里所说的应用指纹。
在上述方案中,可以确保在面对复杂条件和经过修改过的目标网页应用时,都能够基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,以便于基于所述目标网页框架识别所述网页应用的指纹信息的功能,相较于目前常规的匹配方法较为僵化的问题,本发明的上述方法可以利用高精度数据匹配识别实现与目标网页应用框架以达到对web指纹精确识别的效果。
在一些实施例中,前述实施例的步骤中基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,在具体执行时可以如图2所示,其中,包括:
201、遍历网页框架库。
其中,通过读取单元对网页框架库进行遍历操作,遍历文件为网页框架库中每个框架组件内的所有文件,但仅针对html文件和css文件进行解析。
需要说明的是,所谓遍历(Traversal),是指沿着某条搜索路线,依次对树(或图)中每个节点均做一次访问。访问结点所做的操作依赖于具体的应用问题,具体的访问操作可能是检查节点的值、更新节点的值等。本方案中的遍历指对所述网页框架库中的所有框架文件进行逐一访问以便于后续通过读取单元进行读取操作。
202、获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
所述不同网页框架在选择时,内部组件尽可能的要多,框架组件的数量影响分类词集中关键class属性的数量,对应进行识别的框架组件样本更为丰富,匹配的准确率更加精准。进一步的,每个网页框架组件文件的代码纯净度尽可能的要高,不能包含其他网页框架组件的代码文件,以防引发错误识别。
在一些实施例中,可以获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。基于此,前述步骤202中所述获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,可以如图3所示,在执行时包括:
301、提取不同网页框架关联的class属性信息。
通过提取单元提取网页框架库中不同网页框架所关联的class属性信息,作为等待筛选的待筛class属性。
302、排除不同网页框架关联的相同的class属性信息。
网页框架纷多繁杂,不同网页框架内所含有大量代码信息,每个不同网页框架具有大量相同的class属性信息进行重合,上述大量相同的class属性信息并不能作为区分出具体框架的特征代码,故需要把相同的class属性信息进行排除操作,进一步的,将提取的所述不同的网页框架相同的class信息进行排除,以便进一步更好的生成分类词集。
303、选择与其他网页框架不同的class属性信息作为每个网页框架的关键class属性,以生成所述预设属性分类词集。
基于所述排除不同网页框架关联的相同的class属性信息,将排除相同class属性后剩余的class属性记作关键class属性,关键class属性代表着一种特征属性,通过识别单元能根据其特征属性识别出所述关键class属性是哪种网页框架所含有的。进一步的,将遍历过后的网页框架库内不同的网页框架在经过排除相同class属性,筛选后所得到的关键class属性组合集合的形式,将所述集合记作预设属性分类词集。
需要说明的是,根据上述步骤,每个框架组件可以提取很多关键class属性,但是判断这些关键class属性哪些能有效分辨识别出框架组件,所述关键class属性筛选主要通过TF-IDF算法实现。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
在一些实施例中,提取所述网页信息中的html文件和css文件中的目标class属性信息。
所述方法如图4所示,其中包括:
401、提取html文件中的class属性信息。
因网页内部提取的html文件内的信息为前端代码形式,许多信息并不能被读取后直接应用在本方案,所以在通过提取单元从html文件中提取class属性信息的过程中,当提取到的class属性信息为大于或等于2个且格式通过空格进行连接时,需要对所述属性信息进行拆分处理。
示例性的,如class属性格式为'class="class1class2"',多个class属性内容使用空格连接,需要将其拆分,前面例子就可以拆分为"class1","class2"。
402、提取css文件中的class属性信息
因网页内部提取的html文件内的信息为前端代码形式,许多信息并不能被读取后直接应用在本方案,所以在通过提取单元从css文件中提取class属性信息的过程中,当提取到的class属性信息以“.”进行显示时,需要对所述属性信息进行后置提取处理。
示例性的,如类(即class属性内容)选择器以一个点"."号显示,如:".center{text-align:center;}",提取"."后的关键词即可。
需要说明是的是,作为对上述图1及相关的多种实施例所示方法的实现,本发明实施例还提供了一种网页应用指纹信息的识别装置,用于对上述图1以及上述多个实施例所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图5所示,该装置包括。如图5所示,该包括:
读取单元51,用于读取目标网页应用的网页信息;
提取单元52,用于提取所述网页信息中的目标class属性信息;
确定单元53,用于基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;
识别单元54,用于基于所述目标网页框架识别所述网页应用的指纹信息。
借由上述技术方案,本发明实施例提供一种网页应用指纹信息的识别系统,对于目前进行web指纹识别时,现有的通过md5值进行匹配的方式,难以满足对web指纹信息进行精确识别的问题,本发明通过获取读取目标网页应用的网页信息,再提取所述网页信息中的目标class属性信息,进一步的基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,最后基于所述目标网页框架识别所述网页应用的指纹信息。在上述方案中,可以确保在面对复杂条件和经过修改过的目标网页应用时,都能够基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,以便于基于所述目标网页框架识别所述网页应用的指纹信息的功能,相较于目前常规的匹配方法较为僵化的问题,本发明的上述方法可以利用高精度数据匹配识别实现与目标网页应用框架以达到对web指纹精确识别的效果。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现一种自动化实现基于调用的通信方法,以解决现有的基于调用的通信方式难以满足转发功能的需求的问题。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述网页应用指纹信息的识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行网页应用指纹信息的识别方法。
本发明实施例提供了一种设备60,如图6所示,设备包括至少一个处理器601、以及与处理器连接的至少一个存储器602、总线603;其中,处理器601、存储器602通过总线603完成相互间的通信;处理器601用于调用存储器中的程序指令,以执行上述的网页应用指纹信息的识别方法。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:读取目标网页应用的网页信息;
提取所述网页信息中的目标class属性信息;基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;基于所述目标网页框架识别所述网页应用的指纹信息。
进一步的,上述方法还包括:
遍历网页框架库;
获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
进一步的,所述获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
提取不同网页框架关联的class属性信息
排除不同网页框架关联的相同的class属性信息;
选择与其他网页框架不同的class属性信息作为每个网页框架的关键class属性,以生成所述预设属性分类词集。
进一步的,获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
通过TF-IDF算法获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
进一步的,所述提取所述网页信息中的目标class属性信息,包括:
提取所述网页信息中的html文件和css文件中的目标class属性信息。
进一步的,上述方法还包括:
所述提取所述网页信息中的html文件和css文件中的目标class属性信息,包括:
在所述目标class属性信息的所属文件为html文件且同一class属性信息中存在至少两个class属性内容的情况下,将所述至少两个class属性进行拆分以获得至少两个所述目标class属性信息;
在所述目标class属性信息的所属文件为css文件的情况下,提取特定标识符后的内容作为所述目标class属性信息。
进一步的,上述方法还包括:
所述基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,包括:
获取所述目标class属性信息与所述预设属性分类词集的class属性交集;
通过KNN算法计算所述class属性交集与所述预设属性分类词集相似度,以确定所述目标网页应用对应的目标网页框架。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种网页应用指纹信息的识别方法,其特征在于,包括:
读取目标网页应用的网页信息;
提取所述网页信息中的目标class属性信息;
基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;
基于所述目标网页框架识别所述网页应用的指纹信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
遍历网页框架库;
获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
3.根据权利要求2所述的方法,其特征在于,所述获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
提取不同网页框架关联的class属性信息
排除不同网页框架关联的相同的class属性信息;
选择与其他网页框架不同的class属性信息作为每个网页框架的关键class属性,以生成所述预设属性分类词集。
4.根据权利要求2所述的方法,其特征在于,所述获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集,包括:
通过TF-IDF算法获取不同网页框架关联的关键class属性信息以生成所述预设属性分类词集。
5.根据权利要求1所述的方法,其特征在于,所述提取所述网页信息中的目标class属性信息,包括:
提取所述网页信息中的html文件和css文件中的目标class属性信息。
6.根据权利要求5所述的方法,其特征在于,所述提取所述网页信息中的html文件和css文件中的目标class属性信息,包括:
在所述目标class属性信息的所属文件为html文件且同一class属性信息中存在至少两个class属性内容的情况下,将所述至少两个class属性进行拆分以获得至少两个所述目标class属性信息;
在所述目标class属性信息的所属文件为css文件的情况下,提取特定标识符后的内容作为所述目标class属性信息。
7.根据权利要求5所述的方法,其特征在于,所述基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架,包括:
获取所述目标class属性信息与所述预设属性分类词集的class属性交集;
通过KNN算法计算所述class属性交集与所述预设属性分类词集相似度,以确定所述目标网页应用对应的目标网页框架。
8.一种网站框架识别的装置,其特征在于,包括:
读取单元,用于读取目标网页应用的网页信息;
提取单元,用于提取所述网页信息中的目标class属性信息;
确定单元,用于基于所述目标class属性信息通过预设属性分类词集确定所述目标网页应用对应的目标网页框架;
识别单元,用于基于所述目标网页框架识别所述网页应用的指纹信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器执行时实现如权利要求1至权利要求7中任一项所述的网页应用指纹信息的识别方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器;其中,所述处理器用于调用所述存储器中的程序指令,执行如权利要求1至权利要求7中任一项所述的网页应用指纹信息的识别方法。
CN202211054217.1A 2022-08-31 2022-08-31 网页应用指纹信息的识别方法及相关设备 Active CN115437930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211054217.1A CN115437930B (zh) 2022-08-31 2022-08-31 网页应用指纹信息的识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211054217.1A CN115437930B (zh) 2022-08-31 2022-08-31 网页应用指纹信息的识别方法及相关设备

Publications (2)

Publication Number Publication Date
CN115437930A true CN115437930A (zh) 2022-12-06
CN115437930B CN115437930B (zh) 2023-06-02

Family

ID=84244429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211054217.1A Active CN115437930B (zh) 2022-08-31 2022-08-31 网页应用指纹信息的识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN115437930B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312707A (zh) * 2023-09-05 2023-12-29 东南大学 一种基于动静特征结合的网站指纹生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
US20170277804A1 (en) * 2016-03-23 2017-09-28 Tata Consultancy Services Limited Method and system for selecting sample set for assessing the accessibility of a website
CN111125605A (zh) * 2019-12-31 2020-05-08 北京创鑫旅程网络技术有限公司 页面元素获取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021185A (zh) * 2014-06-11 2014-09-03 北京奇虎科技有限公司 对网页中数据的信息属性进行识别的方法和装置
US20170277804A1 (en) * 2016-03-23 2017-09-28 Tata Consultancy Services Limited Method and system for selecting sample set for assessing the accessibility of a website
CN111125605A (zh) * 2019-12-31 2020-05-08 北京创鑫旅程网络技术有限公司 页面元素获取方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312707A (zh) * 2023-09-05 2023-12-29 东南大学 一种基于动静特征结合的网站指纹生成方法

Also Published As

Publication number Publication date
CN115437930B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
CN108566399B (zh) 钓鱼网站识别方法及系统
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
US20160314348A1 (en) Mathematical formula learner support system
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN107085549B (zh) 故障信息生成的方法和装置
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN112445997A (zh) 一种提取cms多版本识别特征规则的方法及装置
CN104252447A (zh) 文件行为分析方法及装置
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN117409419A (zh) 图像检测方法、设备及存储介质
CN115017441A (zh) 一种资产分类方法、装置及电子设备和存储介质
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
US11301522B1 (en) Method and apparatus for collecting information regarding dark web
CN110532773B (zh) 恶意访问行为识别方法、数据处理方法、装置和设备
CN113868698A (zh) 一种文件脱敏方法及设备
CN111552783A (zh) 内容分析查询方法、装置、设备和计算机存储介质
CN116821903A (zh) 检测规则确定及恶意二进制文件检测方法、设备及介质
CN115796146A (zh) 一种文件对比方法及装置
CN110929188A (zh) 服务端页面渲染方法及装置
CN111125605B (zh) 页面元素获取方法和装置
CN110083576B (zh) 一种缓存目录的识别方法及装置
CN111708891B (zh) 一种多源食材数据之间的食材实体链接方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant