CN117312707A

CN117312707A - 一种基于动静特征结合的网站指纹生成方法

Info

Publication number: CN117312707A
Application number: CN202311139298.XA
Authority: CN
Inventors: 葛明仪; 吴妍青; 陈昌昊; 黄凌川; 杨望
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-29

Abstract

本发明提出了一种基于动静特征结合的网站指纹生成方法，具体步骤包括：基于黑盒测试，通过有限次查询的网站指纹识别方法，提取目标网站动态和静态特征；通过动态交互与静态匹配的网站指纹识别模型，生成网站指纹的特征值；将网站指纹特征值与专家网站指纹进行比较评估本发明通过对网站指纹本身的生成，可以将传统的基于网络安全专家人工的网站指纹设计与人工智能算法的网站指纹识别结合起来。有效提高网络安全专家对网站指纹的设计效率，并可以通过机器学习模型与特征提取算法不断优化迭代。

Description

一种基于动静特征结合的网站指纹生成方法

技术领域

本发明属于网络空间安全技术领域，涉及一种基于动静特征结合的网站指纹生成方法。

背景技术

Web框架网站指纹识别是目前Web安全中的一个重要研究方向，准确地识别目标网站的Web框架是对目标资产进行渗透测试或对网络空间进行测绘的重要方法之一。因为大多数Web框架存在不同程度的安全风险，通过识别目标站点的Web框架并使用特殊的攻击手段，可以高效地获取网站高级权限或敏感信息。同时，网站监管者与运营者也可以通过Web框架网站指纹识别技术，及时修复存在已知安全漏洞的站点。由于Web框架大多数并不会主动提供自己的网站指纹或者标签，因此网络安全研究者需要研究网站页面或网站行为，并从中找到该框架与众不同的特征。

为了实现高效的Web框架网站指纹识别，研究者通常会采用多种技术手段。其中一种比较常见的方式是通过分析HTTP响应中的特定信息来进行判断。此外，还可以通过分析网站的HTML结构、CSS文件以及JavaScript代码等来获取更准确的信息。除了传统的手动识别方法外，近年来也涌现出了各种自动化的Web框架网站指纹识别工具。这些工具通常基于机器学习、深度学习等领域的算法，能够自动从网站中提取特征，并通过预训练好的模型进行分类和判断。

然而，国内外已有的Web框架网站指纹识别库存在网站指纹选取不合理、识别库设计方案缺少优化、研究者需要投入更多的时间和精力去探索框架深度的特征以及部分网站指纹存在时效性等多种问题，导致Web框架网站指纹信息识别不全面、调用不方便且扫描效率较低且很少进行后续迭代更新。本发明尝试通过基于动静特征结合的方式，提出一种自动化生成Web框架网站指纹识别库的设计和实现方法。该方法综合考虑静态特征和动态特征两方面，旨在获取更全面、高效、准确的Web框架网站指纹信息。同时，在网站指纹选取方面，本发明结合传统网站指纹识别算法与机器学习模型等技术，优化网站指纹的选取流程，从海量网站中提取出更具代表性、稳定性的网站指纹信息。

发明内容

针对已有的Web框架网站指纹识别库存在网站指纹选取不合理、识别库设计方案缺少优化、研究者需要投入更多的时间和精力去探索框架深度的特征以及部分网站指纹存在时效性等情况，本发明阐述出一种自动化生成Web框架网站指纹识别库的设计和实现方案。相对已有的网站网站指纹识别，该方案将综合考虑静态特征和动态特征两方面，旨在获取更全面、高效、准确的Web框架网站指纹信息。它的实现步骤分为：基于黑盒测试，提取网站动静态特征；结合动态过滤扫描模型生成网站指纹；生成式网站指纹与专家网站指纹比较并评估其网站指纹生成效果。

为了达到上述目的，本发明提供如下技术方案：

一种自动化生成Web框架网站指纹识别库的设计和实现方案包括以下步骤：

(1)基于黑盒测试，通过有限次查询的网站指纹识别方法，提取目标网站动态和静态特征，从报文头与网站HTML内容中获取Web框架特征。

(2)使用步骤(1)中的动静态特征提取过程，通过动态交互与静态匹配的网站指纹识别模型，生成网站指纹的特征值。

(3)将步骤(2)生成的网站指纹特征值与专家网站指纹进行比较评估。

进一步地，所述步骤(1)具体包括如下子步骤：

(1.1)动态特征主要为报文的响应头特征与Cookie值特征。在对响应头的内容结构提取特征时，通过对响应头的标签关系赋予优先级与特征权重，可以快速获得响应头特征。

(1.2)对于Cookie，通过分析其名称、值、过期时间(Expires/Max-Age)、路径、域名等属性以确定是否可作为目标网站指纹特征。本方案主要采集Cookie名称，利用预设的特殊Cookie名对Web框架进行准确识别。

(1.3)提取静态特征时，首先从关键位置提取存在作为关键词可能性的字符串。之后根据关键词对象的类型，主要将统计对象分为两类：资源特征与文本。

(1.4)通过对引用资源的路径分析，利用莱文斯坦距离与最长公共子串算法，并利用词袋模型将相似性较高且出现率较高的关键路径作为网站指纹特征。

(1.5)在网站文本信息的分析中，考虑到不同语种的词法差异，此方案有针对性地构建了分词模型并使用TF-IDF与词袋模型筛选网站文本中有代表性的词汇作为关键词特征。

进一步地，所述步骤(1.1)具体包括如下子步骤：

(1.1.1)对响应头内容数据主要提取三类特征：关系特征、间接特征和直接特征。

在关系特征中，两个内容数据d_i,d_j，对标签A的权重计算为：

在间接特征中，两个内容数据d_i,d_j，对类别B，即标签Server所代表的所有服务器类型的权重计算如下，其中k为对所有服务器类型的枚举：

B_i,j＝(∑d_i＝＝d_j,k∈B)

对于直接特征则直接记录在待选Web框架类型中。

(1.1.2)响应头内容特征提取时按照直接特征，间接特征，关系特征的顺序依次选择。对于直接特征我们仅考虑是否存在，若存在则直接作为响应头特征，反之，通过计算强调间接特征。D为关系特征中标签的总数，C_i,j,k为内容数据i，j在服务器类别k下的特征权重，S_k为服务器类别k的总权重。选择权重最高的服务器类别作为响应头特征。

进一步地，所述步骤(1.4)具体包括如下子步骤：

(1.4.1)在比较不同Web站点间的相似性时，对链接进行了预处理，去除了版本信息、参数等与特征提取关系较小的内容，以避免无效字符影响相似性检测。

(1.4.2)计算字符串a，b之间的莱文斯坦距离lev(a,b)，表示将一个字符串更改为另一个字符串所需的最小字符编辑(插入、删除或者替换)次数。

(1.4.3)计算字符串a,b的最长公共字符串长度LCS(a,b)。

(1.4.4)对步骤(1.4.2)得到的莱文斯坦距离设置相似度，Sim(a,b)代表两个有效文本之间的相似度，值域为[0,1]，越接近1表示两个文本越相似，有效文本定义为对于字符串a,b的最长公共子串长度大于某个固定值。将阈值设置为0.70，固定值设置为8，统计大于此数值的最长公共子串。利用词袋模型统计出现次数最多的复数个子串，并记录为资源引用类型的关键词。从参考公式为：

进一步地，所述步骤(1.5)具体包括如下子步骤：

(1.5.1)对HTML中的文本信息提取后，将特殊变量名、网站框架声明和文本关键词作为网站指纹关键词。首先需要对中文文本在自然语言分析后进行分词处理。

(1.5.2)之后利用TF-IDF算法对所有中英文词汇进行分析。使用TF(词频)来量化某个词在文章中出现的次数，再使用一个语料库模拟语言，来量化某个词在的实际使用环境下的出现频率，将两个频率数值相乘获得TF-IDF数值，数值越大，代表该单词越能作为所属文档的特征关键词。

(1.5.3)由于TF-IDF对短文本的关键词可能存在一定的误判现象，此方案对样本较少的网站文本使用词袋模型进行统计，将文本表示为一个稀疏的向量，其中向量的每个维度代表一个单词，而向量中的值则是该单词在文本中出现的次数。通过向量值选择向量值最高的几个词汇作为关键词。

进一步地，所述步骤(2)具体包括如下子步骤：

(2.1)相比传统的动态扫描模型，此方案增加了过滤模块，在对网站进行网站指纹匹配之前，首先会载入过滤器，当网站满足过滤器条件之后，再载入具体的网站指纹规则进行匹配。通过使用过滤器，将传统的遍历搜索改变为基于过滤条件的启发式搜索。

(2.2)对步骤(2.1)中满足过滤器条件的网站，使用步骤(1)提取的动态和静态特征值进行静态数据匹配。

(2.3)对步骤(2.2)的匹配结果进行短路匹配后返回结果，同时利用短路匹配结果选择下一个网站路径。

进一步地，所述步骤(3)具体包括如下子步骤：

(3.1)将步骤(2)得到的特征值作为假设性网站指纹，按照选择的网站指纹模板规则生成网站指纹。

(3.2)将步骤(3.2)中生成式网站指纹与网站对应的安全专家网站指纹识别结果进行比较，计算生成式网站指纹的识别准确率，计算方法为：

TP表示使用生成式网站指纹与安全专家网站指纹认为目标网站为某Web框架的数量，FP表示使用生成式网站指纹未识别出目标网站未某Web框架，但使用安全专家网站指纹识别出该网站为目标框架，FP表示使用生成式网站指纹识别出目标网站为某Web框架，但使用安全专家网站指纹未识别出，TN表示使用生成式网站指纹与专家网站指纹同时未识别出目标网站为某Web框架。

与现有技术相比，本发明具有如下优点和有益效果：

(1)在网站匹配过程中，可以减少查询次数，降低网站指纹匹配算法的计算量。

(2)只需要通过少量的人工审查工作，就能够使生成式网站指纹的识别准确率非常接近使用网络安全专家所设计的Web框架网站指纹对网站的识别结果。

附图说明

图1为响应头特征提取算法流程。

图2为文本关键词特征提取流程。

图3为中文分词处理算法流程。

图4为传统动态扫描模型(左)动态过滤扫描模型(右)对比。

图5为在采集的10000个网络链接中对有效链接的Web框架识别准确率。

图6为网站指纹生成的主要流程。

具体实施：

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了一种基于动静特征结合的网站指纹生成模型的实现方法，实现步骤如图6所示，包括三个部分，第一部分为黑盒测试，具体内容为通过有限次查询的网站指纹识别方法，提取目标网站动态和静态特征，从报文头与网站HTML内容中获取Web框架特征。第二部分为机器网站指纹的生成，黑盒测试中的动静态特征提取过程，通过动态交互与静态匹配的网站指纹识别模型，生成网站网站指纹的特征值。第三部分为将生成的网站指纹特征值与专家网站指纹进行比较评估。

具体地说，本发明有以下步骤：

本步骤的具体过程如下：

(1.1)动态特征主要为报文的响应头特征与Cookie值特征。在对响应头的内容结构提取特征时，通过对响应头的标签关系赋予优先级与特征权重，可以快速获得响应头特征，具体过程如下：

B_i,j＝(∑d_i＝＝d_j,k∈B)

对于直接特征则直接记录在待选Web框架类型中。

(1.4)通过对引用资源的路径分析，利用莱文斯坦距离与最长公共子串算法，并利用词袋模型将相似性较高且出现率较高的关键路径作为网站网站指纹特征，具体过程如下：

(1.4.3)计算字符串a,b的最长公共字符串长度LCS(a,b)。

(1.5)在网站文本信息的分析中，考虑到不同语种的词法差异，此方案有针对性地构建了分词模型并使用TF-IDF与词袋模型筛选网站文本中有代表性的词汇作为关键词特征，具体过程如下：

(2)使用步骤(1)中的动静态特征提取过程，通过动态交互与静态匹配的网站指纹识别模型，生成网站网站指纹的特征值。

本步骤具体包含以下过程：

在评估实验中，从开源项目与平台上获取到了2118种Web框架简洁的网站指纹信息，并选其中20个样本数据充足且网站指纹特征能很好覆盖所有网站指纹类型的Web框架系统，并通过FOFA采集可能为对应应用框架的网站信息，通过FOFA平台我们采集了100000个网站链接，其中有效的大概有60000个，之后通过使用大规模网站分类模型对所有的网站进行数据分类并筛选出不同类型框架的有效URL数据条目，参考表4.2，然后使用网站指纹生成算法对根据有效数据生成表格中的Web框架网站指纹用于后续评估验证。最后，通过迭代循环运行大规模网站分类模型——网站指纹生成算法——网站指纹评估模块——大规模网站分类模型……，最终获得了每一个Web框架的识别准确率与总准确率。每一个Web框架的识别准确率是根据机器网站指纹与安全专家网站指纹对比，以安全专家网站指纹为参照，假设安全专家网站指纹的识别结果一定是正确的，来得出识别准确率。

从数据中我们可以很明显地能看出Web框架网站指纹系统能够有效地生成识别准确率很高的网站指纹数据，对于每种框架，生成的网站指纹准确率皆高于99％。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于动静特征结合的网站指纹生成方法，其特征在于，包括如下步骤：

(1)开发基于动态特征的网站指纹生成技术；

(2)开发基于静态特征的网站指纹生成技术；

(3)基于动态过滤扫描器结构，运用步骤(1)和步骤(2)的网站指纹生成技术，得到一个动态交互与静态匹配的网站指纹生成模型。

2.根据权利要求1所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(1)具体包括如下子步骤：

(1.1)响应头特征提取；

(1.2)Cookies特征提取。

3.根据权利要求2所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(1.1)具体包括如下子步骤：

(1.1.1)获取响应头内容特征，包括关系特征、间接特征和直接特征三类；

对于关系特征，计算报文头中是否存在该标签，标签的权重计算公式为：

对于间接特征建立字典，记录其所对应的具体标签并编码，权重计算公式为：

B_i,j＝(∑d_i＝＝d_j,k∈B)

对于直接特征，直接记录在待选Web框架类型中；

(1.1.2)获取响应头结构特特征，记录响应头标签数据的顺序特征和不同协议下HTTP请求的状态码定义值，为(1.1.1)的间接特征即Server标签提供数据支撑；

(1.1.3)综合考虑(1.1.1)和(1.1.2)的结果，直接特征存在时将其直接作为响应头特征，反之则通过计算获得响应头特征，计算公式为：

4.根据权利要求2所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(1.2)具体要求为：

采集网站的Cookie名称作为主要特征，并利用预设的特殊Cookie名对不同的Web框架进行准确识别。

5.根据权利要求1所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(2)具体包括如下步骤：

(2.1)关键词特征提取。

6.根据权利要求5所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(2.1)具体包括如下子步骤：

(2.1.1)获取关键词位置特征：从关键位置提取存在作为关键词可能性的字符串；

(2.1.2)获取资源引用字符串特征：使用莱文斯距离lev和最长公共子串lcs来计算资源引用字符串之间的相似度，a、b两个有效文本之间的相似度计算公式为：

并利用词袋模型统计出相似度高于设定阈值且出现次数最多的复数个子串，作为资源引用类型的关键词；

(2.1.3)获取网页文本信息特征，包括特殊变量名、网站框架声明和文本关键词三类：

对于特殊变量名特征，通过建立保留词和常用词名单，去除对识别无效的字符串和特殊字符后记录关键词；

对于网站框架声明特征，直接记录关键词；

对于高频文本关键词特征，利用TF-IDF和词袋模型，提取英文文本和经过基于前缀词典的DAG路径分词算法处理后的中文文本的关键词特征并记录。

7.根据权利要求1所述的基于动静特征结合的网站指纹生成方法，其特征在于，所述步骤(3)具体包括如下子步骤：

(3.1)网站指纹模板设计：针对动静特征结合的网站指纹生成技术，指定满足在网站指纹识别中对动静态信息的匹配的网站指纹模板；

(3.2)过滤器配置：根据网站指纹生成的具体要求制定过滤条件，对每一个路径使用过滤器；

(3.3)网站指纹生成：以(3.2)的结果为网站指纹模板，对于满足(3.2)过滤器条件的网站，运用步骤(1)和步骤(2)的动静态网站指纹生成技术，生成针对该网站的动态交互与静态匹配的网站指纹特征。