CN115618291A

CN115618291A - 一种基于Transformer的web指纹识别方法、系统、设备以及存储介质

Info

Publication number: CN115618291A
Application number: CN202211256998.2A
Authority: CN
Inventors: 赵阳; 刘周; 柴源; 林禹全; 曹兰天
Original assignee: Jilin Province Jilin Xiangyun Information Technology Co ltd
Current assignee: Jilin Province Jilin Xiangyun Information Technology Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17
Anticipated expiration: 2042-10-14
Also published as: CN115618291B

Abstract

一种基于Transformer的web指纹识别方法、系统、设备以及存储介质，属于网络安全和人工智能交叉结合技术领域，解决了现有技术在分析web指纹时，由于未能充分利用HTML源码的信息，造成web指纹识别的准确度低的问题。步骤S1，收集多个HTML源码和其对应的web指纹类别，并将已收集的多个HTML源码作为HTML源码数据集；步骤S2，将HTML源码数据集的数量进行扩充；步骤S3，将已扩充的HTML源码数据集进行预处理，将已预处理的HTML源码数据集划分为训练集和验证集；步骤S4，Transformer编码器结构结合Logistic回归算法构建出web指纹识别模型；步骤S5，将训练集输入到已构建出的web指纹识别模型中对其进行训练；步骤S6，使用训练生成的web指纹识别模型进行识别web指纹信息。

Description

一种基于Transformer的web指纹识别方法、系统、设备以及存储介质

技术领域

本发明涉及网络安全和人工智能交叉结合技术领域，具体涉及一种基于Transformer的web指纹识别方法、系统、设备以及存储介质。

背景技术

渗透测试指在不影响网站系统正常运行的条件下，渗透人员从内网、外网等不同位置对网站通过多种手段进行测试，以查找存在的缺陷和漏洞，评估系统安全状况，从而保证网站系统正常运行，保护数据信息安全，防止恶意攻击。渗透测试过程一般分为信息收集、漏洞检测、漏洞利用、渗透执行等环节。渗透测试在信息收集阶段通过web指纹识别，识别服务组件信息，以快速发现漏洞。web指纹包括前端技术、操作系统、通用框架、内容管理系统、内容分发网络等信息。常见的通过HTML响应头、HTML源码、URL特征等信息识别指纹，而HTML源码中包含丰富的指纹信息，因此作为常见的指纹识别分析对象。

已有的HTML源码分析手段包括基于关键字匹配的方法和基于机器学习的方法。其中，关键字匹配的方式涉及人工从大量类型源码中提取归纳有效关键字段，建立指纹库，从而提取响应头或响应信息中的关键字段匹配对应的指纹信息，但一部分作为关键特征的字段容易被修改；受机器学习技术在文本分类上应用的启发，可将HTML源码视为由字符构成的文本，从而将web指纹识别作为一种文本分类任务。文本分类的关键在于模型的远距离建模能力，如果不能建立数据间的长程依赖，则不能有效处理包含大量字符内容的HTML源码。已有的实现方式是将HTML源码中的字符全部转为向量后，通过聚类等算法进行多分类处理，但不足在于没有利用到字符在文本中的位置信息。

因此，现有技术在分析web指纹时，未能充分利用HTML源码的信息，web指纹识别的准确度有待提高。

发明内容

本发明解决了现有技术在分析web指纹时，由于未能充分利用HTML源码的信息，造成web指纹识别的准确度低的问题。

本发明所述的一种基于Transformer的web指纹识别方法，包括以下步骤：

步骤S1，收集多个HTML源码和其对应的web指纹类别，并将已收集的多个HTML源码作为HTML源码数据集；

步骤S2，将HTML源码数据集的数量进行扩充；

步骤S3，将已扩充的HTML源码数据集进行预处理，将已预处理的HTML源码数据集划分为训练集和验证集；

步骤S4，Transformer编码器结构结合Logistic回归算法构建出web指纹识别模型；

步骤S5，将训练集输入到已构建出的web指纹识别模型中对其进行训练；

步骤S6，使用训练生成的web指纹识别模型进行识别web指纹信息；

所述web指纹识别模型包括输入嵌入层、位置编码层、编码器组、线性层组和Logistic回归层；

所述web指纹识别模型输入已预处理的HTML源码数据集，输出多个HTML源码对应的web指纹类别。

进一步地，在本发明的一个实施例中，所述将收集到的HTML源码数据集的数量进行扩充的方式为在HTML源码中随机删除部分行内容、在HTML源码中随机复制部分行内容或在HTML源码中分别随机删除和复制部分行内容。

进一步地，在本发明的一个实施例中，所述预处理是通过正则匹配的方式。

进一步地，在本发明的一个实施例中，所述将训练集输入到已构建的web指纹识别模型中对其进行训练，具体为：

使用已构建的web指纹识别模型对训练集进行设定次数的训练，训练中，通过均方误差度量已构建的web指纹识别模型预测结果相较于标签值的误差，通过随机梯度优化器调节已构建的web指纹识别模型的参数，训练集每迭代一次，通过验证集进行评估预测准确率，当满足训练结束条件时，即停止训练，并保存训练生成的web指纹识别模型。

进一步地，在本发明的一个实施例中，所述训练结束条件为达到已构建的web指纹识别模型对训练集设定的迭代训练次数或误差低于设定值。

本发明所述的一种基于Transformer的web指纹识别系统，所述系统包括以下模块：

收集模块，收集多个HTML源码和其对应的web指纹类别，并将已收集的多个HTML源码作为HTML源码数据集；

扩充模块，将HTML源码数据集的数量进行扩充；

预处理模块，将已扩充的HTML源码数据集进行预处理，将已预处理的HTML源码数据集划分为训练集和验证集；

构建模块，Transformer编码器结构结合Logistic回归算法构建出web指纹识别模型；

训练模块，将训练集输入到已构建出的web指纹识别模型中对其进行训练；

识别模块，使用训练生成的web指纹识别模型进行识别web指纹信息；

本发明所述的一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述方法中任一所述的方法步骤。

本发明所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法中任一所述的方法步骤。

本发明解决了现有技术在分析web指纹时，由于未能充分利用HTML源码的信息，造成web指纹识别的准确度低的问题。具体有益效果包括：

1、本发明所述的一种基于Transformer的web指纹识别方法，相比于关键字匹配的方式，减少了对关键字的依赖程度，即使关键字被修改也不会影响识别准确性，并通过位置编码对HTML源码中的词顺序进行建模，相比于聚类的方式，更能充分利用源码中的文本位置信息，识别准确度更高；

2、本发明所述的一种基于Transformer的web指纹识别方法，构建用于web指纹识别的文本分类网络模型，对HTML源码进行建模，从而避免人工特征提取；

3、本发明所述的一种基于Transformer的web指纹识别方法，使用编码器注意力机制能够建立远距离的依赖性，更适合处理包含大量字符内容的HTML源码数据。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是具体实施方式所述的一种基于Transformer的web指纹识别方法流程图；

图2是具体实施方式所述的web指纹识别模型结构图。

具体实施方式

下面结合附图将对本发明的多种实施方式进行清楚、完整地描述。通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本实施方式所述的一种基于Transformer的web指纹识别方法，包括以下步骤：

步骤S2，将HTML源码数据集的数量进行扩充；

本实施方式中，所述将收集到的HTML源码数据集的数量进行扩充的方式为在HTML源码中随机删除部分行内容、在HTML源码中随机复制部分行内容或在HTML源码中分别随机删除和复制部分行内容。

本实施方式中，所述预处理是通过正则匹配的方式。

本实施方式中，所述将训练集输入到已构建的web指纹识别模型中对其进行训练，具体为：

本实施方式中，所述训练结束条件为达到已构建的web指纹识别模型对训练集设定的迭代训练次数或误差低于设定值。

本实施方式基于本发明所述的一种基于Transformer的web指纹识别方法，结合图1能更好的理解本实施方式，提供一种实际的实施方式：

一种基于Transformer的web指纹识别方法，包括以下步骤：

步骤1，收集网站HTML源码和对应的web指纹标签；

步骤2，扩充HTML源码文件数量；

步骤3，HTML源码数据预处理；

步骤4，构建基于Transformer的web指纹识别模型；

步骤5，训练指纹识别模型；

步骤6，使用训练生成的模型识别网站的web指纹信息。

所述步骤1中数据收集方式：以已知web指纹的网站系统作为数据收集目标对象，发送HTTP请求到目标web服务器，接收web服务器返回的响应报文，保存对应的HTML源码作为数据集，将对应的web指纹类别作为HTML数据的标签。

具体地，收集了109类不同指纹类别的HTML源码数据共48267条。

所述web指纹类别包括“织梦”，“帝国CMS”，“魅思cms”，“phpwind”，“discuz”，“sitestar”等109类常见的指纹类别。

所述步骤2中的数据扩充方式：在HTML源码中随机删除部分行内容，或随机复制部分行内容，或同时采取两种方式，将处理结果另存为新文件。

具体地，将数据扩充至314332条。

所述步骤3中的数据预处理：通过正则匹配处理HTML源码中的关键字、数字和网址内容。

3.1对关键字的处理：部分指纹类别对应的HTML源码中包含特定关键字，如“织梦”，“Powered by Discuz”等内容，此类信息可以作为一种简单快速的web指纹识别方式，但是容易被修改，所以通过正则匹配的方式从HTML源码中匹配此类关键字并删除；

3.2对数字和网址的处理：数字和网址是HTML源码中经常变化的元素，因此不将此类信息作为考虑的特征。通过正则匹配定位HTML中的数字和网址信息，并将数字全部替换为“0”，http或https网址链接全部替换为“http://u”。

所述步骤4模型构建：结合Transformer编码器结构和Logistic回归算法构建web指纹识别模型，模型由输入嵌入层、位置编码层、编码器组、线性层组和Logistic回归层构成。模型的输入是步骤3预处理后的HTML源码，输出是源码对应的web指纹类别。模型结构如附图2所示：

4.1输入嵌入：包括分词处理、建立词库、分词结果遍历、词嵌入处理。其中，

4.1.1分词处理：通过正则匹配的方式匹配HTML数据中的特殊字符位置，将连续的字符划分为词汇集合，如“＝”，“>”，“<”，“(”，“)”，“,”等；

4.1.2建立词库：分词结果进行词频统计，将词汇按照其出现的频率从高到低进行排列，取前2999个词汇和“UNK”创建词库；

4.1.3分词结果遍历：结合词库对分词结果进行遍历，如果词汇出现在词库里，保留该词汇不做处理；如果未出现在词库里，替换为“UNK”；

4.1.4词嵌入处理：对分词后遍历的结果进行嵌入操作，编码为词向量的集合，每个词嵌入是设定维度的向量。具体地设定维度是32。

4.2位置编码层：

对词嵌入结果位置编码的计算方式是：

其中，PE表示位置编码的结果，pos表示词嵌入在句子中的位置，d_model表示词嵌入/词向量的维度，2i表示偶数维度、2i+1表示奇数维度。

对每一个词嵌入，用与词嵌入相同维度的向量表示其位置编码信息。将词嵌入与位置编码相加作为编码器的输入。

4.3编码器组：包含6个编码器，其中每个编码器由多头自注意力层和前向反馈网络层、残差连接、归一化处理构成。

4.3.1多头自注意力层：由8个自注意力层和全连接层构成。每个自注意力层对输入数据分别进行三次线性变换处理，分别得到Q、K、V三个矩阵，三次线性变换计算过程表示为：

Q＝W_qx；

K＝W_kx；

V＝W_vx：

其中，W_q、W_k、W_v分别表示三次线性变换中的权重，x表示输入数据。

自注意力输出计算过程表示为：

其中，Q、K、V表示输入的三个线性变换处理的结果，d_k表示K的维度。

将8个自注意力层的输出拼接后，再经过全连接层进行一次线性变换，计算过程表示为：

MHA＝concat(Attention₁(Q，K，V)，...，Attention₈(Q，K，V))W^o；

其中，concat表示拼接特征向量，W^o表示线性变换的权重。

4.3.2前向反馈网络层：包含两个全连接层和ReLU非线性激活处理，前向反馈计算过程表示为：

FFN(x)＝ReLU(W₁x+b₁)W₂+b₂；

其中，x表示输入数据，ReLU表示非线性激活处理，W₁、b₁表示第一次线性变换的权重和偏置，W₂、b₂表示第二次线性变换的权重和偏置。

4.3.3归一化、残差连接

在每个编码器中，在多头自注意力层和前向反馈网络层前后设置残差连接，将对应的输入数据和输出数据相加后进行归一化处理，作为下一层的输入，前向反馈网络层的输入表示为：

Input_FFN＝Norm(MHA+x)；

其中，x表示多头自注意力层的输入数据，Norm表示归一化处理。

4.4线性层组

用于将编码器提取的特征矩阵转换为特征向量，包含3个线性层，其中每个线性层包括全连接层、归一化处理、ReLU非线性激活处理。

4.5Logistic回归层

用于实现web指纹类别的预测，包括全连接层、Sigmoid非线性激活处理。作为网络的最后一层，输出与类别数目相等维度的向量。具体地，类别数目是109维。

向量中每一个标量表示预测为对应web指纹类别的概率，类别对应的概率值越大，表示是此类别的可能性越大。

所述步骤5模型训练：将步骤3预处理后的数据划分为训练集和验证集，具体地，训练集包含282899条数据，验证集包含31433条数据。

使用步骤4构建的web指纹识别模型对训练集数据进行设定次数的迭代训练。具体地，深度学习框架使用pytorch，在8块NVIDIA A100-SXM4-40GB GPU上进行模型训练。

训练中通过均方误差度量模型预测结果相较于标签值的误差，通过随机梯度优化器调节模型参数。训练集每迭代一次，通过验证集评估预测准确率，当满足训练结束条件时，即停止训练，保存训练生成的模型。

所述训练结束条件是达到设定的迭代次数、或误差低于设定值。具体地，设定的迭代次数是20。

所述步骤6的web指纹预测：通过步骤5训练生成的web指纹识别模型对测试数据的HTML源码进行分类预测，具体地，测试数据是另取的109类、共47546条HTML源码数据。

输出设定维度的向量，具体地，维度设定为109。

其中每一维度表示是对应指纹类别的概率，最大值所在维度对应的指纹类别即为模型预测HTML源码所属的web指纹类别。具体地，预测准确率为98.34％。

本实施方式所述的一种基于Transformer的web指纹识别系统，所述系统包括以下模块：

扩充模块，将HTML源码数据集的数量进行扩充；

本实施方式所述的一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述实施方式中任一所述的方法步骤。

本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中任一所述的方法步骤。

本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM，DR RAM)。应注意，本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disc，SSD))等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

以上对本发明所提出的一种基于Transformer的web指纹识别方法、系统、设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于Transformer的web指纹识别方法，其特征在于，包括以下步骤：

步骤S2，将HTML源码数据集的数量进行扩充；

2.根据权利要求1所述的一种基于Transformer的web指纹识别方法，其特征在于，所述将收集到的HTML源码数据集的数量进行扩充的方式为在HTML源码中随机删除部分行内容、在HTML源码中随机复制部分行内容或在HTML源码中分别随机删除和复制部分行内容。

3.根据权利要求1所述的一种基于Transformer的web指纹识别方法，其特征在于，所述预处理是通过正则匹配的方式。

4.根据权利要求1所述的一种基于Transformer的web指纹识别方法，其特征在于，所述将训练集输入到已构建的web指纹识别模型中对其进行训练，具体为：

5.根据权利要求4所述的一种基于Transformer的web指纹识别方法，其特征在于，所述训练结束条件为达到已构建的web指纹识别模型对训练集设定的迭代训练次数或误差低于设定值。

6.一种基于Transformer的web指纹识别系统，其特征在于，所述系统包括以下模块：

扩充模块，将HTML源码数据集的数量进行扩充；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。