CN112989256B

CN112989256B - 识别响应信息中web指纹的方法和装置

Info

Publication number: CN112989256B
Application number: CN202110500550.XA
Authority: CN
Inventors: 朱林; 苗丽珍
Original assignee: Beijing Huayuan Information Technology Co Ltd
Current assignee: Beijing Huayuan Information Technology Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-09-24
Anticipated expiration: 2041-05-08
Also published as: CN112989256A

Abstract

本公开提供了识别响应信息中web指纹的方法和装置，所述方法包括：获取包括web指纹的响应信息；利用word2vec生成所述响应信息的词向量；将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征；根据所述位置特征提取所述响应信息中的web指纹并输出。以此方式，能够针对平台信息变化准确提取web指纹，从而具有普遍适用性。

Description

识别响应信息中web指纹的方法和装置

技术领域

本公开的实施例一般涉及网络安全技术领域，并且更具体地，涉及识别响应信息中web指纹的方法和装置。

背景技术

web指纹是指表征web服务器类型和版本的信息字段，web指纹识别是渗透测试人员非常重要的一个任务，了解正在运行的web服务器类型和版本能让测试者更好去测试已知漏洞和大概的利用方法。

现有的web指纹获取技术，是基于长期的对各个网站或平台进行分析，正则匹配积累的结果，或者开发者在响应头的信息中采用默认方式，可以方便的获取，一旦为了网络安全性考虑，平台修改这些信息，或者新成立的网站平台，正则匹配等方式就失去了其功能性，暴露出功能不足的缺点。

现有的web指纹获取技术，不具有普遍适用性，当平台信息发生变化时，不能提取出响应信息中的web指纹。

发明内容

根据本公开的实施例，提供了一种具有普遍适用性，针对平台信息变化能够准确提取web指纹的识别响应信息中web指纹的方案。

在本公开的第一方面，提供了一种识别响应信息中web指纹的方法，包括：

获取包括web指纹的响应信息；

利用word2vec生成所述响应信息的词向量；

将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征；

根据所述位置特征提取所述响应信息中的web指纹并输出。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述获取包括web指纹的响应信息，包括：

向目标网站平台发送请求报文并接收响应报文，提取所述响应报文中的响应信息，所述响应信息包括响应头和响应体。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述web指纹识别模型由以下方式训练得到：

对响应信息中的响应头和/或响应体中的web指纹信息的位置进行标注，生成训练样本；

利用word2vec生成与所述训练样本对应的词向量；

以所述对应的词向量作为模型输入对神经网络模型进行训练，输出所述对应的词向量对应的web指纹信息的位置特征；

根据所述对应的词向量对应的web指纹信息的位置特征提取训练样本中的web指纹信息；

将从训练样本中提取到的web指纹信息与标注的web指纹信息进行匹配，响应于匹配失败，则对神经网络模型的参数进行调整；

重复上述步骤，直到从训练样本中提取到的web指纹信息与标注的web指纹信息匹配成功，完成对web指纹识别模型的训练。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在所述获取待识别web指纹的响应信息后，还包括：

对所述响应信息进行预处理，具体包括：

将所述响应信息中的数字和超链接进行替换。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述将所述响应信息中的数字和超链接进行替换，包括：

将所述响应信息中的数字替换为0，将所述响应信息中的超链接替换为http://u。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用word2vec生成所述响应信息的词向量，包括：

对所述响应信息进行泛化处理，将所述响应信息中的大写字母转换为小写字母，将所述响应信息中的数字和超链接进行替换；

对泛化处理后的响应信息进行分词；

根据分词结果生成词向量。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对泛化处理后的响应信息进行分词，包括：

根据所述响应信息中的预设字段对泛化处理后的响应信息进行分词。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述web指纹识别模型包括输入层、卷积层、池化层和全连接层；

所述输入层用于输入词向量，所述卷积层用于确定输入的词向量中的特征图像，所述池化层用于根据所述特征图像生成特征向量，所述全连接层用于根据所述特征向量进行分类，输出响应信息中web指纹的位置特征。

在本公开的第二方面，提供了一种识别响应信息中web指纹的装置，包括：

响应信息获取模块，用于获取包括web指纹的响应信息；

词向量生成模块，用于利用word2vec生成所述响应信息的词向量；

web指纹识别模块，用于将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征；

web指纹输出模块，用于根据所述位置特征提取所述响应信息中的web指纹并输出。

在本公开的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

通过本公开的识别响应信息中web指纹的方法，能够针对平台信息变化准确提取web指纹，从而具有普遍适用性。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开实施例一的识别响应信息中web指纹的方法的流程图；

图2示出了本公开实施例二的web指纹识别模型的结构示意图；

图3示出了本公开实施例三的识别响应信息中web指纹的装置的功能结构示意图；

图4示出了本公开实施例四的识别响应信息中web指纹的设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例的识别响应信息中web指纹的方法，用于从网站平台返回的响应报文中获取该网站平台的web指纹。通常情况下，网站平台的web指纹位于响应报文中的响应头和响应体中，而现有的web指纹获取技术，是基于长期的对各个网站平台进行分析，正则匹配积累的结果，或者开发者在响应头的信息中采用默认方式，可以方便的获取。但是，当网站平台更改信息或者对于新成立的网站，现有的web指纹获取技术就不足以获取web指纹，为了解决这种潜在的问题，本公开实施例提出了一种识别响应信息中web指纹的方法。

具体地，如图1所示，为本公开实施例一的识别响应信息中web指纹的方法的流程图。本实施例的识别响应信息中web指纹的方法，可以包括以下步骤：

S101：获取包括web指纹的响应信息。

本实施的方法，是从网站平台的响应报文中的响应头和响应体中获取该网站平台的web指纹，因此，需要先获取该网站平台的响应报文，并提取响应报文中的响应头和响应体，即响应信息。在本实施例中，可以通过向该网站平台发送请求报文以获取响应报文，请求报文例如可以是获取该网站平台的资源的请求，该网站平台在接收到请求报文后，会向请求报文的发送端返回响应报文。响应报文包括响应行、响应头和响应体。本实施例中的响应信息是通常是指响应头和响应体。

S102：利用word2vec生成所述响应信息的词向量。

在获取到待识别web指纹的响应信息后，可以利用word2vec（词向量生成模型）对所述响应信息进行处理，生成对应的词向量。

S103：将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征。

将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中的web指纹的位置特征。

S104：根据所述位置特征提取所述响应信息中的web指纹并输出。

在确定所述响应信息中的web指纹的位置特征后，从对应的位置处提取所述响应信息中的web指纹，并将提取的web指纹输出。例如，所述响应信息中的web指纹位于响应信息的响应头中，为第4行，第5个字符，则从响应头的第4行，第5个字符，后截取预设长度的字符，并从中提取所述响应信息中的web指纹，对于位于响应信息的响应体中的web指纹也可以采用同样的方式提取，这里不再重复赘述。

本实施例的识别响应信息中web指纹的方法，能够针对平台信息变化准确提取web指纹，从而具有普遍适用性。

如图2所示，为本公开实施例二的web指纹识别模型的结构示意图。本实施例中的web指纹识别模型包括输入层、卷积层、池化层和全连接层；

所述输入层用于输入词向量，由每个句子中词的词向量构成的矩阵所组成，矩阵的维数为N*K,其中K为词向量的长度，N为句子的长度。所述卷积层用于通过卷积运算确定输入的词向量中的特征图像，所述池化层用于根据所述特征图像生成特征向量，即将特征图像中的向量中的最大的一个值抽取出来，并将抽取出来的所有最大值组成一个一维的特征向量。所述全连接层用于根据所述特征向量进行分类，输出响应信息中web指纹的位置特征。

并且，所述web指纹识别模型由以下方式训练得到：

首先构建训练样本集，对大量的已知的相应信息的响应头和响应体进行数据预处理，例如，对所述响应信息进行泛化处理，将所述响应信息中的大写字母转换为小写字母，将所述响应信息中的数字和超链接进行替换，可以将所述响应信息中的数字替换为0，将所述响应信息中的超链接替换为http://u，然后对泛化处理后的响应信息进行分词。分词的规则可以为“http/https链接”、“<>标签 < script>”、“<>开头 < h1”、“参数名 topic=”、“函数体 alert(”，分词后的结果例如可以是['topic=', 'http://u', '< script>', 'alert(', 'document.cookie', ')', '']，或者['siteid=', 'alert(', 'string.fromcharcode(', '0', '0', '0', ')', ')', 'alert(', 'string.fromcharcode(', '0', '0', '0', ')', ')', 'alert(', 'string.fromcharcode(', '0', '0', '0', ')', ')', 'alert(', 'string.fromcharcode(', '0', '0', '0', ')', ')', '>', '', '>', '>', '< script>', 'alert(', 'string.fromcharcode(', '0', '0', '0', ')', ')', '']等。然后将header在前，html在后结合在一起。使用嵌入式词向量模型建立一个html与header的模型，让机器能够理解<script>，之后在进行词向量表示。按照出现的最多的词构成词汇表，其他取“UKN”，然后利用word2vec建模，生成128维的词向量空间。

然后对训练样本集中的web指纹的位置特征进行标注，生成训练样本。

利用word2vec生成与所述训练样本对应的词向量；

在完成对web指纹识别模型的训练后，可以将web指纹识别模型投入应用。

继续参见图2，对于句子“I like this movie very much！”，先利用word2vec进行处理，生成对应空间中的词向量，对于生成的词向量，通过选取不同的区域（区域的宽度分别为2、3、4）进行卷积，生成对应的特征图像，然后利用最大池化层对生成的特征图像进行池化操作，生成对应不同区域的特征，将不同区域的特征拼接起来生成特征向量，然后利用激活函数对特征向量进行二分类，确定特征向量的类别，该特征向量即为web指纹的位置特征。

本实施例能够取得与上述实施例相类似的技术效果，这里不再赘述。

作为本申请的一个可选实施例，在上述实施例中，在所述获取包括web指纹的响应信息后，还包括：对所述响应信息进行预处理，具体包括：将所述响应信息中的数字和超链接进行替换。即将所述响应信息中的数字替换为0，将所述响应信息中的超链接替换为http://u。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

如图3所示，为本公开实施例三的识别响应信息中web指纹的装置的功能结构示意图，本实施例的识别响应信息中web指纹的装置，包括：

响应信息获取模块301，用于获取包括web指纹的响应信息。

词向量生成模块302，用于利用word2vec生成所述响应信息的词向量。

web指纹识别模块303，用于将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征。

web指纹输出模块304，用于根据所述位置特征提取所述响应信息中的web指纹并输出。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了本公开实施例四的识别响应信息中web指纹的设备的结构示意图。图4示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统包括中央处理单元（CPU）401，其可以基于存储在只读存储器（ROM）402中的程序或者从存储部分408加载到随机访问存储器（RAM）403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也基于需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，基于需要安装在驱动器410上，以便于从其上读出的计算机程序基于需要被安装入存储部分408。

特别地，基于本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元（CPU）401执行时，执行本申请的方法中限定的上述功能。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种识别响应信息中web指纹的方法，其特征在于，包括：

获取包括web指纹的响应信息，所述响应信息包括响应头和响应体；

利用word2vec生成所述响应信息的词向量；

将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征，所述位置特征用于表征web指纹在响应头和/或响应体中的位置，其中，所述web指纹识别模型由以下方式训练得到：对响应信息中的响应头和/或响应体中的web指纹信息的位置进行标注，生成训练样本，利用word2vec生成与所述训练样本对应的词向量，以所述对应的词向量作为模型输入对神经网络模型进行训练，输出所述对应的词向量对应的web指纹信息的位置特征，根据所述对应的词向量对应的web指纹信息的位置特征提取训练样本中的web指纹信息，将从训练样本中提取到的web指纹信息与标注的web指纹信息进行匹配，响应于匹配失败，则对神经网络模型的参数进行调整，重复上述步骤，直到从训练样本中提取到的web指纹信息与标注的web指纹信息匹配成功，完成对web指纹识别模型的训练；

根据所述位置特征从所述响应头和/或所述响应体中提取所述响应信息中的web指纹并输出。

2.根据权利要求1所述的识别响应信息中web指纹的方法，其特征在于，在所述获取待识别web指纹的响应信息后，还包括：

对所述响应信息进行预处理，具体包括：

将所述响应信息中的数字和超链接进行替换。

3.根据权利要求2所述的识别响应信息中web指纹的方法，其特征在于，所述将所述响应信息中的数字和超链接进行替换，包括：

4.根据权利要求3所述的识别响应信息中web指纹的方法，其特征在于，所述利用word2vec生成所述响应信息的词向量，包括：

对泛化处理后的响应信息进行分词；

根据分词结果生成词向量。

5.根据权利要求4所述的识别响应信息中web指纹的方法，其特征在于，所述对泛化处理后的响应信息进行分词，包括：

6.根据权利要求5所述的识别响应信息中web指纹的方法，其特征在于，所述web指纹识别模型包括输入层、卷积层、池化层和全连接层；

7.一种识别响应信息中web指纹的装置，其特征在于，包括：

响应信息获取模块，用于获取包括web指纹的响应信息，所述响应信息包括响应头和响应体；

web指纹识别模块，用于将所述词向量输入到预先训练的web指纹识别模型中，确定所述响应信息中web指纹的位置特征，所述位置特征用于表征web指纹在响应头和/或响应体中的位置，其中，所述web指纹识别模型由以下方式训练得到：对响应信息中的响应头和/或响应体中的web指纹信息的位置进行标注，生成训练样本，利用word2vec生成与所述训练样本对应的词向量，以所述对应的词向量作为模型输入对神经网络模型进行训练，输出所述对应的词向量对应的web指纹信息的位置特征，根据所述对应的词向量对应的web指纹信息的位置特征提取训练样本中的web指纹信息，将从训练样本中提取到的web指纹信息与标注的web指纹信息进行匹配，响应于匹配失败，则对神经网络模型的参数进行调整，重复上述步骤，直到从训练样本中提取到的web指纹信息与标注的web指纹信息匹配成功，完成对web指纹识别模型的训练；

web指纹输出模块，用于根据所述位置特征从所述响应头和/或所述响应体中提取所述响应信息中的web指纹并输出。

8.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。