CN117375958A

CN117375958A - 一种web应用系统识别方法、装置及可读存储介质

Info

Publication number: CN117375958A
Application number: CN202311410547.4A
Authority: CN
Inventors: 赵卓成; 赵帅; 许小奎
Original assignee: Nanjing Zhongfu Information Technology Co Ltd
Current assignee: Nanjing Zhongfu Information Technology Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-09

Abstract

本发明提出的一种web应用系统识别方法、装置及可读存储介质,属于网络技术领域。所述方法包括：收集网络流量中的SSL证书信息和域名，并根据域名进行web应用系统的分类，生成分类结果；收集并解析网络流量中的web数据流量，通过执行行为信息参数提取流程统计每种web应用系统的行为信息参数，利用行为信息编码流程生成每种web应用系统的行为信息指纹，并构建行为信息数据库；获取待识别的目标流量；统计出目标流量的通信行为信息指纹；将通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定与每种web应用系统的行为信息指纹的匹配度；根据匹配度确定待识别的目标流量所属的web应用系统。

Description

一种web应用系统识别方法、装置及可读存储介质

技术领域

本发明涉及网络技术领域，更具体的说是涉及一种web应用系统识别方法、装置及可读存储介质。

背景技术

随着当前互联网的迅猛发展，网络安全和管理工作尤为重要且紧急，其中网络流量的分析识别技术为网络安全和管理领域的关键任务。互联网的发展带动Web应用系统数量的暴增，且越来越多的Web应用系统采用了HTTPS协议通信的方式以确保其数据的安全传输，虽然HTTPS在加密数据方面非常有效，但也给网络流量的识别和分析带来了挑战。

传统的流量分析方法主要依赖于检测网络流量中的特征，包括端口特征检测、应用协议类型检测和数据包负载内容检测等，以识别出不同的应用。但是，随着加密通信HTTPS的普及和应用，传统的流量分析方法明显表现出识别能力的不足。首先，因为加密的HTTPS流量其负载内容是加密的，使传统别传统方法无法直接访问数据包的内容；其次，传统方法依赖的端口和协议检测，但由于加密流量通常是共享相同的端口和协议，因此难以对不同应用进行可靠的区分。

近年来，又引入机器学习训练特征的方法来分析网络流量，它主要通过大量的流量数据进行训练，通过学习其应用的特征、进行向量化、归纳不同应用的流量模型来区分不同应用系统。然而，这些方法在实践过程中也暴露这一些问题，例如，需要大量的去标记训练数据，并且要随着应用版本的更新，不断的更新和标记数据样本去跟进训练，而标记大量特征数据的获取和跟进应用的版本，他可能相当的困难。

发明内容

针对以上问题，本发明的目的在于提供一种web应用系统识别方法、装置及可读存储介质，利用旁路接入现有的网络中，镜像其网络流量，通过分析web应用系统的证书结合其流量的通信行为，能够区分不用的web应用系统。

本发明为实现上述目的，通过以下技术方案实现：一种web应用系统识别方法，包括：

利用旁路定向捕获web应用系统的网络流量；

收集网络流量中的SSL证书信息和域名，确定域名注册的公司，并根据域名进行web应用系统的分类，生成分类结果；

收集并解析网络流量中的web数据流量，通过执行行为信息参数提取流程统计每种web应用系统的行为信息参数；

根据行为信息参数，利用行为信息编码流程生成每种web应用系统的行为信息指纹；

利用分类结果和每种web应用系统的行为信息指纹构建行为信息数据库；

获取待识别的目标流量；

提取所述目标流量中的域名信息，通过执行行为信息参数提取流程统计出目标流量的通信行为信息参数，并利用行为信息编码流程生成通信行为信息指纹；

根据目标流量的域名信息和通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度；

根据匹配度确定待识别的目标流量所属的web应用系统。

进一步，所述收集网络流量中的SSL证书信息和域名，确定域名注册的公司，并根据域名进行web应用系统的分类，生成分类结果，包括：

利用网络抓包技术，捕获SSL协议的流量；

从捕获的流量中提取SSL证书，并获取其中的域名信息；

根据域名信息，查询域名注册的公司信息；

根据公司信息，确定该公司发布的web应用系统；

根据域名信息，将所有web应用系统进行分类，并将web应用系统与域名信息进行关联。

进一步，所述行为信息参数，包括：

单条数据流链接的平均时长、链接类型、请求响应间隔时长、请求的通信流量范围值、响应的通信流量范围值、请求的通信流量平均值和响应的通信流量平均值。

进一步，所述行为信息参数提取流程，包括：

识别单条数据流的类型；

如果单条数据流为无连接的UDP流，记录该数据流上下行有相同信息的持续时长，统计预设周期内记录时长的平均值，作为单条数据流链接的平均时长；

如果单条数据流为有连接的TCP流，将该数据流具有SYN标记的时间点作为起始点，将具有FIN或者RST标记的时间点作为结束点，以确定单条数据流链接时长；统计预设周期内单条数据流链接时长的平均值，作为单条数据流链接的平均时长；

识别web数据流量的即时通信方式；

若每次访问该Web应用系统均复用上次建立的TCP或UDP链接资源，则链接类型为长链接；若每次访问的链接信息和上次都不一样，则链接类型为短连接；

记录单条数据流的数据包的响应报文时间T1和请求报文发送时间T2，根据公式T=T1-T2，计算出每条数据流请求和响应的间隔时长T；统计预设周期内每条数据流请求和响应的间隔时长的平均值，作为请求响应间隔时长；

统计请求报文负载内容的最大值、最小值和平均值，确定请求的通信流量范围值和请求的通信流量平均值；

统计响应报文负载内容的最大值、最小值和平均值，确定响应的通信流量范围值和响应的通信流量平均值。

进一步，所述行为信息编码流程，包括：

利用以下格式进行行为信息编码，生成行为信息指纹web_sig；

其中，|为分割符符号，()中为误差参数，avg_time为单条数据流链接的平均时长、conn_type为链接类型、trans_delay为请求响应间隔时长、request_min- request _max为请求的通信流量范围值、response_min- response _max为响应的通信流量范围值、request _avg为请求的通信流量平均值、response _avg为响应的通信流量平均值。

进一步，所述利用分类结果和每种web应用系统的行为信息指纹构建行为信息数据库，包括：

存储域名信息、每个域名信息关联的web应用系统；

根据每条行为信息指纹表征的web应用系统行为，将行为信息指纹与web应用系统进行关联存储；

建立采用域名信息、web应用系统、行为信息指纹的三级目录的行为信息数据库。

进一步，所述根据目标流量的域名信息和通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度，包括：

根据目标流量的域名信息在行为信息数据库中查找相同的域名信息，以确定目标流量的域名信息关联的web应用系统，作为匹配范围；

将通信行为信息指纹与匹配范围内所有的行为信息指纹进行比对匹配，并记录匹配结果；

利用公式P=n/N,计算出通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度P；

其中，N为任一web应用系统的行为信息指纹的总条数，n为通信行为信息指纹在该web应用系统所有行为信息指纹中的匹配条数。

进一步，所述根据匹配度确定待识别的目标流量所属的web应用系统，包括：

当任一web应用系统的行为信息指纹与通信行为信息指纹的匹配度大于80%时，则该web应用系统为待识别的目标流量所属的web应用系统。

相应的，本发明公开了一种web应用系统识别装置，包括：

存储器，用于存储web应用系统识别程序；

处理器，用于执行所述web应用系统识别程序时实现如上文任一项所述web应用系统识别方法的步骤。

相应的，本发明公开了一种可读存储介质，所述可读存储介质上存储有web应用系统识别程序，所述web应用系统识别程序被处理器执行时实现如上文任一项所述web应用系统识别方法的步骤。

对比现有技术，本发明有益效果在于：本发明公开了一种web应用系统识别方法、装置及可读存储介质，根据人们浏览和使用一类产品习惯以及产品本身的协议特点，巧妙的将人的浏览速度、浏览时长、点击频率、回复内容的多少等信息抽象成web应用系统的行为信息指纹来进行识别，结合流量中捕获的SSL证书信息和分析应用系统流量的行为特点，进行Web应用系统的识别。

本发明不同于传统特征识别的方法，无法识别被HTTPS加密的流量，也无需针对特征进行机器学习的大量进行训练和标注的繁琐投入。相比现有技术，本发明的优势在于：轻量，无需寻找大量的特征进行标注，并且容易集成。2、方案兼容性强，对任何网络拓扑结构都能应用，可以作为一个扩展方案，补全现有的技术方案。3、一定程度上解决加密流量识别的难题。

本发明可以应用于网络安全探测、流量管理、业务监控等需要进行应用识别的产品领域中。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式的方法流程图。

图2是本发明具体实施方式的装置结构图。

图中， 101、处理器；102、存储器；103、输入接口；104、输出接口；105、通讯单元；106、键盘；107、显示器；108、鼠标。

具体实施方式

如图1所示，本实施例提供了一种web应用系统识别方法，包括如下步骤：

S1：利用旁路定向捕获web应用系统的网络流量。

需要特别说明的是，本方法采用旁路接入网络的方式获取网络流量。旁路接入网络是指，不串入网络结构，不做中间代理，不影响现有的网络结构，只需要旁路接入现有的网络中，镜像其网络流量进行分析即可。

S2：收集网络流量中的SSL证书信息和域名，确定域名注册的公司，并根据域名进行web应用系统的分类，生成分类结果。

在具体实施方式中，本步骤包括：收集SSL证书信息和域名、确定域名注册的公司和进行Web应用产品信息分类。

收集SSL证书信息和域名：首先利用网络抓包技术，捕获SSL协议的流量。然后从捕获的流量中提取SSL证书、获取其中的域名信息。

确定域名注册的公司：利用S提取的域名信息，查询域名注册的公司信息。查询时，可以通过预先爬取或者在线接口查询。

进行Wweb应用系统产品信息分类：根据不同公司的域名，将各公司的域名和旗下发布的web应用系统产品关联起来，进行分类，即每个域名应该对应哪些web应用系统。

S3：收集并解析网络流量中的web数据流量，通过执行行为信息参数提取流程统计每种web应用系统的行为信息参数。

其中，行为信息参数，包括：单条数据流链接的平均时长、链接类型、请求响应间隔时长、请求的通信流量范围值、响应的通信流量范围值、请求的通信流量平均值和响应的通信流量平均值。

在本步骤中，利用流量分析技术，通过执行行为信息参数提取流程针对每种web应用系统的流量进行信息提取，具体的提取流程如下：

1、单条数据流(Flow)链接平均时长的提取:

首先，需要识别单条数据流的类型。具体包括无连接的UDP流和有连接的TCP流两种类型。

当单条数据流为无连接的UDP流时：按照源IP、目的IP、源端口、目的端口上下行有相同信息作为识别依据，统计单条数据流上下行有相同信息的持续时长，然后取统计周期类的平均值即可提取出单条数据流链接的平均时长。

当单条数据流为有连接的TCP流时：同样按照源IP、目的IP、源端口、目的端口，从具有SYN标记开始统计时间，到FIN或者RST标记结束统计时间为单条数据流链接时长，然后取统计周期类的平均值即可提取出单条数据流链接的平均时长。

2、链接类型的确定：

链接类型指的是该web应用系统采用的为长链接方式还是短链接即时通信的方式；长链接指的每次访问该web应用系统复用上次建立的TCP或UDP链接资源，短链接制定是每次访问的链接信息和上次都不一样。

3、请求响应的间隔时长的提取：

记录单条数据流的数据包的响应报文时间T1和请求报文发送时间T2，根据公式T=T1-T2，计算出每条数据流请求和响应的间隔时长T。取统计周期类的平均值，作为请求响应间隔时长。

4、请求和响应的通信流量大小范围的提取：

流量大小，即是报文的负载内容大小，统计如下值：

统计请求报文负载内容的最大值，最小值，平均值，从而确定请求的通信流量范围值和请求的通信流量平均值。

统计响应报文负载内容的最大值，最小值，平均值，从而确定响应的通信流量范围值和响应的通信流量平均值。

上述的计算值，通过多次提取、训练可增加识别准确度。

S4：根据行为信息参数，利用行为信息编码流程生成每种web应用系统的行为信息指纹。

在具体实施方式中，利用行为信息编码流程对上一步提取的行为信息参数进行编码，生成行为信息指纹web_sig，具体格式如下：

S5：利用分类结果和每种web应用系统的行为信息指纹构建行为信息数据库。

在具体实施方式中，建立行为信息数据库，在行为信息数据库中，存储有域名信息、每个域名信息关联的web应用系统信息。由于每条web_sig表征一种web应用系统行为，所以一种web应用系统关联多条行为信息指纹。将行为信息指纹与web应用系统关联存储在行为信息数据库中。另外，为了便于查找，行为信息数据库采用域名信息、web应用系统、行为信息指纹的三级目录。

S6：获取待识别的目标流量。

S7：提取所述目标流量中的域名信息，通过执行行为信息参数提取流程统计出目标流量的通信行为信息参数，并利用行为信息编码流程生成通信行为信息指纹。

本步骤的目的在于，提取未知流量中SSL域名信息和通信行为信息指纹。具体提取方法参考步骤S3、步骤S4公开的行为信息参数提取流程和行为信息编码流程。

S8：根据目标流量的域名信息和通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度。

在具体实施方式中，首先，根据目标流量的域名信息在行为信息数据库中查找相同的域名信息，以确定目标流量的域名信息关联的web应用系统，作为匹配范围。然后，将通信行为信息指纹与匹配范围内所有的行为信息指纹进行比对匹配，并记录匹配结果。其中，比对匹配方法为指纹|分割的每项指标+-括号中的误差参数N值，如果每项指标均在误差范围内，则匹配成功。

当所有的通信行为信息指纹都匹配比对完成后，利用公式P=n/N,计算出通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度P；其中，N为任一web应用系统的行为信息指纹的总条数，n为通信行为信息指纹在该web应用系统所有行为信息指纹中的匹配条数。

通过计算匹配度，能够确定通信行为信息指纹与每种web应用系统的行为信息指纹的命中比例，命中比例越高，匹配度越高，当匹配度大于一定数值后，即可识别出相应的web应用系统。

S9：根据匹配度确定待识别的目标流量所属的web应用系统。

在具体实施方式中，当任一web应用系统的行为信息指纹与通信行为信息指纹的匹配度大于80%时，则该web应用系统为待识别的目标流量所属的web应用系统。

参见图2所示，本发明还公开了一种web应用系统识别装置，包括处理器101和存储器102；其中，所述处理器101执行所述存储器中保存的web应用系统识别程序时实现以下步骤：

1、利用旁路定向捕获web应用系统的网络流量。

2、收集网络流量中的SSL证书信息和域名，确定域名注册的公司，并根据域名进行web应用系统的分类，生成分类结果。

3、收集并解析网络流量中的web数据流量，通过执行行为信息参数提取流程统计每种web应用系统的行为信息参数。

4、根据行为信息参数，利用行为信息编码流程生成每种web应用系统的行为信息指纹。

5、利用分类结果和每种web应用系统的行为信息指纹构建行为信息数据库。

6、获取待识别的目标流量。

7、提取所述目标流量中的域名信息，通过执行行为信息参数提取流程统计出目标流量的通信行为信息参数，并利用行为信息编码流程生成通信行为信息指纹。

8、根据目标流量的域名信息和通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度。

9、根据匹配度确定待识别的目标流量所属的web应用系统。

本实施例提供的web应用系统识别装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器101可以采用数字信号处理(Digital Signal Processor，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器 (CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器101可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器101还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器102至少用于存储以下计算机程序，其中，该计算机程序被处理器101加载并执行之后，能够实现前述任一实施例公开的web应用系统识别方法的相关步骤。另外，存储器102所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于上述web应用系统识别方法中涉及的数据等。

进一步的，本实施例中的web应用系统识别装置，还可以包括：

输入接口103，用于获取外界导入的web应用系统识别程序，并将获取到的web应用系统识别程序保存至所述存储器102中，还可以用于获取外界终端设备传输的各种指令和参数，并传输至处理器101中，以便处理器101利用上述各种指令和参数展开相应的处理。本实施例中，所述输入接口103具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。

输出接口104，用于将处理器101产生的各种数据输出至与其相连的终端设备，以便于与输出接口相连的其他终端设备能够获取到处理器101产生的各种数据。本实施例中，所述输出接口104具体可以包括但不限于USB接口、串行接口等。

通讯单元105，用于在服务器运行业务优化配置装置和外部服务器之间建立远程通讯连接，以便于web应用系统识别装置能够将镜像文件挂载到外部服务器中。本实施例中，通讯单元105具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。

键盘106，用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。

显示器107，用于对运行web应用系统识别过程的相关信息进行实时显示。

鼠标108，可以用于协助用户输入数据并简化用户的操作。

本实发明还公开了一种可读存储介质，这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有web应用系统识别程序，所述web应用系统识别程序被处理器执行时实现以下步骤：

1、利用旁路定向捕获web应用系统的网络流量。

6、获取待识别的目标流量。

9、根据匹配度确定待识别的目标流量所属的web应用系统。

综上所述，本发明利用旁路接入现有的网络中，镜像其网络流量，通过分析web应用系统的证书结合其流量的通信行为，能够区分不用的web应用系统。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的web应用系统识别方法、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种web应用系统识别方法，其特征在于，包括：

利用旁路定向捕获web应用系统的网络流量；

获取待识别的目标流量；

根据匹配度确定待识别的目标流量所属的web应用系统。

2.根据权利要求1所述的web应用系统识别方法，其特征在于，所述收集网络流量中的SSL证书信息和域名，确定域名注册的公司，并根据域名进行web应用系统的分类，生成分类结果，包括：

利用网络抓包技术，捕获SSL协议的流量；

从捕获的流量中提取SSL证书，并获取其中的域名信息；

根据域名信息，查询域名注册的公司信息；

根据公司信息，确定该公司发布的web应用系统；

3.根据权利要求2所述的web应用系统识别方法，其特征在于，所述行为信息参数，包括：

4.根据权利要求3所述的web应用系统识别方法，其特征在于，所述行为信息参数提取流程，包括：

识别单条数据流的类型；

识别web数据流量的即时通信方式；

5.根据权利要求4所述的web应用系统识别方法，其特征在于，所述行为信息编码流程，包括：

利用以下格式进行行为信息编码，生成行为信息指纹web_sig；

6.根据权利要求5所述的web应用系统识别方法，其特征在于，所述利用分类结果和每种web应用系统的行为信息指纹构建行为信息数据库，包括：

存储域名信息、每个域名信息关联的web应用系统；

7.根据权利要求6所述的web应用系统识别方法，其特征在于，所述根据目标流量的域名信息和通信行为信息指纹与行为信息数据库中的行为信息指纹进行比对，并确定通信行为信息指纹与每种web应用系统的行为信息指纹的匹配度，包括：

8.根据权利要求7所述的web应用系统识别方法，其特征在于，所述根据匹配度确定待识别的目标流量所属的web应用系统，包括：

9.一种web应用系统识别装置，其特征在于，包括：

存储器，用于存储web应用系统识别程序；

处理器，用于执行所述web应用系统识别程序时实现如权利要求1至8任一项权利要求所述的web应用系统识别方法的步骤。

10.一种可读存储介质，其特征在于：所述可读存储介质上存储有web应用系统识别程序，所述web应用系统识别程序被处理器执行时实现如权利要求1至8任一项权利要求所述的web应用系统识别方法的步骤。