CN117955750A

CN117955750A - 基于半监督模糊综合评价法的网络机器人行为检测方法

Info

Publication number: CN117955750A
Application number: CN202410354642.5A
Authority: CN
Inventors: 邵国林; 管延浩; 盛之硕
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-04-30
Anticipated expiration: 2044-03-27
Also published as: CN117955750B

Abstract

本发明公开了一种基于半监督模糊综合评价法的网络机器人行为检测方法，步骤1、Web会话识别：从原始Web访问记录中提取、聚合、排序并切割得到Web会话；步骤2、Web访问行为特征提取：从每个IP访问的会话内部和会话间分别提取行为特征，实现对用户Web访问行为的刻画；步骤3、基于半监督模糊综合评价法的模型训练：依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重，然后通过自监督迭代式评估，将置信度高的未标记样本纳入训练集中，以此提升隶属函数的准确度和模型整体性能；步骤4、网络机器人行为检测。本发明采用Web会话作为基本单位，综合考虑了每个IP访问的会话内部和会话间的Web访问行为，实现了对用户行为的全面评估。

Description

基于半监督模糊综合评价法的网络机器人行为检测方法

技术领域

本发明属于网络安全领域，具体为基于半监督模糊综合评价法的网络机器人行为检测方法。

背景技术

在当前的网络安全环境中，对于Web访问行为的检测成为一项至关重要的任务。目前已有的检测方法可以分为两类：基于特征码和基于Web统计特征。

基于特征码的检测方法主要包括以下几种：（1）UserAgent字段识别：通过解析和识别HTTP请求中的UserAgent字段来判断访问者的身份。正常用户的UserAgent通常包含有关浏览器和操作系统的信息，而机器访问者可能采用自定义的UserAgent来伪装身份。然而，这种方法容易受到恶意用户的伪装攻击，因为UserAgent字段可以被轻松修改。（2）访问robots.txt：通过监测访问robots.txt文件，检测网络爬虫的存在。规范的网络爬虫在访问网站时应该首先请求robots.txt文件，其中包含了对爬虫访问的规定。然而，这种方法局限于只能检测遵循规范的网络爬虫，对于恶意机器人可能不够敏感。

基于Web统计特征的检测方法主要包括以下几种：（1）返回码统计：通过统计HTTP请求的返回码，如200（成功）、404（未找到）等，来判断访问的成功与否。然而，该方法忽略了HTTP记录间的关系，无法全面了解访问行为的复杂性。（2）请求方法统计和文件类型统计：通过统计请求方法（GET、POST等）和文件类型（HTML、CSS、JS等）等特征，以识别访问者的行为。然而，这种方法同样存在无法深入分析HTTP记录之间关系的问题，可能导致对复杂访问行为的误判。

然而，现有的检测方法存在一些不足之处：（1）伪装攻击容易成功：恶意用户和机器人可以通过伪造特征码来规避检测，降低了检测的准确性；（2）缺乏对HTTP记录间关系的全面考虑：现有方法过于依赖特定的统计特征，未能充分考虑HTTP记录之间的关联，导致对复杂访问行为的识别不足。

发明内容

针对上述问题，本发明旨在提供基于半监督模糊综合评价法的网络机器人行为检测方法，在面对已知样本较少情况下，进行准确的判断。

技术方案如下：

步骤1：Web会话识别；

Web会话是指一个用户从访问某个具体的Web页面到离开该页面的一组活动。该步骤主要从原始Web访问记录中提取、聚合、排序并切割得到Web会话。主要分为以下几个过程：

步骤1.1：预设访问IP的Web访问序列提取：令为某个srcip的按时间先后排序过的Web访问序列，srcip表示Web访问者的ip，其中为第i条web日志记录；

步骤1.2：根据时间间隔对序列Re进行切割，假设切割阈值为delta，若Re内相邻的 2条记录和的时间间隔超过delta，则对序列Re进行一次切割。经过以上处理后，序列Re被切割为多段序列，每段序列表示一条切割好的Web会话，进而将Web访问序列Re转换为会话序列，其中表示其中第i条Web会话。

步骤1.3：参考步骤1.1-步骤1.2，对全体访问IP的Web访问记录进行提取，得到每个访问IP的会话序列。

步骤2：Web访问行为特征提取：

该步骤主要从每个IP访问的会话内部和会话间分别提取行为特征，实现对用户Web访问行为的刻画。主要分为以下几个过程：

步骤2.1：会话内行为特征提取：如果会话序列中包括多条Web会话，则求下列特征的均值；

步骤2.1.1：使用Cookie指数：使用Cookie的HTTP请求占比；

步骤2.1.2：使用Referer指数：包含Referer信息的HTTP请求占比；

步骤2.1.3：脚本使用指数：HTTP请求记录中JS资源占比；

步骤2.1.4：每个会话请求的资源数：该会话内访问的资源数；

步骤2.1.5：每个会话的资源类型复杂的指数：将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型，统计该会话内各类资源的占比，然后根据信息熵计算复杂指数；

步骤2.2：会话间行为特征提取；

步骤2.2.1：会话间隔时间：各相邻Web会话之间的时间间隔均值；

步骤2.2.2：会话间隔方差系数：各相邻Web会话之间的时间间隔方差；

步骤2.2.3：访问路径深度方差：每条Web会话访问的URL路径深度的方差；

步骤2.2.4：访问页面重复率：Web会话主页面的重复率；

步骤2.2.5：访问网站的有序性：Web会话序列中Host交叉访问统计情况的信息熵。

步骤3：基于半监督模糊综合评价法的模型训练；

该步骤依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重，然后通过自监督迭代式评估，将置信度高的未标记样本纳入训练集中，以此提升隶属函数的准确度和模型整体性能。主要分为以下几个过程：

步骤3.1：给定数据集，其中代表有标签数据集，其中为其中第i个样本，为该样本特征向量，为其标签；代表待测试的无标签数据集，为其中第i 个样本。

步骤3.2：在LD数据集上进行模糊综合评价法的模型训练工作，通过统计数据分布特性，自动构建模糊综合评价的隶属函数和权重。

步骤3.3：训练结果在UD上进行预测，得到，其中中的表示预测类别，表示将预测为的置信度。

步骤3.4：从PD中提取置信度高于阈值delta的样本，然后与LD合并为新的LD’替代LD。

步骤3.5：重复上述步骤，直到迭代到设定的最大次数N或模型预测准确率不再提升。

其中的步骤3.2中模糊综合评价法过程如下：

步骤3.2.1：建立因素集，设，其中为第i个因素。本发明共十个因素分别为会话内和会话间共10个行为特征，即m=10。

步骤3.2.2：建立评语集，设，是评价者对被评价对象做出的各种总的评价结果组成的评语等级的集合。其中代表第j个评价结果，j=1, 2, …, n，n为总的评价结果数。本发明拟设计2个等级用于表示网络机器人的检测评估结果，即n=2，分别为：H、R，H表示人类用户，R表示网络机器人。

步骤3.2.3：对每个因素进行分箱，，假设每个因素分为L段，则分箱，表示第k个因素进行分箱的结果，表示中第i个分箱结果，其中h和r分别表示落在该分箱中的H和R 样本的占比。

步骤3.2.4：基于分箱结果统计计算每个因素的隶属函数，对中的h、r进行归一化，得到在该分箱的隶属度。对于第k个因素，其隶属函数表示为，其中表示中第i个分箱的隶属度。对所有因素进行如上处理，进而得到整体的隶属函数。

步骤3.2.5：统计计算模糊权矢量A，即每个因素的权重。通过常见的机器学习特征有效性度量方法对特征的重要性进行量化评估，并作为模糊综合的权重。这里包括但不限于信息价值IV（Information Value）等方法。

步骤4：网络机器人行为检测；

步骤4.1：提取隶属度；

根据样本特征值落在分箱中的情况，基于隶属函数MB分别提取属于H和R的隶属度。对于第k个因素，假设该样本在的特征值分箱后落在第i个分箱，则从中提取出，作为该样本在因素方面，对H、R这2个评价集的隶属度，即，其中，。

步骤4.2：确立模糊关系矩阵G；

通过步骤4.1逐个对被评价对象从每个因素上进行量化，也就是确定从单因素来看被评价对象对各等级模糊子集的隶属度，进而得到模糊关系矩阵：

，

其中表示某个被评价对象从因素来看对等级模糊子集的隶属度。一个被评价对象在某个因素方面的表现是通过模糊矢量来刻画的，称为单因素评价矩阵，可以看作是因素集U和评语集V之间的一种模糊关系。

步骤4.3：多指标综合评价；

利用合适的模糊合成算子（表示合成算子）将模糊权矢量A与模糊关系矩阵G合成得到各被评价对象的模糊综合评价结果矢量B。模糊综合评价结果矢量的模型为：

，

其中表示被评级对象从整体上看对评价等级模糊子集元素的隶属程度，在检测时，值最大的评价结果代表该样本的检测结果（所属类别）。

本发明的有益效果是：

本发明采用Web会话（Web会话）作为基本单位，综合考虑了每个IP访问的会话内部和会话间的Web访问行为，实现了对用户行为的全面评估。通过分析用户行为，本发明能够准确地判断网页访问者是人类用户还是机器，为网络安全管理提供了重要的技术支持。此外，本发明采用了一种创新的半监督模糊综合评价方法，这一方法依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重，并通过迭代式评估，将置信度高的未标记样本纳入训练集中，以此提升隶属函数的准确度和模型整体性能。这种模糊性和迭代学习的特点，极大地增强了模型在面对实际应用场景中常见的低质量训练数据问题时的鲁棒性，即便在数据标注存在误差的情况下，也能保持良好的性能表现。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，基于半监督模糊综合评价法的网络机器人行为检测方法，包括以下步骤：

步骤1：Web会话识别；

步骤2：Web访问行为特征提取：

步骤2.1：会话内行为特征提取：如果会话序列中包括多条Web会话，则求下列特征的均值。

步骤2.1.1：使用Cookie指数：使用Cookie的HTTP请求占比，通常情况下，机器人不接受cookie。

步骤2.1.2：使用Referer指数：包含Referer信息的HTTP请求占比，正常用户使用浏览器访问时，通过从一个页面跳转到另一个页面，因此会附带refer信息(从何处跳转)，而机器人通过获取url后直接访问。

步骤2.1.3：脚本使用指数：HTTP请求记录中JS资源占比，正常用户使用浏览器访问时，通常会获取JS文件并执行，而机器人通常只对关注的内容感兴趣，因此会话中JS类型资源较少使用。

步骤2.1.4：每个会话请求的资源数：该会话内访问的资源数，正常用户访问网页，通常会附带请求相关的图片、css、js等文件，因此一次会话请求的资源数较多，而机器人每个会话爬取的资源数相对较少。

步骤2.1.5：每个会话的资源类型复杂的指数：将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型，统计该会话内各类资源的占比，然后根据信息熵计算复杂指数。

步骤2.2：会话间行为特征提取；

步骤2.2.1：会话间隔时间：各相邻Web会话之间的时间间隔均值，通常正常用户访问具有一定的突发性，因此Page间隔时间较小，而机器人通常会定时执行一些爬取任务，因此爬行周期长，间隔时间也长。

步骤2.2.2：会话间隔方差系数：各相邻Web会话之间的时间间隔方差，通常机器人会定时执行，因此时间间隔具有一定的稳定性，而普通用户访问具有突发性，因此表现为数据稳定性较差，方差较大。

步骤2.2.3：访问路径深度方差：每条Web会话访问的URL路径深度的方差，通常正常用户关注网站的特定内容，因此访问内容都比较集中，因此访问深度也比较集中，而机器人通常会对网站的大部分内容进行爬取，因此深度分布较广，因此方差较大。

步骤2.2.4：访问页面重复率：Web会话主页面的重复率，通常正常用户的兴趣度较集中，因此会对某些页面多次访问，而机器人通常会对访问资源无差别进行访问，因此重复率较小。

步骤3：基于半监督模糊综合评价法的模型训练；

步骤3.1：给定数据集，其中代表有标签数据集，其中为其中第i个样本，为该样本特征向量，为其标签；代表待测试的无标签数据集，为其中第i个样本。

其中的步骤3.2中模糊综合评价法过程如下：

步骤3.2.3：对每个因素进行分箱，，假设每个因素分为L段，则分箱，表示第k个因素进行分箱的结果，表示中第i个分箱结果，其中h和r分别表示落在该分箱中的H和R样本的占比。

步骤3.2.4：基于分箱结果统计计算每个因素的隶属函数，对中的h、r进行归一化，得到在该分箱的隶属度。对于第k个因素，其隶属函数表示为，其中表示中第i个分箱的隶属度。对所有因素进行如上处理，进而得到整体的隶属函数。例如对于cookie: 。

步骤3.2.5：统计计算模糊权矢量A，即每个因素的权重。通过常见的机器学习特征有效性度量方法对特征的重要性进行量化评估，并作为模糊综合的权重。这里包括但不限于信息价值IV（Information Value）等方法。如十个特征的iv值为[8.876, 12.044,11.652, 17.518, 20.574, 13.999, 7.613, 2.793, 8.916, 2.875]（结果保留三位小数），进行归一化后得到[0.083,0.113,0.109,0.164,0.193,0.131,0.071,0.026,0.083,0.027]（结果保留三位小数）。

步骤4：网络机器人行为检测。

步骤4.1：提取隶属度；

根据某一特征x的值确定分箱及隶属度信息，例如：

，

步骤4.2：确立模糊关系矩阵G；

，

在本模型中，m=10，n=2，如获得某数据如下：

，

步骤4.3：多指标综合评价；

，

其中表示被评价对象从整体上看对评价等级模糊子集元素的隶属程度，在检测时，值最大的评价结果代表该样本的检测结果（所属类别）。

本模型中m=10，n=2，取加权平均合成算子算符，例如：

，

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.基于半监督模糊综合评价法的网络机器人行为检测方法，其特征在于，包括以下步骤：

步骤1、Web会话识别：从原始Web访问记录中提取、聚合、排序并切割得到Web会话；

步骤2、Web访问行为特征提取：从每个IP访问的会话内部和会话间分别提取行为特征，实现对用户Web访问行为的刻画；

步骤3、基于半监督模糊综合评价法的模型训练：依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重，然后通过自监督迭代式评估，将置信度高的未标记样本纳入训练集中，以此提升隶属函数的准确度和模型整体性能；

步骤3中，基于半监督模糊综合评价法的模型训练包括以下步骤：

步骤3.1、给定数据集，其中/> 代表有标签数据集，其中/> 为其中第i个样本，/>为该样本特征向量，/>为其标签；代表待测试的无标签数据集，/> 为其中第i个样本；

步骤3.2、在LD数据集上进行模糊综合评价法的模型训练工作，通过统计数据分布特性，自动构建模糊综合评价的隶属函数和权重；

步骤3.3、训练结果在UD上进行预测，得到，其中中的/>表示预测类别，/>表示将/>预测为/>的置信度；

步骤3.4、从PD中提取置信度高于阈值delta的样本，然后与LD合并为新的LD’替代LD；

步骤3.5 、重复上述步骤，直到迭代到设定的最大次数N或模型预测准确率不再提升；

步骤4、网络机器人行为检测。

2.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法，其特征在于，步骤1中，Web会话识别包括以下步骤：

步骤1.1、预设访问IP的Web访问序列提取：令为某个srcip的按时间先后排序过的Web访问序列，srcip表示Web访问者的ip，其中为第i条web日志记录；

步骤1.2、根据时间间隔对序列Re进行切割，假设切割阈值为delta，若Re内相邻的2条记录和/> 的时间间隔超过delta，则对序列Re进行一次切割；经过切割处理后，序列Re被切割为多段序列，每段序列表示一条切割好的Web会话，进而将Web访问序列Re转换为会话序列/>，其中/>表示其中第i条Web会话；

步骤1.3、参考步骤1.1-步骤1.2，对全体访问IP的Web访问记录进行提取，得到每个访问IP的会话序列。

3.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法，其特征在于，步骤2中，Web访问行为特征提取包括以下步骤：

步骤2.1、会话内行为特征提取：如果会话序列中包括多条Web会话，则求下列特征的均值；

步骤2.1.1、使用Cookie指数：使用Cookie的HTTP请求占比；

步骤2.1.2、使用Referer指数：包含Referer信息的HTTP请求占比；

步骤2.1.3、脚本使用指数：HTTP请求记录中JS资源占比；

步骤2.1.4、每个会话请求的资源数：会话内访问的资源数；

步骤2.1.5、每个会话的资源类型复杂的指数：将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型，统计会话内各类资源的占比，然后根据信息熵计算复杂指数；

步骤2.2、会话间行为特征提取；

步骤2.2.1、会话间隔时间：各相邻Web会话之间的时间间隔均值；

步骤2.2.2、会话间隔方差系数：各相邻Web会话之间的时间间隔方差；

步骤2.2.3、访问路径深度方差：每条Web会话访问的URL路径深度的方差；

步骤2.2.4、访问页面重复率：Web会话主页面的重复率；

步骤2.2.5、访问网站的有序性：Web会话序列中Host交叉访问统计情况的信息熵。

4.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法，其特征在于，步骤3.2中，模糊综合评价法过程如下：

步骤3.2.1、建立因素集，设，其中/> 为第i个因素；共十个因素分别为会话内和会话间共10个行为特征，即m=10；

步骤3.2.2、建立评语集，设，是评价者对被评价对象做出的各种总的评价结果组成的评语等级的集合；其中/>代表第j个评价结果，j=1, 2, …, n，n为总的评价结果数；设计2个等级用于表示网络机器人的检测评估结果，即n=2，分别为：H、R，H表示人类用户，R表示网络机器人；

步骤3.2.3、对每个因素进行分箱，，假设每个因素分为L段，则分箱 />，/> 表示第k个因素进行分箱的结果，/> 表示/>中第i个分箱结果，其中h和r分别表示落在该分箱中的H和R样本的占比；

步骤3.2.4 、基于分箱结果统计计算每个因素的隶属函数，对/>中的h、r进行归一化，得到在该分箱的隶属度；对于第k个因素/>，其隶属函数表示为，其中/>表示/> 中第i个分箱的隶属度；对所有因素进行如上处理，进而得到整体的隶属函数；

步骤3.2.5 、统计计算模糊权矢量A，即每个因素的权重；通过机器学习特征有效性度量方法对特征的重要性进行量化评估，并作为模糊综合的权重。

5.根据权利要求4所述的基于半监督模糊综合评价法的网络机器人行为检测方法，其特征在于，步骤4中，网络机器人行为检测包括以下步骤：

步骤4.1、提取隶属度；

根据样本特征值落在分箱中的情况，基于隶属函数MB分别提取属于H和R的隶属度；对于第k个因素，假设该样本在/>的特征值分箱后落在第i个分箱，则从/>中提取出，作为该样本在/>因素方面，对H、R这2个评价集的隶属度，即，其中/> ， /> ；

步骤4.2、确立模糊关系矩阵G；

，

其中表示某个被评价对象从因素/>来看对等级模糊子集元素/>的隶属度；/>称为单因素评价矩阵，看作是因素集U和评语集V之间的一种模糊关系；

步骤4.3、多指标综合评价；

利用模糊合成算子将模糊权矢量A与模糊关系矩阵G合成得到各被评价对象的模糊综合评价结果矢量B；模糊综合评价结果矢量的模型为：

，

其中表示合成算子，/> 表示被评价对象从整体上看对评价等级模糊子集元素/>的隶属程度，在检测时，/>值最大的评价结果代表该样本的检测结果。