CN117955750A - 基于半监督模糊综合评价法的网络机器人行为检测方法 - Google Patents
基于半监督模糊综合评价法的网络机器人行为检测方法 Download PDFInfo
- Publication number
- CN117955750A CN117955750A CN202410354642.5A CN202410354642A CN117955750A CN 117955750 A CN117955750 A CN 117955750A CN 202410354642 A CN202410354642 A CN 202410354642A CN 117955750 A CN117955750 A CN 117955750A
- Authority
- CN
- China
- Prior art keywords
- session
- web
- fuzzy
- comprehensive evaluation
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 230000006399 behavior Effects 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000005520 cutting process Methods 0.000 claims abstract description 10
- 230000004931 aggregating effect Effects 0.000 claims abstract 2
- 238000000034 method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 235000014510 cooky Nutrition 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000000691 measurement method Methods 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于半监督模糊综合评价法的网络机器人行为检测方法,步骤1、Web会话识别:从原始Web访问记录中提取、聚合、排序并切割得到Web会话;步骤2、Web访问行为特征提取:从每个IP访问的会话内部和会话间分别提取行为特征,实现对用户Web访问行为的刻画;步骤3、基于半监督模糊综合评价法的模型训练:依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能;步骤4、网络机器人行为检测。本发明采用Web会话作为基本单位,综合考虑了每个IP访问的会话内部和会话间的Web访问行为,实现了对用户行为的全面评估。
Description
技术领域
本发明属于网络安全领域,具体为基于半监督模糊综合评价法的网络机器人行为检测方法。
背景技术
在当前的网络安全环境中,对于Web访问行为的检测成为一项至关重要的任务。目前已有的检测方法可以分为两类:基于特征码和基于Web统计特征。
基于特征码的检测方法主要包括以下几种:(1)UserAgent字段识别:通过解析和识别HTTP请求中的UserAgent字段来判断访问者的身份。正常用户的UserAgent通常包含有关浏览器和操作系统的信息,而机器访问者可能采用自定义的UserAgent来伪装身份。然而,这种方法容易受到恶意用户的伪装攻击,因为UserAgent字段可以被轻松修改。(2)访问robots.txt:通过监测访问robots.txt文件,检测网络爬虫的存在。规范的网络爬虫在访问网站时应该首先请求robots.txt文件,其中包含了对爬虫访问的规定。然而,这种方法局限于只能检测遵循规范的网络爬虫,对于恶意机器人可能不够敏感。
基于Web统计特征的检测方法主要包括以下几种:(1)返回码统计:通过统计HTTP请求的返回码,如200(成功)、404(未找到)等,来判断访问的成功与否。然而,该方法忽略了HTTP记录间的关系,无法全面了解访问行为的复杂性。(2)请求方法统计和文件类型统计:通过统计请求方法(GET、POST等)和文件类型(HTML、CSS、JS等)等特征,以识别访问者的行为。然而,这种方法同样存在无法深入分析HTTP记录之间关系的问题,可能导致对复杂访问行为的误判。
然而,现有的检测方法存在一些不足之处:(1)伪装攻击容易成功:恶意用户和机器人可以通过伪造特征码来规避检测,降低了检测的准确性;(2)缺乏对HTTP记录间关系的全面考虑:现有方法过于依赖特定的统计特征,未能充分考虑HTTP记录之间的关联,导致对复杂访问行为的识别不足。
发明内容
针对上述问题,本发明旨在提供基于半监督模糊综合评价法的网络机器人行为检测方法,在面对已知样本较少情况下,进行准确的判断。
技术方案如下:
步骤1:Web会话识别;
Web会话是指一个用户从访问某个具体的Web页面到离开该页面的一组活动。该步骤主要从原始Web访问记录中提取、聚合、排序并切割得到Web会话。主要分为以下几个过程:
步骤1.1:预设访问IP的Web访问序列提取:令
为某个srcip的按时间先后排序过的Web访问序列,srcip表示Web访问者的ip,其中 为第i条web日志记录;
步骤1.2:根据时间间隔对序列Re进行切割,假设切割阈值为delta,若Re内相邻的
2条记录 和 的时间间隔超过delta,则对序列Re进行一次切割。经过以上处理后,
序列Re被切割为多段序列,每段序列表示一条切割好的Web会话,进而将Web访问序列Re转
换为会话序列,其中 表示其中第i条Web会话。
步骤1.3:参考步骤1.1-步骤1.2,对全体访问IP的Web访问记录进行提取,得到每个访问IP的会话序列。
步骤2:Web访问行为特征提取:
该步骤主要从每个IP访问的会话内部和会话间分别提取行为特征,实现对用户Web访问行为的刻画。主要分为以下几个过程:
步骤2.1:会话内行为特征提取:如果会话序列中包括多条Web会话,则求下列特征的均值;
步骤2.1.1:使用Cookie指数:使用Cookie的HTTP请求占比;
步骤2.1.2:使用Referer指数:包含Referer信息的HTTP请求占比;
步骤2.1.3:脚本使用指数:HTTP请求记录中JS资源占比;
步骤2.1.4:每个会话请求的资源数:该会话内访问的资源数;
步骤2.1.5:每个会话的资源类型复杂的指数:将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型,统计该会话内各类资源的占比,然后根据信息熵计算复杂指数;
步骤2.2:会话间行为特征提取;
步骤2.2.1:会话间隔时间:各相邻Web会话之间的时间间隔均值;
步骤2.2.2:会话间隔方差系数:各相邻Web会话之间的时间间隔方差;
步骤2.2.3:访问路径深度方差:每条Web会话访问的URL路径深度的方差;
步骤2.2.4:访问页面重复率:Web会话主页面的重复率;
步骤2.2.5:访问网站的有序性:Web会话序列中Host交叉访问统计情况的信息熵。
步骤3:基于半监督模糊综合评价法的模型训练;
该步骤依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。主要分为以下几个过程:
步骤3.1:给定数据集 ,其中 代表
有标签数据集,其中 为其中第i个样本,为该样本特征向量,为其标签;代表待测试的无标签数据集, 为其中第i
个样本。
步骤3.2:在LD数据集上进行模糊综合评价法的模型训练工作,通过统计数据分布特性,自动构建模糊综合评价的隶属函数和权重。
步骤3.3:训练结果在UD上进行预测,得到,
其中中的表示预测类别,表示将预测为的置信度。
步骤3.4:从PD中提取置信度高于阈值delta的样本,
然后与LD合并为新的LD’替代LD。
步骤3.5:重复上述步骤,直到迭代到设定的最大次数N或模型预测准确率不再提升。
其中的步骤3.2中模糊综合评价法过程如下:
步骤3.2.1:建立因素集,设,其中 为第i个因
素。本发明共十个因素分别为会话内和会话间共10个行为特征,即m=10。
步骤3.2.2:建立评语集,设,是评价者对被评价对
象做出的各种总的评价结果组成的评语等级的集合。其中代表第j个评价结果,j=1, 2,
…, n,n为总的评价结果数。本发明拟设计2个等级用于表示网络机器人的检测评估结果,
即n=2,分别为:H、R,H表示人类用户,R表示网络机器人。
步骤3.2.3:对每个因素进行分箱, ,假设每个因
素分为L段,则分箱 , 表示第k个因素进行分箱的
结果, 表示中第i个分箱结果,其中h和r分别表示落在该分箱中的H和R
样本的占比。
步骤3.2.4:基于分箱结果统计计算每个因素的隶属函数,对中
的h、r进行归一化,得到在该分箱的隶属度。对于第k个因素,其隶属函数表示为,其中
表示 中第i个分箱的隶属度。对所有因素进行如上处理,进而得到整体的隶属函数。
步骤3.2.5:统计计算模糊权矢量A,即每个因素的权重。通过常见的机器学习特征有效性度量方法对特征的重要性进行量化评估,并作为模糊综合的权重。这里包括但不限于信息价值IV(Information Value)等方法。
步骤4:网络机器人行为检测;
步骤4.1:提取隶属度;
根据样本特征值落在分箱中的情况,基于隶属函数MB分别提取属于H和R的隶属
度。对于第k个因素 ,假设该样本在的特征值分箱后落在第i个分箱,则从中提取
出,作为该样本在因素方面,对H、R这2个评价集的隶属度,即 ,其中 , 。
步骤4.2:确立模糊关系矩阵G;
通过步骤4.1逐个对被评价对象从每个因素上进行量化,也就是确定从单因素
来看被评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:
,
其中 表示某个被评价对象从因素 来看对等级模糊子集 的隶属度。一个
被评价对象在某个因素方面的表现是通过模糊矢量 来刻画的,称为单因素评价矩
阵,可以看作是因素集U和评语集V之间的一种模糊关系。
步骤4.3:多指标综合评价;
利用合适的模糊合成算子(表示合成算子)将模糊权矢量A与模糊关系矩阵G合成得到各被评价对象的模糊综合评价结果矢量B。模糊综合评价结果矢量的模型为:
,
其中 表示被评级对象从整体上看对评价等级模糊子集元素的隶属程度,在检
测时,值最大的评价结果代表该样本的检测结果(所属类别)。
本发明的有益效果是:
本发明采用Web会话(Web会话)作为基本单位,综合考虑了每个IP访问的会话内部和会话间的Web访问行为,实现了对用户行为的全面评估。通过分析用户行为,本发明能够准确地判断网页访问者是人类用户还是机器,为网络安全管理提供了重要的技术支持。此外,本发明采用了一种创新的半监督模糊综合评价方法,这一方法依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,并通过迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。这种模糊性和迭代学习的特点,极大地增强了模型在面对实际应用场景中常见的低质量训练数据问题时的鲁棒性,即便在数据标注存在误差的情况下,也能保持良好的性能表现。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,基于半监督模糊综合评价法的网络机器人行为检测方法,包括以下步骤:
步骤1:Web会话识别;
Web会话是指一个用户从访问某个具体的Web页面到离开该页面的一组活动。该步骤主要从原始Web访问记录中提取、聚合、排序并切割得到Web会话。主要分为以下几个过程:
步骤1.1:预设访问IP的Web访问序列提取:令
为某个srcip的按时间先后排序过的Web访问序列,srcip表示Web访问者的ip,其中为第i条web日志记录;
步骤1.2:根据时间间隔对序列Re进行切割,假设切割阈值为delta,若Re内相邻的
2条记录 和 的时间间隔超过delta,则对序列Re进行一次切割。经过以上处理后,
序列Re被切割为多段序列,每段序列表示一条切割好的Web会话,进而将Web访问序列Re转
换为会话序列,其中 表示其中第i条Web会话。
步骤1.3:参考步骤1.1-步骤1.2,对全体访问IP的Web访问记录进行提取,得到每个访问IP的会话序列。
步骤2:Web访问行为特征提取:
该步骤主要从每个IP访问的会话内部和会话间分别提取行为特征,实现对用户Web访问行为的刻画。主要分为以下几个过程:
步骤2.1:会话内行为特征提取:如果会话序列中包括多条Web会话,则求下列特征的均值。
步骤2.1.1:使用Cookie指数:使用Cookie的HTTP请求占比,通常情况下,机器人不接受cookie。
步骤2.1.2:使用Referer指数:包含Referer信息的HTTP请求占比,正常用户使用浏览器访问时,通过从一个页面跳转到另一个页面,因此会附带refer信息(从何处跳转),而机器人通过获取url后直接访问。
步骤2.1.3:脚本使用指数:HTTP请求记录中JS资源占比,正常用户使用浏览器访问时,通常会获取JS文件并执行,而机器人通常只对关注的内容感兴趣,因此会话中JS类型资源较少使用。
步骤2.1.4:每个会话请求的资源数:该会话内访问的资源数,正常用户访问网页,通常会附带请求相关的图片、css、js等文件,因此一次会话请求的资源数较多,而机器人每个会话爬取的资源数相对较少。
步骤2.1.5:每个会话的资源类型复杂的指数:将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型,统计该会话内各类资源的占比,然后根据信息熵计算复杂指数。
步骤2.2:会话间行为特征提取;
步骤2.2.1:会话间隔时间:各相邻Web会话之间的时间间隔均值,通常正常用户访问具有一定的突发性,因此Page间隔时间较小,而机器人通常会定时执行一些爬取任务,因此爬行周期长,间隔时间也长。
步骤2.2.2:会话间隔方差系数:各相邻Web会话之间的时间间隔方差,通常机器人会定时执行,因此时间间隔具有一定的稳定性,而普通用户访问具有突发性,因此表现为数据稳定性较差,方差较大。
步骤2.2.3:访问路径深度方差:每条Web会话访问的URL路径深度的方差,通常正常用户关注网站的特定内容,因此访问内容都比较集中,因此访问深度也比较集中,而机器人通常会对网站的大部分内容进行爬取,因此深度分布较广,因此方差较大。
步骤2.2.4:访问页面重复率:Web会话主页面的重复率,通常正常用户的兴趣度较集中,因此会对某些页面多次访问,而机器人通常会对访问资源无差别进行访问,因此重复率较小。
步骤2.2.5:访问网站的有序性:Web会话序列中Host交叉访问统计情况的信息熵。
步骤3:基于半监督模糊综合评价法的模型训练;
该步骤依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能。主要分为以下几个过程:
步骤3.1:给定数据集,其中 代表有
标签数据集,其中为其中第i个样本,为该样本特征向量,为其标签;代表待测试的无标签数据集,为其中第i个
样本。
步骤3.2:在LD数据集上进行模糊综合评价法的模型训练工作,通过统计数据分布特性,自动构建模糊综合评价的隶属函数和权重。
步骤3.3:训练结果在UD上进行预测,得到,
其中中的表示预测类别,表示将预测为的置信度。
步骤3.4:从PD中提取置信度高于阈值delta的样本,
然后与LD合并为新的LD’替代LD。
步骤3.5:重复上述步骤,直到迭代到设定的最大次数N或模型预测准确率不再提升。
其中的步骤3.2中模糊综合评价法过程如下:
步骤3.2.1:建立因素集,设,其中 为第i个因
素。本发明共十个因素分别为会话内和会话间共10个行为特征,即m=10。
步骤3.2.2:建立评语集,设,是评价者对被评价对象
做出的各种总的评价结果组成的评语等级的集合。其中 代表第j个评价结果,j=1, 2,
…, n,n为总的评价结果数。本发明拟设计2个等级用于表示网络机器人的检测评估结果,
即n=2,分别为:H、R,H表示人类用户,R表示网络机器人。
步骤3.2.3:对每个因素进行分箱,,假设每个因素
分为L段,则分箱 , 表示第k个因素进行分箱的结
果,表示中第i个分箱结果,其中h和r分别表示落在该分箱中的H和R样本
的占比。
步骤3.2.4:基于分箱结果统计计算每个因素的隶属函数,对中
的h、r进行归一化,得到在该分箱的隶属度。对于第k个因素 ,其隶属函数表示为,其中表
示中第i个分箱的隶属度。对所有因素进行如上处理,进而得到整体的隶属函数。例如对于cookie: 。
步骤3.2.5:统计计算模糊权矢量A,即每个因素的权重。通过常见的机器学习特征有效性度量方法对特征的重要性进行量化评估,并作为模糊综合的权重。这里包括但不限于信息价值IV(Information Value)等方法。如十个特征的iv值为[8.876, 12.044,11.652, 17.518, 20.574, 13.999, 7.613, 2.793, 8.916, 2.875](结果保留三位小数),进行归一化后得到[0.083,0.113,0.109,0.164,0.193,0.131,0.071,0.026,0.083,0.027](结果保留三位小数)。
步骤4:网络机器人行为检测。
步骤4.1:提取隶属度;
根据样本特征值落在分箱中的情况,基于隶属函数MB分别提取属于H和R的隶属
度。对于第k个因素,假设该样本在的特征值分箱后落在第i个分箱,则从中提取出 ,作为该样本在因素方面,对H、R这2个评价集的隶属度,即,其中 , 。
根据某一特征x的值确定分箱及隶属度信息,例如:
,
步骤4.2:确立模糊关系矩阵G;
通过步骤4.1逐个对被评价对象从每个因素上进行量化,也就是确定从单因素
来看被评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:
,
其中 表示某个被评价对象从因素 来看对等级模糊子集 的隶属度。一个
被评价对象在某个因素方面的表现是通过模糊矢量 来刻画的,称为单因素评价矩
阵,可以看作是因素集U和评语集V之间的一种模糊关系。
在本模型中,m=10,n=2,如获得某数据如下:
,
步骤4.3:多指标综合评价;
利用合适的模糊合成算子(表示合成算子)将模糊权矢量A与模糊关系矩阵G合成得到各被评价对象的模糊综合评价结果矢量B。模糊综合评价结果矢量的模型为:
,
其中 表示被评价对象从整体上看对评价等级模糊子集元素的隶属程度,在检
测时,值最大的评价结果代表该样本的检测结果(所属类别)。
本模型中m=10,n=2,取加权平均合成算子算符,例如:
,
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,包括以下步骤:
步骤1、Web会话识别:从原始Web访问记录中提取、聚合、排序并切割得到Web会话;
步骤2、Web访问行为特征提取:从每个IP访问的会话内部和会话间分别提取行为特征,实现对用户Web访问行为的刻画;
步骤3、基于半监督模糊综合评价法的模型训练:依据已标记训练数据集的分布特性自动构建模糊综合评价的隶属函数和权重,然后通过自监督迭代式评估,将置信度高的未标记样本纳入训练集中,以此提升隶属函数的准确度和模型整体性能;
步骤3中,基于半监督模糊综合评价法的模型训练包括以下步骤:
步骤3.1、给定数据集 ,其中/> 代表有标签数据集,其中/> 为其中第i个样本,/>为该样本特征向量,/>为其标签;代表待测试的无标签数据集,/> 为其中第i个样本;
步骤3.2、在LD数据集上进行模糊综合评价法的模型训练工作,通过统计数据分布特性,自动构建模糊综合评价的隶属函数和权重;
步骤3.3、训练结果在UD上进行预测,得到,其中中的/>表示预测类别,/>表示将/>预测为/>的置信度;
步骤3.4、从PD中提取置信度高于阈值delta的样本,然后与LD合并为新的LD’替代LD;
步骤3.5 、重复上述步骤,直到迭代到设定的最大次数N或模型预测准确率不再提升;
步骤4、网络机器人行为检测。
2.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤1中,Web会话识别包括以下步骤:
步骤1.1、预设访问IP的Web访问序列提取:令 为某个srcip的按时间先后排序过的Web访问序列,srcip表示Web访问者的ip,其中 为第i条web日志记录;
步骤1.2、根据时间间隔对序列Re进行切割,假设切割阈值为delta,若Re内相邻的2条记录 和/> 的时间间隔超过delta,则对序列Re进行一次切割;经过切割处理后,序列Re被切割为多段序列,每段序列表示一条切割好的Web会话,进而将Web访问序列Re转换为会话序列/>,其中/>表示其中第i条Web会话;
步骤1.3、参考步骤1.1-步骤1.2,对全体访问IP的Web访问记录进行提取,得到每个访问IP的会话序列。
3.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤2中,Web访问行为特征提取包括以下步骤:
步骤2.1、会话内行为特征提取:如果会话序列中包括多条Web会话,则求下列特征的均值;
步骤2.1.1、使用Cookie指数:使用Cookie的HTTP请求占比;
步骤2.1.2、使用Referer指数:包含Referer信息的HTTP请求占比;
步骤2.1.3、脚本使用指数:HTTP请求记录中JS资源占比;
步骤2.1.4、每个会话请求的资源数:会话内访问的资源数;
步骤2.1.5、每个会话的资源类型复杂的指数:将请求的资源类型分为主页面、JS类型、CSS类型、图片类型、文件类型、其他类型,统计会话内各类资源的占比,然后根据信息熵计算复杂指数;
步骤2.2、会话间行为特征提取;
步骤2.2.1、会话间隔时间:各相邻Web会话之间的时间间隔均值;
步骤2.2.2、会话间隔方差系数:各相邻Web会话之间的时间间隔方差;
步骤2.2.3、访问路径深度方差:每条Web会话访问的URL路径深度的方差;
步骤2.2.4、访问页面重复率:Web会话主页面的重复率;
步骤2.2.5、访问网站的有序性:Web会话序列中Host交叉访问统计情况的信息熵。
4.根据权利要求1所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤3.2中,模糊综合评价法过程如下:
步骤3.2.1、建立因素集,设,其中/> 为第i个因素;共十个因素分别为会话内和会话间共10个行为特征,即m=10;
步骤3.2.2、建立评语集,设,是评价者对被评价对象做出的各种总的评价结果组成的评语等级的集合;其中/>代表第j个评价结果,j=1, 2, …, n,n为总的评价结果数;设计2个等级用于表示网络机器人的检测评估结果,即n=2,分别为:H、R,H表示人类用户,R表示网络机器人;
步骤3.2.3、对每个因素进行分箱, ,假设每个因素分为L段,则分箱 />,/> 表示第k个因素进行分箱的结果,/> 表示/>中第i个分箱结果,其中h和r分别表示落在该分箱中的H和R样本的占比;
步骤3.2.4 、基于分箱结果统计计算每个因素的隶属函数,对/>中的h、r进行归一化,得到在该分箱的隶属度;对于第k个因素/>,其隶属函数表示为,其中/>表示/> 中第i个分箱的隶属度;对所有因素进行如上处理,进而得到整体的隶属函数;
步骤3.2.5 、统计计算模糊权矢量A,即每个因素的权重;通过机器学习特征有效性度量方法对特征的重要性进行量化评估,并作为模糊综合的权重。
5.根据权利要求4所述的基于半监督模糊综合评价法的网络机器人行为检测方法,其特征在于,步骤4中,网络机器人行为检测包括以下步骤:
步骤4.1、提取隶属度;
根据样本特征值落在分箱中的情况,基于隶属函数MB分别提取属于H和R的隶属度;对于第k个因素 ,假设该样本在/>的特征值分箱后落在第i个分箱,则从/>中提取出,作为该样本在/>因素方面,对H、R这2个评价集的隶属度,即 ,其中/> , /> ;
步骤4.2、确立模糊关系矩阵G;
通过步骤4.1逐个对被评价对象从每个因素上进行量化,也就是确定从单因素来看被评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:
,
其中表示某个被评价对象从因素/>来看对等级模糊子集元素/>的隶属度;/>称为单因素评价矩阵,看作是因素集U和评语集V之间的一种模糊关系;
步骤4.3、多指标综合评价;
利用模糊合成算子将模糊权矢量A与模糊关系矩阵G合成得到各被评价对象的模糊综合评价结果矢量B;模糊综合评价结果矢量的模型为:
,
其中表示合成算子,/> 表示被评价对象从整体上看对评价等级模糊子集元素/>的隶属程度,在检测时,/>值最大的评价结果代表该样本的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410354642.5A CN117955750B (zh) | 2024-03-27 | 2024-03-27 | 基于半监督模糊综合评价法的网络机器人行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410354642.5A CN117955750B (zh) | 2024-03-27 | 2024-03-27 | 基于半监督模糊综合评价法的网络机器人行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117955750A true CN117955750A (zh) | 2024-04-30 |
CN117955750B CN117955750B (zh) | 2024-07-05 |
Family
ID=90794723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410354642.5A Active CN117955750B (zh) | 2024-03-27 | 2024-03-27 | 基于半监督模糊综合评价法的网络机器人行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117955750B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110111863A (ko) * | 2010-04-06 | 2011-10-12 | 국방과학연구소 | 웹 로봇 탐지 시스템 및 방법 |
WO2013113532A1 (en) * | 2012-01-30 | 2013-08-08 | Telefónica, S.A. | A method and a system to detect malicious software |
US20200099714A1 (en) * | 2018-09-21 | 2020-03-26 | Kaalbi Technologies Private Limited | System and method for detecting bots using semi-supervised deep learning techniques |
US20200258118A1 (en) * | 2019-02-10 | 2020-08-13 | Surya Kumar Kovvali | Correlating multi-dimensional data to extract & associate unique identifiers for analytics insights, monetization, QOE & Orchestration |
CN112333128A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于自编码器的Web攻击行为检测系统 |
CN112738109A (zh) * | 2020-12-30 | 2021-04-30 | 杭州迪普科技股份有限公司 | 一种Web攻击的检测方法及装置 |
CN116094808A (zh) * | 2023-01-17 | 2023-05-09 | 北京交通大学 | 基于RBAC模式Web应用安全的访问控制漏洞检测方法及系统 |
CN116244612A (zh) * | 2023-05-12 | 2023-06-09 | 国网江苏省电力有限公司信息通信分公司 | 一种基于自学习参数度量的http流量聚类方法及装置 |
CN117194833A (zh) * | 2023-07-24 | 2023-12-08 | 富盛科技股份有限公司 | 一种网页跳转评价方法 |
-
2024
- 2024-03-27 CN CN202410354642.5A patent/CN117955750B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110111863A (ko) * | 2010-04-06 | 2011-10-12 | 국방과학연구소 | 웹 로봇 탐지 시스템 및 방법 |
WO2013113532A1 (en) * | 2012-01-30 | 2013-08-08 | Telefónica, S.A. | A method and a system to detect malicious software |
US20200099714A1 (en) * | 2018-09-21 | 2020-03-26 | Kaalbi Technologies Private Limited | System and method for detecting bots using semi-supervised deep learning techniques |
US20200258118A1 (en) * | 2019-02-10 | 2020-08-13 | Surya Kumar Kovvali | Correlating multi-dimensional data to extract & associate unique identifiers for analytics insights, monetization, QOE & Orchestration |
CN112333128A (zh) * | 2019-08-05 | 2021-02-05 | 四川大学 | 一种基于自编码器的Web攻击行为检测系统 |
CN112738109A (zh) * | 2020-12-30 | 2021-04-30 | 杭州迪普科技股份有限公司 | 一种Web攻击的检测方法及装置 |
CN116094808A (zh) * | 2023-01-17 | 2023-05-09 | 北京交通大学 | 基于RBAC模式Web应用安全的访问控制漏洞检测方法及系统 |
CN116244612A (zh) * | 2023-05-12 | 2023-06-09 | 国网江苏省电力有限公司信息通信分公司 | 一种基于自学习参数度量的http流量聚类方法及装置 |
CN117194833A (zh) * | 2023-07-24 | 2023-12-08 | 富盛科技股份有限公司 | 一种网页跳转评价方法 |
Non-Patent Citations (4)
Title |
---|
GUOLIN SHAO; XINGSHU CHEN; XUEMEI ZENG; LINA WANG: "Labeling Malicious Communication Samples Based on Semi-Supervised Deep Neural Network", IEEE, 26 November 2019 (2019-11-26) * |
ZIHAO WANG; FUTAI ZOU; BEI PEI; WEIJIA HE; LI PAN; ZHAOCHONG MAO; LINSEN LI: "Malicious Server Based on Server-to-Server Realation Graph", 2016 IEEE FIRST INTERNATIONAL CONFERENCE ON DATA SCIENCE IN CYBERSPACE (DSC), 2 March 2017 (2017-03-02) * |
周朋伟: "基于半监督学习的多层次识别Web恶意请求系统的设计与实现", 信息科技辑, 15 August 2019 (2019-08-15) * |
陈兴蜀,陈敬涵,邵国林,曾雪梅: "基于会话流聚合的隐蔽性通信行为检测方法", 电子科技大学学报, 31 May 2019 (2019-05-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN117955750B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109922052B (zh) | 一种结合多重特征的恶意url检测方法 | |
CN107888571B (zh) | 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统 | |
CN103297435B (zh) | 一种基于web日志的异常访问行为检测方法与系统 | |
CN112434208A (zh) | 一种孤立森林的训练及其网络爬虫的识别方法与相关装置 | |
CN111585955B (zh) | 一种http请求异常检测方法及系统 | |
US20090313286A1 (en) | Generating training data from click logs | |
Hassan et al. | A task level metric for measuring web search satisfaction and its application on improving relevance estimation | |
CN107508809B (zh) | 识别网址类型的方法及装置 | |
CN107800591A (zh) | 一种统一日志数据的分析方法 | |
Balla et al. | Real-time web crawler detection | |
CN104202291A (zh) | 基于多因素综合评定方法的反钓鱼方法 | |
CN110572397B (zh) | 一种基于流量的webshell的检测方法 | |
CN110708339B (zh) | 一种基于web日志的关联分析方法 | |
CN117176482B (zh) | 一种大数据网络安全防护方法及系统 | |
CN111859234A (zh) | 一种非法内容识别方法、装置、电子设备及存储介质 | |
Sujatha | Improved user navigation pattern prediction technique from web log data | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
CN116015842A (zh) | 一种基于用户访问行为的网络攻击检测方法 | |
Singh et al. | A survey on different phases of web usage mining for anomaly user behavior investigation | |
CN111787002A (zh) | 一种业务数据网络安全分析的方法及系统 | |
CN117955750B (zh) | 基于半监督模糊综合评价法的网络机器人行为检测方法 | |
CN101261643A (zh) | 网站页面信息统计方法及装置 | |
CN117194833A (zh) | 一种网页跳转评价方法 | |
KR101148002B1 (ko) | 웹 로봇 탐지 시스템 및 방법 | |
CN112003884A (zh) | 一种网络资产的采集和自然语言检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |