CN111901324A - 一种基于序列熵流量识别的方法、装置和存储介质 - Google Patents

一种基于序列熵流量识别的方法、装置和存储介质 Download PDF

Info

Publication number
CN111901324A
CN111901324A CN202010697129.8A CN202010697129A CN111901324A CN 111901324 A CN111901324 A CN 111901324A CN 202010697129 A CN202010697129 A CN 202010697129A CN 111901324 A CN111901324 A CN 111901324A
Authority
CN
China
Prior art keywords
flow
feature set
test
entropy
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010697129.8A
Other languages
English (en)
Other versions
CN111901324B (zh
Inventor
王志远
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN202010697129.8A priority Critical patent/CN111901324B/zh
Publication of CN111901324A publication Critical patent/CN111901324A/zh
Application granted granted Critical
Publication of CN111901324B publication Critical patent/CN111901324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种基于序列熵流量识别的方法、装置和存储介质,其中,该方法包括:获取测试流量数据,确定所述测试流量数据的第一特征集合;对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;获取实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态,通过本申请,解决了识别自动化流量攻击准确度低和成本高的问题,实现了快速和准确的识别自动化流量攻击。

Description

一种基于序列熵流量识别的方法、装置和存储介质
技术领域
本申请涉及网络安全领域,特别是涉及一种基于序列熵流量识别的方法、装置和存储介质。
背景技术
互联网的进步,优化了人们的生活方式,促进了社会的发展,但是互联网中也存在着损害他人利益的行为,恶意机器请求通过使用模拟器、伪造浏览器环境、随机变化IP地址等手段,模拟正常人类行为发起攻击,这类被称作高级持久机器人(Advanced PersistentBots,简称为APBs)发出的恶意请求正持续困扰着大量网站,例如,有很大一部分票务网站受到的攻击,属于高级持久机器人发起的攻击,而这种高级持久机器人发起的攻击具有不易检测和防护自动化攻击的特点;企业使用的每一个在线业务和应用都可能成为高级机器人攻击的目标;然而,在攻击方式不断花样翻新,安全环境愈发动态、复杂和不确定的条件下,传统的防范手段显得不堪一击,企业迫切需要主动、有效的识别检测方法,可以在自动化攻击对企业产生负面影响之前实现快速检测、响应和阻挡,充分保护企业网络、业务、应用和数据的安全。
在相关技术中,常见的自动化流量识别主要分为两种,一种是基于流量识别终端指纹的检测方式;另一种是利用机器学习的方式,通过样本数据训练,生成分类算法;其中,基于流量识别终端指纹的方法,主要是通过识别流量中的某些特征,例如流量中请求头、客户端Agent等数据与机器人终端特征库进行匹配,从而达到识别自动化流量的目的,但是该方法严重依赖机器人终端特征库的规模,对于无法匹配的终端特征则不能进行识别判断;另外利用机器学习的方式,虽然不依赖机器人终端特征库,但是对于训练样本的质量要求较高,并且由于不同企业的网络环境往往差异较大,训练样本的分类算法的表现往往无法达到识别判断的预期。
目前针对相关技术中,识别自动化流量攻击准确度低和成本高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于序列熵流量识别的方法、装置和存储介质,以至少解决相关技术中对自动化流量攻击识别准确度低和成本高的问题。
第一方面,本申请实施例提供了一种基于序列熵流量识别的方法,所述方法包括:获取测试流量数据,确定所述测试流量数据的第一特征集合;
对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
获取实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
在一个实施例中,所述获取测试流量数据,确定所述测试流量数据的第一特征集合包括:
在预设时间段内,获取并解析测试流量数据的特征,解析的所述特征包括以下至少之一:流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码,根据所述测试流量数据中出现的所述特征,确定所述第一特征集合。
在一个实施例中,所述对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合包括:对所述第一特征集合中相邻的所述测试流量的每一维度进行异或操作,生成多维相邻访问流量的所述向量组,计算所述向量组每一维度为1的概率,选择所述第一特征信息中概率高于预设值的所述测试流量数据的特征,将所述特征保存为所述第二特征集合。
在一个实施例中,所述获取实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵包括:
在预设时间段内,获取实际流量数据,通过所述实际流量数据的第二特征集合中相邻的所述实际流量的每一维度进行所述异或操作,生成多维下相邻流量的所述向量组,重复所述提取和进行所述异或操作,将所述向量组累计,生成时序差分矩阵。
在一个实施例中,所述在所述突变信息熵大于预设阈值的情况下,判定所述实际流量为自动化流量激增状态包括:
对所述信息熵的值经过加权移动平均计算,得到所述信息熵的均值及方差,并设置所述信息熵与所述方差之和和所述方差之差的范围为置信区间,当所述信息熵的值小于所述置信区间的预设阈值时,判定所述实际流量为自动化流量激增状态。
在一个实施例中,所述获取测试流量数据包括:所述获取测试流量数据是针对指定Web业务系统进行的访问模拟测试。
第二方面,本申请实施例提供了一种基于序列熵流量识别的装置,包括第一获取模块、第二获取模块、第二获取模块、第一检测模块、第二检测模块和第一判定模块;其中,
第一获取模块获取测试流量数据,确定所述测试流量数据的第一特征集合;
第一检测模块确定所述测试流量数据的第一特征集合,对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
第二获取模块获取实际流量数据;
第二检测模块通过对所述实际流量中的所述第二特征集合重复提取所属向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
第一判定模块获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
第三方面,本申请实施例提供了一种基于序列熵流量识别的系统包括:服务器设备和终端;其中,
所述服务器设备获取所述终端的测试流量数据,确定所述测试流量数据的第一特征集合;
所述服务器设备对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
所述服务器设备获取所述终端的实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
所述服务器设备获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
第四方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于序列熵流量识别的方法。
第五方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于序列熵流量识别的方法。
相比于相关技术,本申请实施例提供的一种基于序列熵流量识别的方法,通过获取测试流量数据,确定该测试流量数据的第一特征集合;对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;获取实际流量数据,通过对该实际流量中的该第二特征集合重复提取该向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵;获取该时序差分矩阵的突变信息熵,在该突变信息熵小于预设阈值的情况下,判定该实际流量为自动化流量激增状态,解决了识别自动化流量攻击准确度低和成本高的问题,实现了快速和准确的识别自动化流量攻击。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为根据本申请实施例中一种基于序列熵流量识别的应用场景示意图;
图2是根据本申请实施例的一种基于序列熵流量识别方法的流程图;
图3是根据本申请实施例的一种基于序列熵流量识别方法的序列熵判定自动化流量攻击的流程图;
图4是根据本申请实施例的一种基于序列熵流量识别的装置的结构框图;
图5是根据本申请实施例的一种基于序列熵流量识别的方法的流程图;
图6是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在本实施例中,提供了一种基于序列熵流量识别的应用场景,图1为根据本申请实施例中一种基于序列熵流量识别的应用场景示意图,如图1所示,该系统包括:服务器设备12和终端设备10;该服务器设备12获取该终端10的测试流量数据,确定该测试流量数据的第一特征集合;该服务器设备12对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;该服务器设备12获取该终端10的实际流量数据,通过对该实际流量中的该第二特征集合重复提取该向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵;该服务器设备12获取该时序差分矩阵的突变信息熵,在该突变信息熵小于预设阈值的情况下,判定该实际流量为自动化流量激增状态,其中,该系统中服务器设备12先获取到终端10测试流量数据,通过对测试流量在时间段内的数据,进行采集和解析,得到多个特征信息,例如:流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码等特征信息,并将这些特征信息设置为第一特征集合,因为在时间段内所获取到的特征信息类型多样,服务器设备12对每一种类型的数据全部进行采集,会耗费服务器设备12大量的时间,所以服务器设备12将得到的第一特征集合的向量在每一维度实施异或操作,在相同值为0,不同值为1的计算过程后,计算每一维度值为1的概率,根据概率筛选对应多维流量中前10项到20项特征信息,因为这些特征信息具有显著性,更能代表自动化流量的攻击;下一步对实际流量进行特征提取,仅提取服务器设备12在测试流量数据中筛选过具有代表性特征的流量数据,将这些代表性的特征集合进行异或运算,重复该异或运算的步骤就可以生成流量时序变化矩阵,因为该矩阵会随时间变化而变化,为了提升效率,仅得到一段时间内,比如一天内组成的矩阵,将该矩阵通过信息熵的公式进行运算,因为信息熵常用来表示混乱程度,当信息熵越小时,证明混乱程度越低,更能代表当前流量属于自动化流量攻击,然后将信息熵的值经过加权移动平均计算,得到信息熵的及方差,并设置均值信息熵之和和均值信息熵之差为置信区间,在信息熵低于置信区间时,证明当前混乱程度过低,就会触发告警规则,服务器设备12认为当前流量中存在自动化流量攻击,通过该实施例对特征信息的重复提取,节约服务器设备12的资源的同时,判断出自动化流量入侵,解决了识别自动化流量攻击准确度低和成本高的问题,实现了快速和准确的识别自动化流量攻击。
本实施例提供了一种基于序列熵流量识别的方法,图2是根据本申请实施例的一种基于序列熵流量识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取测试流量数据,确定该测试流量数据的第一特征集合,其中,第一特征集合是通过流量采集设备对测试流量进行采集和解析,可以解析到的特征信息包括流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码等特征信息,特征并不唯一,可以解析到一个到多个,例如,对一个第一条测试流量信息仅采集到来源端口和目标端口,对第二条测试信息采集到来源端口、目标端口和请求方法,持续采集一个时间段,例如,一个小时,将采集到的所有特征信息放入第一特征集合;
步骤S202,对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合,其中,可以选择对向量组进行与、或和异或运算,根据筛选每个维度的变化概率筛选出变化率高的特征信息,放入第二特征集合;
步骤S203,获取实际流量数据,通过对该实际流量中的该第二特征集合重复提取该向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵;
步骤S204,获取该时序差分矩阵的突变信息熵,在该突变信息熵小于预设阈值的情况下,判定该实际流量为自动化流量激增状态,其中,得到实际流量时候可以选择对流量的变化程度判定流量是否为激增状态,也可以通过特征向量异或运算之后组成矩阵,来判断矩阵的信息熵来判断自动化流量是否激增。
通过上述步骤S201至S204,在相关技术中,判断该网络是否遭受流量攻击是通过先判断节点的类型,再根据该节点的类型匹配出该节点能承受流量的程度,如果该节点的流量超过该节点的承受范围,就判定该节点遭受了自动化流量攻击,该实施方式的不足的地方是,在实际场景下,服务器设备12中大量的流量流入是由用户访问构成的,另外自动化流量的攻击在通常情况下不会超过该节点的承受范围,所以不能判断是否是自动化流量的攻击;而本发明的实施例是通过该系统中先获取到测试流量数据,通过对测试流量在时间段内的数据,进行采集和解析,得到多个特征信息,例如:流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码等特征信息,并设置为第一特征集合,因为在时间段内所获取的特征信息类型多样,所以系统将得到的第一特征集合在每一维度进行异或操作,在相同值为0,不同值为1的计算过程后,计算每一维度值为1的概率,根据概率筛选对应多维流量中前10项到20项特征信息,筛选出上述特征信息是因为这些维度中具有代表性变化的特征信息,证明该特征信息相比与其他特征信息具有更大的信息量,更能代表自动化流量的攻击,然后对实际流量进行特征提取,仅提取测试流量数据中筛选过具有代表性特征的流量数据,将这些代表性特征的集合进行异或运算,重复该步骤就可以生成流量时序变化矩阵,因为该矩阵会随时间变化而变化,为了提升效率,仅得到一段时间内,比如一天内组成的矩阵,将该矩阵通过信息熵的公式进行运算,因为信息熵用来表示混乱程度,当信息熵越小时,证明混乱程度越低,更能代表当前流量属于自动化流量攻击,然后将信息熵的值经过加权移动平均计算,得到信息熵的及方差,并设置均值信息熵之和和均值信息熵之差为置信区间,在信息熵低于置信区间时,证明当前混乱程度过低,就会触发告警规则,认为当前流量中存在自动化流量攻击,解决了识别自动化流量攻击准确度低和成本高的问题,实现了快速和准确的识别自动化流量攻击。
在一个实施例中,获取测试流量数据,确定该测试流量数据的第一特征集合包括:在预设时间段内,获取并解析测试流量数据的特征,解析的该特征包括以下至少之一:流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码,根据该测试流量数据中出现的该特征,确定该第一特征集合,其中,在测试流量中采集和解析出特征信息,可以增加检测的效率,因为服务器设备12如果优先对实际流量进行特征提取没有指向性,服务器设备12过度提取特征信息会导致浪费服务器设备12的资源,导致服务器设备12效率降低,而服务器设备12对测试流量优先进行提取,短时间内将采集到的特征信息收集成特征集合,再对特征集合进行下一步提取,使得服务器设备12指向性变高,更加精确的筛选出有利的特征数据,同时降低了服务器设备12的负载。
在一个实施例中,对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合包括:对该第一特征集合中相邻的该测试流量的每一维度进行异或操作,生成多维相邻访问流量的该向量组,计算该向量组每一维度为1的概率,选择该第一特征信息中概率高于预设值的该测试流量数据的特征,将该特征保存为该第二特征集合,其中,服务器设备12进行异或操作是为了筛选出变化显著的特征集合,在实际流量中服务器设备12对该特征集合进行提取,服务器设备12更进一步的精确了要收集特征集合的目标,增加了实际流量提取显著特征的效率。
在一个实施例中,该获取实际流量数据,通过对该实际流量中的该第二特征集合重复提取该向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵包括:在预设时间段内,获取实际流量数据,通过该实际流量数据的第二特征集合中相邻的该实际流量的每一维度进行该异或操作,生成多维下相邻流量的该向量组,重复该提取和进行该异或操作,将该向量组累计,生成时序差分矩阵,服务器设备12通过重复对实际流量的每一维度进行异或操作可以得到计算信息熵的时序差分矩阵,及时计算出实际流量的信息熵,判断当前是否为自动化网络攻击状态,通过上述方法,使得服务器设备12提高了判断当前网络自动化流量攻击的效率。
在一个实施例中,图3是根据本申请实施例的一种基于序列熵流量识别方法的序列熵判定自动化流量攻击的流程图,如图3所示,该流程包括如下步骤:
在该突变信息熵大于预设阈值的情况下,该流程包括如下步骤:
步骤S301,对该信息熵的值经过加权时序移动平均计算得到该信息熵的均值及方差;
步骤S302,设置该信息熵与该方差之和和该方差之差的范围为置信区间;
步骤S303,当该信息熵的值小于该置信区间的预设阈值时,判定该实际流量为自动化流量激增状态,当该信息熵的值大于该置信区间的预设阈值时,判定该实际流量为正常访问状态;
其中,信息熵用来表示混乱程度,当信息熵越小时,证明混乱程度越低,代表当前流量是属于自动化的流量访问,同时判断当前服务器设备12遭受了自动化流量攻击。
本实施例还提供了一种基于序列熵流量识别的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述;如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的,图4是根据本申请实施例的一种基于序列熵流量识别的装置的结构框图,如图4所示,该装置包括第一获取模块41、第二获取模块43、第一检测模块42、第二检测模块44和第一判定模块45;其中,
第一获取模块41获取测试流量数据,确定该测试流量数据的第一特征集合;
第一检测模块42确定该测试流量数据的第一特征集合,对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
第二获取模块43获取实际流量数据;
第二检测模块44通过对该实际流量中的该第二特征集合重复提取所属向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵;
第一判定模块45获取该时序差分矩阵的突变信息熵,在该突变信息熵小于预设阈值的情况下,判定该实际流量为自动化流量激增状态。
在一个实施例中,该获取测试流量数据包括:该获取测试流量数据是针对指定Web业务系统进行的访问模拟测试,服务器设备12针对Web业务系统的测试,先通过测试流量,提取特征信息,再针对实际流量提取具有代表性的特征信息,更具有针对性,解决了Web业务所面临的自动化流量攻击问题。
在一个实施例中,图5是根据本申请实施例的一种基于序列熵流量识别的方法的流程图,如图5所示,针对指定Web业务系统进行正常的访问模拟测试的方法步骤包括:
步骤S501,通过流量采集设备对测试流量进行采集和解析:主要解析的特征包括流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体、响应码等m个特征,生成第1次访问流量的特征集合V1={v11,v12,v13,…,v1m};
步骤S502,模拟测试1小时,生成n次访问流量的特征集合V={V1,V2,…Vn};
步骤S503,对时序相邻的访问流量的每一维度进行异或操作,即相同值为0,不同值为1,生成n-1个m维相邻访问流量变化向量组V01,V02,…V0n-1计算向量组中每一维值为1的概率,根据概率筛取对应m维流量特征中Top20特征,其中前20项的更具有代表性;
步骤S504,对实际流量进行特征提取,仅提取模拟测试阶段筛选出的特征,重复对时序相邻的访问流量的每一维度进行异或操作,即相同值为0,不同值为1,生成n-1个m维相邻访问流量变化向量组V01,V02,…V0n-1,将变化的向量组进行叠加,生成流量时序变化矩阵T。
步骤S505,矩阵T会随时间变化逐渐增长,为提升计算效率,仅对一段时间内(比如一天)的矩阵进行计算,其信息熵H如公式1所示:
Figure BDA0002591668580000101
其中,p(xi)表示组矩阵中第i列值为1的概率,
信息l(xi)的如公式2所示:
l(xi)=-log2 p(xi) 公式2
对信息熵H的值经过加权移动平均计算,得到均值Hm及方差σ,并设置Hm±σ为置信区间,当H的值低于拟合置信区间时,触发告警规则,认为流量中存在大量的自动化访问行为。
实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S1,获取测试流量数据,确定该测试流量数据的第一特征集合;
步骤S2,对该第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
步骤S3,获取实际流量数据,通过对该实际流量中的该第二特征集合重复提取该向量组和对相邻的该向量组进行异或操作,生成时序差分矩阵;
步骤S4,获取该时序差分矩阵的突变信息熵,在该突变信息熵小于预设阈值的情况下,判定该实际流量为自动化流量激增状态。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
在一个实施例中,图6是根据本申请实施例的电子设备的内部结构示意图,如图6所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种请求指令处理的方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例提供的请求指令处理的方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例提供的请求指令处理的方法中的步骤。
另外,结合上述实施例中的一种基于序列熵流量识别的方法,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上该实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上该实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于序列熵流量识别的方法,其特征在于,包括:
获取测试流量数据,确定所述测试流量数据的第一特征集合;
对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
获取实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
2.根据权利要求1所述的方法,其特征在于,所述获取测试流量数据,确定所述测试流量数据的第一特征集合包括:
在预设时间段内,获取并解析测试流量数据的特征,解析的所述特征包括以下至少之一:流入字节数、流出字节数、来源端口、目标端口、访问URL、请求方法、请求体和响应码,根据所述测试流量数据中出现的所述特征,确定所述第一特征集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合包括:对所述第一特征集合中相邻的所述测试流量的每一维度进行异或操作,生成多维相邻访问流量的所述向量组,计算所述向量组每一维度为1的概率,选择所述第一特征信息中概率高于预设值的所述测试流量数据的特征,将所述特征保存为所述第二特征集合。
4.根据权利要求1所述的方法,其特征在于,所述获取实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵包括:
在预设时间段内,获取实际流量数据,通过所述实际流量数据的第二特征集合中相邻的所述实际流量的每一维度进行所述异或操作,生成多维相邻流量的所述向量组,重复所述提取和进行所述异或操作,将所述向量组累计,生成时序差分矩阵。
5.根据权利要求1所述的方法,其特征在于,所述在所述突变信息熵大于预设阈值的情况下,判定所述实际流量为自动化流量激增状态包括:
对所述信息熵的值经过加权移动平均计算,得到所述信息熵的均值及方差,并设置所述信息熵与所述方差之和和所述方差之差的范围为置信区间,当所述信息熵的值小于所述置信区间的预设阈值时,判定所述实际流量为自动化流量激增状态。
6.根据权利要求1所述的方法,其特征在于,所述获取测试流量数据包括:所述获取测试流量数据是针对指定Web业务系统进行的访问模拟测试。
7.一种基于序列熵流量识别的装置,其特征在于,包括第一获取模块、第二获取模块、第二获取模块、第一检测模块、第二检测模块和第一判定模块;其中,
第一获取模块获取测试流量数据,确定所述测试流量数据的第一特征集合;
第一检测模块确定所述测试流量数据的第一特征集合,对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
第二获取模块获取实际流量数据;
第二检测模块通过对所述实际流量中的所述第二特征集合重复提取所属向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
第一判定模块获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
8.一种基于序列熵流量识别的系统,其特征在于,包括:服务器设备和终端;其中,
所述服务器设备获取所述终端的测试流量数据,确定所述测试流量数据的第一特征集合;
所述服务器设备对所述第一特征集合中相邻的向量组进行异或操作,筛选出第二特征集合;
所述服务器设备获取所述终端的实际流量数据,通过对所述实际流量中的所述第二特征集合重复提取所述向量组和对相邻的所述向量组进行异或操作,生成时序差分矩阵;
所述服务器设备获取所述时序差分矩阵的突变信息熵,在所述突变信息熵小于预设阈值的情况下,判定所述实际流量为自动化流量激增状态。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的基于序列熵流量识别的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的基于序列熵流量识别的方法。
CN202010697129.8A 2020-07-20 2020-07-20 一种基于序列熵流量识别的方法、装置和存储介质 Active CN111901324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010697129.8A CN111901324B (zh) 2020-07-20 2020-07-20 一种基于序列熵流量识别的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010697129.8A CN111901324B (zh) 2020-07-20 2020-07-20 一种基于序列熵流量识别的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111901324A true CN111901324A (zh) 2020-11-06
CN111901324B CN111901324B (zh) 2023-02-28

Family

ID=73191066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010697129.8A Active CN111901324B (zh) 2020-07-20 2020-07-20 一种基于序列熵流量识别的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111901324B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595995A (zh) * 2021-07-12 2021-11-02 中国联合网络通信集团有限公司 一种容器零信任安全防护方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160164912A1 (en) * 2014-12-09 2016-06-09 Fortinet, Inc. Near real-time detection of denial-of-service attacks
CN105847283A (zh) * 2016-05-13 2016-08-10 深圳市傲天科技股份有限公司 一种基于信息熵方差分析的异常流量检测方法
CN106934035A (zh) * 2017-03-14 2017-07-07 合肥工业大学 一种基于类与特征分布的多标签数据流中概念漂移检测方法
CN108174379A (zh) * 2018-02-09 2018-06-15 东南大学 基于支持向量机和阈值筛选的恶意用户识别方法及装置
CN109951491A (zh) * 2019-03-28 2019-06-28 腾讯科技(深圳)有限公司 网络攻击检测方法、装置、设备及存储介质
CN109981533A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种DDoS攻击检测方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160164912A1 (en) * 2014-12-09 2016-06-09 Fortinet, Inc. Near real-time detection of denial-of-service attacks
CN105847283A (zh) * 2016-05-13 2016-08-10 深圳市傲天科技股份有限公司 一种基于信息熵方差分析的异常流量检测方法
CN106934035A (zh) * 2017-03-14 2017-07-07 合肥工业大学 一种基于类与特征分布的多标签数据流中概念漂移检测方法
CN109981533A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种DDoS攻击检测方法、装置、电子设备及存储介质
CN108174379A (zh) * 2018-02-09 2018-06-15 东南大学 基于支持向量机和阈值筛选的恶意用户识别方法及装置
CN109951491A (zh) * 2019-03-28 2019-06-28 腾讯科技(深圳)有限公司 网络攻击检测方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595995A (zh) * 2021-07-12 2021-11-02 中国联合网络通信集团有限公司 一种容器零信任安全防护方法及系统

Also Published As

Publication number Publication date
CN111901324B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN109960729B (zh) Http恶意流量的检测方法及系统
CN107465648B (zh) 异常设备的识别方法及装置
Tabash et al. Intrusion detection model using naive bayes and deep learning technique.
CN108259482A (zh) 网络异常数据检测方法、装置、计算机设备及存储介质
CN111107096A (zh) 一种Web站点安全防护方法及装置
CN109413071B (zh) 一种异常流量检测方法及装置
CN111866024B (zh) 一种网络加密流量识别方法及装置
CN109325548B (zh) 图像处理方法、装置、电子设备及存储介质
CN108023868B (zh) 恶意资源地址检测方法和装置
CN111614599A (zh) 基于人工智能的webshell检测方法和装置
US11531676B2 (en) Method and system for anomaly detection based on statistical closed-form isolation forest analysis
CN110798488B (zh) Web应用攻击检测方法
CN113722748B (zh) 一种基于区块链和通用工业标识的设备信息获取方法
Gabryel et al. Browser fingerprint coding methods increasing the effectiveness of user identification in the web traffic
CN111641619B (zh) 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN114553523A (zh) 基于攻击检测模型的攻击检测方法及装置、介质、设备
Kachavimath et al. A deep learning-based framework for distributed denial-of-service attacks detection in cloud environment
CN113518064B (zh) 挑战黑洞攻击的防御方法、装置、计算机设备和存储介质
CN117614742B (zh) 一种蜜点感知增强的恶意流量检测方法
CN111064719B (zh) 文件异常下载行为的检测方法及装置
CN107231383B (zh) Cc攻击的检测方法及装置
CN111901324B (zh) 一种基于序列熵流量识别的方法、装置和存储介质
Ghazy et al. Efficient techniques for attack detection using different features selection algorithms and classifiers
CN108234454A (zh) 一种身份认证方法、服务器及客户端设备
CN111556042A (zh) 恶意url的检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant