CN113179250A - web未知威胁检测方法及系统 - Google Patents

web未知威胁检测方法及系统 Download PDF

Info

Publication number
CN113179250A
CN113179250A CN202110327333.5A CN202110327333A CN113179250A CN 113179250 A CN113179250 A CN 113179250A CN 202110327333 A CN202110327333 A CN 202110327333A CN 113179250 A CN113179250 A CN 113179250A
Authority
CN
China
Prior art keywords
feature vector
abnormal
data
early warning
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110327333.5A
Other languages
English (en)
Other versions
CN113179250B (zh
Inventor
兰亭洋
刘叶
王智民
王高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Original Assignee
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 6Cloud Technology Co Ltd, Beijing 6Cloud Information Technology Co Ltd filed Critical Beijing 6Cloud Technology Co Ltd
Priority to CN202110327333.5A priority Critical patent/CN113179250B/zh
Publication of CN113179250A publication Critical patent/CN113179250A/zh
Application granted granted Critical
Publication of CN113179250B publication Critical patent/CN113179250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

本发明提供一种web未知威胁检测方法及系统,属于网络安全技术领域。所述方法包括:根据http响应报文获得特征向量初集;对所述特征向量初集进行数据降维,获得特征向量矩阵;所述特征向量矩阵作为训练输入数据进行模型训练,获得各特征向量对应的输出数据,在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型;利用所述预测模型进行当前网络环境的http响应报文异常检测,获得异常分数集,对所述异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据所述异常数据的数值进行对应等级的风险预警。本发明方案实现了web未知威胁检测的无监督学习,适应大数据监测。

Description

web未知威胁检测方法及系统
技术领域
本发明涉及网络安全技术领域,具体地涉及一种web未知威胁检测方法及一种web未知威胁检测系统。
背景技术
目前,web(World Wide Web,全球广域网)应用发展迅速,为人们的生活提供了很大的便利。但是,针对web漏洞进行恶意攻击的情况也越来越严重,造成了严重的信息安全问题。其中,针对web服务器发起的恶意攻击是影响最为恶劣的,包括现有最常见的SQL注入和命令注入等攻击手段,这些恶意攻击对web服务器安全产生了很大的威胁,传统web入侵检测技术越来越难应对各种入侵攻击行为。近年来,随着深度学习的快速发展,很多深度学习算法应用在了web入侵检测技术并取得了很好的效果,但缺点是多数是基于请求报文流量进行检测的,对于未知威胁检测效果不佳。采用有监督算法,需要有经验的专家手工标注大量的样本,不适合大数据的情况。针对当前人工智能算法解决web威胁检测无法适应大数据环境的问题,需要创造一种新的web未知威胁检测方法。
发明内容
本发明实施方式的目的是提供一种web未知威胁检测方法及系统,以至少解决当前人工智能算法解决web威胁检测无法适应大数据环境的问题。
为了实现上述目的,本发明第一方面提供一种web未知威胁检测方法,所述方法包括:获取http响应报文,并将所述http响应报文转换为预设长度的特征向量初集;根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵;将所述特征向量集作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据;在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型;利用所述预测模型进行当前网络环境的http响应报文异常检测,获得异常分数集,对所述异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据所述异常数据的数值进行对应等级的风险预警。
可选的,所述将所述http响应报文转换为预设长度的特征向量初集,包括:将所述http响应报文正文进行过滤,保留其中的有效字符和字母;根据预设词汇表对过滤后的http响应报文进行2-gram分词,并计算各分词的逆文本频率指数;将包含所述逆文本频率指数的所有分词组合成为预设长度的特征向量初集。
可选的,所述根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵,包括:对所述特征向量初集进行去平均化处理;计算去平均化后特征向量初集的协方差矩阵和特征值;根据特征值计算结果,对所述特征向量初集中的各特征向量按照特征值大小进行排序,并从排序后的特征向量中筛选出前M个特征向量,组成特征向量矩阵,其中M≥50。
可选的,所述预搭建的深度自编码器为根据keras框架构建深度的自编码器神经网络。
可选的,所述自编码器神经网络包括多个堆叠的编码器和解码器;其中,所述编码器的隐含神经元的激活函数为ReLU函数;所述解码器的输出神经元的激活函数为tanh函数。
可选的,所述根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型,包括:分别计算各特征向量输入数据和输出数据的均方误差,并实时将均方误差与预设均方误差阈值进行对比,直到均方误差小于预设均方误差阈值,停止模型训练,将当前收敛模型作为预测模型。
可选的,所述根据所述异常数据的数值进行对应等级的风险预警,包括:确定预设风险预警等级中各风险预警等级的异常分数预设值;根据所述异常分数预设值确定异常数据对应的预警等级;根据确定的预警等级生成对应的预警指令;执行所述预警指令,进行对应等级的风险预警。
本发明第二方面提供一种web未知威胁检测系统,所述系统包括:采集单元,用于获取http响应报文;处理单元,用于将所述http响应报文转换为预设长度的特征向量初集;还用于根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵;训练单元,用于将所述特征向量集作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据;所述处理单元还用于在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将所有输出数据形成为异常分数集;还用于利用异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据异常数据值输出对应等级的预警指令;预警单元,用于根据所述预警指令生成对应等级的预警信息。
可选的,所述系统还包括人机交互单元;所述人机交互单元包括:显示模块,用于显示实时预警信息和历史预警信息;输入模块,用于调取所述历史预警信息。
另一方面,本发明提供一种计算机可读储存介质,该计算机可读存储介质上储存有指令,其在计算机上运行时使得计算机执行上述的web未知威胁检测方法。
通过上述技术方案,获取http响应报文的完整字符串信息,并提取字符串的特征。使用这些特性转换为向量进行降维,应用于深度自编码器进行异常检测。不需要人工进行样本数据标注,自动训练最佳训练模型。实现了web威胁检测的无监督学习,解决了目前威胁检测不适合大数据的问题。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是本发明一种实施方式提供的web未知威胁检测方法的步骤流程图;
图2是本发明一种实施方式提供的逆文本频率计算步骤流程图;
图3是本发明一种实施方式提供的web未知威胁检测系统的系统结构图。
附图标记说明
10-采集单元;20-处理单元;30-训练单元;40-预警单元。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图3是本发明一种实施方式提供的web未知威胁检测系统的系统结构图。如图3所示,本发明实施方式提供一种web未知威胁检测系统,所述系统包括:采集单元10,用于获取http响应报文;处理单元20,用于将所述http响应报文转换为预设长度的特征向量初集;还用于根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵;训练单元30,用于将所述特征向量集作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据;所述处理单元20还用于在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将所有输出数据形成为异常分数集;还用于利用异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据所述异常数据值输出对应等级的风险预警,对应预警等级的预警指令;预警单元40,用于根据所述预警指令生成对应等级的预警信息。
优选的,所述系统还包括人机交互单元(未示出);所述人机交互单元包括:显示模块,用于显示实时预警信息和历史预警信息;输入模块,用于调取所述历史预警信息。
图1是本发明一种实施方式提供的web未知威胁检测方法的方法流程图。如图1所示,本发明实施方式提供一种web未知威胁检测方法,本方法利用分析是发现web入侵的一种有效方法的特质,同时采用无监督算法进行异常检测,适合于大数据情况。本发明实施设计了一个基于无监督分类器的web响应报文异常检测方法。本发明提取响应报文的字符串特征。使用这些特性转换为向量采用PCA算法(Principal Component Analysis,主成分分析)进行降维,应用于深度自编码器进行异常检测。主成分分析和自动编码器是分类器的理论基础。本发明将PCA和AE结合应用于web响应异常检测中,与其他方法相比,有更好的性能,能够检测未知特征的攻击行为,弥补传统方法存在的缺陷与不足。具体的,所述方法包括:
步骤S10:获取http响应报文,并将所述http响应报文转换为预设长度的特征向量初集。
具体的,在所用的网络使用过程中,无论是终端发起的服务请求,还是服务器对应产生的服务响应,均会产生对应的响应报文,这些响应报文可能包括请求性质、请求类型、服务类型、服务内容等各种信息。在正常使用过程中,因为日常生活服务类型的共性和服务信息备案,所有正常的网络报文具有合法性和相似性。而若存在恶意攻击程序,发起恶意的服务请求,即使伪装成为合法的报文信息,因为存在的攻击信息也会与常规报文存在区别。所以在进行威胁检测时,可以对产生的http响应报文进行内容审核,进行异常风险判断,进行web威胁的自检测。基于此,进行web未知威胁检测时,首先需要获取对应的http响应报文,包括完整的http响应报文内容。采集单元10基于服务端或终端进行构建,在产生http响应报文时,采集单元10获取完整的http响应报文内容。然后将获取的http响应报文传输到处理单元20,处理单元20首先对获取的http响应报文进行过滤,去除其中公用的无用信息,仅保留有效字符和字母。例如进行某项服务申请时,发起服务请求的目标前缀和公网前缀在相同的服务框架下是相同的,这部分内容是无法区别服务类型信息的。仅保留存在差异化服务类型的报文内容,较小数据体量,提高数据筛查的效率。过滤出来的有效字符和字母由常规的68种字符组成。
“!"#$%&\'()*+,-./0123456789:;<=>?@[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~”。将由这些字符组成和有效字符串筛选出来,通过字符串中字符的组合关系进行差异化筛查。为了判断字符组合关系的权重值,首先根据上述68种进行两两组合,获得一个长度为4692的词汇表。然后根据该词汇表对筛选出来的有效字符串进行2-gram分词。
具体的,因为字符串的字符组合关系与产生该响应报文的具体内容有关,每一个字符均与其他字符存在关联意义,即不会出现无意义的字符。所以当获取到一串字符后,需要根据关联程度进行词义连接,实现字符串的“语义识别”,即把一连串的字符转变为一个合理的请求内容。在确定一个字符的前提下,计算该字符与其他字符的关联权重得分,关联权重得分越高,则表示该字符与对应字符的关联程度越高,则存在组合关系的概率也就越大。2-gram就是一种最大概率分词,根据后置字符和前置字符的先驱意义进行分词,完成有效字符串的分词,所有分词既存在自身意义也存在关联意义,共同组合成为响应报文的完整服务内容。完成分词后,继续根据词汇表,计算出分词后响应报文的逆文本频率。即计算各分词的权重得分,具体的,如图2,包括以下步骤:
步骤S101:计算各分词的TF值。
具体的,TF(Term Frequency,词频)是表示该分词在当前http响应报文内出现的频率,其计算公式为:
Figure BDA0002995145500000071
其中,nij为该分词在当前http响应报文中出现的次数,∑knkj为当前http响应报文中分词的总数量。
步骤S102:计算各分词的IDF值。
具体的,IDF(Inverse Document Frequency,逆向文件频率)的意义为,如果包含某分词的响应报文越少,IDF越大,则说明该分词具有很好的类别区分能力。也就可以根据IDF值高的分词进行服务类型区分,进行IDF值计算的思想为由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。具体计算公式为:
Figure BDA0002995145500000081
其中,|D|为响应报文库中的报文总数,|{j:ti∈dj}|为包含对应分词的报文数量。如果某分词不在响应报文库中,会导致分母为0,所以上述公式常表达为:
Figure BDA0002995145500000082
步骤S103:计算各分词的TF-IDF值。
具体的,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。通过计算各分词的权重得分,可以有效区分各响应报文的服务内容,通过分析权重得分更高的分词,可以判断当前请求是否合法或是否符合常规。TF-IDF值的计算公式为:
tfidfij=tfif×idfi
处理单元20获取到每一个分词的逆文本频率后,根据权重得分进行分词排列,获得维度为4692的词向量,该特征向量集即为特征向量初集。
步骤S20:根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵。
具体的,特征向量初集的数据体量很大,若直接将特征向量初集作为训练数据,后续的训练体量也就会特别大,造成检测延时,使得无法及时发现未知威胁。为了提高检测效率,需要极大缩小训练样本数据。在一种可能的实施方式中,将特征向量初集通过PCA算法降到50维度。PCA算法是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。降维意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。所以利用步骤S10中,计算获得的各分词的逆文本频率,进行权重得分低的数据过滤,保留权重得分更高的分词。首先进行取平均化,即进行每一个分词TF-IDF值减去平均值,然后计算数据集的协方差矩阵特征值。要判断每一个分词的保留价值,需要判断当前分词的与其他分词的关系统计量。即判断分词组合关系之间的关联程度。以二维数据为例,即需要判断两个随机变量之间的关联程度,若协方差结果为负,则表示当前两个随机变量之间为负相关,即一个变量增大,另一个变量缩小。若协方差结果为正,则表示当前两个随机变量之间为正相关。协方差结果为0,则表示当前两个随机变量之间不存在关联关系。当数据维度增大时,就需要判断当前矩阵内所有分词之间的关联程度。通过计算协方差矩阵特征值和各分词自身的特征值,进行大小排序,选出其中值最大的50个值,组成为维度为50的矩阵,即为特征向量矩阵。
步骤S30:将所述特征向量集作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据。
具体的,训练单元30为采用keras框架构建的自编码神经网络,优选的,该自编码神经网络的深度为8层。通过训练单元30进行特征向量矩阵训练,可以识别出其中存在异常的特征向量,从而判断对应http响应报文是否合法。自编码神经网络解决了现有技术需要有经验专家进行手工标注的弊端,实现了威胁检测的无监督学习,利用神经网络进行表征学习。自编码神经网络由编码器和解码器两部分组成,自编码神经网络利用编码器和解码器实现输入样本压缩和重构的过程。因为特征向量矩阵维度为50,则对应将编码器的输入神经元个数设为50,因为输出层是将样本重构还原,所以对应输出神经元个数同样为50。编码器将输入样本压缩到隐含神经层,解码器再从隐含神经层逐步还原。本发明预设编码器的隐含神经元个数依次为32、16和8,以实现输入特征向量矩阵的逐步压缩。然后解码器再逐步还原,则解码器隐含神经元个数依次为8、16和32。优选的,与常规无监督学习人工智能算法相同,编码器的激活函数为ReLU函数(Rectified Linear Unit,线性整流函数),指代数学中的斜坡函数,表达式为:
f(x)=max(0,x)
而在神经网络中,ReLU函数作为神经元的激活函数,定义了该神经元在线性变换WTX+b之后的非线性输出结果。换句话说,对于进入神经元的来自上一层神经网络的输入向量,使用线性整流激活函数的神经元会输出:
max(0,WTX+b)
至下一层神经元或作为整个神经网络的输出。通过ReLU函数,实现线性修正以及正则化,对机器神经网络中神经元的活跃度进行调试。也因为更加有效率的梯度下降以及反向传播避免了梯度爆炸和梯度消失问题。ReLU函数没有了其他复杂激活函数中诸如指数函数的影响,同时活跃度的分散性使得神经网络整体计算成本下降。
对于编码器,优选的,激活函数为Tanh函数,Tanh为双切正切曲线,过(0,0)点,其函数关系式为:
Figure BDA0002995145500000101
Tanh函数的收敛速度很快,适应网络危险监测及时性的需求。
搭建好自编码神经网络后,将步骤S20获得的特征向量矩阵作为输入数据,进行模型训练,利用亚当优化算法进行收敛。亚当优化算法与传统的随机梯度下降法的收敛理念类似,但与随机梯度下降算法区别在于,在收敛过程中,学习速率是在发生变化的。亚当优化算法计算了梯度和平方梯度的指数移动平均值,以此进行每次参数学习速率调整,提高了收敛效率。在模型训练过程中,实时获取解码器的输出数据。
步骤S40:在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型。
具体的,训练模型根据输入特征向量进行匹配向量预测,这种预测结果与传统服务类型相关,即在某特定服务类型下,不同终端发起服务请求的http响应报文的内容存在一定的相似性。即在识别到某分词后,当前分词经常与某分词存在组合关系,以表示某种特定合法的服务。则输出的对应分词具有一定预测值,若输出值与预测值之间的差异化很小,则表示当前分词的预测合法,即当前http响应报文合法的概率也就更高。从输入数据当输出数据,若前后数据变化很小,则表示预测模型与实际情况存在很好的重合性。多以为了提高收敛效率,可以将此关系作为收敛结束条件的判断依据。MSE(mean-square error,均方误差)是反映估计量与被估计量之间差异程度的一种度量,是指参数估计值与参数真值之差平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。预设一个MSE值,该预测值保证获得的训练数据可以很好体现现实情况。为了避免后续无意义收敛,缩短收敛时间,每获得一个输出数据,便进行一次MSE值计算,并将计算获得的MSE值与预设的MSE值进行对比,若当前MSE值大于预设MSE值,则表示当前预测模型与实际情况存在较大出入,需要继续进行收敛。若当前MSE值小于预设MSE值,则判定收敛完成,系统自动终止训练,将当前收敛模型作为预测模型。
步骤S50:利用所述预测模型进行当前网络环境的http响应报文异常检测,获得异常分数集,对所述异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据所述异常数据的数值进行对应等级的风险预警。
具体的,获得当前网络环境预测模型后,便可将当前预测模型进行对应网络环境http响应报文的异常监测,将获取到的http响应报文作为输入数据,进行风险预测,然后在自编码器的解码器端输出异常分数值。处理单元20对这些异常分数值进行从大到小的排序,然后预设一定阈值百分比进行异常分数筛选,保留其中分数最大的部分。根据最终得分情况进行异常判断,预设多个风险预警等级,并确定各风险预警等级的异常分数预设值;根据异常分数预设值判断各筛选出的异常分数值对应的预警等级;根据判断结果生成对应预警等级的预警指令;执行预警指令,生成对应预警等级的预警信息。通过人机交互单元的显示模块进行实时预警信息显示,相关人员也可通过输入模块进行历史预警数据提取,以实现对应系统的历史运行状态监测。
本发明实施方式还提供一种计算机可读储存介质,该计算机可读存储介质上储存有指令,其在计算机上运行时使得计算机执行上述的web未知威胁检测方法。
本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (10)

1.一种web未知威胁检测方法,其特征在于,所述方法包括:
获取http响应报文,并将所述http响应报文转换为预设长度的特征向量初集;
根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵;
将所述特征向量矩阵作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据;
在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型;
利用所述预测模型进行当前网络环境的http响应报文异常检测,获得异常分数集,对所述异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据所述异常数据的数值进行对应等级的风险预警。
2.根据权利要求1所述的web未知威胁检测方法,其特征在于,所述将所述http响应报文转换为预设长度的特征向量初集,包括:
将所述http响应报文正文进行过滤,保留其中的有效字符和字母;
根据预设词汇表对过滤后的http响应报文进行2-gram分词,并计算各分词的逆文本频率指数;
将包含所述逆文本频率指数的所有分词组合成为预设长度的特征向量初集。
3.根据权利要求2所述的web未知威胁检测方法,其特征在于,所述根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵,包括:
对所述特征向量初集进行去平均化处理;
计算去平均化后特征向量初集的协方差矩阵和特征值;
根据特征值计算结果,对所述特征向量初集中的各特征向量按照特征值大小进行排序,并从排序后的特征向量中筛选出前M个特征向量,组成特征向量矩阵,其中M≥50。
4.根据权利要求1所述的web未知威胁检测方法,其特征在于,所述预搭建的深度自编码器为根据keras框架构建的自编码器神经网络。
5.根据权利要求4所述的web未知威胁检测方法,其特征在于,所述自编码器神经网络包括多个堆叠的编码器和解码器;
其中,所述编码器的隐含神经元的激活函数为ReLU函数;
所述解码器的输出神经元的激活函数为tanh函数。
6.根据权利要求1所述的web未知威胁检测方法,其特征在于,所述根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将当前收敛模型作为预测模型,包括:
分别计算各特征向量输入数据和输出数据的均方误差,并实时将均方误差与预设均方误差阈值进行对比,直到均方误差小于预设均方误差阈值,停止模型训练,将当前收敛模型作为预测模型。
7.根据权利要求1所述的web未知威胁检测方法,其特征在于,所述根据所述异常数据的数值进行对应等级的风险预警,包括:
确定预设风险预警等级中各风险预警等级的异常分数预设值;
根据所述异常分数预设值确定异常数据对应的预警等级;
根据确定的预警等级生成对应的预警指令;
执行所述预警指令,进行对应等级的风险预警。
8.一种web未知威胁检测系统,其特征在于,所述系统包括:
采集单元,用于获取http响应报文;
处理单元,用于将所述http响应报文转换为预设长度的特征向量初集;还用于根据预设规则对所述特征向量初集进行数据降维,获得数据体量小于所述特征向量初集的特征向量矩阵;
训练单元,用于将所述特征向量集作为训练输入数据,在预搭建的深度自编码器中对所述特征向量集中的特征向量按顺序进行模型训练,获得各特征向量对应的输出数据;
所述处理单元还用于在模型训练过程中,根据各特征向量和对应的输出数据进行收敛判断,并在判定收敛完成时终止模型训练,将所有输出数据形成为异常分数集;还用于利用异常分数集中各异常分数进行大小排序,按照预设阈值百分比从排序后的异常分数中筛选异常数据,根据异常数据值输出对应等级的预警指令;
预警单元,用于根据所述预警指令生成对应等级的预警信息。
9.根据权利要求8所述的web未知威胁检测系统,其特征在于,所述系统还包括人机交互单元;
所述人机交互单元包括:
显示模块,用于显示实时预警信息和历史预警信息;
输入模块,用于调取所述历史预警信息。
10.一种计算机可读储存介质,该计算机可读存储介质上储存有指令,其在计算机上运行时使得计算机执行权利要求1至7中任一项权利要求所述的web未知威胁检测方法。
CN202110327333.5A 2021-03-26 2021-03-26 web未知威胁检测方法及系统 Active CN113179250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110327333.5A CN113179250B (zh) 2021-03-26 2021-03-26 web未知威胁检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110327333.5A CN113179250B (zh) 2021-03-26 2021-03-26 web未知威胁检测方法及系统

Publications (2)

Publication Number Publication Date
CN113179250A true CN113179250A (zh) 2021-07-27
CN113179250B CN113179250B (zh) 2022-05-17

Family

ID=76922436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110327333.5A Active CN113179250B (zh) 2021-03-26 2021-03-26 web未知威胁检测方法及系统

Country Status (1)

Country Link
CN (1) CN113179250B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114567474A (zh) * 2022-02-23 2022-05-31 西安烽火软件科技有限公司 一种针对http数据基于无监督深度自编码网络的未知威胁检测方法及系统

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656637A (zh) * 2017-02-24 2017-05-10 国网河南省电力公司电力科学研究院 一种异常检测方法及装置
CN106656981A (zh) * 2016-10-21 2017-05-10 东软集团股份有限公司 网络入侵检测方法和装置
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
CN108335216A (zh) * 2018-01-12 2018-07-27 中国平安人寿保险股份有限公司 一种保险风险评估方法、装置、终端设备及存储介质
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN109698823A (zh) * 2018-11-29 2019-04-30 广东电网有限责任公司信息中心 一种网络威胁发现方法
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN110460605A (zh) * 2019-08-16 2019-11-15 南京邮电大学 一种基于自动编码的异常网络流量检测方法
CN110647900A (zh) * 2019-04-12 2020-01-03 中国人民解放军战略支援部队信息工程大学 基于深度神经网络的安全态势智能预测方法、装置及系统
US20200099708A1 (en) * 2018-09-21 2020-03-26 Mcafee, Llc Methods, systems, and media for detecting anomalous network activity
CN110990837A (zh) * 2020-02-29 2020-04-10 网御安全技术(深圳)有限公司 系统调用行为序列降维方法、系统、设备和存储介质
CN111031051A (zh) * 2019-12-17 2020-04-17 清华大学 一种网络流量异常检测方法及装置、介质
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111294341A (zh) * 2020-01-17 2020-06-16 成都信息工程大学 基于自编码器和递归神经网络的车载系统入侵检测方法
CN111310819A (zh) * 2020-02-11 2020-06-19 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及可读存储介质
CN111464359A (zh) * 2020-04-03 2020-07-28 杭州迪普科技股份有限公司 异常流量告警决策系统及方法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统
CN112367338A (zh) * 2020-11-27 2021-02-12 腾讯科技(深圳)有限公司 恶意请求检测方法及装置
CN112434298A (zh) * 2021-01-26 2021-03-02 浙江大学 一种基于自编码器集成的网络威胁检测系统

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656981A (zh) * 2016-10-21 2017-05-10 东软集团股份有限公司 网络入侵检测方法和装置
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
CN106656637A (zh) * 2017-02-24 2017-05-10 国网河南省电力公司电力科学研究院 一种异常检测方法及装置
CN108335216A (zh) * 2018-01-12 2018-07-27 中国平安人寿保险股份有限公司 一种保险风险评估方法、装置、终端设备及存储介质
US20200099708A1 (en) * 2018-09-21 2020-03-26 Mcafee, Llc Methods, systems, and media for detecting anomalous network activity
CN109698823A (zh) * 2018-11-29 2019-04-30 广东电网有限责任公司信息中心 一种网络威胁发现方法
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN110647900A (zh) * 2019-04-12 2020-01-03 中国人民解放军战略支援部队信息工程大学 基于深度神经网络的安全态势智能预测方法、装置及系统
CN110460605A (zh) * 2019-08-16 2019-11-15 南京邮电大学 一种基于自动编码的异常网络流量检测方法
CN111031051A (zh) * 2019-12-17 2020-04-17 清华大学 一种网络流量异常检测方法及装置、介质
CN111294341A (zh) * 2020-01-17 2020-06-16 成都信息工程大学 基于自编码器和递归神经网络的车载系统入侵检测方法
CN111277603A (zh) * 2020-02-03 2020-06-12 杭州迪普科技股份有限公司 无监督异常检测系统和方法
CN111310819A (zh) * 2020-02-11 2020-06-19 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及可读存储介质
CN110990837A (zh) * 2020-02-29 2020-04-10 网御安全技术(深圳)有限公司 系统调用行为序列降维方法、系统、设备和存储介质
CN111464359A (zh) * 2020-04-03 2020-07-28 杭州迪普科技股份有限公司 异常流量告警决策系统及方法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统
CN112367338A (zh) * 2020-11-27 2021-02-12 腾讯科技(深圳)有限公司 恶意请求检测方法及装置
CN112434298A (zh) * 2021-01-26 2021-03-02 浙江大学 一种基于自编码器集成的网络威胁检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘鹏睿等: "针对恶意JavaScript识别的降维方法", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114567474A (zh) * 2022-02-23 2022-05-31 西安烽火软件科技有限公司 一种针对http数据基于无监督深度自编码网络的未知威胁检测方法及系统

Also Published As

Publication number Publication date
CN113179250B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN109413028B (zh) 基于卷积神经网络算法的sql注入检测方法
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN109547423B (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN110580292A (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN108319672B (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN112541476A (zh) 一种基于语义特征提取的恶意网页识别方法
CN113360912A (zh) 恶意软件检测方法、装置、设备及存储介质
CN112989358A (zh) 提高基于深度学习的源代码漏洞检测健壮性的方法及装置
CN116150509B (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
CN113179250B (zh) web未知威胁检测方法及系统
CN115238799A (zh) 基于ai随机森林恶意流量检测方法和系统
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN110705282A (zh) 关键词提取方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant