CN108833409A - 基于深度学习和半监督学习的webshell检测方法及装置 - Google Patents

基于深度学习和半监督学习的webshell检测方法及装置 Download PDF

Info

Publication number
CN108833409A
CN108833409A CN201810623283.3A CN201810623283A CN108833409A CN 108833409 A CN108833409 A CN 108833409A CN 201810623283 A CN201810623283 A CN 201810623283A CN 108833409 A CN108833409 A CN 108833409A
Authority
CN
China
Prior art keywords
sample
training
feature words
learning
webshell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810623283.3A
Other languages
English (en)
Other versions
CN108833409B (zh
Inventor
吴斌
赵力
朱和稳
韩传富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangsikeping Technology Co Ltd
Original Assignee
Beijing Wangsikeping Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangsikeping Technology Co Ltd filed Critical Beijing Wangsikeping Technology Co Ltd
Priority to CN201810623283.3A priority Critical patent/CN108833409B/zh
Publication of CN108833409A publication Critical patent/CN108833409A/zh
Application granted granted Critical
Publication of CN108833409B publication Critical patent/CN108833409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于深度学习和半监督学习的webshell检测方法及装置,获取原始的训练样本,选取有标记样本进行分词处理,通过卡方检验分析特征词与标签之间的相关性,选择相关性最强的前K个特征词作为筛选特征词;采用筛选特征词对未标记样本进行特征词筛选,作为未标记样本特征;对获取的未标记样本特征使用神经网络算法训练,获得各个未标记样本的文本向量;使用无监督方法训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;对于新的标记样本,运用在线学习方式增量训练SVDD模型,修正单分类SVDD模型;将最新模型用于新样本的预测。本发明能够有效改善传统webshell检测的漏报率和误报率。

Description

基于深度学习和半监督学习的webshell检测方法及装置
技术领域
本发明涉及webshell检测技术领域,具体涉及一种基于深度学习和半监督学习的webshell检测方法及装置。
背景技术
随着互联网的发展,基于B/S架构的Web应用迅速普及,包括应用在政府、银行、运营商、电商,以及各大门户网站。由于不同的Web系统研发人员水平差异,在设计过程中难免对安全问题欠缺考虑,造成Web安全问题频发。常见的安全威胁有:SQL注入漏洞、上传文件漏洞、提交表单漏洞、跨站脚本攻击等。入侵者在获得Web系统漏洞后,会通过上传Webshell来获得Web服务器的操作权限。对于入侵者来说,Webshell就是一个后门程序,通常是ASP、PHP、JSP等网页脚本,入侵实施后,首先在网页服务器的Web目录下面放置脚本文件,然后可以通过Web页面对网站服务器进行控制。由于Webshell操作不会在系统安全日志中留下记录,并且与正常网页文件混在一起,一般管理员很难看出入侵痕迹。
在Web安全检测领域,由于缺少样本,很难建立精准的监督学习模型,而无监督学习会造成误报率高的问题,需要大量的安全工程师分析过滤机器学习的警告,分析结果存在人工误差。由于Web攻击方式多变,传统的预测方式难以应对复杂的真实环境。在机器学习领域,学者公认“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。
公知的,卡方检验是一种常见的特征选择方法,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,偏差越大;卡方值越小,偏差越小;当两个值完全相等时,卡方值就为0,表明理论值完全符合实际值。其基本思想是根据样本数据推断总体的分布与期望分布是否有显著差异,或者推断两个分类变量是否相互独立。
公知的,深度学习是机器学习的重要分支,目前深度学习在图像、语音、自然语言等取得巨大突破。在文本分析领域,Word2vec和Doc2vec是深度学习的重要研究成果,Doc2vec与Word2vec相似,只是在Word2vec基于词的语义分析基础上,添加基于上下文的语义分析能力。Doc2vec是将词表征为实数值向量的一种高效的算法模型,利用深度学习的思想,构建两层神经网络,即输入层-隐藏层-输出层,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算。
公知的,传统的机器学习通常分为有监督学习和无监督学习。有监督学习是通过训练有标记的样本,尽可能正确的对训练集之外的未标记样本进行预测;无监督学习是通过训练无标记的样本,以发现未标记样本之间的内部特征。半监督学习是介于有监督学习和无监督学习之间的机器学习方式,同时运用标记样本和无标记样本,训练机器学习模型。在实际应用中,有标记的webshell样本数量极少,人为手动标记代价大,少量有标记的webshell样本极其珍贵,而webshell样本中未标记的样本大量存在。
公知的,SVDD(Support Vector Domain Description)即支持向量数据描述,是由Tax和David提出并发展起来的一种单值分类算法,标准的SVDD模型属于无监督学习,把要描述的对象作为一个整体,建立一个封闭而紧凑的超球体,使得描述对象全部或尽可能多的包在这个球体内。
发明内容
本发明的目的在于提供一种基于深度学习和半监督学习的webshell检测方法及装置,先使用卡方检验和深度学习方法获取样本的文本向量,然后分别使用单分类和增量学习方式进行训练,提高分类性能。使用公开数据集进行训练和测试,实验结果证实该方法能够有效改善webshell检测的漏报率和误报率。
为实现上述目的,本发明的技术方案为:基于深度学习和半监督学习的webshell检测方法,所述检测方法包括以下步骤:
步骤一:获取包含有标记和无标记的样本,选取有标记样本进行分词处理,并通过卡方检验分析特征词与标签之间的相关性,选择相关性最大的前K个特征词作为筛选特征词;
步骤二:采用筛选特征词对未标记样本进行特征词筛选,作为未标记样本特征;
步骤三:对获取的未标记样本特征使用神经网络算法Doc2vec训练,获得各个未标记样本的文本向量;
步骤四:对未标记样本的文本向量使用无监督学习方法训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
步骤五:对于新的标记样本,运用在线学习方式增量训练SVDD模型,修正单分类SVDD模型;
步骤六:使用经过修正的单分类SVDD模型,对新样本进行预测。
如上所述的基于深度学习和半监督学习的webshell检测方法,所述步骤一中,收集webshell样本和正常样本,使用卡方检验剔除与区分是不是webshell攻击相关性较小的词。
如上所述的基于深度学习和半监督学习的webshell检测方法,所述步骤一中,选取有标记样本作为卡方检验样本,卡方检验样本包括有标记的正常数据和webshell数据。
如上所述的基于深度学习和半监督学习的webshell检测方法,所述步骤二中,未标记样本作为初始训练集,包含大量的正常样本,可能存在少量webshell样本,所述筛选特征词是通过卡方检验选择的与标签相关性高的特征词,再次使用卡方检验获取的筛选特征词过滤初始训练集,所述步骤三中,使用神经网络算法Doc2vec训练过滤后的样本,获取训练样本的文本向量。
如上所述的基于深度学习和半监督学习的webshell检测方法,所述步骤四中,在无监督学习阶段,使用初始训练集W0的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练得到SVDD模型M2,使用漏报率和误报率验证模型分类效果。
本发明还提供一种基于深度学习和半监督学习的webshell检测装置,所述检测装置包括:
训练样本获取模块,用于获取原始的训练样本;
相关性检测模块,用于通过卡方检验分析特征词与标签之间的相关性;
特征词筛选模块,用于选择若干个相关性高的特征词作为筛选特征词;
样本筛选模块,用于采用筛选特征词对样本进行特征词筛选,获得样本特征;
训练模块,用于对获取的未标记样本特征使用神经网络算法训练,获得各个未标记样本的文本向量;
SVDD模块,用于训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
增量学习模块,用于对于新的标记样本,运用在线学习方式增量训练SVDD模型。
预测模块,用于对新样本的预测,判断是否是webshell。
如上所述的基于深度学习和半监督学习的webshell检测装置,所述训练样本获取模块在Github上下载webshell脚本文件和正常脚本文件获取原始的训练样本。
如上所述的基于深度学习和半监督学习的webshell检测装置,特征词筛选模块通过卡方检验获取与标签相关性高的特征词,使用卡方检验获取的筛选特征词过滤初始训练集。
如上所述的基于深度学习和半监督学习的webshell检测装置,使用初始训练集W0的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练SVDD模型M2
本发明具有如下优点:本发明提出的基于深度学习和半监督学习webshell检测技术方案,在webshell检测中,改善了系统的性能,有效降低了漏报率和误报率,并在增量学习框架下,通过不断学习新增有标记样本,能够持续优化系统。本发明使用文本向量的方式获得样本特征,能够更好地表示样本,降低漏报率和误报率。
附图说明
图1为基于深度学习和半监督学习的webshell检测方法示意图;
图2为基于深度学习和半监督学习的webshell检测模型训练流程图;
图3为实施例中基于深度学习和半监督学习的webshell检测方法数据分布表;
图4为实施例中基于深度学习和半监督学习的webshell检测方法中卡方检验特征表;
图5为实施例中基于深度学习和半监督学习的webshell检测方法结果验证表;
图6为基于深度学习和半监督学习的webshell检测装置示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1和图2,基于深度学习和半监督学习的webshell检测方法,所述检测方法包括以下步骤:
S1:获取包含有标记和无标记的样本,选取有标记样本进行分词处理,并通过卡方检验分析特征词与标签之间的相关性,选择相关性最大的前K个特征词作为筛选特征词;
S2:采用筛选特征词对未标记样本进行特征词筛选,作为未标记样本特征;
S3:对获取的未标记样本特征使用神经网络算法Doc2vec训练,获得各个未标记样本的文本向量;
S4:对未标记样本的文本向量使用无监督学习方法训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
S5:对于新的标记样本,运用在线学习方式增量训练SVDD模型,修正单分类SVDD模型;
S6:使用经过修正的单分类SVDD模型,对新样本进行预测。
基于深度学习和半监督学习的webshell检测方法一个实施例中,所述S1中,收集webshell样本和正常样本,使用卡方检验剔除与区分是不是webshell攻击相关性较小的词。所述S1中,选取有标记样本作为卡方检验样本,卡方检验样本包括有标记的正常数据和webshell数据。
基于深度学习和半监督学习的webshell检测方法一个实施例,所述S2中,未标记样本中包含大量的正常样本,可能存在少量webshell样本,所述筛选特征词是通过卡方检验选择的与标签相关性高的特征词,再次使用卡方检验获取的筛选特征词过滤初始训练集,所述步骤三中,使用神经网络算法Doc2vec训练过滤后的样本,获取训练样本的文本向量。
基于深度学习和半监督学习的webshell检测方法一个实施例,所述S4中,所述步骤四中,在无监督学习阶段,使用初始训练集W0的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练得到SVDD模型M2,使用漏报率和误报率验证模型分类效果。
假设训练数据集为SVDD优化目标是在T中,找到最小半径R,最优超球体的求解可以转化为优化问题:
s.t.||Φ(xi)-a||2≤R2+ξi
其中,R为待求的超球体的半径,C为自定义常数,ξi为惩罚项,a为超球体的球心。
训练结束后,需要判断新的数据点z是否属于这个类,即:
(z-a)T(z-a)≤R2
本实施例中运用深度学习和半监督学习相关算法,对于有标签样本集{(X1,Y1),(X2,Y2),…,(Xn,Yn)},其中为对应样本的标记向量,无标记样本(Z1,Z2,Z3...Zm),进行webshell建模分析。为了验证基于深度学习和半监督学习的webshell算法检测性能,使用Github中数据进行实验,数据样本分布情况如图3所示,为了获得高质量的特征集,在所有的数据集合中,选取有标记样本进行卡方检验,其中选取增量训练集W1中50份样本,增量训练集W2中50份样本,正常测试集W3中50份样本,Webshell样本集W4中50份样本,组合成200份有标记卡方检验样本。经过卡方检验之后,选取前500个特征作为样本的重要特征,其中前8个特征结果如图4所示。
通过卡方检验选择的特征是与标签相关性较高的特征词。一般可以设原假设为H0:观察频数与期望频数没有差异,或者两个变量相互独立不相关。实际应用中,我们先假设H0成立,计算出χ2值。根据χ2分布,χ2统计量以及自由度,可以确定在H0成立的情况下获得当前统计量以及更极端情况的概率P。如果P很小,说明观察值与理论值的偏离程度大,应该拒绝原假设。否则不能拒绝原假设。
χ2的计算公式为:
其中,A为实际值,T为理论值。
为简化样本复杂程度,需要进一步使用卡方检验获取的前500个特征值,过滤初始训练集W0。然后使用神经网络,训练过滤后的样本,获取训练样本的文本向量,即Doc2vec。其中最终获得文本向量示例如下:
X1=[-2.08397750e-02,-4.90234122e-02,-2.03357283e-02,-7.65093416e-02,…]
X2=[0.340425997972,-0.0160844456404,-0.757030189037,0.497053474188,…]
X3=[0.256792724133,0.113478787243,-0.708586812019,0.289009481668,…]
在有少量有标记样本和大量无标记样本情况下,半监督学习既能够充分利用两种类型的样本,又能够提高训练结果。在无监督学习阶段,本发明使用初始训练集W0获得的文本向量,训练单分类SVDD模型M0。在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练SVDD模型M2。对于每个模型,均使用正常测试集W3和webshell样本集W4样本混合测试。对于本发明的webshell检测方法,使用漏报率和误报率来验证模型分类效果,测试结果如图5所示。
从实验结果可以看出,对于相同的W3+W4测试样本,使用增量训练的SVDD模型在漏报率和误报率上的表现均优于单分类SVDD模型,并且使用增量样本修正的次数越多,模型的效果越好。说明基于深度学习和半监督学习方法在webshell检测中的优越性,充分利用少量有标记样本,使用在线学习方法,增量训练SVDD模型,不断优化最终模型,降低检测的漏报率和误报率。
参见图6,本发明还提供一种基于深度学习和半监督学习的webshell检测装置,所述检测装置包括:
训练样本获取模块1,用于获取原始的训练样本;
相关性检测模块2,用于通过卡方检验分析特征词与标签之间的相关性;
特征词筛选模块3,用于选择若干个相关性高的特征词作为筛选特征词;
样本筛选模块4,用于采用筛选特征词对样本进行特征词筛选,获得样本特征;
训练模块5,用于对获取的未标记样本特征使用神经网络算法训练,获得各个未标记样本的文本向量;
SVDD模块6,用于训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
增量学习模块7,用于对于新的标记样本,运用在线学习方式增量训练SVDD模型;
预测模块8,用于对新样本的预测,判断是否是webshell。
基于深度学习和半监督学习的webshell检测装置的一个实施例中,所述训练样本获取模块1从公开数据集获取训练样本。
基于深度学习和半监督学习的webshell检测装置的一个实施例中,特征词筛选模块3通过卡方检验获取与标签相关性高的特征词,使用卡方检验获取的筛选特征词过滤初始训练集。
基于深度学习和半监督学习的webshell检测装置的一个实施例中,训练模块在无监督学习阶段,使用初始训练集W0获得的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练SVDD模型M2
本发明提出的基于深度学习和半监督学习webshell检测技术方案,先使用卡方检验和深度学习方法获取样本的文本向量,然后分别使用单分类和增量学习方式训练,提高分类性能。使用公开数据集进行训练和测试,实验结果验证该方法能够有效改善webshell检测的漏报率和误报率。在webshell检测中,改善了系统的性能,有效降低了漏报率和误报率,并在增量学习框架下,通过不断学习新增标记样本,能够持续优化系统。本发明使用文本向量的方式获得样本特征,能够更好地表示文本,提高漏报率和误报率。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.基于深度学习和半监督学习的webshell检测方法,其特征在于:所述检测方法包括以下步骤:
步骤一:获取包含有标记和无标记的样本,选取有标记样本进行分词处理,并通过卡方检验分析特征词与标签之间的相关性,选择相关性最大的前K个特征词作为筛选特征词;
步骤二:采用筛选特征词对未标记样本进行特征词筛选,作为未标记样本特征;
步骤三:对获取的未标记样本特征使用神经网络算法Doc2vec训练,获得各个未标记样本的文本向量;
步骤四:对未标记样本的文本向量使用无监督学习方法训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
步骤五:对于新的标记样本,运用在线学习方式增量训练SVDD模型,修正单分类SVDD模型;
步骤六:使用经过修正的单分类SVDD模型,对新样本进行预测。
2.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法,其特征在于:所述步骤一中,收集webshell样本和正常样本,使用卡方检验剔除与区分是不是webshell攻击相关性较小的词。
3.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法,其特征在于:所述步骤一中,选取有标记样本作为卡方检验样本,卡方检验样本包括有标记的正常数据和webshell数据。
4.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法,其特征在于:所述步骤二中,未标记样本作为初始训练集,包含大量的正常样本,可能存在少量webshell样本,所述筛选特征词是通过卡方检验选择的与标签相关性高的特征词,再次使用卡方检验获取的筛选特征词过滤初始训练集,所述步骤三中,使用神经网络算法Doc2vec训练过滤后的样本,获取训练样本的文本向量。
5.根据权利要求1所述的基于深度学习和半监督学习的webshell检测方法,其特征在于:所述步骤四中,在无监督学习阶段,使用初始训练集W0的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1训练增量SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练得到SVDD模型M2,使用漏报率和误报率验证模型M2分类效果。
6.基于深度学习和半监督学习的webshell检测装置,其特征在于:所述检测装置包括:
训练样本获取模块,用于获取原始的训练样本;
相关性检测模块,用于通过卡方检验分析特征词与标签之间的相关性;
特征词筛选模块,用于选择若干个相关性高的特征词作为筛选特征词;
样本筛选模块,用于采用筛选特征词对样本进行特征词筛选,获得样本特征;
训练模块,用于对获取的未标记样本特征使用神经网络算法Doc2vec训练,获得各个未标记样本的文本向量;
SVDD模块,用于训练单分类SVDD模型,优化超球面半径最小化,最大情况包含未标记样本;
增量学习模块,用于对于新的标记样本,运用在线学习方式增量训练SVDD模型;
预测模块,用于对新样本的预测,判断是否是webshell。
7.根据权利要求6所述的基于深度学习和半监督学习的webshell检测装置,其特征在于:所述训练样本获取模块在Github上下载webshell脚本文件和正常脚本文件获取原始训练样本
8.根据权利要求6所述的基于深度学习和半监督学习的webshell检测装置,其特征在于:特征词筛选模块通过卡方检验获取与标签相关性高的特征词,使用卡方检验获取的筛选特征词过滤初始训练集。
9.根据权利要求6所述的基于深度学习和半监督学习的webshell检测装置,其特征在于:使用初始训练集W0的文本向量,训练单分类SVDD模型M0;在有监督学习阶段,首先在单分类SVDD模型M0的基础上,使用增量训练集W1增量训练SVDD模型M1;然后在增量SVDD模型M1的基础上,使用增量训练集W2增量训练SVDD模型M2
CN201810623283.3A 2018-06-15 2018-06-15 基于深度学习和半监督学习的webshell检测方法及装置 Active CN108833409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810623283.3A CN108833409B (zh) 2018-06-15 2018-06-15 基于深度学习和半监督学习的webshell检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810623283.3A CN108833409B (zh) 2018-06-15 2018-06-15 基于深度学习和半监督学习的webshell检测方法及装置

Publications (2)

Publication Number Publication Date
CN108833409A true CN108833409A (zh) 2018-11-16
CN108833409B CN108833409B (zh) 2021-03-16

Family

ID=64142245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810623283.3A Active CN108833409B (zh) 2018-06-15 2018-06-15 基于深度学习和半监督学习的webshell检测方法及装置

Country Status (1)

Country Link
CN (1) CN108833409B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979546A (zh) * 2019-04-04 2019-07-05 成都大学 基于人工智能数字病理的网络模型分析平台及构建方法
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111191238A (zh) * 2019-12-30 2020-05-22 厦门服云信息科技有限公司 一种webshell检测方法、终端设备及存储介质
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质
CN111353039A (zh) * 2018-12-05 2020-06-30 北京京东尚科信息技术有限公司 文件类别检测方法和装置
CN111880986A (zh) * 2020-07-03 2020-11-03 亚信科技(成都)有限公司 一种数据检测方法及装置
CN112464245A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种面向深度学习图像分类模型的泛化的安全性评估方法
CN112926442A (zh) * 2021-02-24 2021-06-08 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN113420705A (zh) * 2021-07-02 2021-09-21 中国船舶重工集团公司第七二四研究所 一种基于双向嵌入特征的半监督信号分析方法
CN113591915A (zh) * 2021-06-29 2021-11-02 中国电子科技集团公司第三十研究所 基于半监督学习和单分类支持向量机的异常流量识别方法
CN113728336A (zh) * 2019-06-26 2021-11-30 赫尔实验室有限公司 对卷积神经网络中的后门攻击进行检测的系统和方法
WO2023011470A1 (zh) * 2021-08-05 2023-02-09 上海高德威智能交通系统有限公司 一种机器学习系统及模型训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
WO2018081751A1 (en) * 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980480A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 半监督异常入侵检测方法
WO2018081751A1 (en) * 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘敬: "基于单分类支持向量机和主动学习的网络异常检测研究", 《通信学报》 *
张思琪: "基于改进贝叶斯分类的Android恶意软件检测", 《无线电通信技术》 *
潘博: "Doc2vec在薪水预测中的应用研究", 《计算机应用研究》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353039A (zh) * 2018-12-05 2020-06-30 北京京东尚科信息技术有限公司 文件类别检测方法和装置
CN111353039B (zh) * 2018-12-05 2024-05-17 北京京东尚科信息技术有限公司 文件类别检测方法和装置
CN109979546A (zh) * 2019-04-04 2019-07-05 成都大学 基于人工智能数字病理的网络模型分析平台及构建方法
CN113728336A (zh) * 2019-06-26 2021-11-30 赫尔实验室有限公司 对卷积神经网络中的后门攻击进行检测的系统和方法
CN113728336B (zh) * 2019-06-26 2024-04-05 赫尔实验室有限公司 对卷积神经网络中的后门攻击进行检测的系统和方法
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111191238A (zh) * 2019-12-30 2020-05-22 厦门服云信息科技有限公司 一种webshell检测方法、终端设备及存储介质
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质
CN111880986A (zh) * 2020-07-03 2020-11-03 亚信科技(成都)有限公司 一种数据检测方法及装置
CN112464245A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种面向深度学习图像分类模型的泛化的安全性评估方法
CN112464245B (zh) * 2020-11-26 2022-05-03 重庆邮电大学 一种面向深度学习图像分类模型的泛化的安全性评估方法
CN112926442A (zh) * 2021-02-24 2021-06-08 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN112926442B (zh) * 2021-02-24 2024-03-29 杭州电子科技大学 一种图像目标数据集均衡完备的构建方法
CN113591915A (zh) * 2021-06-29 2021-11-02 中国电子科技集团公司第三十研究所 基于半监督学习和单分类支持向量机的异常流量识别方法
CN113591915B (zh) * 2021-06-29 2023-05-19 中国电子科技集团公司第三十研究所 基于半监督学习和单分类支持向量机的异常流量识别方法
CN113420705A (zh) * 2021-07-02 2021-09-21 中国船舶重工集团公司第七二四研究所 一种基于双向嵌入特征的半监督信号分析方法
WO2023011470A1 (zh) * 2021-08-05 2023-02-09 上海高德威智能交通系统有限公司 一种机器学习系统及模型训练方法

Also Published As

Publication number Publication date
CN108833409B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN108833409A (zh) 基于深度学习和半监督学习的webshell检测方法及装置
Pang et al. Predicting vulnerable software components through deep neural network
CN108566364B (zh) 一种基于神经网络的入侵检测方法
Romero et al. Improving the taxonomy of fossil pollen using convolutional neural networks and superresolution microscopy
Alam et al. Deep learning benchmarks and datasets for social media image classification for disaster response
CN108667816A (zh) 一种网络异常的检测定位方法及系统
CN108848068A (zh) 基于深度信念网络-支持向量数据描述的apt攻击检测方法
CN110132598A (zh) 旋转设备滚动轴承故障噪声诊断算法
CN108459955A (zh) 基于深度自编码网络的软件缺陷预测方法
CN108537259A (zh) 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法
CN106570109A (zh) 一种通过文本分析自动生成题库知识点的方法
Angelin et al. Outlier Detection using Clustering Techniques–K-means and K-median
García-Borroto et al. Evaluation of quality measures for contrast patterns by using unseen objects
Kistijantoro Vitality based feature selection for intrusion detection
Nagaraj et al. University Recommender System based on Student Profile using Feature Weighted Algorithm and KNN
CN109816030A (zh) 一种基于受限玻尔兹曼机的图像分类方法及装置
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
Alam et al. Social media images classification models for real-time disaster response
Zerhoudi et al. Improving intrusion detection systems using zero-shot recognition via graph embeddings
CN110324178A (zh) 一种基于多经验核学习的网络入侵检测方法
Kaikhah et al. Discovering trends in large datasets using neural networks
Liang et al. Accurate image recognition of plant diseases based on multiple classifiers integration
CN106844338A (zh) 基于属性间依赖关系的网络表格的实体列的检测方法
CN116680633A (zh) 基于多任务学习的异常用户检测方法、系统及存储介质
Dawoud et al. A global measure for estimating the degree of organization of terrorist networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant