CN110162973B - 一种Webshell文件检测方法及装置 - Google Patents

一种Webshell文件检测方法及装置 Download PDF

Info

Publication number
CN110162973B
CN110162973B CN201910440465.1A CN201910440465A CN110162973B CN 110162973 B CN110162973 B CN 110162973B CN 201910440465 A CN201910440465 A CN 201910440465A CN 110162973 B CN110162973 B CN 110162973B
Authority
CN
China
Prior art keywords
file
detected
hash value
preset
webshell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910440465.1A
Other languages
English (en)
Other versions
CN110162973A (zh
Inventor
任方英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN201910440465.1A priority Critical patent/CN110162973B/zh
Publication of CN110162973A publication Critical patent/CN110162973A/zh
Application granted granted Critical
Publication of CN110162973B publication Critical patent/CN110162973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种Webshell文件检测方法及装置,包括:获取待检测文件;计算待检测文件的哈希值,作为目标哈希值;检测预设哈希值库中是否存储有目标哈希值,预设哈希值库中存储有Webshell文件的哈希值;若未存储目标哈希值,则按照预设检测方式,检测待检测文件是否为Webshell文件;若存储有目标哈希值,则确定待检测文件为Webshell文件。应用本申请实施例提供的技术方案,降低了WebShell文件检测中耗费的人工成本。

Description

一种Webshell文件检测方法及装置
技术领域
本申请涉及网络安全技术领域,特别是涉及一种Webshell文件检测方法及装置。
背景技术
随着计算机与网络的普及,各种Web(网络)应用层出不穷,Web安全漏洞也与日俱增,攻击者通过Web漏洞上传WebShell文件对网站服务器进行攻击的形势也日益严峻。为了提高网络安全性,这就要求网站管理员能及时、快速、准确的检测网站服务器是否被上传了WebShell文件。
目前,主要采用特征库的方式识别WebShell文件。具体的,检测设备获取大量的WebShell文件,从WebShell文件中提取特征码,将提取到的大量WebShell文件的特征码添加至特征库中。当一个文件的特征码与特征库中的特征码,检测设备可确定该文件为WebShell文件。
针对已知的海量的WebShell文件,为识别出每一WebShell文件,特征库中包括的特征码将非常多,维护困难,人工成本高。
发明内容
本申请实施例的目的在于提供一种Webshell文件检测方法及装置,以降低WebShell文件检测中耗费的人工成本。具体技术方案如下:
第一方面,本申请实施例提供了一种Webshell文件检测方法,所述方法包括:
获取待检测文件;
计算所述待检测文件的哈希值,作为目标哈希值;
检测预设哈希值库中是否存储有所述目标哈希值,所述预设哈希值库中存储有Webshell文件的哈希值;
若未存储所述目标哈希值,则按照预设检测方式,检测所述待检测文件是否为Webshell文件;
若存储有所述目标哈希值,则确定所述待检测文件为Webshell文件。
第二方面,本申请实施例提供了一种Webshell文件检测装置,所述方法包括:
获取单元,用于获取待检测文件;
检测单元,用于计算所述待检测文件的哈希值,作为目标哈希值;检测预设哈希值库中是否存储有所述目标哈希值,所述预设哈希值库中存储有Webshell文件的哈希值;
处理单元,用于若未存储所述目标哈希值,则按照预设检测方式,检测所述待检测文件是否为Webshell文件;若存储有所述目标哈希值,则确定所述待检测文件为Webshell文件。
第三方面,本申请实施例提供了一种网络设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述Webshell文件检测方法的任一步骤。
第四方面,本申请实施例提供了一种机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述Webshell文件检测方法的任一步骤。
本申请实施例提供的一种Webshell文件检测方法及装置,可基于待检测文件的哈希值和预设哈希值库,判断待检测文件是否为Webshell文件。可见,本申请实施例提供的技术方案中,只需要维护预设哈希值库中存储的Webshell文件的哈希值,哈希值作为静态指标,相对于动态指标的特征码,维持简单,降低了WebShell文件检测中耗费的人工成本。
当然,实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的Webshell文件检测方法的第一种流程示意图;
图2为本申请实施例提供的Webshell文件检测方法的第二种流程示意图
图3为本申请实施例提供的Webshell文件检测方法的第三种流程示意图;
图4为本申请实施例提供的机器学习模型训练的一种流程示意图;
图5为本申请实施例提供的Webshell文件检测方法的第四种流程示意图;
图6为本申请实施例提供的Webshell文件检测方法的第五种流程示意图;
图7为本申请实施例提供的Webshell文件检测装置的一种结构示意图;
图8为本申请实施例提供的Webshell文件检测装置中检测单元的一种结构示意图;
图9为本申请实施例提供的网络设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解,下面对本申请实施例中出现的词语进行解释说明。
WebShell文件,是一种以asp、php、jsp或者cgi等动态网页文件形式存在的命令执行环境,也可以将WebShell文件称做为一种网页后门。
OpCode(Operate Code,操作码),是一种由解释器对脚本代码的分析后,生成的可以被脚本执行器直接运行的中间代码。
信息熵,是指离散随机事件的出现概率。一般把信息熵理解成某种特定信息的出现概率。
压缩率,是指文件压缩后的大小与压缩前的大小之比。
重合指数,是数学计算用的函数的一种,用于计算文本中相同字母的概率。
最长单词长度,是指数据中由指定边界字符集合分割文本后,集合中字符个数的最大值。
目前,针对已知的海量的WebShell文件,为识别出每一WebShell文件,用于识别WebShell文件的特征库中包括的特征码会非常多,维护困难,人工成本高。
为降低WebShell文件检测中耗费的人工成本,本申请实施例提供的一种Webshell文件检测方法。该方法可以应用于防火墙设备、路由器、交换机等电子设备。该方法中,基于待检测文件的哈希值,判断待检测文件是否为Webshell文件。可见,本申请实施例提供的技术方案中,只需要维护预设哈希值库中存储的Webshell文件的哈希值,哈希值作为静态指标,相对于动态指标的特征码,维持简单,降低了WebShell文件检测中耗费的人工成本。
下面通过具体实施例,对本申请实施例提供的Webshell文件检测方法进行详细说明。为便于理解,下面以检测设备为执行主体进行说明。
参考图1,图1为本申请实施例提供的Webshell文件检测方法的第一种流程示意图。该方法包括如下步骤。
步骤101,获取待检测文件。
本申请实施例中,检测设备可以从网络报文中剥离得到待检测文件。检测设备也可以接收用户手动上传的文件,作为待检测文件。检测设备还可以通过部署在终端的代理软件收集文件,作为待检测文件。本申请实施例对获取待检测文件的方式不做具体限定。
步骤102,计算待检测文件的hash值,作为目标hash值。
检测设备获取到待检测文件后,计算待检测文件的hash值,作为目标hash值。
在一个可选的实施例中,检测设备获取到待检测文件后,移除待检测文件中的无效字符。其中,无效字符包括空白、注释等。检测设备计算移除无效字符后的待检测文件的哈希值,作为目标哈希值。这样,降低了无效字符对哈希值计算的影响,提高了后续Webshell文件检测的准确性。
步骤103,检测预设hash值库中是否存储有目标hash值。若存储有目标hash值,则执行步骤104。若未存储目标hash值,则执行步骤105。其中,预设hash值库中存储有Webshell文件的hash值。
步骤104,确定待检测文件为Webshell文件。
检测设备若检测到目标hash值存储在预设hash值库中,则可确定待检测文件为Webshell文件。
hash值为静态指标,一个文件具有一个hash值,一个hash值对应多个文件。特征码为动态指标,一个文件中会包括多个特征码,不同文件包括的特征码不同。
本申请实施例提供的技术方案中,只需要维护预设hash值库中存储的Webshell文件的hash值,hash值作为静态指标,相对于动态指标的特征码,维持简单,降低了WebShell文件检测中耗费的人工成本。
步骤105,按照预设检测方式,检测待检测文件是否为Webshell文件。
本申请实施例中,预设检测方式可以为基于特征库,检测待检测文件是否为Webshell文件。预设检测方式也可以为基于待检测文件的参数值、中间代码或调用的函数等信息检测待检测文件是否为Webshell文件。本申请实施例对此不进行限定。
另一个可选的实施例中,为提高Webshell文件检测的准确性,本申请实施例提供了一种Webshell文件检测方法。参考图2,图2为本申请实施例提供的Webshell文件检测方法的第二种流程示意图。该方法可以包括如下步骤。
步骤201,获取待检测文件。
步骤202,计算待检测文件的hash值,作为目标hash值。
步骤203,检测预设hash值库中是否存储有目标hash值。若存储有目标hash值,则执行步骤204。若未存储目标hash值,则执行步骤205。其中,预设hash值库中存储有Webshell文件的hash值。
步骤204,确定待检测文件为Webshell文件。
上述步骤201-204与步骤101-104相同。
步骤205,提取待检测文件中至少一种预设种类参数的待检测参数值。
本申请实施例中,预设种类参数可以包括信息熵、重合指数、压缩率和最长单词长度中的一种或多种。
检测设备从待检测文件中提取每一种预设种类参数的值,作为待检测参数值。例如,预设种类参数包括信息熵、重合指数、压缩率和最长单词长度。检测设备从待检测文件中提取信息熵的值,重合指数的值,压缩率的值,以及最长单词长度的值。
步骤206,根据提取的待检测参数值和每一种预设种类参数的权重,确定待检测文件的判定参数值。
一个实施例中,预设种类参数包括信息熵、重合指数、压缩率和最长单词长度。其中,信息熵的权重为x,重合指数的权重为y,压缩率的权重为m,最长单词长度的权重为n。检测设备获取到信息熵的值为E,重合指数的值为I,压缩率的值为C,最长单词长度的值为L。检测设备可确定待检测文件的判定参数值T=x*E+y*I+m*C+n*L。
步骤207,检测判定参数值是否大于预设判定阈值。若大于预设判定阈值,则执行步骤208。
本申请实施例中,预设判定阈值可以根据实际需求进行设定。例如,实际中,Webshell文件的判定参数值大于等于50,则可确定预设判定阈值为50。
步骤208,确定待检测文件为Webshell文件,并将目标hash值存储至预设hash值库。
本申请实施例中,若检测到待检测文件的判定参数值大于预设判定阈值,检测设备可确定待检测文件符合Webshell文件的特征,确定待检测文件为Webshell文件。另外,为便于后续Webshell文件的检测,检测设备在确定待检测文件为Webshell文件后,将待检测文件的目标hash值存储至预设hash值库。
一个可选的实施例中,若检测到待检测文件的判定参数值小于等于预设判定阈值,则检测设备可确定待检测文件不是Webshell文件。
本申请实施例提供的技术方案中,结合待检测文件的hash值,以及至少一种预设种类参数,检测Webshell文件,考虑了Webshell文件在多个方面的特点,提高了Webshell文件检测的准确性。
另一个可选的实施例中,为提高Webshell文件检测的准确性,本申请实施例提供了一种Webshell文件检测方法。参考图3,图3为本申请实施例提供的Webshell文件检测方法的第三种流程示意图。该方法可以包括如下步骤。
步骤301,获取待检测文件。
步骤302,计算待检测文件的hash值,作为目标hash值。
步骤303,检测预设hash值库中是否存储有目标hash值。若存储有目标hash值,则执行步骤304。若未存储目标hash值,则执行步骤305。其中,预设hash值库中存储有Webshell文件的hash值。
步骤304,确定待检测文件为Webshell文件。
上述步骤301-304与步骤101-104相同。
步骤305,抽取待检测文件的中间代码。
其中,中间代码即为OpCode。
步骤306,利用中间代码和预先训练好的机器学习模型,得到待检测文件为Webshell文件的可靠度,其中,机器学习模型为根据带有标签的多个样本文件训练得到的模型,标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签。
本申请实施例中,机器学习模型可以为Xgboost算法,神经网络模型等。其中,待检测文件为Webshell文件的可靠度,可理解为待检测文件为Webshell文件的概率。
步骤307,检测待检测文件为Webshell文件的可靠度是否大于等于预设可靠度阈值。若是,则执行步骤308。
步骤308,确定待检测文件为Webshell文件,并将目标hash值存储至预设hash值库。
检测设备若检测到待检测文件为Webshell文件的可靠度大于等于预设可靠度阈值,则可确定待检测文件为Webshell文件。另外,为便于后续Webshell文件的检测,检测设备在确定待检测文件为Webshell文件后,将待检测文件的目标hash值存储至预设hash值库。
一个可选的实施例中,若检测到待检测文件为Webshell文件的可靠度小于预设可靠度阈值,则检测设备可确定待检测文件不是Webshell文件。
本申请实施例提供的技术方案中,结合待检测文件的hash值,以及机器学习模型,检测Webshell文件,考虑了Webshell文件在多个方面的特点,提高了Webshell文件检测的准确性。
另外,无论Webshell文件做各种编码、混淆和加密等操作,最终Webshell文件均需要转换中间代码。本申请实施例提供的技术方案中,利用中间代码检测待检测文件是否为Webshell文件,解决了针对编码、混淆和加密等操作未知Webshell文件,特征码无法识别的方案。
一个可选的实施例中,机器学习模型为Xgboost算法。机器学习模型的训练过程如图4所示。机器学习模型的训练过程可以由检测设备实现,也可以有其他设备实现,本申请实施例对此不进行限定。为便于理解,下面以由检测设备实现机器学习模型的训练为例进行说明。
步骤401,获取带有标签的多个样本文件。
上述样本文件可以为用户预先设置在检测设备,也可以为检测设备通过网络爬手工具从网络中获取到的样本文件。
步骤402,抽取每一样本文件的中间代码。
步骤403,对于每一样本文件,统计该样本文件的每一中间代码的出现次数。
例如,一样本文件的中间代码包括a、b、c、d、a、d、d、b、b和b。检测设备统计得到中间代码a出现次数为2,中间代码b出现次数为4,中间代码c出现次数为1,中间代码d出现次数为3。
一个实施例中,对于每一样本文件,检测设备根据中间代码与数字的对应关系,将该样本文件的每一中间代码转换为对应的数字,统计该样本文件对应的每一数字的出现次数。
例如,一样本文件的中间代码包括a、b、c、d、a、d、d、b、b和b。其中,a对应1,b对应2,c对应3,d对应4。检测设备将样本文件的中间代码转换为1、2、3、4、1、4、4、2、2和2,进而统计得到中间代码a对应的数字1出现次数为2,中间代码b对应的数字2出现次数为4,中间代码c对应的数字3出现次数为1,中间代码d对应的数字4出现次数为3。
样本文件的中间代码中包括字母、数字、间隔符等多格式的字符。检测设备将这些中间代码通过同一格式的数字表示,便于中间代码的出现次数的统计。
步骤404,对于每一样本文件,根据该样本文件的每一中间代码的出现次数,统计该样本文件中每一中间代码的TF-IDF,得到该样本文件对应的TF-IDF向量。
一个示例中,对于每一样本文件中的每一中间代码,检测设备可以利用如下公式(1)、(2)和(3),确定该中间代码的TF-IDF。
TFw=Tw/T0 (1)
IDFw=log(F0/Fw) (2)
TF-IDFw=TFw*IDFw (3)
其中,w表示中间代码w,Tw表示中间代码w在该样本文件的中间代码w出现的次数,T0表示该样本文的中间代码的总个数,Fw表示包括中间代码w的样本文件的个数;F0表示获取的样本文件的总个数。
另一个示例中,为了提高文本词语的TF-IDF权重计算的防滑效果,上述公式(2)可以变形为公式(4)。
IDFw=log[F0/(Fw+1)] (4)
检测设备结合公式(1)、(4)和(3),确定该样本文件中每一中间代码的TF-IDF,得到该样本文件对应的TF-IDF向量。
例如,中间代码包括a、b、c和d。对于一样本文件,检测设备分别确定中间代码a的TF-IDF为0.4,中间代码b的TF-IDF为0.5,中间代码c的TF-IDF为0.7,中间代码d的TF-IDF为0.3。检测设备可确定该样本文件对应的TF-IDF向量为{0.4,0.5,0.7,0.3}。
步骤405,将每一样本文件对应的TF-IDF向量分别输入预设Xgboost算法,得到每一样本文件第一概率和第二概率,其中,第一概率为样本文件为Webshell文件的概率,第二概率为样本文件不是Webshell文件的概率。第一概率可以作为样本文件为Webshell文件的可靠度。
步骤406,基于每一样本文件的第一概率和第二概率,以及每一样本文件的标签,确定损失值。
一个实施例中,若第一概率大于第二概率,则检测设备确定该样本文件的检测结果为:该样本文件为Webshell文件。若第一概率小于等于第二概率,则检测设备确定该样本文件的检测结果为:该样本文件不是Webshell文件。基于每一样本文件的标签和检测结果,确定正确率或错误率。检测设备将正确率或错误率作为损失值。
步骤407,基于损失值,确定预设Xgboost算法是否收敛。若是,则执行步骤408。若否,则执行步骤409。
一个实施例中,损失值为正确率。此时若损失值大于第一预设阈值,则可确定预设Xgboost算法收敛。另一个实施例中,损失值为错误率。此时若损失值小于等于第二预设阈值,则可确定预设Xgboost算法收敛。上述第一预设阈值大于第二预设阈值。
步骤408,将当前的预设Xgboost算法,确定为机器学习模型。
步骤409,调整预设Xgboost算法的参数,重新执行步骤405。
基于训练好的机器学习模型,检测设备可将待检测文件的中间代码转换为待检测文件对应的TF-IDF向量,将该TF-IDF向量输入预先训练好的机器学习模型,得到待检测文件为Webshell文件的概率,即得到待检测文件为Webshell文件的可靠度。
另一个可选的实施例中,为提高Webshell文件检测的准确性,本申请实施例提供了一种Webshell文件检测方法。参考图5,图5为本申请实施例提供的Webshell文件检测方法的第三种流程示意图。该方法可以包括如下步骤。
步骤501,获取待检测文件。
步骤502,计算待检测文件的hash值,作为目标hash值。
步骤503,检测预设hash值库中是否存储有目标hash值。若存储有目标hash值,则执行步骤504。若未存储目标hash值,则执行步骤505。其中,预设hash值库中存储有Webshell文件的hash值。
步骤504,确定待检测文件为Webshell文件。
上述步骤501-504与步骤101-104相同。
步骤505,运行待检测文件,检测是否向预设敏感函数传入预设参数,预设参数为运行Webshell文件时向预设敏感函数传入的参数。若检测到向预设敏感函数传入预设参数,则执行步骤506。
本申请实施例中,预设敏感函数可以为运行Webshell文件时调用频率高于预设频率阈值的函数,也可以为安全性级别要求高于预设安全级别的函数。具体的可以根据用户需求进行设定,对此不做具体限定。
步骤506,确定待检测文件为Webshell文件,并将目标hash值存储至预设hash值库。
检测设备在检测到预设hash值库中未存储目标hash值的情况下,可利用轻量级应用沙箱运行待检测文件,检测运行待检测文件时是否调用预设敏感函数。若调用了预设敏感函数,检测设备检测是否向预设敏感函数传入预设参数。若向预设敏感函数传入预设参数,检测设备可确定待检测文件的行为与Webshell文件的行为相同,确定待检测文件为Webshell文件。另外,为便于后续Webshell文件的检测,检测设备在确定待检测文件为Webshell文件后,将待检测文件的目标hash值存储至预设hash值库。
一个可选的实施例中,若未检测到向预设敏感函数传入预设参数,则检测设备可确定待检测文件不是Webshell文件。
本申请实施例提供的技术方案中,结合待检测文件的hash值,以及轻量级应用沙箱,检测Webshell文件,考虑了Webshell文件在多个方面的特点,提高了Webshell文件检测的准确性。
本申请实施例中,为了提高了Webshell文件检测的准确性,可以任意结合上述图1-图5所示的检测方式。下面通过图6所示实施例对本申请实施例提供的Webshell文件检测方法进行说明。
步骤601,获取待检测文件。
步骤602,计算待检测文件的hash值,作为目标hash值。
步骤603,检测预设hash值库中是否存储有目标hash值。若存储有目标hash值,则执行步骤604。若未存储目标hash值,则执行步骤605。其中,预设hash值库中存储有Webshell文件的hash值。
步骤604,确定待检测文件为Webshell文件。
步骤605,提取待检测文件中至少一种预设种类参数的待检测参数值。
步骤606,根据提取的待检测参数值和每一种预设种类参数的权重,确定待检测文件的判定参数值。
步骤607,检测判定参数值是否大于预设判定阈值。若大于预设判定阈值,则执行步骤608。若小于等于预设判定阈值,则执行步骤609。
步骤608,确定待检测文件为Webshell文件,并将目标hash值存储至预设hash值库。
步骤609,抽取待检测文件的中间代码。
步骤610,利用中间代码和预先训练好的机器学习模型,得到待检测文件为Webshell文件的可靠度,其中,机器学习模型为根据带有标签的多个样本文件训练得到的模型,标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签。
步骤611,检测待检测文件为Webshell文件的可靠度是否大于等于预设可靠度阈值。若大于等于预设可靠度阈值,则执行步骤608。若小于预设可靠度阈值,则执行步骤612。
步骤612,运行待检测文件,检测是否向预设敏感函数传入预设参数,预设参数为运行Webshell文件时向预设敏感函数传入的参数。若检测到向预设敏感函数传入预设参数,则执行步骤608。若未检测到向预设敏感函数传入预设参数,则执行步骤613。
步骤613,确定待检测文件不是Webshell文件。
上述步骤601-613部分的描述比较简单,具体可参考图1-图5部分的描述。
通过本申请实施例提供的技术方案中,Webshell文件的检测,不依赖与特定的特征码,利用文件的hash值、预设种类参数、中间代码以及敏感函数等实现,能够实现编码、混淆和加密等操作未知Webshell文件的检测。且利用多种信息进行Webshell文件的检测,提高了Webshell文件检测的准确性。
基于相同的发明构思,根据上述Webshell文件检测方法实施例,本申请实施例提供了一种Webshell文件检测装置。参考图7,图7为本申请实施例提供的Webshell文件检测装置的一种结构示意图。该装置包括获取单元701、检测单元702和处理单元703。
获取单元701,用于获取待检测文件;
检测单元702,用于计算待检测文件的哈希值,作为目标哈希值;检测预设哈希值库中是否存储有目标哈希值,预设哈希值库中存储有Webshell文件的哈希值;
处理单元703,用于若未存储目标哈希值,则按照预设检测方式,检测待检测文件是否为Webshell文件;若存储有目标哈希值,则确定待检测文件为Webshell文件。
一个可选的实施例中,检测单元702,具体可以用于:
移除待检测文件中的无效字符;计算移除无效字符后的待检测文件的哈希值,作为目标哈希值。
一个可选的实施例中,处理单元703,具体可以用于:
提取待检测文件中至少一种预设种类参数的待检测参数值;根据提取的待检测参数值和每一种预设种类参数的权重,确定待检测文件的判定参数值;检测判定参数值是否大于预设判定阈值;
若大于预设判定阈值,则确定待检测文件为Webshell文件,并将目标哈希值存储至预设哈希值库。
一个可选的实施例中,上述至少一种预设种类参数可以包括:信息熵、重合指数、压缩率和最长单词长度中的一种或多种。
一个可选的实施例中,处理单元703,具体可以用于:
抽取待检测文件的中间代码;利用中间代码和预先训练好的机器学习模型,得到待检测文件为Webshell文件的可靠度,其中,机器学习模型为根据带有标签的多个样本文件训练得到的模型,标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签;
若可靠度大于等于预设可靠度阈值,则确定待检测文件为Webshell文件,并将目标哈希值存储至预设哈希值库。
一个可选的实施例中,处理单元703,具体可以用于:
运行待检测文件,检测是否向预设敏感函数传入预设参数,预设参数为运行Webshell文件时向预设敏感函数传入的参数;
若检测到向预设敏感函数传入预设参数,则确定待检测文件为Webshell文件,并将目标哈希值存储至预设哈希值库。
本申请实施例提供的技术方案中,基于待检测文件的哈希值和预设哈希值库,判断待检测文件是否为Webshell文件。可见,本申请实施例提供的技术方案中,只需要维护预设哈希值库中存储的Webshell文件的哈希值,哈希值作为静态指标,相对于动态指标的特征码,维持简单,降低了WebShell文件检测中耗费的人工成本。
在本申请的一个实施例中,参考图8所示,上述检测单元702可以包括hash库比对模块801,上述处理单元703可以包括、钻石转发模块802、机器学习模块803和轻量级应用沙箱804。
其中,hash库比对模块801,用于计算待检测文件的哈希值,作为目标哈希值;检测预设哈希值库中是否存储有目标哈希值。
钻石转发模块802,用于提取待检测文件中至少一种预设种类参数的待检测参数值;根据提取的待检测参数值和每一种预设种类参数的权重,确定待检测文件的判定参数值;检测判定参数值是否大于预设判定阈值。
机器学习模块803,用于抽取待检测文件的中间代码;利用中间代码和预先训练好的机器学习模型,得到待检测文件为Webshell文件的可靠度。
轻量级应用沙箱804,用于运行待检测文件,检测是否向预设敏感函数传入预设参数。
通过本申请实施例提供的技术方案中,Webshell文件的检测,不依赖与特定的特征码,利用文件的hash值、预设种类参数、中间代码以及敏感函数等实现,能够实现编码、混淆和加密等操作未知Webshell文件的检测。且利用多种信息进行Webshell文件的检测,提高了Webshell文件检测的准确性。
基于相同的发明构思,根据上述Webshell文件检测方法实施例,本申请实施例还提供了一种网络设备,如图9所示,包括处理器901和机器可读存储介质902,机器可读存储介质902存储有能够被处理器901执行的机器可执行指令。处理器901被机器可执行指令促使实现上述图1-图6所示的任一步骤。
一个可选的实施例中,如图9所示,网络设备还可以包括:通信接口903和通信总线904;其中,处理器901、机器可读存储介质902、通信接口903通过通信总线904完成相互间的通信,通信接口903用于上述网络设备与其他设备之间的通信。
基于相同的发明构思,根据上述Webshell文件检测方法实施例,本申请实施例还提供了一种机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令。处理器被机器可执行指令促使实现上述图1-图6所示的任一步骤。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
上述机器可读存储介质可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。另外,机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于Webshell文件检测装置、网络设备、机器可读存储介质实施例而言,由于其基本相似于Webshell文件检测方法实施例,所以描述的比较简单,相关之处参见Webshell文件检测方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (12)

1.一种Webshell文件检测方法,其特征在于,所述方法包括:
获取待检测文件;
计算所述待检测文件的哈希值,作为目标哈希值;
检测预设哈希值库中是否存储有所述目标哈希值,所述预设哈希值库中存储有Webshell文件的哈希值;
若未存储所述目标哈希值,则按照预设检测方式,检测所述待检测文件是否为Webshell文件;
若存储有所述目标哈希值,则确定所述待检测文件为Webshell文件;
所述按照预设检测方式,检测所述待检测文件是否为Webshell文件的步骤,包括:
抽取所述待检测文件的中间代码;所述中间代码是一种由解释器对脚本代码进行分析后生成的被脚本执行器直接运行的代码;
利用所述中间代码和预先训练好的机器学习模型,得到所述待检测文件为Webshell文件的可靠度,其中,所述机器学习模型为根据带有标签的多个样本文件训练得到的模型,所述标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签;
若所述可靠度大于等于预设可靠度阈值,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
2.根据权利要求1所述的方法,其特征在于,所述计算所述待检测文件的哈希值,作为目标哈希值的步骤,包括:
移除所述待检测文件中的无效字符;
计算移除无效字符后的待检测文件的哈希值,作为目标哈希值。
3.根据权利要求1所述的方法,其特征在于,所述按照预设检测方式,检测所述待检测文件是否为Webshell文件的步骤,包括:
提取所述待检测文件中至少一种预设种类参数的待检测参数值;
根据提取的待检测参数值和每一种预设种类参数的权重,确定所述待检测文件的判定参数值;
检测所述判定参数值是否大于预设判定阈值;
若大于所述预设判定阈值,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
4.根据权利要求3所述的方法,其特征在于,所述至少一种预设种类参数包括:信息熵、重合指数、压缩率和最长单词长度中的一种或多种。
5.根据权利要求1所述的方法,其特征在于,所述按照预设检测方式,检测所述待检测文件是否为Webshell文件的步骤,包括:
运行所述待检测文件,检测是否向预设敏感函数传入预设参数,所述预设参数为运行Webshell文件时向所述预设敏感函数传入的参数;
若检测到向所述预设敏感函数传入所述预设参数,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
6.一种Webshell文件检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检测文件;
检测单元,用于计算所述待检测文件的哈希值,作为目标哈希值;检测预设哈希值库中是否存储有所述目标哈希值,所述预设哈希值库中存储有Webshell文件的哈希值;
处理单元,用于若未存储所述目标哈希值,则按照预设检测方式,检测所述待检测文件是否为Webshell文件;若存储有所述目标哈希值,则确定所述待检测文件为Webshell文件;
所述处理单元具体用于:
抽取所述待检测文件的中间代码;所述中间代码是一种由解释器对脚本代码进行分析后生成的被脚本执行器直接运行的代码;
利用所述中间代码和预先训练好的机器学习模型,得到所述待检测文件为Webshell文件的可靠度,其中,所述机器学习模型为根据带有标签的多个样本文件训练得到的模型,所述标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签;
若所述可靠度大于等于预设可靠度阈值,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
7.根据权利要求6所述的装置,其特征在于,所述检测单元,具体用于:
移除所述待检测文件中的无效字符;计算移除无效字符后的待检测文件的哈希值,作为目标哈希值。
8.根据权利要求6所述的装置,其特征在于,所述处理单元具体用于:
提取所述待检测文件中至少一种预设种类参数的待检测参数值;根据提取的待检测参数值和每一种预设种类参数的权重,确定所述待检测文件的判定参数值;检测所述判定参数值是否大于预设判定阈值;
若大于所述预设判定阈值,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
9.根据权利要求8所述的装置,其特征在于,所述至少一种预设种类参数包括:信息熵、重合指数、压缩率和最长单词长度中的一种或多种。
10.根据权利要求6所述的装置,其特征在于,所述处理单元具体用于:
运行所述待检测文件,检测是否向预设敏感函数传入预设参数,所述预设参数为运行Webshell文件时向所述预设敏感函数传入的参数;
若检测到向所述预设敏感函数传入所述预设参数,则确定所述待检测文件为Webshell文件,并将所述目标哈希值存储至所述预设哈希值库。
11.一种网络设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-5任一所述的方法步骤。
12.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有能够被处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-5任一所述的方法步骤。
CN201910440465.1A 2019-05-24 2019-05-24 一种Webshell文件检测方法及装置 Active CN110162973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910440465.1A CN110162973B (zh) 2019-05-24 2019-05-24 一种Webshell文件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910440465.1A CN110162973B (zh) 2019-05-24 2019-05-24 一种Webshell文件检测方法及装置

Publications (2)

Publication Number Publication Date
CN110162973A CN110162973A (zh) 2019-08-23
CN110162973B true CN110162973B (zh) 2021-04-09

Family

ID=67632731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910440465.1A Active CN110162973B (zh) 2019-05-24 2019-05-24 一种Webshell文件检测方法及装置

Country Status (1)

Country Link
CN (1) CN110162973B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506499B (zh) * 2020-04-08 2023-06-02 百度在线网络技术(北京)有限公司 一种小程序中参数可用性检测方法、装置以及电子设备
WO2021223177A1 (zh) * 2020-05-07 2021-11-11 深圳市欢太科技有限公司 异常文件检测方法及相关产品
CN113239352B (zh) * 2021-04-06 2022-05-17 中国科学院信息工程研究所 一种Webshell检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291782B1 (ko) * 2013-01-28 2013-07-31 인포섹(주) 웹쉘 탐지/대응 시스템
CN106572117A (zh) * 2016-11-11 2017-04-19 北京安普诺信息技术有限公司 一种WebShell文件的检测方法和装置
CN107103237A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 一种恶意文件的检测方法及装置
CN109462575A (zh) * 2018-09-28 2019-03-12 东巽科技(北京)有限公司 一种webshell检测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106850617B (zh) * 2017-01-25 2018-05-15 余洋 webshell检测方法及装置
CN108985057B (zh) * 2018-06-27 2022-07-22 平安科技(深圳)有限公司 一种webshell检测方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291782B1 (ko) * 2013-01-28 2013-07-31 인포섹(주) 웹쉘 탐지/대응 시스템
CN107103237A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 一种恶意文件的检测方法及装置
CN106572117A (zh) * 2016-11-11 2017-04-19 北京安普诺信息技术有限公司 一种WebShell文件的检测方法和装置
CN109462575A (zh) * 2018-09-28 2019-03-12 东巽科技(北京)有限公司 一种webshell检测方法及装置

Also Published As

Publication number Publication date
CN110162973A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN106961419B (zh) WebShell检测方法、装置及系统
CN107659570B (zh) 基于机器学习与动静态分析的Webshell检测方法及系统
CN107154950B (zh) 一种日志流异常检测的方法及系统
CN109582833B (zh) 异常文本检测方法及装置
CN110162973B (zh) 一种Webshell文件检测方法及装置
CN107992490B (zh) 一种数据处理方法以及数据处理设备
CN107070852B (zh) 网络攻击检测方法和装置
CN108200054A (zh) 一种基于dns解析的恶意域名检测方法及装置
CN110929203B (zh) 异常用户的识别方法、装置、设备及存储介质
CN108718298B (zh) 一种恶意外连流量检测方法及装置
CN110798488B (zh) Web应用攻击检测方法
CN111835777B (zh) 一种异常流量检测方法、装置、设备及介质
CN108600172B (zh) 撞库攻击检测方法、装置、设备及计算机可读存储介质
CN111600919A (zh) 基于人工智能的web检测方法和装置
CN112163008A (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN111126420B (zh) 一种建立识别模型的方法及装置
CN112632537A (zh) 恶意代码检测方法、装置、设备及存储介质
CN111914257A (zh) 文档检测的方法、装置、设备、及计算机存储介质
CN112532624A (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN113364784B (zh) 检测参数生成方法、装置、电子设备及存储介质
CN113076961B (zh) 一种图像特征库更新方法、图像检测方法和装置
CN110855635A (zh) Url识别方法、装置及数据处理设备
CN108804501B (zh) 一种检测有效信息的方法及装置
CN107241342A (zh) 一种网络攻击串检测方法及装置
CN110851828A (zh) 基于多维度特征的恶意url监测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant