CN111107079A - 一种上传文件检测方法及装置 - Google Patents
一种上传文件检测方法及装置 Download PDFInfo
- Publication number
- CN111107079A CN111107079A CN201911295259.2A CN201911295259A CN111107079A CN 111107079 A CN111107079 A CN 111107079A CN 201911295259 A CN201911295259 A CN 201911295259A CN 111107079 A CN111107079 A CN 111107079A
- Authority
- CN
- China
- Prior art keywords
- log
- range
- file
- normal
- suspicious
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的一种上传文件检测方法及装置,该方法包括:获取用于记录历史文件的上传行为的行为日志;根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。通过该方法可实现对上传文件及时检测,提高了检测文件的准确率,用户可根据不同的业务场景对检测文件的基准进行调整,灵活性较好。
Description
技术领域
本申请涉及网络安全领域,尤其涉及一种上传文件检测方法及装置。
背景技术
随着互联网技术的快速发展,计算机在人们的日常生活中发挥着越来越重要的作用,越来越多的人们以及企业也愿意把机密文件存储在计算机中。但与此同时,针对计算机的攻击不断涌现。攻击者向被攻击站点上传恶意脚本及文件,不定时启动该程序,开启端口或执行恶意攻击操作,从而达到窃取文件与相关资源的目的。这样的行为具有很高的隐匿性和威胁性,此类型攻击发现的越早,所能采取的补救措施就越多,造成的损失就越少。
为了检测上传文件是否异常,传统技术采用对每个上传的文件依次进行内容特征比对,从而确定恶意文件的上传行为;该方法主要是对每次上传的文件内容(如关键字、敏感词等)都要进行筛选比对,对系统性能要求较高。在较大数据量时,需要消耗较多系统资源,且存在误判、漏判风险;而且无法根据不同业务场景灵活性的调整检测方法,缺乏业务定制能力,灵活性差。
发明内容
本申请实施例提供一种上传文件检测方法及装置,用以解决现有技术中,非法上传文件检测准确率低下的问题。
第一方面,本申请实施例提供的一种文件检测方法,包括:
获取用于记录历史文件的上传行为的行为日志;
根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;
对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;
对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;
当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
可选的,所述方法还包括:
输出日志分析结构表,所述日志分析结构表中包括所述可疑日志集中处于所述第一范围之外的至少一个可疑日志的行为分析参数,以及所述正常日志集中处于所述第二范围之外的至少一个正常日志的行为分析参数;
接收用于指示所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;
接收用于指示所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。
可选的,所述基于所述第一范围和所述第二范围检测所述上传的文件是否正常,包括:
对所述上传的文件对应的日志进行特征提取,得到第三特征信息;
判断所述第三特征信息是否处于所述第一范围或所述第二范围内;
当所述第三特征信息处于所述第一范围,确定所述上传的文件可疑;
当所述第三特征信息处于所述第二范围,确定所述上传的文件正常。
可选的,所述方法还包括:
当所述第三特征信息不处于所述第一范围和所述第二范围内时,确定所述第三特征信息对应的威胁值;其中,所述威胁值满足如下公式:
其中,所述T为所述威胁值;所述αi为用于表征第i个日志属性的权重占比;所述si为用于表征在第i个日志属性上所述上传文件属于可疑文件的可疑度与预设可疑度的偏差程度;所述βi用于表征在第i个日志属性上对应的历史文件属于正常文件的概率;
若所述威胁值小于预设阈值,确定所述当前上传的文件正常;
若所述威胁值大于所述预设阈值,确定所述当前上传的文件异常。
可选的,所述基于提取出的第一特征信息确定得到用于检测行为日志是否可疑的第一范围,包括:
所述第一特征信息中包括M个特征点,所述M为大于1的整数;所述M个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述M个特征点划分为N个类,所述N为小于M的正整数;
将所述N个类中相似度大于预设相似度的K个类作为第一簇,所述K为小于N的正整数;
确定所述第一簇的第一边界,所述第一边界所围成的区域范围即为所述第一范围。
可选的,所述基于提取出的第二特征信息确定得到用于检测行为日志是否正常的第二范围,包括:
所述第二特征信息中包括G个特征点,所述G为大于1的整数;所述G个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述G个特征点划分为H个类,所述H为小于G的正整数;
将所述H个类中相似度大于预设相似度的F个类作为第一簇,所述F为小于H的正整数;
确定所述第二簇的第二边界,所述第二边界所围成的区域范围即为所述第二范围。
可选的,所述日志属性包括文件的大小、上传时间或上传次数。
第二方面,本申请实施例提供的一种上传文件检测装置,包括:
获取模块,用于获取用于记录历史文件的上传行为的行为日志;
处理模块,用于根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;
所述处理模块,还用于对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;
所述处理模块,还用于对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;
所述处理模块,还用于当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
可选的,所述处理模块还用于:
输出日志分析结构表,所述日志分析结构表中包括所述可疑日志集中处于所述第一范围之外的至少一个可疑日志的行为分析参数,以及所述正常日志集中处于所述第二范围之外的至少一个正常日志的行为分析参数;
接收用于指示所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;
接收用于指示所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。
可选的,所述处理模块在用于基于所述第一范围和所述第二范围检测所述上传的文件是否正常时,具体用于:
对所述上传的文件对应的日志进行特征提取,得到第三特征信息;
判断所述第三特征信息是否处于所述第一范围或所述第二范围内;
当所述第三特征信息处于所述第一范围,确定所述上传的文件可疑;
当所述第三特征信息处于所述第二范围,确定所述上传的文件正常。
可选的,所述处理模块还用于:
当所述第三特征信息不处于所述第一范围和所述第二范围内时,确定所述第三特征信息对应的威胁值;其中,所述威胁值满足如下公式:
其中,所述T为所述威胁值;所述αi为用于表征第i个日志属性的权重占比;所述si为用于表征在第i个日志属性上所述上传文件属于可疑文件的可疑度与预设可疑度的偏差程度;所述βi用于表征在第i个日志属性上对应的历史文件属于正常文件的概率;
若所述威胁值小于预设阈值,确定所述当前上传的文件正常;
若所述威胁值大于所述预设阈值,确定所述当前上传的文件异常。
可选的,所述处理模块在用于基于提取出的第一特征信息确定得到用于检测行为日志是否可疑的第一范围时,具体用于:
所述第一特征信息中包括M个特征点,所述M为大于1的整数;所述M个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述M个特征点划分为N个类,所述N为小于M的正整数;
将所述N个类中相似度大于预设相似度的K个类作为第一簇,所述K为小于N的正整数;
确定所述第一簇的第一边界,所述第一边界所围成的区域范围即为所述第一范围。
可选的,所述处理模块在用于基于提取出的第二特征信息确定得到用于检测行为日志是否正常的第二范围时,具体用于:
所述第二特征信息中包括G个特征点,所述G为大于1的整数;所述G个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述G个特征点划分为H个类,所述H为小于G的正整数;
将所述H个类中相似度大于预设相似度的F个类作为第一簇,所述F为小于H的正整数;
确定所述第二簇的第二边界,所述第二边界所围成的区域范围即为所述第二范围。
可选的,所述日志属性包括文件的大小、上传时间或上传次数。
第三方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的一个或多个步骤。
第四方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述方法。
本申请提供的一种上传文件检测方法,该方法包括:获取用于记录历史文件的上传行为的行为日志;根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。通过该方法可实现对上传文件及时检测,提高了检测文件的准确率,用户可根据不同的业务场景对检测文件的基准进行调整,灵活性较好。
本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种的上传文件检测方法流程示意图;
图2为本申请实施例提供的确定第一范围的过程示意图;
图3为本申请实施例提供的确定第二范围的过程示意图;
图4为本申请实施例中一种上传文件检测装置的结构示意图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,图1为本申请实施例提供的一种上传文件检测方法流程示意图,该方法可适用于日志管理平台、服务器、电脑等等,本申请实施例以服务器为例进行叙述,该方法包括以下步骤:
101:获取用于记录历史文件的上传行为的行为日志。
应理解,在服务器对当前上传文件进行检测之前,需要根据历史文件的上传行为的行为日志进行分析,得到一个检测规则(即下文的第一范围和第二范围),具体的得到检测规则的过程后面会给出详细的解释。
示例性的,根据预设通信协议(例如,文件传输协议(File Transfer Protocol,FTP)、安全文件传输协议(Secret File Transfer Protocol,SFTP)sftp、局域网文件共享传输协议(Server Message Block,SMB))获取服务器接收历史上传文件时产生的行为日志,将这些行为日志作为后续分析的数据源。
102:根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集。
应理解,预设分类规则为用户根据不同业务场景需求定义的分类规则,用户可以根据文件的大小、上传时间、上传的IP地址、类型中一个或多个属性的阈值对行为日志进行划分,本申请的实施例不作具体的限定。
示例性1,假设系统根据文件的上传时间对行为日志进行分类,将文件上传的时间段取整并按照小时进行划分(如,某个用户在21:30分进行了文件上传行为,那么就认为文件的上传时间是21点),若文件上传的时间段处于预设的异常时间段,则将该文件对应的行为日志归为可疑日志集;若文件上传的时间段处于预设的正常时间段,则将该文件对应的行为日志归为正常日志集。
示例2,假设根据文件上传的IP地址对行为日志进行划分,预先设置正常和可疑的网段标准,若文件上传的IP地址处于正常网段,则将该文件对应的行为日志归为正常日志集;若文件上传的IP地址处于可疑网段,则将该文件对应的行为日志归为可疑日志集。
应理解,所述可疑日志集中的行为日志可能存在部分行为日志对应的文件为正常文件,所述正常日志集中的行为日志可能存在部分行为日志对应的文件为异常文件,后续会对判定的过程进行详细的解释说明。
103:对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围。
应理解,第一范围需要通过聚类算法对可疑日志集的特征信息进行聚类得到,其中,聚类算法可以是基于密度的聚类算法,也可以是层次化聚类算法或者其他聚类算法,本申请不作具体的限定。
在一种可能的实施方式中,所述基于提取出的第一特征信息确定得到用于检测行为日志是否可疑的第一范围,包括:所述第一特征信息中包括M个特征点,所述M为大于1的整数;所述M个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;将所述M个特征点划分为N个类,所述N为小于M的正整数;将所述N个类中相似度大于预设相似度的K个类作为第一簇,所述K为小于N的正整数;服务器确定所述第一簇的第一边界,所述第一边界所围成的区域范围即为所述第一范围。
应理解,所述日志属性可以是文件的大小、上传时间或上传次数、上传的IP地址。
在另一种可能的实施方式中,在上述实施方式得到第一簇之后,服务器还可以根据所述第一簇的第一边界之外的预设距离,确定第二边界,将第二边界所围成的区域范围作为所述第一范围。
示例性的,请参见图2所示,图2为本申请实施例提供的确定第一范围的过程示意图,假设可疑日志集中有15个行为日志,服务器对可疑日志集进行特征提取后得到15个特征点,图2中每一个带数字的圆圈都表示一个特征点,带数字“1”的圆圈表示1号特征点,带数字“2”的圆圈表示2号特征点,其余的带数字的圆圈的含义在此不赘述。服务器根据每个特征点中每个维度的日志属性计算这15个特征点两两之间的相似度,将相似度最大的两个特征点划分为一个类,得到8个类;进一步计算这8个类两两之间的相似度,将相似度最大的两个类划分为一个新类,重复计算两两新类之间的相似度,进一步划分,直到最后得到第一簇,如图2所示,这个簇的边界围成的区域即为第一范围,特征点13和特征点11即为可疑日志集中的离群点(离群点对应的行为日志为异常日志,后续需要进一步判定)。在得到第一簇之后,服务器将预设距离转化为第一簇边界上的特征点与边界以外特征点的相似度阈值,若第一簇边界上的特征点与边界以外第一特征点的相似度大于所述相似度阈值,则将第一簇的边界扩大至第一特征点,将新的边界围成的区域作为所述第一范围。
104:对所述可疑日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围。
在一种可能的实施方式中,所述基于提取出的第二特征信息确定得到用于检测行为日志是否正常的第二范围,包括:所述第二特征信息中包括G个特征点,所述G为大于1的整数;所述G个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;将所述G个特征点划分为H个类,所述H为小于G的正整数;将所述H个类中相似度大于预设相似度的F个类作为第一簇,所述F为小于H的正整数;确定所述第二簇的第二边界,所述第二边界所围成的区域范围即为所述第二范围。
在另一种可能的实施方式中,在上述实施方式得到第二簇之后,服务器还可以根据所述第二个簇的第一边界之外的预设距离,确定第二边界,将所述第二边界所围成的区域范围作为所述第二范围。
示例性的,请参见图3所示,图3为本申请实施例提供的确定第二范围的过程示意图,假设正常日志集中有20个行为日志,服务器对正常日志集进行特征提取后得到20个特征点,图3中每一个带数字的圆圈都表示一个特征点,带数字“1”的圆圈表示1号特征点,带数字“2”的圆圈表示2号特征点,其余的带数字的圆圈的含义在此不赘述。服务器根据每个特征点中每个维度的日志属性计算这20个特征点两两之间的相似度,将相似度最大的两个特征点划分为一个类,得到12个类;进一步计算这12个类两两之间的相似度,将相似度最大的两个类划分为一个新类,得到5个新类;重复计算两两新类之间的相似度,进一步划分,直到最后得到第二簇,如图3所示,这个簇的边界围成的区域即为第二范围。在得到第二簇之后,服务器将预设距离转化为第二簇边界上的特征点与边界以外特征点的相似度阈值,若第二簇边界上的特征点与边界以外第一特征点的相似度大于所述相似度阈值,则将第二簇的边界扩大至第一特征点,将新的边界围成的区域作为所述第二范围。
应理解,上述对第一特征信息进行聚类确定第一范围的过程和对第二特征信息进行聚类确定第二范围的过程中,第一特征信息中会存在一些特征点处于所述第一范围之外,第二特征信息中会存在一些特征点处于所述第二范围之外将这些特征点称之为离群点,将离群点对应的行为日志进行二次判定,进一步确定该行为日志对应的文件是否异常。
应理解,在确定第一范围和第二范围之外的离群点之后,服务器对离群点对应的行为日志进行分析(即二次判定的过程),例如服务器判断行为日志中的文件是否有启动进程、开启端口、外发数据中的一种或多种行为,同时服务器对具有这三种行为的日志进行关联分析,得到一个日志分析结构表。
在一种可能的实施方式中,所述日志分析结构表中包括所述可疑日志集中处于所述第一范围之外的至少一个可疑日志的行为分析参数,以及所述正常日志集中处于所述第二范围之外的至少一个正常日志的行为分析参数。
应理解,日志分析结构表中可以包括一个或多个离群点对应的正常日志和/或一个或多个离群点对应的可疑日志相关的文件的行为参数,行为参数包括但不限于启动进程、开启端口、外发数据等情况。
示例性的,当服务器接收到用户确认所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;当服务器接收到用户确认所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。
应理解上述将所述第一日志加入到所述可疑日志集,将所述第二日志加入到所述正常日志集,可实现对所述第一范围和所述第二范围的动态调整,且通过日志分析结构表让用户参与到数据标定的过程中,确保了对上传文件检测的第一范围和第二范围的准确性。
105:当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
在一种可能的实施方式中,所述基于所述第一范围和所述第二范围检测所述上传的文件是否正常,包括:服务器对所述上传的文件对应的日志进行特征提取,得到第三特征信息;判断所述第三特征信息是否处于所述第一范围或所述第二范围内;当所述第三特征信息处于所述第一范围,确定所述上传的文件可疑;当所述第三特征信息处于所述第二范围,确定所述上传的文件正常。
示例性的,假设服务器检测到有文件A上传,对文件A对应的日志进行特征提取,得到文件A的特征信息,即文件A的特征向量(包括文件大小、文件上传时间、文件类型、文件上传的IP地址所转化的维度信息);服务器判断所述文件A的特征信息是否处于所述第一范围或所述第二范围内;当文件A的特征信息处于所述第一范围,确定文件A为可疑文件;当文件A的特征信息处于所述第二范围,确定文件A为正常文件。
在一种可能的实施方式中,所述服务器确定所述当前上传的文件可疑之后,还包括:服务器输出文件A对应的日志分析结构表,所述日志分析结构表中包括所述当文件A对应日志的行为分析参数;服务器接收用于指示文件A对应的行为日志为异常日志的第一指令,将文件A对应的行为日志加入到可疑日志集;服务器接收用于指示文件A对应的行为日志为正常日志的第二指令,将文件A对应的行为日志加入到所述正常日志集。
应理解,服务器每次对当前上传的文件对应的行为日志进行检测之后,都将该行为日志加入到对应的日志集样本中,实现了本申请实施例提供的上传文件检测方法中的第一范围和第二范围的动态调整,使聚类算法更为准确,从而提高了检测文件的准确性。
在一种可能的实施方式中,当所述第三特征信息不处于所述第一范围和所述第二范围内时,服务器确定所述第三特征信息对应的威胁值;其中,所述威胁值满足如下公式:
其中,所述T为所述威胁值;所述αi为用于表征第i个日志属性的权重占比;所述si为用于表征在第i个日志属性上所述上传文件属于可疑文件的可疑度与预设可疑度的偏差程度;所述βi用于表征在第i个日志属性上对应的历史文件属于正常文件的概率;若所述威胁值小于预设阈值,确定所述当前上传的文件正常;若所述威胁值大于所述预设阈值,确定所述当前上传的文件异常。
其中,若日志属性为文件大小、文件上传频次、上传时间段,则si可根据如下公式进行计算:
若日志属性为文件类型,判断文件类型是否异常;若文件类型为正常类型,si的值为0;若文件类型为异常类型,则si的值为1,文件类型处于正常与异常之间时,则计算当前文件对应的文件类型在历史文件类型中的比重,si的值为
示例性的,假设预设阈值是0.6,服务器检测到有文件A上传,对文件A对应的日志的进行特征提取,得到文件A的特征信息;服务器对该文件A的特征信息进行初步判断之后发现,文件A的特征信息处于所述第一范围和所述第二范围之外,服务器根据文件A的大小、上传频次、上传时间段、上传的IP地址各个维度的权重占比(例如,文件大小权重为0.2,、文件上传频次权重为0.4、上传时间段权重为0.1、上传的IP地址权重为0.3)和每个日志属性上文件A属于可疑文件的可疑度与预设可疑度的偏差程度以及每个日志属性上对应的历史文件属于正常文件的概率计算文件A的威胁值。
其中,假设正常文件在文件的大小、上传频次、上传时间段各属性上预设的第一阈值和第二阈值分别为30、50,文件A的文件大小对应的值为60,则文件A在大小维度的si为(60-50)/(50-30)=0.5。其他日志属性维度的si的计算以及每个日志属性上对应的历史文件属于正常文件的概率计算就不一一列举了。
确定该特征信息对应的威胁值之后,再对威胁值进行归一化处理后为0.5,即文件A的威胁值小于预设阈值,服务器确定文件A为正常文件。
下面结合图2和图3和具体的实施例对本申请的技术方案进行详细的解释。
实施例1
假设服务器根据FTP传输协议获取历史上传文件对应的35个行为日志;服务器根据文件上传的IP地址对行为日志进行划分,预先设置正常和可疑的网段标准,若文件上传的IP地址处于正常网段,则将该文件对应的行为日志归为正常日志集;若文件上传的IP地址处于可疑网段,则将该文件对应的行为日志归为可疑日志集。
服务器通过机器学习算法对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围。具体的,请继续参见图2,图2为本申请实施例提供的确定第一范围的过程示意图,假设可疑日志集中有15个行为日志,服务器对可疑日志集进行特征提取后得到15个特征点,图2中每一个带数字的圆圈都表示一个特征点,带数字“1”的圆圈表示1号特征点,带数字“2”的圆圈表示2号特征点,其余的带数字的圆圈的含义在此不赘述。服务器根据每个特征点中每个维度的日志属性计算这15个特征点两两之间的相似度,将相似度最大的两个特征点划分为一个类,得到8个类,虚线圈表示一个类的边界;进一步计算这8个类两两之间的相似度,将相似度最大的两个类划分为一个新类,重复计算两两新类之间的相似度,进一步划分,直到最后得到第一簇,如图2所示,这个簇的边界围成的区域即为第一范围,特征点13和特征点11即为可疑日志集中的离群点。
同样地,服务器对所述可疑日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围。请继续参见图3,图3为本申请实施例提供的确定第二范围的过程示意图,假设正常日志集中有20个行为日志,服务器对正常日志集进行特征提取后得到20个特征点,图3中每一个带数字的圆圈都表示一个特征点,带数字“1”的圆圈表示1号特征点,带数字“2”的圆圈表示2号特征点,虚线圈表示一个类的边界,其余的带数字的圆圈的含义在此不赘述。服务器根据每个特征点中每个维度的日志属性计算这20个特征点两两之间的相似度,将相似度最大的两个特征点划分为一个类,得到12个类;进一步计算这12个类两两之间的相似度,将相似度最大的两个类划分为一个新类,得到5个新类;重复计算两两新类之间的相似度,进一步划分,直到最后得到第二簇,如图3所示,这个簇的边界围成的区域即为第二范围。在得到第二簇之后,服务器将预设距离转化为第二簇边界上的特征点与边界以外特征点的相似度阈值,若第二簇边界上的特征点与边界以外第一特征点的相似度大于所述相似度阈值,则将第二簇的边界扩大至第一特征点,将新的边界围成的区域作为所述第二范围。
如图2和图3所示,在可疑日志集和正常日志集分别聚类得到第一簇和第二簇之后,图2中存在离群点11、13,图3中存在离群点1、3;为了提升本申请实施例提供的上传文件检测方法的准确性,服务器对离群点对应的行为日志中文件的相关行为进行分析,例如判断对应的文件是否有启动进程、开启端口、外发数据等行为,同时服务器对具有这些行为的日志进行关联分析,得到一个日志分析结构表,让用户对日志分析结构表中的一个或多个日志判断。
若服务器接收到用户确认所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;当服务器接收到用户确认所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。服务器根据新的可疑日志集和正常日志集确定新的第一范围和第二范围,实现了对用于检测文件是否正常或是否可疑的范围的动态调整。
假设服务器检测到当前有文件A上传,对文件A对应的行为日志进行特征提取,得到文件A的特征信息,即文件A的特征向量(包括文件大小、文件上传时间、文件类型、文件上传的IP地址所转化的维度信息);服务器对文件A特征信息进行量化处理后,判断所述文件A的特征信息是否处于如图2和图3所示的第一范围或第二范围内;当文件A的特征信息处于图2中第一范围,确定文件A为可疑文件;当文件A的特征信息处于图3中的第二范围,确定文件A为正常文件。
可疑文件并不一定是异常文件,为了进一步确定文件是否异常,所述服务器确定文件A可疑之后,服务器输出文件A对应的日志分析结构表,在日志分析结构表中用户可以清晰地看到文件A是否有开启端口、收发数据、启动进程等异常行为,以及文件A与其他具有这些异常行为的文件之间的关联关系。
服务器接收到用户确定文件A对应的行为日志为异常日志的指令,输出文件A的检测结果,同时将所述文件A对应的行为日志加入到所述可疑日志集;服务器接收到用户确定文件A对应的行为日志为正常日志的指令,输出文件A的检测结果,同时将文件A对应的行为日志加入到所述正常日志集。
实施例2
示例性的,假设上传文件检测的经验知识库中判断文件是否上传异常的预设阈值是0.6,服务器检测到有文件A上传,对文件A对应的日志的进行特征提取,得到文件A的特征信息;服务器对该文件A的特征信息进行初步判断之后发现,文件A的特征信息处于图2中的第一范围和图3中的第二范围之外,服务器根据文件A的大小、上传频次、上传时间段、上传的IP地址各个维度的权重占比、每个属性上文件A属于可疑文件的可疑度与预设可疑度的偏差程度以及每个日志属性上对应的历史文件属于正常文件的概率计算文件A的威胁值。确定该特征信息对应的威胁值之后,再对威胁值进行归一化处理后为0.5,即文件A的威胁值小于预设阈值,服务器确定文件A为正常文件,则将文件A对应的行为日志加入到所述正常日志集中,以供下一次上传文件检测使用。
基于同一发明构思,本申请还提供一种上传文件检测装置,请参见图4,图4为本申请实施例提供的一种上传文件检测装置的结构示意图,该装置包括:获取模块401、处理模块402;
获取模块401,用于获取用于记录历史文件的上传行为的行为日志;
处理模块402,用于根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;
所述处理模块402,还用于对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;
所述处理模块402,还用于对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;
所述处理模块402,还用于当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
基于同一发明构思,本申请实施例提供一种设置有上传文件检测功能的电子设备,电子设备可以是电脑,请参见图5所述,图5为本申请实施例提供的电子设备的结构示意图。该设置有上传文件检测功能的电子设备包括至少一个处理器502,以及与至少一个处理器连接的存储器501,本申请实施例中不限定处理器502与存储器501之间的具体连接介质,图5是以处理器502和存储器501之间通过总线500连接为例,总线500在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不以此为限。总线500可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器501存储有可被至少一个处理器502执行的指令,至少一个处理器502通过调用存储器501存储的指令,可以执行前述的使用相册的方法中所包括的步骤。
其中,处理器502是设置有上传文件检测功能的电子设备的控制中心,可以利用各种接口和线路连接整个设置有上传文件检测功能的电子设备的各个部分,通过执行存储在存储器501内的指令,从而实现设置有上传文件检测功能的电子设备的各种功能。可选的,处理器502可包括一个或多个处理单元,处理器502可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器502中。在一些实施例中,处理器502和存储器501可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器501作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器501可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器501还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
处理器502可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的上传文件检测的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
通过对处理器502进行设计编程,可以将前述实施例中介绍的检测路径的方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的上传文件检测方法的步骤,如何对处理器502进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的上传文件检测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (16)
1.一种上传文件检测方法,其特征在于,包括:
获取用于记录历史文件的上传行为的行为日志;
根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;
对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;
对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;
当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
输出日志分析结构表,所述日志分析结构表中包括所述可疑日志集中处于所述第一范围之外的至少一个可疑日志的行为分析参数,以及所述正常日志集中处于所述第二范围之外的至少一个正常日志的行为分析参数;
接收用于指示所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;
接收用于指示所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。
3.如权利要求1所述的方法,其特征在于,所述基于所述第一范围和所述第二范围检测所述上传的文件是否正常,包括:
对所述上传的文件对应的日志进行特征提取,得到第三特征信息;
判断所述第三特征信息是否处于所述第一范围或所述第二范围内;
当所述第三特征信息处于所述第一范围,确定所述上传的文件可疑;
当所述第三特征信息处于所述第二范围,确定所述上传的文件正常。
5.如权利要求1所述的方法,其特征在于,所述基于提取出的第一特征信息确定得到用于检测行为日志是否可疑的第一范围,包括:
所述第一特征信息中包括M个特征点,所述M为大于1的整数;所述M个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述M个特征点划分为N个类,所述N为小于M的正整数;
将所述N个类中相似度大于预设相似度的K个类作为第一簇,所述K为小于N的正整数;
确定所述第一簇的第一边界,所述第一边界所围成的区域范围即为所述第一范围。
6.如权利要求1所述的方法,其特征在于,所述基于提取出的第二特征信息确定得到用于检测行为日志是否正常的第二范围,包括:
所述第二特征信息中包括G个特征点,所述G为大于1的整数;所述G个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述G个特征点划分为H个类,所述H为小于G的正整数;
将所述H个类中相似度大于预设相似度的F个类作为第一簇,所述F为小于H的正整数;
确定所述第二簇的第二边界,所述第二边界所围成的区域范围即为所述第二范围。
7.如权利要求4-6任一所述的方法,其特征在于,所述日志属性包括文件的大小、上传时间或上传次数。
8.一种上传文件检测装置,其特征在于,包括:
获取模块,用于获取用于记录历史文件的上传行为的行为日志;
处理模块,用于根据预设分类规则对所述行为日志进行分类,得到正常日志集和可疑日志集;
所述处理模块,还用于对所述可疑日志集进行特征提取,基于提取出的第一特征信息确定用于检测行为日志是否可疑的第一范围;
所述处理模块,还用于对所述正常日志集进行特征提取,基于提取出的第二特征信息确定用于检测行为日志是否正常的第二范围;
所述处理模块,还用于当检测到有文件上传时,基于所述第一范围和所述第二范围检测所述上传的文件是否正常。
9.如权利要求8所述的装置,其特征在于,所述处理模块还用于:
输出日志分析结构表,所述日志分析结构表中包括所述可疑日志集中处于所述第一范围之外的至少一个可疑日志的行为分析参数,以及所述正常日志集中处于所述第二范围之外的至少一个正常日志的行为分析参数;
接收用于指示所述日志分析结构表中的第一日志为可疑日志的第一指令,将所述第一日志加入到所述可疑日志集;
接收用于指示所述日志分析结构表中的第二日志为正常日志的第二指令,将所述第二日志加入到所述正常日志集。
10.如权利要求8所述的装置,其特征在于,所述处理模块在用于基于所述第一范围和所述第二范围检测所述上传的文件是否正常时,具体用于:
对所述上传的文件对应的日志进行特征提取,得到第三特征信息;
判断所述第三特征信息是否处于所述第一范围或所述第二范围内;
当所述第三特征信息处于所述第一范围,确定所述上传的文件可疑;
当所述第三特征信息处于所述第二范围,确定所述上传的文件正常。
12.如权利要求8所述的装置,其特征在于,所述处理模块在用于基于提取出的第一特征信息确定得到用于检测行为日志是否可疑的第一范围时,具体用于:
所述第一特征信息中包括M个特征点,所述M为大于1的整数;所述M个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述M个特征点划分为N个类,所述N为小于M的正整数;
将所述N个类中相似度大于预设相似度的K个类作为第一簇,所述K为小于N的正整数;
确定所述第一簇的第一边界,所述第一边界所围成的区域范围即为所述第一范围。
13.如权利要求8所述的装置,其特征在于,所述处理模块在用于基于提取出的第二特征信息确定得到用于检测行为日志是否正常的第二范围时,具体用于:
所述第二特征信息中包括G个特征点,所述G为大于1的整数;所述G个特征点中每个特征点为一个包括一个或多个日志属性的特征向量;
将所述G个特征点划分为H个类,所述H为小于G的正整数;
将所述H个类中相似度大于预设相似度的F个类作为第一簇,所述F为小于H的正整数;
确定所述第二簇的第二边界,所述第二边界所围成的区域范围即为所述第二范围。
14.如权利要求11-13任一所述的装置,其特征在于,所述日志属性包括文件的大小、上传时间或上传次数。
15.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现权利要求1-7任一所述的方法。
16.一种电子设备,其特征在于,所述设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911295259.2A CN111107079A (zh) | 2019-12-16 | 2019-12-16 | 一种上传文件检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911295259.2A CN111107079A (zh) | 2019-12-16 | 2019-12-16 | 一种上传文件检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111107079A true CN111107079A (zh) | 2020-05-05 |
Family
ID=70423420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911295259.2A Pending CN111107079A (zh) | 2019-12-16 | 2019-12-16 | 一种上传文件检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111107079A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914252A (zh) * | 2020-06-28 | 2020-11-10 | 新浪网技术(中国)有限公司 | 文件安全性的检测方法、装置和电子设备 |
CN113268765A (zh) * | 2021-04-30 | 2021-08-17 | 杭州安恒信息技术股份有限公司 | 凭据检测方法、系统、电子装置和存储介质 |
CN115134164A (zh) * | 2022-07-18 | 2022-09-30 | 深信服科技股份有限公司 | 一种上传行为检测方法、系统、设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479994A (zh) * | 2016-06-07 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种基于分布式软件系统的日志文件处理方法、装置 |
CN109858254A (zh) * | 2019-01-15 | 2019-06-07 | 西安电子科技大学 | 基于日志分析的物联网平台攻击检测系统及方法 |
CN110008695A (zh) * | 2018-01-05 | 2019-07-12 | 中国信息通信研究院 | 一种基于分布式记账的混合型用户行为审计方法及系统 |
CN110389874A (zh) * | 2018-04-20 | 2019-10-29 | 比亚迪股份有限公司 | 日志文件异常检测方法和装置 |
-
2019
- 2019-12-16 CN CN201911295259.2A patent/CN111107079A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479994A (zh) * | 2016-06-07 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 一种基于分布式软件系统的日志文件处理方法、装置 |
CN110008695A (zh) * | 2018-01-05 | 2019-07-12 | 中国信息通信研究院 | 一种基于分布式记账的混合型用户行为审计方法及系统 |
CN110389874A (zh) * | 2018-04-20 | 2019-10-29 | 比亚迪股份有限公司 | 日志文件异常检测方法和装置 |
CN109858254A (zh) * | 2019-01-15 | 2019-06-07 | 西安电子科技大学 | 基于日志分析的物联网平台攻击检测系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914252A (zh) * | 2020-06-28 | 2020-11-10 | 新浪网技术(中国)有限公司 | 文件安全性的检测方法、装置和电子设备 |
CN113268765A (zh) * | 2021-04-30 | 2021-08-17 | 杭州安恒信息技术股份有限公司 | 凭据检测方法、系统、电子装置和存储介质 |
CN113268765B (zh) * | 2021-04-30 | 2022-06-17 | 杭州安恒信息技术股份有限公司 | 凭据检测方法、系统、电子装置和存储介质 |
CN115134164A (zh) * | 2022-07-18 | 2022-09-30 | 深信服科技股份有限公司 | 一种上传行为检测方法、系统、设备及计算机存储介质 |
CN115134164B (zh) * | 2022-07-18 | 2024-02-23 | 深信服科技股份有限公司 | 一种上传行为检测方法、系统、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992746B (zh) | 恶意行为挖掘方法及装置 | |
EP3771168B1 (en) | Abnormal user identification method | |
CN111107079A (zh) | 一种上传文件检测方法及装置 | |
CN111159413A (zh) | 日志聚类方法、装置、设备及存储介质 | |
CN111953665B (zh) | 服务器攻击访问识别方法及系统、计算机设备、存储介质 | |
CN111064719B (zh) | 文件异常下载行为的检测方法及装置 | |
CN116108393A (zh) | 电力敏感数据分类分级方法、装置、存储介质及电子设备 | |
CN111651755B (zh) | 入侵检测方法和装置 | |
CN114662602A (zh) | 一种离群点检测方法、装置、电子设备及存储介质 | |
CN117312825A (zh) | 一种目标行为检测方法、装置、电子设备及存储介质 | |
CN111368128B (zh) | 目标图片的识别方法、装置和计算机可读存储介质 | |
CN112836747A (zh) | 眼动数据的离群处理方法及装置、计算机设备、存储介质 | |
CN111159009B (zh) | 一种日志服务系统的压力测试方法及装置 | |
CN115809466B (zh) | 基于stride模型的安全需求生成方法、装置、电子设备及介质 | |
CN111224919B (zh) | 一种ddos识别方法、装置、电子设备及介质 | |
CN114513341B (zh) | 恶意流量检测方法、装置、终端及计算机可读存储介质 | |
CN112312590B (zh) | 一种设备通信协议识别方法和装置 | |
CN112073360B (zh) | 超文本传输数据的检测方法、装置、终端设备及介质 | |
CN109784047B (zh) | 基于多特征的程序检测方法 | |
CN114398994A (zh) | 基于图像识别的业务异常检测方法、装置、设备及介质 | |
CN113177609A (zh) | 数据类别不均衡的处理方法及设备、系统、存储介质 | |
CN117333926B (zh) | 一种图片聚合方法、装置、电子设备及可读存储介质 | |
CN114745161B (zh) | 一种异常流量的检测方法、装置、终端设备和存储介质 | |
CN114944962B (zh) | 一种数据安全防护方法及系统 | |
CN113726785B (zh) | 网络入侵检测方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200505 |
|
RJ01 | Rejection of invention patent application after publication |