CN113282928B - 恶意文件的处理方法、装置、系统、电子装置和存储介质 - Google Patents
恶意文件的处理方法、装置、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113282928B CN113282928B CN202110656274.6A CN202110656274A CN113282928B CN 113282928 B CN113282928 B CN 113282928B CN 202110656274 A CN202110656274 A CN 202110656274A CN 113282928 B CN113282928 B CN 113282928B
- Authority
- CN
- China
- Prior art keywords
- file
- newly added
- malicious
- unknown file
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种恶意文件的处理方法、装置、系统、电子装置和存储介质,其中,该处理方法包括:获取新增未知文件,并基于预设的特征数据库生成分类器;在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果;基于该第一分类结果检测该新增未知文件是否属于恶意文件;在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于该新增未知文件更新该特征数据库。通过本申请,解决了恶意文件的处理准确性低的问题,实现了基于行为特征信息的恶意文件处理方法。
Description
技术领域
本申请涉及网络安全技术领域,特别是涉及恶意文件的处理方法、装置、系统、电子装置和存储介质。
背景技术
自互联网的普及和发展过程中,具有毁坏系统、篡改文件、影响系统稳定与执行效率、窃取信息等的计算机恶意程序一直是计算机使用中的重要问题。这些恶意程序包括特洛伊木马程序,勒索软件,间谍程序等,它们可能对企业或用户造成极大的危害或是极大的财产损失。因此,使用有效手段进行精确的恶意文件识别以及阻断等处理,成为计算机安全防御的一个重点。
在相关技术中,一般是通过上传下载的文件哈希值与数据库内已有的恶意文件哈希信息进行比对,然后对恶意的文件进行阻拦或删除的操作来防止恶意文件在服务器及个人电脑上运行。然而,相关技术中的恶意文件处理方法只能针对已知的恶意文件进行检测和防御,无法有效识别未知恶意文件,且判断方式单一,存在较高的漏报率和误报率,导致恶意文件的处理准确性较低。
目前针对相关技术中恶意文件的处理准确性低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种恶意文件的处理方法、装置、系统、电子装置和存储介质,以至少解决相关技术中恶意文件的处理准确性低的问题。
第一方面,本申请实施例提供了一种恶意文件的处理方法,所述方法包括:
获取新增未知文件,并基于预设的特征数据库生成分类器;
在所述新增未知文件的运行时间大于或等于预设时间的情况下,将所述新增未知文件的行为特征信息以及所述特征数据库输入至所述分类器,并输出第一分类结果;
基于所述第一分类结果检测所述新增未知文件是否属于恶意文件;
在检测结果为所述新增未知文件属于所述恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于所述新增未知文件更新所述特征数据库。
在其中一些实施例中,所述基于所述第一分类结果检测所述新增未知文件是否属于恶意文件之后,所述方法还包括:
在所述检测结果为所述新增未知文件属于非恶意文件的情况下,将获取到的所述新增未知文件运行时系统指标与预设阈值进行对比;
在对比结果为所述系统指标大于或等于所述预设阈值的情况下,检测所述新增未知文件是否存在攻击行为;
若检测到所述新增未知文件存在所述攻击行为,则重新检测所述新增未知文件是否属于所述恶意文件。
在其中一些实施例中,在所述基于预设的特征数据库生成分类器之后,且在所述在检测结果为所述恶意文件检测成功的情况下,发送告警信息至终端以进行报警之前,所述方法还包括:
在所述新增未知文件的运行时间小于所述预设时间的情况下,将所述新增未知文件的文件哈希信息以及所述特征数据库输入至所述分类器,并输出第二分类结果;
基于所述第二分类结果检测所述新增未知文件是否属于所述恶意文件。
在其中一些实施例中,所述在所述检测结果为所述新增未知文件属于所述恶意文件的情况下,所述方法还包括:
若所述文件哈希信息与所述特征数据库完全匹配,则终止所述恶意文件产生的所有进程,或者,将所述恶意文件处于禁止访问状态和禁止调用状态。
在其中一些实施例中,所述基于预设的特征数据库生成分类器包括:
利用自组织映射(Self-organizing Maps,简称为SOM)算法,对所述特征数据库内存储的已知恶意文件进行取样得到训练样本数据,并基于所述训练样本数据生成所述分类器。
在其中一些实施例中,所述获取新增未知文件包括:
获取扫描到的待检测文件;
将所述待检测文件与预存储在远程服务器的备份数据进行对比,得到所述新增未知文件;其中,将获取到的所述新增未知文件存储在所述远程服务器上。
第二方面,本申请实施例提供了一种恶意文件的处理装置,所述装置包括:获取模块、分类模块、检测模块和告警模块;
所述获取模块,用于获取新增未知文件,并基于预设的特征数据库生成分类器;
所述分类模块,用于在所述新增未知文件的运行时间大于或等于预设时间的情况下,将所述新增未知文件的行为特征信息以及所述特征数据库输入至所述分类器,并输出第一分类结果;
所述检测模块,用于基于所述第一分类结果检测所述新增未知文件是否属于恶意文件;
所述告警模块,用于在检测结果为所述新增未知文件属于所述恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于所述新增未知文件更新所述特征数据库。
第三方面,本申请实施例提供了一种恶意文件的处理系统,所述系统包括:终端设备、传输设备以及服务器设备;其中,所述终端设备通过传输设备连接服务器设备;
所述终端设备用于显示告警信息;
所述传输设备用于传输所述告警信息;
所述服务器设备用于执行如上述第一方面所述的恶意文件的处理方法。
第四方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的恶意文件的处理方法。
第五方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的恶意文件的处理方法。
相比于相关技术,本申请实施例提供的恶意文件的处理方法、装置、系统、电子装置和存储介质,通过获取新增未知文件,并基于预设的特征数据库生成分类器;在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果;基于该第一分类结果检测该新增未知文件是否属于恶意文件;在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于该新增未知文件更新该特征数据库,解决了恶意文件的处理准确性低的问题,实现了基于行为特征信息的恶意文件处理方法。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种恶意文件的处理方法应用场景的示意图;
图2是根据本申请实施例的一种恶意文件的处理方法的流程图;
图3是根据本申请实施例的另一种恶意文件的处理方法的流程图;
图4是根据本申请优选实施例的一种恶意文件的处理方法的架构示意图;
图5是根据本申请实施例的一种恶意文件的处理装置的结构框图;
图6是根据本申请实施例的一种恶意文件的处理系统的结构框图;
图7是根据本申请实施例的一种计算机设备内部的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在本实施例中,提供了一种恶意文件的处理方法,图1是根据本申请实施例的一种恶意文件的处理方法应用场景的示意图,如图1所示,在该应用环境中,终端设备102通过网络与服务器设备104进行通信。该服务器设备104获取到新增未知文件,并基于该新增未知文件和特征数据库进行匹配以检测恶意文件,并将检测到的恶意文件更新到该特征数据库中;另外,该服务器设备104在检测到恶意文件后,发送告警信息至该终端设备102以进行报警。其中,终端设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器设备104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例还提供了一种恶意文件的处理方法,图2是根据本申请实施例的一种恶意文件的处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取新增未知文件,并基于预设的特征数据库生成分类器。
具体地,可以基于Linux内核提供的进程文件系统(Process file system,简称为Procfs),实现新增未知文件的精准收集,并且监控新增未知文件运行时的中央处理器(central processing unit,简称为CPU)、内存以及硬盘占用等进程相关文件,进程状态信息,并根据一段运行时间内CPU和输入/输出(Input/Output,简称为IO)的状态计算得出的负载状态。另外,可以基于信息摘要算法5(Message-Digest Algorithm 5,简称为MD5)、安全散列算法1(Secure Hash Algorithm 1,简称为SHA1)或SHA256等算法对新增未知文件进行哈希计算以得到文件哈希信息。通过上述方法,从而采集到主机上的上传、下载或传输的新增未知文件的哈希与进程信息;其中,采集字段包括:进程ID、用户ID、消耗的虚拟内存、CPU占用和使用物理内存百分比、进程执行的命令、以及开启的子进程信息。
需要说明的是,上述特征数据库的数据来源可以包括APT和威胁情报等;或者,也可以使用爬虫技术,分别从开源病毒网站收集公开的恶意文件并存储至该特征数据库中。该特征数据库内存储的数据包括已知恶意文件的文件哈希信息和行为特征信息。上述分类器的生成方法可以为:基于该特征数据库存储的数据学习联合概率密度分布,然后求出条件概率分布并作为预测的模型,即生成分类器,再利用该分类器进行分类;或者,该分类器的生成方法还可以为:基于该特征数据库存储的数据直接学习决策函数或者条件概率分布,并将其作为预测的模型,在此不再赘述。
步骤S204,在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果;基于该第一分类结果检测该新增未知文件是否属于恶意文件。
其中,上述预设时间可以是由管理员预先设置的通常文件启动所需要的一段时间,例如,该预设时间可以设置为3s或5s。则当上述新增未知文件的运行时间大于大于或等于该预设时间时,说明此时该新增未知文件已经启动运行一段时间,因此可以基于该新增未知文件在启用后的一段时间内的行为特征信息进行检测判断。该行为特征信息可以包括:新增未知文件在启动后是否创建或修改文件、是否与外部,例如其他主机IP进行了通讯、以及是否获取了本机内的如账号、密码或文件路径等信息,等等。
具体地,可以将上述特征行为信息,以及上述特征数据库内存储的已知恶意文件所对应的行为数据分别输入至上述分类器,并通过分类器对该特征行为信息以及各行为数据进行分类,进而输出基于该特征行为信息的第一分类结果。其中,若该第一分类结果为该特征行为信息匹配分类至某一已知恶意文件的同类别,则说明该新增未知文件属于恶意文件,即检测结果为恶意文件检测成功;相反地,若该第一分类结果为该特征行为信息单独为一类,则说明该新增未知文件未匹配到该特征数据库中的已知恶意文件,该新增未知文件可能不属于恶意文件,即检测结果为恶意文件检测失败。需要补充说明的是,该恶意文件是指会对个人计算机、服务器、智能设备、网络等设备,造成隐私或机密资料外泄、系统损害、资料丢失等非使用预期故障与信息安全问题的一类文件。
步骤S206,在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于该新增未知文件更新该特征数据库。
其中,若上述检测结果为上述新增未知文件属于恶意文件,则说明上述恶意文件检测成功。此时处理器可以针对该检测结果,利用告警功能将告警信息发送至终端以向用户显示,或者也可以将该告警信息设置为短信或邮件发送至指定设备进行告警。由于有些有入侵性行为的文件可能是用户日常所需要的,因此本实施例中仅进行告警,而不直接删除文件,使得用户可以基于告警信息选择删除这一新增未知文件或不做处理。
在相关技术中,通常只能针对已知的恶意文件进行检测和防御,对未发现或变种的恶意文件没有较好的防御方法。而本申请通过上述步骤S202至步骤S206,通过将获取到的新增未知文件与特征数据库输入至分类器进行对比,并根据分类器的输出结果确定恶意文件,从而实现了基于已知恶意软件的特征数据库,通过大量日志分析和机械学习的算法模型训练对新增未知文件进行匹配,以对未知的恶意文件和恶意文件的变种进行告警和阻断的方法,同时还基于新增未知文件更新特征数据库,使得特征数据库可以实现自我更新,缓解了相关技术中因未及时更新检测系统而带来的漏报、误报危害,解决了恶意文件的处理准确性低的问题,实现了基于行为特征信息的恶意文件处理方法。
在其中一些实施例中,提供了一种恶意文件的处理方法,图3是根据本申请实施例的另一种恶意文件的处理方法的流程图,如图3所示,该流程包括图2所示的步骤S202和步骤S204,此外还包括如下步骤:
步骤S302,在该检测结果为该新增未知文件属于非恶意文件的情况下,将获取到该新增未知文件运行时的系统指标与预设阈值进行对比;在对比结果为该系统指标大于或等于该预设阈值的情况下,检测该新增未知文件是否存在攻击行为。
其中,若上述检测结果为新增未知文件属于非恶意文件,则说明恶意文件检测失败,此时该新增未知文件可能是潜伏类型的文件。为了避免潜伏类型的恶意文件运行时难以检测所造成的漏检问题,处理器可以针对该新增未知文件进行复检。具体地,首先可以由管理员设置预设阈值;该预设阈值可以包括:标准状态下CPU占用率、运行时长、以及内存占用大小等参数。然后将该预设阈值与获取到的上述新增未知文件运行时的系统指标进行对比,该系统指标可以包括:该新增未知文件运行时的CPU占用率、运行时长、以及内存占用大小等参数。在对比得到该系统指标大于或等于该预设阈值的情况下,针对上述新增未知文件的进程再次进行检测,并判断该新增未知文件的进程是否存在攻击行为。该攻击行为可以包括:占用大量CPU、消耗内存异常、以及服务从未停止过等行为。
步骤S304,若检测到该新增未知文件存在该攻击行为,则重新检测该新增未知文件是否属于该恶意文件。
其中,若上述新增未知文件存在上述任一攻击行为,则说明该新增未知文件属于潜伏文件,可以将该新增未知文件视为恶意文件。需要说明的是,黑客攻击一般都是非定向的攻击,例如,群发包含恶意文件的邮件、在论坛网站上上传恶意文件、以及包含恶意文件的图片等。此类潜藏的恶意文件在初期并不会有任何的异常特征,因此如果是与外界通讯从而获取恶意文件进行执行或向外传输数据,则在潜伏期并不会被检测到,需要通过本实施例中步骤S204至步骤S206以针对恶意文件重新检测,从而在第一时间将恶意文件隔离或删除,将损失降到最低。
通过上述步骤S302至步骤S304,通过在检测到新增未知文件属于非恶意文件,且系统指标达到预设阈值的情况下,检测该新增未知文件是否存在攻击行为,并在该增未知文件存在攻击行为时重新检测该新增未知文件是否为恶意文件,从而避免了由于潜伏文件难以被检测所造成的漏检问题,有效提高了恶意文件处理的准确性。
在其中一些实施例中,在执行上述步骤S202之后,且在执行上述步骤S206之前,上述恶意文件的处理方法还包括如下步骤:
步骤S402,在该新增未知文件的运行时间小于该预设时间的情况下,将该新增未知文件的文件哈希信息以及该特征数据库输入至该分类器,并输出第二分类结果;基于该第二分类结果检测该恶意文件。
其中,若上述新增未知文件的运行时间小于上述预设时间,则说明此时该新增未知文件尚未启动,因此可以基于该新增未知文件的文件哈希信息、文件名以及文件内容等信息进行检测判断。该文件哈希信息可以通过MD5等算法对新增未知文件进行哈希计算得到。例如,可以将上述文件哈希信息,以及上述特征数据库内存储的已知恶意文件所对应的文件哈希分别输入至上述分类器,并通过分类器对该文件哈希信息以及各行为数据进行分类,进而输出基于该文件哈希信息的第二分类结果。若该第二分类结果为该文件哈希信息匹配分类至某一已知恶意文件的同类别,则说明该新增未知文件为恶意文件,即检测结果为恶意文件检测成功;相反地,若该第二分类结果为该文件哈希信息单独为一类,则说明该新增未知文件未匹配到该特征数据库中的已知恶意文件,该新增未知文件可能不属于恶意文件,即检测结果为恶意文件检测失败。
进一步地,上述在该检测结果为该新增未知文件属于该恶意文件的情况下,上述恶意文件的处理方法还包括如下步骤:若该文件哈希信息,包括上述行为特征信息等信息可以与该特征数据库中存储的信息完全匹配,说明此时上述新增未知文件确定为恶意文件,且不属于用户日常所需要的文件的可能性非常高,则处理器可以自动终止该恶意文件产生的所有进程,或者,自动将该恶意文件处于禁止访问状态和禁止调用状态,从而能够有效提高恶意文件的处理效率。
在相关技术中,由于对已放行的进程没有后续检测方案,导致对潜伏类型,即初期没有明显入侵行为的恶意文件无法很好的进行防御。而本申请通过上述步骤S402,将该新增未知文件的文件哈希信息以及该特征数据库输入至该分类器,进而检测到该新增未知文件是否为恶意文件,从而基于文件哈希实现了针对文件是否包含恶意代码的检测,进一步提高了恶意文件处理的准确性。
在其中一些实施例中,上述于预设的特征数据库生成分类器包括如下步骤:利用SOM算法,对该特征数据库内存储的已知恶意文件进行取样得到训练样本数据,并基于该训练样本数据生成该分类器。具体地,利用上述SOM算法,得到用于生成上述分类器的公式,如公式1所示:
Wv(s+1)=Wv(s)+θ(u,v,s)·α(s)·(D(t)-Wv(s)) 公式1
其中,s为当前的迭代,u为地图中各数据库中文件数据节点的索引,Wv是指v节点当前的权重向量,α(s)是基于迭代过程的学习限制,θ(u,v,s))是指领域函数,D(t)为传入的新增未知文件信息,该新增未知文件信息包括文件哈希和进程行为。通过上述公式1可以计算得到每个已知恶意文件之间的相似程度,并针对各已知恶意文件的特性实现量化。基于上述公式1,能够生成上述分类器,并由该分类器将上述已知恶意文件中取样得到的训练样本数据进行归类处理。
在其中一些实施例中,上述获取新增未知文件包括如下步骤:获取扫描到的待检测文件;将该待检测文件与预存储在远程服务器的备份数据进行对比,得到该新增未知文件;其中,将获取到的该新增未知文件存储在该远程服务器上。
具体地,处理器会对重点保护路径,例如web应用服务、数据库或系统文件目录等路径下的文件名以及文件哈希,例如SHA、MD5或SHA256的哈希值进行备份,以作为上述备份数据并提交至上述远程服务器。处理器通过定期进行扫描,将扫描到的待检测文件与存储在远程服务器的文件哈希等信息做对比,进而判断是否有新增文件,或者文件是否被修改,将判断检测到的新增文件或被修改的文件作为上述新增未知文件,并将该新增未知文件存储在远程服务器中,以便于检测文件自身或文件是否对其他文件进行篡改,为行为分析和进程异常检测提供数据。
下面结合实际应用场景对本发明的实施例进行详细说明,图4是根据本申请优选实施例的一种恶意文件的处理方法的架构示意图,如图4所示,该架构包括:信息采集模块、云端数据存储模块、异常检测模块、进程异常监测模块、以及恶意文件处理模块。
其中,该信息采集模块,用于采集主机上的上传、下载或传输文件的哈希与进程信息,进而获取新增未知文件。该云端数据存储模块,用于将采该新增未知文件的文件信息和对应的进程信息存储至云端,对恶意文件的行为分析和文件篡改检测提供数据。该异常检测模块,包含数据特征匹配模块和行为分析模块两大模块,用于对云端的系统日志数据进行分析与推演从而不断更新数据库内的信息,并通过基于SOM算法的无人监督学习对已知恶意文件的行为进行取样并训练样本数据,生成分类器;该异常检测模块的行为样本信息和分类器会为行为分析模块提供数据与模型,且该异常检测模块的文件哈希与特征信息将发送至数据特征匹配模块。该数据特征匹配模块,用于基于数据库内的已知的恶意文件哈希与特征进行匹配,将异常数据交由恶意文件处理模块处理;如果未匹配到则交由进程异常检测模块处理。该行为分析模块,用于基于文件启动后一段时间内的日志判断是否出现入侵行为,将异常数据交由恶意文件处理模块处理;如果未匹配到则交由进程异常检测模块处理。该进程异常监测模块,用于当系统的各项指标达到预设阈值时对新增未知文件的进程进行基于日志检测以及行为检测,并将异常数据交由恶意文件处理模块处理。该恶意文件处理模块,用于对恶意文件进行阻断和告警,提醒管理员对恶意文件进行判断后删除。并会将恶意文件的各项参数,特征与行为加入数据库对数据库内恶意文件信息进行更新。其中,该恶意文件模块模块还将特征数据库中识别到的恶意文件的文件信息和进程行为信息打上标签。
本申请通过通过将本地文件与其进程的行为信息上传到云端进行匹配分析来判断是否为攻击行为,并通过分析大量的日志数据与恶意文件的行为数据来补充云端数据库,从而能够发现恶意文件数据库外的变种攻击。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。例如,上述步骤S302可以在上述步骤S204之后执行,也可以在上述步骤S402之后执行。
本实施例还提供了一种恶意文件的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的一种恶意文件的处理装置的结构框图,如图5所示,该装置包括:获取模块52、分类模块54、检测模块56和告警模块58。
该获取模块52,用于获取新增未知文件,并基于预设的特征数据库生成分类器;该分类模块54,用于在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果;该检测模块56,用于基于该第一分类结果检测该新增未知文件是否属于恶意文件;该告警模块58,用于在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于该新增未知文件更新该特征数据库。
通过上述实施例,通过分类模块54将获取到的新增未知文件与特征数据库输入至分类器进行对比,并通过检测模块根据分类器的输出结果确定恶意文件,从而实现了基于已知恶意软件的特征数据库,通过大量日志分析和机械学习的算法模型训练对新增未知文件进行匹配,以对未知的恶意文件和恶意文件的变种进行告警和阻断的方法,同时还通过告警模块58,基于新增未知文件更新特征数据库,使得特征数据库可以实现自我更新,缓解了相关技术中因未及时更新检测系统而带来的漏报、误报危害,解决了恶意文件的处理准确性低的问题,实现了基于行为特征信息的恶意文件处理装置。
在其中一些实施例中,上述恶意文件的处理装置还包括复检模块;该复检模块,用于在该检测结果为该新增未知文件属于非恶意文件的情况下,将获取到的该新增未知文件运行时的系统指标与预设阈值进行对比;该复检模块在对比结果为该系统指标大于或等于该预设阈值的情况下,检测该新增未知文件是否存在攻击行为;该复检模块若检测到该新增未知文件存在该攻击行为,则重新检测该新增未知文件是否属于该恶意文件。
在其中一些实施例中,上述分类模块54还用于在该新增未知文件的运行时间小于该预设时间的情况下,将该新增未知文件的文件哈希信息以及该特征数据库输入至该分类器,并输出第二分类结果;上述检测模块56还用于基于该第二分类结果检测该新增未知文件是否属于该恶意文件。
在其中一些实施例中,上述告警模块58还用于在该新增未知文件属于该恶意文件的情况下,若该文件哈希信息与该特征数据库完全匹配,则终止该恶意文件产生的所有进程,或者,将该恶意文件处于禁止访问状态和禁止调用状态。
在其中一些实施例中,上述获取模块52还用于利用SOM算法,对该特征数据库内存储的已知恶意文件进行取样得到训练样本数据,并基于该训练样本数据生成该分类器。
在其中一些实施例中,上述获取模块52还用于获取扫描到的待检测文件;该获取模块将该待检测文件与预存储在远程服务器的备份数据进行对比,得到该新增未知文件;其中,将获取到的该新增未知文件存储在该远程服务器上。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种恶意文件的处理系统,图6是根据本申请实施例的一种恶意文件的处理系统的结构框图,如图6所示,该系统包括:终端设备102、传输设备62以及服务器设备104;其中,该终端设备102通过传输设备62连接服务器设备104;
该终端设备102用于显示告警信息;该传输设备62用于传输该告警信息;该服务器设备104用于获取新增未知文件,并基于预设的特征数据库生成分类器;该服务器设备104在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果;该服务器设备104基于该第一分类结果检测该新增未知文件是否属于恶意文件;该服务器设备在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备102以进行报警,并基于该新增未知文件更新该特征数据库。
通过上述实施例,服务器设备104将获取到的新增未知文件与特征数据库输入至分类器进行对比,并根据分类器的输出结果确定恶意文件,从而实现了基于已知恶意软件的特征数据库,通过大量日志分析和机械学习的算法模型训练对新增未知文件进行匹配,以对未知的恶意文件和恶意文件的变种进行告警和阻断的方法,同时该服务器设备104还基于新增未知文件更新特征数据库,使得特征数据库可以实现自我更新,缓解了相关技术中因未及时更新检测系统而带来的漏报、误报危害,解决了恶意文件的处理准确性低的问题,实现了基于行为特征信息的恶意文件处理系统。
在其中一些实施例中,上述服务器设备104还用于在该检测结果为该新增未知文件属于非恶意文件的情况下,将获取到的该新增未知文件运行时的系统指标与预设阈值进行对比;该服务器设备104在对比结果为该系统指标大于或等于该预设阈值的情况下,检测该新增未知文件是否存在攻击行为;该服务器设备104若检测到该新增未知文件存在该攻击行为,则重新检测该新增未知文件是否属于该恶意文件。
在其中一些实施例中,上述服务器设备104还用于在该新增未知文件的运行时间小于该预设时间的情况下,将该新增未知文件的文件哈希信息以及该特征数据库输入至该分类器,并输出第二分类结果;该服务器设备104基于该第二分类结果检测该新增未知文件是否属于该恶意文件。
在其中一些实施例中,上述服务器设备104还用于在该检测结果为该新增未知文件属于该恶意文件的情况下,若该文件哈希信息与该特征数据库完全匹配,则终止该恶意文件产生的所有进程,或者,将该恶意文件处于禁止访问状态和禁止调用状态。
在其中一些实施例中,上述服务器设备104还用于利用SOM算法,对该特征数据库内存储的已知恶意文件进行取样得到训练样本数据,并基于该训练样本数据生成该分类器。
在其中一些实施例中,上述恶意文件的处理系统还包括远程服务器;该远程服务器,用于存储备份数据和新增未知文件;上述服务器设备104,还用于获取扫描到的待检测文件;该服务器设备104将该待检测文件与预存储在远程服务器的备份数据进行对比,得到该新增未知文件;其中,将获取到的该新增未知文件存储在该远程服务器上。
在其中一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,图7是根据本申请实施例的一种计算机设备内部的结构图,如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储特征数据库。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种恶意文件的处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取新增未知文件,并基于预设的特征数据库生成分类器。
S2,在该新增未知文件的运行时间大于或等于预设时间的情况下,将该新增未知文件的行为特征信息以及该特征数据库输入至该分类器,并输出第一分类结果。
S3,基于该第一分类结果检测该新增未知文件是否属于恶意文件。
S4,在检测结果为该新增未知文件属于该恶意文件的情况下,发送告警信息至终端设备以进行报警,并基于该新增未知文件更新该特征数据库。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的恶意文件的处理方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种恶意文件的处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种恶意文件的处理方法,其特征在于,所述方法包括:
获取新增未知文件,并基于预设的特征数据库生成分类器;
在所述新增未知文件的运行时间大于或等于预设时间的情况下,将所述新增未知文件的行为特征信息以及所述特征数据库输入至所述分类器,并输出第一分类结果;基于所述第一分类结果检测所述新增未知文件是否属于恶意文件;
在所述新增未知文件的运行时间小于所述预设时间的情况下,将所述新增未知文件的文件哈希信息以及所述特征数据库输入至所述分类器,并输出第二分类结果;基于所述第二分类结果检测所述新增未知文件是否属于所述恶意文件;
所述预设时间是预先设置的通常文件启动所需要的时间;
在检测结果为所述新增未知文件属于所述恶意文件的情况下,分类器检测成功,发送告警信息至终端设备以进行报警,并基于所述新增未知文件更新所述特征数据库,否则,分类器检测失败。
2.根据权利要求1所述的处理方法,其特征在于,所述基于所述第一分类结果检测所述新增未知文件是否属于恶意文件之后,所述方法还包括:
在所述检测结果为所述新增未知文件属于非恶意文件的情况下,将获取到的所述新增未知文件运行时的系统指标与预设阈值进行对比;
在对比结果为所述系统指标大于或等于所述预设阈值的情况下,检测所述新增未知文件是否存在攻击行为;
若检测到所述新增未知文件存在所述攻击行为,则重新检测所述新增未知文件是否属于所述恶意文件。
3.根据权利要求1所述的处理方法,其特征在于,所述在所述检测结果为所述新增未知文件属于所述恶意文件的情况下,所述方法还包括:
若所述文件哈希信息与所述特征数据库完全匹配,则终止所述恶意文件产生的所有进程,或者,将所述恶意文件处于禁止访问状态和禁止调用状态。
4.根据权利要求1所述的处理方法,其特征在于,所述基于预设的特征数据库生成分类器包括:
利用SOM算法,对所述特征数据库内存储的已知恶意文件进行取样得到训练样本数据,并基于所述训练样本数据生成所述分类器。
5.根据权利要求1至4任一项所述的处理方法,其特征在于,所述获取新增未知文件包括:
获取扫描到的待检测文件;
将所述待检测文件与预存储在远程服务器的备份数据进行对比,得到所述新增未知文件;其中,将获取到的所述新增未知文件存储在所述远程服务器上。
6.一种恶意文件的处理装置,其特征在于,所述装置包括:获取模块、分类模块、检测模块和告警模块;
所述获取模块,用于获取新增未知文件,并基于预设的特征数据库生成分类器;
所述分类模块,用于在所述新增未知文件的运行时间大于或等于预设时间的情况下,将所述新增未知文件的行为特征信息以及所述特征数据库输入至所述分类器,并输出第一分类结果;在所述新增未知文件的运行时间小于所述预设时间的情况下,将所述新增未知文件的文件哈希信息以及所述特征数据库输入至所述分类器,并输出第二分类结果;
所述检测模块,用于基于所述第一分类结果检测所述新增未知文件是否属于恶意文件;基于所述第二分类结果检测所述新增未知文件是否属于所述恶意文件;
所述告警模块,用于在检测结果为所述新增未知文件属于所述恶意文件的情况下,分类器检测成功,发送告警信息至终端设备以进行报警,并基于所述新增未知文件更新所述特征数据库,否则,分类器检测失败。
7.一种恶意文件的处理系统,其特征在于,所述系统包括:终端设备、传输设备以及服务器设备;其中,所述终端设备通过传输设备连接服务器设备;
所述终端设备用于显示告警信息;
所述传输设备用于传输所述告警信息;
所述服务器设备用于执行如权利要求1至5中任一项所述的恶意文件的处理方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任一项所述的恶意文件的处理方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的恶意文件的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110656274.6A CN113282928B (zh) | 2021-06-11 | 2021-06-11 | 恶意文件的处理方法、装置、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110656274.6A CN113282928B (zh) | 2021-06-11 | 2021-06-11 | 恶意文件的处理方法、装置、系统、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282928A CN113282928A (zh) | 2021-08-20 |
CN113282928B true CN113282928B (zh) | 2022-12-20 |
Family
ID=77284627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110656274.6A Active CN113282928B (zh) | 2021-06-11 | 2021-06-11 | 恶意文件的处理方法、装置、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282928B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434872A (zh) * | 2021-08-27 | 2021-09-24 | 迅管(深圳)科技有限公司 | 一种可针对恶意程序进行识别防御的数据库安全系统 |
CN114003903B (zh) * | 2021-12-28 | 2022-03-08 | 北京微步在线科技有限公司 | 一种网络攻击追踪溯源方法及装置 |
TWI827203B (zh) * | 2022-08-18 | 2023-12-21 | 中華電信股份有限公司 | 容器之惡意檔案的驗證系統和驗證方法 |
CN116204879B (zh) * | 2022-12-30 | 2023-12-05 | 之江实验室 | 恶意文件检测方法、装置、电子装置及存储介质 |
CN117376022A (zh) * | 2023-11-23 | 2024-01-09 | 江苏瀚天智能科技股份有限公司 | 一种基于深度学习的检测未知网络攻击的异常检测系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793649A (zh) * | 2013-11-22 | 2014-05-14 | 北京奇虎科技有限公司 | 通过云安全扫描文件的方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080141376A1 (en) * | 2006-10-24 | 2008-06-12 | Pc Tools Technology Pty Ltd. | Determining maliciousness of software |
CN106778241B (zh) * | 2016-11-28 | 2020-12-25 | 东软集团股份有限公司 | 恶意文件的识别方法及装置 |
CN110019790B (zh) * | 2017-10-09 | 2023-08-22 | 阿里巴巴集团控股有限公司 | 文本识别、文本监控、数据对象识别、数据处理方法 |
CN108347430B (zh) * | 2018-01-05 | 2021-01-12 | 国网山东省电力公司济宁供电公司 | 基于深度学习的网络入侵检测和漏洞扫描方法及装置 |
CN110619211A (zh) * | 2018-06-20 | 2019-12-27 | 深信服科技股份有限公司 | 一种基于动态特征的恶意软件识别方法、系统及相关装置 |
RU2708356C1 (ru) * | 2018-06-29 | 2019-12-05 | Акционерное общество "Лаборатория Касперского" | Система и способ двухэтапной классификации файлов |
-
2021
- 2021-06-11 CN CN202110656274.6A patent/CN113282928B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793649A (zh) * | 2013-11-22 | 2014-05-14 | 北京奇虎科技有限公司 | 通过云安全扫描文件的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113282928A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113282928B (zh) | 恶意文件的处理方法、装置、系统、电子装置和存储介质 | |
EP3420489B1 (en) | Cybersecurity systems and techniques | |
CA2819832C (en) | Detecting malicious software through contextual convictions, generic signatures and machine learning techniques | |
US9218461B2 (en) | Method and apparatus for detecting malicious software through contextual convictions | |
US11522877B2 (en) | Systems and methods for identifying malicious actors or activities | |
US9158915B1 (en) | Systems and methods for analyzing zero-day attacks | |
US10122742B1 (en) | Classifying software modules based on comparisons using a neighborhood distance metric | |
US10216934B2 (en) | Inferential exploit attempt detection | |
US11403389B2 (en) | System and method of detecting unauthorized access to computing resources for cryptomining | |
JP2019003598A (ja) | 異常な事象を検出するシステム及び方法 | |
US10073980B1 (en) | System for assuring security of sensitive data on a host | |
Martinelli et al. | I find your behavior disturbing: Static and dynamic app behavioral analysis for detection of android malware | |
Akhtar | Malware detection and analysis: Challenges and research opportunities | |
Kumar et al. | Identification of Android malware using refined system calls | |
Casolare et al. | On the resilience of shallow machine learning classification in image-based malware detection | |
Kim et al. | Runtime detection framework for android malware | |
CN116319074B (zh) | 一种基于多源日志的失陷设备检测方法、装置及电子设备 | |
Zhang et al. | Targeted malicious email detection using hypervisor-based dynamic analysis and ensemble learning | |
US11449610B2 (en) | Threat detection system | |
Daniel et al. | A Panoramic View of Cyber Attack Detection and Prevention Using Machine Learning and Deep Learning Approaches | |
Stokes et al. | Scalable telemetry classification for automated malware detection | |
Alsubaie et al. | Building Machine Learning Model with Hybrid Feature Selection Technique for Keylogger Detection. | |
CN110798356A (zh) | 固件监控方法、装置、存储介质和计算机设备 | |
US20230275908A1 (en) | Thumbprinting security incidents via graph embeddings | |
US20230244786A1 (en) | File integrity monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |