CN113971285A - 一种终端恶意进程识别方法、装置、设备及可读存储介质 - Google Patents
一种终端恶意进程识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113971285A CN113971285A CN202010728461.6A CN202010728461A CN113971285A CN 113971285 A CN113971285 A CN 113971285A CN 202010728461 A CN202010728461 A CN 202010728461A CN 113971285 A CN113971285 A CN 113971285A
- Authority
- CN
- China
- Prior art keywords
- terminal
- api
- behavior
- malicious
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 235
- 230000008569 process Effects 0.000 title claims abstract description 186
- 230000006399 behavior Effects 0.000 claims abstract description 148
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 abstract description 21
- 230000003068 static effect Effects 0.000 abstract description 4
- 230000004069 differentiation Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 66
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005422 blasting Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种终端恶意进程识别方法,通过获取终端进程的行为数据,对所述行为数据进行向量化处理后输入至预训练的分类器进行恶意进程识别划分。该方法通过获取进程行为数据,针对进程行为进行动态分析,相对于传统的文件特征检测,可以避免静态特征分析中容易出现的历史特征容易失效的问题,从恶意进程的动态行为出发进行分析,从恶意进程的本质实现进程区分,可以有效区分正常进程和恶意进程,提升检测的精准度。本申请还提供了一种终端恶意进程识别装置、设备及可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及电子技术领域,特别涉及一种终端恶意进程识别方法、终端恶意进程识别装置、终端恶意进程识别设备及计算机可读存储介质。
背景技术
在日常的商业活动中存在大量的终端,而在终端上会有很多事件,其中有些事件是符合用户预期的,也有一些事件是黑客通过非法手段入侵终端、在用户的预期之外执行的,这些用户预期之外实施恶意事件的进程被称为恶意进程。
由于防护措施的缺陷、使用人员安全意识薄弱等原因,恶意进程时有发生。恶意进程会对用户造成多种类型的危害,可能会导致关键数据的泄露,关键数据比如商业机密、员工信息、客户资料等,这些数据的泄露会造成难以估量的伤害;还可能会导致终端无法使用,一种典型的恶意进程,如勒索软件执行时会加密用户终端上的所有数据,破坏终端的可用性,而通常黑客会使用非对称加密,在没有私钥的情况下难以解密,为了恢复终端的可用性,不得不向黑客支付大笔的赎金,进一步导致经济损失;另外,恶意进程还会非法控制终端进行恶意活动,例如终端被黑客控制成为“肉鸡”,参与其他网络攻击行为,例如账号爆破,DDOS(Distributed Denial of Service,分布式拒绝服务)等,影响其他终端的安全性。恶意进程会利用终端漏洞进行攻击以及传播,影响金融,能源,医疗等众多行业,造成全球性的IT灾难,因此,对于恶意进程的防控对于用户机密以及财产安全十分重要。
恶意进程往往以恶意文件作为载体,常见的恶意文件包括病毒、木马等。现有的防御技术,主要是在可执行文件(Image File)执行前,根据预先捕获的恶意进程样本规则对文件进行相应的规则检测识别,判断其中是否具有现有的恶意进程特征。但是目前恶意进程攻击日新月异,对病毒文件代码稍加修改后可能就无法成功识别,仅基于历史攻击事件分析得到的规则特征进行识别存在对0Day响应延迟以及黑客蓄意绕过的情况,检测精准度低。
发明内容
本申请的目的是提供一种终端恶意进程识别方法,该方法可以显著提升终端恶意进程的检测精准度,有效保证终端系统运行的安全性;本申请的另一目的是提供一种终端恶意进程识别装置、设备及可读存储介质。
为解决上述技术问题,本申请提供一种终端恶意进程识别方法,包括:
获取终端进程的行为数据;
对所述行为数据进行向量化处理,生成行为向量;
将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
可选地,所述行为数据包括API序列,所述API序列为:基于所述终端进程运行过程中调用各个API的先后顺序所生成的序列;
相应地,所述获取终端进程的行为数据,包括:
从与所述终端进程关联的API日志中提取出所述终端进程的所述API序列。
可选地,对所述行为数据进行向量化处理,生成行为向量,包括:
基于所述API序列,提取出所述终端进程的API频次、TF-IDF权重、N-Gram信息和/或API出现次序,作为统计量,其中,所述API频次为在所述终端进程中API出现的数量,所述TF-IDF权重为用于评估API对所述终端进程的重要程度的参数,所述N-Gram信息为在所述终端进程中,连续调用N个API序列的频次,所述API出现次序为API在所述终端进程中各个被调用的API中首次出现的顺序;
将所述统计量以向量形式表示,生成所述行为向量。
可选地,对所述行为数据进行向量化处理,生成行为向量,包括:
将所述API序列进行序列向量化处理,生成所述行为向量。
可选地,对所述行为数据进行向量化处理,生成行为向量,包括:
将与所述终端进程关联的文件以及所述行为数据作为实体,构造异构关系图,其中,与所述终端进程关联的文件为构造异构关系图的主体;
将所述异构关系图编码至向量空间,生成所述行为向量。
可选地,对所述行为数据进行向量化处理,生成行为向量,包括:
检测所述行为数据中是否出现预设事件,生成检测记录;
根据所述检测记录生成所述预设事件的发生统计数据;
将所述发生统计数据进行向量化表示处理,生成所述行为向量。
可选地,在将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果之后,还包括:
根据所述分类结果筛选出恶意进程;
将所述恶意进程输出至用户端。
本申请公开一种终端恶意进程识别装置,包括:
数据获取单元,用于获取终端进程的行为数据;
向量化处理单元,用于对所述行为数据进行向量化处理,生成行为向量;
行为分类单元,用于将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
本申请公开一种终端恶意进程识别设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现所述终端恶意进程识别方法的步骤。
恶意进程的代码实现多种多样,但是具体实现某种非法目的时需要执行的动作以及行为是大致固定的,比如获取、篡改某部分数据等。本申请所提供的终端恶意进程识别方法,通过获取终端进程的行为数据,对行为数据进行向量化处理后输入至预训练的分类器进行恶意进程识别划分。该方法通过获取事件行为数据,针对事件行为进行动态分析,相对于传统的文件特征检测,可以避免静态特征分析中容易出现的历史特征容易失效的问题,从恶意进程的动态行为出发进行分析,从恶意进程的本质实现进程区分,可以有效区分正常进程和恶意进程,提升检测的精准度。
本申请还提供了一种终端恶意进程识别装置、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种终端恶意进程识别方法的流程图;
图2为本申请实施例提供的一种调用NtOpenFile打开文件事件的API日志示意图;
图3为本申请实施例提供的一种终端恶意进程识别装置的结构框图;
图4为本申请实施例提供的一种终端恶意进程识别设备的结构示意图。
具体实施方式
本申请的核心是提供一种终端恶意进程识别方法,该方法可以显著提升终端恶意进程的检测精准度,有效保证终端系统运行的安全性;本申请的另一核心是提供一种终端恶意进程识别装置、设备及可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
请参考图1,图1为本实施例提供的一种终端恶意进程识别方法的流程图;该方法主要包括:
步骤s110、获取终端进程的行为数据;
终端指用于用户信息的输入和/或处理结果的输出的设备,包括个人电脑,笔记本电脑、手机或者服务器设备等,本实施例中对监测的终端类型不做限定。
在计算机中,所有的事件都是通过进程运行的,一个进程可体现出多个事件。首先审计终端中发生的进程(可审计所有进程,也可审计部分进程),获取审计的进程的行为数据,本申请中行为数据可以为该进程所体现事件的相关数据。
本实施例中对获取行为数据的途径不做限定,可选地,可以从进程相关的日志中提取该进程的行为数据,所述日志可以为API日志、系统事件日志或者其他事件日志。而API日志、系统事件日志以及其他事件日志均可以从系统(比如Windows安全事件日志)或者其他软件日志中提取。本实施例中对于行为数据获取方式不做限定,可以实际运行检测的需求进行相应设定。
如图2所示,展示了待审计的进程对应的API日志的一部分,附图2展示了该待审计的进程调用了NtOpenFile打开文件这一API,且展示了调用NtOpenFile这一API时的相关参数,则在本申请实施例中,调用NtOpenFile这一API函数以及调用该API时的相关参数可以为该待审计的进程的行为数据。
恶意进程的代码实现多种多样,但是具体实现某种非法目的时需要执行的动作以及行为是大致固定的,比如获取、篡改某部分数据等。相对于传统的文件特征检测,本申请中通过获取进程的行为数据,针对行为进行动态分析,可以避免静态特征分析中容易出现的历史特征易失效的问题,从恶意进程的动态行为出发进行分析,可以有效区分正常进程和恶意进程,提升检测的精准度。
步骤s120、对行为数据进行向量化处理,生成行为向量;
为便于使用分类器实现行为数据的机器学习分类,保证高精准度的行为分析,本申请中需要首先对行为数据进行向量化处理(Vectorization),以向量形式表示进程。其中向量化在机器学习领域指将数据表示为一组向量。
本实施例中对于向量化处理的具体实现流程不做限定,向量化处理过程可以采用比如One-Hot编码、Word2Vec方法、统计量等方式来实现。此外,在本申请实施例中,对行为数据进行向量化处理,可以首先确定行为数据中的关键信息点,然后对关键信息点进行向量化处理,其中,所述关键点信息可以根据实际应用领域中常见的恶意行为以及与重要数据相关的信息点等因素来确定。
对行为数据进行向量化处理后,即可得到以向量形式表示的行为数据,作为行为向量。
步骤s130、将行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
分类器是数据挖掘中对样本进行分类的方法的统称,在本步骤中调用预训练的分类器对行为向量进行恶意进程识别划分。其中,分类器依靠大量样本行为向量进行模型的训练,以保证分类器的高识别精度,模型的训练过程可以参照现有技术,在此不再赘述。
另外,本步骤中具体采用的分类器的模型类型不做限定,可以使用逻辑回归(Logistic Regression,LR)、多层感知器神经网络(muhilayer perceptron neuralnetworks,MLPNN)、决策树(Decision Tree,DT)、随机森林(RandomForests,RF)等传统的分类算法,也可以采用CNN(卷积神经网络,Convolutional Neural Networks)、RNN(循环神经网络,Recurrent Neural Network)等基于深度学习的分类器,本实施例中对于采用的分类器的具体种类不做限定,可以根据实际使用需要进行选择。
在分类器训练完成后,分类器即具有了高精准度的行为分类能力,将行为向量输入至分类器后,分类器通过提取行为向量的深度行为特征进行恶意进程的识别划分,实现高精准度的正常进程与恶意进程的区分,此外根据实际情况,还可以进一步将疑似恶意进程进行区分。
在得到分类结果后的执行步骤不做限定,可以以各种方式提示用户存在恶意行为,比如可以通过IM(即时通讯软件,Instant Messaging)、邮箱、网页等方式实现用户提示,也可以进一步地输出相关数据至用户端以便进行进一步分析等。可选地,在得到分类结果之后,可以根据分类结果筛选出可疑行为数据(即:对应恶意进程以及疑似恶意进程的行为数据);并将可疑行为数据以及对应的分类结果输出至用户端。将可疑行为数据以及对应的分类结果输出至用户端可以实现提示功能的同时保证恶意进程或疑似恶意进程行为的及时响应以及及时处理,保障系统运行的安全性。
而为了进一步保证通过恶意进程的发生实现系统漏洞的定位以及消除,在根据分类结果筛选出可疑行为数据之后,可以进一步获取可疑行为数据所属的进程以及该进程相关文件,以实现通过原始进程数据以及关联文件实现对于恶意进程出现的源头进行精准分析,并可及时消除系统漏洞,保障系统安全,则相应地,将可疑行为数据以及对应的分类结果输出至用户端,可以具体为:将可疑行为数据所属的进程、所属进程相关的文件、可疑行为数据以及对应的分类结果输出至用户端。
需要说明的是,本实施例中提供的终端恶意进程识别过程的执行端不做限定,可以在被检测的终端中执行,也可以在除该终端之外的其他设备中执行。
基于上述介绍,本实施例提供的终端恶意进程识别方法通过获取进程行为数据,针对进程行为进行动态分析,相对于传统的文件特征检测,可以避免静态特征分析中容易出现的历史特征容易失效的问题,从恶意进程的动态行为出发进行分析,从恶意进程的本质实现进程区分,可以有效区分正常进程和恶意进程(还可包括疑似恶意进程),提升检测的精准度。
实施例二:
区别于实施例一,本实例主要在实施例一的基础上,进一步介绍四种步骤s120的具体实施方式。但本来领域技术人员应该理解,本申请对向量化处理的实现方式不做限定,可以根据实际配置需要进行相应设置。
1、一种对行为数据进行向量化处理的方式如下:
(1)提取出行为数据中的API频次、TF-IDF(term frequency-inverse documentfrequency,词频-逆文档频率)权重、N-Gram(N元组)信息和/或API出现次序,作为统计量;
(2)将统计量以向量形式表示,生成行为向量。
该处理方式基于统计的方法,主要基于API序列(该API序列的含义为:按照API调用先后顺序生成的列表),通过提取API频次、TF-IDF权重、N-Gram信息、API出现次序等信息作为统计量,可以保证有用信息的全面保留,有利于精准的行为分析。
其中,API频次指在一个进程中不同的API出现的数量。
TF-IDF权重是用于评估一个API对该进程的重要程度的参数。
本申请给出TF-IDF权重的一种计算方式,即,可以首先计算TF,TF=sum(API)/sum(all_API),该公式表示该进程中该API的数量除以在所有进程中该API的数量。IDF=-lg(sum(process:API in process)/sum(process)),表示包含该API的进程数量除以所有的进程数量,然后取其lg值的负值(本领域技术人员容易理解,此处所给的TF以及IDF的计算方法需要对所有进程进行监控),显然,包含该API的进程数量越少IDF的值越大,该公式表示该API在所有文档中的普遍情况,然后,TF-IDF=TF*IDF(本申请给出的仅仅是TF-IDF的一种具体的计算方法,其他的能够评估某个API对进程的重要程度的计算方式均可应用在本申请)。
下面介绍N-Gram信息的含义,在API序列中,将连续调用的N个API作为一个整体进行考虑,进而统计频次,即N-Gram。这里对N并未做限定,通常处于性能考虑不会选择过大的N。
例如我们有一个API序列["NtOpenFile","NtOpenKey","NtQueryValueKey","NtClose"],那么假如N=2,["NtOpenFile|NtOpenKey","NtOpenKey|NtQueryValueKey","NtQueryValueKey|NtClose"],他们分别出现的频次可以都是1,也即是2-Gram如下:先调用NtOpenFile,再调用NtOpenKey的频次为1;先调用NtOpenKey再调用NtQueryValueKey的频次为1;先调用NtQueryValueKey,再调用NtClose的频次为1。当然本领域技术任意容易理解,连续调用的N个API具体是什么,API可以进行自定义设置。
下面对“API出现次序”进行解释。可以考虑API出现的次序,以辅助行为分析。所述API出现次序为API被首次调用时,在全部的各个API中的排列顺序。例如在API序列["NtOpenFile","NtOpenKey","NtQueryValueKey","NtClose"]中"NtOpenFile"出现的次序是1,"NtOpenKey"出现的次序是2,以此类推。
在此对统计量中具体包含的数据类别不做限定,本实施例中仅以API频次、TF-IDF权重、N-Gram信息、API出现次序进行详细介绍,也可以考虑API出现的相对次序(指在相对于其他API的出现次序)等信息,在此不再赘述。
此外,本领域技术人员容易理解,单单考虑API频次时,可以生成一个行为向量(比如,考虑API函数为api-x、api-y以及api-z时,其分别被调用的频次为10、20以及15,则行为向量可以为[10,20,15]),同理,单单考虑TF-IDF权重等其他参数是,也能生成一个行为向量,因此,当考虑多个统计量时,可以采用向量组合/筛选的方式,得到一个最终的行为向量。所述向量组合指将多个行为向量组合成一个新的行为向量,所述向量筛选指从多个行为向量中选出部分(比如一个,若选择部分时,还需将部分行为向量进行组合)行为向量输入至分类器中。
2、一种对行为数据进行向量化处理的方式如下:
(1)将与所述终端进程关联的文件以及所述行为数据作为实体,构造异构关系图,其中,与所述终端进程关联的文件为构造异构关系图的主体。在本申请实施例中,所述行为数据包括API、DLL(Dynamic Link Library,动态链接库)、注册表、文件指纹和/或文件签名等数据;
(2)将异构关系图编码至向量空间,生成行为向量。
为使本领域技术人员对“异构关系图”有了解,下面对图论中的一些名词进行解释:
图(Graph):图论术语,图G是指一个三元组(V,E,I),其中V称为顶集,E称为边集,E与V不相交,I称为关联函数,I将E中的每一个元素映射到V。例如,如果边e被映射到顶点(u,v),那么称边e连接顶点u,v,而u,v则称作e的端点,u,v此时关于e相邻;又例如,若两条边i,j有一个公共顶点u,则称i,j关于u相邻。
异构关系图(Heterogeneous Graph简写为HG):通常在图中,顶点和顶点之间具有相同的类型,边和边之间具有相同的类型。在现实生活中,往往存在不同类型间的联系。为每个顶点添加辅助信息,以支持不同类型的节点。形成异构图。常见的辅助信息有:标签(用于标记类别信息),属性(用于标记具体的属性信息),节点特性(节点特有属性),信息传播(信息传播路径),知识库(关于节点的额外知识)等。
本申请将步骤S101的行为数据以及终端进程关联的文件作为异构关系图的构造实体,从而得到异构关系图,在构造了异构关系图之后,将整个图编码进向量空间,具体可以使用graph2vec等方法,从中提取出文件的向量,作为终端进程的向量表示。该异构关系图主要体现进程使用了哪些API、修改了哪些注册表、加载了哪些DLL、共享哪些文件指纹、使用哪些签名等信息。
本实施例中使用异构关系图实现向量化处理,可以通过异构关系图中实体之间的关系辅助恶意行为分析,有助于提升分析精准度。
3、一种对行为数据进行向量化处理的方式如下:
(1)将行为数据的API序列进行序列向量化处理,生成行为向量。
可以将进程理解为一个API序列,从该角度进行进程数据分析后,可以使用序列向量化的方法,提升数据向量化处理效率。比如可以将API理解为一个单词,将进程理解为一个文档,从而可以使用LSTM(Long Short-Term Memory长短期记忆网络)等序列向量化处理方法,将API序列输入到LSTM中,得到一个向量化的输出。
4、一种对行为数据进行向量化处理的方式如下:
(1)检测行为数据中是否出现预设事件,生成检测记录;
(2)根据检测记录生成预设事件发生统计数据;
(3)将预设事件发生统计数据进行向量化表示处理,生成行为向量。
比如,可以利用先验知识构造预设事件,以统计预设事件的发生次数为例,假如预设事件为修改注册表“HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\RunO nce”,由于修改注册表将会改变Windows在用户登陆后的行为,可认为是异常事件,因此可以将修改注册表作为一种预设事件。检测进程中是否出现修改注册表行为,当发现进程修改该注册表时,对应的发生次数+1。这样基于我们预先设计的各个预设事件,可以得到一个向量化的表示。
该种方式可以实现对行为数据向量化时的自定义灵活配置,有利于根据不同的应用场景进行适应性设置,有利于分别提升各个场景下的分析精准度。
进一步需要说明的是,根据上述(1)-(4)的方法生产的各个行为向量可以进行向量组合/筛选后在输入至分类器中,其中,向量组合/筛选是一种用于实现维度的增加或减少的向量预处理手段,向量组合指将多个行为向量组合成一个新的行为向量后将组合后的行为向量输入至分类器,向量筛选指从多个行为向量中选出部分(比如一个,若选出部分,依然需要组合为一个)行为向量输入至分类器中。可根据实际得到的行为向量的数量以及各个行为向量所包含的有用信息的多少,选择是否进行行为向量的进一步的组合/筛选处理。
本实施例中主要以上述四种方法进行向量化处理的实现方式为例进行介绍,其他实现方式均可参照本实施例的介绍,在此不再赘述。
实施例三:
请参考图3,图3为本实施例提供的一种终端恶意进程识别装置的结构框图;可以包括:数据获取单元110、向量化处理单元120以及行为分类单元130。本实施例提供的终端恶意进程识别装置可与上述实施例中介绍的终端恶意进程识别方法相互对照。
其中,数据获取单元110主要用于获取终端进程的行为数据;
向量化处理单元120主要用于对行为数据进行向量化处理,生成行为向量;
行为分类单元130主要用于将行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
本实施例提供的终端恶意进程识别装置可以显著提升终端恶意进程的检测精准度,有效保证终端系统运行的安全性。
实施例四:
本实施例提供一种终端恶意进程识别设备,包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述终端恶意进程识别方法的步骤,具体可参照上述实施例中对终端恶意进程识别方法的介绍,在此不再赘述。
请参考图4,为本实施例提供的一种终端恶意进程识别设备的结构示意图,该终端恶意进程识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在终端恶意进程识别设备301上执行存储介质330中的一系列指令操作。
终端恶意进程识别设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中所描述的终端恶意进程识别方法中的步骤可以由本实施例中终端恶意进程识别设备的结构实现。
实施例五:
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如终端恶意进程识别方法的步骤,具体可参照上述实施例中对终端恶意进程识别方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的终端恶意进程识别方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种终端恶意进程识别方法,其特征在于,包括:
获取终端进程的行为数据;
对所述行为数据进行向量化处理,生成行为向量;
将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
2.如权利要求1所述的终端恶意进程识别方法,其特征在于,所述行为数据包括API序列,所述API序列为:基于所述终端进程运行过程中调用各个API的先后顺序所生成的序列;
相应地,所述获取终端进程的行为数据,包括:
从与所述终端进程关联的API日志中提取出所述终端进程的所述API序列。
3.如权利要求2所述的终端恶意进程识别方法,其特征在于,对所述行为数据进行向量化处理,生成行为向量,包括:
基于所述API序列,提取出所述终端进程的API频次、TF-IDF权重、N-Gram信息和/或API出现次序,作为统计量,其中,所述API频次为在所述终端进程中API出现的数量,所述TF-IDF权重为用于评估API对所述终端进程的重要程度的参数,所述N-Gram信息为在所述终端进程中,连续调用N个API序列的频次,所述API出现次序为API在所述终端进程中各个被调用的API中首次出现的顺序;
将所述统计量以向量形式表示,生成所述行为向量。
4.如权利要求2所述的终端恶意进程识别方法,其特征在于,对所述行为数据进行向量化处理,生成行为向量,包括:
将所述API序列进行序列向量化处理,生成所述行为向量。
5.如权利要求1所述的终端恶意进程识别方法,其特征在于,对所述行为数据进行向量化处理,生成行为向量,包括:
将与所述终端进程关联的文件以及所述行为数据作为实体,构造异构关系图,其中,与所述终端进程关联的文件为构造异构关系图的主体;
将所述异构关系图编码至向量空间,生成所述行为向量。
6.如权利要求1所述的终端恶意进程识别方法,其特征在于,对所述行为数据进行向量化处理,生成行为向量,包括:
检测所述行为数据中是否出现预设事件,生成检测记录;
根据所述检测记录生成所述预设事件的发生统计数据;
将所述发生统计数据进行向量化表示处理,生成所述行为向量。
7.如权利要求1至6中任一项所述的终端恶意进程识别方法,其特征在于,在将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果之后,还包括:
根据所述分类结果筛选出恶意进程;
将所述恶意进程输出至用户端。
8.一种终端恶意进程识别装置,其特征在于,包括:
数据获取单元,用于获取终端进程的行为数据;
向量化处理单元,用于对所述行为数据进行向量化处理,生成行为向量;
行为分类单元,用于将所述行为向量输入至预训练的分类器进行恶意进程识别划分,得到分类结果。
9.一种终端恶意进程识别设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现如权利要求1至7任一项所述终端恶意进程识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至7任一项所述终端恶意进程识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728461.6A CN113971285A (zh) | 2020-07-24 | 2020-07-24 | 一种终端恶意进程识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010728461.6A CN113971285A (zh) | 2020-07-24 | 2020-07-24 | 一种终端恶意进程识别方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113971285A true CN113971285A (zh) | 2022-01-25 |
Family
ID=79586106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010728461.6A Pending CN113971285A (zh) | 2020-07-24 | 2020-07-24 | 一种终端恶意进程识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971285A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115051833A (zh) * | 2022-05-12 | 2022-09-13 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107645546A (zh) * | 2017-09-12 | 2018-01-30 | 深圳Tcl新技术有限公司 | 基于安卓系统的文件监听方法、智能设备及存储介质 |
CN108376220A (zh) * | 2018-02-01 | 2018-08-07 | 东巽科技(北京)有限公司 | 一种基于深度学习的恶意样本程序分类方法及系统 |
CN109543410A (zh) * | 2018-11-20 | 2019-03-29 | 北京理工大学 | 一种基于语义映射关联的恶意代码检测方法 |
CN110958220A (zh) * | 2019-10-24 | 2020-04-03 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 |
CN111143842A (zh) * | 2019-12-12 | 2020-05-12 | 广州大学 | 一种恶意代码检测方法及系统 |
CN111191239A (zh) * | 2019-12-30 | 2020-05-22 | 北京邮电大学 | 一种用于应用程序的进程检测方法及系统 |
CN111259388A (zh) * | 2020-01-09 | 2020-06-09 | 中山大学 | 一种基于图卷积的恶意软件api调用序列检测方法 |
-
2020
- 2020-07-24 CN CN202010728461.6A patent/CN113971285A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107645546A (zh) * | 2017-09-12 | 2018-01-30 | 深圳Tcl新技术有限公司 | 基于安卓系统的文件监听方法、智能设备及存储介质 |
CN108376220A (zh) * | 2018-02-01 | 2018-08-07 | 东巽科技(北京)有限公司 | 一种基于深度学习的恶意样本程序分类方法及系统 |
CN109543410A (zh) * | 2018-11-20 | 2019-03-29 | 北京理工大学 | 一种基于语义映射关联的恶意代码检测方法 |
CN110958220A (zh) * | 2019-10-24 | 2020-04-03 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 |
CN111143842A (zh) * | 2019-12-12 | 2020-05-12 | 广州大学 | 一种恶意代码检测方法及系统 |
CN111191239A (zh) * | 2019-12-30 | 2020-05-22 | 北京邮电大学 | 一种用于应用程序的进程检测方法及系统 |
CN111259388A (zh) * | 2020-01-09 | 2020-06-09 | 中山大学 | 一种基于图卷积的恶意软件api调用序列检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115051833A (zh) * | 2022-05-12 | 2022-09-13 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
CN115051833B (zh) * | 2022-05-12 | 2023-12-15 | 中国电子科技集团公司电子科学研究院 | 一种基于终端进程的互通网络异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110958220B (zh) | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 | |
Chen et al. | Automatic ransomware detection and analysis based on dynamic API calls flow graph | |
US11188650B2 (en) | Detection of malware using feature hashing | |
Sharmeen et al. | Avoiding future digital extortion through robust protection against ransomware threats using deep learning based adaptive approaches | |
Andronio et al. | Heldroid: Dissecting and detecting mobile ransomware | |
Sundarkumar et al. | Malware detection via API calls, topic models and machine learning | |
Darshan et al. | Performance evaluation of filter-based feature selection techniques in classifying portable executable files | |
Ahmed et al. | Peeler: Profiling kernel-level events to detect ransomware | |
Jakka | Extracting Malware Threat Patterns on a Mobile Platform | |
Vidal et al. | Online masquerade detection resistant to mimicry | |
Shin et al. | Comparison of anomaly detection accuracy of host-based intrusion detection systems based on different machine learning algorithms | |
Xie et al. | A system-call behavior language system for malware detection using a sensitivity-based LSTM model | |
Kumar et al. | Mlspd-machine learning based spam and phishing detection | |
Mohasseb et al. | Predicting cybersecurity incidents using machine learning algorithms: A case study of Korean SMEs | |
Ma et al. | Using multi-features to reduce false positive in malware classification | |
Alshamrani | Design and analysis of machine learning based technique for malware identification and classification of portable document format files | |
CN113971285A (zh) | 一种终端恶意进程识别方法、装置、设备及可读存储介质 | |
Kar et al. | Learning to detect SQLIA using node centrality with feature selection | |
Chen et al. | Fraud analysis and detection for real-time messaging communications on social networks | |
Wang et al. | Malware detection using cnn via word embedding in cloud computing infrastructure | |
Zyout et al. | Malware classification approaches utilizing binary and text encoding of permissions | |
Wang et al. | PFESG: Permission-based android malware feature extraction algorithm | |
Alzahrani et al. | Sms-based mobile botnet detection module | |
Kim et al. | Feature-chain based malware detection using multiple sequence alignment of API call | |
Laorden et al. | Enhancing scalability in anomaly-based email spam filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |