CN111428236A - 一种恶意软件的检测方法、装置、设备及可读介质 - Google Patents
一种恶意软件的检测方法、装置、设备及可读介质 Download PDFInfo
- Publication number
- CN111428236A CN111428236A CN202010152294.5A CN202010152294A CN111428236A CN 111428236 A CN111428236 A CN 111428236A CN 202010152294 A CN202010152294 A CN 202010152294A CN 111428236 A CN111428236 A CN 111428236A
- Authority
- CN
- China
- Prior art keywords
- malicious software
- training
- software
- malware
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000006870 function Effects 0.000 claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000013135 deep learning Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 244000035744 Hura crepitans Species 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 241000700605 Viruses Species 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002155 anti-virotic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/03—Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
- G06F2221/033—Test or assess software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Virology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种恶意软件的检测方法,包括以下步骤:基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;将若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及获取待测软件系统函数的调用信息,并将调用信息分批次发送至恶意软件检测模型,以进行分类判断。本发明还公开了一种恶意软件的检测装置、计算机设备和可读存储介质。本发明通过使用多种深度学习算法得到不同的训练模型并进行整合得到恶意软件检测模型,对系统函数调用实时检测,分批次进行分类判断,提高了恶意软件检测效率和时效性。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种恶意软件的检测方法、装置、设备及可读介质。
背景技术
随着当今世界信息技术的高速发展,人们正在享受这互联网带来的工作和生活便利的同时,也时时刻刻收到计算机病毒的威胁。计算机病毒代码编写技术从最简单的功能性破坏到采用多态、加壳等技术以避开杀毒软件的检测。基于行为的恶意软件检测及响应技术越来越受到各个厂商的青睐。这种基于行为检测的核心功能就是给每个系统函数增加hook,用以获取函数的调用信息。
传统的基于行为的检测方式大都采用基于函数调用的行为特征通过硬编码的方式进行匹配,来判断软件是否为恶意软件。针对某个需要hook的系统函数进行hook代码的编写,在软件运行的过程中,通过hook获取系统函数的调用信息,将这些信息传递给行为逻辑判断模块,并通过比较异常行为库中的数据,判断此软件是否为恶意软件。此种方式存在的问题是,需要开发人员熟悉恶意软件的运行原理,根据恶意软件特征来完成大量的编码工作,将恶意软件的运行原理抽象为异常行为库和行为逻辑判断模型,同时还要求开发人员熟悉操作操作系统,能够在系统适当的未知,对系统函数hook,对开发人员的技术要求和专业要求比较高。同时开发人员也消耗大量的事件进行编码工作,对于一些高级的、复杂的恶意软件,其逻辑判断也更复杂,其效率和准确性也将受到病毒发展的影响。随着恶意软件的高级化、规模化、复杂化、服务化的发展,这种传统的人工编码,处理逻辑判断的方式,不再适应恶意软件的发展。
而最近几年随着机器学习和深度学习这类人工智能(AI)技术的发展,人工智能技术也应用在了主机恶意软件的检测技术上,通过使用软件样本库在沙箱或其他环境中运行获取每个样本的系统调用信息来组成机器学习的样本库。通过单一的机器学习算法来获取软件分类判断模型。此类技术在使用的过程中,通过hook的方式,获取软件在环境中运行的系统函数调用信息,这些函数信息组成了一个程序运行的语料,然后这些函数信息通过已经训练好的软件分类判断模型,来完成软件的分类。这种检测技术,使用了单一的机器学习算法。如今CNN技术发展迅速,这类技术方案中使用的技术也大多数是采用某一CNN深度学习模型来完成,但是采用深度模型技术进行实现,这就造成在分类的正确性上存在着不同的差异,且一般正确率都不是很高。另一方面,这类技术实现时,是在软件运行结束后,获取软件整个生命周期的系统函数调用信息,才引入软件分类判断模型,而不是在软件运行过程中进行实时的判断,这就造成此类技术存在检测效率低,时效性较差等问题。
发明内容
有鉴于此,本发明实施例的目的在于提出一种恶意软件的检测方法、装置、设备及可读介质,通过使用多种深度学习算法得到不同的训练模型并进行整合得到恶意软件检测模型,对系统函数调用实时检测,分批次进行分类判断,提高了恶意软件检测效率和时效性。
基于上述目的,本发明实施例的一方面提供了一种恶意软件的检测方法,包括如下步骤:基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;将若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及获取待测软件系统函数的调用信息,并将调用信息分批次发送至恶意软件检测模型,以进行分类判断。
在一些实施方式中,基于若干深度学习算法,对恶意软件训练集进行训练包括:获取若干恶意软件文件,分别在沙箱中运行恶意软件文件,以获取文件运行过程中系统函数的调用信息,生成恶意软件训练集;对恶意软件训练集进行预处理,得到一个由多个系统函数调用和其参数组成的字符串;基于若干深度学习算法对字符串进行训练。
在一些实施方式中,基于若干深度学习算法对字符串进行训练包括:基于TF_IDF算法对字符串进行训练;和/或基于Test_CNN算法对字符串进行训练;和/或基于CNN_LSTM算法对字符串进行训练;和/或基于多视野LSTM算法对字符串进行训练;和/或基于Test_CNN_LSTM算法对字符串进行训练。
在一些实施方式中,将若干恶意软件检测子模型赋予不同权重并进行整合包括:基于xgboost算法,将若干恶意软件检测子模型赋予不同的权重。
在一些实施方式中,获取待测软件系统函数的调用信息包括:通过hook的方式,获取待测软件系统函数的名称、调用顺序和参数。
在一些实施方式中,将调用信息分批次发送至恶意软件检测模型包括:响应于获取到的系统函数的数量达到预定数量的整数倍,将获取到的全部系统函数的调用信息发送至恶意软件检测模型。
在一些实施方式中,还包括:基于分类判断得到的结果,对待测软件进行放行、监控或关闭处理。
本发明实施例的另一方面,还提供了一种恶意软件的检测装置,包括:训练模块,配置用于基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;整合模块,配置用于将若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及分类判断模块,配置用于获取待测软件系统函数的调用信息,并将调用信息分批次发送至恶意软件检测模型,以进行分类判断。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行上述方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:通过使用多种深度学习算法得到不同的训练模型并进行整合得到恶意软件检测模型,对系统函数调用实时检测,分批次进行分类判断,提高了恶意软件检测效率和时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的恶意软件的检测方法的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种恶意软件的检测方法的实施例。图1示出的是本发明提供的恶意软件的检测方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
S1、基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;
S2、将若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及
S3、获取待测软件系统函数的调用信息,并将调用信息分批次发送至恶意软件检测模型,以进行分类判断。
在本实施例中,通过使用多种算法及算法的结合训练出不同的模型,并将这些模型使用xgboost算法(Extreme Gradient Boosting,极端梯度提升)再次进行整合,得到新的恶意软件检测模型。通过函数钩子hook的方式获取软件运行的系统函数信息,每100个函数为一组,分批次调入恶意软件检测模型中,对待测软件进行实时判断,并进行分类。
xgboost算法是一种基于决策树的集成机器学习算法,采用了梯度提升(GradientBoosting)框架。在预测有关非结构化数据(如图像、文本等)的问题时,人工神经网络往往表现得比其他算法或框架更出色。但在有关中小型结构/表格数据方面,基于决策树的算法则是目前为止的最佳方式。
在本发明的一些实施例中,基于若干深度学习算法,对恶意软件训练集进行训练包括:
获取若干恶意软件文件,分别在沙箱中运行恶意软件文件,以获取文件运行过程中系统函数的调用信息,生成恶意软件训练集。收集系统下各种可执行程序的文件,在沙箱中运行,以获取文件运行过程中系统函数的调用信息。其中的信息包括:文件的file_id字段,用于分类的category_id字段,用于表示系统函数名称的api字段,用于记录调用心痛函数的线程信息的tid字段,用于记录线程系统函数调用顺序的index字段,用于记录系统函数执行时参数的args字段。其中category_id字段可以将文件分为:0-正常/1-勒索病毒/2-挖矿程序/3-DDoS木马/4-蠕虫病毒/5-感染型病毒/6-后门程序/7-木马程序。
对恶意软件训练集进行预处理,得到一个由多个系统函数调用和其参数组成的字符串。将上述步骤获取的数据进行预处理,把每个样本的file_id字段进行分组,然后对每个分组中的tid字段再次进行分组,对每个tid中的系统函数的调用顺序按照index字段的顺序进行排序,api字段后跟着系统函数的args字段,最终得到一个由多个系统函数调用和其参数组成的超长的字符串。
基于若干深度学习算法对字符串进行训练。在本发明的一些实施例中,基于若干深度学习算法对字符串进行训练包括:
基于TF_IDF算法对字符串进行训练。使用ng-gram的TF_IDF算法,提取连续的1-5的TF_IDF特征,组成样本的特征,使用xgboost进行简单分类,这样训练得到一个TF_IDF模型。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,TF意思是词频(TermFrequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要性。字词的重要性随着它在文件中出现的次数成正比,但同时随着它在语料库中出现的频率成反比下降。
基于Test_CNN算法对字符串进行训练。使用Test_CNN算法进行特征提取并分类,由于样本的序列长度较长,将样本序列长度定位20000,使用2,3,4,5四个不同的卷积核提取不同的视野信息,然后将其结果拼接在一起,输入到一个全连接层进行判断分类,得到一个Test_CNN模型。Test_CNN算法是一种使用CNN算法,针对文本使用CNN,完成对文本的分类。
基于CNN_LSTM算法对字符串进行训练。为了获取序列的上下文信息,使用CNN算法和LSTM算法的组合形式,使用CNN算法对预处理后的样本进行特征提取,降低序列的长度,然后使用LSTM算法进行模型训练。这样做的好处是使得LSTM算法的训练速度会有大量的提高。获得一个CNN_LSTM模型。LSTM(长短的期记忆网络)算法是一种时间循环神经网络,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件,在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。CNN_LSTM算法在输入数据中使用卷积神经网络(CNN)层做特征提取并结合LSTM算法来支持序列预测,具有适用于各种输入任务和输出的视觉任务的灵活性。
基于多视野LSTM算法对字符串进行训练。利用Test_CNN算法使用3,5,7三种卷积核对词嵌入向量进行特征提取,获取不用的视野情况,然后对每次提取完之后使用平均池化,获取连续序列的信息,以此获得三个相同大小的特征向量v1,v2,v3,使用Max_elements(v1,v2,v3),对每个位置的元素,在三个向量里取最大值作为新的向量,最后三个重新构成一个新的向量,使用这个新的向量,利用LSTM算法进行模型训练,获得一个多视野LSTM模型。
基于Test_CNN_LSTM算法对字符串进行训练。与上述模型类似,将最后的三个向量拼接成一个长序列,然后带入LSTM模型,获得一个Test_CNN_LSTM模型。
深度学习算法对字符串进行训练可以包括采用上述一种或多种算法进行训练。
需要特别指出的是,上述对字符串进行训练的各个深度学习算法可以为其中一种或多种的结合。
在本发明的一些实施例中,将若干恶意软件检测子模型赋予不同权重并进行整合包括:基于xgboost算法,将若干恶意软件检测子模型赋予不同的权重。使用功能xgboost获取的一个判断模型,将不同的模型,赋予不同的权重,可以更大限度的发挥多模型的判断能力,提高模型判断的正确率。
在本发明的一些实施例中,获取待测软件系统函数的调用信息包括:通过hook的方式,获取待测软件系统函数的名称、调用顺序和参数。在正在运行的windows上使用现有传统对系统函数API做hook处理,通过增加windows系统函数hook的方式,可以实时获取程序运行时,系统函数调用信息的情况,这包含了系统函数的名称,调用顺序,参数等信息。
在本发明的一些实施方式中,将调用信息分批次发送至恶意软件检测模型包括:响应于获取到的系统函数的数量达到预定数量的整数倍,将获取到的全部系统函数的调用信息发送至恶意软件检测模型。调用信息分批次,程序运行的过程中,每100个函数为一组,分批次发送给恶意软件检测模型,进行文件类型的判断。将当前获取的系统函数调用信息进行发送,如第一次发送100个,第二次发送第一次和第二次要发送的全部系统函数的调用信息,即是100+100个。
在本发明的一些实施方式中,还包括:基于分类判断得到的结果,对待测软件进行放行、监控或关闭处理。将结果发送给响应模块,响应模块基于检测结果对待测软件做出相应的处理,如放行、监控、关闭或加入黑名单等操作。
需要特别指出的是,上述恶意软件的检测方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于恶意软件的检测方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种恶意软件的检测装置,包括:训练模块,配置用于基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;整合模块,配置用于将若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及分类判断模块,配置用于获取待测软件系统函数的调用信息,并将调用信息分批次发送至恶意软件检测模型,以进行分类判断。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如上方法步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,恶意软件的检测装置方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种恶意软件的检测方法,其特征在于,包括以下步骤:
基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;
将所述若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及
获取待测软件系统函数的调用信息,并将所述调用信息分批次发送至所述恶意软件检测模型,以进行分类判断。
2.根据权利要求1所述的恶意软件的检测方法,其特征在于,基于若干深度学习算法,对恶意软件训练集进行训练包括:
获取若干恶意软件文件,分别在沙箱中运行所述恶意软件文件,以获取文件运行过程中系统函数的调用信息,生成恶意软件训练集;
对所述恶意软件训练集进行预处理,得到一个由多个系统函数调用和其参数组成的字符串;
基于若干深度学习算法对所述字符串进行训练。
3.根据权利要求2所述的恶意软件的检测方法,其特征在于,基于若干深度学习模型对所述字符串进行训练包括:
基于TF_IDF模型对所述字符串进行训练;和/或
基于Test_CNN模型对所述字符串进行训练;和/或
基于CNN_LSTM模型对所述字符串进行训练;和/或
基于多视野LSTM模型对所述字符串进行训练;和/或
基于Test_CNN_LSTM模型对所述字符串进行训练。
4.根据权利要求1所述的恶意软件的检测方法,其特征在于,将所述若干恶意软件检测子模型赋予不同权重并进行整合包括:
基于xgboost算法,将所述若干恶意软件检测子模型赋予不同的权重。
5.根据权利要求1所述的恶意软件的检测方法,其特征在于,获取待测软件系统函数的调用信息包括:
通过hook的方式,获取待测软件系统函数的名称、调用顺序和参数。
6.根据权利要求1所述的恶意软件的检测方法,其特征在于,将所述调用信息分批次发送至所述恶意软件检测模型包括:
响应于获取到的所述系统函数的数量达到预定数量的整数倍,将获取到的全部所述系统函数的调用信息发送至所述恶意软件检测模型。
7.根据权利要求1所述的恶意软件的检测方法,其特征在于,还包括:
基于所述分类判断得到的结果,对所述待测软件进行放行、监控或关闭处理。
8.一种恶意软件的检测装置,其特征在于,包括:
训练模块,配置用于基于若干深度学习算法,对恶意软件训练集进行训练,得到若干恶意软件检测子模型;
整合模块,配置用于将所述若干恶意软件检测子模型赋予不同权重并进行整合,以得到恶意软件检测模型;以及
分类判断模块,配置用于获取待测软件系统函数的调用信息,并将所述调用信息分批次发送至所述恶意软件检测模型,以进行分类判断。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010152294.5A CN111428236A (zh) | 2020-03-06 | 2020-03-06 | 一种恶意软件的检测方法、装置、设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010152294.5A CN111428236A (zh) | 2020-03-06 | 2020-03-06 | 一种恶意软件的检测方法、装置、设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428236A true CN111428236A (zh) | 2020-07-17 |
Family
ID=71553428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010152294.5A Withdrawn CN111428236A (zh) | 2020-03-06 | 2020-03-06 | 一种恶意软件的检测方法、装置、设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428236A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347479A (zh) * | 2020-10-21 | 2021-02-09 | 北京天融信网络安全技术有限公司 | 恶意软件检测的误报纠正方法、装置、设备和存储介质 |
CN112861127A (zh) * | 2021-01-21 | 2021-05-28 | 卓望数码技术(深圳)有限公司 | 基于机器学习的恶意软件检测方法、装置、存储介质 |
CN113568836A (zh) * | 2021-07-30 | 2021-10-29 | 江苏易安联网络技术有限公司 | 多时间序列的样本特征提取方法以应用其的软件检测方法 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN117077141A (zh) * | 2023-10-13 | 2023-11-17 | 国网山东省电力公司鱼台县供电公司 | 一种智能电网恶意软件检测方法及系统 |
-
2020
- 2020-03-06 CN CN202010152294.5A patent/CN111428236A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347479A (zh) * | 2020-10-21 | 2021-02-09 | 北京天融信网络安全技术有限公司 | 恶意软件检测的误报纠正方法、装置、设备和存储介质 |
CN112347479B (zh) * | 2020-10-21 | 2021-08-24 | 北京天融信网络安全技术有限公司 | 恶意软件检测的误报纠正方法、装置、设备和存储介质 |
CN112861127A (zh) * | 2021-01-21 | 2021-05-28 | 卓望数码技术(深圳)有限公司 | 基于机器学习的恶意软件检测方法、装置、存储介质 |
CN113568836A (zh) * | 2021-07-30 | 2021-10-29 | 江苏易安联网络技术有限公司 | 多时间序列的样本特征提取方法以应用其的软件检测方法 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN117077141A (zh) * | 2023-10-13 | 2023-11-17 | 国网山东省电力公司鱼台县供电公司 | 一种智能电网恶意软件检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428236A (zh) | 一种恶意软件的检测方法、装置、设备及可读介质 | |
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
CN109905385B (zh) | 一种webshell检测方法、装置及系统 | |
CN109241740B (zh) | 恶意软件基准测试集生成方法及装置 | |
CN116361801B (zh) | 基于应用程序接口语义信息的恶意软件检测方法及系统 | |
CN111931179B (zh) | 基于深度学习的云端恶意程序检测系统及方法 | |
CN111753290B (zh) | 软件类型的检测方法及相关设备 | |
CN109598124A (zh) | 一种webshell检测方法以及装置 | |
CN111614599A (zh) | 基于人工智能的webshell检测方法和装置 | |
CN108664791B (zh) | 一种超文本预处理器代码中的网页后门检测方法及装置 | |
CN104680065A (zh) | 病毒检测方法、装置及设备 | |
CN113360912A (zh) | 恶意软件检测方法、装置、设备及存储介质 | |
CN108491228A (zh) | 一种二进制漏洞代码克隆检测方法及系统 | |
CN107423621A (zh) | 一种针对恶意软件变种的高效识别算法 | |
CN114047929A (zh) | 基于知识增强的用户定义函数识别方法、装置及介质 | |
Feng et al. | Seqmobile: An efficient sequence-based malware detection system using rnn on mobile devices | |
CN111522736A (zh) | 一种软件缺陷预测方法、装置、电子设备及计算机存储介质 | |
Kuang et al. | Automated data-processing function identification using deep neural network | |
CN110941828A (zh) | 基于AndroGRU的安卓恶意软件静态检测方法 | |
CN114817925B (zh) | 基于多模态图特征的安卓恶意软件检测方法及系统 | |
KR20200067044A (ko) | 악성 파일 탐지 방법 및 장치 | |
CN114676428A (zh) | 基于动态特征的应用程序恶意行为检测方法及设备 | |
CN114662099A (zh) | 基于ai模型的应用程序恶意行为检测方法及设备 | |
CN112764791A (zh) | 一种增量更新的恶意软件检测方法及系统 | |
CN113971282A (zh) | 一种基于ai模型的恶意应用程序检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200717 |