CN113722713A - 一种恶意代码检测的方法、装置、电子设备及存储介质 - Google Patents

一种恶意代码检测的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113722713A
CN113722713A CN202111061961.XA CN202111061961A CN113722713A CN 113722713 A CN113722713 A CN 113722713A CN 202111061961 A CN202111061961 A CN 202111061961A CN 113722713 A CN113722713 A CN 113722713A
Authority
CN
China
Prior art keywords
model
sample
data set
api
instruction sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111061961.XA
Other languages
English (en)
Inventor
马影
魏国富
周晓勇
夏玉明
刘胜
徐�明
王启凡
梁淑云
余贤喆
陶景龙
殷钱安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN202111061961.XA priority Critical patent/CN113722713A/zh
Publication of CN113722713A publication Critical patent/CN113722713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种恶意代码检测的方法、装置、电子设备及存储介质,所述方法包括:将可执行程序代码在动态沙箱中模拟运行,获取数据集;利用数据集训练XGBoost模型;利用数据集训练TextCNN模型;将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果;本发明的优点在于:恶意代码的识别率高。

Description

一种恶意代码检测的方法、装置、电子设备及存储介质
技术领域
本发明涉及网络安全领域,更具体涉及一种恶意代码检测的方法、装置、电子设备及存储介质。
背景技术
恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码,传统的恶意代码包括蠕虫、木马等,这些恶意代码严重侵犯用户合法权益,甚至将给用户及他人带来巨大的经济或其他形式的利益损失。
传统的恶意程序检测主要通过机器学习进行,但往往单个模型的识别率并不高。中国专利授权公告号CN109379377B,提供一种加密恶意流量检测方法、装置、电子设备及计算机可读存储介质,包括如下步骤:基于正常流量样本和恶意流量样本提取特征;将所述提取特征中适用于深度学习的第一特征输入深度学习模型进行训练,形成基于深度学习的深度检测模型;将深度学习模型输出的特征集输入到机器学习模型,将所述提取特征中适用于机器学习的第二特征输入到所述机器学习模型,形成基于机器学习的机器检测模型;利用所述深度检测模型和所述机器学习检测模型,对真实网络流量进行检测,最终识别出加密恶意流量。该专利可以有效解决人工特征提取不全面的问题。同时可以更加有效地识别恶意加密流量,同时可以确保检测模型在语义上是用户可理解的。但是其属于单独深度检测模型和所述机器学习检测模型进行恶意流量识别,识别的结果考虑的是单一模型的结果,对恶意流量的识别率不高。
发明内容
本发明所要解决的技术问题在于现有技术对恶意流量的识别率不高的问题。
本发明通过以下技术手段实现解决上述技术问题的:一种恶意代码检测的方法,所述方法包括:
步骤一:将可执行程序代码在动态沙箱中模拟运行,获取数据集;
步骤二:利用数据集训练XGBoost模型;
步骤三:利用数据集训练TextCNN模型;
步骤四:将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果,将机器学习模型和深度学习模型相结合,输出的预测结果是融合了两种模型的结果,大大提高了恶意代码的识别率。
进一步地,所述步骤一包括:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。
进一步地,所述步骤二包括:
步骤201:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,再根据每个样本对应的API指令序列,通过相加求平均值的方式获得每个样本对应的词向量;
步骤202:将数据集中API指令序列输入N-gram模型中进行学习,得到每个API指令序列的N-gram特征,再根据每个样本对应的API指令序列的编号,获得每个样本的N-gram特征;
步骤203:将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合,得到融合后的特征向量;
步骤204:将每个样本融合后的特征向量输入到XGBoost模型进行训练,不断调整XGBoost模型的参数,直到XGBoost模型的目标函数收敛时停止训练,得到训练好的XGBoost模型。
进一步地,所述步骤三包括:
步骤301:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量;
步骤302:将每个样本向量输入到TextCNN模型进行训练,不断调整TextCNN模型的参数,直到TextCNN模型的目标函数收敛时停止训练,得到训练好的TextCNN模型。
更进一步地,所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。
更进一步地,步骤301之前还包括:对每个样本的API指令序列进行统一长度的处理,对于API指令序列长度低于预设值的,将其填充到预设值,对于API指令序列长度超过预设值的,只保留前预设值个API。
本发明还提供一种恶意代码检测的装置,所述装置包括:
数据集获取模块,用于将可执行程序代码在动态沙箱中模拟运行,获取数据集;
XGBoost模型训练模块,用于利用数据集训练XGBoost模型;
TextCNN模型训练模块,用于利用数据集训练TextCNN模型;
预测结果输出模块,用于将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
进一步地,所述数据集获取模块还用于:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。
进一步地,所述XGBoost模型训练模块包括:
词向量获取单元,用于将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,再根据每个样本对应的API指令序列,通过相加求平均值的方式获得每个样本对应的词向量;
N-gram特征获取单元,用于将数据集中API指令序列输入N-gram模型中进行学习,得到每个API指令序列的N-gram特征,再根据每个样本对应的API指令序列的编号,获得每个样本的N-gram特征;
特征向量获取单元,用于将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合,得到融合后的特征向量;
XGBoost训练单元,用于将每个样本融合后的特征向量输入到XGBoost模型进行训练,不断调整XGBoost模型的参数,直到XGBoost模型的目标函数收敛时停止训练,得到训练好的XGBoost模型。
进一步地,所述TextCNN模型训练模块包括:
样本向量获取单元,用于将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量;
TextCNN训练单元,用于将每个样本向量输入到TextCNN模型进行训练,不断调整TextCNN模型的参数,直到TextCNN模型的目标函数收敛时停止训练,得到训练好的TextCNN模型。
更进一步地,所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。
进一步地,所述样本向量获取单元之前还包括预处理单元,用于对每个样本的API指令序列进行统一长度的处理,对于API指令序列长度低于预设值的,将其填充到预设值,对于API指令序列长度超过预设值的,只保留前预设值个API。
本发明还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序指令,所述处理器执行所述计算机程序指令时,实现上述方法步骤。
本发明还提供一种计算机可读存储介质,存储有计算机程序指令,所述计算机程序指令在被处理器调用和执行时实现上述方法步骤。
本发明的优点在于:本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果,将机器学习模型和深度学习模型相结合,输出的预测结果是融合了两种模型的结果,大大提高了恶意代码的识别率。。
附图说明
图1为本发明实施例所公开的一种恶意代码检测的方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种恶意代码检测的方法,所述方法包括:
S1:将可执行程序代码在动态沙箱中模拟运行,获取数据集;具体过程为:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。这样就将恶意程序检测问题转换为对API指令序列的文本分类问题,可根据得到的API序列对程序文件进行多分类(本实施例中分八个类别)预测,训练数据字段如表1所示,本实施例中只用到文件编号、文件标签、API名称以及API调用的顺序编号。
表1数据字段
Figure BDA0003256727880000071
S2:利用数据集训练XGBoost模型;XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,是一种基于集成思想的机器学习算法。其目标函数为
Figure BDA0003256727880000072
其中i表示第i个样本,
Figure BDA0003256727880000073
表示第i个样本的预测误差,误差越小预测结果越确,∑kΩ(fk)表示模型的复杂度的函数,复杂度越低泛化能力越强,可防止过拟合问题。此外,XGBoost还支持并行化,可大大提升训练速度。因此,XGBoost在文本分类问题中,能够得到很好的分类效果。以下详细介绍XGBoost模型训练过程为:
步骤201:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,再根据每个样本对应的API指令序列,通过相加求平均值的方式获得每个样本对应的词向量;本实施例中数据集包含301个API。
步骤202:将数据集中API指令序列输入N-gram模型中进行学习,得到每个API指令序列的N-gram特征,再根据每个样本对应的API指令序列的编号,获得每个样本的N-gram特征;
步骤203:将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合,得到融合后的特征向量;
步骤204:将每个样本融合后的特征向量输入到XGBoost模型进行训练,不断调整XGBoost模型的参数,直到XGBoost模型的目标函数收敛时停止训练,得到训练好的XGBoost模型。需要说明的是,XGBoost是一种应用于梯度提升算法的分类器,为了提高模型的稳定性和预测精度,在训练数据时将数据进行10折分层采样。再通过调参等手段得到XGBoost分类器,最终得到结果为测试数据集每个样本对应八个恶意程序类型的概率矩阵。
S3:利用数据集训练TextCNN模型;TextCNN是Yoon Kim在论文(2014EMNLP)Convolutional Neural Networks for Sentence Classification中提出的。将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。训练TextCNN模型的具体过程为:
步骤301:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量;
步骤302:将每个样本向量输入到TextCNN模型进行训练,不断调整TextCNN模型的参数,直到TextCNN模型的目标函数收敛时停止训练,得到训练好的TextCNN模型。为了提高模型的预测能力,将模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20],在全局最大池化的基础上添加了全局平均池化。由于TextCNN无法对变长序列进行处理,再根据训练集中每个文件对应的API个数分布表,为了尽可能的保存序列信息,填充每个API序列统一长度50000,超过50000的序列只保留前50000个API。
为了抑制过拟合现象,采用了Dropout、标签平滑等方法。标签平滑是将标签进行变换。
转换前的标签为one-hot表示:
Figure BDA0003256727880000091
转换后的标签表示:
Figure BDA0003256727880000092
n为类别个数,本实施例中类别个数为8,∈为误差,如果只是预测对应的类别,∈取0.1效果就会提升,如果要预测每个类别的概率,∈取值需要很小才会有效果,本实例中∈取0.005。
通过调参、抑制过拟合等手段训练深度学习模型,输出结果为测试数据集每个样本对应八个恶意程序类型的概率矩阵。
S4:将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
通过以上技术方案,本发明将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果,将机器学习模型和深度学习模型相结合,输出的预测结果是融合了两种模型的结果,大大提高了恶意代码的识别率。
实施例2
与本发明实施例1相对应的,本发明实施例2提供一种恶意代码检测的装置,所述装置包括:
数据集获取模块,用于将可执行程序代码在动态沙箱中模拟运行,获取数据集;
XGBoost模型训练模块,用于利用数据集训练XGBoost模型;
TextCNN模型训练模块,用于利用数据集训练TextCNN模型;
预测结果输出模块,用于将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
具体的,所述数据集获取模块还用于:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。
具体的,所述XGBoost模型训练模块包括:
词向量获取单元,用于将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,再根据每个样本对应的API指令序列,通过相加求平均值的方式获得每个样本对应的词向量;
N-gram特征获取单元,用于将数据集中API指令序列输入N-gram模型中进行学习,得到每个API指令序列的N-gram特征,再根据每个样本对应的API指令序列的编号,获得每个样本的N-gram特征;
特征向量获取单元,用于将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合,得到融合后的特征向量;
XGBoost训练单元,用于将每个样本融合后的特征向量输入到XGBoost模型进行训练,不断调整XGBoost模型的参数,直到XGBoost模型的目标函数收敛时停止训练,得到训练好的XGBoost模型。
具体的,所述TextCNN模型训练模块包括:
样本向量获取单元,用于将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量;
TextCNN训练单元,用于将每个样本向量输入到TextCNN模型进行训练,不断调整TextCNN模型的参数,直到TextCNN模型的目标函数收敛时停止训练,得到训练好的TextCNN模型。
更具体的,所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。
具体的,所述样本向量获取单元之前还包括预处理单元,用于对每个样本的API指令序列进行统一长度的处理,对于API指令序列长度低于预设值的,将其填充到预设值,对于API指令序列长度超过预设值的,只保留前预设值个API。
实施例3
与实施例1相对应的本发明实施例3还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序指令,所述处理器执行所述计算机程序指令时,实现实施例1所述的方法步骤。
实施例4
与实施例1相对应的本发明实施例4还提供一种计算机可读存储介质,存储有计算机程序指令,所述计算机程序指令在被处理器调用和执行时实现实施例1所述的方法步骤。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种恶意代码检测的方法,其特征在于,所述方法包括:
步骤一:将可执行程序代码在动态沙箱中模拟运行,获取数据集;
步骤二:利用数据集训练XGBoost模型;
步骤三:利用数据集训练TextCNN模型;
步骤四:将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
2.根据权利要求1所述的一种恶意代码检测的方法,其特征在于,所述步骤一包括:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。
3.根据权利要求1所述的一种恶意代码检测的方法,其特征在于,所述步骤二包括:
步骤201:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,再根据每个样本对应的API指令序列,通过相加求平均值的方式获得每个样本对应的词向量;
步骤202:将数据集中API指令序列输入N-gram模型中进行学习,得到每个API指令序列的N-gram特征,再根据每个样本对应的API指令序列的编号,获得每个样本的N-gram特征;
步骤203:将每个样本对应的词向量与每个样本的N-gram特征进行拼接融合,得到融合后的特征向量;
步骤204:将每个样本融合后的特征向量输入到XGBoost模型进行训练,不断调整XGBoost模型的参数,直到XGBoost模型的目标函数收敛时停止训练,得到训练好的XGBoost模型。
4.根据权利要求1所述的一种恶意代码检测的方法,其特征在于,所述步骤三包括:
步骤301:将数据集中API指令序列输入word2vec模型中进行学习,获得每个API指令序列对应的词向量,在每个API指令序列对应的词向量中添加零向量使得每个API指令序列对应的词向量维度相同得到样本向量;
步骤302:将每个样本向量输入到TextCNN模型进行训练,不断调整TextCNN模型的参数,直到TextCNN模型的目标函数收敛时停止训练,得到训练好的TextCNN模型。
5.根据权利要求4所述的一种恶意代码检测的方法,其特征在于,所述TextCNN模型的模型参数filter_size设置为[2,4,6,8,10,12,14,16,18,20]。
6.根据权利要求4所述的一种恶意代码检测的方法,其特征在于,步骤301之前还包括:对每个样本的API指令序列进行统一长度的处理,对于API指令序列长度低于预设值的,将其填充到预设值,对于API指令序列长度超过预设值的,只保留前预设值个API。
7.一种恶意代码检测的装置,其特征在于,所述装置包括:
数据集获取模块,用于将可执行程序代码在动态沙箱中模拟运行,获取数据集;
XGBoost模型训练模块,用于利用数据集训练XGBoost模型;
TextCNN模型训练模块,用于利用数据集训练TextCNN模型;
预测结果输出模块,用于将实时采集的数据分别输入训练好的XGBoost模型和训练好的TextCNN模型,将两个模型的输出结果进行归一化处理得到最终的预测结果。
8.根据权利要求7所述的一种恶意代码检测的装置,其特征在于,所述数据集获取模块还用于:将windows可执行程序在动态沙箱中模拟运行,得到每个样本对应的API指令序列,每个样本的字段包括文件编号、文件标签、文件调用的API名称、API调用的顺序编号,其中,文件标签类型包括正常、勒索病毒、挖矿程序、DDOS木马、蠕虫病毒、感染型病毒、后门程序以及木马程序。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序指令,所述处理器执行所述计算机程序指令时,实现权利要求1-6任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述计算机程序指令在被处理器调用和执行时实现权利要求1-6任一项所述的方法步骤。
CN202111061961.XA 2021-09-10 2021-09-10 一种恶意代码检测的方法、装置、电子设备及存储介质 Pending CN113722713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111061961.XA CN113722713A (zh) 2021-09-10 2021-09-10 一种恶意代码检测的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111061961.XA CN113722713A (zh) 2021-09-10 2021-09-10 一种恶意代码检测的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113722713A true CN113722713A (zh) 2021-11-30

Family

ID=78683171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111061961.XA Pending CN113722713A (zh) 2021-09-10 2021-09-10 一种恶意代码检测的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113722713A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113352A (zh) * 2023-10-25 2023-11-24 西安热工研究院有限公司 Dcs上位机恶意可执行文件检测方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709332A (zh) * 2016-12-13 2017-05-24 江苏通付盾科技有限公司 应用检测的方法及装置
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN111753290A (zh) * 2020-05-26 2020-10-09 郑州启明星辰信息安全技术有限公司 软件类型的检测方法及相关设备
CN111832019A (zh) * 2020-06-10 2020-10-27 国家计算机网络与信息安全管理中心 基于生成对抗网络的恶意代码检测方法
CN112052451A (zh) * 2020-08-17 2020-12-08 北京兰云科技有限公司 一种webshell检测方法和装置
CN112381142A (zh) * 2020-11-13 2021-02-19 海南大学 基于重要特征的具有可解释性对抗样本生成方法及系统
CN112464996A (zh) * 2020-11-09 2021-03-09 中国科学院沈阳自动化研究所 基于LSTM-XGBoost的智能电网入侵检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709332A (zh) * 2016-12-13 2017-05-24 江苏通付盾科技有限公司 应用检测的方法及装置
CN109948340A (zh) * 2019-03-27 2019-06-28 集美大学 一种卷积神经网络和XGBoost相结合的PHP-Webshell检测方法
CN111753290A (zh) * 2020-05-26 2020-10-09 郑州启明星辰信息安全技术有限公司 软件类型的检测方法及相关设备
CN111832019A (zh) * 2020-06-10 2020-10-27 国家计算机网络与信息安全管理中心 基于生成对抗网络的恶意代码检测方法
CN112052451A (zh) * 2020-08-17 2020-12-08 北京兰云科技有限公司 一种webshell检测方法和装置
CN112464996A (zh) * 2020-11-09 2021-03-09 中国科学院沈阳自动化研究所 基于LSTM-XGBoost的智能电网入侵检测方法
CN112381142A (zh) * 2020-11-13 2021-02-19 海南大学 基于重要特征的具有可解释性对抗样本生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113352A (zh) * 2023-10-25 2023-11-24 西安热工研究院有限公司 Dcs上位机恶意可执行文件检测方法、系统、设备及介质
CN117113352B (zh) * 2023-10-25 2024-02-06 西安热工研究院有限公司 Dcs上位机恶意可执行文件检测方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
WO2019096099A1 (zh) Dga域名实时检测方法和装置
CN106709345B (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
US11574052B2 (en) Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
CN113518063B (zh) 基于数据增强和BiLSTM的网络入侵检测方法及系统
CN113596007B (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN107682348A (zh) 基于机器学习的dga域名快速判别方法及装置
CN111753290B (zh) 软件类型的检测方法及相关设备
CN110826060A (zh) 物联网恶意软件的可视化分类方法、装置与电子设备
WO2022134805A1 (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN112487422B (zh) 一种恶意文档检测方法、装置、电子设备及存储介质
CN114357443A (zh) 基于深度学习的恶意代码检测方法、设备与存储介质
CN113722713A (zh) 一种恶意代码检测的方法、装置、电子设备及存储介质
CN105468972B (zh) 一种移动终端文件检测方法
CN111553386B (zh) 一种基于AdaBoost和CNN的入侵检测方法
WO2024051196A1 (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN113378156B (zh) 一种基于api的恶意文件检测方法和系统
CN115713669A (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN112182575A (zh) 基于lstm的攻击数据集恶意片段标注方法及系统
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN112883372A (zh) 跨站脚本攻击检测方法和装置
CN111079143A (zh) 一种基于多维特征图的木马检测方法
CN111860662B (zh) 一种相似性检测模型的训练方法及装置、应用方法及装置
CN114499906B (zh) 一种dga域名检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination